Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Amostragem e distribuições amostrais 1.2 1 Conceitos e técnicas de amostragem aleatória Em estatística queremos estudar fenómenos de natureza aleatória e, em particular, determinar um conjunto de propriedades que os caracterizam. Esses fenómenos estão associados a populações que podem ser finitas ou infinitas. Enquanto, no caso de populações finitas, pode ser possível (mas raramente aconselhável) obter a informação pretendida através de uma enumeração completa da população, já no caso de populações infinitas tal não é possível, restando-nos como alternativa recorrer à amostragem. A amostragem é uma técnica de selecção de elementos de uma população para se estimar propriedades e características dessa população. População é o conjunto de todos os objectos cujas características pretendemos estudar e amostra é qualquer subconjunto finito da população. A média e o desvio padrão, são exemplos de medidas usadas para descrever amostras e populações. Quando estas medidas se referem às características de uma amostra chamam-se estatísticas, e quando se referem às características da população chamam-se parâmetros. As estatísticas estimam o valor dos parâmetros que pretendemos normalmente determinar. 1.1 Razões para a utilização de uma amostra A utilização de uma amostra e não da população num estudo estatístico deve-se, pelo menos, a uma das seguintes razões: • a população ser infinita; • economia de dinheiro; • economia de tempo; • comodidade; • testes destrutivos. O sucesso de um estudo estatístico, baseado no estudo de uma amostra, depende da escolha desta. Uma amostra mal escolhida conduz a conclusões erradas. Métodos de amostragem O processo de obtenção ou extracção de amostras designa-se por amostragem. De um modo geral, deve ter-se os seguintes cuidados na formação de uma amostra: • Imparcialidade - todos os elementos devem ter a mesma oportunidade de fazer parte da amostra; • Representatividade - deve conter em proporção tudo o que a população possui, qualitativa e quantitativamente; • Tamanho - deve ser suficientemente grande de modo que as características da amostra se aproximem, tanto quanto possível das características da população. Existem dois tipos de métodos de amostragem: • aleatórios; • determinísticos. Na amostragem aleatória, qualquer dos elementos da população pode entrar na amostra de acordo com uma probabilidade conhecida. Na amostragem determinística, a opinião e a experiência individual são usadas para identificar os elementos da população a incluir na amostra. A amostragem aleatória permite efectuar uma análise estatística mais rigorosa do que a amostragem determinística. Vamos considerar apenas esquemas de amostragem aleatória, para que posteriormente se possa usar inferência estatística, a qual permite que a partir de uma amostra, se façam extrapolações dos resultados para toda a população. Neste caso, os elementos a amostrar são escolhidos de modo aleatório e cada elemento da população tem uma probabilidade conhecida de ser seleccionado para a amostra. É ainda possível determinar a precisão das estimativas amostrais para a característica em estudo e efectuar projecções e inferências sobre a população da qual se retirou a amostra. A amostragem pode ser: • com reposição: se o elemento seleccionado volta ao quadro de amostragem depois de observado; • sem reposição: se o elemento seleccionado não volta ao quadro de amostragem. Amostragem e distribuições amostrais C. Fernandes & P. Ramos 1/18 Amostragem e distribuições amostrais C. Fernandes & P. Ramos 2/18 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Dentro da amostragem aleatória, as técnicas realçamos a amostragem simples, a amostragem sistemática, a amostragem estratificada, amostragem por grupos, por fases e por conglomerados. Na amostragem aleatória simples qualquer elemento da população tem a mesma probabilidade de ser escolhido e é seleccionado independentemente dos outros. A amostra de dimensão n é seleccionada usando um processo aleatório, por exemplo, usando uma tabela de números aleatórios ou através de geração números aleatórios. Qualquer uma das NCn amostras, de n elementos, retirada de uma população de dimensão N, tem a mesma probabilidade NC1 n de ser seleccionada. Para obter uma amostra aleatória simples seguem-se os seguintes passos: no qual a população é particionada em várias subpopulações ou estratos. Na primeira fase faz-se a construção dos estratos. Os estratos devem ser mutuamente exclusivos e exaustivos de modo a que: • numerar consecutivamente os elementos da população de 1 a N; • escolher n números utilizando uma tabela de números aleatórios, ou através da geração computacional de números aleatórios. Os números têm que ser distintos e estar situados entre 1 e N; • Recolher para a amostra, os registos da(s) característica(s) de interesse, para os elementos da população correspondentes aos números aleatórios escolhidos. Por exemplo, se se pretender seleccionar uma amostra de 100 alunos de uma determinada Universidade, atribui-se um número a cada um dos alunos da Universidade e, seguidamente, escolhem-se ao acaso 100 desses números. Na amostragem sistemática os elementos da amostra são escolhidos a partir de uma regra estabelecida: • escolhe-se aleatoriamente o elemento k entre 1 e i “ N ; n • escolhem-se os restantes n ´ 1 elementos, nas posições k ` j ˆ i, onde j “ 1, 2, . . . , n ´ 1. • todo o elemento da população pertença a um e um só estrato; • nenhum elemento da população seja omitido. As variáveis utilizadas para dividir a população em estratos são chamadas variáveis de estratificação e os elementos dentro de cada estrato devem ser o mais homogéneos possíveis, mas os estratos devem ser o mais heterogéneos possíveis. Na segunda fase faz-se a construção da amostra. Os elementos a amostrar, são seleccionados de cada um dos estratos por um processo aleatório, normalmente por amostragem aleatória simples. A amostragem estratificada pode ser de dois tipos: • proporcional: o tamanho da amostra retirada de cada estrato é proporcional ao tamanho relativo do estrato na população total; • não proporcional: o tamanho da amostra retirada de cada estrato não é proporcional ao tamanho relativo do estrato na população. Por exemplo, na selecção de 100 alunos de uma determinada Universidade, considerando cada curso um estrato, escolher-se-ia em cada um desses cursos um determinado número de alunos por um dos processos anteriores. O número de alunos a escolher em cada curso, ou seja, em cada estrato, deve ser proporcional ao número de alunos nesse curso. Na amostragem por grupos, a população é em primeiro lugar dividida em subpopulações ou grupos mutuamente exclusivos e colectivamente exaustivos. De seguida uma amostra aleatória de grupos é seleccionada com base numa técnica de amostragem aleatória como a amostragem aleatória simples. Esta amostragem pode ser de 3 tipos: Como no caso da amostragem aleatória simples, cada elemento da população tem igual probabilidade de pertencer à amostra. No entanto, nem todas as amostras de dimensão n têm probabilidade igual de selecção. Por exemplo, Para seleccionar uma amostra de 30 alunos de um curso com 600 alunos, depois de numerados todos os alunos, pode escolher-se um aluno de 20 em 20 a partir do primeiro aluno seleccionado. O primeiro aluno seleccionado é escolhido ao acaso de entre o primeiro grupo de 20 alunos. Supondo que o número 3 foi o primeiro aluno seleccionado, tem-se a amostra: 3, 23, 43, 63, 83, 103, . . . , 543, 563, 583. A amostragem estratificada utiliza-se quando a população está dividida em estratos ou grupos diferenciados. Este processo é realizado em duas fases, A amostragem por grupos a dois passos ou multipassos pode ser feita de dois modos diferentes: Amostragem e distribuições amostrais Amostragem e distribuições amostrais C. Fernandes & P. Ramos 3/18 • amostragem por grupos a um passo: se todos os elementos em cada cluster seleccionado forem incluídos na amostra final; • amostragem por grupos a dois passos: se a amostra final é desenhada probabilisticamente de cada cluster seleccionado; • amostragem por grupos multipassos: se para desenhar a amostra final são efectuados vários níveis de amostragem antes dos elementos básicos serem escolhidos. C. Fernandes & P. Ramos 4/18 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística • em todos os passos é efectuada amostragem aleatória simples. A fracção de elementos seleccionada é a mesma em todos os grupos; • a amostra retirada de cada grupo é proporcional à sua dimensão. A amostragem por fases pode ter duas ou mais fases. Na amostragem em duas fases tem-se: e esta propriedade vai ter consequências muito importantes. Considere-se, por exemplo, que se tem uma amostra aleatória de dimensão n “ 4. De uma forma quase arbitrária podemos indicar valores para os três primeiros desvios, pondo-se, por exemplo, d1 “ ´5, d2 “ ´4 e d3 “ 7. řNo entanto a escolha do valor do quarto desvio já não será livre visto que ni“1 di “ 0. Assim o valor de d4 será obtido fazendo d4 “ 0 ´ pd1 ` d2 ` d3 q “ “ 0 ´ p´5 ´ 4 ` 7q “ “ 2. • primeira fase: uma amostra da população é seleccionada e alguma informação é retirada de todos os elementos da amostra; • segunda fase: uma subamostra é retirada da amostra inicial e informação adicional é obtida dos elementos da subamostra. A amostragem por conglomerados é essencialmente utilizada para reduzir os custos de grandes pesquisas, nas quais os investigadores devem ser enviados a locais muito distantes. Neste método são utilizados dois níveis de amostragem: • unidade primária de amostragem ou conglomerado, que corresponde a uma área bem delineada onde se concentram características encontradas na população total; • sujeitos amostrados dentro de conglomerado. 2 Distribuições amostrais teóricas řn yi n e di “ yi ´ y. Observando a primeira expressão de S 2 conclui-se que esta é baseada na soma de quadrados dos desvios em relação à média da amostra. Sabemos ainda que a soma dos desvios em relação à média deverá ser zero, ou seja, n n ÿ ÿ di “ 0 pyi ´ yq “ y“ i“1 Amostragem e distribuições amostrais C. Fernandes & P. Ramos 2.1 i“1 Distribuição Qui-Quadrado A distribuição qui-quadrado é uma distribuição de probabilidade contínua que é muito usada em estatística e está relacionada com a distribuição normal. Tem um único parâmetro n, o número de graus de liberdade, que é um número inteiro positivo. 2.1.1 Antes de introduzir as novas distribuições amostrais teóricas, convém introduzir o conceito de grau de liberdade. A variância amostral, S 2 , de uma amostra aleatória y1 , . . . , yn é dada por řn 2 řn d pyi ´ yq2 “ i“1 i , S 2 “ i“1 n´1 n´1 onde Generalizando, dados os valores de n ´ 1 desvios em relação à média, que podem tomar qualquer valor, o valor do último desvio estará obrigatoriamente condicionado. Assim dizemos que existe n ´ 1 graus de liberdade para a variância da amostra, reflectindo o facto de apenas n ´ 1 desvios serem “livres” de assumir qualquer valor, visto que dados os valores destes n ´ 1 “números livres”, o último valor estará automaticamente determinado. Função densidade de probabilidade Diz-se que uma variável aleatória contínua X tem distribuição de Qui-quadrado com n graus de liberdade se a sua função densidade de probabilidade tiver a forma: x n 1 f pxq ” χ2 pnq “ n ` n ˘ e´ 2 x 2 ´1 , 22Γ 2 com x ą 0 e n P N, onde Γ pyq é a função Gama definida por ż `8 Γ pyq “ xy´1 e´x dx, 0 com y ą 0. Escreve-se, X „ χ2 pnq. 2.1.2 Valor médio, valor esperado ou esperança matemática da distribuição E rXs “ n. i“1 5/18 Amostragem e distribuições amostrais C. Fernandes & P. Ramos 6/18 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística 2.1.3 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística • se X1 , . . . , Xn são variáveis aleatórias independentes e normais, isto é, se Xi „ N pµi ; σi q então Variância da distribuição ˙2 n ˆ ÿ Xi ´ µ i V ar rXs “ 2n. 2.1.4 i“1 Propriedades da distribuição qui-quadrado A distribuição qui-quadrado tem as seguintes propriedades: Assimétrica A distribuição χ2 está tabelada. χ2n;p representa o valor da variável X para o qual a probabilidade acumulada é p, como se ilustra na figura seguinte. 2 χ Área sombreada = p • à medida que o número de graus de liberdade aumenta, a distribuição vai-se tornando mais simétrica: χ2(2) χ2 (5) χ2(10) 0 2 χn;p No entanto para n ą 30 pode usar-se a aproximação à distribuição normal. Exemplo 2.1. Considere que a variável aleatória X segue uma distribuição qui-quadrado com 24 graus de liberdade. 0 • os valores de qui-quadrado podem ser 0 ou positivos; nunca podem ser negativos; • a distribuição χ2 é aditiva: Se X1 , . . . , Xn são variáveis aleatórias independentes tais que Xi „ χ2 pni q, com i “ 1, . . . , n, então ˜ ¸ n n ÿ ÿ Y “ Xi „ χ2 ni ; i“1 i“1 • o quadrado de uma variável aleatória com distribuição normal reduzida tem distribuição χ2 com 1 grau de liberdade, isto é, se X „ N pµ; σq ` ˘2 „ N p0; 1q e Z 2 “ X´µ „ χ2 p1q; então Z “ X´µ σ σ Amostragem e distribuições amostrais C. Fernandes & P. Ramos „ χ2 pnq ; • a distribuição χ2 tende para a distribuição normal à medida que o número de graus aumenta, isto é, se X „ χ2 pnq e n Ñ `8 ` ?de liberdade ˘ X´n ? 9 p0, 1q. então X „N 9 n, 2n ou 2n „N • a distribuição qui-quadrado não é simétrica: 0 σi 7/18 (a) Determine o valor de x0 para que P rX ă x0 s “ 0, 25; Temos X „ χ2 pn “ 24q. Sendo χ2n;p valor da variável X para o qual a probabilidade acumulada é p temos P rX ă x0 s “ 0, 25 ô x0 “ χ224;0,25 ô x0 “ 19. (b) Determine P rX ď 13, 8s. Consultando a tabela da distribuição qui-quadrado para 24 graus de liberdade obtém-se P rX ď 13, 8s “ 0, 05. Amostragem e distribuições amostrais C. Fernandes & P. Ramos 8/18 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Exemplo 2.2. A população X segue uma distribuição normal com média 0 e desvio padrão 1. Considere uma amostra aleatóriařde dimensão 4 recolhida daquela população e a seguinte estatística T “ 4i“1 Xi2 . Deduza a distribuição amostral de T . Sabemos que X „ N p0, 1q, ou seja, X tem distribuição normal reduzida. Xi2 „ χ2 p1q, com i “ 1, 2, 3, 4 pois cada elemento da amostra segue a distribuição da população e, por outro lado, o quadrado de umařnormal reduzida tem distribuição do qui-quadrado com 1 grau de liberdade. 4i“1 Xi2 „ χ2 p4q pela aditividade da distribuição do qui-quadrado (recorde-se que as Xi são ř independentes). Em conclusão, T “ 4i“1 Xi2 „ χ2 p4q com E rT s “ 4 e V ar rT s “ 8 dado que a distribuição do qui-quadrado com n graus de liberdade tem valor esperado n e variância 2n. 2.2 Propriedades da distribuição t-Student A distribuição t-student tem as seguintes propriedades: • a distribuição t-Student tem a mesma forma geral simétrica (forma de sino) que a distribuição normal: Simétrica 0 t Distribuição t-Student A distribuição t-Student é uma distribuição de probabilidade contínua e tem um único parâmetro n, o número de graus de liberdade, que é um número inteiro positivo. Diz-se que uma variável aleatória contínua T tem distribuição t-Student com n graus de liberdade se a sua função densidade de probabilidade tiver a forma: ` ˘ ˆ ˙´ n`1 2 Γ n`1 t2 2` ˘ f ptq ” t pnq “ ? , 1` n n nπ Γ 2 com t P R e n P N. Escreve-se T „ t pnq. De seguida apresentam-se os parâmetros característicos desta distribuição. 2.2.1 2.2.3 Valor médio, valor esperado ou esperança matemática da distribuição • Sejam X „ N pµ, σq e Y „ χ2 pnq, variáveis aleatórias independentes. Então X´µ T “ bσ Y n „ t pnq ; • à medida que o tamanho da amostra, n, aumenta, a distribuição tStudent aproxima-se da distribuição normal reduzida. Para n ą 30, as diferenças são tão pequenas que podemos usar a aproximação ´ a ¯à n distribuição normal. Se T „ t pnq e n Ñ `8 então T „N 9 0; n´2 ou ?T n „N 9 p0; 1q. n´2 A distribuição t-Student está tabelada. tn;p representa o valor da variável T para o qual a probabilidade acumulada é p, como se ilustra na figura seguinte. E rT s “ 0, se n ą 1. O valor médio não existe para n “ 1. 2.2.2 Área sombreada = p Variância da distribuição n , n´2 se n ą 2. A variância não existe para n ď 2. 0 V ar rT s “ Amostragem e distribuições amostrais C. Fernandes & P. Ramos tn;p No entanto para n ą 30 pode usar-se a aproximação à distribuição normal. 9/18 Amostragem e distribuições amostrais C. Fernandes & P. Ramos 10/18 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Exemplo 2.3. Considere que a variável aleatória X segue uma distribuição t-Student com 10 graus de liberdade. 2.3.1 Valor médio, valor esperado ou esperança matemática da distribuição (a) Determine o valor de x0 para que P rX ď x0 s “ 0, 05; Temos X „ t pn “ 10q. Sendo tn,p valor da variável X para o qual a probabilidade acumulada é p temos: P rX ď x0 s “ 0, 05 ô x0 “ t10;0,05 “ ´t10;0,95 “ ´1, 81, E rXs “ se n2 ą 2. 2.3.2 Variância da distribuição pois devido à simetria da função densidade tem-se tn,p “ ´tn,1´p . (b) Determine o valor de x0 para que P rX ą x0 s “ 0, 10; V ar rXs “ P rX ą x0 s “ 0, 10 ô P rX ď x0 s “ 0, 90 ô x0 “ t10;0,90 “ 1, 37. se n2 ą 4. (c) Determine P rX ą 1, 37s; P rX ą 1, 37s “ 1 ´ P rX ď 1, 37s “ 1 ´ 0, 90 “ 0, 10, por consulta da tabela da distribuição da t-Student com 10 graus de liberdade. (d) Determine P rX ď ´2, 76s. 2.3.3 2n22 pn1 ` n2 ´ 2q , n1 pn2 ´ 2q2 pn2 ´ 4q Propriedades da distribuição F-Snedecor A distribuição F-Snedecor tem as seguintes propriedades: • a distribuição F-Snedecor não é simétrica: P rX ď ´2, 76s “ P rX ě 2, 76s “ 1´P rX ă 2, 76s “ 1´0, 99 “ 0, 01, por consulta da tabela da distribuição da t-Student com 10 graus de liberdade. 2.3 n2 , n2 ´ 2 Assimétrica Distribuição F-Snedecor A distribuição F , cujo nome foi atribuído em honra de Sir Ronald Fisher (1890-1962), é uma distribuição de probabilidade contínua com dois parâmetros que são números positivos, chamados graus de liberdade. Diz-se que uma variável aleatória contínua X tem distribuição F com n1 e n2 graus de liberdade, se a sua função densidade de probabilidade tiver a forma: ` ˘ ˆ ˙ n1 n1 ´2 Γ n1 `n2 n1 2 x 2 f ptq ” F pn1 , n2 q “ ` n1 ˘ 2 ` n2 ˘ , ´ ¯ n1 `n 2 n2 Γ 2 Γ 2 2 1 ` nn21 x com x ą 0 e n1 , n2 P N. Sejam X1 e X2 variáveis aleatórias independentes com distribuição χ2 com n1 e n2 graus de liberdade, respectivamente, X1 „ χ2 pn1 q e X2 „ χ2 pn2 q. Então X “ X1 n1 X2 n2 0 F • os valores da distribuição F não podem ser negativos; • o quadrado de uma variável aleatória com distribuição t-Student com n graus de liberdade tem distribuição F com 1 e n graus de liberdade. Se T „ t pnq então T 2 „ F p1, nq; • se X „ F pn1 , n2 q então • F pn1 ; n2 ; pq “ 1 X „ F pn2 , n1 q; 1 . F pn2 ;n1 ;1´pq tem distribuição F com n1 e n2 graus de liberdade e escreve- se X „ F pn1 , n2 q. De seguida apresentam-se os parâmetros característicos desta distribuição. Amostragem e distribuições amostrais C. Fernandes & P. Ramos 11/18 Amostragem e distribuições amostrais C. Fernandes & P. Ramos 12/18 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística A distribuição F-Snedecor encontra-se tabelada. F pn1 ; n2 ; pq representa o valor da variável X para o qual a probabilidade acumulada é p, como se ilustra na figura seguinte. especificada). As estimativas para θ terão de ser obtidas a partir de amostras, através de alguma função que designaremos por T pX1 , X2 , . . . , Xn q. Observada uma amostra px1 , x2 , . . . , xn q, aquela função assumirá o valor t “ T px1 , x2 , . . . , xn q que será tomado como estimativa para θ. O problema consiste na determinação da função da amostra T pX1 , X2 , . . . , Xn q que forneça “melhores” estimativas para θ. Definição 3.1. Um parâmetro de uma população é uma constante θ, que é uma característica (propriedade) da população. Área sombreada = p 0 Definição 3.2. Uma estatística é uma variável aleatória função da amostra px1 , x2 , . . . , xn q, não envolvendo qualquer parâmetro desconhecido. F (n 1;n 2 ;p) Dado um parâmetro θ da população usa-se: Exemplo 2.4. Considere que a variável aleatória X segue uma distribuição F-Snedecor com 6 e 12 graus de liberdade. (a) Determine o valor de x0 para que P rX ď x0 s “ 0, 99; Temos X „ F pn1 “ 6; n2 “ 12q. Sendo F pn1 ; n2 ; pq valor da variável X para o qual a probabilidade acumulada é p temos P rX ď x0 s “ 0, 99 ô x0 “ F p6; 12; 0, 99q “ 4, 82. (b) Determine o valor de x0 para que P rX ď x0 s “ 0, 05; P rX ď x0 s “ 0, 05 ô x0 “ F p6; 12; 0, 05q “ pois F pn1 ; n2 ; pq “ F pn2 ;n11 ;1´pq . 1 F p12;6;0,95q “ 1 4 “ 0, 25, (c) Determine P rX ď 3, 73s. P rX ď 3, 73s “ 0, 975, por consulta da tabela da distribuição da FSnedecor com 6 e 12 graus de liberdade. De um modo geral, só na estimação por intervalos e nos testes de hipóteses se poderá ter uma ideia clara da utilização das distribuições que se acabaram de apresentar. 3 Distribuições amostrais Um dos problemas centrais de que se ocupa a estatística é o estudo de uma população com função densidade (ou de probabilidade) f px; θq cuja expressão analítica é conhecida mas com um parâmetro θ desconhecido (se θ fosse conhecido a função de densidade ou de probabilidade estaria completamente Amostragem e distribuições amostrais C. Fernandes & P. Ramos 13/18 • θp para representar os valores das estatísticas e lê-se “estimativa de θ”; p para representar as estatísticas e lê-se “estimador de θ”. • Θ As estatísticas amostrais mais usadas são a média amostral, a variância amostral, o desvio padrão amostral e a proporção amostral: • Seja X1 , X2 , . . . , Xn uma amostra aleatória de tamanho n. A média amostral é: řn Xi X “ i“1 . n O valor calculado de X para uma dada amostra é denotado por x. Quando for necessário evidenciar o tamanho da amostra, usamos a notação X n e xn ; • Seja X1 , X2 , . . . , Xn uma amostra aleatória de tamanho n. A variância amostral é: ˘2 řn ` řn 2 Xi ´ X X 2 ´ nX S 2 “ i“1 “ i“1 i . n´1 n´1 O desvio padrão amostral é a raiz quadrada positiva da variância amostral: ? S “ S 2. O valor calculado de S 2 para uma dada amostra é denotado por s2 . O divisor n ´ 1 é usado em vez de n para se obter um estimador não enviesado da variância (propriedade dos estimadores definida no resumo sobre Estimação). Amostragem e distribuições amostrais C. Fernandes & P. Ramos 14/18 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística • a proporção amostral pp é usada para estimar a proporção p de elementos de uma população que têm determinadas características. Seja X1 , X2 , . . . , Xn uma amostra aleatória de n observações independentes com distribuição Bernoulli ppq e em que Xi “ 1 (sucesso) ou Xi “ 0 (insucesso) consoante o elemento observado tenha, ou não, a(s) característica(s) pretendida(s). A proporção amostral é: řn Xi pp “ i“1 n e indica a proporção de sucessos da amostra. 3.1.2 Distribuição por amostragem de uma proporção Seja pX1 , X2 , . . . , Xn q uma amostra aleatória de uma população de Bernoulli ppq e em que Xi “ 1 (sucesso) ou Xi “ 0 (insucesso) consoante o elemento řobsern Xi vado tenha, ou não, a(s) característica(s) pretendida(s). Seja pp “ X “ i“1 n a proporção de sucessos (elementos com as características pretendidas) da amostra. Se n ą 30 (n grande) então ˜ c ¸ p p1 ´ pq X ´p pp “ X „N 9 p; „N 9 p0; 1q ôb n pp1´pq n 3.1 Distribuições por amostragem ou distribuições amostrais p “ A distribuição amostral é a distribuição de uma estatística amostral Θ p depende da distribuição T pX1 , X2 , . . . , Xn q. A distribuição da estatística Θ da população e do tamanho da amostra. 3.1.1 Distribuição por amostragem da média amostral ¯ • Se σ é conhecido e X segue uma distribuição normal, X „ N µ, ?σn , então X ´µ „ N p0; 1q , σ ? ´ n qualquer que seja o tamanho n da amostra; ¯ ´ • Se σ é conhecido, X segue uma distribuição arbitrária, X „N 9 µ, ?σn , e n ą 30 então X ´µ „N 9 p0; 1q ; σ ? n • Se σ é desconhecido, X segue uma distribuição arbitrária e n ą 30 então X ´µ „N 9 p0; 1q ; S ? n • Se σ é desconhecido e X segue uma distribuição normal então X ´µ ?S n ou X ´p b „N 9 p0; 1q . pp1´pq n 3.1.3 Distribuição por amostragem para a variância amostral S 2 Seja X1 , X2 , . . . , Xn uma amostra aleatória retirada de uma população normal de parâmetros µ e σ. Então pn ´ 1q S 2 „ χ2n´1 . σ2 3.1.4 Distribuição por amostragem para a diferença de médias amostrais com duas amostras independentes • Se σ1 e σ2 são ˆ conhecidos e X1 e X˙2 seguem uma distribuição normal, b 2 σ σ2 X 1 ´ X 2 „ N µ1 ´ µ2 ; n11 ` n22 , então ` ˘ X 1 ´ X 2 ´ pµ1 ´ µ2 q b 2 „ N p0; 1q , σ2 σ1 ` n22 n1 qualquer que sejam os tamanhos n1 e n2 das amostras; • Se σ1 e σ2 sãoˆconhecidos, X1 e X˙ 2 seguem uma distribuição arbitrária, b 2 σ σ2 X 1 ´ X 2 „N 9 µ1 ´ µ2 ; n11 ` n22 e n1 ą 30 e n2 ą 30 então ` „ tn´1 , qualquer que seja o tamanho n da amostra. Amostragem e distribuições amostrais C. Fernandes & P. Ramos 15/18 ˘ X 1 ´ X 2 ´ pµ1 ´ µ2 q b 2 „N 9 p0; 1q ; σ2 σ1 ` n22 n1 Amostragem e distribuições amostrais C. Fernandes & P. Ramos 16/18 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística • Se σ1 e σ2 são desconhecidos, X1 e X2 seguem uma distribuição arbib ¯ ´ 2 2 trária, X 1 ´ X 2 „N 9 µ1 ´ µ2 ; Sn11 ` Sn22 e n1 ą 30 e n2 ą 30 então ` ˘ X 1 ´ X 2 ´ pµ1 ´ µ2 q b „N 9 p0; 1q ; 2 S1 2 ` Sn22 n1 • Se σ1 e σ2 são desconhecidos, as populações são homocedásticas pσ12 “ σ22 q e X1 e X2 seguem uma distribuição normal então ` ˘ X 1 ´ X 2 ´ pµ1 ´ µ2 q c ´ ¯ „ tn1 `n2 ´2 , pn1 ´1qS1 2 `pn2 ´1qS2 2 1 ` n12 n1 `n2 ´2 n1 qualquer que sejam os tamanhos n1 e n2 das amostras; • Se σ1 e σ2 são desconhecidos, as populações são heterocedásticas e X1 e X2 seguem uma distribuição normal então ` ˘ X 1 ´ X 2 ´ pµ1 ´ µ2 q b „ tr , 2 S1 2 ` Sn22 n1 pσ12 ‰ σ22 q sendo r o número natural mais perto de r ˚ e este é dado por ¯ ´ 2 2 2 S1 ` Sn22 n 1 r˚ “ ´ 2 ¯2 ´ 2 ¯2 , S1 1 ` n21´1 Sn22 n1 ´1 n1 Distribuição por amostragem para o quociente de variâncias amostrais Sejam X1 , X2 , . . . , Xn e Y1 , Y2 , . . . , Yn duas amostras aleatórias independentes de dimensão n1 e n2 , respectivamente, onde X „ N pµ1 ; σ1 q e Y „ N pµ2 ; σ2 q. Então S1 2 σ22 ˆ „ F pn1 ´ 1; n2 ´ 1q . S2 2 σ12 Exemplo 3.1. O rendimento familiar em euros de uma determinada região do país segue uma distribuição aproximadamente normal, com média 500e e variância 324 peq2 . Qual a probabilidade de, numa amostra de 16 famílias daquela região: (a) o rendimento familiar médio ser inferior a 491e? Seja X - “rendimento médio da amostra”. “ ‰ Pretende-se calcular P X ă 491 . A média amostral obtida numa amostra´retirada a seguinte distribuição: X„ ¯ duma população ´ normal tem b ¯ “ 4, 5 . Assim temos, N µ; ?σn . Logo X „ N µ “ 500; σ “ 324 16 ı ” “ ‰ P X ă 491 “ P Z ă 491´500 “ Φ p´2q “ 0, 0228; 4,5 (b) a variância amostral exceder os 506, 25 peq2 ? qualquer que sejam os tamanhos n1 e n2 das amostras. 3.1.5 3.1.6 Distribuição por amostragem para a diferença de proporções com duas amostras independentes Sejam X1 , X2 , . . . , Xn e Y1 , Y2 , . . . , Yn duas amostras aleatórias independentes de dimensão n1 e n2 (suficientemente grande) obtidas de duas populações de Bernoulli. Se n1 ą 30 ^ n2 ą 30 (n1 e n2 grandes) então d ¸ ˜ p1 p1 ´ p1 q p2 p1 ´ p2 q ` pp1 ´ pp2 „N 9 p1 ´ p2 ; n1 n2 2 Pretende-se calcular P rS 2 ą 506, 25s. Sabe-se que pn´1qS „ χ2n´1 , ou σ2 2 2 χ . Assim temos: seja, 15S 324 15 „ ȷ “ ‰ 15S 2 15 ˆ 506, 25 P S 2 ą 506, 25 “ 1 ´ P ď “ 324 324 ȷ „ 2 15S ď 23, 4375 » “ 1´P 324 » 1 ´ 0, 95 “ 0, 05, consultando a tabela da distribuição da qui-quadrado com 15 graus de liberdade. logo pp p ´ pp2 q ´ pp1 ´ p2 q b1 „N 9 p0; 1q . p1 p1´p1 q 2q ` p2 p1´p n1 n2 Amostragem e distribuições amostrais C. Fernandes & P. Ramos 17/18 Amostragem e distribuições amostrais C. Fernandes & P. Ramos 18/18