Distribuições Amostrais Distribuição de Probabilidades de Estatísticas Amostrais Teorema Central do Limite Na aula passsada, vimos que … As estatísticas amostrais são variáveis. Seus valores variam de acordo com uma distribuição de probabilidade. As estatísticas amostrais são variáveis aleatórias As propriedades da média amostral X valem para qualquer população e para qualquer tamanho de amostra n. µ X = E[ X ] = µ σ X = dp[ X ] = σ n Quanto à distribuição de probabilidades de X , é fácil encontrá-la quando a população é pequena. Mas, e quando a população for grande ?? Para casos gerais, vamos precisar de um resultado muito importante em Estatística: o Teorema Central do Limite Mas, antes, vamos definir o que é uma Amostra Aleatória da variável aleatória X. Amostra Aleatória Uma Amostra Aleatória da variável aleatória X é um conjunto de n variáveis aleatórias X1, X2,…, Xn, que têm a mesma distribuição de probabilidade de X. Teorema Central do Limite Seja uma amostra aleatória variável aleatória X X 1 , X 2 ,..., X n , de uma com média µ e desvio padrão σ. À medida que n cresce, a distribuição de probabilidade de X aproxima-se de uma Normal com média µ e desvio padrão σ X −µ Ou seja, Z = σ/ n n. aproxima-se de uma Normal (0 ;1). Entendendo o Teorema Central do Limite 1) Se pudéssemos retirar várias amostras da população e, para cada amostra, calculássemos o valor da média, esperaríamos que a média desses valores fosse igual à média populacional. (estimador não tendencioso) 2) Quanto maior for o tamanho da amostra, mais perto da média populacional estará o valor da média amostral. Ilustração do Teorema Central do Limite Vamos realizar o seguinte experimento: 10000 Considere uma população de indivíduos cuja caratecterística de interesse tenha distribuição de probabilidade Normal com média igual a µ=75.0 e 4000 2000 • quantidade de peixe pescado por embarcação,por mês, em toneladas. 0 • produção semanal de leite, por animal, em litros; Frequência Exemplos: 6000 8000 desvio-padrão igual a σ=19.7 0 50 100 Valor do indivíduo 150 Ilustração do Teorema Central do Limite 1 2 3 Para vários tamanhos de amostra n, vamos retirar um número grande de amostras da população, digamos, 10000 amostras de mesmo tamanho n. Para cada amostra retirada, vamos calcular a média amostral, X . Ao final da retirada das 10000 amostras, teremos 10000 valores de X Para verificar a distribuição desses valores, construiremos um histograma. 2000 1500 0 6000 0 50 100 150 100 Valor do indivíduo 150 1000 500 50 n =20 0 0 Frequência 2000 1500 4000 Media amostral 0 Frequência 8000 500 10000 População n =10 1000 Frequência 2500 3000 Histogram of medias 0 50 100 Media amostral 150 2000 1500 6000 0 50 100 1000 Valor do indivíduo 150 500 100 n =50 0 50 Frequência 0 150 Media amostral 1500 4000 2000 0 Frequência 0 8000 500 1000 Frequência 10000 População n =30 0 50 100 Media amostral 150 Em escalas diferentes …. 60 70 80 90 1500 100 55 60 65 70 75 80 Media amostral n = 30 n = 50 Frequência 90 0 0 500 85 1000 2000 Media amostral 1500 50 Frequência 500 0 1000 Frequência 2500 n = 20 0 Frequência n = 10 65 70 75 80 Media amostral 85 65 70 75 80 Media amostral 85 O que podemos observar a partir desta ilustração do TCL quando a população segue a distribuição Normal? 1 - O que acontece com a média da distribuição da média amostral à medida que n cresce? 2 - O que acontece com a variabilidade da distribuição da média amostral à medida que n cresce? 3 - O que acontece com a forma da distribuição da média amostral à medida que n cresce? Teorema Central do Limite Seja uma amostra aleatória variável aleatória X X 1 , X 2 ,..., X n , de uma com média µ e desvio padrão σ. X −µ Z= σ/ n n→∞ ~ N (0,1) Observe que o TCL não fala nada sobre a distribuição de X, a variável aleatória associada à população de interesse. Ilustração do Teorema Central do Limite Vamos visualizar o que acontece com a distribuição da média amostral X quando a população de interesse NÃO tem distribuição Normal. Distribuição Uniforme Distribuição Assimétrica 1500 Frequência 500 1000 400 200 0 0 Frequência 600 2000 2500 800 Histogram of pop.lognormal 40 60 80 100 Valor do indivíduo 120 140 160 20 40 60 80 100 Valor do indivíduo 120 140 160 Ilustração do Teorema Central do Limite Vamos fazer um experimento igual ao anterior, mas agora com duas populações diferentes: Distribuição Uniforme Distribuição Assimétrica 1500 Frequência 500 1000 400 200 0 0 Frequência 600 2000 2500 800 Histogram of pop.lognormal 40 60 80 100 120 140 160 20 40 60 Valor do indivíduo µ=100.0 80 100 Valor do indivíduo µ=56.2 120 140 160 n=5 1500 0 0 500 1000 Frequência 400 200 Frequência 600 800 2000 População 40 60 80 100 120 140 160 40 60 80 Valor do indivíduo 120 140 Media amostral n=50 0 1000 0 500 500 1000 1500 Frequência 2000 2500 1500 n=25 Frequência 100 40 60 80 100 Media amostral 120 140 160 40 60 80 100 120 Media amostral 140 160 160 1500 500 1000 Frequência 2000 1500 1000 0 0 500 Frequência n=5 2000 2500 2500 População 20 40 60 80 100 120 20 140 40 100 120 1500 Frequência 1500 0 0 500 500 1000 n = 50 1000 2500 n = 25 2000 80 Media amostral Valor do indivíduo Frequência 60 20 40 60 80 Media amostral 100 120 20 40 60 80 Media amostral 100 120 Em escalas diferentes …. 60 80 100 120 140 160 30 40 50 60 70 Media amostral n=25 n=50 Frequência 0 1000 0 90 1500 Valor do Individuo 80 500 40 2000 20 Frequência 1000 2000 0 Frequência 1000 2000 n=5 0 Frequência População 50 55 60 Media amostral 65 70 50 55 Media amostral 60 65 O que podemos observar a partir desta ilustração do TCL quando a população NÃO segue a distribuição Normal? 1 - O que acontece com a média da distribuição da média amostral à medida que n cresce? 2 - O que acontece com a variabilidade da distribuição da média amostral à medida que n cresce? 3 - O que acontece com a forma da distribuição da média amostral à medida que n cresce? Teorema Central do Limite (resumo) Distribuição de X N (µ ;σ ) Qualquer Distribuição de X N (µ;σ n) aproximadamente N (µ;σ n) Tamanho de amostra n qualquer n > 30 (em geral) Aplicações O nível de bilirrubina sérico em crianças nascidas com peso menor que 750g tem distribuição Normal com média µ=8.5 mg/dl e desvio-padrão σ=3.5 mg/d. Para uma amostra de tamanho n=16 crianças desta população, sabemos que X ~ N (8.5 ; 3.5 16) Qual é a probabilidade de que a média amostral, para uma amostra de 16 crianças, esteja entre 6.79 e 10.22 mg.dl? 6.79 − 8.50 X − 8.50 10.22 − 8.50 P[6.79 < X < 10.22] = P < < 3.50 / 16 3.50 / 16 3.50 / 16 *O nível de bilirrubina no sangue é usado para diagnosticar doenças do fígado, entre outras. Aplicações −1.71 1.72 <Z< ] P[6.79 < X < 10.22] = P[ 0.88 0.88 = P[ −1.94 < Z < 1.95] = P[ Z < 1.95] − P[ Z < −1.94] = 0.9744 - 0.0262 = 0.9482 0.9482 ≈ 0.95 6.79 10.22 A probabilidade de que a média amostral, para uma amostra de 16 crianças, esteja entre 6.79 e 10.22 mg/dl é 94.82% Aplicações (II) Em uma amostra de 16 crianças nascidas com peso menor que 750g, a média amostral do nível de bilirrubina sérico foi igual a 10.5 mg/dl. Considerando que a população tem distribuição Normal com média µ=8.5 mg/dl e desvio-padrão σ=3.5 mg/dl, qual é a probabilidade de obter amostras de 16 crianças com valores médios de bilirrubina sérico iguais ou mais extremos do que 10.5 mg/dl? 10.5 − 8.5 P[ X > 10.5] = P Z > = P[ Z > 2.27] 3.5 16 = P[ Z < −2.27] = 0.0116 Distribuição Amostral de uma Proporção Uma proporção amostral pode ser vista com uma média amostral n número de sucessos = pˆ = n ∑ Xi i =1 n onde se sucesso 1, Xi = 0, caso contrário Exemplo: estimar a proporção de eleitores contrários ao voto obrigatório. 1, Xi = 0, se é contra o voto obrigatório se é a favor do voto obrigatório Distribuição Amostral de uma Proporção p̂ é uma média de variáveis aleatórias Xi ~ Binomial (m=1; p). Assim, µ = E [ X i ] = p e σ = Var[ X i ] = p (1 − p ) Pelo Teorema Central do Limite, a distribuição amostral p̂ pode ser aproximada por uma Normal com média p e desvio-padrão p (1 − p ) quando np ≥ 5 e n(1-p) ≥ 5. de Ou seja, Z = pˆ − p p(1 − p ) / n aproximadamente ~ N (0,1) Ilustração: o que acontece com a distribuição dos ˆ − 0.50 p valores de Z = quando n cresce? 0.50(1 − 0.50) / n População: X ~ Binomial nn==50 20 10 3 (m=1 ;p=0.50) 30 4 2 5 100 nn==1000 Aplicações (II) Um biólogo está estudando a preferência de uma espécie de aranha (espécie A) quanto ao local de confecção de sua teia em árvores: perto do tronco ou ao final dos galhos. Em 40 teias de aranha da espécie A, ele observou que 22 delas foram tecidas perto do tronco, ou seja, pˆ = 22 / 40 = 0.55 . Para aranhas de uma espécie B, estudos mostram que a proporção das que preferem fazer teias perto do tronco é igual a 0.75. Supondo que a proporção populacional das aranhas da espécie A que fazem teias perto do tronco também seja p=0.75, qual é a probabilidade de o resultado amostral ter ocorrido? Aplicações (II) Como a proporção amostral é uma variável aleatória contínua, já sabemos que o cálculo de P[ pˆ = 0.55] não faz sentido. Assim, vamos calcular a probabilidade de amostras com proporções ainda mais extremas do que a obtida. Ou seja, 0.55 − 0.75 pˆ − p < P[ pˆ < 0.55] = P 0.75(1 − 0.75) / 40 p (1 − p ) / n = P [ Z < −2.92] = 0.0017 0.0017 0.55 0.75 p̂ Aplicações (II) Conclusão: Sob a hipótese de que a proporção populacional das aranhas da espécie A que fazem teias perto do tronco também seja p=0.75, a amostra coletada é pouco verossímil (probabilidade de 0.0017). Sendo assim, a hipótese de que as duas espécies têm a mesma proporção de aranhas que tecem suas teias perto do tronco deve ser revista. Propriedades do Estimador Média Amostral _ _ PDFs of X and X f HX L , g HX L 12 12 20 40 120 12 10 10 100 10 15 30 8 8 808 = 1000 1 2 3 4 5 6 7 8 9 10 25 100 X s = 0.100 X s = 0.010 0.003 0.100 0.071 0.058 0.050 0.045 0.041 0.038 0.035 0.033 0.032 0.020 X n X 6 20 10 6066 4 4044 105 202 _ 7.7 8.0 8.3 X , X O que acontece com a distribuição de probabilidade de X (em vermelho) quando n cresce? Para praticar … Exercícios da Seção 8 Próxima aula: Exercícios. Referências Bibliográficas As ilustrações do “Teorema Central do Limite para o caso da proporção amostral” e das “propriedades do estimador média amostral” foram elaboradas a partir dos arquivos do “Demonstraction Project” do Wolfram Mathematica (http://demonstrations.wolfram.com/). Para a primeira ilustração, foi utilizado o arquivo “SamplingDistributionOfTheSampleMean.nbd”. Para a segunda ilustração, foi utilizado o arquivo “IllustratingTheCentralLimitTheoremWithSumsOfBernoulli RandomV.nbd”