6- Probabilidade e amostras: A distribuição das médias amostrais • Anteriormente estudamos como atribuir probabilidades a uma observação de alguma variável de interesse (ex: Probabilidade de um escore de ansiedade superior a 80, de uma nota inferior a 30,...). • Vamos considerar agora a situação em que dispomos de n > 1 observações da variável de interesse (ou seja, de uma amostra de n indivíduos). 2 • Assim como podemos associar probabilidades a observações individuais de uma variável aleatória, podemos também associar probabilidades a amostras de n observações ou, mais especificamente, aos valores de alguma estatística de interesse, calculada para as amostras (como a média amostral). • Chamamos distribuição amostral de uma estatística a distribuição dessa estatística em repetidas amostras de uma específica população. 3 • Chamamos erro padrão de uma estatística o desvio padrão da distribuição dessa estatística em repetidas amostras de uma específica população. 4 Exemplo 6.1 – Três vendedores são encarregados de fazer, cada um deles, uma venda. Suponha que para cada venda realizada o vendedor receba 100 reais, e que para cada venda não realizada o vendedor perca 20 reais, em decorrência de gastos com deslocamento. A probabilidade de cada um deles realizar sua venda é 0,5. 5 Seja X a variável aleatória que assume valor 100 com probabilidade ½ e -20 com probabilidade ½, referente ao retorno financeiro de cada um dos vendedores. Sejam X 1 , X 2 , X 3 os retornos dos três vendedores e X1 + X 2 + X 3 1 n 2 2 ( ) X= , s = X − X ∑ i n − 1 i =1 3 a média da amostra de três retornos e a variância. Vamos obter a distribuição amostral dessas duas estatísticas (média e variância amostrais). 6 Amostra: ( x1 , x2 , x3 ) (− 20,−20,−20) (− 20,−20,100) (− 20,100,−20) (100,−20,−20) (− 20,100,100) (100,−20,100) (100,100,−20) (100,100,100) Probabilidade x s2 1/8 -20 0 1/8 20 4800 1/8 20 4800 1/8 20 4800 1/8 60 4800 1/8 60 4800 1/8 60 4800 1/8 100 0 7 Assim, com base nas probabilidades associadas a cada amostra, podemos associar probabilidades aos diferentes valores de x e de s 2 , produzindo as seguintes distribuições amostrais: • Distribuição amostral de x : x -20 20 60 100 Probabilidade 1/8 3/8 3/8 1/8 s2 0 4800 Probabilidade 2/8 6/8 • Distribuição amostral de s 2 : 8 • Diferentemente do exemplo apresentado, em geral não é possível enumerar todas as amostras possíveis, sendo impraticável obter a distribuição amostral de estimadores da forma realizada. • No entanto, dispomos de resultados que nos permitem estabelecer a distribuição amostral de estimadores sem a necessidade de enumerar todas as amostras possíveis. • Vamos nos ater, num primeiro momento, ao estudo da distribuição das médias amostrais, fundamental para investigar (estimar) a média de toda a população. 9 Distribuição das médias amostrais • Considere uma população com média µ e desvio padrão σ (lembre-se que µ e σ são parâmetros, quantidades que descrevem a população, sendo, geralmente, desconhecidos. • Seja x a média de uma amostra aleatória de tamanho n ( x1 , x2 ,..., xn ) da população sob estudo. 10 • Um primeiro resultado geral diz respeito ao centro da distribuição amostral de x (ou seja, da distribuição dos valores de x calculados com base em repetidas amostras extraídas da população). A média da distribuição das médias amostrais, denotada por µ x , é igual a média da população, ou seja, µ x = µ . Nota – Este resultado nos garante que seja qual for o tamanho da amostra ( n ) os valores de x calculados para repetidas amostras estarão centrados na média da população. 11 • Um segundo resultado geral diz respeito à dispersão da distribuição amostral de x . O desvio padrão da distribuição das médias amostrais (ou seja, o erro padrão de x ), denotada por σ x , é igual ao desvio padrão da população dividido por n , ou seja, σ x = σ n. Nota – Observe que a dispersão da distribuição de x diminui conforme se aumenta o tamanho da amostra ( n ). 12 • Com base nos dois resultados apresentados até o momento temos que, a medida que aumentamos o tamanho da amostra, os valores das médias de repetidas amostras de tamanho n estarão distribuídos cada vez mais próximos, em torno da média da população ( µ ). • Um último resultado refere-se à forma da distribuição amostral de x . Se a distribuição da variável de interesse população sob estudo for normal, então a distribuição das médias amostrais de tamanho n também é normal (centrada em µ e com desvio padrão σ x = σ 13 n ). 4 3 Densidade n=1 n=5 n=20 2 n=100 1 0 -3 -2 -1 0 1 2 3 x Figura 1 – Distribuição amostral das médias de amostras de tamanho n extraídas de uma população com distribuição normal padrão. 14 Exemplo 6.2 – A distribuição dos escores de habilidade verbal ( x ) em certa população apresenta distribuição Normal, com média µ = 60 e desvio padrão σ = 10 . Selecionada aleatoriamente uma amostra de n = 25 indivíduos dessa população: a) Qual a distribuição amostral de x , o escore médio dos 25 indivíduos selecionados para a amostra? b) Qual a probabilidade do escore médio na amostra selecionada ser inferior a 57? E superior a 62? 15 c) Usando a regra empírica, em qual intervalo de valores teremos aproximadamente 67% das médias de amostras de 25 indivíduos? O mesmo para 95 e 99,7%; d) Como ficaria o item “c” para amostras de tamanho n = 9 ? E para amostras de tamanho n = 100 ? • A normalidade da distribuição das médias amostrais vale caso a distribuição da variável sob estudo tenha distribuição normal. No entanto, para amostras suficientemente grandes, ela vale (aproximadamente), independentemente da distribuição da variável sob 16 estudo (que pode, inclusive, ser discreta). Isso é garantido pelo Teorema Central do Limite. • Usamos este resultado anteriormente quando discutimos a aproximação da distribuição binomial pela distribuição Normal. Nota – Como regra geral, temos que a distribuição das médias de amostras de tamanho n é bem aproximada pela distribuição normal quando n > 30 . 17 Exemplo 6.3 – Para ilustrar o Teorema Central do Limite, vamos considerar uma variável aleatória discreta com distribuição de probabilidades conforme a Figura 2 apresentada na sequência. • Usando simulação, foram geradas 10.000 amostras de tamanho n desta variável, obedecendo às probabilidades apresentadas na Figura 2, para diferentes valores de n . 18 0.5 0.4 P(X=x) 0.3 0.2 0.1 0.0 0 1 2 3 x Figura 2 – Distribuição de probabilidades da variável X . 19 n=5 n=10 0.8 Densidade Densidade 1.0 0.6 0.4 0.2 0.0 0 1 2 3 1.2 1.0 0.8 0.6 0.4 0.2 0.0 4 1.0 1.5 2.0 x x n=30 n=100 2.5 3.0 Densidade Densidade 2.0 1.5 1.0 0.5 0.0 3 2 1 0 1.6 1.8 2.0 2.2 2.4 1.8 x 1.9 2.0 2.1 x Figura 3 – Ilustração do teorema central do limite. 20 2.2