Distribuição Amostral 3 Miguel Angel Uribe Opazo O objetivo pelo qual selecionamos uma amostra, é para obter estimativas de parâmetros desconhecidos da população (µ, σ2, π) fazer afirmações sobre os mesmos e, também, nos auxiliar na verificação da forma (distribuição), como a estatística se distribui. X Exemplo Vamos raciocinar em cima da seguinte pergunta: Um pesquisador está interessado em avaliar a produção média (µ), por planta, da cultivar de maça Gala. O valor da produção média por planta X, numa amostra de 10 plantas, vai ser um valor próximo da verdadeira produção média referente a todas as plantas da cultivar Gala?. •Quando se extraem repetidas amostras de uma mesma população, são obtidos diferentes valores da media amostral. Provavelmente, os valores das médias amostrais são todas diferentes, e, também, diferentes da verdadeira média da população, simplesmente devido a fatores casuais na amostragem. • Esta variabilidade é conhecida como Variabilidade amostral. Portanto, tornase imprescindível, quando vamos fazer inferências sobre parâmetros populacionais, levar em consideração a variabilidade amostral. Vamos estudar a variabilidade amostral através das distribuições amostrais. Os valores da estatística, calculados nas amostras, vão formar uma nova população (de médias, de variâncias, de proporções), cuja distribuição recebe o nome de distribuição amostral (de médias, de variâncias, de proporções). Assim o conjunto: X 1, X 2,..., X k é denominado de distribuição amostral das médias ou da média; o conjunto: p1, p2, ..., pk é denominado de distribuição amostral das proporções ou da proporção; o conjunto: S12 , S 22 ,..., S k2 é denominado de distribuição amostral da variância. Distribuição Amostral da Média • Seja X uma variável aleatória que assume os seguintes elementos {2, 3, 4, 5}. Vamos extrair, aleatoriamente, com reposição, amostras de dois elementos. Então, 42 = 16 o número de amostras possíveis, já que N = 4 e n = 2 é o processo com reposição. (2, 2) (2, 3) (2, 4) (2, 5) (3, 2) (3, 3) (3, 4) (3, 5) (4, 2) (4, 3) (4, 4) (4, 5) (5, 2) (5, 3) (5, 4) (5, 5) Se calcularmos para cada amostra sua média obtermos as seguintes 2,0 2,5 3,0 3,5 2,5 3,0 3,5 4,0 3,0 3,5 4,0 4,5 3,5 4,0 4,5 5,0 A distribuição de probabilidade de X é X 2,0 2,5 3,0 3,5 4,0 4,5 5,0 P( X ) 1/16 2/16 3/16 4/16 3/16 2/16 1/16 Calculamos a E( X ) e Var( X ) da seguinte maneira: X = E ( X ) = 7 X P( X ) = 3,5 i 1 i i 7 Var( X ) = ( X i2 P( X i ) ) – (E ( X ))2 = 0,625. i 1 Como a população é formada pelos elementos {2, 3, 4, 5} calculamos a média e variância populacional X = Xi 23 45 = = 3,5 N 4 i 1 N ( X i X )2 Var (X ) = = =1,25 . N i 1 N 2 Observado os resultados acima verificamos que as médias são iguais e a Var( X ) é a metade da variância da população, pois n = 2. Dai constatarmos que X = X e Var ( X ) 2 Var( X ) = = . n n Será que foi coincidência o fato que a média das médias amostrais ter coincidido com a média populacional? e a variância de X ser igual à Var( X ) dividido por 2? Vamos mostrar que isso sempre acontece. Teorema Seja X uma variável aleatória com média X e variância 2 , e seja (X1, X2, ..., Xn) n uma amostra aleatória simples, então, se X = i 1 temos E ( X ) = X 2 e Var( X ) = . n Xi n Teorema Central do Limite Para amostras aleatórias simples ( X1, X2, ..., Xn) retiradas de uma população com média X e variância , a distribuição amostral da média X = 2 n Xi i1 n aproxima-se de uma 2 distribuição normal com média X e variância , quando n tende ao infinito. n Isto é, 2 X N ( , ) , quando n . n Corolário Se ( X1, X2, ..., Xn) é uma amostra simples aleatória de uma população X com média X e variância Então, Z n 2 Xi eX = , i 1 n X X n N (0,1) , quando n . Distribuição Amostral da Proporção i. n k Seja pˆ a proporção amostral, onde k X i , sendo n i 1 ii. X i 1 , se é sucesso iii. 0 , se é fracasso iv. v. Para n grande, temos que pelo Teorema Central do Limite, p̂ N ( p, p(1 p) ). n Observação: considera-se n grande, para n > 30. Distribuição Amostral da Variância Seja X1,...,Xn uma amostra extraída de uma população normal com média X e variância 2 . n Seja S 2 2 ( X X ) i i 1 n 1 n A soma (X i 1 n (X i 1 X) = 2 i i 1 n a variância amostral, e X X i a média amostral. n i 1 X ) 2 dos quadrados dos desvios pode ser escrita como: n (X i 1 ) - n 2 i n (X ) i 1 2 . Assim, a variância da amostra pode ser escrita como: 1 S = [ n 2 n ( X i ) - n 2 i 1 n 2 ( X ) ]. i 1 Multiplicando-se ambos por (n-1)/ 2 , temos: (n 1) S 2 1 2[ 2 n ( X i ) - n 2 i 1 n 2 ( X ) ] i 1 Xi Como os termos são variáveis aleatórias normais padronizadas com média zero e variância um( N(0,1)). E por outro lado, X é também N(0,1).Temos que n 1 2 n (X i 1 i ) 2 tem distribuição qui- 2 X 2 quadrado com n graus de liberdade ( n ), analogamente tem distribuição 12 . n Portanto, (n 1) S 2 2 2 Então E[S ]= E[ 2 Var [S ] = Var[ 2 tem distribuição n21 (qui-quadrado com n-1 graus de liberdade). 2 (n 1) 2 (n 1) 2 n 1 2 n 1 ]= ]= Em resumo S tem distribuição 2 (n 1) E[ 4 (n 1) 2 4 (n 1) 2 2 n 1 ]= Var[ 2 n 1 2 n 1 2 (n 1) (n-1) = 2 . 4 2 4 ]= (2(n-1)) = (n 1) 2 (n 1) com média 2 2 4 e variância . (n 1) Intervalos de Confiança Eis outra maneira de calcularmos uma estimativa de um parâmetro desconhecido. Vamos construir um intervalo de confiança para o parâmetro desconhecido com uma probabilidade (1-)% (nível de confiança) de que um intervalo contenha o verdadeiro parâmetro. Observem que (1-)% pode ser igual a 99%, 95%, 90% , 80%, etc. Desta maneira será o nível de significância, isto é, o erro que estamos cometendo ao afirmarmos que, por exemplo, 95% das vezes o intervalo ˆ1 < < ˆ2 contém será de 5%. Tipos de Intervalo de Confiança 7.1. Intervalo de confiança para a média populacional quando a variância populacional é conhecida; 7.2. Intervalo de confiança para a média populacional quando a variância populacional é desconhecida; 7.3. Intervalo de confiança para proporção populacional; 7.4 intervalo de confiança para a variância populacional. 7.1. Intervalo de confiança para a média populacional quando a variância populacional é conhecida a) Se a variável aleatória tem distribuição normal,isto é, X ~N ( , 2 ), o intervalo de (1-)% de confiança para a média populacional é da forma IC[ , (1-)%] = [Li ; Ls] Em que, Li = X z Ls = X z , é o limite inferior do intervalo de confiança; n , é o limite superior do intervalo de confiança, n sendo, z obtido através da tabela de distribuição normal padrão com média zero e variância 1. Com o intuito de auxiliar ao estudante na obtenção do intervalo de confiança, apresentamos a seguir uma tabela com o valor de z através da tabela normal padrão e seu respectivo nível de confiança e significância. Tabela de distribuição Normal Padrão Nível de confiança (1- )% 99,74 99,00 95,44 95,00 90,00 85,00 80,00 Nível de significância ( )% 0,26 1,00 4,56 5,00 10,00 15,00 20,00 Valor z 3,00 2,58 2,00 1,96 1,65 1,44 1,28 Exemplo Seja X a duração de vida de uma peça de equipamento que tem distribuição normal com desvio padrão = 5 horas. Admita-se que 100 peças foram ensaiadas fornecendo uma duração de vida média de X = 500 horas e que se deseje obter um intervalo de 95% para a média populacional . Solução n = 100 , X = 500; = 5 ; (1-)% = 0 95% ; z = 1,96. Os limites do intervalo de confiança são Li = 500 – 1,96 Ls = 500 + 1,96 5 100 5 100 = 499,02; = 500,98 . Logo o intervalo de 95% de confiança para a média populacional é IC [ , 95% ] =[ 499,02 ; 500,98] . Assim, podemos dizer que 95% das vezes, o intervalo [499,02 ; 500,98 ] contém a verdadeira média . b)Se não conhecemos a distribuição de X, então para n > 30, utilizaremos o Teorema 2 Central de Limite, que diz X N ( , ) , quando n . n Assim, o intervalo de (1-)% de confiança para a média populacional é da forma IC[ , (1-)%] = [Li ; Ls] em que, Li = X z , é o limite inferior do intervalo de confiança média populacional; n Ls = X z , é o limite superior do intervalo de confiança média populacional. n 7.2. Intervalo de confiança para a média populacional quando a variância populacional é desconhecida a) Se a variável aleatória tem distribuição normal,isto é, X~N( , 2 ), mas não conhecemos a variância populacional 2 , neste caso, precisamos calcular a estimativa (variância amostral) de 2 . n S2 Seja (X i 1 i X )2 o estimador não viciado de variância mínima de 2 . n 1 Como X ~ N ( , 2 n ) e Z X ~ N (0,1) , n vamos considerar a nova variável aleatória t X S n Pelo teorema de Fisher (Bussab e Morettin, 2003) temos (n 1) logo, S2 2 S2 2 ~ (2n1) 1 ~ n 1 (2n1) . = X Z = . S S n de S 2 Assim, a estatística t ~ t ( n 1) , isto é, a estatística t tem uma distribuição t-Student com n-1 graus de liberdade. Assim, o intervalo de (1-)% de confiança para a média populacional é da forma IC[ , (1-)%] = [ Li ; Ls] em que, Li = X t (n1) S n , é o limite inferior do intervalo de confiança média populacional; Ls = X t (n1) S n , o limite superior do intervalo de confiança média populacional. sendo, t(n-1) o valor da tabela t-student com n-1 grau de liberdade e erro %. Anexo 1 b) Se não conhecemos a distribuição de X, então, para n >30, utiliza-se o Teorema Central de Limite e o intervalo de (1-)% de confiança para a média populacional é da forma IC[ , (1-)%] = [ Li ; Ls ] em que, Li = X t(n1) S n , é o limite inferior do intervalo de confiança média populacional; Ls = X t(n1) S n , o limite superior do intervalo de confiança média populacional. sendo, t(n-1) o valor da tabela t-student com n-1 grau de liberdade e erro %. (ver Anexo 1). 7.3. Intervalo de Confiança para Proporção Populacional Lembrando que p̂ N ( p, p (1 p ) ) quando n for grande ( n > 30). n O intervalo de ( 1-)% de confiança para a proporção populacional p é definido da seguinte forma IC[p , (1-)%] = [Li ; Ls ] Em que, Li = pˆ z Ls = pˆ z pˆ (1 pˆ ) , é o limite inferior do intervalo de p; n pˆ (1 pˆ ) , é o limite superior do intervalo de p, n Sendo,que z obtido através da tabela de distribuição normal padrão com média zero e variância 1. 7.4 Intervalo de Confiança para a Variância Populacional Neste caso precisamos calcular a estimativa S (desvio padrão) a partir da amostra. Lembrando que (n 1) S 2 2 tem distribuição n21 (qui-quadrado com n-1 graus de liberdade). O intervalo de (1-)% de confiança para a variância populacional 2 é definido da seguinte forma IC[ 2 , (1-)%] = [Li ; Ls ] Em que, (n 1)S 2 Li = , é o limite inferior do intervalo de 2 ; 2 sup (n 1) S 2 Ls = inf2 , é o limite superior do intervalo de 2 , 2 2 e são os valores da tabela qui-quadrado com n-1 graus de liberdade inf sup Sendo que, associados ao coeficientes /2 e 1- /2 , respectivamente. Anexo 2 EXERCICIOS