NOTAS DE AULA - ESTATÍSTICA TEORIA DA AMOSTRAGEM ESTIMAÇÃO ISABEL C. C. LEITE SALVADOR – BA 2007 Estatística Prof.ª Isabel C. C. Leite 1 TEORIA DA AMOSTRAGEM – DISTRIBUIÇÃO AMOSTRAL DOS ESTIMADORES A teoria da amostragem é um estudo das relações existentes entre uma população e as amostras dela extraídas. É útil em: • estimação de parâmetros populacionais; • determinação das causas de diferenças observadas entre amostras. Constitui o que chamamos de estatística indutiva ou inferência estatística que consiste em inferir conclusões importantes sobre uma população a partir da análise de resultados observados em amostras aleatórias. Como toda conclusão deduzida a partir da amostragem é acompanhada de um grau de incerteza ou risco, o problema fundamental da inferência estatística é medir este grau de incerteza ou risco das generalizações. Parâmetro: medida numérica que descreve uma população. Genericamente representado por θ. Exemplos: média ( µ ), variância ( σ 2 ). Estatística ou estimador: medida numérica que descreve uma amostra. Genericamente representado por θˆ . Exemplos: média ( x ), variância ( S 2 ). Estimativa: valor numérico de um estimador. Erro amostral: erro que ocorre pelo uso da amostra. Denotado por ε e definido por: ε = θˆ − θ . Uma distribuição amostral é a distribuição de probabilidade de um estimador (ou estatística) da amostra formada quando amostras de tamanho n são colhidas várias vezes de uma população. Por exemplo, se o estimador da amostra for a sua média, a distribuição será uma distribuição amostral de médias das amostras. x1 n n x2 n x3 n Distribuição amostral de x n n x4 n M População Repetir esse processo para todas as amostras de tamanho n Para cada distribuição amostral pode-se calcular a média, o desvio-padrão, etc. Estatística Prof.ª Isabel C. C. Leite 2 Distribuição amostral das médias Consideremos o seguinte problema. Seja X o peso real de pacotes de café, enchidos automaticamente por uma máquina. Sabe-se que a distribuição de X pode ser representada por uma normal, com parâmetros µ e σ 2 . Suponhamos que a máquina esteja regulada para encher os pacotes segundo uma distribuição normal com média 500 gramas e desvio padrão de 10 gramas, isto é, X ~ N (500,100) . Sabemos que, às vezes, a máquina desregula-se e quando isto acontece o único parâmetro que se altera é a média, permanecendo a mesma variância. Para manter a produção sob controle iremos recolher uma amostra de 100 pacotes e pesá-los. Como essa amostra nos ajudará a tomar uma decisão? Usaremos a média x da amostra como informação pertinente para uma decisão. Mesmo que a máquina esteja regulada, dificilmente x será igual a 500 gramas, dado que os pacotes apresentam certa variabilidade de peso. Mas se x não se afastar muito de 500 gramas, não existirão razões para suspeitarmos da qualidade do procedimento de produção. Só iremos pedir uma revisão se o erro amostral ( x – 500) for “muito grande”. O problema que se apresenta agora é o de decidir o que é próximo ou distante de 500 gramas. Se o mesmo procedimento de colher a amostra de 100 pacotes fosse repetido um número muito grande de vezes, sob a condição de a máquina estar regulada, teríamos idéia do comportamento da variável x , e saberíamos dizer se aquele valor observado é ou não um evento raro de ocorrer. Caso o seja, é mais fácil suspeitar da regulagem da máquina do que do acaso. Portanto é importante conhecer as propriedades da distribuição da variável x . As médias x das amostras de tamanho n retiradas de uma população com média µ e desvio padrão σ formam a distribuição amostral com os seguintes parâmetros: • • () () O valor esperado ou média é igual à média populacional: E x = µ x = µ . A variância é igual à variância populacional dividida pelo tamanho da amostra: () Var ( x) = σ 2 x = σ2 . n OBS: Se a população é finita e de tamanho N conhecido, e se a amostragem é feita sem σ2 N −n reposição, então Var ( x) = σ 2 x = ⋅ . n N −1 Temos, portanto, para desvio padrão das médias amostrais: () () σ () σ • σ x = • σ x = n n , se a população é infinita, ou se a amostragem é feita com reposição; N −n , se a população é finita, ou se a amostragem é feita sem reposição. N −1 Observemos pelas fórmulas apresentadas que quanto maior o tamanho da amostra, menor será a variância de x , ou seja, o estimador x será mais preciso à medida que o tamanho da amostra aumentar. Estatística Prof.ª Isabel C. C. Leite 3 Teorema do limite central Se de uma população com parâmetros ( µ , σ 2 ) for retirada uma amostra de tamanho suficientemente grande, a distribuição de x será aproximadamente normal, seja qual for a forma da distribuição da população. Ou seja, σ2 σ 2 N − n x ≅ N µ , ou x ≅ N µ , n n N − 1 com distribuições padronizadas dadas por: Zi = xi − µ σ n ou Zi = xi − µ σ N −n n N −1 Estatística Prof.ª Isabel C. C. Leite 4 Aplicações 1. Voltando ao problema inicial, onde uma máquina enchia pacotes cujos pesos seguiam uma distribuição normal N(500,100). Colhendo-se uma amostra de n = 100 pacotes e pesando-os, x terá uma distribuição normal com média 500 e variância 100/100 = 1. Logo, se a máquina estiver regulada, a probabilidade de encontrarmos a média de 100 pacotes diferindo de 500 g de menos de 2 gramas será ( ) ( ) P x − 500 < 2 = P 498 < x < 502 = P(−2 < z < 2) ≅ 95% Ou seja, dificilmente 100 pacotes terão uma média fora do intervalo (498,502). Caso isto ocorra, podemos considerar como um evento raro, e será razoável supor que a máquina esteja desregulada. 2. Admite-se que as alturas de 3000 estudantes do sexo masculino de uma universidade são normalmente distribuídas, com a média 172,72 cm e o desvio padrão 7,62 cm. Se forem obtidas 80 amostras de 25 estudantes cada uma, quais serão a média e o desvio padrão esperados da distribuição amostral das médias resultantes se amostragem for feita: (a) com reposição; (b) sem reposição? Solução: O número de amostras de 25 elementos que podem ser obtidas teoricamente de um grupo de 3000 estudantes, com e sem reposição, são: (3000)25 e C3000,25, respectivamente, muito maiores do que 80. Por isso não se obtém uma verdadeira distribuição amostral das médias, mas apenas uma experimental. Apesar disso, visto que o número de amostras é grande, haverá uma concordância muito estreita entre as duas distribuições amostrais. σ 7,62 (a) µ x = µ = 172,72 cm e σ x = = = 1,524 cm. n 25 () () () () σ N − n 7,62 3000 − 25 = = 1,518 cm, que é apenas n N −1 25 3000 − 1 ligeiramente menor que 1,524 cm e pode, portanto, para todos os fins práticos, ser considerado igual ao da amostragem com reposição. (b) µ x = µ = 172,72 cm e σ x = Conclusão: pode-se considerar esta distribuição amostral experimental das médias aproximadamente normal, com a média 172,72 cm e desvio padrão 1,524 cm. 3. Em quantas amostras do problema anterior pode-se esperar que a média se encontre: (a) entre 169,67 cm e 173,48cm; (b) abaixo de 170,00 cm? Resp: (a) o número esperado de amostras é 80 ⋅ 0,6687 ≅ 53 . (b) o número esperado de amostras é 80 ⋅ 0,0375 = 3 . Estatística Prof.ª Isabel C. C. Leite 5 Dimensionamento de uma amostra Muitas vezes é importante sabermos qual deverá ser o tamanho de uma amostra de modo a obter um erro de estimação ε previamente estipulado com determinado grau de confiança dos resultados obtidos. Exemplo: Seja X : N (1200,840 ) . Qual deverá ser o tamanho de uma amostra de tal forma que P (1196 < x < 1204 ) = 0,90 ? µ ( x ) = 1200 Solução: Se µ = 1200 e σ = 840 ⇒ 840 28,98 = σ ( x ) = n n Para o intervalo dado temos que ε = x − µ = ±4 x −µ ±4 Como z = e z = z0,45 = 1, 64 , segue-se que ±1, 64 = ∴ n = 141,13 . 28,98 σ (x) n Concluímos que, se retirarmos uma amostra de 141 elementos da população X, teremos 90% de confiança que x estará no intervalo (1196,1216) e P ( x < 1196 ) = 0, 05 ou P ( x > 1216 ) = 0, 05 ; isto significa que o risco que corremos de que o valor da média caia fora do intervalo anterior é de 10%. 2 Distribuição amostral da soma, ou diferença, entre duas médias Sejam duas populações independentes com distribuição amostral das médias dadas por σ2 x1 ≅ N µ1 , 1 n1 e σ 2 x 2 ≅ N µ2 , 2 . n2 Considerando amostras independentes das duas populações, temos: ( σ2 σ 2 x1 ± x 2 ≅ N µ1 ± µ2 , 1 + 2 n1 n2 ) ( ) A distribuição normal padrão para x1 ± x 2 será zi = (x ± x ) −(µ ± µ ) 1 2 σ 12 n1 1 + 2 σ 22 n2 Aplicação: Numa escola A, os alunos submetidos a um teste obtiveram média 70 com desvio padrão 10. Em outra escola B, os alunos submetidos ao mesmo teste obtiveram média 65 com desvio padrão 15. Se colhermos na escola A uma amostra de 36 alunos e na B, uma de 49 alunos, qual é a probabilidade de que a diferença entre as médias seja superior a 6 unidades? Resp. 0,3557 Estatística Prof.ª Isabel C. C. Leite 6 Distribuição amostral das proporções Consideremos uma população infinita onde a probabilidade de ocorrência de um evento (denominado seu sucesso) é p, enquanto a de sua não ocorrência (fracasso) é q = 1 – p. Tomemos todas as amostras possíveis de tamanho n extraídas desta população e, para cada amostra, determinemos a proporção p̂ de sucessos. Temos, portanto, o parâmetro p̂ que expressa a probabilidade, ou proporção, ou freqüência relativa, de determinado evento da população. x nº de casos favoráveis ao evento na amostra pˆ = = n nº total de casos da amostra Obtemos assim uma distribuição amostral das proporções. Para amostras suficientemente grandes, a distribuição amostral de p̂ é aproximadamente normal com • média: µ( p̂ ) = p , pq , n onde: p = verdadeira probabilidade populacional de “sucessos” q=1–p n = tamanho da amostra. pˆ i − p pq . Assim, pˆ ≅ N p, e sua distribuição normal padronizada é expressa por Z i = n pq n Aplicação • desvio padrão: σ ( p̂ ) = Verificou-se que 2% das ferramentas produzidas por certa máquina são defeituosas. Qual é a probabilidade de, em uma remessa de 400 dessas ferramentas, revelarem-se defeituosas: (a) 3% ou mais; (b) 1,5 % ou menos? Solução: pq 0,02 ⋅ 0,98 = = 0, 007 . n 400 0, 03 − 0, 02 (a) Calculando a variável padronizada z para p̂ 1 = 0,03: z1 = = 1, 43 0, 007 P( pˆ ≥ 0, 03) = P ( z ≥ 1, 43) = 0,5 − 0, 4236 = 0, 0764 ou 7,64% Temos: µ( pˆ ) = p = 0, 02 e σ ( pˆ ) = 0, 015 − 0, 02 = −0, 71 0, 007 P( pˆ ≤ 0, 015) = P ( z ≤ −0, 71) = 0,5 − 0, 2611 = 0, 2389 ou 23,89 % (b) Calculando a variável padronizada z para p̂ 1 = 0,015: z1 = Estatística Prof.ª Isabel C. C. Leite 7 Distribuição amostral da soma, ou diferença, entre duas proporções Sabemos da distribuição amostral das proporções que para amostras suficientemente grandes, pq pq pˆ1 ≅ N p1 , 1 1 e pˆ 2 ≅ N p2 , 2 2 . n1 n2 Considerando amostras independentes das duas populações, temos: p1q1 p2 q2 + n1 n2 ( pˆ1 ± pˆ 2 ) ≅ N p1 ± p2 , A distribuição normal padrão para ( pˆ1 ± pˆ 2 ) será zi = ( pˆ1 ± pˆ 2 ) − ( p1 ± p2 ) . p1q1 p2 q2 + n1 n2 Estimação Um dos métodos para realizar inferências a respeito dos parâmetros é a estimação, que determina estimativas dos parâmetros populacionais. Existem dois tipos de estimação de um parâmetro populacional: estimação por ponto e a estimação por intervalo. Estimação por ponto A partir das observações, usando o estimador, procura-se encontrar um valor numérico único (estimativa) que esteja bastante próximo do verdadeiro valor do parâmetro. Este procedimento não permite julgar a magnitude do erro que podemos estar cometendo, mas a distribuição por amostragem dos estimadores torna possível o estudo das qualidades do estimador. ESTIMADORES PONTUAIS DOS PRINCIPAIS PARÂMETROS POPULACIONAIS Parâmetro Média (µ) Variância (σ 2) Desvio padrão (σ) Proporção (p) Estimador 1 n x = ∑ xi n i =1 1 n S2 = ∑ xi − x n − 1 i =1 S= ( ) ( ) 1 n ∑ xi − x n − 1 i =1 2 2 x , onde n x = número de elementos da amostra que possuem a característica n = tamanho da amostra pˆ = Estatística Prof.ª Isabel C. C. Leite 8 Exemplo: Para avaliar a taxa de desemprego em determinado estado, escolhe-se uma amostra aleatória de 1000 habitantes em idade de trabalho e contam-se os desempregados: 87. Estimar a proporção de desempregados em todo o estado. 87 pˆ = = 0, 087 1000 Estimação por intervalo Procura determinar um intervalo que contenha o valor do parâmetro populacional, com certa margem de segurança. Este procedimento permite julgar a magnitude do erro que podemos estar cometendo. Com base na amostra, uma maneira de expressar a precisão da estimação é calcular os limites de um intervalo, o Intervalo de Confiança (IC), tais que ( 1 − α ) seja a probabilidade de que o verdadeiro valor do parâmetro esteja contido nele. Portanto, α : grau de desconfiança, nível de incerteza ou nível de significância. 1 − α : coeficiente de confiança ou nível de confiabilidade; Formalizando, se denotarmos o parâmetro de interesse por θ, desejamos obter um intervalo com limite inferior I e limite superior S tal que P(I < θ < S) = 1 − α , onde α é um valor pequeno, ou seja 1 − α é próximo de 1. Os limites deste intervalo são variáveis aleatórias, pois dependem da amostra selecionada. Um intervalo deste tipo é denominado intervalo de 1 - α (×100)% confiança para o parâmetro θ. Valores de α mais comumente usados são α = 0,10 1 – α = 0,90 ou 90% α = 0,05 1 – α = 0,95 ou 95% α = 0,01 1 – α = 0,99 ou 99% A precisão com que se conhece θ depende da amplitude deste intervalo dada por S – I. Quanto menor esta amplitude melhor determinado estará o parâmetro. A figura abaixo ilustra o conceito de intervalo de confiança. INTERVALOS DE CONFIANÇA AMOSTRA 1 2 ( ) ( ) ( 3 ) ( 4 ) ( ) 5 6 ... 7 ( ( ) ) µ Estatística Prof.ª Isabel C. C. Leite 9 O verdadeiro valor do parâmetro estará contido em 1 − α (×100) % desses intervalos. Observe que algumas estimativas intervalares incluem e outras não incluem o verdadeiro valor do parâmetro da população. Ao retirarmos uma amostra e calcularmos um intervalo de confiança, não sabemos na verdade se o parâmetro da população se encontra naquele intervalo calculado. O importante é saber que se está utilizando um método com 1 − α (×100) % de probabilidade de sucesso. Intervalos de confiança para a média de uma população normal com variância conhecida Consideremos uma população normal com média desconhecida que desejamos estimar e com variância conhecida, X = N ?, σ 2 . ( ) Procedimento para a construção do IC: 1. Retiramos uma amostra casual simples de n elementos. 2. Calculamos a média da amostra x . 3. Calculamos o desvio padrão da média amostral: σ . n 4. Fixamos o nível de significância α, e com ele determinamos zα , tal que P ( z > zα ) = α , ou seja, P ( z > zα ) = Logo, devemos ter P ( z < zα ) = 1 − α α 2 e P ( z < zα ) = α α 2 . α 1−α 2 − zα 2 zα Neste caso o Intervalo de Confiança de 1 − α (×100)% para µ é dado por: σ σ , x + zα x − zα n n Usando uma notação mais simples, teremos IC ( µ , (1 − α ) % ) = ( µ1 , µ 2 ) . Exemplos: 1. A duração de vida de uma peça de equipamento é tal que σ = 5 horas. Foram amostradas aleatoriamente 100 dessas peças, obtendo-se média de 500 horas. Desejamos construir um intervalo de confiança para a verdadeira duração média da peça com um nível de 95% de confiança. Solução: Temos σ = 5, n = 100, x = 500, (1 − α )100 = 95% . Estatística Prof.ª Isabel C. C. Leite 10 O gráfico da distribuição normal padrão será: D istribuição N orm al (0,1) 0,95 0,025 0 ,025 -1,96 z = 1,96 corresponde à área 0,475 0 1,96 Substituindo os dados na fórmula, temos o intervalo de confiança solicitado, P ( 499, 02 < µ < 500,98 ) = 95% , significando que com 95% de confiança a duração média da peça está entre 499,02 e 500,98 horas. Portanto, se fossem construídos intervalos dessa mesma maneira, para um grande número de amostras, em 95% dos casos os intervalos incluiriam µ . Para os casos de populações finitas, multiplica-se o desvio padrão pelo fator de correção, gerando o IC: σ N −n σ N −n ⋅ , x + zα ⋅ x − zα N −1 N − 1 n n 2. Admitindo os mesmos dados do exemplo anterior, consideremos como população a produção de 1000 peças. Nesse caso o intervalo para a média será (499,07;500,93), conforme os cálculos abaixo. 5 1000 − 100 5 1000 − 100 µ1 = 500 − 1,96 ⋅ . e µ 2 = 500 + 1,96 ⋅ . 1000 − 1 1000 − 1 100 100 Logo, o intervalo (499,07;500,93) contém a duração média das 1.000 peças com 95% de confiança. Amostras Grandes - População Normal ou não Normal Se n é suficientemente grande (em geral, n > 30), mesmo sem conhecermos a distribuição da população, os limites do Intervalo de Confiança para a média (µ) poderão ser calculados com base na distribuição Normal padrão. Da mesma forma podemos utilizar o desvio padrão amostral S no lugar de σ (desvio-padrão populacional), caso este não seja conhecido. Estatística Prof.ª Isabel C. C. Leite 11 Intervalos de confiança para a proporção Lembremos que quando p populacional é conhecida, pˆ = x tem distribuição aproximadamente n pq normal, pˆ ≅ N p, . Para construirmos o IC para p desconhecida, determinamos p̂ na amostra n ˆˆ pq e consideramos σ pˆ ≅ . n pˆ − p Logo, ao nível α de significância, P ( z < zα ) = 1 − α , onde z = . σ pˆ Desenvolvendo os cálculos, como foi feito para a média, chegamos à formula do IC para a proporção p populacional. ˆˆ ˆˆ pq pq IC ( p, (1 − α ) % ) = ( p1 , p2 ) = pˆ − zα ; pˆ + zα n n Exemplo: Para se estimar a porcentagem de alunos de um curso favoráveis à modificação do currículo escolar, tomou-se uma amostra de 100 alunos, dos quais 80 foram favoráveis. a. Faça um IC para a proporção de todos os alunos do curso favoráveis à modificação ao nível de 4% de significância. b. Qual o valor do erro de estimação ocorrido no intervalo acima? Solução: Dados n = 100, x = 80, α = 4%, temos que 0,8 ⋅ 0, 2 pˆ = 0,80 , qˆ = 0, 20 e σ pˆ ≅ = 0, 04 . 100 a. zα = z0,48 = 2, 05 ⇒ IC ( p,96% ) = ( 0, 718; 0,882 ) Temos uma confiança de 96% que de 71,8% a 88,2% dos alunos do curso serão favoráveis à modificação curricular. pˆ − p ε b. z = ⇒ zσ = ∴ε = zσ ⋅ σ pˆ σ pˆ σ pˆ ε = 2, 05 ⋅ 0, 04 = 0, 082 ∴ ε = 8, 2% O erro de estimação cometido em (a) é de 8,2% para 96% de confiança e uma amostra de 100 alunos. Estatística Prof.ª Isabel C. C. Leite 12 REFERÊNCIAS BIBLIOGRÁFICAS • BUSSAB, Wilton de O. MORETTIN, Pedro A. Estatística Básica. 5ª edição. São Paulo: Saraiva, 2006. • MORETTIN, Luiz Gonzaga. Estatística Básica – Volume 2 – Inferência. São Paulo: Pearson Makron Books, 2000. • MARTINS, Gilberto de A. Estatística Geral e Aplicada. 3ª ed. São Paulo: Atlas, 2005. • SPEIGEL, Murray R. Estatística. 3ª ed. São Paulo: Pearson Makron Books, 1993. • Notas de aula dos professores do Departamento de Estatística – UFBA, disponíveis no site www.est.ufba.br.