Estatística Inferencial Intervalos de Confiança Introdução Estimativa de parâmetros populacionais Amostras Estatísticas ⇒ Estimativa de 𝝁 (𝑛 ≥ 30 ou σ conhecido) Estimativa Pontual É uma estimativa de um único valor para um parâmetro populacional. Exemplo: A estimativa pontual menos enviesada* da média populacional 𝜇 é a média amostral 𝑥. * Quando a média das estimativas obtidas para todas as amostras obtidas coincide com o parâmetro a estimar. Exemplo “Legibilidade dos anúncios em revistas” X : Número de frases por propaganda n = 54 anúncios Amostra Aleatória X 9 20 18 16 9 25 17 23 7 14 6 16 16 9 10 9 11 13 22 16 5 10 10 5 11 12 11 15 6 11 18 18 9 12 14 11 4 9 18 6 9 6 5 12 17 13 11 7 18 12 12 17 11 20 𝑥 671 𝑥= = ≈ 12,4 𝑛 54 (Estimativa Pontual para o comprimento médio de todos os anúncios em revistas) Estimativa Intervalar É um intervalo de valores usado para estimar um parâmetro populacional. Exemplo: X : Número de frases por propaganda n = 54 anúncios, com 𝑥 = 12,4 frases Provavelmente a média populacional real está próxima de 12,4 frases. Tomando uma margem de erro de, por exemplo, 2,1 frases, teríamos: Exemplo 𝑥 = 12,4 é usado como Centro de Intervalo 𝐸 = 2,1 Estimativa Intervalar : 𝑥 ± 𝐸 = 12,4 ± 2,1 Nível de Confiança Definição: O nível de confiança c é a probabilidade de que o intervalo estimado contenha o parâmetro populacional. Nível de Confiança e a Curva Normal Para 𝑛 ≥ 30 onde a distribuição amostral de médias amostrais é uma distribuição normal. Dica de Estudo Normalmente usaremos níveis de confiança de 90%, 95% e 99%. O escore Z a seguir corresponde a esses níveis de confiança: Níveis de Confiança 𝒁𝒄 90% 1,645 95% 1,96 99% 2,575 Exemplo c = 90% 𝒁𝒄 = 𝒂 = 𝟏, 𝟔𝟒𝟓 ( Ver tabela) Observações 1) Erro da Estimativa: É a distância entre a estimativa pontual e o valor do parâmetro real No caso da média populacional, temos: E= 𝒙−𝝁 2) Na maior parte dos casos, naturalmente, 𝝁 é desconhecido e 𝑥 varia de amostra para amostra. 3) Se soubermos o nível de confiança e a distribuição amostral poderemos calcular 𝑬𝒎á𝒙 Definição Dado um nível de confiança c, o erro máximo da estimativa ( algumas vezes chamado de margem de erro ou tolerância do erro ) E é a maior distância possível entre a estimativa pontual e o valor do parâmetro a ser estimado. 𝝈 𝑬 = 𝒁𝒄 𝝈𝒙 = 𝒁𝒄 𝒏 Quando 𝒏 ≥ 𝟑𝟎, o desvio padrão amostral s pode ser usado em lugar de 𝝈 Exemplo X : Número de frases por propaganda n = 54 anúncios, com 𝑥 = 12,4 frases C = 95% 𝑬𝒎á𝒙 = ? (do número médio de sentenças em todos os anúncios de revistas) Exemplo Solução: Como 𝑛 ≥ 30 podemos usar s no lugar de 𝝈 𝑠= (𝑥 − 𝑥)2 ≈ 𝑛−1 1333,2 ≈ 5,0 53 𝑍𝑐 = 1,96 Usando os valores : 𝑛 = 54 𝜎 ≈ 𝑠 ≈ 5,0 𝜎 5,0 𝐸 = 𝑍𝑐 ≈ 1,96. ≈ 1,3 𝑛 54 teremos: Exemplo Conclusão: Temos uma confiança de 95% de que a estimativa máxima do erro para a média populacional seja de cerca de 1,3 sentença. Intervalos de confiança para a Média Populacional Definição: Um intervalo de confiança c para a média populacional 𝝁 é: 𝒙−𝑬<𝝁<𝒙+𝑬 A probabilidade de que o intervalo de confiança contenha 𝝁 é c. Obtenção do Intervalo de Confiança Orientações Gerais 1. Obtenha 𝑥 = 𝑥 𝑛 2. Use 𝝈 ou quando 𝑛 ≥ 30, 𝒔 = (𝑥−𝑥)2 𝑛−1 3. Determine 𝑍𝑐 correspondente ao nível de confiança. (Ver Tabela) 4. Determine 𝑬𝒎á𝒙 = 𝝈 𝒁𝒄 𝒏 5. Determine o intervalo fazendo: 𝒙 − 𝑬 < 𝝁 < 𝒙 + 𝑬 Exemplo O intervalo de confiança de 95% para o número médio de frases em todos os anúncios de revistas, com 𝑥 = 12,4 e 𝐸 = 1,3 será: 12,4 ±1,3 , ou seja: 𝟏𝟏, 𝟏 < 𝝁 < 𝟏𝟑, 𝟕 Exercício 1 O diretor do comitê de admissão de uma universidade deseja estimar a idade média de todos os estudantes aprovados no momento. Em uma amostra aleatória de 20 estudantes, a idade média encontrada foi de 22,9 anos. A partir de estudos passados, sabe-se que o desvio padrão é de 1,5 ano e que a população está normalmente distribuída. Construa um intervalo de confiança de 90% da idade média da população. Exercício 1 Solução: Usando n = 20; 𝒙 = 𝟐𝟐, 𝟗; 𝜎 = 1,5 e 𝑍𝑐 = 1,645 O erro máximo da estimativa no intervalo de confiança de 90% é: 𝑬 = 𝝈 𝒁𝒄 𝒏 = 𝟏, 𝟔𝟓. 𝟏,𝟓 𝟐𝟎 ≈ 𝟎, 𝟓𝟓 Logo, o intervalo de confiança de 90% será: 𝒙 ± 𝑬 = 𝟐𝟐, 𝟗 ± 𝟎, 𝟓𝟓, ou 𝟐𝟐, 𝟑𝟓 < 𝝁 < 𝟐𝟑, 𝟒𝟓 Interpretação do Exercício 1 Uma vez que 𝝁 já existe, ou ele está no intervalo ou não. Vejamos as afirmações: INCORRETA: “Há 90% de probabilidade de que a média real esteja no intervalo (22,35 ; 23,45)” CORRETA: “Há 90% de probabilidade de que o intervalo de confiança descrito contenha 𝝁.” Tamanho da Amostra Quão grande precisa ser o tamanho da amostra para assegurar um certo nível de confiança para um determinado erro máximo da estimativa? 𝒁𝒄 𝝈 𝟐 𝒏=( ) 𝑬 Se 𝝈 é desconhecido, podemos estimá-lo usando s, desde que tenhamos uma amostra preliminar com no mínimo 30 membros. Exercício 2 Desejamos calcular o número médio de frases em anúncios em revistas. Quantos anúncios devem ser incluídos na amostra se queremos ter 95% de confiança de que a média amostral esteja dentro do intervalo de uma sentença da média populacional? Exercício 2 Solução: Usaremos os seguintes dados: C = 0,95 ; 𝑍𝑐 = 1,96 ; 𝜎 ≈ 𝑠 ≈ 5,0 (Slide 14) E = 1. Queremos descobrir 𝑛𝑚í𝑛 𝑍𝑐 𝜎 2 1,96.5,0) 𝑛=( ) ≈ 𝐸 1 2 = 96,04 ≈ 97 Interpretação do Exercício 2 Temos de incluir pelo menos 97 anúncios de revista em nossa amostra. Precisamos, portanto, de mais 43, uma vez que já possuímos 54. Fator de Correção Se uma população for finita (nem grande, nem infinita) a fórmula que determina o erro padrão da média 𝜎𝑥 precisa ser ajustada, ficando: 𝝈 𝑵−𝒏 𝝈𝒙 = 𝒏 𝑵−𝟏 Onde, N é o tamanho da população e n é o tamanho da amostra, com n ≥ 0,05𝑁. O erro máximo da estimativa é: 𝝈 𝑵−𝒏 𝐸 = 𝑍𝑐 𝒏 𝑵−𝟏 Exercício 3 Determine o fator de correção para população finita para cada um dos dados a seguir: (a) N = 1000 e n = 500 (b) N = 1000 e n = 100 (c) N = 1000 e n = 75 (d) N = 1000 e n = 50 (e) Analise a evolução dos resultados anteriores. A distribuição t Definição: Se a distribuição de uma variável aleatória x é aproximadamente normal, então a distribuição amostral de 𝑥 é uma distribuição 𝑡, onde 𝒙−𝝁 𝒕= 𝒔 𝒏 Os valores críticos de 𝑡 são denotados por 𝑡𝑐 A distribuição t : Amostras Pequenas Verificar para o uso da distribuição t na construção de um intervalo de confiança para a média populacional: • Se n < 30 (Razões de custo e tempo) • Se 𝜎 é desconhecido • Se a população é aproximadamente normal Propriedades da Distribuição 𝑡 1. A distribuição t tem a forma de sino e é simétrica em torno da média. 2. É uma família de curvas, com graus de liberdade* determinados como gl = n-1. 3. A área total sob a curva t é 1 ou 100%. 4. 𝑥 = 𝑀𝑑 = 𝑀𝑜 = 0 5. Quando gl cresce então a distribuição t tende para a distribuição normal. * São os números de escolhas livres deixados após uma amostra estatística como 𝑥 ter sido calculada. Propriedades da Distribuição 𝑡 6. Após 30gl a distribuição t está muito próxima da distribuição normal padrão Z. Usando a Tabela da Distribuição 𝑡 Exemplo: Determinar o valor crítico 𝑡𝑐 para 95% de confiança quando o tamanho da amostra for 15. Solução: Como n = 15, temos 𝑔𝑙 = 𝑛 − 1 = 15 − 1 = 14 Basta identificar a linha com gl =14 e a coluna com c = 0,95, Logo 𝑡𝑐 = 2,145 Exemplo Conclusão: 95% da área sob a curva t com 14 graus de liberdade está entre t = ±2,145 Distribuição 𝑡 Construindo um Intervalo de Confiança (I.C) para a média. 1. Calcule 𝒙 = 𝒙 𝒏 e 𝒔= (𝒙−𝒙)𝟐 𝒏−𝟏 2. Identifique 𝒈𝒍 = 𝑛 − 1, c e 𝒕𝒄 3. Obtenha 𝑬 = 𝒔 𝒕𝒄 𝒏 4. Obtenha o I.C : 𝑥 ± 𝐸 Exercício 4 Selecionamos ao acaso 16 restaurantes e medimos a temperatura do café vendido em cada um. A temperatura média amostral é de 1620 𝐹, com desvio padrão amostral de 100 𝐹. Obtenha o intervalo de confiança de 95% para a temperatura média. Suponha que as temperaturas estejam aproximadamente normalmente distribuídas. Exercício 5 Selecionam-se ao acaso 20 casas hipotecárias e determina-se a atual taxa de juros que cada uma cobra. A taxa média amostral é de 6,93%, com desvio padrão de 0,42%.