Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s2 são não viciados e de variância mínima. b) Do Teorema Central do Limite, a distribuição amostral da média tem distribuição de Gauss, com média e variância 2 /n. Estimativas por Intervalo 2. Estimativas por intervalo ou intervalo de confiança A idéia do intervalo de confiança é bastante simples. Considere uma variação em torno do valor amostral , ou seja: Valor do parâmetro=estimativa pontual erro de amostragem. O erro de amostragem(E) é função da dispersão da população, do grau de confiança dos resultados e do tamanho da amostra. Estimativas por Intervalo Observação: Toda afirmação deve vir acompanhada de um grau de confiança, ou grau de certeza, ou seja quanto se está certo ao comunicar aquela informação. O nível ou grau de confiança é denotado por 100(1-), onde (alfa) é o nível de significância. Em outras palavras: Prob(IS)=1- Pergunta: Qual a interpretação dessa fórmula? Esquema do Intervalo de Confiança Estimativas por Intervalo O conceito de intervalo de confiança pode ser visualizada pela figura abaixo: Exemplo: Valor do parâmetro = estimativa pontual uma função da confiança, dispersão e tamanho da amostra Observação Intervalo de Confiança: a) Se o intervalo de confiança de uma pesquisa é de 95%, significa que, a cada 100 entrevistas feitas pela mesma metodologia, 95 apresentarão os mesmos resultados. b) Quando se retira uma amostra e se calcula um intervalo de confiança, não se sabe, na verdade, se o parâmetro da população se encontra naquele intervalo calculado. Principais Estimativas por Intervalo Os problemas existentes, na prática, resumem-se, na maioria dos casos, à necessidade de estimar. • a média de uma população; • a diferença nas médias de duas populações, 1 - 2; • a proporção p de elementos de uma população que pertence a uma classe de interesse; • a diferença na proporção de duas populações, p1 - p2; • a variância 2 de uma população Principais Estimativas por Intervalo Os estimadores pontuais mais utilizadas são as seguintes: • para , o estimador é ̂ x , a média amostral; • para 1 2 , o estimador é ˆ1 ˆ 2 x1 x2 , a diferença entre as médias amostrais de duas amostras aleatórias independentes; pˆ x n • para p o estimador é , onde x é o número de elementos de uma amostra de tamanho n que pertence à classe de interesse; • para p1 – p2, o estimador é pˆ1 pˆ 2 p1 p2 , a diferença entre as proporções amostrais calculadas a partir de duas amostras aleatórias independentes; • para 2 , o estimador é ˆ 2 s 2, a variância amostral. Intervalo de Confiança para a Média Com variância conhecida Para estimar a média , seleciona-se uma amostra aleatória de tamanho n e calcula-se a média amostral. Do TCL sabe-se que a distribuição amostral do estimador pontual é, aproximadamente, a de Gauss, com média e variância 2/n. Como a distribuição da média amostral tende para a de Gauss, o intervalo de confiança deve abranger uma área de (1-)% entre seus limites inferior e superior na distribuição de Gauss. Intervalo de Confiança para a Média Cada limite é expresso em unidades de desvio padrão representada por z/2, tal que a área da extremidade à esquerda de -z/2 vale /2 e a área à direita de z/2 vale /2. A área entre os limites de confiança seja 100(1- )% . As abscissas z são encontradas nas tabelas da distribuição de Gauss. Então o intervalo de confiança bilateral de 100 (1- )% para é dado por: X z / 2 n X z / 2 n Observe que a: Parâmetro=estimativa pontualfunção(confiança,dispersão, tamanho da amostra). Intervalo de Confiança para a Média Exemplo: O desvio padrão da população para a glicemia é de 10 mg/dl. Em uma amostra de 50 indivíduos retirados casualmente, a média é de 118 mg/dl. Estime a média da população de modo que se esteja correto em 95% dos casos. O intervalo de confiança bilateral de 100 (1- )% para é dado por: X z / 2 X z / 2 n n No Excel , o cálculo do intervalo de confiança é feito pela função INT.CONFIANÇA. Resposta: [115;121] Intervalo de Confiança para a Média Com variância desconhecida Para estimar a média da população com variância(2) desconhecida , seleciona-se uma amostra aleatória de tamanho n e calcula-se a média e a variância amostral. Nesse caso, deve-se utilizar a distribuição t de Student, com (n-1) graus de liberdade. O intervalo de confiança bilateral de 100 (1-)% para a média é: X t / 2,n 1 s n X t / 2,n 1 s , n onde X é a média amostral, t/2,n-1 é a abscissa da distribuição t que limita a área das extremidades direita e esquerda no valor /2, e o número de graus de liberdade é (n-1). Intervalo de Confiança para a Média Observação: Quando o número de graus de liberdade é considerado grande (maior que 30), observa-se que o valor t tende para o valor correspondente de z, igualando-se no caso de n tendendo a infinito. Intervalo de Confiança para a Média Exemplo: O desvio padrão da amostra para a glicemia, de 50 indivíduos, é de 10 mg/dl e a média é de 118 mg/dl. Estime a média da população de modo que se esteja correto em 95% dos casos. Solução: n=50, s= 10 mg/dl, X=118 mg/dl e 1- =0,95. Da distribuição de t, tem-se que t0,025;49=2,01. Aplicando a fórmula anterior, temos: [ 115,2;120,8] A Distribuição F Considere duas populações com distribuição de Gauss com médias 1, 2 e variâncias 12 e 22 . Retire uma amostra aleatória de tamanho n1 da primeira população, tendo uma variância s12, e outra amostra aleatória de tamanho n2 da segunda população com variância s22 . (s12 / 12 ) /(s22 / 22 ) indica a relação entre as razões A estatística amostral e da população. das variâncias Supondo que as variâncias amostrais sejam oriundas de amostras aleatórias independentes e com as mesmas variâncias populacionais, então: F=s12 /s22. A distribuição teórica que modela essa razão denomina-se Distribuição F Exemplo com o Excel No menu Ferramentas, a opção Análise de Dados leva ao Teste F. . Exercício sobre o Teste F Exemplo: Considere as medidas de alturas de alunos e alunas da disciplina RGM 5837. F 1,60 1,65 1,54 1,55 1,59 1,65 1,73 1,71 1,73 M 1,71 1,72 1,92 1,73 1,83 1,80 1,82 1,76 1,75 Considerando-se uma confiança de 95%, pode-se afirmar que as variâncias são iguais? No Menu Ferramentas, a opção Análise de Dados leva ao Teste F:duas amostras para variâncias, que realiza o teste de igualdade de variâncias. Intervalo de Confiança para a Diferença de Médias Considerando iguais as variâncias das populações A variável aleatória X1 é modelada por uma distribuição de Gauss com média 1 e variância 12, isto é, X1~N(1, 12) e a variável X2, também é de Gauss, isto é, X2~N(2, 22) O intervalo de 100 (1-)% de confiança para a diferença (1 - 2 ) entre as médias das duas populações é dado por: X 1 X 2 t / 2, n1 n2 2 s p 1 1 1 2 ( X 1 X 2 ) t / 2, n1 n2 2 s p n1 n2 Com a variância comum, ponderada, dada por: s 2p (n1 1) s12 (n2 1) s 22 n1 n2 2 1 1 n1 n2 A Distribuição Qui-quadrado Considere uma população de tamanho n que tem uma distribuição de Gauss com média 0 e variância 1, ou seja, z12, z22, ..., zn2. A distribuição qui-quadrado(2) é definida como a soma dos quadrados dos n valores de zi: 2=z12 + z22 + z32 + ... + zn2 Se continuarmos a retirar as amostras da mesma população, cada uma das n quantidades terá uma distribuição de probabilidade 2 que poderá ser representado por um histograma. Com o número de amostras(n) grande, tem-se a distribuição do quiquadrado com n-1 graus de liberdade. Exemplo com o Excel No menu Colar função, escolher Estatística e a opção INV.QUI ou DIST.QUI. TESTES DE HIPÓTESES Exemplo Suponha que um medicamento P tenha, com relação a uma doença, uma eficiência de curas da ordem de 50%. Admita, ainda, que o laboratório esteja interessado em lançar no mercado um novo medicamento N cuja eficiência, com relação à mesma doença, seja EN, esperada superior a EP. O objetivo é testar a hipótese de que os dois medicamentos têm a mesma eficiência contra a hipótese de que o medicamento N é mais eficiente do que o padrão (P) H0 EN = EP H1 EN EP ou H0 EN = 50% H1 EN 50% ELEMENTOS DE UM TESTE ESTATÍSTICO • A hipótese nula, H0 • A hipótese alternativa, Ha ou H1 • O teste estatístico • A região de não rejeição Região de não rejeição Região de não rejeição Para testar H0 contra H1, suponha a realização do seguinte experimento: Toma-se uma amostra de indivíduos apresentando as características da doença e casualmente aplica-se os dois medicamentos. Por exemplo, 20 indivíduos, 10 tomam o medicamento P e o restante o N. Ao final do experimento, com os resultados obtidos, o laboratório deverá tomar uma decisão, entre duas possíveis: • aceitar H0, ou seja, o medicamento N tem a mesma eficiência que o P. • rejeitar H0 (aceitar H1), isto é, o medicamento N tem eficiência maior que o P. Ao tomar uma decisão o laboratório estará cometendo algum tipo de erro? a) Suponha que H0 seja realmente verdadeira • se for tomada a primeira decisão (aceitar H0), não se estará cometendo erro • se for tomada a segunda decisão (rejeitar H0 ), cometese um erro, denominado tipo I que consiste em rejeitar H0 quando H0 é verdadeira, cuja probabilidade de ocorrência é o . b) Suponha que H1 seja realmente verdadeira: se for tomada a primeira decisão (aceitar H0), comete-se um erro, denominado tipo II que consiste em aceitar H0 quando H0 é falsa, cuja probabilidade de ocorrência é . EM RESUMO Verdade H0 H1 Não há erro Erro tipo II = Aceitar H0 (rejeitar H1) quando H0 é falso (H1 é verdadeiro) Decisão H0 H1 Erro tipo I = Rejeitar H0 (aceitar H1) quando H0 é verdadeira (H1 é falso) Não há erro OBSERVAÇÕES a) Os dois erros são igualmente importantes, porém depende do problema; b) Ao reduzir um ocorre aumento no outro ; c) A única maneira de reduzir ambos é aumentando o tamanho da amostra; OBSERVAÇÕES d) Em geral, fixa-se o e o é o menor possível; e) A escolha prévia do valor de , não é um problema estatístico e sim do pesquisador interessado em testar H0 contra H1.