Inferência Estatística Básica Teste de Hipóteses para uma média populacional Cálculo do Valor p Exemplo 1 Um restaurante compra frangos abatidos inteiros com peso médio de 3 Kg há vários anos de um mesmo fornecedor. Outro fornecedor propõe ao gerente do restaurante vender frangos com peso médio maior que 3 Kg ao mesmo preço do fornecedor antigo. Antes de mudar de fornecedor, o gerente do restaurante decidiu comprar 25 frangos do novo fornecedor e pesá-los. Encontrou um peso médio amostral de 3.2 Kg com um desvio padrão de 0.4 Kg. Ao nível de 5% de significância, a afirmação do novo fornecedor é confirmada pelos dados coletados pelo gerente? Exemplo 1 Parâmetro: µ = peso médio dos frangos do novo fornecedor, em Kg Valor de comparação: µ0 = 3.0 Kg Hipóteses H0: µ = 3.0 Ha: µ >3.0 Nível de significância: α = 0.05 Erro tipo I: Dizer que os frangos pesam, em média, mais do que 3.0 Kg, quando eles pesam 3.0 Kg ou menos. Erro tipo II: Dizer que os frangos não pesam, em média, mais do que 3.0 Kg, quando eles pesam mais do que 3.0 Kg. Teste de Hipóteses para uma Média Populacional Hipóteses H0: µ = µ 0 Ha : µ < µ 0 ou H0: µ = µ 0 Ha : µ > µ 0 ou H0: µ = µ 0 Ha : µ ≠ µ 0 Estatística de Teste T = x − µ0 s n T é a distância padronizada entre o valor observado na amostra ( x ) e o valor esperado sob H0 (µ0) para o parâmetro em teste (µ). Teste de Hipóteses para uma Média Populacional Qual é a distribuição de referência para os valores de T ? Sabemos que, se os dados vêm de uma população com distribuição Normal de média µ e desvio-padrão σ, então T = x − µ0 s n ∼ tn−1 Ou seja, a distribuição de referência do teste de hipóteses para uma média populacional é a distribuição t-Student com (n-1) graus de liberdade. Teste de Hipóteses para uma Média Populacional Assim, a região de rejeição do teste será definida na distribuição t-Student com (n-1) graus de liberdade Distribuição t-student com (n-1) graus de liberdade A localização da região de rejeição na curva t-Student dependerá da forma da hipótese alternativa do teste Teste de Hipóteses para uma Média Populacional Hipóteses Região de Rejeição H0: µ = µ 0 Ha : µ > µ 0 α RR : Tobs > t( n −1;α ) H0: µ = µ 0 Ha : µ < µ 0 α RR : Tobs < −t( n −1;α ) Teste de Hipóteses para uma Média Populacional Hipóteses Região de Rejeição H0: µ = µ 0 Ha : µ ≠ µ 0 RR : Tobs < −t α ( n −1; ) 2 α/2 α/2 Tobs > t α ( n −1; ) 2 e Exemplo 1 (continuação) Hipóteses H0: µ = 3.0 Ha: µ >3.0 µ = peso médio dos frangos do novo fornecedor, em Kg. Nível de significância: α = 0.05 Dados amostrais: x = 3.2 ; s = 0.4 ; n = 25 Supondo que os os dados vêm de uma população com distribuição Normal média µ : x − µ0 T = s n ∼ tn−1 Exemplo 1 (continuação) Região de Rejeição: RR : Tobs > t(24;0.05) RR : Tobs > 1.711 0.05 1.711 Valor observado da estatística de teste Tobs 3.2 − 3.0 0.20 = = = 2.5 0.4 25 0.08 Exemplo 1 (continuação) Como o valor observado da estatística de teste (Tobs=2.50) pertence à região de rejeição, rejeitamos H0 ao nível de 5% de significância. Conclusão em termos do problema: “Ao nível de 5% de significância, a amostra coletada pelo comprador fornece evidências estatísticas suficientes a favor da hipótese de que os frangos do novo fornecedor têm peso médio maior do que 3.0 Kg.” Exemplo 2 Sabe-se que o tempo até a cura de certo tipo de micose dos pés quando tratada por uma determinada pomada aplicada uma vez ao dia é de 10 dias, em média. Um dermatologista deseja verificar se a aplicação da mesma pomada duas vezes ao dia reduz o tempo médio até a cura. Para isso, selecionou 56 de seus pacientes atacados pela micose e prescreveu o tratamento com aplicação da pomada duas vezes ao dia. O tempo médio até a cura nos pacientes da amostra foi de 8.7 dias, com um desvio padrão de 4.5 dias. Ao nível de 1% de significância, os dados mostram evidências de que aplicar a pomada duas vezes ao dia acelera a cura da micose? Exemplo 2 (continuação) Hipóteses H0: µ = 10.0 Ha: µ <10.0 µ = tempo médio até a cura com a aplicação do remédio duas vezes ao dia, em dias. Nível de significância: α = 0.01 Dados amostrais: x = 8.7 ; s = 4.5 ; n = 56 Como a amostra é grande (n > 30), vamos usar o Teorema Central do Limite. Assim, x − µ0 T = s n ∼ Normal (0;1) Exemplo 2 (continuação) Região de Rejeição: RR : Tobs < − z0.01 RR : Tobs < −2.33 Distribuição Normal Padrão 0.01 -2.33 Valor observado da T = 8.7 − 10.0 = −1.30 = −2.16 obs estatística de teste 0.60 4.5 / 56 Exemplo 2 (continuação) Como o valor observado da estatística de teste (Tobs=-2.16) não pertence à região de rejeição, não rejeitamos H0 ao nível de 1% de significância. Conclusão em termos do problema: “Ao nível de 1% de significância, os dados do experimento não fornecem evidências estatísticas suficientes contra a hipótese de que o tempo médio até a cura com a aplicação da pomada duas vezes ao dia seja igual a 10 dias.” Exemplo 3 Sabe-se que a temperatura corporal média em humanos é de 36.8 graus Celsius. Um profissional de saúde esportiva acredita que pessoas que fazem atividade física regularmente tenham uma temperatura corporal média diferente do valor considerado como normal. Para verificar sua hipótese, ele selecionou 28 pessoas que praticavam atividade física regular e mediu sua temperatura corporal em vários momentos do dia. Ao final do dia, obteve a temperatura média de cada pessoa. A média das temperaturas das pessoas estudadas (média das médias diárias) foi de 36.50 graus Celsius, com um desvio padrão de 0.25 graus Celsius. Ao nível de 5% de significância, os dados mostram evidências a favor da hipótese do profissional de saúde? Exemplo 3 (continuação) Hipóteses H0: µ = 36.8 Ha: µ ≠ 36.8 µ = temperatura corporal média de pessoas que praticam atividade física regularmente, em graus Celsius. Nível de significância: α = 0.05 Dados amostrais: x = 36.50 ; s = 0.25 ; n = 28 Supondo que os os dados vêm de uma população com distribuição Normal média µ : x − µ0 T = s n ∼ tn−1 Exemplo 3 (continuação) Região de Rejeição: RR : Tobs < −t(27;0.025) e Tobs > t(27;0.025) RR : Tobs < −2.05 e Tobs > 2.05 0.025 0.025 -2.05 2.05 Valor observado da estatística de teste Tobs 36.50 − 36.80 −0.30 = = = −6.00 0.05 0.25 / 28 Exemplo 3 (continuação) Como o valor observado da estatística de teste (Tobs=-6.00) pertence à região de rejeição, rejeitamos H0 ao nível de 5% de significância. Conclusão em termos do problema: “Ao nível de 5% de significância, os dados mostram evidências estatísticas suficientes a favor da hipótese do profissional de saúde.” Probabilidade de Significância (Valor p) Definição do Valor p: É a probabilidade de errar ao decidir pela rejeição da hipótese nula com base nos dados observados. Como calcular o Valor p: O valor p é a probabilidade de a estatística de teste ter valores mais “extremos” do que seu valor calculado com os dados amostrais, supondo H0 verdadeira. Cálculo do Valor p O valor p é calculado na distribuição de referência do teste. A definição do que são os valores “mais extremos” depende da hipótese alternativa do teste. Cálculo do Valor p Hipóteses Valor p H0: µ = µ 0 Ha : µ > µ 0 Valor p = P[Tn −1 > Tobs ] Tobs H0: µ = µ 0 Ha : µ < µ 0 mais extremos Valor p = P[Tn −1 < Tobs ] mais extremos Tobs Cálculo do Valor p Hipóteses H0: µ = µ 0 Ha : µ ≠ µ 0 Valor p P[Tn −1 > Tobs ] P[Tn −1 < − Tobs ] -|Tobs| |Tobs| Valor p = P[Tn −1 < − Tobs ] + P[Tn −1 > Tobs ] Pela simetria, P[Tn −1 < − Tobs ] = P[Tn −1 > Tobs ] Então, Valor p = 2 × P[Tn −1 > Tobs ] Exemplo 1 (Cálculo do Valor P): Hipóteses H0: µ = 3.0 Ha: µ >3.0 Tobs µ = peso médio dos frangos do novo fornecedor, em Kg. 3.2 − 3.0 = = 2.5 0.4 25 Valor p = P[T24 > Tobs ] Valor p = P[T24 > 2.5] Na tabela t-Student, linha 24, não existe o valor 2.5. Ele está entre os valores 2.492 e 2.797. Tabela t-Student 2.5 P[T24 > 2.492] = 0.01 0.005 < P[T24 > 2.5] < 0.01 P[T24 > 2.797] = 0.005 0.01 Entre 0.005 e 0.01 0.005 2.492 2.50 2.797 0.005 < Valor p < 0.01 Exemplo 1 (Cálculo do Valor P): Como o valor p encontrado (0.005 < valor p < 0.01) é menor do que o nível de significância do teste (0.05), rejeitamos H0. Conclusão em termos do problema (completa): “Ao nível de 5% de significância, a amostra coletada pelo comprador fornece evidências estatísticas suficientes a favor da hipótese de que os frangos do novo fornecedor têm peso médio maior do que 3.0 Kg (0.005 < valor p < 0.01).” Exemplo 2 (Cálculo do Valor P): Hipóteses H0: µ = 10.0 Ha: µ <10.0 Tobs µ = tempo médio até a cura com a aplicação do remédio duas vezes ao dia, em dias. 8.7 − 10.0 = = −2.16 4.5 / 56 Como a amostra é grande (n > 30), vamos usar o Teorema Central do Limite. Assim, Distribuição Normal Padrão Valor p = P[ Z < Tobs ] Valor p = P[ Z < −2.16] 0.0153 -2.16 Exemplo 2 (Cálculo do Valor P): Como o valor p encontrado (0.0153) é maior do que o nível de significância de 1%, não rejeitamos H0. Conclusão em termos do problema: “Ao nível de 1% de significância, os dados do experimento não fornecem evidências estatísticas suficientes contra a hipótese de que o tempo médio até a cura com a aplicação da pomada duas vezes ao dia seja igual a 10 dias (valor p = 0.0153).” Exemplo 3 (Cálculo do Valor P): Hipóteses H0: µ = 36.8 Ha: µ ≠ 36.8 Tobs µ = temperatura corporal média de pessoas que praticam atividade física regularmente, em graus Celsius. 36.50 − 36.80 = = −6.00 0.25 / 28 Valor p = 2 × P[T27 > Tobs ] Valor p = 2 × P[T27 > 6.00] Na tabela t-Student, linha 27, não existe o valor 6.00. Ele está depois do último valor tabelado, 3.690. Tabela t-Student 6.00 P[T27 > 3.690] = 0.0005 P[T27 > 6.00] < 0.0005 0.0005 < 0.0005 3.690 6.0 Valor p < 2 x 0.0005 Valor p < 0.001 Exemplo 3 (Cálculo do Valor P): Como o valor p encontrado (menor do que 0.001) é menor do que o nível de 5% de significância adotado, rejeitamos H0. Conclusão em termos do problema: “Ao nível de 5% de significância, os dados mostram evidências estatísticas suficientes a favor da hipótese do profissional de saúde (valor p < 0.001).” Para aprender mais … Exercícios de 10.1 e 10.2 da Seção 10 (continuação: itens iv, v e vi). Próxima aula Teste de Hipóteses para uma Proporção Populacional Como fazer um Teste de Hipóteses usando um Intervalo de Confiança