UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS FACULDADE DE ESTATÍSTICA TESTE t-STUDENT TESTE IGUALDADE DE VARIÂNCIAS BELÉM 2014 TAIS MEDEIROS SILVA 201107840019 TESTE t-STUDENT TESTE IGUALDADE DE VARIÂNCIAS Trabalho apresentado para obtenção de nota parcial na disciplina Estatística Aplicada referente a avaliação do 8º período do curso de Bacharelado em Estatística da Universidade Federal do Pará. Orientadores: Prof.Dr. Heliton Tavares e Prof.Dr.ª Regina Tavares. BELÉM 2014 TESTE t-STUDENT A estatística t foi introduzida em 1908 por William Sealy Gosset, químico da cervejaria Guinness em Dublin, Irlanda ("student" era seu pseudônimo). Gosset havia sido contratado devido à política inovadora de CLaude Guinness de recrutar os melhores graduados de Oxford e Cambridge para os cargos de bioquímico e estatístico da indústria Guinness.Gosset desenvolveu o Teste t como um modo barato de monitorar a qualidade da cerveja tipo stout. Ele publicou o Teste t na revista acadêmica Biometrika em 1908, mas foi forçado a usar seu pseudônimo pelo seu empregador, que acreditava que o fato de usar estatística era um segredo industrial. De fato, a identidade de Gosset não foi reconhecida por seus colegas estatísticos. O teste t-Student ou somente teste té um teste de hipótese que usa conceitos estatísticos para rejeitar ou não uma hipótese nula quando a estatística de teste ( ) segue uma distribuição t-Student. Essa premissa é normalmente usada quando a estatística de teste, na verdade, segue uma distribuição normal, mas a variância da população usada a variância amostral é desconhecida. Nesse caso, é e, com esse ajuste, a estatística de teste passa a seguir uma distribuição t-Student. Unicaudal X bicaudal Dependendo da definição da hipótese nula, deve ser usado uma ou duas caudas da distribuição t-Student na avaliação do teste. Por exemplo, se a hipótese nula for ̅ a hipótese alternativa ̅ e , o teste deve ser feito somente para valores maiores do que e, portanto, ao consultar a função densidade de probabilidade da distribuição t-Student, deve-se considerar somente a área superior a , ou seja, somente uma das "caudas" da distribuição. Por outro lado, se a hipótese nula for ̅ ̅ e, consequentemente, a hipótese alternativa , teríamos que avaliar ao mesmo tempo a possibilidade de ̅ e de ̅ . Para isso, ao consultar a função densidade de probabilidade da distribuição t-Student, devem ser consideradas as áreas abaixo da curva para valores superiores a e inferiores a , ou seja, as duas "caudas" da distribuição. Como a distribuição é simétrica, os tamanhos dessas áreas são iguais. O teste t-Student dividi-se em: TESTE DE HIPÓTESES PARA UMA AMOSTRA Constitui um dos testes paramétricos de largo uso quando a variância da população é desconhecida, utilizando-se o valor obtido, para o cálculo dessa estatística, da amostra coletada. Deve-se fixar: se a variância paramétrica é desconhecida = Teste t-Student, independe do tamanho amostral. Definições: = média da população e = tamanho da amostra ∑ ̅ = média da amostra = variância da amostra ̅ √ √ = desvio padrão da amostra = erro padrão ̅ ̅ = teste t gl = graus de liberdade = n-1 Exemplo: Um estudo foi efetuado em amostra aleatória de 16 pessoas deprimidas, verificando-se que o tempo médio de sono foi igual a 7,03 horas, com variância de 0,68. Procurou-se comparar com o período de sono de pessoas consideradas normais, cujo valor obtido na literatura é de 7,31 horas. Deseja saber se o tempo de sono dos deprimidos é menor que o de indivíduos normais? 1° passo: Enunciar as hipóteses Nessas condições, como se deseja saber se o tempo de sono dos deprimidos é menor que o de indivíduos normais, o teste escolhido é t unilateral: 2° passo: Estabelecer o nível de significância 3° passo: ( Cálculos) ̅ √ ̅ ̅ ̅ √ √ Observando na tabela o t tabelado será: Comparando com o t calculado temos: | | 4° passo: Conclusão Como o t obtido é menor que o valor tabelado ao nível de significância de 5%, para 15 graus de liberdade, não se rejeita a hipótese nula. Portanto, o tempo de sono dos deprimidos é estatisticamente maior ou igual aos de indivíduos normais. TESTE DE HIPÓTESES PARA DUAS AMOSTRAS INDEPENDENTES Aplica-se sempre que se pretende comparar as médias de uma variável quantitativa em dois grupos diferentes de sujeitos e se desconhecem as respectivas variâncias. Neste tipo de teste são retiradas duas amostras de forma independente, isto é, as medidas são obtidas em unidades amostrais diferentes. A) Variâncias iguais, porém desconhecidas Consideraremos agora, que as variâncias das populações são iguais, porém, desconhecidas, ou seja, . Então, para testar a igualdade das médias, vamos considerar a variável ̅ ̅ √ Que tem distribuição t de Student com graus de liberdade. Aqui o éo desvio padrão agrupado que é dado por √ Temos que o é dado por ̅ ̅ √ Exemplo: Para ilustrar a aplicação deste teste de hipótese, considere os dados de duas amostras apresentadas a seguir e, a um nível de significância diferença significativa entre as médias populacionais e . , decida se existe Amostra 1 20,8350 19,1690 17,5270 19,2900 17,0780 22,0590 17,6200 18,5850 21,4260 17,8900 17,5910 18,7560 18,9770 20,3080 18,8990 22,057 22,881 17,968 23,382 21,043 Amostra 2 22,629 24,62 22,86 22,058 24,515 23,15 22,426 22,787 21,203 24,009 18,7550 19,2030 18,4190 20,7640 21,0550 21,491 22,699 24,662 21,983 21,917 21,198 22,909 23,327 24,534 21,152 Vamos testar se as médias das amostras 1 e 2 são iguais ou diferentes, portanto 1. Estabelecemos as hipóteses Temos a partir dos dados que a média e o desvio padrão da amostra 1 são ̅ e , respectivamente. A média e desvio padrão da amostra 2 são ̅ e é e , respectivamente. O tamanho de cada amostra . Com isso, temos que o desvio padrão agrupado é dado por √ 2.Para este exemplo, fixamos o nível de significância . 3. Como o teste é bilateral e sabendo que o número de graus de liberdade é , encontramos na Tabela da distribuição de Student os seguintes valores críticos e 4. Calculamos o valor da estatística . . √ Como são iguais. , rejeitamos a hipótese nula, ou seja, estatisticamente as médias não B) Variâncias desconhecidas e diferentes Vejamos agora como realizar um teste para igualdade das médias tendo variâncias desconhecidas e diferentes .Para isto consideramos a variável ̅ tal que ̅ √ Ou seja, a variável dada pela equação acima tem distribuição t de Student com graus de liberdade, onde ( ( ) ) ( ) Calcula-se sob ̅ ̅ √ Obtemos o intervalo de confiança para a diferença de duas médias com variâncias desconhecidas e diferentes: ( ̅ ̅ ( ) √ ) Exemplo: compare as médias das amostras na produção de eixo comando desenvolvido por dois sistemas de usinagem. Com os seguintes dados: Sistema de Usinagem 1 Sistema de Usinagem 2 18,7997 20,5035 18,6214 19,9192 21,117 20,8353 17,527 17,078 17,6197 21,4255 18,7545 19,2026 18,4187 20,7641 21,0553 17,5905 18,7561 18,9772 20,3084 18,8988 19,1688 19,2898 22,059 18,5854 17,8896 21,1609 26,1371 21,4737 30,9934 22,8421 24,4133 20,4137 25,5475 21,8791 22,6706 24,7531 25,7219 22,6389 26,2308 26,7998 28,4708 26,9941 25,1489 24,6179 27,0194 25,0589 22,1119 20,3069 23,6758 27,1201 29,6136 25,9948 18,223 23,7336 22,4208 Hipóteses: ̅ ̅ ( ) ( * ( * ( ) ( ) 2. Para este exemplo, fixamos o nível de significância . 3. Como o teste é bilateral e sabendo que o número de graus de liberdade é encontramos na Tabela da distribuição de Student os seguintes valores críticos e . Calculamos o valor da estatística . √( Como ) , rejeitamos a hipótese nula, ou seja, estatisticamente as médias não são iguais. TESTES DE HIPÓTESES PARA DUAS AMOSTRAS RELACIONADAS (TESTE T PAREADO) Para realizarmos os testes de igualdade de variâncias e os testes de médias, precisamos que as duas populações sejam independentes. Porém, na prática, temos algumas situações onde as populações não são independentes. Numa situação de comparação inter laboratorial onde dois laboratórios medem a mesma peça, por exemplo, as medidas entre os laboratórios não são independentes. Neste caso, utilizamos o teste pareado. Para realizar o teste pareado devemos primeiramente estabelecer uma das hipóteses: O parâmetro parâmetro será estimado pela média amostral das diferenças, ou seja, ̅ , O será estimado pela variância amostral das diferenças, ou seja, ∑ O teste será realizado pela expressão: ̅ , ̅ √ Que sob sugue uma distribuição de Student com graus de liberdade. Exemplo: Um método para avaliar a efetividade de uma droga é observar sua concentração em amostras de sangue ou urina em certos períodos de tempo após seu uso. Suponha que desejaríamos comparar a concentração de dois tipos de aspirinas (tipo A e B) na urina da mesma pessoa, 1 hora após ela ter tomado a droga. Uma dosagem específica da aspirina A é ministrada e, em seguida, é medida sua concentração na urina. Uma semana depois, após a primeira aspirina ser presumidamente eliminada do organismo, uma dosagem da aspirina B é ministrada na mesma pessoa e sua concentração na urina é medida. Pode-se afirmar que a média de proteína urinária sofreu alterações? Os resultados desse experimento são apresentados na tabela a seguir. aspirina_A aspirina_B 15 13 26 20 13 10 28 21 17 17 20 22 7 5 36 30 12 7 18 11 Teste de hipóteses Temos, √ √ Como rejeita-se a hipótese nula ao nivel de significância de 5%. Portanto, estatisticamente a média de concentração das aspirinas A e B na urina são diferentes. TESTE IGUALDADE DE VARIÂNCIAS Para o modelo heterocedástico, vamos inicialmente testar as hipóteses: Dadas as amostras aleatórias independentes de tamanhos n1 e n 2 de populações com variâncias 12 e 22 e admitindo que essas populações tenham distribuições aproximadamente normais, costuma-se basear os testes da hipótese nula H o 12 22 na estatística F. A estatística do teste será: ⁄ ⁄ Os métodos mais utilizados são os testes de Cochran, Bartlett e de Levene. Exemplo: Que se verificar se duas máquinas produzem peças com a mesma homogeneidade quanto à resistência a tensão. Para tal, sorteiam-se duas amostras de 6 peças de cada uma das máquinas e observam-se as resistências. máquina X máquina Y 145 143 127 128 136 132 142 138 141 142 137 132 1ª passo: 2º passo ⁄ ⁄ 3º passo: Fixando , a RC é dada por: { Com } tais que ( ) | Assim ( | ) ⁄ 4º passo: Com os dados apresentados, temos . Portanto o valor observado da estatística Como o valor observado da estatística não pertence à RC, aceitamos máquinas produzem com a mesma variabilidade. e concluímos que as BIBLIOGRAFIA [1] http://pt.wikipedia.org/wiki/Teste_t_de_Student [2] AYRES, Manuel.Elementos de Bioestatística 2.ed. Belém-pa: 2012. [3] http://www.portalaction.com.br/558-573-3%C2%BA-caso-vari%C3%A2nciasdesconhecidas-e-diferentes [4] BOLFARINE,Heleno; SANDOVAL, Mônica Carneiro. Introdução à Inferência Estatística. São Paulo: SBM,2000. [5] http://www.portalaction.com.br/557-572-2%C2%BA-caso-vari%C3%A2nciasiguais-por%C3%A9m-desconhecidas