Testes de Hipóteses Como o próprio nome já diz, iremos testar, verificar, realizar um procedimento, com o objetivo de tomarmos uma decisão, chegarmos a uma conclusão a respeito de alguma(s) hipótese(s), suposição, de algum fato que é importante para a nossa pesquisa, quando não o principal motivo da pesquisa. Exemplos: Será que os obesos possuem valores equivalentes a não obesos para escalas de ansiedade ? Será que a droga X diminui a dor de cabeça mais do que a droga Y ? Há menos homens do que mulheres ingressando nas universidades ? Para cada situação acima colhemos uma amostra e a partir daí desejamos verificar, TESTAR, se a nossa suposição, a HIPÓTESE, é ou não verdadeira. O teste de hipótese é composto por duas hipóteses: A- A 1a. hipótese é conhecida por H0, hipótese nula, na grande maiorias das vezes refere-se a uma igualdade (=), “não há diferença”; normalmente é aquilo que o pesquisador não deseja que aconteça. B - A 2a. hipótese é conhecida por H1, hipótese alternativa, é complementar a H0 (refere-se a uma diferença, se H0 tem =, H1 tem ; se H0 , H1 tem <; se H0 tem , H1 tem >.), normalmente é a conclusão que o pesquisador desejaria que acontecesse, que ele comprovasse. Exemplos: H0: Valores dos obesos (média) = Valores dos não-ob. H1: Valores dos obesos (média) Valores dos não-ob. H0: A droga X cura cefaléia A droga Y H1: A droga X cura cefaléia < A droga Y Resultados de um teste de hipótese: Só há dois possíveis resultados para um teste de hipótese: -REJEITAR H0, não chegarmos à conclusão nela expressa, ou -NÃO REJEITARMOS H0, chegarmos à conclusão nela expressa. Não se utiliza a expressão “Aceitar Ho”, o fato de não rejeitarmos H0 não implica que H0 seja verdadeiro, ou aceito; apenas que os dados não confirmam aquela hipótese. No exemplo: Podemos rejeitar que os obesos são equivalentes aos não-obesos (Rejeito HO, há uma diferença) OU não rejeitar que os obesos são equivalentes (Não rejeito HO, não há uma diferença) Tipos de erro no teste de hipótese Depois que chegamos a uma conclusão do nosso teste temos a seguinte situação: H0 (Só Deus, a Natureza, sabe se é verdade ou não) VERDADE FALSO Con REJEITO H0 Erro do tipo 1 Não há erro clu () são NÃO REJEITO H0 Não há erro Erro do tipo 2 () No exemplo, se rejeito que os obesos são equivalentes aos não-obesos (Rej. H0), mas na verdade são equivalentes, COMETO O ERRO DO TIPO 1. Se não rejeito que os obesos são equivalentes aos não-obesos (Não rej. H0), mas na verdade não são equivalentes, COMETO O ERRO DO TIPO 2. Então temos dois possíveis tipos de erro: Erro do tipo 1 () : Rejeitar H0 quando na verdade ela é verdadeira; Erro do tipo 2 () : Não Rejeitar H0 quando na verdade ela é falsa. Nunca saberemos se erramos ou não, apenas temos meios para calcularmos as probabilidades de cada um destes erros. Como podemos rejeitar uma hipótese verdadeira ? Problemas que podem ir desde uma amostragem mal feita (com vícios, erros, tamanho insuficiente) até problemas com a tabulação dos dados, aplicação de testes incorretos e etc... Não temos como evitar os erros, mas temos como minimizá-los, porém quando tentamos diminuir um acabamos aumentando o outro. Os testes são elaborados de modo que se fixe o erro do tipo I (que se está disposto a aceitar) e o erro do tipo II seja o menor possível, normalmente isto é feito via aumento de tamanho de amostra, quanto maior a amostra menor será o erro do tipo 2. O “poder” de um teste de hipótese é definido como a probabilidade de rejeitar-se um H0 falsa Desejável, quanto maior meu poder do teste, melhor. Ele é expresso por 1 - . Poder do teste também pode ser interpretado como a chance de detectar-se uma real diferença. Se o poder de um teste é muito baixo, possivelmente nossos resultados serão inconclusivos. Um valor utilizado frequentemente para poder do teste é de uma probabilidade de 0.80. Tipos de testes de hipóteses: Bicaudal (Two tail): Quando testa se há alguma diferença, independente do sentido da diferença. Ex: H0: Salário dos dentistas = Salário dos psicólogos X H1 Salário dos dentistas Salário dos psicólogos . Monocaudal (One tail): Quando testa se há alguma diferença e em que sentido, direção, ela está. Ex: A pressão arterial dos motoristas taxis a pressão arterial dos motoristas não taxistas. X H1: A pressão taxistas > pressão dos não-taxistas. O teste monocaudal dificilmente é utilizado, via de regra utiliza-se o bicaudal, por uma série de fatores técnicos. O teste monocaudal só deve ser utilizado quando o pesquisador , a priori, só esta interessado em saber se determinada situação é superior (ou inferior) a outra. Isto na prática dificilmente ocorre. Normalmente utiliza-se o teste BICAUDAL. Se no teste monocaudal do exemplo eu não rejeito HO, eu só posso inferir que a pressão dos taxistas não é superior, mas não posso afirmar se é menor ou igual. Já no teste bicaudal se rejeito H0 eu afirmo que é igual. Logo os testes bicaudais são mais ‘completos’ que os mono. Conceito de nível de significância (ou rejeição) Nível de significância nada mais é que o valor máximo de erro do tipo I () que estamos dispostos a aceitar, a probabilidade de rejeitar H0 quando H0 é verdadeiro. Por mera convenção usualmente adota-se o valor 0.05. Então dizer que o nível de significância adotado foi 0.05 quer dizer que a chance de rejeitarmos H0 quando verdadeiro não será superior a 5%. Nos determinamos este valor a priori. Etapas de um teste de hipóteses: 1 -Formular as hipóteses (H0 e H1) de interesse. :H0: Os valores de colesterol dos negros são equivalentes aos dos brancos; X H1: // // // // não são // // // //. 2 -Fixar um erro do tipo I () aceitável, na prática em 99.9% será 0.05. Estamos estabelecendo nosso nível de significância. 3 -Quando possível, em situações em que é viável calcular-se um tamanho de amostra a priori, fixar o erro do tipo II (), usualmente = 0.20 . O que quer dizer, mais importante, que estamos fixando nosso poder do teste em 80% Pode-se posteriormente calcular a probabilidade deste erro 4 -Escolher e realizar um teste estatístico apropriado, que varia conforme os tipos das variáveis envolvidas, a distribuição das mesmas e o tamanho da amostra. O teste estatístico nos fornecera um valor conhecido por “p” ou o “valor de p” (p value), que também é uma probabilidade; é a chance de, supondo HO verdadeiro, as diferenças encontradas serem ao acaso. Exemplo: Média colesterol negros = 30, Média dos brancos = 40, resultado do teste estatístico = p = 0.20. Então a chance da diferença de 10 ser meramente ao acaso (função da coleta da minha amostra) é de 20% 5 - Obtido o valor de p temos as seguintes decisões: - Se p > (chance grande da diferença ser ao acaso) Não rejeito HO, a hipótese nula, da igualdade, é compatível com os dados. - SE p (chance pequena da diferença ser ao acaso) Rejeito HO, a hipótese nula, da igualdade, não é compatível com os dados. Repare que como adotamos = 0.05, só rejeitaremos H0 quando a chance da diferença ser casual for menor que 5% CONSERVADOR Iremos demonstrar as bases teóricas da realização de um teste estatístico, sem nos prendermos as demonstrações matemáticas (fora do objetivo do curso). A demonstração será realizada apenas uma vez, para os demais testes abordados no curso ela será, na grande parte, omitida. Exemplo: A freq. cardíaca na população em geral tem média de 69.8 com dp = 1.86. Suspeita-se que uma droga tem aumentado este valor, para verificar este fato coletou-se uma amostra de 50 pessoas que obteve média de 70.5 H0: 70.5 = 69.8 X H1: 70.5 ≠ 69.8 . Teorema do Limite Central: Se retirarmos x amostras de tamanho n de uma população, e calcularmos as suas médias, a distribuição das médias será uma distribuição Normal com média = e dp = /rq(n) = EPM Amostra 1 Universo população com média e dp Amostra 2 Amostra n Cada amostra tem uma média e a dist. destas médias é Normal com e /rq(n) Então se retirarmos todas as possíveis amostras de tamanho 50, com média 69.8 e dp = 1.86 a distribuição das médias destas amostras será Normal com média 69.8 e dp = 1.86/rq(50) = 0.26. Normal reduzida: Se X é uma variável com distribuição Normal então (X - Média)/dp tem uma distribuição Normal reduzida, isto é, com média 0 e dp = 1, que é tabelada. Então se faço (70.5 - 69.8)/(1.86/rq50) tenho uma dist. Normal (0,1). Veja, 69.8 é a média já conhecida, 1.86/rq(50) = 0.26 é o dp, e 70.5 é valor que obtive na minha amostra e quero testar. Efetuando o cálculo tenho z = 2.69 Agora posso tomar uma decisão. 1.96 Como fixei = 0.05, o valor correspondente a prob. 0.05 na normal é 1.96. Portanto 2.69 > 1.96 Rejeito HO. Por outro lado o 2.69 corresponde a uma ’p’ = 0.01 logo Rejeito HO Todo teste estatístico ( teste de hipótese) segue a mesma lógica: - Obtém-se uma estatística, que irá variar conforme as variáveis e os parâmetros do estudo (no caso anterior uma variável contínua e um valor conhecido de média e dp, utilizamos a Normal reduzida). - Esta estatística tem, segue, uma distribuição conhecida e tabelada (Normal, Binomial, t, F , X2 ...). - Compara-se o valor fornecido pelo teste estatístico com o valor da distribuição conhecida , SOB A HIPÓTESE H0, correspondente a uma probabilidade de 5% (a velha probabilidade de cometer o erro do tipo I, e também o nível de significância). - Se o valor obtido pelo teste for superior (em módulo) ao valor da distribuição conhecida sob HO a 5% , rejeito H0. Caso contrário não rejeito H0 Atualmente os programas já fornecem a probabilidade (p value) de se obter o valor resultante do teste estatístico na distribuição conhecida, daí basta verificar se este valor é inferior a 0.05 (nível de significância) O exemplo anterior é conhecido por ‘teste z’ e testa se uma média amostral difere ou não significativamente de uma média conhecida com dp conhecido, coisa raríssima. Na realidade é bem mais comum depararmo-nos com a situação onde desejamos testar um média amostral contra uma média conhecida mas de dp desconhecido. Exemplo: Queremos verificar se a média de obtida por 20 alunas de psicologia para um teste de QI é ou não equivalente a média do Campus, que é de 76. H0: A média = 76 X H1: A média 76 Na estatística (X - Média)/(dp/rqn) tínhamos a média e o dp conhecidos, como não conheço o dp da população vou substituí-lo pelo da amostra. Depois de coletar as 20 amostras obtive um média = de 80.85 e dp = 8.87 Agora substituo os valores na fórmula: (80.85 - 76)/(8.87/rq20) Veja, antes o dp era conhecido, agora ele foi estimado a partir da amostra, então a estatística (X - Média)/(dp/rqn) não possui mais distribuição Normal e sim a distribuição conhecida por “t”. 2.09 d.f. =graus de liberdade. É um parâmetro na distribuição t relacionado ao tamanho da amostra 2.45 0.025 O final do procedimento é sempre semelhante, verifico o valor correspondente a uma probabilidade de 0.05 (nível de significância) na tabela da dist. t com 19 graus de liberdade ( tamanho da amostra -1) = 2.09. A estatística (80.85 - 76)/(8.87/rq20) = 2.45. Como 2.45 > 2.09 portanto REJEITO H0, as psicólogas possuem média superior à do Campus. O valor 2.45 corresponde a um p = 0.025, menor que 0.05. Diferença significante estatística Diferença significante prática É um fato notório que a altura dos homens é superior a das mulheres, para a indústria automobilística esta informação é irrelevante, ela não produz carros para com tamanho para homem ou mulher. Já para a indústria de roupas esta informação é fundamental, ela produz roupas de tamanhos diferentes para cada sexo. A informação é fun damental pois ela causou uma mudança de procedimento, de comportamento no processo da fabricação da roupa. Então temos uma diferença significativa estatística que para uns acarreta uma mudança dos padrões existentes (diferença prática) e para outros não. Então é importante que a seguinte pergunta seja feita quando obtemos um resultado “estatisticamente significativo” : ESTA DIFERENÇA ESTATISTICAMENTE SIGNIFICANTE LEVA A ALGUMA MUDANÇA DE COMPORTAMENTO, SUA UTILIZAÇÃO PODE MELHORAR O PADRÃO ATUAL ? Se a resposta for NÃO, de que serve a diferença estatística ? Será meramente um diferença probabilística. Então atenção, nem sempre uma diferença estatística tem como consequência uma diferença prática, que acrescente uma informação valiosa. Os dois tipos de ‘diferença’ não são equivalentes, a prática é sem dúvida mais importante. Boa pergunta para vcs responderem p vcs mesmos: Se eu efetivamente conseguir provar as hipóteses do meu trabalho, qual a diferença prática que estarei promovendo.