Teste Qui-quadrado Comparando proporções Verificando a hipótese de associação entre variáveis qualitativas Exemplo Inicial: Igualdade de Proporções A administração de um hospital deseja verificar se luvas de três marcas (A, B e C) são homogêneas quanto à permeabilidade a vírus. Para isto, realizou um experimento, no qual 240 luvas da marca A, 240 luvas da marca B e 300 luvas da marca C foram submetidas à tensão. Durante os testes, 151 luvas da marca A (62.9%), 134 luvas da marca B (55.8%) e 177 luvas da marca C (40.0%) deixaram passar vírus quando submetidas à tensão. Os dados do experimento apresentam evidências estatísticas suficientes contra a hipótese de que as três marcas possuem a mesma permeabilidade? H0: PA = PB = PC = P Ha: ao menos uma das permeabilidades é diferente das outras Teste de Igualdade de Proporções (mais de uma população) Tabela de valores observados Marca da luva Deixou passar vírus quando submetida à tensão? Total Sim Não A 151 89 240 B 134 106 240 C 177 123 300 Total 462 318 780 Tabela de Classificação Cruzada Construção do Teste H0: PA = PB = PC = P Ha: ao menos uma das permeabilidades é diferente das outras Marca da luva Deixou passar vírus quando submetida à tensão? Total Sim Não A 151 89 240 B 134 106 240 C 177 123 300 Total 462 318 780 462 ˆ P= 780 Estimativa de P, a permeabilidade comum Construção do Teste Se H0 (PA = PB = PC = P) é verdadeira: quantas luvas que deixam passar o vírus deveríamos esperar dentre as luvas da marca A ? E dentre as luvas da marca B ? E da marca C ? Marca da luva Deixou passar vírus quando submetida à tensão? Sim Total Não (240-142.15=97.85) 89............................. 240 B x462/780=142.15) 151 (240 .................................... (240x462/780=142.15) 134..................................... (240-142.15=97.85) 106............................... 240 C 177..................................... (300x462/780=177.70) 123............................... (300-177.70=122.30) 300 A Total 462 ˆ P= 780 462 318 Valores esperados sob H0 780 Construção do Teste Note que os valores esperados sob H0 são calculados como uma função simples dos totais de linha, coluna e do total geral (total de linha) × (total de coluna) Valor Esperado da casela = (total geral) Marca da luva Deixou passar vírus quando submetida à tensão? Total Sim Não A 151 (240 .................................... x462/780=142.15) 89............................. (240x318/780=97.85) 240 B (240x462/780=142.15) 134..................................... 106............................... (240x318/780=97.85) 240 C 177..................................... (300x462/780=177.70) 462 123............................... (300x318/780=122.30) 300 318 780 Total Construção do Teste Marca da luva A B C Total Tabela de Valores Observados (esperados sob H0 entre parênteses) Deixou passar vírus quando submetida à tensão? Sim Não 151 (142.15) 89 (97.85) 134 (142.15) 106 (97.85) 177 (177.70) 123 (122.30) 462 318 Estatística de Teste = “Observado – Esperado sob H0” Total 240 240 300 780 Construção do Teste Tabela de Valores Observados (esperados sob H0 entre parênteses) Marca da luva Deixou passar vírus quando submetida à tensão? Total Sim Não A 151 (142.15) 89 (97.85) 240 B 134 (142.15) 106 (97.85) 240 C 177 (177.70) 123 (122.30) 300 462 318 780 Total 2 2 Estatística de Teste = (151-142.15) (89-97.85) 2 2 (134-142.15) (106-97.85) 2 (177-177.70) (123-122.30)2 Construção do Teste Tabela de Valores Observados (esperados sob H0 entre parênteses) Marca da luva Deixou passar vírus quando submetida à tensão? Total Sim Não A 151 (142.15) 89 (97.85) 240 B 134 (142.15) 106 (97.85) 240 C 177 (177.70) 123 (122.30) 300 462 318 780 Total (151-142.15) 2 (89-97.85) 2 (134-142.15) 2 + + Estatística de Teste = + 142.15 97.85 142.15 (106-97.85) 2 (177-177.70) 2 (123-122.30) 2 + + 97.85 177.70 122.30 X 2 = 2.50 Valores críticos para X2 O valor de X2 é “grande” ou “pequeno” ? Valores de Referência para X2 Distribuição de Probabilidade de X2 5 g.l. Distribuição Qui-quadrado χ 2 gl 10 g.l. 0 Graus de Liberdade para o Teste Qui-Quadrado No caso do teste Qui-quadrado, os graus de liberdade da distribuição de referência equivalem ao número de caselas livres na tabela Exemplo: Tabela 2 x 2 Marca da luva Deixou passar vírus quando submetida à tensão? Total Sim Não A 151 89 240 B 134 106 240 Total 285 195 480 G.L. = (número de linhas -1) x (número de colunas -1) Voltando ao exemplo inicial …. Tabela 3 x 2 G.l. = (3-1) x (2-1) = 2 x 1 = 2 O valor da estatística X2 deve ser comparado aos valores de distribuição Qui-quadrado com 2 graus de liberdade. Se α = 0.05, RR : X2 > χ20.05 α ;2 χα2 ;gl Percentil que deixa uma área de α=0.05 acima dele na distribuição Qui-quadrado com 2 graus de liberdade (linha 2 , coluna do 0.05) Voltando ao exemplo inicial …. RR : X2 > 5.991 O valor da estatística observado de X2 foi 2.50. Como esse valor não pertence à região de valores críticos do teste qui-quadrado, a distância entre os valores observados e os valores esperados sob H0 foi considerada pequena. Assim, o experimento não mostrou evidências estatísticas suficientes para a rejeição da hipótese de que as permeabilidades das luvas das três marcas sejam iguais, a 5% de significância. Se rejeitarmos a hipótese da homogeneidade das permeabilidades usando os dados deste experimento …. Qual será o risco de estarmos cometendo o erro tipo I ? Valor P = P[ obter um valor de X2 ainda “mais extremo” do que o valor observado ] Valor P = P[χ2gl> X2obs] Valor P X2obs Voltando ao exemplo inicial …. Valor P = P[χ2gl> 2.50] Na linha 2 da Tabela Qui-quadrado, não existe o valor 2.50. 2.50 Valor P = P[χ2gl> 2.50] > 0.10 Conclusão: Os dados do experimento não mostraram evidências estatísticas suficientes para a rejeição da hipótese de que as permeabilidades das luvas das três marcas sejam iguais (valor P > 0.10). Teste Qui-quadrado para homogeneidade de proporções H0: As proporções de sucesso são homogêneas para todas as populações Ha: Ao menos uma população tem proporção de sucesso diferente das demais Onde : Nc é o número total de caselas da tabela (Oi − Ei )2 =∑ Ei i =1 Nc X 2 obs Oi é o valor observado na casela i, i=1,2,…, Nc Ei é o valor esperado na casela i. (total de linha) × (total de coluna) Ei = (total geral) Valor P = P[χ2gl> X2obs], onde g.l. = (l-1) x (c-1) Estatística X2 simplificada para o caso da Tabela 2x2 Marca da luva Deixou passar vírus quando submetida à tensão? Total Sim Não A 151 a 89 b 240 (a+b) B 134 c 106 d 240 (c+d) 285 (a+c) 195 (b+d) 480 N Total 2 N ( ad − bc) X = ( a + b)( a + c)(b + d )( c + d ) 2 Resolvendo o exemplo apenas com luvas A e B …. Marca da luva Deixou passar vírus quando submetida à tensão? Total Sim Não A 151 a 89 b 240 (a+b) B 134 c 106 d 240 (c+d) 285 (a+c) 195 (b+d) 480 N Total 2 480(151 ⋅ 106 − 89 ⋅ 134) X2 = = 2.49 (240)(285)(195)(240) Teste Qui-quadrado de independência Um número arbitrário N de indivíduos são classificados segundo duas variáveis qualitativas (variável A e variável B) Variável A Variável B B1 B2 .... Total Bm A1 A2 A3 An Total N Exemplo: associação entre grupo sanguíneo e presença de uma característica de interesse Tabela de Classificação Cruzada Característica Grupo Sangüíneo Presente Ausente A 32 47 79 B 8 19 27 AB 7 14 21 O 9 64 73 Total 56 144 200 Total [Reis e Reis, 2000] H0: HA: Variável A não está associada à Variável B (A e B são independentes) Variável A está associada à Variável B (A e B não são independentes) Onde : Nc é o número total de caselas da tabela (Oi − Ei )2 =∑ Ei i =1 Nc X 2 obs Oi é o valor observado na casela i, i=1,2,…, Nc Ei é o valor esperado na casela i. Ei = (total de linha) × (total de coluna) (total geral) Valor P = P[χ2gl> X2obs], onde g.l. = (l-1) x (c-1) “Associação entre toxoplasmose e acidente de trânsito em pessoas com sangue Rh negativo” [Flerg et al, 2009] H0 : HA : acidente automobilístico NÃO está associado à presença de toxoplasmose em pessoas com Rh negativo acidente automobilístico está associado à presença de toxoplasmose em pessoas com Rh negativo Toxoplasma Acidente ? Total Não Sim Não 526 14 540 Sim 170 11 181 Total 696 25 721 2 721(526 ⋅ 11 − 14 ⋅ 170) X2 = = 4.92 (181)(696)(25)(540) Valor P = P[χ21> 4.92] 4.92 (0.025 < Valor P < 0.05) Ao nível de 5% de significância, há evidências estatísticas suficientes a favor da hipótese de associação entre acidente automobilístico e presença de toxoplasmose em pessoas com sangue Rh negativo (0.025 < Valor P < 0.05). “Associação entre toxoplasmose e acidente de trânsito em pessoas com sangue Rh positivo” “Increased incidence of traffic accidents in Toxoplasma-infected military drivers and protective effect RhD molecule revealed by a large-scale prospective cohort study” H0 : HA : acidente automobilístico NÃO está associado à presença de toxoplasmose em pessoas com Rh positivo acidente automobilístico está associado à presença de toxoplasmose em pessoas com Rh positivo Toxoplasma Acidente ? Total Não Sim Não 2391 69 2460 Sim 692 17 709 3083 86 3169 Total 2 3169(2391 ⋅ 17 − 69 ⋅ 692) X2 = = 0.21 (2460)(709)(3083)(86) Valor P = P[χ21> 0.21] 0.21 (0.10 < Valor P < 0.90) Para pessoas com sangue Rh positivo, os dados amostrais não fornecem evidências estatísticas suficientes contra a hipótese de independência entre acidente automobilístico e presença de toxoplasmose (Valor P > 0.10). Associação entre variáveis qualitativas Amostras Dependentes Exemplo inicial Em um estudo sobre tipos sanguíneos de casais, gostaria-se de verificar se existe associação entre o fator Rh do sangue das esposas e dos esposos. Para isto, 100 casais foram classificados quanto ao fator Rh dos esposos e das esposas. Esposa Esposo Total Rh+ Rh - Rh+ a r a+r Rh- s b s+b a+s r+b 100 Total Teste Qui-quadrado de McNemar H0: não há associação entre o fator Rh dos membros do casal Ha: não há associação entre o fator Rh dos membros do casal Esposa Esposo Total Rh+ Rh - Rh+ a r a+r Rh- s b s+b a+s r+b 100 Total Número de pares concordantes: a e b Número de pares discordantes: r e s X 2 McNemar | r − s | − 1) ( = (r + s) 2 tem distribuição χ 2 1 Associação Positiva Perfeita Esposa Esposo Total Rh+ Rh - Rh+ 60 0 60 Rh- 0 40 40 60 40 100 Total X 2 McNemar Valor P = P[ χ | 0 − 0 | − 1) ( = (0 + 0) 2 1 2 1 = = →∞ 0 > ∞] = 0 Conclusão: rejeitar a hipótese de independência entre o fator Rh dos casais Não Associação Perfeita Esposa Esposo Total Rh+ Rh - Rh+ 36 24 60 Rh- 24 16 40 Total 60 40 100 X 2 McNemar Valor P = P[ χ | 24 − 24 | − 1) ( = (24 + 24) 2 1 2 1 = = 0.0208 48 > 0.0208] > 0.95 Conclusão: não rejeitar a hipótese de independência entre o fator Rh dos casais Amostras Dependentes Um estudo investiga a associação entre infarto do miocárdio e a presença de diabetes entre os índios navajos americanos (Coulehan et al, 1986) Índios com episódios de infarto do miocárdio foram emparelhados com índios sem a doença (144 pares). Cada elemento do par foi investigado quanto à presença de diabetes. Sem infarto Com Infarto Total Diabético Nao-Diabético Diabético 9 37 46 Não-Diabético 16 82 98 Total 25 119 144 2 X McNemar = 7.55 (valor-p < 0.01) [Coulehan et al,1986] Próxima aula Como medir a associação entre duas variáveis qualitativas Risco Relativo e Razão de Chances Para aprender Exercícios da Seção 12 Referências Bibliográficas Coulehan et al (1986) “Acute Myocardial Infarction Among Navajo Indians”, 1976-1983, American Journal of Public Health, pp 412214 Flegr et al. (2009) “Increased incidence of traffic accidents in Toxoplasma-infected military drivers and protective effect RhD molecule revealed by a large-scale prospective cohort study”, BMC Infectious Diseases, vol. 9, n. 72. Reis, E. A.; Reis, I.A. (2000) “Exercícios Resolvidos em Introdução à Bioestatística”, Relatório Técnico do Departamento de Estatística da UFMG. Disponível em: http://www.est.ufmg.br