Teste Qui-quadrado_RC_RR

Propaganda
Teste Qui-quadrado
Comparando proporções
Verificando a hipótese de
associação entre variáveis qualitativas
Exemplo Inicial: Igualdade de Proporções
A administração de um hospital deseja verificar se luvas de três marcas
(A, B e C) são homogêneas quanto à permeabilidade a vírus.
Para isto, realizou um experimento, no qual 240 luvas da marca A,
240 luvas da marca B e 300 luvas da marca C foram submetidas à
tensão.
Durante os testes, 151 luvas da marca A (62.9%), 134 luvas da marca B
(55.8%) e 177 luvas da marca C (40.0%) deixaram passar vírus quando
submetidas à tensão.
Os dados do experimento apresentam evidências estatísticas
suficientes contra a hipótese de que as três marcas possuem a mesma
permeabilidade?
H0: PA = PB = PC = P
Ha: ao menos uma das permeabilidades é diferente das outras
Teste de Igualdade de Proporções
(mais de uma população)
Tabela de valores observados
Marca da
luva
Deixou passar vírus quando
submetida à tensão?
Total
Sim
Não
A
151
89
240
B
134
106
240
C
177
123
300
Total
462
318
780
Tabela de Classificação Cruzada
Construção do Teste
H0: PA = PB = PC = P
Ha: ao menos uma das permeabilidades é diferente das outras
Marca da
luva
Deixou passar vírus quando submetida
à tensão?
Total
Sim
Não
A
151
89
240
B
134
106
240
C
177
123
300
Total
462
318
780
462
ˆ
P=
780
Estimativa de P, a permeabilidade comum
Construção do Teste
Se H0 (PA = PB = PC = P) é verdadeira:
quantas luvas que deixam passar o vírus deveríamos esperar
dentre as luvas da marca A ?
E dentre as luvas da marca B ?
E da marca C ?
Marca da
luva
Deixou passar vírus quando submetida à tensão?
Sim
Total
Não
(240-142.15=97.85)
89.............................
240
B
x462/780=142.15)
151 (240
....................................
(240x462/780=142.15)
134.....................................
(240-142.15=97.85)
106...............................
240
C
177.....................................
(300x462/780=177.70)
123...............................
(300-177.70=122.30)
300
A
Total
462
ˆ
P=
780
462
318
Valores esperados sob H0
780
Construção do Teste
Note que os valores esperados sob H0 são calculados como uma
função simples dos totais de linha, coluna e do total geral
(total de linha) × (total de coluna)
Valor Esperado da casela =
(total geral)
Marca da
luva
Deixou passar vírus quando submetida à tensão?
Total
Sim
Não
A
151 (240
....................................
x462/780=142.15)
89.............................
(240x318/780=97.85)
240
B
(240x462/780=142.15)
134.....................................
106...............................
(240x318/780=97.85)
240
C
177.....................................
(300x462/780=177.70)
462
123...............................
(300x318/780=122.30) 300
318
780
Total
Construção do Teste
Marca da
luva
A
B
C
Total
Tabela de Valores Observados
(esperados sob H0 entre parênteses)
Deixou passar vírus quando submetida à
tensão?
Sim
Não
151 (142.15)
89 (97.85)
134 (142.15)
106 (97.85)
177 (177.70)
123 (122.30)
462
318
Estatística de Teste = “Observado – Esperado sob H0”
Total
240
240
300
780
Construção do Teste
Tabela de Valores Observados (esperados sob H0 entre parênteses)
Marca da
luva
Deixou passar vírus quando submetida à
tensão?
Total
Sim
Não
A
151 (142.15)
89 (97.85)
240
B
134 (142.15)
106 (97.85)
240
C
177 (177.70)
123 (122.30)
300
462
318
780
Total
2
2
Estatística de Teste = (151-142.15) (89-97.85)
2
2
(134-142.15) (106-97.85)
2
(177-177.70)
(123-122.30)2
Construção do Teste
Tabela de Valores Observados (esperados sob H0 entre parênteses)
Marca da
luva
Deixou passar vírus quando submetida à
tensão?
Total
Sim
Não
A
151 (142.15)
89 (97.85)
240
B
134 (142.15)
106 (97.85)
240
C
177 (177.70)
123 (122.30)
300
462
318
780
Total
(151-142.15) 2 (89-97.85) 2
(134-142.15) 2
+
+
Estatística de Teste =
+
142.15
97.85
142.15
(106-97.85) 2
(177-177.70) 2
(123-122.30) 2
+
+
97.85
177.70
122.30
X 2 = 2.50
Valores críticos para X2
O valor de X2 é “grande” ou “pequeno” ?
Valores de Referência para X2 Distribuição de Probabilidade de X2
5 g.l.
Distribuição
Qui-quadrado
χ
2
gl
10 g.l.
0
Graus de Liberdade para o Teste Qui-Quadrado
No caso do teste Qui-quadrado, os graus de liberdade da
distribuição de referência equivalem ao
número de caselas livres na tabela
Exemplo: Tabela 2 x 2
Marca da
luva
Deixou passar vírus quando
submetida à tensão?
Total
Sim
Não
A
151
89
240
B
134
106
240
Total
285
195
480
G.L. = (número de linhas -1) x (número de colunas -1)
Voltando ao exemplo inicial ….
Tabela 3 x 2 G.l. = (3-1) x (2-1) = 2 x 1 = 2
O valor da estatística X2 deve ser comparado aos valores de
distribuição Qui-quadrado com 2 graus de liberdade.
Se α = 0.05,
RR : X2 >
χ20.05
α
;2
χα2 ;gl
Percentil que deixa uma área de α=0.05 acima dele na distribuição
Qui-quadrado com 2 graus de liberdade (linha 2 , coluna do 0.05)
Voltando ao exemplo inicial ….
RR : X2 > 5.991
O valor da estatística observado de X2 foi 2.50.
Como esse valor não pertence à região de valores críticos do teste
qui-quadrado, a distância entre os valores observados e os valores
esperados sob H0 foi considerada pequena.
Assim, o experimento não mostrou evidências estatísticas
suficientes para a rejeição da hipótese de que as permeabilidades
das luvas das três marcas sejam iguais, a 5% de significância.
Se rejeitarmos a hipótese da homogeneidade das
permeabilidades usando os dados deste
experimento ….
Qual será o risco de estarmos cometendo o erro tipo I ?
Valor P = P[ obter um valor de X2 ainda “mais extremo” do que o
valor observado ]
Valor P = P[χ2gl> X2obs]
Valor P
X2obs
Voltando ao exemplo inicial ….
Valor P = P[χ2gl> 2.50]
Na linha 2 da Tabela Qui-quadrado, não existe o valor 2.50.
2.50
Valor P = P[χ2gl> 2.50] > 0.10
Conclusão: Os dados do experimento não mostraram evidências
estatísticas suficientes para a rejeição da hipótese de que as
permeabilidades das luvas das três marcas sejam iguais (valor P > 0.10).
Teste Qui-quadrado para homogeneidade de proporções
H0: As proporções de sucesso são homogêneas para todas as populações
Ha: Ao menos uma população tem proporção de sucesso diferente das demais
Onde :
Nc é o número total de caselas da tabela
(Oi − Ei )2
=∑
Ei
i =1
Nc
X
2
obs
Oi é o valor observado na casela i, i=1,2,…, Nc
Ei é o valor esperado na casela i.
(total de linha) × (total de coluna)
Ei =
(total geral)
Valor P = P[χ2gl> X2obs], onde g.l. = (l-1) x (c-1)
Estatística X2 simplificada para o caso da Tabela 2x2
Marca da
luva
Deixou passar vírus quando submetida
à tensão?
Total
Sim
Não
A
151 a
89 b
240 (a+b)
B
134 c
106 d
240 (c+d)
285 (a+c)
195 (b+d)
480 N
Total
2
N ( ad − bc)
X =
( a + b)( a + c)(b + d )( c + d )
2
Resolvendo o exemplo apenas com luvas A e B ….
Marca da
luva
Deixou passar vírus quando submetida
à tensão?
Total
Sim
Não
A
151 a
89 b
240 (a+b)
B
134 c
106 d
240 (c+d)
285 (a+c)
195 (b+d)
480 N
Total
2
480(151
⋅
106
−
89
⋅
134)
X2 =
= 2.49
(240)(285)(195)(240)
Teste Qui-quadrado de independência
Um número arbitrário N de indivíduos são classificados segundo
duas variáveis qualitativas (variável A e variável B)
Variável A
Variável B
B1
B2
....
Total
Bm
A1
A2
A3
An
Total
N
Exemplo: associação entre grupo sanguíneo e
presença de uma característica de interesse
Tabela de Classificação Cruzada
Característica
Grupo
Sangüíneo
Presente
Ausente
A
32
47
79
B
8
19
27
AB
7
14
21
O
9
64
73
Total
56
144
200
Total
[Reis e Reis, 2000]
H0:
HA:
Variável A não está associada à Variável B
(A e B são independentes)
Variável A está associada à Variável B
(A e B não são independentes)
Onde :
Nc é o número total de caselas da tabela
(Oi − Ei )2
=∑
Ei
i =1
Nc
X
2
obs
Oi é o valor observado na casela i, i=1,2,…, Nc
Ei é o valor esperado na casela i.
Ei =
(total de linha) × (total de coluna)
(total geral)
Valor P = P[χ2gl> X2obs], onde g.l. = (l-1) x (c-1)
“Associação entre toxoplasmose e acidente de
trânsito em pessoas com sangue Rh negativo”
[Flerg et al, 2009]
H0 :
HA :
acidente automobilístico NÃO está associado à
presença de toxoplasmose em pessoas com Rh negativo
acidente automobilístico está associado à
presença de toxoplasmose em pessoas com Rh negativo
Toxoplasma
Acidente ?
Total
Não
Sim
Não
526
14
540
Sim
170
11
181
Total
696
25
721
2
721(526
⋅
11
−
14
⋅
170)
X2 =
= 4.92
(181)(696)(25)(540)
Valor P = P[χ21> 4.92]
4.92
(0.025 < Valor P < 0.05)
Ao nível de 5% de significância, há evidências estatísticas
suficientes a favor da hipótese de associação entre acidente
automobilístico e presença de toxoplasmose em pessoas com
sangue Rh negativo (0.025 < Valor P < 0.05).
“Associação entre toxoplasmose e acidente de
trânsito em pessoas com sangue Rh positivo”
“Increased incidence of traffic accidents in Toxoplasma-infected military drivers and
protective effect RhD molecule revealed by a large-scale prospective cohort study”
H0 :
HA :
acidente automobilístico NÃO está associado à
presença de toxoplasmose em pessoas com Rh positivo
acidente automobilístico está associado à
presença de toxoplasmose em pessoas com Rh positivo
Toxoplasma
Acidente ?
Total
Não
Sim
Não
2391
69
2460
Sim
692
17
709
3083
86
3169
Total
2
3169(2391
⋅
17
−
69
⋅
692)
X2 =
= 0.21
(2460)(709)(3083)(86)
Valor P = P[χ21> 0.21]
0.21
(0.10 < Valor P < 0.90)
Para pessoas com sangue Rh positivo, os dados amostrais não
fornecem evidências estatísticas suficientes contra a hipótese
de independência entre acidente automobilístico e presença de
toxoplasmose (Valor P > 0.10).
Associação entre variáveis qualitativas
Amostras Dependentes
Exemplo inicial
Em um estudo sobre tipos sanguíneos de casais, gostaria-se
de verificar se existe associação entre o fator Rh do sangue
das esposas e dos esposos.
Para isto, 100 casais foram classificados quanto ao fator Rh
dos esposos e das esposas.
Esposa
Esposo
Total
Rh+
Rh -
Rh+
a
r
a+r
Rh-
s
b
s+b
a+s
r+b
100
Total
Teste Qui-quadrado de McNemar
H0: não há associação entre o fator Rh dos membros do casal
Ha: não há associação entre o fator Rh dos membros do casal
Esposa
Esposo
Total
Rh+
Rh -
Rh+
a
r
a+r
Rh-
s
b
s+b
a+s
r+b
100
Total
Número de pares concordantes: a e b
Número de pares discordantes: r e s
X
2
McNemar
| r − s | − 1)
(
=
(r + s)
2
tem distribuição
χ
2
1
Associação Positiva Perfeita
Esposa
Esposo
Total
Rh+
Rh -
Rh+
60
0
60
Rh-
0
40
40
60
40
100
Total
X
2
McNemar
Valor P = P[ χ
| 0 − 0 | − 1)
(
=
(0 + 0)
2
1
2
1 =
= 
→∞
0
> ∞] = 0
Conclusão: rejeitar a hipótese de independência entre o
fator Rh dos casais
Não Associação Perfeita
Esposa
Esposo
Total
Rh+
Rh -
Rh+
36
24
60
Rh-
24
16
40
Total
60
40
100
X
2
McNemar
Valor P = P[
χ
| 24 − 24 | − 1)
(
=
(24 + 24)
2
1
2
1
=
= 0.0208
48
> 0.0208] > 0.95
Conclusão: não rejeitar a hipótese de independência entre o
fator Rh dos casais
Amostras Dependentes
Um estudo investiga a associação entre infarto do miocárdio e a
presença de diabetes entre os índios navajos americanos
(Coulehan et al, 1986)
Índios com episódios de infarto do miocárdio foram
emparelhados com índios sem a doença (144 pares). Cada
elemento do par foi investigado quanto à presença de diabetes.
Sem
infarto
Com Infarto
Total
Diabético
Nao-Diabético
Diabético
9
37
46
Não-Diabético
16
82
98
Total
25
119
144
2
X McNemar
= 7.55 (valor-p < 0.01)
[Coulehan et al,1986]
Próxima aula
Como medir a associação entre duas
variáveis qualitativas
Risco Relativo e Razão de Chances
Para aprender
Exercícios da Seção 12
Referências Bibliográficas
Coulehan et al (1986) “Acute Myocardial Infarction Among Navajo
Indians”, 1976-1983, American Journal of Public Health, pp 412214
Flegr et al. (2009) “Increased incidence of traffic accidents in
Toxoplasma-infected military drivers and protective effect RhD
molecule revealed by a large-scale prospective cohort study”,
BMC Infectious Diseases, vol. 9, n. 72.
Reis, E. A.; Reis, I.A. (2000) “Exercícios Resolvidos em Introdução
à Bioestatística”, Relatório Técnico do Departamento de
Estatística da UFMG. Disponível em: http://www.est.ufmg.br
Download