Extracção de Conhecimento em Bases de Dados (Mestrado

Testes de Hipóteses
Paulo J Azevedo
DI - Universidade do Minho
2009
Revisão à análise de significância estatística
1
Testes de Hipóteses
Testes de Significância
• Determinar o grau de confiança com que se pode concluir que os factos
observados reflectem mais do que simples coincidência do acaso.
• Em Data Mining/Machine Learning são tipicamente usados para avaliar se
a amostra que estamos a estudar (factos observados) é fruto do acaso (se é
ou não significativa).
• Neste contexto são muitas vezes usados para detectar falsas descobertas.
• Permitem também avaliar se tem cabimento esperar que os padrões
extraídos dos dados de treino (amostra) ocorram em dados futuros.
• Todos os testes envolvem duas componentes:
– Um valor observado (obtido da amostra),
– O valor esperado se nada mais do que variabilidade aleatória (acaso) operar
nesta situação.
• Vários testes disponíveis dependendo do tipo de situação:.
2
Testes de Hipóteses
Testes de Significância (2)
• Quando executamos um teste de significância estatística
assumimos duas teses:
– A hipótese especifica que a nossa investigação pretende averiguar (Hipótese
alternativa H1),
– A antítese da hipótese a investigar (Hipótese nula H0)
• Exemplo com um ensaio médico: Avaliar se os resultados de um ensaio com um
novo medicamente para prevenir AVCs aplicado a 1000 pacientes com 400
resultados positivos é significativo:
– H0 - o novo medicamento não tem efeito significativo
– H1 – o medicamento tem algum grau de eficácia na prevenção de AVCs
• Em termos estatísticos:
– H0 – o número de resultados positivos não é significativamente diferente do
valor esperado por variabilidade aleatória MCE (mean chance expectation)
– H1 – o valor observado é significativamente diferente do valor esperado.
3
Testes de Hipóteses
Direccionalidade da Hipótese Alternativa
• Dependendo do tipo de questão que queremos
endereçar com a nossa hipótese alternativa,
esta pode ser direccional ou não-direccional.
– Não direccional, se não considerar em que sentido os
valores observados se afastam do valor esperado
(MCE). Assim temos:
• H0: valor observado = MCE
• H1: valor observado ≠ MCE
– Direccional, se considera em que sentido os valores
observados se afastam do valor esperado (MCE).
• Ho: valor observado = MCE
• H1: valor observado > MCE,
• H1: valor observado < MCE.
Testes de Hipóteses
ou em alternativa
4
Exemplo
• Lançar 100 vezes uma moeda ao ar. Verificar se o número de caras
obtido (59) é significativo (se a moeda é equilibrada o valor
esperado é 50% do número de testes).
• Usando a Binomial, com N=100,k=59,p=0.5,q=0.5. One-sided ou Onetailed test
H1: nº caras > MCE.
(Hipótese direccional)
Este valor é denominado
por p-value.
• Notar que há mais 9 caras do que o esperado!
• De todos os possíveis cenários com 100 lançamentos, apenas
4.46% têm no mínimo 59 caras. O resultado dos nossos
lançamentos é significativo (probabilidade ≤ 0.05)
Testes de Hipóteses
5
Exemplo
• Agora para uma hipótese alternativa não direccional.
• No nosso caso, H1: nº de caras ≠ MCE.
• Ou seja, responder à pergunta: “Em 100 lançamentos, qual é a
probabilidade de obter um excesso de caras ou coroas (>50) tão
grande ou igual ao valor obtido (59)”.
• Neste teste, o valor observado não é significativo (0.0892 > 0.05)
H1: nº caras ≠ MCE.
(Hipótese direccional)
Two-sided ou Twotailed test
Valor da estatística das
observações.
z = ((k - μ ) ± 0.5) / σ
• A pergunta do teste anterior era: “Em 100 lançamentos, qual é a
probabilidade de obter um excesso de caras (>50) tão grande ou
igual ao valor obtido (59)”
Testes de Hipóteses
6
Algumas Definições
• p-value: é a probabilidade de obter (de forma aleatória) um
resultado tão ou mais extremo do que o que foi observado,
assumindo que a hipótese nula é verdadeira.
Isto é P(Obs ≥ MCE | H0)
• Interpretação alternativa, p-value é o grau de contradição da
hipótese nula pelas observações na amostra estudada. Quanto
menor, maior o grau de contradição.
• α é o grau de significância. O valor tradicional é 5%, mas pode
também ser de 1% ou outros valores entre [0,1].
• grau de confiança (1 - α).
• α também define a região critica i.e. região onde a hipótese nula é
rejeitada. α está relacionado com o erro Tipo I.
• Erro tipo I, rejeitar H0 quando ela é verdadeira (α).
• Erro tipo II, não rejeitar H0 quando ela é falsa (β).
• Força do teste (power of the test): probabilidade de correctamente
rejeitar H0. quando esta é falsa e não rejeitá-la quando ela é
verdadeira. É, respectivamente, (1 - α) e (1 – β).
Testes de Hipóteses
7
Intervalos de Confiança
• Em alternativa aos p-values, podemos usar intervalos de confiança.
Usa-se para estimar parâmetros da população usando a amostra
e.g. estimar média (μ) de uma população usando média da amostra
(x).
• O grau de confiança C = 1- α determina a probabilidade de o
intervalo produzido pelo método usado incluir o verdadeiro valor do
parâmetro a estimar. Trabalha sempre com a estatística do teste.
• Para C =0.95, z*=1.96, então IC = [x-1.96+σ/√n , x+1.96+ σ/√n]
8
Testes de Hipóteses
Teste Binomial
• Testa a significância do desvio de uma amostra
representando um conjunto de experiências de Bernoulli
em relação à distribuição teórica esperada dessas
observações i.e as variáveis são dicotómicas –
sucesso/insucesso.
• É um teste exacto !
– Um teste de significância exacto é um teste onde todas as
condições assumidas para a derivação da distribuição onde o
teste estatístico é baseado são satisfeitas. Consequentemente,
leva também à obtenção de um p-value exacto (e não
aproximado).
– Um teste aproximado é um teste onde a aproximação pode ser
feita o mais precisa possível à custa da obtenção de uma
amostra suficientemente grande.
9
Testes de Hipóteses
Teste Binomial (2)
• Parâmetros:
–
–
–
–
–
n, tamanho da amostra.
k, número de observações com sucessos em n.
p, probabilidade esperada para sucesso
Cálculo computacionalmente
q, probabilidade esperado para insucesso.
pesado! Por vezes faz-se uma
p=1–q
(categorias dicotómicas!)
aproximação à Gaussiana
(Normal)
n!
prob(n, k , p, q) 
 p k  q nk
k!(n  k )!
– Para one-sided test (H1: observações > MCE):
• p-value = prob(k,n,p,q) + prob(k+1,n,p,q)+ prob(k+2,p,q) + … +
prob(n,n,p,q).
10
Testes de Hipóteses
Testes Paramétricos
• Estão relacionados com um ou mais parâmetros da
população (distribuição assumida) e.g. média, desvio
padrão.
• Tipicamente é assumida a Gaussiana.
• Testes de localização: relacionados com o valor
esperado da população (média), onde o centro da
população está localizado.
• Vários tipos:
– Uma amostra: dada uma amostra e um valor esperado de uma população,
testar se a amostra foi tirada da população com o valor esperado dado.
– Duas amostras independentes: dadas duas amostras independentes,
testar se as amostra são originadas de populações com o mesmo valor
esperado.
– Duas amostras dependentes: dadas duas amostras dependentes
(paired), testar se as amostra são tiradas de uma população com o mesmo valor
esperado (tipicamente 0 para verificar significância da diferença).
11
Testes de Hipóteses
Student t-test
• Assume uma distribuição Gaussiana (Normal)
• Ideal para aplicar a amostra com N<30, para N≥30 devemos usar o
z-teste.
• É um teste de médias.
• H0: μ = μ0 (μ0 é o valor esperado da população)
• H1: μ ≠ μ0, μ < μ0, μ > μ0 (dependendo de ser two-sided ou one-sided)
• Estatística do teste:
TS 
X  0
S/ N
– onde N é o tamanho da amostra, X média na amostra, S desvio
padrão na amostra.
• Quando H0 é verdadeira a TS segue uma distribuição tN-1 (N - 1 graus
de liberdade i.e. nº de parâmetros que podem ser variados independentemente12
).
Testes de Hipóteses
Student t-test
(one sample)
• Para um dado α fazemos o seguinte teste (sendo TS definida como):
TS 
X  0
S/ N
• Para
– H1: μ ≠ μ0, TS ≤ -tN-1(α/2) ou TS ≥ tN-1(α/2)
– H1: μ < μ0, TS < tN-1(α)
– H1: μ > μ0, TS > tN-1(α)
• Rejeitar H0 se o teste for positivo.
• Os valores críticos de tN-1 podem ser obtidos de uma
tabela…
13
Testes de Hipóteses
Graus de
liberdade
Distribuição t-student
Valor crítico α
Valor da
t-estatística
• Upper critical values of Student's t distribution with
degrees of freedom
• Probability of exceeding the critical value
14
Testes de Hipóteses
Student t-test
(amostras independentes)
•
•
Usado para verificar se as amostras provêm de populações com
diferentes médias.
Três situações possíveis (e respectivas def. de TS):
1.
2.
3.
•
Amostras de tamanhos e variância diferente,
Amostras de tamanhos diferentes mas variância igual,
Amostras de tamanhos e variância igual.
Se H0 for verdadeira TS segue uma distribuição tDF:
δ0 é a diferença
entre valores
esperados das
populações
15
Testes de Hipóteses
Student t-test (2)
(amostras independentes)
• Três situações possíveis para testar H0
– H0: μA - μB = δ0
• Para um dado valor de α, rejeitar H0 se as condições
forem satisfeitas:
– H1: μA - μB ≠ δ0 , se TS ≤ -tGL(α/2) ou TS ≥ tGL(α/2)
– H1: μA - μB < δ0 , se TS < tGL(α)
– H1: μA - μB > δ0 , se TS > tGL(α)
• Os valores críticos de tGL são os mesmo da tabela
apresentada anteriormente.
16
Testes de Hipóteses
Student t-test
(paired test)
•
•
•
•
•
É o t-test que nos vais ser mais útil.
Assume amostra emparelhadas (por exemplo referente a observações no
mesmo local ou tempo, etc).
Determina se as amostras diferem de uma forma significativa, considerando
as condições de que as diferenças entre pares são independentes e que
seguem uma distribuição Normal.
Hipóteses:
– H0: μΔ = 0
– H1: μΔ ≠ 0 , μΔ < 0 ou μΔ > 0
Onde
– Δ = XA – XB é a diferença emparelhada entre as duas amostras,
– μΔ o valor esperado da diferença das populações.
TS 

S / N
– Onde Δ é a média das diferenças nas amostras, N o tamanho das
amostras e SΔ o desvio padrão das diferenças nas amostras.
Testes de Hipóteses
17
Student t-test (2)
(paired test)
• Quando H0 é verdadeira TS segue uma distribuição tN - 1
• Para um dado α fazemos os seguintes testes:
– H1: μΔ ≠ 0 , se TS ≤ -tN - 1(α/2) ou TS ≥ tN - 1(α/2)
– H1: μΔ < 0 , se TS < tN - 1(α)
– H1: μΔ > 0 , se TS > tN - 1(α)
• rejeitando H0 quando eles são verdadeiros. Os valores críticos de
tN – 1 são os mesmo da tabela anterior.
• Notar que este teste acaba por ser one-sample (as diferenças entre
pares formam uma só amostra)!
• Testes alternativos
– Z-test quando N>30,
– Mann-Whitney para amostras independentes de populações não
Normais.
– Binomial, Wilcoxon para amostras emparelhadas de populações não
Normais.
Testes de Hipóteses
18
Teste de Mann-Whitney-Wilcoxon
• Teste não paramétrico de localização. Avalia se duas amostras tem
origem na mesma população. Uma alternativa ao paired t-test.
• Assume que as observações são independentes e contínuas ou
ordinais i.e. é possível estabelecer uma ordem sobre as
observações.
• Testa (em vez de comparar médias) se as populações são
idênticas. É um teste de ranks sinalizados (signed rank).
• Determina se há uma tendência em seriar mais alto uma amostra
(observação) em relação à outra e.g. valores médicos antes e
depois de tratamento. Hipótese nula assume que não há tendência.
• Hipóteses:
– H0:ηA = ηB
(nº de valores positivos ≈ nº de negativos
i.e. não há
tendência)
– H1:ηA ≠ ηB , ηA > ηB ou ηA < ηB
19
Testes de Hipóteses
rank das diferenças
em valor absoluto
Geração de ranks (com ties)
Rank das diferenças
com sinal
Diferenças nulas
são ignoradas
Tratamento de empates (ties): se duas ou
mais diferenças têm o mesmo valor então
todos passam a ter o valor médio desses
ranks. e.g. 3º,4º e 5ª dá rank 4 para todos.
W é a soma dos ranks
(sem valores nulos)
Amostra A
Amostra B
Diferença entre
amostras
Valor absoluto da
diferença
Testes de Hipóteses
20
Teste de Mann-Whitney-Wilcoxon
• Procedimento:
– Calcular XA – XB, ignorar casos com valor zero,
– Calcular |XA – XB|, rank deste valor e o rank sinalizado:
• + se XA – XB > 0
• - se XA – XB < 0
– (soma de um rank = N(N-1)/2, sendo N o nº de observações)
– Calcular W = soma dos signed ranks
– Calcular δW
W 
N ( N  1)(2 N  1)
6
onde N é o nº de signed ranks considerados (sem os nulos).
Consultar valores críticos de z
– Estatística do teste é:
W  0.5
z
W
Testes de Hipóteses
numa tabela própria. Com N >
20 aproxima à Normal.
21
Teste de Associação
• Testes não paramétricos que medem o grau de
dependência entre duas variáveis aleatórias.
• Não assumem nenhum tipo de distribuição.
• Assume observações de frequência de variáveis
categóricas. As variáveis da amostra estão “divididas”
em categorias.
• As observações das duas variáveis são agrupadas em
classes independentes (disjuntas).
• Tipicamente, os dados do teste estão representados em
tabelas de contingência 2 x 2. No entanto podemos ter
mais do que 2 dimensões.
• Testes a estudar
– Teste do Χ2 (chi quadrado)
– Teste exacto de Fisher,
22
Testes de Hipóteses
Teste do Χ2
• Hipóteses:
– H0 : as variáveis são independentes
– H1 : as variáveis não são independentes
• Sendo X e Y as nossas variáveis estas podem ser agrupadas em I
(i=1,..I) e J (j=1,..,J) categorias numa tabela de contingência:
• Onde Nij é a frequência observada da var X com a categoria i
conjuntamente com a var Y com a categoria j.
N i 
J
N
ij
j 1
23
Testes de Hipóteses
Teste do Χ2 (2)
• Estatística do teste:
TS 
I
J
( N ij  eij )
i 1
j 1
eij

2
• eij é a frequência esperada para a célula (i,j):
eij 
N i  N  j
N
• Se H0 for verdadeira, a TS segue a distribuição Χ2(I-1)(J-1).
• Nº de graus de liberdade = (I-1) x (J-1)
• Para um dado α, rejeitamos a hipótese nula se:
–
TS > Χ2(I-1)(J-1)(α)
24
Testes de Hipóteses
Exemplo com tabela 2 x 2
SEXO
Homens Mulheres Total
TB
TB no SR
3534
1319
4853
Outras TB
270
252
522
Total
3804
1571
5375
H0 : tipo de tuberculose que causa a morte a estes indivíduos é independente
do seu sexo.
e11 = (4853 x 3804) / 5375 = 3434.6
Valor obtido da
Χ2 = (3534 – 3434.6)2 / 3434.6 + (1319 – 1418.4)2 / 1418.4 + …..
+ (252 – 152.6)2 / 152.6 = 101.35
tabela de
distribuição do Χ2.
Para α=0.05 temos Χ2(1)(1)(0.05) =3.84. Rejeitamos H0 se Χ2 > 3.84 o que é o caso.
Conclusão: a proporção de homens que morre de tuberculose tipo SR é diferente
da proporção de mulheres. Isto é, há evidências de uma associação entre tipo de
TB e sexo.
25
Testes de Hipóteses
Características do teste do Χ2
• É um teste não direccional. É sempre two-sided.
• É um teste aproximado. O p-value é obtido por
aproximação. No problema anterior p-value < 0.00001.
• Para observações pequenas é um teste pouco fiável.
Para valores esperado pequenos (eij < 5) não deve ser
usado.
• No caso específico de tabelas 2 x 2 devemos usar a
Correcção de Yates para continuidade.
TS 
'
2
2
( N ij  eij )  0.5
i 1
j 1
eij

2
• Para o problema anterior, Yates Χ2 = 100.39.
Testes de Hipóteses
26
Teste Exacto de Fisher
• O teste ideal para aplicar com tabelas de contingência
de dados pequenos esparsos e não balanceados.
• Não sofre dos mesmos problemas do teste Χ2
• Embora seja aplicável noutras situações, vamos sempre
usar em tabelas 2 x 2 e com hipóteses alternativas
direccionais (one-sided) i.e. afasta-se de H0 numa
direcção específica!
• É um teste exacto, portanto um p-value exacto.
• A ideia geral é considerando a tabela de observações,
“gerar” as tabelas com as mesmas margens, que são
mais extremas que a observada, na mesma direcção da
nossa observação e.g. que a proporção TB do tipo SR
nas mulheres é menor que proporção TB tipo SR nos
homens.
27
Testes de Hipóteses
Teste Exacto de Fisher (2)
• Considerando a tabela de contingência 2 x 2 geral, temos:
Y1
Y2
Total
X1
a
b
a+b
X2
c
d
c+d
Total
a+c
b+d
n
As margens
estão a azul
n = a+b+c+d
• A probabilidade de obter (de forma aleatória) as observações desta
tabela é:
(a  b)!(c  d )!(a  c)!(b  d )!
p
n!a!b!c!d!
• O p-value = ∑ p das tabelas tão ou mais extremas do que a
observada. (tipicamente ∑ p: p < pobservada)
• Para o exemplo anterior p-value = 2.959442371307591e-22
Testes de Hipóteses
28
Goodness-of-fit
(testes para a qualidade do ajuste)
• No nosso caso, vai servir para verificar se duas
amostras foram retiradas de uma mesma população.
Tradicionalmente são utilizados para verificar a
qualidade da adequação (fit) de uma distribuição teórica
em relação a um conjunto de observações (amostra)
e.g. testar a Normalidade de uma amostra.
• Testes não paramétricos:
– Para amostras de valores contínuos
• Kolgomorov-Smirnov
– Para amostras de valores categóricos
2
• Pearson’s goodness-of-fit (Χ )
Testes de Hipóteses
29
2
Χ Goodness-of-fit
• Verifica se duas amostras têm origem em populações idênticas.
• H0 : populações A e B são idênticas
• H1: populações A e B são diferentes
• As observações NA e NB são agrupadas em K (K > 2) categorias
(disjuntas).
• Em cada amostra é contada a frequência absoluta de cada diferente
ki categoria, com ki∈K.
• As frequências esperadas são calculadas da seguinte forma:
Nk
ekA  N A 
N
ekB  N k  ekA
• com Nk = NkA + NkB , N = NA + NB sendo ∑ekA= NA e ∑ekB= NB
30
Testes de Hipóteses
2
Χ Goodness-of-fit (2)
• A estatística do teste é:
( N kA  ekA ) 2
TS 

ekA
k 1
K

( N kB  ekB ) 2
ekB
k 1
K

2
• H0 é verdadeira se TS segue uma distribuição Χ
K-1
• Para um dado α, rejeitamos H0 se:
–
2
TS > Χ
K-1(α)
31
Testes de Hipóteses
Teste de Kolgomorov-Smirnov
(duas amostras)
2
• É um teste exacto (Χ é aproximado) para amostras de valores
contínuos.
• Assume distribuições contínuas onde a forma e os parâmetros da
função densidade de probabilidade são conhecidos
• O teste compara a proximidade entre as funções de densidade
acumulada (CDF) de cada amostra (também conhecidas por funções
de distribuição empirica).
• Encontra a máxima discrepância entre as duas CDFs e verifica se
esta é estatisticamente significativa.
• CDF das amostras são definidas como (N = ∑xi):
FA ( x) : xi S ( xi ) 
xj
 N :x
j
 xi
32
Testes de Hipóteses
Teste de Kolgomorov-Smirnov (2)
(duas amostras)
• H0 : FA(x) = FB(x)
• H1 : FA(x) ≠ FB(x)
• A estatística do teste é:
TS  D'  max S A ( x)  S B ( x)
x
• Para um dado α, rejeitamos H0 se o seguinte teste for verdadeiro:
N ANB
 D'  D' ( )
N A  NB
• Os valores críticos de √[(NANB )/(NA + NB )]D’(α) podem ser
consultados na tabela da distribuição de Kolgomorov.
33
Testes de Hipóteses
Teste de Kolgomorov-Smirnov (3)
(execução)
TS  D'  max S A ( x)  S B ( x)
x
34
Testes de Hipóteses
Múltiplas Hipóteses
• Controle da capitalização do acaso.
• Exemplo de situação típica:
Teste Binomial com:
n=14, k=11, p=0.5, q=0.5,
e H1: obs > MCE
– Queremos contratar um corrector para investir na bolsa. A
função deste corrector é emitir previsões sobre a subida/descida
do indicador PSI20 ao fim de cada dia. Queremos ter a garantia
que não contratamos um charlatão (alguém cujas previsões não
são melhores do que o acaso). Para avaliar esta possibilidade
usamos um teste de 14 dias de bolsa. Se o consultar acertar em
11 ou mais dias então aceitamo-lo como fiável.
– São 11 em 14 dias porque há 50% de hipóteses de acertar em
cada dia, logo há só 2.87% de acertar ao acaso em 11 ou mais
dias.
– Assim, se um corrector for contratado porque passou o teste dos
11 dias, temos uma probabilidade ≤ 0.0287 de contratar um
charlatão.
35
Testes de Hipóteses
Múltiplas Hipóteses
• Nova situação:
– Vamos imaginar agora que aceitamos 10 candidatos para esta
função, onde vamos seleccionar o corrector com maior precisão.
– Para n candidatos, n > 1, cada charlatão tem 2.87% de passar o
teste.
– Em geral, a probabilidade de seleccionar um charlatão
n
é ≤ 1 - (1 – 0.0287) .
No caso de n=10, esta probabilidade é ≤ 25.3%
– Conclusão: Se não ajustarmos o nosso limite α, que define
quando um corrector passa a ser considerado um charlatão,
aumentamos a probabilidade de ocorrer um erro do tipo I.
– Com um nº suficientemente grande de charlatães entre os
candidatos, iremos quase de certeza ter pelo menos um deles
com um desempenho que passa qualquer limite α (sem a
garantia de ele não ser um charlatão).
Testes de Hipóteses
36
Múltiplas Hipóteses (2)
• Problema das Multiplas Comparações. Risco de erro tipo I
é não mais do que α.
• Probabilidade de ocorrer um erro de tipo I aumenta com o
número de testes.
n
• Para n testes αreal = 1 - (1 - α)
• Usar Ajustamento de Bonferroni:
– (corrigir α para n testes como sendo κ= α/n)
– tendência a ser um crivo demasiado fino!
• Usar Ajustamento de Holm (k em vez de α).
– Requer ordenação crescente dos p-values e ter disponíveis todos
estes valores antes de determinar valor de ajustamento (k).
– Para n testes,

k  max( pi : 1 j i p j 
Testes de Hipóteses
)
n  j 1
37
Ajustamento de Bonferroni
(utilização típica em Data Mining)
• Usar Ajustamento de Bonferroni (corrigir α para n
testes como sendo κ= α/n).
• Usar layered critical values,
• Em vezes de um cutoff global que corrige o α
inicial, obter vários α’L para cada nível L.

 'L 
( Lmax  S L )
Onde SL é o nº de padrões possíveis de gerar com tamanho L.
Lmax é o tamanho máximo de um padrão.
Temos a garantia que:
L
  L 1  L'  S L
max
Testes de Hipóteses
38
Resumo
• Testes de significância,
• Inferência estatística e controle de fenómenos
fruto do acaso,
• Tipos de erro,
• Testes paramétricos e não paramétricos,
• Direccionalidade, poder do teste, região crítica,
p-value e intervalos de confiança,
• Testes de localização, associação e goodnessof-fit,
• Múltiplas hipóteses e controle de erro,
• Ajustamento do valor de significância (α).
39
Testes de Hipóteses