Aula#7a - DCC/UFMG

Propaganda
Métodos Quantitativos para
Ciência da Computação Experimental
-Aula#7a-
Inferência Estatística: Teste de Hipótese
Virgílio A. F. Almeida
Maio de 2008
Departamento de Ciência da Computação
Universidade Federal de Minas Gerais
Refrescando a memória
• Parâmetro ≡ uma caraterística numérica de
uma população, ex., média da população µ
• Estatística ≡ uma caraterística numérica
calculada numa amostra, ex: média da x
amostra
Parametros e estimativa estatísticas são
relacionados, mas são a mesma coisa.
2
Refrescando a memória
Parametros
Fonte
População
“Statistics”
(estimativas)
Amostra
Notação
Grega (µ, σ)
Romana (x, s)
Randômica
Não
Sim
Calculada
Não
Sim
3
Refrescando a memória
x é variavel aleatória
com uma distribuição
(“the SDM”). A SDM
tende para a Normal com
média µ e desvio padrão
SEM
x ~ N(µ, SEM)
SEM = σ / √n
SEM: standard error of the mean
SDM: sampling distribution of the mean
4
Inferências Estatísticas
• É o processo de tirar uma conclusão sobre uma população
não vista, dado uma amostra relativamente pequena
dessa população.
• Testando Hipóteses Estatísticas, também chamado de
“teste de significância”.
• Basicamente, responder uma questão “sim ou não” a respeito
de uma população e estimar a probabilidade da resposta
estar errada.
• Estimativa de parâmetros
• Basicamente, estimar o valor de um parâmetro dado uma
hipotese sobre a população
5
Refrescando a memória
População ≡ todos valores possíveis
Amostra ≡ um sub-conjunto da população
Estatísticas são funções nas amostras
Parâmetros são funções nas populações
Inferência estatística ≡ generalização de uma
amostra para a população com certo grau de
certeza
• Duas formas de inferência:
•
•
•
•
•
– Estimativas
– Teste de Hipótese
6
Tipos de análises de dados
• Exploratório – procura de padrões nos dados
• Inferência Estatistica de Dados Amostrais
– Teste de Hipótese
– Estimativa de parâmetros
• Construção de modelos matemáticos de dados
• Data mining…
• Teste de hipóteses estatísticas é similar a prova por
contradição, no qual nega-se uma proposição e mostra
que uma contradição segue, portanto provando a
proposição original. No outro caso, o teste não prova
que a HN (hipótese nula) é falsa, mas sim ele limita a
probabilidade de afirmar incorretamente que a hipótese
nula é falsa.
7
Idéia Geral do Teste de Hipótese
• Faça uma assertiva sobre um parâmetro
• Transforme a assertiva numa “null
hypothesis”
• Procure uma evidencia contra a hipótese nula
(“the null hypothesis”)
8
A Lógica do Teste de Hipótese
• Exemplo: jogue uma moeda 10 vezes, e observa que
aconteceram oito “caras”. A moeda é não viciada (i.e., qual
é o comportamento de longo prazo?) e qual a incerteza
residual?
• Voce afirma, “Se a moeda fosse honesta, então oito ou mais
caras é bem improvável, e portanto penso que a moeda é
viciada.”
• Como uma prova por contradição: Faça uma assertiva
oposta (a moeda é honesta) mostre que o resultado da
amostra (≥ 8 caras ) tem baixa probabilidade p, rejeite a
assertiva, com incerteza residual relacionada a p.
• Estime p com uma distribuição de amostragem (sampling
distribution).
9
Probabilidade de um resultado de uma
amostra sob a “null hypothesis”
• Se a moeda fosse “honesta” (p= 0.5, a null hypothesis)
qual é a distribuição de probabilidade de r, número de
caras, obtida em N jogadas de uma moeda honesta?
Obtenha analiticamente ou estime por simulação:
– Loop K times
• r := 0
• Loop N times
;; r is num.heads in N tosses
;; simulate the tosses
– Generate a random 0 ≤ x ≤ 1.0
– If x < p increment r
;; p is the probability of a head
• Push r onto sampling_distribution
– Print sampling_distribution
10
Distribuições de Amostragens
(Sampling distributions)
Frequencia (K = 1000)
Probabilidade de r = 8 ou mais caras
em N = 10 jogadas de uma moeda
Honest é 54 / 1000 = .054
70
60
50
40
30
20
10
0
1
2 3
4
5 6 7 8
9 10
Numero de caras em 10 jogadas
Esta é a “sampling distribution” estimada de r sob a
“null hypothesis” que p = 0.5. A estimativa foi
construída por simulação
11
A Lógica do Teste de Hipótese
• Estabeleça uma “null hypothesis”: H0: p = .5, a moeda é
honesta
• Estabeleça uma estatística: r, número de caras em N jogadas
• Estime/construa a “sampling distribution” de r dado H0
0 1
2 3
4
5 6 7 8 9 10
• A “sampling distribution” vai dizer a probabilidade de p de um
resultado pelo menos tão extremo como resultado da amostra,
r=8
• Se essa probabilidade é muito baixa, rejeite H0 “null
hypothesis”
• Incerteza residual é p
12
A parte mais sensível e’ conseguir a
sampling distribution
• “Sampling distributions” podem ser derivadas...
– Exatamente, ex., distribuição binomial para moedas
são dados por fórmula.
N!
⋅ pN
r!( N − r)!
– Analiticamente, ex., o Teorema do Limite Central diz
que a “sampling distribution” da média aproxima a
distribuição Normal quando as amostras crescem para
infinito.
– Estimadas por simulações do processo da “null
hypothesis”
13
Um Teste Estatístico Comum:
teste Z para médias diferentes
• Uma amostra N = 25 de alunos de ciência da computação tem
média de QI=135. São eles mais “inteligentes” que a média?
• Média da população é 100 com desvio padrão 15
• A “null hypothesis”, H0, é que os estudantes de computação
estão na média”, i.e., a média do QI da população de
estudantes de CC é 100.
• Qual é a probabilidade p de tirar essa amostra se H0 fosse
verdade? Se p é pequeno, então H0 provavelmente é falso.
• Encontre a “sampling distribution” da média de uma amostra de
tamanho 25, de uma população com média 100
14
Teorema do Limite Central
A “sampling distribution”da média é dada pelo Teorema
do Limite Cengtral.
A “sampling distribution” da média de amostras de
tamanho N aproxima uma Normal (Gaussian) quando N
Tende para infinito.
Se as amostras são tiradas de uma população com
média µ e desvio padrão σ , então a média da “sampling
distribution” é µ e seu desvio padrão é σ x = σ N qdo N
cresce.
Essas afirmações valem independement da forma da
distribuição original.
15
A “sampling distribution” para o exemplo
dos estudantes de CC
• Se a amostra de N = 25 estudantes fosse tirada de uma
população com média 100 e desvio padrão 15 (“the null
hypothesis’) então a “sampling distribution” da média seria
assintoticamente normal com média 100 e desvio padrão s
15 25 = 3
A média dos estudantes de CC cai
quase 12 desvios padroes de distância
da média da “sampling distribution”
Somente ~1% de uma distribuição
normal cai mais que dois desvios
padrões de distância da média.
100
135
A probabilidade que os estudantes de CC
estão na “average” é aproximadamemte
zero
16
O Teste Z
Média da sampling
distribution
Estatística
Da amostra
Média da sampling
distribution
std=3
100
Teste
estatistico
std=1.0
135
0
11.67
x−µ
135 − 100 35
Z= σ =
= = 11.67
15
3
N
25
17
Rejeitar a “null hypothesis”?
• Geralmente rejeitamos H0 quando a probabilidade de obter
uma estatistica da amostra (ex., média = 135) dado que a
“null hypothesis” é baixa, digamos < 0.05.
• O valor estatística de teste, ex. Z = 11.67, recodifica a
estatística da amostra (média = 135) para tornar mais fácil
encontrar a probabilidade da estatística da amostra dado
H0.
• Encontramos as probabilidades ao procurá-las nas tabelas,
ou são fornecidas pro pacotes.
– Por exemplo, Pr(Z ≥ 1.67) = 0.05; Pr(Z ≥ 1.96) = 0.01.
• Pr(Z ≥ 11) e’aproximadamente zero, rejeite H0.
18
O Teste t
• Mesma lógica que o teste Z , quando o desvio
padrão da população é desconhecido e
amostras são pequenas.
• Sampling distribution é t, não a normal, mas
aproxima a normal a medida que o tamanho
das amostras cresce.
• Teste estatístico tem uma forma muito similar
mas as probabilidades do teste estatístico são
obtidas pela consulta a tabelas da distribuição
t distribution, e não a normal
19
O Teste t
Suponha N = 5 estudantes tenham uma média de QI = 135, std = 27
Estime o desvio da
“sampling distribution”
usando o desvio padrão da
amostra
Média da sampling
distribution
x − µ 135 − 100 35
t= s =
=
= 2.89
27
12.1
N
5
Estatística
da amostra
Média da sampling
distribution
std=12.1
100
135
Teste
estatistico
std=1.0
0
2.89
20
Sumário do Teste de Hipótese
• H0 nega o que voce deseja demonstrar! Encontre a probabilidade p
da estatística da amostra sob H0 ao comparar o teste da estatítica
com a “sampling distribution”; se a probabilidade é baixa, rejeite H0
com um resíduo de incerteza proporcional a p.
• Exemplo: Deseja-se demonstrar que os estudantes de POS de CC
(?????) são mais inteligentes que a média. H0 é que eles estão na
média. t = 2.89, p ≤ 0.022
• Nós provamos que os estudantes de CC são mais inteligentes? NÃO!
• Apenas mostramos que a média = 135 é improvável se eles não
são. Nos nunca provamos o que desejamos demonstrar, nós
somente rejeitamos H0, com um resíduo de incerteza.
• E ao falhar em rejeitar H0 não prova H0, também!
21
Cautela!
• Testes de Significância cobrem somente erros
aleatórios.
• Não são explicativos para:
– Erro de Medição
– Erro de Processamento
– Amostras Viciadas
22
Dois métodos de teste de
significância
• Método Fixo de nivel-α
– Estabeleça um limite de erro α
– Veja se a evidência permanece com limite α
– Tome a decisão sobre a “null hypothesis”
• Método da Significância Flexível
– Não estabeleça um limite α
– Derive a probabilidade condicional p
– Pese a evidência contra a “null hypothesis” com p
23
Passo A: Estabeleça a Hipótese
• H0 ≡ “Null hypothesis” ⇒ uma afirmação de
falta de diferença (“no difference”)
• H1 ≡ Hipótese Alternativa ⇒ uma afirmação de
falta de diferença (“difference”)
• Notas:
– Hipotese são baseadas na questão de pesquisa e não
nos dados
– Hipotese refere-se a parâmetros
24
Passo B: nível-α level
(teste de nível fixo)
α ≡ o tipo de taxa de erro que voce
aceitável na pesquisa
• Salte este passo quando o teste de
significância for flexível
• Notas
– Voce especifica α (não se calcula α)
– Níveis comuns para α são 0.10, 0.05, & 0.01
25
Passo C: Estatística de Teste
• Converta os dados para estatistica de teste
• Vamos usar a estatistica z, que é:
x − µ0
z stat =
SEM
onde
µ 0 ≡ a média sob a null hypothesis
SEM =
σ
n
26
Passo D: valor de p & conclusão
Converta o zstat para um valor p
27
Exemplo
•
Questão de pesquisa:senhorita X alterou um algoritmo
de buscas (chamou de W*) e obteve novos valores de
“recall”. O programa de busca é testado contra uma
base padrão de palavras. Quer se saber se as
modificações feitas pela senhorita X são responsáveis
pelo “recall” maior?
•
Projeto
–
–
Sabemos que os recall típicos seguem uma Normal
com µ = 100 ms e σ = 15
Rodamos o algoritmo W* e obtivemos esses dados
⇒ {116, 128, 125, 119, 89, 99, 105, 116, 118}
28
Passo A: Algoritmo W*
• Sob a hipótese de não haver diferença (no
difference), µ seria igual 100.
– Na notação estatística: H0: µ = 100
• Sob a hipótese alternativa µ seria maior que
100
– Na notação estatística : H1: µ > 100
29
Passo B: ”Algoritmo W”
• Passo B só se aplica ao teste de nível
fixo.
• Portanto, passo B é “saltado”
30
Passo C: “Algoritmo W*”
• Qual é a SDM de uma
amostra de 9 se a
assertiva nula fosse
verdadeira?
• Esboce a curva Normal
• Marque o eixo x
baseado na µ assumida
e SEM
• Onde cai a x-bar de
112.8 nessa curva?
• Use fórmula zstat para
“standardize” x-bar
zstat
x − µ 0 112.8 − 100
=
=
= 2.56
SEM
5
31
Step D: “Algoritmo W*”
• Converta zstat para
um valor de p
• Valor de p ≡ área sob
a curva além de zstat
• Para o exemplo,
p = Pr(Z > 2.56) =
.0052
• Portanto, p = .0052
32
Interpretação do valor p
• Método α-Fixo
– p ≤ α ⇒ rejeite H0
– p > α ⇒ NÃO rejeite H0
• Teste Flexível
– Valor de p = probabilidade do dado if H0
verdadeiro
– Assim, pequeno p ⇒ evidencia forte contra
H0
33
“Guidelines” para valor de P
• p > 0.10 ⇒ “not significance”
• 0.05 < p ≤ 0.10 ⇒ “marginally
significant”
• 0.01 < p ≤ .05 ⇒ “significant”
• p ≤ 0.01 ⇒ “highly significant”
34
A alternativa de um-lado
• O teste anterior fez a suposição sobre a direção
da diferença
• Teste tinha um “one-sided H1”
Olhamos apenas em
um lado da SDM
35
A alternativa de dois-lados
• Um enfoque mais aberto
permite conclusões
positivas e negativas
não-antecipadas.
• Isso requer um twosided test
– O teste de dois-lados
olha em ambas as
caudas
– Isso dobra o valor de p
36
Próxima aula: Ler o paper abaixo
• Um estudo de caso baseado em:
• “An Empirical Study of Dynamic Scheduling on
Rings of Processors” Gregory, Gao, Rosenberg
& Cohen, Proc. of 8th IEEE Symp. on Parallel &
Distributed Processing, 1996
• citeseer.ist.psu.edu/gregory96empirical.html
37
Download