Métodos Quantitativos para Ciência da Computação Experimental -Aula#7a- Inferência Estatística: Teste de Hipótese Virgílio A. F. Almeida Maio de 2008 Departamento de Ciência da Computação Universidade Federal de Minas Gerais Refrescando a memória • Parâmetro ≡ uma caraterística numérica de uma população, ex., média da população µ • Estatística ≡ uma caraterística numérica calculada numa amostra, ex: média da x amostra Parametros e estimativa estatísticas são relacionados, mas são a mesma coisa. 2 Refrescando a memória Parametros Fonte População “Statistics” (estimativas) Amostra Notação Grega (µ, σ) Romana (x, s) Randômica Não Sim Calculada Não Sim 3 Refrescando a memória x é variavel aleatória com uma distribuição (“the SDM”). A SDM tende para a Normal com média µ e desvio padrão SEM x ~ N(µ, SEM) SEM = σ / √n SEM: standard error of the mean SDM: sampling distribution of the mean 4 Inferências Estatísticas • É o processo de tirar uma conclusão sobre uma população não vista, dado uma amostra relativamente pequena dessa população. • Testando Hipóteses Estatísticas, também chamado de “teste de significância”. • Basicamente, responder uma questão “sim ou não” a respeito de uma população e estimar a probabilidade da resposta estar errada. • Estimativa de parâmetros • Basicamente, estimar o valor de um parâmetro dado uma hipotese sobre a população 5 Refrescando a memória População ≡ todos valores possíveis Amostra ≡ um sub-conjunto da população Estatísticas são funções nas amostras Parâmetros são funções nas populações Inferência estatística ≡ generalização de uma amostra para a população com certo grau de certeza • Duas formas de inferência: • • • • • – Estimativas – Teste de Hipótese 6 Tipos de análises de dados • Exploratório – procura de padrões nos dados • Inferência Estatistica de Dados Amostrais – Teste de Hipótese – Estimativa de parâmetros • Construção de modelos matemáticos de dados • Data mining… • Teste de hipóteses estatísticas é similar a prova por contradição, no qual nega-se uma proposição e mostra que uma contradição segue, portanto provando a proposição original. No outro caso, o teste não prova que a HN (hipótese nula) é falsa, mas sim ele limita a probabilidade de afirmar incorretamente que a hipótese nula é falsa. 7 Idéia Geral do Teste de Hipótese • Faça uma assertiva sobre um parâmetro • Transforme a assertiva numa “null hypothesis” • Procure uma evidencia contra a hipótese nula (“the null hypothesis”) 8 A Lógica do Teste de Hipótese • Exemplo: jogue uma moeda 10 vezes, e observa que aconteceram oito “caras”. A moeda é não viciada (i.e., qual é o comportamento de longo prazo?) e qual a incerteza residual? • Voce afirma, “Se a moeda fosse honesta, então oito ou mais caras é bem improvável, e portanto penso que a moeda é viciada.” • Como uma prova por contradição: Faça uma assertiva oposta (a moeda é honesta) mostre que o resultado da amostra (≥ 8 caras ) tem baixa probabilidade p, rejeite a assertiva, com incerteza residual relacionada a p. • Estime p com uma distribuição de amostragem (sampling distribution). 9 Probabilidade de um resultado de uma amostra sob a “null hypothesis” • Se a moeda fosse “honesta” (p= 0.5, a null hypothesis) qual é a distribuição de probabilidade de r, número de caras, obtida em N jogadas de uma moeda honesta? Obtenha analiticamente ou estime por simulação: – Loop K times • r := 0 • Loop N times ;; r is num.heads in N tosses ;; simulate the tosses – Generate a random 0 ≤ x ≤ 1.0 – If x < p increment r ;; p is the probability of a head • Push r onto sampling_distribution – Print sampling_distribution 10 Distribuições de Amostragens (Sampling distributions) Frequencia (K = 1000) Probabilidade de r = 8 ou mais caras em N = 10 jogadas de uma moeda Honest é 54 / 1000 = .054 70 60 50 40 30 20 10 0 1 2 3 4 5 6 7 8 9 10 Numero de caras em 10 jogadas Esta é a “sampling distribution” estimada de r sob a “null hypothesis” que p = 0.5. A estimativa foi construída por simulação 11 A Lógica do Teste de Hipótese • Estabeleça uma “null hypothesis”: H0: p = .5, a moeda é honesta • Estabeleça uma estatística: r, número de caras em N jogadas • Estime/construa a “sampling distribution” de r dado H0 0 1 2 3 4 5 6 7 8 9 10 • A “sampling distribution” vai dizer a probabilidade de p de um resultado pelo menos tão extremo como resultado da amostra, r=8 • Se essa probabilidade é muito baixa, rejeite H0 “null hypothesis” • Incerteza residual é p 12 A parte mais sensível e’ conseguir a sampling distribution • “Sampling distributions” podem ser derivadas... – Exatamente, ex., distribuição binomial para moedas são dados por fórmula. N! ⋅ pN r!( N − r)! – Analiticamente, ex., o Teorema do Limite Central diz que a “sampling distribution” da média aproxima a distribuição Normal quando as amostras crescem para infinito. – Estimadas por simulações do processo da “null hypothesis” 13 Um Teste Estatístico Comum: teste Z para médias diferentes • Uma amostra N = 25 de alunos de ciência da computação tem média de QI=135. São eles mais “inteligentes” que a média? • Média da população é 100 com desvio padrão 15 • A “null hypothesis”, H0, é que os estudantes de computação estão na média”, i.e., a média do QI da população de estudantes de CC é 100. • Qual é a probabilidade p de tirar essa amostra se H0 fosse verdade? Se p é pequeno, então H0 provavelmente é falso. • Encontre a “sampling distribution” da média de uma amostra de tamanho 25, de uma população com média 100 14 Teorema do Limite Central A “sampling distribution”da média é dada pelo Teorema do Limite Cengtral. A “sampling distribution” da média de amostras de tamanho N aproxima uma Normal (Gaussian) quando N Tende para infinito. Se as amostras são tiradas de uma população com média µ e desvio padrão σ , então a média da “sampling distribution” é µ e seu desvio padrão é σ x = σ N qdo N cresce. Essas afirmações valem independement da forma da distribuição original. 15 A “sampling distribution” para o exemplo dos estudantes de CC • Se a amostra de N = 25 estudantes fosse tirada de uma população com média 100 e desvio padrão 15 (“the null hypothesis’) então a “sampling distribution” da média seria assintoticamente normal com média 100 e desvio padrão s 15 25 = 3 A média dos estudantes de CC cai quase 12 desvios padroes de distância da média da “sampling distribution” Somente ~1% de uma distribuição normal cai mais que dois desvios padrões de distância da média. 100 135 A probabilidade que os estudantes de CC estão na “average” é aproximadamemte zero 16 O Teste Z Média da sampling distribution Estatística Da amostra Média da sampling distribution std=3 100 Teste estatistico std=1.0 135 0 11.67 x−µ 135 − 100 35 Z= σ = = = 11.67 15 3 N 25 17 Rejeitar a “null hypothesis”? • Geralmente rejeitamos H0 quando a probabilidade de obter uma estatistica da amostra (ex., média = 135) dado que a “null hypothesis” é baixa, digamos < 0.05. • O valor estatística de teste, ex. Z = 11.67, recodifica a estatística da amostra (média = 135) para tornar mais fácil encontrar a probabilidade da estatística da amostra dado H0. • Encontramos as probabilidades ao procurá-las nas tabelas, ou são fornecidas pro pacotes. – Por exemplo, Pr(Z ≥ 1.67) = 0.05; Pr(Z ≥ 1.96) = 0.01. • Pr(Z ≥ 11) e’aproximadamente zero, rejeite H0. 18 O Teste t • Mesma lógica que o teste Z , quando o desvio padrão da população é desconhecido e amostras são pequenas. • Sampling distribution é t, não a normal, mas aproxima a normal a medida que o tamanho das amostras cresce. • Teste estatístico tem uma forma muito similar mas as probabilidades do teste estatístico são obtidas pela consulta a tabelas da distribuição t distribution, e não a normal 19 O Teste t Suponha N = 5 estudantes tenham uma média de QI = 135, std = 27 Estime o desvio da “sampling distribution” usando o desvio padrão da amostra Média da sampling distribution x − µ 135 − 100 35 t= s = = = 2.89 27 12.1 N 5 Estatística da amostra Média da sampling distribution std=12.1 100 135 Teste estatistico std=1.0 0 2.89 20 Sumário do Teste de Hipótese • H0 nega o que voce deseja demonstrar! Encontre a probabilidade p da estatística da amostra sob H0 ao comparar o teste da estatítica com a “sampling distribution”; se a probabilidade é baixa, rejeite H0 com um resíduo de incerteza proporcional a p. • Exemplo: Deseja-se demonstrar que os estudantes de POS de CC (?????) são mais inteligentes que a média. H0 é que eles estão na média. t = 2.89, p ≤ 0.022 • Nós provamos que os estudantes de CC são mais inteligentes? NÃO! • Apenas mostramos que a média = 135 é improvável se eles não são. Nos nunca provamos o que desejamos demonstrar, nós somente rejeitamos H0, com um resíduo de incerteza. • E ao falhar em rejeitar H0 não prova H0, também! 21 Cautela! • Testes de Significância cobrem somente erros aleatórios. • Não são explicativos para: – Erro de Medição – Erro de Processamento – Amostras Viciadas 22 Dois métodos de teste de significância • Método Fixo de nivel-α – Estabeleça um limite de erro α – Veja se a evidência permanece com limite α – Tome a decisão sobre a “null hypothesis” • Método da Significância Flexível – Não estabeleça um limite α – Derive a probabilidade condicional p – Pese a evidência contra a “null hypothesis” com p 23 Passo A: Estabeleça a Hipótese • H0 ≡ “Null hypothesis” ⇒ uma afirmação de falta de diferença (“no difference”) • H1 ≡ Hipótese Alternativa ⇒ uma afirmação de falta de diferença (“difference”) • Notas: – Hipotese são baseadas na questão de pesquisa e não nos dados – Hipotese refere-se a parâmetros 24 Passo B: nível-α level (teste de nível fixo) α ≡ o tipo de taxa de erro que voce aceitável na pesquisa • Salte este passo quando o teste de significância for flexível • Notas – Voce especifica α (não se calcula α) – Níveis comuns para α são 0.10, 0.05, & 0.01 25 Passo C: Estatística de Teste • Converta os dados para estatistica de teste • Vamos usar a estatistica z, que é: x − µ0 z stat = SEM onde µ 0 ≡ a média sob a null hypothesis SEM = σ n 26 Passo D: valor de p & conclusão Converta o zstat para um valor p 27 Exemplo • Questão de pesquisa:senhorita X alterou um algoritmo de buscas (chamou de W*) e obteve novos valores de “recall”. O programa de busca é testado contra uma base padrão de palavras. Quer se saber se as modificações feitas pela senhorita X são responsáveis pelo “recall” maior? • Projeto – – Sabemos que os recall típicos seguem uma Normal com µ = 100 ms e σ = 15 Rodamos o algoritmo W* e obtivemos esses dados ⇒ {116, 128, 125, 119, 89, 99, 105, 116, 118} 28 Passo A: Algoritmo W* • Sob a hipótese de não haver diferença (no difference), µ seria igual 100. – Na notação estatística: H0: µ = 100 • Sob a hipótese alternativa µ seria maior que 100 – Na notação estatística : H1: µ > 100 29 Passo B: ”Algoritmo W” • Passo B só se aplica ao teste de nível fixo. • Portanto, passo B é “saltado” 30 Passo C: “Algoritmo W*” • Qual é a SDM de uma amostra de 9 se a assertiva nula fosse verdadeira? • Esboce a curva Normal • Marque o eixo x baseado na µ assumida e SEM • Onde cai a x-bar de 112.8 nessa curva? • Use fórmula zstat para “standardize” x-bar zstat x − µ 0 112.8 − 100 = = = 2.56 SEM 5 31 Step D: “Algoritmo W*” • Converta zstat para um valor de p • Valor de p ≡ área sob a curva além de zstat • Para o exemplo, p = Pr(Z > 2.56) = .0052 • Portanto, p = .0052 32 Interpretação do valor p • Método α-Fixo – p ≤ α ⇒ rejeite H0 – p > α ⇒ NÃO rejeite H0 • Teste Flexível – Valor de p = probabilidade do dado if H0 verdadeiro – Assim, pequeno p ⇒ evidencia forte contra H0 33 “Guidelines” para valor de P • p > 0.10 ⇒ “not significance” • 0.05 < p ≤ 0.10 ⇒ “marginally significant” • 0.01 < p ≤ .05 ⇒ “significant” • p ≤ 0.01 ⇒ “highly significant” 34 A alternativa de um-lado • O teste anterior fez a suposição sobre a direção da diferença • Teste tinha um “one-sided H1” Olhamos apenas em um lado da SDM 35 A alternativa de dois-lados • Um enfoque mais aberto permite conclusões positivas e negativas não-antecipadas. • Isso requer um twosided test – O teste de dois-lados olha em ambas as caudas – Isso dobra o valor de p 36 Próxima aula: Ler o paper abaixo • Um estudo de caso baseado em: • “An Empirical Study of Dynamic Scheduling on Rings of Processors” Gregory, Gao, Rosenberg & Cohen, Proc. of 8th IEEE Symp. on Parallel & Distributed Processing, 1996 • citeseer.ist.psu.edu/gregory96empirical.html 37