Métodos Não-Paramétricos Departamento: DEIO Licenciatura: Estatística Aplicada 1ºAno / 2º Semestre / 6 ECTS Docente: Isabel Fraga Alves ([email protected] ) Programa Introdução Análise de Dados Categorizados • Teste do Qui-Quadrado • • Teste de Ajustamento Tabelas de Contingência • • Teste de Independência Teste de Homogeneidade Estatística Não-Paramétrica • • • • Introdução: O problema geral da localização relativo a 2 amostras Amostras emparelhadas • • Teste dos Sinais (pequenas e grandes amostras) Teste de Wilcoxon (pequenas e grandes amostras) Uso das “Ordens” para Comparar Populações: Amostras Independentes • • 2 Populações: O Teste de Mann-Whitney (pequenas e grandes amostras) Mais de 2 Populações: • • O Teste de Kruskal-Wallis (pequenas e grandes amostras) Teste de Friedman (pequenas e grandes amostras) Uso das “Ordens” para Testar Independência e Aleatoriedade • • Teste de Spearman (pequenas e grandes amostras) Teste dos “Runs” para Aleatoriedade (pequenas e grandes amostras) Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 2 Bibliografia CONOVER, W. J. (1999) - Practical Nonparametric Statistics, 3rd ed. Wiley. DANIEL, W. W. (1990) - Applied Nonparametric Statistics, 2nd ed. PWS-Kent. Graça Martins, M. E. (2005) – Introdução à Probabilidade e à Estatística – Com complementos de Excel, SPE. DeGroot, Morris H. - Probability and statistics (1986 ) - 2nd ed Massachusetts AddisonWesley. Pestana e Velosa (2006) - Introdução à Probabilidade e à Estatística, I, Fundação Gulbenkian. 2ª ed. SIEGEL, S. and Castellan, N. Y. (1988) - Nonparametric Statistics for the Behavioral Sciences. McGraw-Hill. * Wackerly, D., Mendenhall, W. and Scheaffer, L. (1995) – Mathematical Statistics with Applications. Duxbury Press; 5th ed. * Manual Recomendado para consulta das Tabelas ao longo dos slides. Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 3 Introdução O que é a Estatística ? Estudo da Incerteza Como a quantificar? Que podemos fazer com ela? As experiências repetidas sob o que pensamos serem as condições não resultam sempre da mesma forma…! Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 4 Tipos de Experiências Causais ou Determinísticas Ex: Deixar cair uma pedra no rio Aleatória ou Estocástica Ex: O Tempo que vou Esperar pelo Autocarro Como posso “prever” o resultado? Com Estatística quantificamos e medimos o “imprevisível”! Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 5 Estatística: produz afirmações numéricas relativamente a situações sujeitas a INCERTEZA. Exemplos: • Quem irá ganhar as próximas eleições? • Estarão os clientes da PT satisfeitos com o serviço • • • prestado? Qual das duas pastas dentífricas é mais eficiente que a outra para prevenir as cáries? Qual a previsão da quantidade de precipitação para o próximo inverno? Após a monitorização de pacientes com doenças cardíacas, como decidir acerca dos factores que afectam a sua saúde ? Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 6 Como e Que Respostas ? Para responder a estas perguntas frequentemente usamos modelos probabilísticos, que são modelos matemáticos para lidar com incerteza. São recolhidos Dados para explorar uma População, o objectivo de nosso estudo. •AMOSTRA Quando é recolhida uma amostra grande é necessário produzir resumos das informações nela contidas. Existem ferramentas gráficas e numéricas que são normalmente utilizadas pelos estatísticos •Estatística Descritiva Inferência Estatística - faz generalizações, válidas para a População, a partir de Amostras. (enquanto na Previsão - é apresentada uma afirmação sobre o Futuro.) Dados - observações de determinadas quantidades de interesse. Variáveis - incerteza acerca dos seus verdadeiros valores. Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 7 Tipos de Variáveis VARIÁVEL QUANTITATIVA DISCRETA Isabel Fraga Alves CONTÍNUA QUALITATIVA ORDINAL NOMINAL FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 8 Tipos de Variáveis (cont.) QUANTITATIVA vs. QUALITATIVA : variáveis com / sem representação numérica e ordenação natural única (por exemplo, a pressão arterial versus religião). DISCRETA vs. CONTÍNUA: variáveis quantitativas com / sem lacunas conceptuais entre os seus valores (por exemplo, número de crianças numa família versus pressão arterial). ORDINAL vs. NOMINAL: variáveis qualitativas com / sem ordenação (eventualmente não única) dos seus valores (a satisfação do cliente versus religião). Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 9 Tipos de Variáveis (cont.) De modo geral, as variáveis qualitativas estão mais ligadas aos modelos não-paramétricos enquanto que as variáveis quantitativas aos modelos paramétricos. Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 10 Tipos de Variáveis (cont.) As variáveis qualitativas podem ainda ser classificadas de acordo com: VARIÁVEL CATEGORIZADA – (Categórica, Nominal ou de Classe) • nomes das pessoas ou coisas; as letras do alfabeto; o sexo, masculino ou feminino, macho ou fêmea; o estado civil, solteiro, casado, divorciado, viúvo; o curso, primário, secundário, colegial, universitário, pós-graduação, etc. Representa o nível mais simples e mais elementar de medição. Os indivíduos de uma população ou amostra são medidos mediante uma certa característica que pode ser categoria, nome ou classe. Características binárias ou dicotomizadas: • presente ou ausente, 1 ou 0, positivo ou negativo, vivo ou morto, sim ou não, benigno ou maligno, etc. Essas características são mutuamente exclusivas, isto é, cada indivíduo só pode se enquadrar em um único nome, categoria ou classe, e também são exaustivas, pois devem atingir todos os indivíduos da população ou amostra em estudo, sem excepção. A variável categórica é qualitativa e não se presta aos cálculos aritméticos comuns: soma, subtracção, multiplicação e divisão. Apresenta as seguintes propriedades de equivalência (=): reflexiva (x=x); simétrica (x=y então y=x); transitiva (x=y e y=z então x=z). Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 11 Tipos de Variáveis (cont.) VARIÁVEL ORDINAL – • no alfabeto, A,B,C,D ou D,C,B,A; em números de ordem, 1,2,3 ou 3,2,1; no sexo, F,M ou M,F; no curso, primário- secundário-superior ou superiorsecundário-primário; em uma quantificação, leve-moderado-intenso ou intensomoderado-leve; em cruzes, +,++,+++,++++ ou ++++,+++,++,+; na ordenação de dados numéricos, 11,18,23,29,35 ou 35,29,23,18,11; etc. Os indivíduos de uma população ou amostra são classificados de acordo com as diversas categorias de uma determinada característica e em seguida são ordenados. Esta ordenação pode ser crescente ou decrescente, ou igualmente, ascendente ou descendente. A variável ordinal também é qualitativa. • Sabe-se que um indivíduo ou coisa é maior ou menor do que outro, porém não se sabe o quanto é maior nem o quanto é menor. São comuns as expressões comparativas: maior, menor; superior, inferior; primeiro, último; mais intenso, menos intenso; mais alto, mais baixo; preferível; etc. Na escala ordinal utilizam-se as comparações maior do que (>) e menor do que (<). As operações aritméticas comuns (adição, subtracção, multiplicação e divisão) não são aplicáveis. Na ordenação, a relação maior do que (>) apresenta a propriedade transitiva (se x>y e y>z então x>z). Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 12 Tipos de Variáveis (cont.) VARIÁVEL INTERVALAR – • os valores de idade, altura, peso, pressão arterial, frequência cardíaca, exames laboratoriais, medidas diversas, etc. A escala intervalar é verdadeiramente quantitativa. A medição é feita directamente em números reais, obtidos mediante a comparação com um determinado valor fixo, denominado unidade. O nome intervalar está ligado aos intervalos entre as categorias da variável e aqui se sabe exactamente o quanto uma categoria é menor ou maior que outra, ou ainda se há igualdade entre elas. As operações aritméticas comuns (soma, subtracção, multiplicação e divisão) são aplicáveis. A variável intervalar reúne todas as propriedades dos dois tipos anteriores de mensuração: as de equivalência (=), reflexiva (x=x), simétrica (x=y então y=x) e transitiva (x=y e y=z então x=z) e a de ordenação (>), transitiva (x>y e y>z então x>z). Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 13 ESTATÍSTICA NÃO PARAMÉTRICA Extremamente interessante para análises de dados qualitativos. MEDIDAS DE TENDÊNCIA CENTRAL - Localização Média Mediana Moda ɺ amostra aleatoria (a.a.) - X 1 , X 2 ,⋯ , X n amostra observada - x1 , x2 ,⋯ , xn Média Amostral - é a soma de todos os valores de uma amostra dividida pelo nº de elementos da amostra (dimensão). É aplicada em variáveis quantitativas. A média amostral é a contrapartida empírica do Valor Médio da População ou da Variável, µ. Isabel Fraga Alves 1 n X = ∑ Xi n i =1 1 n x = ∑ xi n i =1 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 15 MEDIDAS DE TENDÊNCIA CENTRAL - Localização Mediana Amostral - É o valor da amostra que ocupa a posição central, quando todos os valores estão ordenados em ordem crescente ou decrescente. Se n for ímpar, a mediana ( Med ) será o valor que ocupa a posição central na amostra ordenada. Esta posição pode ser calculada por (n+1)/2. Se n for par, a Med será calculada pela média aritmética dos dois valores centrais na amostra ordenada da amostra. A posição de cada um desses dois valores centrais pode ser calculada por n/2 e n/2+1. A Mediana é muito utilizada nos cálculos não-paramétricos. Isabel Fraga Alves amostra ordenada observada x1:n ≤ x2:n ≤ ⋯ ≤ xn:n x n +1 n impar :n 2 Med = 1 x n + x n n par +1:n 2 2 :n 2 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 16 MEDIDAS DE TENDÊNCIA CENTRAL - Localização Moda - É o valor da variável que corresponde à frequência máxima. Dados: 25, 22, 28, 32, 35, 55, 83, 83, 98, 99, 43, 46, 51 (n=13) amostra observada ( x1 , x2 ,⋯ , xn ) = (25, 22, 28, 32, 35, 55, 83, 83, 98, 99, 43, 46, 51 ) A moda pode ter um ou mais valores, unimodal, bimodal,..., multimodal, conforme existam uma, duas, ou mais frequências iguais, dos valores da variável. Isabel Fraga Alves amostra ordenada observada x1:n ≤ x2:n ≤ ⋯ ≤ xn:n = (22, 25, 28, 32, 35, 43, 46, 51, 55, 83, 83, 98, 99) média mediana moda x = 53.9 Med = 46 Mo = 83 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 17 Localização: Mediana vs. Média Razões para usar a mediana: • – É menos influenciada por valores extremos • – Se as distribuições são simétricas, a média e a mediana populacional coincidem Média vs. Mediana • 5 6 6 7 7 8 10 • Média = 7 Med = 7 • 5 6 6 7 7 8 50 • Média = 8.43 Med = 7 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 18 Objectivos do Curso Distinguir • Metodologias Paramétricas & • Explicar uma • Metodologias Não-Paramétricas Variedade de Testes Não-Paramétricos Resolver • Problemas de Testes de Hipóteses usando • Isabel Fraga Alves Testes Não-Paramétricos FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 19 Quadro Geral Até este ponto, todos os testes que têm utilizado estão sujeitos a suposições sobre a distribuição subjacente aos dados. Especificamente, é assumido que os dados são normais para usar o teste-t, por exemplo. Poder-se-ia usar a teoria de grandes amostras e o Teorema do Limite Central, mas isso ainda apenas se verifica Assintoticamente n→∞ O que é que acontece se não estamos dispostos ou não é sensato fazer as suposições de normalidade sobre a distribuição subjacente e temos uma amostra de dimensão pequena ? Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 20 TESTE DE HIPÓTESES Trata-se de uma técnica para se fazer a inferência estatística sobre uma população a partir de uma amostra Teses de Hipóteses - Metodologias Teste de Hipóteses metodologias Paramétricas Não-Paramétricas Teste Wilcoxon etc Teste - z Teste - t etc Teste Kruskal-Wallis ANOVA E muitos mais…! Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 22 Teses de Hipóteses - Metodologias Amostra emparelhada Teste-t emparelhado Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 23 Estatística Não-Paramétrica Muitos dos testes estatísticos não-paramétricos respondem à mesma série de questões tal como os testes paramétricos. • Com testes não-paramétricos as hipóteses podem ser flexibilizadas consideravelmente. • Por conseguinte, são utilizados métodos não-paramétricos para situações que violem os pressupostos de procedimentos paramétricos. Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 24 Testes Paramétricos Testes Paramétricos • Incidem explicitamente sobre um ou mais parâmetros de uma ou mais populações; • A distribuição de probabilidades da estatística de teste pressupõe uma forma particular das distribuições populacionais; • As variâncias são homogéneas; • Os erros ou resíduos são aleatórios e independentes e têm distribuição normal com variância finita e constante. Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 25 Testes Não-Paramétricos Testes Não Paramétricos • Requerem menos pressupostos em relação à população; • Não exigem normalidade; • Não se baseiam em parâmetros da distribuição (logo, não necessitam variâncias homogéneas); • Ligeiramente menos eficientes que os testes paramétricos; • Baseiam-se nas estatísticas ordinais (e não nos valores das observações); • Mais fáceis de aplicar. Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 26 Testes Não-Paramétricos Vantagens Poucos Pressupostos Relativos à População Facilidade de implementação Maior Perceptibilidade Aplicável em Situações Não Abrangidas Pela Normal Mais Eficientes quando as Populações não têm Distribuição Normal Os resultados podem ser tão exactos como nos procedimentos paramétricos Desvantagens As hipóteses testadas por testes não-paramétricos tendem a ser menos específicas; Não têm Parâmetros, Dificultando Comparações Quantitativas entre Populações Escasso Aproveitamento de Informação da Amostra Pode ser de Difícil Cálculo à mão para Grandes Amostras Tabelas não amplamente disponíveis Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 27 Estatística Não-Paramétrica - Distribuição Livre • Não incorpora as suposições restritivas, características dos testes paramétricos. • Os dados não precisam estar normalmente distribuídos (Distribution-Free). É necessário, apenas, que eles sejam ordenáveis. • Muitas vezes, são baseados nas ordens das observações e não nos seus valores, como no caso paramétrico. • Podem ser aplicados para variáveis quantitativas e qualitativas. • Menos sensíveis aos erros de medida e rápidos para pequenas amostras. Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 28 TESTE DE HIPÓTESES Trata-se de uma técnica para se fazer a inferência estatística sobre uma população a partir de uma amostra PRINCIPAIS CONCEITOS HIPÓTESE • Trata-se de uma suposição quanto ao valor de um parâmetro populacional, ou quanto à natureza da distribuição de probabilidade de uma variável populacional. TESTE • ESTATÍSTICA DE HIPÓTESES É uma regra de decisão para “aceitar” ou rejeitar uma hipótese estatística com base nos elementos amostrais Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 30 TEORIA POPPERIANA - Falseabilidade (ou refutabilidade) “Science can't prove anything. It can only disprove things.” A ciência não pode provar nada. Só pode refutar coisas. • Considere o exemplo do famoso Cisne Negro (black swan): • • • Isabel Fraga Alves Um cientista gasta sua vida observando cisnes. Observa que todos os cisnes que jamais viu são brancos. Com base nesta evidência empírica, ele postula uma teoria de que “todos os cisnes são brancos”. Um dia viaja para a Austrália e vê - UPS! - um Cisne Negro. A sua teoria é refutada. Mas isso não significa que não era ciência quando a estabeleceu. Agora, pode estabelecer uma teoria nova: “Os cisnes podem ser brancos ou pretos”. FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 31 Karl Popper(1902- 1994) - UM FILÓSOFO INOVADOR Sir Karl Raimund Popper foi filósofo da ciência austríaco naturalizado britânico e um professor da London School of Economics. Formou-se em matemática, física e filosofia da ciência britânica. Uma das pessoas mais influentes da filosofia da Ciência durante o século XX. POPPER E A REFUTAÇÃO • • • Uma hipótese só é científica se puder ser colocada em questão (“refutada”). Isto significa que deve ser sempre possível realizar uma observação que prove que a hipótese é falsa Uma teoria científica não poderá em nenhuma circunstância ser declarada “verdadeira” A teoria científica mais não é do que uma hipótese; uma conjectura, que um dia será refutada e substituída por uma outra. “ What really makes science grow is new ideas, including false ideas.” –Karl Popper SÓ APRENDEMOS QUANDO ERRAMOS. OS ESTATÍSTICOS NÃO PERGUNTAM QUAL É A PROBABILIDADE DE ESTAREM CERTOS, MAS A PROBABILIDADE DE ESTAREM ERRADOS. • Para fazerem isso estabelecem uma hipótese nula. Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 32 Data Analysis and Research for Sport and Exercise Science: A Student Guide By Craig Williams, Chris Wragg, Routledge ed., 2003. pag 6 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 33 PRINCIPAIS CONCEITOS TIPOS DE HIPÓTESES • • H0, hipótese nula, a hipótese estatística a ser testada H1, hipótese alternativa A HIPÓTESE NULA É UMA AFIRMAÇÃO DE COMO O MUNDO DEVERIA SER, SE NOSSA SUPOSIÇÃO ESTIVESSE ERRADA. • Ex: A hipótese nula expressa uma igualdade, enquanto a hipótese alternativa é dada por uma desigualdade. H 0 : µ = 1.5 m vs. H1 : µ ≠ 1.5 m Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 34 Testes de Hipóteses – Erros EXISTEM DOIS TIPOS DE ERRO: • Erro tipo 1 - rejeição de uma hipótese nula verdadeira • Erro tipo II – “aceitação” de uma hipótese nula falsa • “aceitação” “não rejeição” • A probabilidade α do erro tipo I é denominada “nível de significância” do teste. Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 35 Testes de Hipóteses – Erros ET:= Estatística de Teste RR:= Região de Rejeição RA:= Região de Aceitação REGRA de TESTE: ET∈ RR então Rejeitar H0 Realidade H0 verdadeira Decisão Não rejeitar H0 Decisão correcta H0 falsa Erro tipo II Decisão Rejeitar H0 Erro tipo I correcta α = P( erro tipo I ) = P(rejeitar H0| H0 verdadeira) = P(ET ∈ RR | H0 verd.) nível de significância ou tamanho do teste β = P(erro tipo II)= P(não rejeitar H0| H0 falsa) = P(ET ∈ RA | H0 falsa) 1-β β = potência do teste → Probabilidade de não cometermos um erro do tipo II Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 36 p -Value O resultado foi significativo? Quão pequeno tem de ser o p-value, para se rejeitar a hipótese nula? • • Se p-value < 5 % estatisticamente significativo. Se p-value < 1 % altamente significativo. Os investigadores devem • resumir os dados, • dizer qual o teste usado e • reportar o p-value (em vez de apenas o comparar com os valores de 1 % ou 5 % ) No caso de se estabelecer à partida o nível de significância α e se o TESTE indicar a aceitação de H0, diz-se que Ao nível de significância α não se pode rejeitar H0 . Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 37 TIPOS DE TESTE Qui-Quadrado Teste dos Sinais Teste de Wilcoxon Teste de Mann-Whitney Teste de Kruskal-Wallis Teste de Friedman Teste de Spearman Teste dos Runs Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 38 QUI-QUADRADO (χ χ2) Testes de Ajustamento, Independência e Homogeneidade QUI-QUADRADO ET: Testes: 1. 2 ( Observadas − esperadas ) i i X2 =∑ esperadasi i Ajustamento (em inglês “Goodness-of-fit”): frequência observada ajustada a uma frequência esperada ); 2. Independência entre duas variáveis: Comportamento de uma variável dependente ou não de outra (Tabelas de Contingência). 3. Homogeneidade de Populações independentes: (Tabelas de Contingência - margem fixa) Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 40 Ajustamento (“Goodness-of-fit” - testes para o ajuste) Tradicionalmente são utilizados para verificar a qualidade da adequação (“fit”) de uma distribuição teórica em relação a um conjunto de observações (amostra) - e.g. testar a Normalidade de uma amostra. Testes não paramétricos: • amostras de valores contínuos (acesso aos dados originais) • Kolgomorov-Smirnov (e outros que não iremos dar neste curso…) • amostras de dados categorizados • Qui-Quadrado Χ (sugerido por Karl Pearson) 2 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 41 Ajustamento (“Goodness-of-fit”) Os testes de ajustamento servem para testar a hipótese de que uma determinada amostra observada tenha sido extraída de uma população com distribuição especificada (Hipótese Nula Simples); . F0 AMOSTRA ALEATÓRIA proveniente da f.d. F(.): X 1 , X 2 ,⋯ , X n i.e, X i iid F Hipóteses a testar: H 0 : F ( x) = F0 ( x) vs. H1 : F ( x) ≠ F0 ( x) Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 42 Exemplo 1 A procura diária de um certo produto foi, em 60 dias escolhidos ao acaso, a que consta da tabela 1: Será que tais observações foram extraídas de uma população com distribuição de Poisson, ie, Será de admitir que tal procura segue uma distribuição de Poisson? Isabel Fraga Alves Número de unidades Número de dias 0 2 1 4 2 9 3 11 4 14 5 10 6 5 7 3 8 1 9 1 Tabela I: Procura diária de um produto registada em 60 dias. FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 43 Exemplo 2 Pretende-se construir um modelo de simulação das operações de um determinado terminal de um porto situado na Europa. Uma das variáveis a considerar no modelo é a diferença entre a data de chegada dos navios provenientes dos EU e a respectiva data planeada. Dado que tal diferença é influenciada por muitos factores, pode tomar-se como uma variável aleatória. Há razões para supor que tem distribuição Normal de valor médio 0.1 e desvio padrão 7.2. Uma amostra de 30 navios revelou os resultados que se apresentam na Tabela 2. -6.6 -2 5 2.4 -1.8 -0.3 15 -7.6 -0.6 2.6 -7.4 12.4 -6 -5.8 15.2 -2.4 -8.9 -5.6 -3.7 2.2 8.2 -9 13.2 7.6 -2.8 -1.8 1.8 4.4 2.2 4 Tabela 2: Diferença entre a data de chegada e a data planeada para 30 navios. Será mesmo de admitir que tais dados foram extraídos de uma população N(0.1, 7.22) ? Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 44 TESTE DO QUI-QUADRADO - Ajustamento Consideremos uma População X dividida em k ≥ 2 categorias disjuntas e exaustivas A1, A2, … , Ak, (cada indivíduo da população pertence a uma e só a uma das categorias) Para i=1, … , k, seja pi a proporção de indivíduos da População pertencentes a categoria Ai , k • pi = P[ X ∈ Ai ] com ∑ p = 1 i i =1 Fazer inferência estatística acerca desta População resume-se a estudar os parâmetros Classes • pi , i=1, … , k. A1 Recolha-se da População X em estudo uma amostra de A2 dimensão n, x1 , x2 ,⋯ , xn e comece-se por construir a tabela Isabel Fraga Alves Frequências o1 o2 … … Ai oi … … Ak ok FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 45 TESTE DO QUI-QUADRADO - Ajustamento Temos a generalização do modelo Binomial, ie, o modelo Multinomial : • • Consideram-se n provas idênticas; O resultado de cada prova pode pertencer a uma de k classes possiveis A1, A2, … , Ak ; pi = P[ X ∈ Ai ] • k é sempre a mesma de prova para prova, i=1, … , k. e • • As provas são independentes; As variáveis de interesse são ∑p i =1 i =1 O1 , O2 ,⋯ , Ok k • em que Oi = # { X i ∈ Ai } com ∑O i =n i =1 Da tabela de frequências obtêm-se as estimativas (de máxima verosimilhança) dos parâmetros pi , i=1, … , k, pˆ i = Isabel Fraga Alves oi n FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 46 TESTE DO QUI-QUADRADO - Ajustamento Teorema: Se (O1, O2, … , Ok) é uma v.a. multinomial, com parâmetros n, pi, i=1, … , k, então a função distribuição da k v.a. (Oi − npi ) 2 ∑ i =1 npi aproxima-se da função distribuição dum χ2 com (k-1) graus de liberdade, quando n→∞ . Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS) 47