Programa Métodos Não-Paramétricos Introdução Análise de Dados Categorizados • Teste do Qui-Quadrado • • Isabel Fraga Alves Departamento de Estatística e Investigação Operacional Teste de Ajustamento Tabelas de Contingência • • Estatística Não-Paramétrica • • Introdução: O problema geral da localização relativo a 2 amostras Amostras emparelhadas • Uso das “Ordens” para Comparar Populações: Amostras Independentes • Uso das “Ordens” para Testar Independência e Aleatoriedade • • Teste dos Sinais (pequenas e grandes amostras) Teste de Wilcoxon (pequenas e grandes amostras) • • 2 Populações: O Teste de Mann-Whitney (pequenas e grandes amostras) Mais de 2 Populações: • O Teste de Kruskal-Wallis (pequenas e grandes amostras) • Teste de Friedman (pequenas e grandes amostras) • • Teste de Spearman (pequenas e grandes amostras) Teste dos “Runs” para Aleatoriedade (pequenas e grandes amostras) Isabel Fraga Alves Bibliografia CONOVER, W. J. (1999) - Practical Nonparametric Statistics, 3rd ed. Wiley. DANIEL, W. W. (1990) - Applied Nonparametric Statistics, 2nd ed. PWS-Kent. Teste de Independência Teste de Homogeneidade FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 2 Introdução O que é a Estatística ? Graça Martins, M. E. (2005) – Introdução à Probabilidade e à Estatística – Com complementos de Excel, SPE. Estudo da Incerteza DeGroot, Morris H. - Probability and statistics (1986 ) - 2nd ed Massachusetts AddisonWesley. Como a quantificar? Que podemos fazer com ela? Pestana e Velosa (2006) - Introdução à Probabilidade e à Estatística, I, Fundação Gulbenkian. 2ª ed. As experiências repetidas SIEGEL, S. and Castellan, N. Y. (1988) - Nonparametric Statistics for the Behavioral Sciences. McGraw-Hill. * Wackerly, D., Mendenhall, W. and Scheaffer, L. (2007) – Mathematical Statistics with Applications. Duxbury Press; 7th ed. sob o que pensamos serem as condições não resultam sempre da mesma forma…! * Manual Recomendado para consulta das Tabelas ao longo dos slides. Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 3 Isabel Fraga Alves situações sujeitas a INCERTEZA. Causais ou Determinísticas Ex: Deixar cair uma pedra no rio Aleatória ou Estocástica Ex: O Tempo que vou Esperar pelo Autocarro • Quem irá ganhar as próximas eleições? • Estarão os clientes da PT satisfeitos com o serviço prestado? • • Com Estatística quantificamos e medimos o “imprevisível”! FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Exemplos: • Qual das duas pastas dentífricas é mais eficiente que a Como posso “prever” o resultado? Isabel Fraga Alves 4 Estatística: produz afirmações numéricas relativamente a Tipos de Experiências FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 5 outra para prevenir as cáries? Qual a previsão da quantidade de precipitação para o próximo inverno? Após a monitorização de pacientes com doenças cardíacas, como decidir acerca dos factores que afectam a sua saúde ? Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 6 1 Como e Que Respostas ? Tipos de Variáveis Para responder a estas perguntas frequentemente usamos modelos probabilísticos, que são modelos matemáticos para lidar com incerteza. São recolhidos de nosso estudo. Dados para explorar uma População, o objectivo VARIÁVEL •AMOSTRA Quando é recolhida uma amostra grande é necessário produzir resumos das informações nela contidas. Existem ferramentas gráficas e numéricas que são normalmente utilizadas pelos estatísticos QUALITATIVA QUANTITATIVA •Estatística Descritiva Inferência Estatística - faz generalizações válidas para a População, a partir de Amostras. (enquanto na Previsão - é apresentada uma afirmação sobre o Futuro.) DISCRETA FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 7 Isabel Fraga Alves QUANTITATIVA vs. QUALITATIVA : variáveis com / sem representação numérica e ordenação natural única (por exemplo, a pressão arterial versus religião). DISCRETA vs. CONTÍNUA: variáveis quantitativas com / sem lacunas conceptuais entre os seus valores (por exemplo, número de crianças numa família versus pressão arterial). ORDINAL vs. NOMINAL: variáveis qualitativas com / sem ordenação (eventualmente não única) dos seus valores (a satisfação do cliente versus religião). Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 9 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 10 VARIÁVEL ORDINAL – • no alfabeto, A,B,C,D ou D,C,B,A; em números de ordem, 1,2,3 ou 3,2,1; no sexo, F,M ou M,F; no curso, primário- secundário-superior ou superiorsecundário-primário; em uma quantificação, leve-moderado-intenso ou intensomoderado-leve; em cruzes, +,++,+++,++++ ou ++++,+++,++,+; na ordenação de dados numéricos, 11,18,23,29,35 ou 35,29,23,18,11; etc. Os indivíduos de uma população ou amostra são classificados de acordo com as diversas categorias de uma determinada característica e em seguida são ordenados. Esta ordenação pode ser crescente ou decrescente, ou igualmente, ascendente ou descendente. • Características binárias ou dicotomizadas: • presente ou ausente, 1 ou 0, positivo ou negativo, vivo ou morto, sim ou não, benigno ou maligno, etc. Essas características são mutuamente exclusivas, isto é, cada indivíduo só pode se enquadrar em um único nome, categoria ou classe, e também são exaustivas, pois devem atingir todos os indivíduos da população ou amostra em estudo, sem excepção. 8 Tipos de Variáveis (cont.) As variáveis qualitativas podem ainda ser classificadas de acordo com: VARIÁVEL CATEGORIZADA – (Categórica, Nominal ou de Classe) nomes das pessoas ou coisas; as letras do alfabeto; o sexo, masculino ou feminino, macho ou fêmea; o estado civil, solteiro, casado, divorciado, viúvo; o curso, primário, secundário, colegial, universitário, pós-graduação, etc. Representa o nível mais simples e mais elementar de medição. Os indivíduos de uma população ou amostra são medidos mediante uma certa característica que pode ser categoria, nome ou classe. FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) De modo geral, as variáveis qualitativas estão mais ligadas aos modelos não-paramétricos enquanto que as variáveis quantitativas aos modelos paramétricos. Tipos de Variáveis (cont.) NOMINAL Tipos de Variáveis (cont.) Tipos de Variáveis (cont.) ORDINAL Dados - observações de determinadas quantidades de interesse. Variáveis - incerteza acerca dos seus verdadeiros valores. Isabel Fraga Alves CONTÍNUA A variável categórica é qualitativa e não se presta aos cálculos aritméticos comuns: soma, subtracção, multiplicação e divisão. Apresenta as seguintes propriedades de equivalência (=): reflexiva (x=x); simétrica (x=y então y=x); transitiva (x=y e y=z então x=z). A variável ordinal também é qualitativa. • Sabe-se que um indivíduo ou coisa é maior ou menor do que outro, porém não se sabe o quanto é maior nem o quanto é menor. São comuns as expressões comparativas: maior, menor; superior, inferior; primeiro, último; mais intenso, menos intenso; mais alto, mais baixo; preferível; etc. Na escala ordinal utilizam-se as comparações maior do que (>) e menor do que (<). As operações aritméticas comuns (adição, subtracção, multiplicação e divisão) não são aplicáveis. Na ordenação, a relação maior do que (>) apresenta a propriedade transitiva (se x>y e y>z então x>z). Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 11 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 12 2 Tipos de Variáveis (cont.) ESTATÍSTICA NÃO PARAMÉTRICA VARIÁVEL INTERVALAR – • os valores de idade, altura, peso, pressão arterial, frequência cardíaca, exames laboratoriais, medidas diversas, etc. A escala intervalar é verdadeiramente quantitativa. A medição é feita directamente em números reais, obtidos mediante a comparação com um determinado valor fixo, denominado unidade. O nome intervalar está ligado aos intervalos entre as categorias da variável e aqui se sabe exactamente o quanto uma categoria é menor ou maior que outra, ou ainda se há igualdade entre elas. As operações aritméticas comuns (soma, subtracção, multiplicação e divisão) são aplicáveis. A variável intervalar reúne todas as propriedades dos dois tipos anteriores de mensuração: as de equivalência (=), reflexiva (x=x), simétrica (x=y então y=x) e transitiva (x=y e y=z então x=z) e a de ordenação (>), transitiva (x>y e y>z então x>z). Isabel Fraga Alves Extremamente interessante para análises de dados qualitativos. FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 13 MEDIDAS DE TENDÊNCIA CENTRAL - Localização Média Mediana Moda amostra aleatoria (a.a.) - X1 , X 2 , amostra observada - x1 , x2 , Média Amostral - é a soma de todos os valores de uma amostra dividida pelo nº de elementos da amostra (dimensão). É aplicada em variáveis quantitativas. 1 n Xi n i 1 1 x xi n i 1 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 15 Moda - É o valor da variável que corresponde à frequência máxima. Se n for ímpar, a mediana ( Med ) será o valor que ocupa a posição central na amostra ordenada. Esta posição pode ser calculada por (n+1)/2. Se n for par, a Med será calculada pela média aritmética dos dois valores centrais na amostra ordenada da amostra. A posição de cada um desses dois valores centrais pode ser calculada por n/2 e n/2+1. A moda pode ter um ou mais valores, unimodal, bimodal,..., multimodal, conforme existam uma, duas, ou mais frequências iguais, dos valores da variável. 25, 22, 28, 32, 35, 55, 83, 83, 98, 99, 43, 46, 51 (n=13) amostra observada ( x1 , x2 , , xn ) Isabel Fraga Alves amostra ordenada observada x1:n x2:n xn:n (22, 25, 28, 32, 35, 43, 46, 51, 55, 83, 83, 98, 99) média x 53.9 mediana Med 46 moda amostra ordenada observada x1:n x2:n xn:n x n 1 n impar :n 2 Med 1 x n x n n par :n 1:n 2 2 2 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 16 Localização: Mediana vs. Média Dados: A Mediana é muito utilizada nos cálculos não-paramétricos. Isabel Fraga Alves Razões para usar a mediana: • É menos influenciada por valores extremos • Se as distribuições são simétricas, a média e a mediana populacional coincidem (25, 22, 28, 32, 35, 55, 83, 83, 98, 99, 43, 46, 51 ) Mediana Amostral - É o valor da amostra que ocupa a posição central, quando todos os valores estão ordenados em ordem crescente ou decrescente. MEDIDAS DE TENDÊNCIA CENTRAL - Localização n A média amostral é a contrapartida empírica do Valor Médio da População ou da Variável, m. Isabel Fraga Alves , Xn , xn X MEDIDAS DE TENDÊNCIA CENTRAL - Localização Média vs. Mediana • 5 6 6 7 7 8 10 • Média = 7 Med = 7 • 5 6 6 7 7 8 50 • Média = 8.43 Med = 7 Mo 83 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 17 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 18 3 Quadro Geral Objectivos do Curso Distinguir • Até este ponto, todos os testes que têm utilizado estão sujeitos a suposições sobre a distribuição subjacente aos dados. Especificamente, é assumido que os dados são normais para usar o teste-t, por exemplo. Poder-se-ia usar a teoria de grandes amostras e o Teorema do Limite Central, mas isso ainda apenas se verifica Assintoticamente Metodologias Paramétricas & • • Metodologias Não-Paramétricas Explicar uma Variedade de Testes Não-Paramétricos n Resolver • Problemas de Testes de Hipóteses usando Testes NãoParamétricos Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 19 O que é que acontece se não estamos dispostos ou não é sensato fazer as suposições de normalidade sobre a distribuição subjacente e temos uma amostra de dimensão pequena ? Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 20 Testes de Hipóteses - Metodologias Teste de Hipóteses metodologias TESTE DE HIPÓTESES Paramétricas Trata-se de uma técnica para se fazer a inferência estatística sobre uma população a partir de uma amostra Não-Paramétricas Teste Wilcoxon etc Teste - z Teste - t etc Teste Kruskal-Wallis ANOVA E muitos mais…! Isabel Fraga Alves Testes de Hipóteses - Metodologias Muitos dos testes estatísticos não-paramétricos respondem à mesma série de questões tal como os testes paramétricos. • Teste-t emparelhado 22 Estatística Não-Paramétrica Amostra emparelhada FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Com testes não-paramétricos as hipóteses podem ser flexibilizadas consideravelmente. • Por conseguinte, são utilizados métodos não-paramétricos para situações que violem os pressupostos de procedimentos paramétricos. Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 24 4 Testes Paramétricos Testes Não-Paramétricos Testes Paramétricos • Incidem explicitamente sobre um ou mais parâmetros de uma • • • FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) • Requerem menos pressupostos em relação à população; • Não exigem normalidade; • Não se baseiam em parâmetros da distribuição (logo, não ou mais populações; A distribuição de probabilidades da estatística de teste pressupõe uma forma particular das distribuições populacionais; As variâncias são homogéneas; Os erros ou resíduos são aleatórios e independentes e têm distribuição normal com variância finita e constante. Isabel Fraga Alves Testes Não Paramétricos necessitam variâncias homogéneas); • Ligeiramente menos eficientes que os testes paramétricos; • Baseiam-se nas estatísticas ordinais (e não nos valores das observações); • Mais fáceis de aplicar. 25 Testes Não-Paramétricos FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Isabel Fraga Alves 26 Estatística Não-Paramétrica - Distribuição Livre Vantagens Poucos Pressupostos Relativos à População • Não incorpora as suposições restritivas, características dos testes paramétricos. Facilidade de implementação Maior Perceptibilidade Aplicável em Situações Não Abrangidas Pela Normal Mais Eficientes quando as Populações não têm Distribuição Normal Os resultados podem ser tão exactos como nos procedimentos paramétricos • Os dados não precisam estar normalmente distribuídos (Distribution-Free). É necessário, apenas, que eles sejam ordenáveis. Desvantagens • Muitas vezes, são baseados nas ordens das observações e não nos seus valores, como no caso paramétrico. As hipóteses testadas por testes não-paramétricos tendem a ser menos específicas; Não têm Parâmetros, Dificultando Comparações Quantitativas entre Populações Escasso Aproveitamento de Informação da Amostra Pode ser de Difícil Cálculo à mão para Grandes Amostras Tabelas não amplamente disponíveis Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) • Podem ser aplicados para variáveis quantitativas e qualitativas. • Menos sensíveis aos erros de medida e rápidos para pequenas amostras. 27 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Isabel Fraga Alves 28 PRINCIPAIS CONCEITOS TESTE DE HIPÓTESES Trata-se de uma técnica para se fazer a inferência estatística sobre uma população a partir de uma amostra HIPÓTESE • TESTE • ESTATÍSTICA Trata-se de uma suposição quanto ao valor de um parâmetro populacional, ou quanto à natureza da distribuição de probabilidade de uma variável populacional. DE HIPÓTESES É uma regra de decisão para rejeitar ou não rejeitar uma hipótese estatística com base nos elementos amostrais Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 30 5 TEORIA POPPERIANA - Falseabilidade (ou refutabilidade) Karl Popper(1902- 1994) - UM FILÓSOFO INOVADOR Sir Karl Raimund Popper foi filósofo da ciência austríaco naturalizado “Science can't prove anything. It can only disprove things.” britânico e um professor da London School of Economics. A ciência não pode provar nada. Só pode refutar coisas. Formou-se em matemática, física e filosofia da ciência britânica. Uma das pessoas mais influentes da filosofia da Ciência durante o século XX. • Considere o exemplo do famoso Cisne Negro (black swan): • • • Um cientista gasta sua vida observando cisnes. Observa que todos os cisnes que jamais viu são brancos. Com base nesta evidência empírica, ele postula uma teoria de que “todos os cisnes são brancos”. Um dia viaja para a Austrália e vê - UPS! - um Cisne Negro. A sua teoria é refutada. Mas isso não significa que não era ciência quando a estabeleceu. Agora, pode estabelecer uma teoria nova: “Os cisnes podem ser brancos ou pretos”. POPPER E A REFUTAÇÃO • • • A teoria científica mais não é do que uma hipótese; uma conjectura, que um dia será refutada e substituída por uma outra. “ What really makes science grow is new ideas, including false ideas.” –Karl Popper SÓ APRENDEMOS QUANDO ERRAMOS. OS ESTATÍSTICOS NÃO PERGUNTAM QUAL É A PROBABILIDADE DE ESTAREM CERTOS, MAS A PROBABILIDADE DE ESTAREM ERRADOS. • Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 31 Uma hipótese só é científica se puder ser colocada em questão (“refutada”). Isto significa que deve ser sempre possível realizar uma observação que prove que a hipótese é falsa Uma teoria científica não poderá em nenhuma circunstância ser declarada “verdadeira” Para fazerem isso estabelecem uma hipótese nula. FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Isabel Fraga Alves 32 PRINCIPAIS CONCEITOS Data Analysis and Research for Sport and Exercise Science: A Student Guide By Craig Williams, Chris Wragg, Routledge ed., 2003. pag 6 TIPOS DE HIPÓTESES • • H0, hipótese nula, a hipótese estatística a ser testada H1, hipótese alternativa A HIPÓTESE NULA É UMA AFIRMAÇÃO DE COMO O MUNDO DEVERIA SER, SE NOSSA SUPOSIÇÃO ESTIVESSE ERRADA. • Ex: A hipótese nula expressa uma igualdade, enquanto a hipótese alternativa é dada por uma desigualdade. H 0 : m 1.5 m vs. H1 : m 1.5 m Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 33 Testes de Hipóteses – Erros 34 Testes de Hipóteses – Erros EXISTEM DOIS TIPOS DE ERRO: ET:= Estatística de Teste RR:= Região de Rejeição RA:= Região de Não Rejeição • Erro tipo 1 - rejeição de uma hipótese nula verdadeira • Erro tipo II – não rejeição de uma hipótese nula falsa • “não rejeiçao ” FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Isabel Fraga Alves “não rejeição” Realidade Decisão Não rejeitar H0 Rejeitar H0 • A probabilidade do erro tipo I é denominada REGRA de TESTE: ET RR então Rejeitar H0 H0 verdadeira Decisão correcta H0 falsa Erro tipo II Decisão Erro tipo I correcta “nível de significância” do teste. = P( erro tipo I ) = P(rejeitar H0| H0 verdadeira) = P(ET RR | H0 verd.) nível de significância ou tamanho do teste = P(erro tipo II)= P(não rejeitar H0| H0 falsa) = P(ET RA | H0 falsa) 1- = potência do teste Probabilidade de não cometermos um erro do tipo II Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 35 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 36 6 p -Value O resultado foi significativo? Quão pequeno tem de ser o p-value, para se rejeitar a hipótese nula? • • Qui-Quadrado Teste dos Sinais Teste de Wilcoxon Teste de Mann-Whitney Teste de Kruskal-Wallis Teste de Spearman Se p-value < 5 % estatisticamente significativo. Se p-value < 1 % altamente significativo. Os investigadores devem • resumir os dados, • dizer qual o teste usado e • TIPOS DE TESTE reportar o p-value (em vez de apenas o comparar com os valores de 1 % ou 5 % ) No caso de se estabelecer à partida o nível de significância e se o TESTE indicar a aceitação de H0, diz-se que Ao nível de significância não se pode rejeitar H0 . Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 37 TESTE DO QUI-QUADRADO - Teste de Independência • • Teste do Χ2 (qui-quadrado) Teste exacto de Fisher Isabel Fraga Alves 39 TESTE DO QUI-QUADRADO - Teste de Independência C L j 1 i 1 Ni Nij N j Nij X\Y B1 B2 … Bj … BC A1 N11 N12 … N1j … N1C N1 . pij P[ X Ai ; Y B j ] A2 N21 N22 … N22 … N2C N2 . pi. [ X Ai ] … p. j [Y B j ] Ai • H0: F(x,y)=F1(x) F2(y) (x,y)R2 vs. H1: F(x,y)≠F1(x) F2(y) para algum (x,y)R2 Isto é, face a uma amostra aleatória (Xi, Yi), i=1,...,n, pretendemos testar a independência do par (X,Y). Para obter a estatística de teste começamos por dividir o suporte da variável aleatória X em L classes A1, A2, ..., AL, disjuntas e o suporte da variável aleatória Y em C classes B1, B2, ..., BC, disjuntas. Representemos por • Nij= # { (Xk, Yk): Xk Ai ; Yk Bj },i=1,…,L; j=1,…,C. … Nij … NiC L C ( Nij eij )2 eij NL2 N .1 N.2 … NL2 N.j … , sob H 0 tem uma distribuição assintótica de um (2LC 1) . Com as frequências esperadas eij desconhecidas, utiliza-se Ni . NL1 NLC NL . N .C N..=n p. j [Y B j ] eij npij npi. p. j Ni2 40 TESTE DO QUI-QUADRADO - Teste de Independência i 1 j 1 Ni1 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Isabel Fraga Alves pij P[ X Ai ; Y B j ] pi. [ X Ai ] … AL Dados bivariados (Xi, Yi), i=1, ...,n, tendo (X, Y) f.d. conjunta F(x,y) com marginais F1(x) = F(x,+∞) e F2(y)=F(+∞,y). Pretendemos testar FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 38 TESTE DO QUI-QUADRADO - Teste de Independência Testes não paramétricos que medem o grau de dependência entre duas variáveis aleatórias. Não assumem nenhum tipo de distribuição. Assume observações de frequência de variáveis categóricas. As variáveis da amostra estão “divididas” em categorias. As observações das duas variáveis são agrupadas em classes independentes (disjuntas). Tipicamente, os dados do teste estão representados em tabelas de contingência 2 x 2. No entanto podemos ter mais do que 2 dimensões. Testes a estudar FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Isabel Fraga Alves Estatística de Teste (ET): L eˆij npˆ ij npˆ i. pˆ . j n Ni. N. j Ni. N. j n n n ( Nij eˆij )2 , sob H 0 tem uma distribuição assintótica de um (2L 1)(C 1) . eˆij j 1 C X 2 i 1 Regra de Decisão: Ao nível , Rejeitar a hipótese nula de Independência se o valor da H 0 : pij pi. p. j , (i, j ) vs. H1 : (i, j ), pij pi. p. j Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) • 41 2 ET 1 ( L 1)(C 1) Isabel Fraga Alves (quantil da qui-quadrado com (L-1) x (C-1) graus de liberdade) FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 42 7 TESTE DO QUI-QUADRADO - Teste de Independência TESTE DO QUI-QUADRADO - Teste de Independência Regra prática: Exemplo 6: Dependência entre bairro e escolha do sabor de pasta de dentes Dados: H0: a preferência pelo sabor Como a distribuição da estatística de teste é assintótica, convém que as células não tenham valores esperados muito pequenos. Como regra prática, utiliza-se a seguinte: • • independente do bairro; Bairros No máximo, 20% das células podem ter frequência esperada <5 e nenhuma célula deve ter frequência esperada <1. Sabor A B C Limão 70 44 86 200 Chocolate 50 30 45 125 Hortelã 10 6 34 50 Menta 20 20 85 125 150 100 250 500 eˆij H1: a preferência pelo sabor depende do bairro = 5% 2(L-1)(C-1)= 2(4-1)(3-1) = 2(6) N i . N. j n Frequência esperada = (soma da linha i) x (soma da coluna j)/(total de observações) L C X 2 i 1 j 1 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 43 TESTE DO QUI-QUADRADO - Teste de Independência BAIRRO B C Limão 60 40 100 Chocolate 37.5 25 62.5 Hortelã 15 10 25 Menta 37.5 25 62.5 i 1 2 ( Nij eˆij 0.5)2 j 1 eˆij 1319 Total Outras TB 270 252 522 Total 3804 1571 5375 4853 Para =0.05 temos Χ20.95(1)(1)=3.84. Rejeitamos H0 se Χ2 > 3.84 o que é o caso. Conclusão: Há evidência de uma associação entre tipo de TB e sexo. Observação: p-value < 0.00001. 45 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 46 TESTE DO QUI-QUADRADO - Teste de Independência No caso específico de tabelas 2 x 2 devemos usar a Correcção de Yates para continuidade. 2 Mulheres 3534 Χ2 = (3534 – 3434.6)2 / 3434.6 + (1319 – 1418.4)2 / 1418.4 + … + (252 – 152.6)2 / 152.6 = 101.35 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) X 2* Homens TB no SR e11 = (4853 x 3804) / 5375 = 3434.6; etc. Correcção de Yates para tabelas 2x2 2x2 H0 : tipo de tuberculose (TB) que causa a morte a estes indivíduos é independente do seu sexo. x2 =37.88 20.95(6)=12.6 x2 > 20.95(6) Decisão: rejeita-se H0. Isabel Fraga Alves 44 Em 1956, o número de pessoas que morreram de tuberculose em Inglaterra e Gales foi 5375. Destas, 3804 foram homens e 1571 eram mulheres; 3534 homens e 1319 mulheres morreram de tuberculose do sistema respiratório, enquanto o restante morreu de outras formas de tuberculose. Os dados estão na seguinte tabela de contingência: Tabela de frequências esperadas A FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Exemplo com tabela de contingência Exemplo 6: (cont.) SABOR Isabel Fraga Alves ( Nij eˆij )2 , sob H 0 tem uma distribuição assintótica de um (2L 1)(C 1) . eˆij No R, temos: x<-matrix(c(3534,1319,270,252),ncol=2,byrow=T) et<-chisq.test(x) names(et) et et$expected #quantil qchisq(0.05,1, ncp=0, lower.tail = F) #p-valor pchisq(100.3915,1, ncp=0, lower.tail = F) Para o problema anterior, Yates Χ2 = 100.39. #density plot(density(rchisq(500,df=1))) points(qchisq(0.05,1, ncp=0, lower.tail = F),0,pch=19,col=2) Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 47 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 48 8 Teste Exato de Fisher Teste Exacto de Fisher O teste ideal para aplicar com tabelas de contingência de dados pequenos esparsos e não balanceados. Embora seja aplicável noutras situações, vamos sempre usar em tabelas 2 x 2 . É um teste exacto, portanto um p-value exacto. A ideia geral é considerando a tabela de observações, “gerar” as tabelas com as mesmas margens, que são mais extremas que a observada, na mesma direcção da nossa observação ie, que a proporção TB do tipo SR nas mulheres é menor que proporção TB tipo SR nos homens. FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Isabel Fraga Alves Característica (sim) Característica (não) Total Population 1 a A-a A Population 2 b B-b B a+b A+B-a-b H0: a proporção com a característica de interesse é a mesma nas duas populações Bilateral H1: a proporção com a característica de interesse não é a mesma nas duas populações (no R: fisher.test(x)) Unilateral H1: a proporção com a característica de interesse na população 1 é menor que na população 2 (no R: fisher.test(x,alternative=“less”)) H1: a proporção com a característica de interesse na população 1 é maior que na população 2 (no R: fisher.test(x,alternative=“greater”)) 49 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 50 Teste Exacto de Fisher (cont.) Para o exemplo anterior temos no R: Teste dos Sinais x<-matrix(c(3534,1319,270,252),ncol=2,byrow=T) fisher.test(x) Fisher's Exact Test for Count Data data: x p-value < 2.2e-16 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 2.073019 3.014822 sample estimates: odds ratio 2.500202 Contrapartida não-paramétrica para Teste-t para amostras emparelhadas Amostras Emparelhadas - O Teste dos Sinais (pequenas amostras) Amostras Emparelhadas - O Teste dos Sinais População X População Y ( X1 , Y1 ),( X 2 , Y2 ), H 0 : localizaçao de X localizaçao de Y ,( X n , Yn ) vs. H1 : localizaçao de X localizaçao de Y H 0 : p 1/ 2 vs. H1 : p 1/ 2 • Unilateral H1 : p 1/ 2 • Unilateral H1 : p 1/ 2 • Bilateral H1 : p 1/ 2 ( > ) ou ( < ) Diferenças: Di : X i Yi ; D : X Y ; H 0 : Med ( D) 0 vs. H1 : Med ( D) 0 ( > ) ou ( < ) sob H 0 , P D 0 P D 0 1/ 2; p value P Binomial (n,1/ 2) m , Rejeitar para os menores valores de M (m) p value P Binomial (n,1/ 2) m , Rejeitar para os menores e maiores valores de M (m) p value 2P Binomial (n,1/ 2) m ou 2P Binomial (n,1/ 2) m , No R: P[Binomial(n,1/2)<=m]=pbinom(q=m,size=n,prob=.5,lower.tail = F) com p : P X Y FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Rejeitar para os maiores valores de M (m) M : =# Di : Di 0 ; sob H 0 , M Binomial (n, p 1/ 2), Isabel Fraga Alves (ou p 1/ 2 ou p 1/ 2) Região de Rejeição para: 53 Observação: Sempre que se verificarem ligações, isto e, valores Xi=Yi, esses valores Isabel Fraga Alves são desprezados, diminuindo-se a dimensão da amostra. FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 54 9 Exemplo - Cancro pancreático Questão Quando os pacientes têm Cancro pancreático, muitas vezes a cirurgia é necessária para remover a parte do pâncreas que tem o cancro. Quando estas cirurgias são concluídas, o cirurgião tem a opção de fazer uma cirurgia mais complexa para preservar o baço (preservação baço) ou para remover o baço como parte de cirurgia (Esplenectomia). Um estudo foi feito para comparar as duas opções cirúrgicas em termos de resultados de saúde, ónus de custo e tempo na equipa cirúrgica. Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 55 Exemplo - Cancro pancreático(cont.) Em primeiro lugar, vamos ver o grupo de preservação baço Observe que temos observações emparelhadas para cada um dos pacientes Estamos interessados na diferença entre duas medições Paciente Pre Post Dif 1 260 223 37 2 216 149 67 3 427 224 203 4 217 181 36 5 613 708 -95 6 245 197 48 7 371 303 68 8 236 168 68 9 421 312 109 10 677 521 156 11 363 202 161 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 57 Uma vez que temos dados emparelhados, poderíamos utilizar o teste-t emparelhado. O que se pode dizer sobre a distribuição das diferenças? A suposição de normalidade do t-teste emparelhado parece adequada? Neste caso, temos outliers, portanto, a média não é uma boa medida de tendência central. 58 O teste não-paramétrico mais simples é o H0: mediana de diferenças (pre-post) = 0 H1: mediana de diferenças (pre-post) ≠ 0 Sob a hipótese nula, seria de esperar o mesmo número de sinais positivos e negativos. Di : X i Yi ; sob H 0 , P Di 0 P Di 0 1/ 2; M : =# Di : Di 0 ; sob H 0 , M Binomial (n, p 1/ 2), com p : P X Y Como podemos estabelecer e testar a hipótese nula adequada? FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Teste dos Sinais Que medida se deve usar alternativamente? Isabel Fraga Alves A diferença na contagem de plaquetas pode ser variável e conter outliers… Isabel Fraga Alves Para o t-teste de duas amostras, isto seria escrito como H0: diferença média (pre-post) é igual a zero (d = 0) 56 Teste dos Sinais A hipótese nula para a nossa investigação é que não há nenhuma diferença na contagem de plaquetas, antes e após a cirurgia. FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Exemplo - Cancro pancreático(cont.) Para cada técnica, os cirurgiões pretendiam determinar se há uma diferença significativa na pre e post contagem de plaquetas de cirurgia. Histograma Será que efectivamente há uma diferença? Isabel Fraga Alves Uma pergunta para cada técnica é determinar o efeito da cirurgia sobre a contagem de plaquetas em pacientes. As plaquetas estão envolvidas na coagulação dos pacientes; por vezes, aos pacientes em cirurgia são dados medicamentos para limitar a quantidade de coagulação durante a cirurgia. Uma grande mudança no número de plaquetas pode ser um sinal de que a cirurgia foi particularmente difícil. 59 Se a maioria ou todas as diferenças são positivas, haveria algumas provas contra a hipótese nula. Até que ponto podem ser significativas? Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 60 10 Teste dos Sinais Agora incluímos a coluna dos SINAIS Se não houve realmente nenhum efeito da terapia, seria de esperar que iria haver um número igual de sinais (+ , - ) O que se pode ver sobre os sinais das diferenças? Há uma diferença significativa entre os dois grupos? Como se pode calcular o p-value ? Isabel Fraga Alves Teste dos Sinais Paciente Pre Post Dif SINAL 1 260 223 37 + 2 216 149 67 + 3 427 224 203 + 4 217 181 36 + 5 613 708 -95 - 6 245 197 48 + 7 371 303 68 + 8 236 168 68 + 9 421 312 109 + 10 677 521 156 + 11 363 202 161 + FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 61 Para o Teste dos Sinais, esta é a probabilidade do número observado de sinais positivos ou mais. Para fazer o teste bilateral, devemos ter em conta também os valores extremos do outro lado. Hipótese nula e alternativa: H 0 : p 1/ 2 vs. H1 : p 1/ 2 p-value: p value 2P Binomial( n,1/2) m, (p = 1/2). Isabel Fraga Alves n “grande” , ie, M np M n/2 d N (0,1) np(1 p) 1/ 2 n p-value = 0.001 Rejeitar a hipótese nula Nas aplicações, para n 25 Conclusão: Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) M n/2 Z N (0,1) 1/ 2 n 63 Teste dos Sinais – Grandes amostras p-value: Região de Rejeição, ao nível de significância : /2 z / 2 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 64 Hipótese nula e alternativa unilateral : H 0 : p 1/ 2 vs. H1 : p 1/ 2 m n /2 z 1/2 n p-value: M n /2 m n/2 p value P 1/2 n 1/2 n /2 z / 2 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) P Z z 1 ( z), m n/2 z . 1/2 n Região de Rejeição, ao nível de significância : Z z , z : 1 (1 ), quantil da Normal(0,1), Z : Z z /2 ou Z z /2 , z /2 : 1(1 /2), quantil da Normal(0,1) Isabel Fraga Alves Isabel Fraga Alves Teste dos Sinais – Grandes amostras Hipótese nula e alternativa bilateral: H 0 : p 1/ 2 vs. H1 : p 1/ 2 M n /2 m n /2 p value 2 P 2 P Z z 2{1 ( z)}, 1/2 n 1/2 n M n /2 m n /2 ou 2P 2 P Z z 2 ( z). 1/2 n 1/2 n 62 n + H0: mediana das diferenças = 0 (p = 1/2) H1: mediana das diferenças ≠ 0 (p ≠ 1/2) Há uma diferença significativa entre os valores de plaquetas pré e pós-cirurgia para pacientes que tinham a cirurgia de preservação baço. FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) M teve o valor observado de m = 10 (# sinais +) • n 11, m 10 Teste dos Sinais – Grandes amostras Dados Emparelhados, = 5% Hipóteses • • > 2*pbinom(q=10, size=11, prob=.5, lower.tail = F) [1] 0.0009765625 Teste dos Sinais O p-value é a probabilidade de se obter o valor observado ou algo mais extremo sob a hipótese nula • Exemplo - Cancro pancreático(conclusão) 65 Isabel Fraga Alves z M n/2 1/ 2 n FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 66 11 Teste dos Sinais – Grandes amostras Teste dos Sinais – Grandes amostras EXEMPLO - Sessenta alunos matricularam-se num curso de inglês. Na primeira aula aplica-se um teste que mede o conhecimento da língua. Após seis meses, aplica-se um segundo teste. Os resultados mostram que 35 alunos apresentaram melhora (35 +), 20 se conduziram melhor no primeiro teste (20 -) e 5 não apresentaram modificações (5 “0”). Será que o curso melhorou o conhecimento de inglês? Hipótese nula e alternativa unilateral : H 0 : p 1/ 2 vs. H1 : p 1/ 2 p-value: = 5% H0: O curso não alterou o conhecimento de inglês H1: O curso melhorou o conhecimento de inglês m - número de sinais positivos (35); n – tamanho da amostra descontado os empates (60-5=55) z z Região de Rejeição, ao nível de significância : Z z , z : 1 (1 ), quantil da Normal(0,1), Z : Isabel Fraga Alves Z Cálculo da variável M n / 2 m n / 2 mn/2 p value P . P Z z ( z ), z 1/ 2 n 1/ 2 n 1/ 2 n M n/2 1/ 2 n FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) M n/2 1/ 2 n m n / 2 35 55 / 2 2.02 1/ 2 n 1/ 2 55 Z1-0.05= Z0.95= 1.64, logo se rejeita Ho, ie, o curso não melhorou o conhecimento de inglês No R: > qnorm(0.95) 67 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 68 Amostras Emparelhadas - O Teste de Wilcoxon (pequenas amostras) População X Teste de Wilcoxon População Y ( X1 , Y1 ),( X 2 , Y2 ), H 0 : distribuiçao de X distribuiçao de Y ,( X n , Yn ) vs. H1 : localizaçao de X localizaçao de Y (Teste Bilateral) ( > ) ou ( < ) Diferenças Di : X i Yi ; D : X Y ; Contrapartida não-paramétrica para H 0 : Med ( D) 0 vs. H1 : Med ( D) 0 Teste-t para amostras emparelhadas ( > ) ou ( < ) Isabel Fraga Alves • Estatística de Teste Isabel Fraga Alves • • FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 70 Teste de Wilcoxon (Pequenas Amostras Emparelhadas) Motivação para a Região de Rejeição: 1. Obter as diferenças, Di = Xi - Yi 2. Obter os Valores Absolutos das diferenças, |Di | 3. Desprezar as diferenças de Valor 0 (empates) diminuindo do mesmo número de unidades, a dimensão da amostra. 4. Atribuir Ordens, onde a Menor = 1 5. Atribuir Ordens para diferenças „-‟ e „+‟ 6. Somar as Ordens „+‟ (T+) & Ordens „-‟ (T-) Estatística de Teste (Teste Unilateral) pois leva em consideração a magnitude da diferença para cada par. O teste de sinal analisa apenas o sinal das diferenças, mas o Teste de Wilcoxon usa o sinal e ordena as diferenças. • (Teste Bilateral) O Teste de Wilcoxon é uma extensão do Teste de Sinais. É mais interessante Teste de Wilcoxon (Pequenas Amostras Emparelhadas) (Teste Unilateral) • Sob a validade de H0, • é de esperar que a soma das ordens positivas (T ) não + difira grandemente da soma das ordens negativas (T-). • Uma soma “grande” para as ordens positivas (T ) + relativamente a soma das ordens negativas (T-), implica que a Mediana das Diferenças, Med(D), tenha uma pequena probabilidade de ser igual a zero. T- ou T+ (Teste Unilateral) T:=min(T- , T+) (Teste Bilateral) FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 71 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 72 12 Teste de Wilcoxon (Pequenas Amostras Emparelhadas) Teste de Wilcoxon (Pequenas Amostras Emparelhadas) Ho: Med(D) =0 Ho: Med(D) = 0 (As distribuições de X e de Y são idênticas) Teste Bilateral H1: Med(D) 0 (As distribuições de X e de Y diferem na localização) Teste Unilateral H1: Med(D) > 0 (A distribuição de X tem localização à direita da localização de Y) Rejeitar Ho se T ≤ T0 (Tabela 9), com T:=min(T- ,T+) FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 73 Teste de Wilcoxon (Grandes Amostras Emparelhadas) n “grande” , ie, H1: Med(D) < 0 Rejeitar H0 se T- ≤ T0 No R: wilcox.test(x,y,alternative = c("two.sided"),paired =T) Isabel Fraga Alves (As distribuições de X e de Y são idênticas) Isabel Fraga Alves (A distribuição de Y tem localização à direita da localização de X) Rejeitar H0 se T+ ≤ T0 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 74 Teste de Wilcoxon (Grandes Amostras Emparelhadas) n + Ho: Med(D) = 0 T n(n 1) / 4 d N (0,1) n(n 1)(2n 1) / 24 (As distribuições de X e de Y são idênticas) Teste Bilateral H1: Med(D) 0 (As distribuições de X e de Y diferem na localização) Nas aplicações, para n 25 Z : T n(n 1) / 4 Z N (0,1) n(n 1)(2n 1) / 24 T + n(n 1) / 4 n(n 1)(2n 1) / 24 p-value: 2P Z z 2{1 ( z )}. /2 /2 z Região de Rejeição, ao nível de significância : z Z z / 2 ou Z z / 2 , z / 2 : 1 (1 / 2), quantil da N(0,1) /2 /2 ie, Rejeitar Ho se |Z| > z/2 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 75 Isabel Fraga Alves (As distribuições de X e de Y são idênticas) Teste Unilateral H1: Med(D)> 0 H1: Med(D)< 0 (localização (localização de X à direita da localização de Y) de X à esquerda da localização de Y) p-value: P Z z 1 ( z ). p-value: P Z z ( z ). Região de Rejeição, ao nível de significância : Z z , z : (1 ) Z z , z : (1 ) 1 1 z Isabel Fraga Alves 76 Exemplo - Cancro pancreático Teste de Wilcoxon (Grandes Amostras Emparelhadas) Ho: Med(D) = 0 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Agora, podemos analisar o grupo que teve intervenção cirúrgica com Esplenectomia Novamente, temos observações emparelhadas sobre cada um dos pacientes, e estamos interessados na diferença entre duas medições de plaquetas. Será que há uma diferença significativa? Patient Pre Post 1 492 375 2 297 382 3 272 325 4 367 585 5 206 181 6 284 237 7 338 273 8 212 243 9 161 147 10 384 326 11 224 214 12 251 292 13 224 263 z FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 77 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 78 13 Exemplo - Cancro pancreático - Teste de Wilcoxon A hipótese nula para a nossa investigação é que não há nenhuma diferença na contagem de plaquetas, antes e após a cirurgia com Esplenectomia . • • H0: Med(D) = 0 H1: Med(D) ≠ 0 Rejeitar Ho se T ≤ T0 (Tabela 9), com T:=min(T- , T+) Valor observado de T = 44 T0 (Tabela 9): n=13 • Two-sided p=0.10 • T0=21 • Então: T não se rejeita H0. >T0, Conclusão: Não há nenhuma evidência de uma diferença entre o pré e pós contagem plaquetas para os pacientes que tinham uma Esplenectomia durante sua cirurgia. Isabel Fraga Alves Pacient e Pre Post Di |Di| Ordem T+ 1 492 375 117 117 12 12 2 297 382 -85 85 11 11 3 272 325 -53 53 8 8 4 367 585 -218 218 13 5 206 181 25 25 3 3 6 284 237 47 47 7 7 7 338 273 65 65 10 10 8 212 243 -31 31 4 9 161 147 14 14 2 2 10 384 326 58 58 9 9 11 224 214 10 10 1 1 12 251 292 -41 41 6 13 224 263 -39 39 5 Conclusões T- • • 13 4 6 5 44 Os nossos testes de hipóteses mostram que: 47 os doentes a partir do grupo de preservação baço tinham uma mudança significativa na sua contagem de plaquetas após cirurgia (rej H0) e os pacientes do grupo Esplenectomia não têm uma mudança significativa na sua contagem de plaquetas após cirurgia (não rej H0). Estes resultados podem mostrar que a cirurgia de preservação baço é difícil para o paciente e outras medidas devem ser investigadas para garantir que esta cirurgia não é excessivamente agressiva para os de pacientes. No R: x=c(492,297,272,367,206,284,338,212,161,384,224,251,224) y=c(375,382,325,585,181,237,273,243,147,326,214,292,263) wilcox.test(x, y ,alternative = c("two.sided"),paired =T) FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 79 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 80 Comentários Quando nós temos dados emparelhados e os pressupostos de um teste-t emparelhado não forem pressupostos, temos duas maneiras para elaborar o teste de hipóteses sobre a localização: Teste Mann-Whitney • O Teste de Wilcoxon é sempre preferido ao Teste dos Sinais já que usa mais informação contida nos dados (já que usa as ordens). • O Teste de Wilcoxon tem muito mais potência do que o • • Teste dos Sinais para detectar uma diferença significativa. Não há uma grande perda de potência no Teste de Wilcoxon comparado a um teste-t quando se mantém a suposição de normalidade. Contrapartida não-paramétrica para Teste-t para amostras independentes Por outro lado, o Teste de Wilcoxon é muito mais potente do que o teste-t quando não é válida a suposição de normalidade. Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 81 Teste Mann-Whitney – pequenas amostras independentes 1. 2. 3. Teste Mann-Whitney – pequenas amostras independentes Testes para Duas Populações, X e Y, Independentes Corresponde ao Teste-t para 2 valores médios Pressupostos • T1 = Soma das Ordens das Observações da amostra 1 na amostra conjunta de dimensão n=n1 + n2 • T2 = Soma das Ordens das Observações da amostra 2 na amostra conjunta de dimensão n=n1 + n2 Amostras Aleatórias Independentes (dimensões n1 e n2 ) Populações Contínuas 4. Aproximação Normal se ni 10 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) H0: X e Y têm distribuição idêntica H1: As distribuições de X e Y diferem na Localização 83 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 84 14 Teste Mann-Whitney – procedimento Teste Mann-Whitney – pequenas amostras independentes U1 = n1n2 + n1(n1 + 1) - T1 2 U2 = n1n2 + n2(n2 + 1) - T2 2 1. Atribuir Ordens para as n=n1 + n2 Observações Amostrais • Se n1 ≠ n2 , considera-se o índice 1 para a menor dimensão (n1) • • 2. Somar as Ordens, Ti , i=1,2, para cada Amostra • FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Isabel Fraga Alves 85 Teste Bilateral H1: As duas populações, X e Y, diferem na localização Rejeitar H0 ao nível se o valor observado de U , u, for tal que p-value = 2 P[U < u ] 87 Teste Unilateral H1: A população 1 (X) está localizada à direita da população 2 (Y) Rejeitar H0 ao nível se o valor observado de U1 , u1 , for tal que p-value=P[U < u1 ] , com U = U1 Isabel Fraga Alves Aproximação à Normal µU 2 = n1n2 2 U 2 = 86 Teste Unilateral H1: A população 1 (X) está localizada à esquerda da população 2 (Y) Rejeitar H0 ao nível se o valor observado de U2 , u2 , for tal que p-value=P[U < u2 ] , com U = U2 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 88 Teste Mann-Whitney – grandes amostras independentes Teste Mann-Whitney – grandes amostras independentes FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Procedimento: 1. Assumir que n1 ≤ n2 (inverter as amostras se necessário) 2. Determinar U1 e U2 3. Usar os valores da Tabela 8 para testar H0 vs H1 Procedimento: 1. Assumir que n1 ≤ n2 (inverter as amostras se necessário) 2. Determinar U1 e U2 3. U := min (U1 ,U2) 4. Usar os valores da Tabela 8 para testar H0 vs H1 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Isabel Fraga Alves A distribuição exacta da ET, U , pode ser calculada Teste Mann-Whitney – pequenas amostras independentes Teste Mann-Whitney – pequenas amostras independentes Isabel Fraga Alves Menor Ordem = 1, Maior Ordem = n Valores Iguais (ligações) são subsituídos pela respectiva média das ordens. H0: X e Y têm distribuição idêntica n1n2(n1 + n2 + 1) 12 Determine U2 = n1n2 + n2(n2 + 1) - T2 2 Teste Bilateral Z := U2 - µU 2 U 2 H1: As distribuições de X e Y diferem na Localização Rejeitar Ho se | Z | > Z/2 /2 z / 2 /2 z / 2 Z/2 := -1(1- /2), (.) f.d. da N(0,1) Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 89 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 90 15 Teste Mann-Whitney – Exemplo Teste Mann-Whitney – grandes amostras independentes H0: X e Y têm distribuição idêntica Determinar U2 = n1n2 + n2(n2 + 1) - T2 2 Teste Unilateral H1: A população 1 (X) está localizada à direita da população 2 (Y) Teste Unilateral H1: A população 1 (X) está localizada à esquerda da população 2 (Y) Rejeitar H0 se Z > z Rejeitar H0 se Z < -z z Isabel Fraga Alves 91 Teste Mann-Whitney – Exemplo Fábrica 2 Taxa Ordem 85 82 94 97 ... ... Isabel Fraga Alves Conclusão: FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Fábrica 1 Taxa Ordem 71 1 82 77 92 88 93 Teste Mann-Whitney – Exemplo 92 Fábrica 2 Ordem Taxa 85 82 94 97 ... ... Fábrica 2 Ordem Taxa 85 82 94 97 ... ... FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 94 Teste Mann-Whitney – Exemplo Fábrica 1 Taxa Ordem 71 1 82 3 77 2 92 88 Soma das Ordens Isabel Fraga Alves Decisão: Soma das Ordens FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Fábrica 1 Taxa Ordem 71 1 82 77 2 92 88 Estatística de Teste : Teste Mann-Whitney – Exemplo Soma das Ordens Isabel Fraga Alves H0: Distribuição Idêntica Ha: Localização Diferente = .10 n1 = 4 n2 = 5 Pontos críticos: z FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Fábrica 1 Taxa Ordem 71 82 77 92 88 Suponha que é um gestor de produção e está interessado em investigar se as taxas de produção de 2 fábricas são iguais. Para a fábrica 1, as taxas (% de capacidade) são 71, 82, 77, 92, 88. Para a fábrica 2, as taxas são 85, 82, 94, 97. Terão as taxas de produção das 2 fábricas a mesma distribução de probabilidade ao nível de .10 ? Fábrica 2 Taxa Ordem 85 82 4 94 97 ... ... Soma das Ordens 95 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 96 16 Teste Mann-Whitney – Exemplo Fábrica 1 Taxa Ordem 71 1 82 3 3.5 77 2 92 88 Teste Mann-Whitney – Exemplo Fábrica 2 Taxa Ordem 85 82 4 3.5 94 97 ... ... Fábrica 1 Taxa Ordem 71 1 82 3 3.5 77 2 92 88 Soma Das Ordens Isabel Fraga Alves Soma Das Ordens FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 97 Teste Mann-Whitney – Exemplo Fábrica 1 Taxa Ordem 71 1 82 3 3.5 77 2 92 88 6 Fábrica 2 Taxa Ordem 85 5 82 4 3.5 94 97 ... ... Fábrica 1 Taxa Ordem 71 1 82 3 3.5 77 2 92 7 88 6 99 Teste Mann-Whitney – Exemplo 98 Fábrica 2 Taxa Ordem 85 5 82 4 3.5 94 97 ... ... Fábrica 2 Taxa Ordem 85 5 82 4 3.5 94 8 97 ... ... FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 100 Teste Mann-Whitney – Exemplo Fábrica 1 Taxa Ordem 71 1 82 3 3.5 77 2 92 7 88 6 Soma das Ordens Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Soma Das Ordens FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Fábrica 1 Taxa Ordem 71 1 82 3 3.5 77 2 92 7 88 6 Isabel Fraga Alves Teste Mann-Whitney – Exemplo Soma Das Ordens Isabel Fraga Alves Fábrica 2 Taxa Ordem 85 5 82 4 3.5 94 97 ... ... Fábrica 2 Taxa Ordem 85 5 82 4 3.5 94 8 97 9 ... ... Soma Das Ordens 101 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 102 17 Teste Mann-Whitney – Exemplo Teste Mann-Whitney – Exemplo Fábrica 1 Taxa Ordem 71 1 82 3 3.5 77 2 92 7 88 6 Soma Das Ordens Fábrica 2 Taxa Ordem 85 5 82 4 3.5 94 8 97 9 ... ... 19.5 Suponha que é um gestor de produção e está interessado em investigar se as taxas de produção de 2 fábricas são iguais. Para a fábrica 1, as taxas (% de capacidade) são 71, 82, 77, 92, 88. Para a fábrica 2, as taxas são 85, 82, 94, 97. Terão as taxas de produção das 2 fábricas a mesma distribução de probabilidade ao nível de .10 ? Estatística de Teste : T1 = 5 + 3.5 + 8+ 9 = 25.5 (Amostra de dimensão mais pequena) H0: Distribuição Idêntica n (n 1) 45 Ha: Localização Diferente U1 n1n2 1 1 T1 4 5 25.5 4.5 2 2 = .10 p-value= 2P[ U1< 4.5 ] >2P[ U1< 4] =2x 0.0952 n1 = 4 n2 = 5 Decisão: Não Rejeitar ao nível de = 10% 25.5 Conclusão: Não existe evidência estatística que nos permita duvidar que as 2 Fábricas têm Taxas de Produção Idênticas, ao nível de 10%. Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 103 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 104 Teste Mann-Whitney – Exemplo Suponha que é um gestor de produção e está interessado em investigar se as taxas de produção de 2 fábricas são iguais. Para a fábrica 1, as taxas (% de capacidade) são 71, 82, 77, 92, 88. Para a fábrica 2, as taxas são 85, 82, 94, 97. Terão as taxas de produção das 2 fábricas a mesma distribução de probabilidade ao nível de .10 ? Teste de Kruskal-Wallis H0: Distribuição Idêntica Ha: Localização Diferente = .10 n1 = 4 n2 = 5 No R: x<-c(71, 82, 77, 92, 88) y<-c(85, 82, 94, 97) wilcox.test(x, y ,alternative = c("two.sided"),paired =F) Wilcoxon rank sum test with continuity correction Contrapartida não-paramétrica para ANOVA completely randomized data: x and y W = 4.5, p-value = 0.2187 alternative hypothesis: true location shift is not equal to 0 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 105 Teste de Kruskal-Wallis Teste Kruskal-Wallis A análise da variância leva em consideração que • as variáveis são independentes, • tem uma distribuição normal com uma variância • comum (homogeneidade das variâncias) Ho: k populações com distribuições idênticas. versus • H1: pelo menos duas das k populações diferem na localização. • média constante em cada coluna. O teste Kruskal-Wallis é um método não paramétrico. • Não leva em consideração formas específicas de • distribuição. Contrapartida não-paramétrica para ANOVA completely randomized Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Trata-se de um teste para decidir se k amostras de dimensões ni, i=1,…,k, (k>2) independentes provêm de 107 Considerar a amostra global das n = ∑ni observações e atribua Ordens. Calcular as Somas das Ordens Ri , para cada amostra i=1,…,k. Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 108 18 Teste Kruskal-Wallis Teste Kruskal-Wallis – Grandes Amostras Estatística de Teste: • Sob a hipótese nula, Estatística de Teste H segue aproximadamente um Qui-Quadrado com g.l.= k-1 Decisão: Sem empates H H* k k Ri2 12 12 3(n 1) ni ( Ri R ) 2 , n(n 1) i 1 ni n(n 1) i 1 Rejeitar hipótese nula Ho se H > χ2k-1, 1-α Ri Ri / ni e R (n 1) / 2 • Rejeitar Ho se o valor da ET de K-W é “grande” Com empates( Siegel & Castellan ‟88, pg.210) g := nº de grupos de empates distintos tj := nº de valores empatados no grupo j de H* H g empates, j=1,…,g 1 (t j 1 3 j n n 3 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Isabel Fraga Alves χ2k-1, 1-α tj) 109 Quando k = 3 e ni 5, sem empates: os Quantis w , = 0.90, 0.95, 0.99 da distribuição exacta da ET K-W estão tabelados na • Decisão: (ao nível α) FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 110 Primeiramente, os dados são convertidos em “ordens”. Considere os 4 Tratamentos seguintes, A, B, C, D, cada um com cinco réplicas. Tabela A8 (Conover ‟80) Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Tratamentos Rejeitar hipótese nula Ho se H > w1-α 111 Teste de Kruskal-Wallis Isabel Fraga Alves Teste de Kruskal-Wallis Teste Kruskal-Wallis – Pequenas Amostras Deve-se usar apenas quando a mais pequena das dimensões ni ≥ 5. A B C D 27 48 11 44 14 18 0 72 8 32 3 81 18 51 15 55 7 22 8 39 Podemos dizer que esses valores são provenientes da mesma distribuição? Ou seja, não existe uma diferença significativa entre os Tratamentos? Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 112 Teste de Kruskal-Wallis Ordenação A hipótese nula é que todos os grupos vêem da mesma população. Seja n = 20, o tamanho da amostra total. A Estatística de Teste é H* i k R2 12 i 3(n 1) n(n 1) i 1 ni i i i i i 12 H* 259.2 884.45 92.45 1479.2 3 (21) 14.6 20 21 •Nota: As diferenças nos pontos médios (Ri/ni) indicam diferenças nos grupos. Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Para nosso exemplo 113 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 114 19 Teste de Kruskal-Wallis Teste de Kruskal-Wallis Factor de Correcção: Com g = 2 (valores 8 e 18), t1 = t2 = 2 (dois valores 8 e dois valores 18), A Estatística de Teste corrigida é H* H 1 Para nosso exemplo 2 1 (t j 1 3 j tj) n n 3 1 (t j 1 3 j n3 n χ23 7.81 χ23, 0.95 DECISÃO: 14.6 14.622 0.9985 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Comparação deste valor com o quantil 2 com (k -1=3) graus de liberdade. Da tabela do 2 com 3 graus de liberdade temos • χ23, 0.95 =7.81 para 95%. • Como H = 14.622 tj) 2(23 2) 12 1 0.9985 203 20 7980 H Isabel Fraga Alves 2 14.5 Logo, a hipótese nula deve ser rejeitada, ou seja, as amostras não pertencem a mesma população. 115 Teste de Kruskal-Wallis FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Isabel Fraga Alves 116 Teste de Kruskal-Wallis No R: No R: kruskal.test(list(aa,bb,cc,dd)) aa <- c(27,14,8,18,7) # tratamento A bb <- c(48,18,32,51,22) # tratamento B cc <- c(11,0,3,15,8) # tratamento C dd <- c(44,72,81,55,39) #tratamento D grupo <- factor(rep(1:4, each=5),labels = c("A","B","C","D")) grupo r<-rank(c(aa,bb,cc,dd)) R<-tapply(r,grupo,sum) R n=20 hstar= (12/(n*(n+1))) * sum(R^2/5) - 3*(n+1) hstar #Fator de correção t=c(2,2) correction=1-sum(t^3-t)/(n^3-n) correction h=hstar/correction h Outro exemplo ## Mucociliary efficiency from the rate of removal of ## dust in normal subjects, subjects with obstructive ## airway disease, and subjects with asbestosis. x <-c(2.9, 3.0, 2.5, 2.6, 3.2) # normal subjects y <-c(3.8,2.7,4.0,2.4)# with obstructive airway disease z <-c(2.8, 3.4, 3.7, 2.2, 2.0) # with asbestosis #h sob ho segue qui-quadrado com k-1 graus de liberdade=3 p.valor<-pchisq(h,df=3,lower.tail=F) p.valor quantil<-qchisq(p=0.95, df=3, lower.tail = TRUE) quantil Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 117 FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Isabel Fraga Alves 118 Teste do Coef de correlação ordinal de Spearman Teste do Coeficiente de correlação ordinal de Spearman População X População Y (contínuas) ( X1 , Y1 ),( X 2 , Y2 ), ,( X n , Yn ) H0 : Não existe relação (associaçao) entre X e Y , ie, contrapartida não-paramétrica do coeficiente de correlação amostral de Pearson X e Y são independentes vs. H1 : existe associaçao entre X e Y (Teste Bilateral) vs. H1 : existe associaçao directa entre X e Y (Teste Unilateral) vs. H1 : existe associaçao inversa entre X e Y (Teste Unilateral) Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 120 20 Teste do Coef de correlação ordinal de Spearman O coeficiente de correlação ordinal de Spearman Rs é a contrapartida não-paramétrica do Teste do Coef de correlação ordinal de Spearman Coeficiente de correlação ordinal de Spearman Rs: coeficiente de correlação amostral de Pearson, em que os Xi‟s e os Yi‟s sao substituídos pelas suas ordens. Se nao houver empates, • Para obter r(Xi)=ordem de Xi e r(Yi)= ordem de Yi, 6 d i2 n RS 1 i 1 , n(n 2 1) com d i r ( xi ) r ( y i ). ordenam-se as amostras dos Xi‟s e os Yi‟s separadamente. Observação: Num modelo paramétrico e Normal, X e Y são independentes sse o coeficiente de correlção ρ=corr(X,Y)=0, ie, • FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) Isabel Fraga Alves 121 Teste do Coef de correlação ordinal de Spearman Região de Rejeição (Pequenas Amostras): Isabel Fraga Alves {RS r0 } ou {RS r0 } = P(RS ≥ rS) = P(RS ≤ rS) p-value= 2 min[P(RS≤rS), P(RS≥rS)] (Teste Bilateral) Teste Bilateral Testes Unilaterais (Testes Unilaterais) Observação: Se o nº de empates for pequeno relativamente ao nº de pares (Xi,Yi) o erro resultante desta última expressão é pequeno. Grandes Amostras: para um nº de pares (Xi,Yi) elevado, n-1 RS pode ser aproximada pela N(0,1). Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 123 Teste de Spearman - Exemplo FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 122 Teste de Spearman - Exemplo Com r0 escolhido criteriosamente na Tabela 11, Rejeitar H0 , se {RS r0 ou RS r0 } | RS | r0 Observação: Se o nº de empates for pequeno relativamente ao nº de pares (Xi,Yi) o erro resultante desta última expressão é pequeno. testar Ho é equivalente a testar Ho: ρ =0, pelo que e natural usar o coeficiente de correlacao amostral. Cinco professores de Ciências do ensino básico foram classificados por um júri de acordo com sua capacidade pedagógica. Esses mesmos professores realizaram um "exame nacional para professores". Existe acordo entre a classificação do júri e a classificação no exame? Se a Ordenação do Júri é baixa (melhor professor), seria de esperar a Classificação elevada no exame para professores; pelo que colocamos na hipótese alternativa uma associação inversa entre as variáveis Ordenação do Júri e Classificação no Exame. Isabel Fraga Alves Professor 1 2 3 4 5 Ordenação do Júri 4 2 3 1 5 Classificação no Exame 72 69 82 93 80 H0 : Não existe associaçao) entre X e Y vs. H1 : existe associaçao inversa entre X e Y (Teste Unilateral) FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 124 Teste de Spearman - Exemplo H0 : Não existe associaçao) entre X e Y vs. H1 : existe associaçao inversa entre X e Y n rS 1 (Teste Unilateral) Ordenar os Resultados dos Exames (a 1ª variavel já está na 6 di2 i 1 2 n(n 1) 1 6 di2 6(26) 1 0.3. 2 n(n 1) 5(25 1) forma ordenada). Não há empates. Professor 1 2 3 4 5 Ordenação do Júri 4 2 3 1 5 Classificação no Exame 72 69 82 93 80 R(xi) 4 2 3 1 5 R(yi) 2 1 4 5 3 di 2 1 -1 -4 2 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 125 Com nível de significância=0.05, n=5 Rejeita-se H0 se Rs <=0 Isabel Fraga Alves FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010) 126 21 Teste de Spearman - Exemplo Teste de Spearman - Exemplo No R: a <- c(4,2,3,1,5) b <- c(72, 69,82,93,80) cor.test(a, b, method="spearman",alternative="less") Spearman's rank correlation rho data: a and b S = 26, p-value = 0.3417 alternative hypothesis: true rho is less than 0 sample estimates: rho -0.3 Decisão: Não Rejeitar Ho. Não existe evidência suficiente que indique uma associação negativa entre Ordenação do Júri e Classificação no Exame, ao nível de significância de 5%. > ?cor.test 22