1 Métodos Não-Paramétricos

Propaganda
Programa


Métodos Não-Paramétricos
Introdução
Análise de Dados Categorizados
• Teste do Qui-Quadrado
•
•

Isabel Fraga Alves
Departamento de Estatística e Investigação
Operacional
Teste de Ajustamento
Tabelas de Contingência
•
•
Estatística Não-Paramétrica
•
•
Introdução: O problema geral da localização relativo a 2 amostras
Amostras emparelhadas
•
Uso das “Ordens” para Comparar Populações: Amostras Independentes
•
Uso das “Ordens” para Testar Independência e Aleatoriedade
•
•
Teste dos Sinais (pequenas e grandes amostras)
Teste de Wilcoxon (pequenas e grandes amostras)
•
•
2 Populações: O Teste de Mann-Whitney (pequenas e grandes amostras)
Mais de 2 Populações:
• O Teste de Kruskal-Wallis (pequenas e grandes amostras)
• Teste de Friedman (pequenas e grandes amostras)
•
•
Teste de Spearman (pequenas e grandes amostras)
Teste dos “Runs” para Aleatoriedade (pequenas e grandes amostras)
Isabel Fraga Alves
Bibliografia

CONOVER, W. J. (1999) - Practical Nonparametric Statistics, 3rd ed. Wiley.

DANIEL, W. W. (1990) - Applied Nonparametric Statistics, 2nd ed. PWS-Kent.

Teste de Independência
Teste de Homogeneidade
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
2
Introdução

O que é a Estatística ?
Graça Martins, M. E. (2005) – Introdução à Probabilidade e à Estatística – Com
complementos de Excel, SPE.

Estudo da Incerteza

DeGroot, Morris H. - Probability and statistics (1986 ) - 2nd ed Massachusetts AddisonWesley.

Como a quantificar? Que podemos fazer com ela?

Pestana e Velosa (2006) - Introdução à Probabilidade e à Estatística, I, Fundação
Gulbenkian. 2ª ed.

As experiências repetidas

SIEGEL, S. and Castellan, N. Y. (1988) - Nonparametric Statistics for the Behavioral
Sciences. McGraw-Hill.

* Wackerly, D., Mendenhall, W. and Scheaffer, L. (2007) –
Mathematical Statistics with Applications. Duxbury Press; 7th ed.
sob o que pensamos serem as condições
não resultam sempre da mesma forma…!
* Manual Recomendado para consulta das Tabelas ao longo dos slides.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
3
Isabel Fraga Alves
situações sujeitas a INCERTEZA.



Causais ou Determinísticas
 Ex: Deixar cair uma pedra no rio
Aleatória ou Estocástica
 Ex: O Tempo que vou Esperar pelo Autocarro
• Quem irá ganhar as próximas eleições?
• Estarão os clientes da PT satisfeitos com o serviço
prestado?
•
•
Com Estatística quantificamos e medimos o “imprevisível”!
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Exemplos:
• Qual das duas pastas dentífricas é mais eficiente que a
Como posso “prever” o resultado?
Isabel Fraga Alves
4
Estatística: produz afirmações numéricas relativamente a
Tipos de Experiências

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
5
outra para prevenir as cáries?
Qual a previsão da quantidade de precipitação para o
próximo inverno?
Após a monitorização de pacientes com doenças
cardíacas, como decidir acerca dos factores que
afectam a sua saúde ?
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
6
1
Como e Que Respostas ?
Tipos de Variáveis

Para responder a estas perguntas frequentemente usamos modelos
probabilísticos, que são modelos matemáticos para lidar com incerteza.

São recolhidos
de nosso estudo.

Dados para explorar uma População, o objectivo
VARIÁVEL
•AMOSTRA
Quando é recolhida uma amostra grande é necessário produzir resumos
das informações nela contidas. Existem ferramentas gráficas e numéricas
que são normalmente utilizadas pelos estatísticos
QUALITATIVA
QUANTITATIVA
•Estatística Descritiva



Inferência Estatística - faz generalizações válidas para a População,
a partir de Amostras.
(enquanto na Previsão - é apresentada uma afirmação sobre o Futuro.)
DISCRETA
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
7
Isabel Fraga Alves
QUANTITATIVA vs. QUALITATIVA : variáveis com /
sem representação numérica e ordenação natural
única (por exemplo, a pressão arterial versus religião).

DISCRETA vs. CONTÍNUA: variáveis quantitativas
com / sem lacunas conceptuais entre os seus valores
(por exemplo, número de crianças numa família versus
pressão arterial).

ORDINAL vs. NOMINAL: variáveis qualitativas com
/ sem ordenação (eventualmente não única) dos seus
valores (a satisfação do cliente versus religião).
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
9
Isabel Fraga Alves

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
10
VARIÁVEL ORDINAL –
•
no alfabeto, A,B,C,D ou D,C,B,A; em números de ordem, 1,2,3 ou 3,2,1; no
sexo, F,M ou M,F; no curso, primário- secundário-superior ou superiorsecundário-primário; em uma quantificação, leve-moderado-intenso ou intensomoderado-leve; em cruzes, +,++,+++,++++ ou ++++,+++,++,+; na ordenação
de dados numéricos, 11,18,23,29,35 ou 35,29,23,18,11; etc.
Os indivíduos de uma população ou amostra são classificados de acordo
com as diversas categorias de uma determinada característica e em
seguida são ordenados. Esta ordenação pode ser crescente ou
decrescente, ou igualmente, ascendente ou descendente.
•
Características binárias ou dicotomizadas:
•
presente ou ausente, 1 ou 0, positivo ou negativo, vivo ou morto, sim ou não, benigno
ou maligno, etc.
Essas características são mutuamente exclusivas, isto é, cada indivíduo só pode se enquadrar
em um único nome, categoria ou classe, e também são exaustivas, pois devem atingir todos os
indivíduos da população ou amostra em estudo, sem excepção.

8
Tipos de Variáveis (cont.)
As variáveis qualitativas podem ainda ser classificadas de acordo com:
VARIÁVEL CATEGORIZADA – (Categórica, Nominal ou de Classe)
nomes das pessoas ou coisas; as letras do alfabeto; o sexo, masculino ou feminino,
macho ou fêmea; o estado civil, solteiro, casado, divorciado, viúvo; o curso, primário,
secundário, colegial, universitário, pós-graduação, etc.
Representa o nível mais simples e mais elementar de medição. Os indivíduos de uma
população ou amostra são medidos mediante uma certa característica que pode ser
categoria, nome ou classe.

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
De modo geral,
 as variáveis qualitativas estão mais ligadas aos
modelos não-paramétricos
enquanto que
 as variáveis quantitativas aos modelos
paramétricos.
Tipos de Variáveis (cont.)

NOMINAL
Tipos de Variáveis (cont.)
Tipos de Variáveis (cont.)

ORDINAL
Dados - observações de determinadas quantidades de interesse.
Variáveis - incerteza acerca dos seus verdadeiros valores.
Isabel Fraga Alves

CONTÍNUA

A variável categórica é qualitativa e não se presta aos cálculos aritméticos
comuns: soma, subtracção, multiplicação e divisão.
Apresenta as seguintes propriedades de equivalência (=): reflexiva (x=x); simétrica
(x=y então y=x); transitiva (x=y e y=z então x=z).
A variável ordinal também é qualitativa.
• Sabe-se que um indivíduo ou coisa é maior ou menor do que outro, porém não se
sabe o quanto é maior nem o quanto é menor. São comuns as expressões
comparativas: maior, menor; superior, inferior; primeiro, último; mais intenso,
menos intenso; mais alto, mais baixo; preferível; etc.
Na escala ordinal utilizam-se as comparações maior do que (>) e menor do
que (<). As operações aritméticas comuns (adição, subtracção,
multiplicação e divisão) não são aplicáveis.
Na ordenação, a relação maior do que (>) apresenta a propriedade transitiva (se x>y e
y>z então x>z).
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
11
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
12
2
Tipos de Variáveis (cont.)

ESTATÍSTICA NÃO
PARAMÉTRICA
VARIÁVEL INTERVALAR –
•
os valores de idade, altura, peso, pressão arterial, frequência cardíaca, exames
laboratoriais, medidas diversas, etc.

A escala intervalar é verdadeiramente quantitativa. A medição é feita
directamente em números reais, obtidos mediante a comparação com um
determinado valor fixo, denominado unidade. O nome intervalar está
ligado aos intervalos entre as categorias da variável e aqui se sabe
exactamente o quanto uma categoria é menor ou maior que outra,
ou ainda se há igualdade entre elas.

As operações aritméticas comuns (soma, subtracção, multiplicação e
divisão) são aplicáveis.

A variável intervalar reúne todas as propriedades dos dois tipos anteriores
de mensuração: as de equivalência (=), reflexiva (x=x), simétrica (x=y
então y=x) e transitiva (x=y e y=z então x=z) e a de ordenação (>),
transitiva (x>y e y>z então x>z).
Isabel Fraga Alves
Extremamente interessante para
análises de dados qualitativos.
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
13
MEDIDAS DE TENDÊNCIA CENTRAL - Localização



Média
Mediana
Moda
amostra aleatoria (a.a.) - X1 , X 2 ,
amostra observada - x1 , x2 ,
Média Amostral - é a soma de
todos os valores de uma amostra
dividida pelo nº de elementos da
amostra (dimensão).

É aplicada em variáveis quantitativas.

1 n
 Xi
n i 1
1
x   xi
n i 1
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
15
Moda - É o valor da
variável que
corresponde à
frequência máxima.


Se n for ímpar, a mediana ( Med )
será o valor que ocupa a posição
central na amostra ordenada. Esta
posição pode ser calculada por
(n+1)/2.

Se n for par, a Med será calculada
pela média aritmética dos dois valores
centrais na amostra ordenada da
amostra. A posição de cada um desses
dois valores centrais pode ser
calculada por n/2 e n/2+1.
A moda pode ter um
ou mais valores,
unimodal, bimodal,...,
multimodal, conforme
existam uma, duas, ou
mais frequências iguais,
dos valores da variável.

25, 22, 28, 32, 35, 55, 83, 83, 98, 99, 43, 46, 51
(n=13)
amostra observada ( x1 , x2 , , xn ) 
Isabel Fraga Alves
amostra ordenada observada x1:n  x2:n   xn:n 
(22, 25, 28, 32, 35, 43, 46, 51, 55, 83, 83, 98, 99)
média
x  53.9

mediana
Med  46

moda
amostra ordenada observada x1:n  x2:n   xn:n
x n 1
n impar

:n

2
Med   

1
  x n  x n  n par
:n
1:n
2

 2  2
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
16
Localização: Mediana vs. Média
Dados:

A Mediana é muito utilizada nos
cálculos não-paramétricos.
Isabel Fraga Alves
Razões para usar a mediana:
• É menos influenciada por valores extremos
• Se as distribuições são simétricas, a média e a
mediana populacional coincidem
(25, 22, 28, 32, 35, 55, 83, 83, 98, 99, 43, 46, 51 )

Mediana Amostral - É o valor da
amostra que ocupa a posição central,
quando todos os valores estão
ordenados em ordem crescente ou
decrescente.


MEDIDAS DE TENDÊNCIA CENTRAL - Localização


n
A média amostral é a
contrapartida empírica do Valor
Médio da População ou da
Variável, m.
Isabel Fraga Alves
, Xn
, xn
X

MEDIDAS DE TENDÊNCIA CENTRAL - Localização

Média vs. Mediana
• 5 6 6 7 7 8 10
• Média = 7 Med = 7
• 5 6 6 7 7 8 50
• Média = 8.43 Med = 7
Mo  83
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
17
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
18
3
Quadro Geral
Objectivos do Curso

Distinguir
•

Até este ponto, todos os testes que têm utilizado estão
sujeitos a suposições sobre a distribuição subjacente aos
dados. Especificamente, é assumido que os dados são normais
para usar o teste-t, por exemplo.

Poder-se-ia usar a teoria de grandes amostras e o Teorema
do Limite Central, mas isso ainda apenas se verifica
Assintoticamente
Metodologias Paramétricas
&
•

•

Metodologias Não-Paramétricas
Explicar uma
Variedade de Testes Não-Paramétricos
n 
Resolver
•
Problemas de Testes de Hipóteses usando Testes NãoParamétricos
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)

19
O que é que acontece se não estamos dispostos ou não é sensato
fazer as suposições de normalidade sobre a distribuição subjacente
e temos uma amostra de dimensão pequena ?
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
20
Testes de Hipóteses - Metodologias
Teste de
Hipóteses metodologias
TESTE DE HIPÓTESES
Paramétricas
Trata-se de uma técnica para se
fazer a inferência estatística sobre
uma população a partir de uma
amostra
Não-Paramétricas
Teste
Wilcoxon
etc
Teste - z
Teste - t
etc
Teste
Kruskal-Wallis
ANOVA
E muitos mais…!
Isabel Fraga Alves
Testes de Hipóteses - Metodologias
Muitos dos testes estatísticos não-paramétricos
respondem à mesma série de questões tal como os
testes paramétricos.
•
Teste-t
emparelhado
22
Estatística Não-Paramétrica

Amostra emparelhada
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Com testes não-paramétricos as hipóteses podem ser
flexibilizadas consideravelmente.
• Por conseguinte, são utilizados métodos não-paramétricos
para situações que violem os pressupostos de procedimentos
paramétricos.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
24
4
Testes Paramétricos
Testes Não-Paramétricos


Testes Paramétricos
• Incidem explicitamente sobre um ou mais parâmetros de uma
•
•
•
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
• Requerem menos pressupostos em relação à
população;
• Não exigem normalidade;
• Não se baseiam em parâmetros da distribuição (logo, não
ou mais populações;
A distribuição de probabilidades da estatística de teste pressupõe
uma forma particular das distribuições populacionais;
As variâncias são homogéneas;
Os erros ou resíduos são aleatórios e independentes e têm
distribuição normal com variância finita e constante.
Isabel Fraga Alves
Testes Não Paramétricos
necessitam variâncias homogéneas);
• Ligeiramente menos eficientes que os testes
paramétricos;
• Baseiam-se nas estatísticas ordinais (e não nos
valores das observações);
• Mais fáceis de aplicar.
25
Testes Não-Paramétricos
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Isabel Fraga Alves
26
Estatística Não-Paramétrica - Distribuição Livre
Vantagens
 Poucos Pressupostos Relativos à População





• Não incorpora as suposições restritivas, características dos
testes paramétricos.
Facilidade de implementação
Maior Perceptibilidade
Aplicável em Situações Não Abrangidas Pela Normal
Mais Eficientes quando as Populações não têm Distribuição Normal
Os resultados podem ser tão exactos como nos procedimentos paramétricos
• Os dados não precisam estar normalmente distribuídos
(Distribution-Free). É necessário, apenas, que eles sejam
ordenáveis.
Desvantagens
• Muitas vezes, são baseados nas ordens das observações e não
nos seus valores, como no caso paramétrico.
As hipóteses testadas por testes não-paramétricos tendem a ser
menos específicas;
Não têm Parâmetros, Dificultando Comparações Quantitativas
entre Populações
Escasso Aproveitamento de Informação da Amostra
Pode ser de Difícil Cálculo à mão para Grandes Amostras
Tabelas não amplamente disponíveis
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
• Podem ser aplicados para variáveis quantitativas e qualitativas.
• Menos sensíveis aos erros de medida e rápidos para pequenas
amostras.
27
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Isabel Fraga Alves
28
PRINCIPAIS CONCEITOS
TESTE DE HIPÓTESES
Trata-se de uma técnica para se
fazer a inferência estatística sobre
uma população a partir de uma
amostra
HIPÓTESE
•
TESTE
•
ESTATÍSTICA
Trata-se de uma suposição quanto ao valor de um parâmetro
populacional, ou quanto à natureza da distribuição de
probabilidade de uma variável populacional.
DE HIPÓTESES
É uma regra de decisão para rejeitar ou não rejeitar uma
hipótese estatística com base nos elementos amostrais
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
30
5
TEORIA POPPERIANA

- Falseabilidade (ou refutabilidade)
Karl Popper(1902- 1994) - UM
FILÓSOFO INOVADOR
 Sir Karl Raimund Popper foi filósofo da ciência austríaco naturalizado
“Science can't prove anything. It can only disprove things.”
britânico e um professor da London School of Economics.
A ciência não pode provar nada. Só pode refutar coisas.
 Formou-se em matemática, física e filosofia da ciência britânica.
 Uma das pessoas mais influentes da filosofia da Ciência durante o século
XX.
•
Considere o exemplo do famoso Cisne Negro (black swan):
•
•
•
Um cientista gasta sua vida observando cisnes. Observa que todos
os cisnes que jamais viu são brancos. Com base nesta evidência
empírica, ele postula uma teoria de que “todos os cisnes são
brancos”.
Um dia viaja para a Austrália e vê - UPS! - um Cisne Negro.
A sua teoria é refutada. Mas isso não significa que não era
ciência quando a estabeleceu. Agora, pode estabelecer uma teoria
nova: “Os cisnes podem ser brancos ou pretos”.


POPPER E A REFUTAÇÃO
•
•
•
A teoria científica mais não é do que uma hipótese; uma conjectura, que um dia será
refutada e substituída por uma outra.
“ What really makes science grow is new ideas, including false ideas.” –Karl Popper

SÓ APRENDEMOS QUANDO ERRAMOS.

OS ESTATÍSTICOS NÃO PERGUNTAM QUAL É A PROBABILIDADE DE ESTAREM CERTOS,
MAS A PROBABILIDADE DE ESTAREM ERRADOS.
•
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
31
Uma hipótese só é científica se puder ser colocada em questão
(“refutada”).
Isto significa que deve ser sempre possível realizar uma observação
que prove que a hipótese é falsa
Uma teoria científica não poderá em nenhuma circunstância ser
declarada “verdadeira”
Para fazerem isso estabelecem uma hipótese nula.
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Isabel Fraga Alves
32
PRINCIPAIS CONCEITOS
Data Analysis and Research for Sport and Exercise Science: A Student Guide
By Craig Williams, Chris Wragg, Routledge ed., 2003. pag 6

TIPOS DE HIPÓTESES
•
•
H0, hipótese nula, a hipótese estatística a ser testada
H1, hipótese alternativa
A HIPÓTESE NULA É UMA AFIRMAÇÃO DE COMO O MUNDO
DEVERIA SER, SE NOSSA SUPOSIÇÃO ESTIVESSE ERRADA.
• Ex:
A hipótese nula expressa uma igualdade, enquanto a
hipótese alternativa é dada por uma desigualdade.
H 0 : m  1.5 m vs. H1 : m  1.5 m
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
33
Testes de Hipóteses – Erros

34
Testes de Hipóteses – Erros
EXISTEM DOIS TIPOS DE ERRO:
ET:= Estatística de Teste
RR:= Região de Rejeição
RA:= Região de Não Rejeição
• Erro tipo 1 - rejeição de uma hipótese nula verdadeira
• Erro tipo II – não rejeição de uma hipótese nula falsa
• “não rejeiçao ”
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Isabel Fraga Alves
“não rejeição”
Realidade
Decisão
Não rejeitar
H0
Rejeitar
H0
• A probabilidade  do erro tipo I é denominada
REGRA de TESTE: ET RR então Rejeitar H0
H0 verdadeira
Decisão
correcta
H0 falsa
Erro tipo II
Decisão
Erro tipo I
correcta
“nível de significância” do teste.
 = P( erro tipo I ) = P(rejeitar H0| H0 verdadeira) = P(ET  RR | H0 verd.)
nível de significância ou tamanho do teste
 = P(erro tipo II)= P(não rejeitar H0| H0 falsa) = P(ET  RA | H0 falsa)
1- = potência do teste  Probabilidade de não cometermos um erro do tipo II
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
35
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
36
6
p -Value


O resultado foi significativo?
Quão pequeno tem de ser o p-value, para se rejeitar a
hipótese nula?
•
•

Qui-Quadrado
 Teste dos Sinais
 Teste de Wilcoxon
 Teste de Mann-Whitney
 Teste de Kruskal-Wallis
 Teste de Spearman

Se p-value < 5 % estatisticamente significativo.
Se p-value < 1 % altamente significativo.
Os investigadores devem
•
resumir os dados,
•
dizer qual o teste usado e
•

TIPOS DE TESTE
reportar o p-value (em vez de apenas o comparar com os valores de 1 % ou 5 % )
No caso de se estabelecer à partida o nível de significância  e se o
TESTE indicar a aceitação de H0, diz-se que
Ao nível de significância  não se pode rejeitar H0 .
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
37
TESTE DO QUI-QUADRADO - Teste de Independência






•
•

Teste do Χ2 (qui-quadrado)
Teste exacto de Fisher
Isabel Fraga Alves
39
TESTE DO QUI-QUADRADO - Teste de Independência


C
L
j 1
i 1
Ni   Nij N j   Nij
X\Y
B1
B2
…
Bj
…
BC
A1
N11
N12
…
N1j
…
N1C
N1 .
pij  P[ X  Ai ; Y  B j ] A2
N21
N22
…
N22
…
N2C
N2 .
pi.  [ X  Ai ]
…
p. j  [Y  B j ]
Ai
•
H0: F(x,y)=F1(x) F2(y) (x,y)R2 vs. H1: F(x,y)≠F1(x) F2(y) para
algum (x,y)R2
Isto é, face a uma amostra aleatória (Xi, Yi), i=1,...,n,
pretendemos testar a independência do par (X,Y).

Para obter a estatística de teste começamos por dividir o
suporte da variável aleatória X em L classes A1, A2, ..., AL,
disjuntas e o suporte da variável aleatória Y em C classes B1, B2,
..., BC, disjuntas.
Representemos por
• Nij= # { (Xk, Yk): Xk  Ai ; Yk  Bj },i=1,…,L; j=1,…,C.
…
Nij
…
NiC
L
C

( Nij  eij )2
eij
NL2
N .1
N.2
…
NL2
N.j
…
, sob H 0 tem uma distribuição assintótica de um  (2LC 1) .
Com as frequências esperadas eij desconhecidas, utiliza-se
Ni .

NL1
NLC
NL .
N .C
N..=n
p. j  [Y  B j ]
eij  npij  npi. p. j

Ni2
40
TESTE DO QUI-QUADRADO - Teste de Independência
i 1 j 1
Ni1
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Isabel Fraga Alves
pij  P[ X  Ai ; Y  B j ] pi.  [ X  Ai ]
…
AL
Dados bivariados (Xi, Yi), i=1, ...,n, tendo (X, Y) f.d. conjunta
F(x,y) com marginais F1(x) = F(x,+∞) e F2(y)=F(+∞,y).
Pretendemos testar


FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
38
TESTE DO QUI-QUADRADO - Teste de Independência

Testes não paramétricos que medem o grau de dependência entre
duas variáveis aleatórias.
Não assumem nenhum tipo de distribuição.
Assume observações de frequência de variáveis categóricas. As
variáveis da amostra estão “divididas” em categorias.
As observações das duas variáveis são agrupadas em classes
independentes (disjuntas).
Tipicamente, os dados do teste estão representados em tabelas de
contingência 2 x 2. No entanto podemos ter mais do que 2
dimensões.
Testes a estudar
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Isabel Fraga Alves
Estatística de Teste (ET):
L
eˆij  npˆ ij  npˆ i. pˆ . j  n
Ni. N. j Ni. N. j

n n
n
( Nij  eˆij )2
, sob H 0 tem uma distribuição assintótica de um  (2L 1)(C 1) .
eˆij
j 1
C
X 2  
i 1

Regra de Decisão:
Ao nível  , Rejeitar a hipótese nula de Independência se o valor da
H 0 : pij  pi. p. j , (i, j ) vs. H1 : (i, j ), pij  pi. p. j
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
•
41
2
ET   1 ( L  1)(C  1)
Isabel Fraga Alves
(quantil da qui-quadrado com (L-1) x (C-1) graus de liberdade)
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
42
7
TESTE DO QUI-QUADRADO - Teste de Independência
TESTE DO QUI-QUADRADO - Teste de Independência
Regra prática:
Exemplo 6: Dependência entre bairro e escolha do
sabor de pasta de dentes
Dados:
H0: a preferência pelo sabor
Como a distribuição da estatística de teste é assintótica,
convém que as células não tenham valores esperados
muito pequenos.
Como regra prática, utiliza-se a seguinte:


•
•
independente do bairro;
Bairros
No máximo, 20% das células podem ter frequência esperada <5
e nenhuma célula deve ter frequência esperada <1.
Sabor
A
B
C
Limão
70
44
86
200
Chocolate
50
30
45
125
Hortelã
10
6
34
50
Menta
20
20
85
125
150
100
250
500
eˆij 
H1: a preferência pelo sabor depende do
bairro
 = 5%
2(L-1)(C-1)= 2(4-1)(3-1) = 2(6)
N i . N. j
n
Frequência esperada = (soma da linha i) x (soma da coluna j)/(total de observações)
L
C
X 2  
i 1 j 1
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
43
TESTE DO QUI-QUADRADO - Teste de Independência
BAIRRO
B
C
Limão
60
40
100
Chocolate
37.5
25
62.5
Hortelã
15
10
25
Menta
37.5
25
62.5
i 1
2
( Nij  eˆij  0.5)2
j 1
eˆij

1319
Total
Outras TB
270
252
522
Total
3804
1571
5375
4853
Para =0.05 temos Χ20.95(1)(1)=3.84. Rejeitamos H0 se Χ2 > 3.84 o que é o caso.
Conclusão: Há evidência de uma associação entre tipo de TB e sexo.
Observação: p-value < 0.00001.
45
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
46
TESTE DO QUI-QUADRADO - Teste de Independência
No caso específico de tabelas 2 x 2 devemos usar a
Correcção de Yates para continuidade.
2
Mulheres
3534
Χ2 = (3534 – 3434.6)2 / 3434.6 + (1319 – 1418.4)2 / 1418.4 + … + (252 – 152.6)2 / 152.6 = 101.35
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
X 2*  
Homens
TB no SR
e11 = (4853 x 3804) / 5375 = 3434.6; etc.
Correcção de Yates para tabelas 2x2

2x2
H0 : tipo de tuberculose (TB) que causa a morte a estes indivíduos é independente
do seu sexo.
x2 =37.88
20.95(6)=12.6
x2 > 20.95(6)
Decisão: rejeita-se H0.
Isabel Fraga Alves
44
Em 1956, o número de pessoas que morreram de tuberculose em Inglaterra e Gales foi
5375. Destas, 3804 foram homens e 1571 eram mulheres; 3534 homens e 1319 mulheres
morreram de tuberculose do sistema respiratório, enquanto o restante morreu de outras
formas de tuberculose. Os dados estão na seguinte tabela de contingência:
Tabela de frequências esperadas
A
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Exemplo com tabela de contingência
Exemplo 6: (cont.)
SABOR
Isabel Fraga Alves
( Nij  eˆij )2
, sob H 0 tem uma distribuição assintótica de um  (2L 1)(C 1) .
eˆij

No R, temos:
x<-matrix(c(3534,1319,270,252),ncol=2,byrow=T)
et<-chisq.test(x)
names(et)
et
et$expected
#quantil
qchisq(0.05,1, ncp=0, lower.tail = F)

#p-valor
pchisq(100.3915,1, ncp=0, lower.tail = F)
Para o problema anterior, Yates Χ2 = 100.39.
#density
plot(density(rchisq(500,df=1)))
points(qchisq(0.05,1, ncp=0, lower.tail = F),0,pch=19,col=2)
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
47
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
48
8
Teste Exato de Fisher
Teste Exacto de Fisher




O teste ideal para aplicar com tabelas de contingência
de dados pequenos esparsos e não balanceados.
Embora seja aplicável noutras situações, vamos sempre
usar em tabelas 2 x 2 .
É um teste exacto, portanto um p-value exacto.
A ideia geral é considerando a tabela de observações,
“gerar” as tabelas com as mesmas margens, que são
mais extremas que a observada, na mesma direcção da
nossa observação ie, que a proporção TB do tipo SR
nas mulheres é menor que proporção TB tipo SR nos
homens.
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Isabel Fraga Alves
Característica
(sim)
Característica
(não)
Total
Population 1
a
A-a
A
Population 2
b
B-b
B
a+b
A+B-a-b
H0: a proporção com a característica de interesse é a mesma nas duas
populações
Bilateral
H1: a proporção com a característica de interesse não é a mesma nas duas
populações (no R: fisher.test(x))
Unilateral
H1: a proporção com a característica de interesse na população 1 é menor que
na população 2 (no R: fisher.test(x,alternative=“less”))
H1: a proporção com a característica de interesse na população 1 é maior que
na população 2 (no R: fisher.test(x,alternative=“greater”))
49
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
50
Teste Exacto de Fisher (cont.)
Para o exemplo anterior temos no R:
Teste dos Sinais
x<-matrix(c(3534,1319,270,252),ncol=2,byrow=T)
fisher.test(x)
Fisher's Exact Test for Count Data
data: x
p-value < 2.2e-16
alternative hypothesis: true odds ratio is not equal
to 1
95 percent confidence interval:
2.073019 3.014822
sample estimates:
odds ratio
2.500202
Contrapartida não-paramétrica para
Teste-t para amostras
emparelhadas
Amostras Emparelhadas - O Teste dos Sinais
(pequenas amostras)
Amostras Emparelhadas - O Teste dos Sinais
População X

População Y
( X1 , Y1 ),( X 2 , Y2 ),
H 0 : localizaçao de X  localizaçao de Y

,( X n , Yn )
vs. H1 : localizaçao de X  localizaçao de Y
H 0 : p  1/ 2 vs. H1 : p  1/ 2
•
Unilateral
H1 : p  1/ 2
•
Unilateral
H1 : p  1/ 2
•
Bilateral
H1 : p  1/ 2
( > ) ou ( < )
Diferenças: Di : X i  Yi ; D : X  Y ;
H 0 : Med ( D)  0 vs. H1 : Med ( D)  0
( > ) ou ( < )
sob H 0 , P  D  0  P  D  0  1/ 2;
p  value  P  Binomial (n,1/ 2)  m ,
Rejeitar para os menores valores de M (m)
p  value  P  Binomial (n,1/ 2)  m ,
Rejeitar para os menores e maiores valores de M (m)
p  value  2P  Binomial (n,1/ 2)  m ou  2P  Binomial (n,1/ 2)  m ,
No R:
P[Binomial(n,1/2)<=m]=pbinom(q=m,size=n,prob=.5,lower.tail = F)
com p : P  X  Y 
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Rejeitar para os maiores valores de M (m)

M : =# Di : Di  0 ; sob H 0 , M  Binomial (n, p  1/ 2),
Isabel Fraga Alves
(ou p  1/ 2 ou p  1/ 2)
Região de Rejeição para:

53
Observação: Sempre que se verificarem ligações, isto e, valores Xi=Yi, esses valores
Isabel Fraga Alves
são desprezados, diminuindo-se a dimensão da amostra.
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
54
9
Exemplo - Cancro pancreático


Questão
Quando os pacientes têm Cancro pancreático, muitas vezes a
cirurgia é necessária para remover a parte do pâncreas que tem o
cancro. Quando estas cirurgias são concluídas, o cirurgião tem a
opção de fazer uma cirurgia mais complexa para preservar o baço
(preservação baço) ou para remover o baço como parte de
cirurgia (Esplenectomia).


Um estudo foi feito para comparar as duas opções cirúrgicas em
termos de resultados de saúde, ónus de custo e tempo na equipa
cirúrgica.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)

55
Exemplo - Cancro pancreático(cont.)




Em primeiro lugar, vamos ver o
grupo de preservação baço
Observe que temos
observações emparelhadas para
cada um dos pacientes
Estamos interessados na
diferença entre duas medições
Paciente
Pre
Post
Dif
1
260
223
37
2
216
149
67
3
427
224
203
4
217
181
36
5
613
708
-95
6
245
197
48
7
371
303
68
8
236
168
68
9
421
312
109
10
677
521
156
11
363
202
161
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
57
Uma vez que temos dados
emparelhados, poderíamos
utilizar o teste-t emparelhado.

O que se pode dizer sobre a
distribuição das diferenças?

A suposição de normalidade
do t-teste emparelhado
parece adequada?

Neste caso, temos outliers, portanto, a média não é uma boa
medida de tendência central.



58
O teste não-paramétrico mais simples é o
H0: mediana de diferenças (pre-post) = 0
H1: mediana de diferenças (pre-post) ≠ 0
Sob a hipótese nula, seria de esperar o mesmo número de sinais
positivos e negativos.
Di : X i  Yi ; sob H 0 , P  Di  0  P  Di  0  1/ 2;
M : =# Di : Di  0 ; sob H 0 , M  Binomial (n, p  1/ 2),
com p : P  X  Y 
Como podemos estabelecer e testar a hipótese nula
adequada?
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Teste dos Sinais
Que medida se deve usar alternativamente?
Isabel Fraga Alves
A diferença na contagem de
plaquetas pode ser variável e
conter outliers…
Isabel Fraga Alves

Para o t-teste de duas amostras, isto seria escrito como
H0: diferença média (pre-post) é igual a zero (d = 0)

56
Teste dos Sinais
A hipótese nula para a nossa investigação é que não há
nenhuma diferença na contagem de plaquetas, antes e após a
cirurgia.


FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)


Exemplo - Cancro pancreático(cont.)

Para cada técnica, os cirurgiões pretendiam determinar se há uma
diferença significativa na pre e post contagem de plaquetas de
cirurgia.
Histograma
Será que efectivamente há uma
diferença?
Isabel Fraga Alves
Uma pergunta para cada técnica é determinar o efeito da cirurgia
sobre a contagem de plaquetas em pacientes. As plaquetas estão
envolvidas na coagulação dos pacientes; por vezes, aos pacientes
em cirurgia são dados medicamentos para limitar a quantidade de
coagulação durante a cirurgia.
Uma grande mudança no número de plaquetas pode ser um sinal
de que a cirurgia foi particularmente difícil.
59

Se a maioria ou todas as diferenças são positivas, haveria algumas provas
contra a hipótese nula.

Até que ponto podem ser significativas?
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
60
10
Teste dos Sinais





Agora incluímos a coluna
dos SINAIS
Se não houve realmente
nenhum efeito da terapia,
seria de esperar que iria
haver um número igual de
sinais (+ , - )
O que se pode ver sobre
os sinais das diferenças?
Há uma diferença
significativa entre os dois
grupos?
Como se pode calcular o
p-value ?
Isabel Fraga Alves
Teste dos Sinais
Paciente
Pre
Post
Dif
SINAL
1
260
223
37
+
2
216
149
67
+
3
427
224
203
+
4
217
181
36
+
5
613
708
-95
-
6
245
197
48
+
7
371
303
68
+
8
236
168
68
+
9
421
312
109
+
10
677
521
156
+
11
363
202
161
+
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
61


Para o Teste dos Sinais, esta é a probabilidade do número observado de
sinais positivos ou mais. Para fazer o teste bilateral, devemos ter em
conta também os valores extremos do outro lado.

Hipótese nula e alternativa: H 0 : p  1/ 2 vs. H1 : p  1/ 2

p-value: p  value  2P  Binomial( n,1/2)  m,
(p = 1/2).
Isabel Fraga Alves

n “grande” , ie,
M  np
M n/2 d


 N (0,1)
np(1  p) 1/ 2 n
p-value = 0.001
Rejeitar a hipótese nula

Nas aplicações, para n  25
Conclusão:
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
M n/2
 Z  N (0,1)
1/ 2 n
63
Teste dos Sinais – Grandes amostras


p-value:
Região de Rejeição, ao nível
de significância  :
 /2
 z / 2

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
64
Hipótese nula e alternativa unilateral :
H 0 : p  1/ 2 vs. H1 : p  1/ 2
m n /2
z 
1/2 n

p-value:
 M  n /2 m  n/2
p  value  P 

 1/2 n 1/2 n
 /2

z / 2
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)

  P  Z  z   1  ( z),

m  n/2
z
.
1/2
n
Região de Rejeição, ao nível de significância  :
Z  z , z :  1 (1   ), quantil da Normal(0,1), Z :
Z  z  /2 ou Z  z  /2 , z /2 :  1(1 /2), quantil da Normal(0,1)
Isabel Fraga Alves
Isabel Fraga Alves
Teste dos Sinais – Grandes amostras
Hipótese nula e alternativa
bilateral:
H 0 : p  1/ 2 vs. H1 : p  1/ 2
 M  n /2 m n /2 
p  value  2 P 

  2 P Z  z   2{1  ( z)},
 1/2 n 1/2 n 
 M  n /2 m n /2 
ou  2P 

  2 P  Z  z   2 ( z).
 1/2 n 1/2 n 
62
n  +
H0: mediana das diferenças = 0 (p = 1/2)
H1: mediana das diferenças ≠ 0 (p ≠ 1/2)
Há uma diferença significativa entre os valores de plaquetas pré e
pós-cirurgia para pacientes que tinham a cirurgia de
preservação baço.

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
M teve o valor observado de m = 10 (# sinais +)
•
n
11, m  10
Teste dos Sinais – Grandes amostras
Dados Emparelhados,  = 5%
Hipóteses
•
•

> 2*pbinom(q=10, size=11, prob=.5, lower.tail = F)
[1] 0.0009765625
Teste dos Sinais

O p-value é a probabilidade de se obter o valor observado ou algo mais
extremo sob a hipótese nula
•
Exemplo - Cancro pancreático(conclusão)


65
Isabel Fraga Alves

z
M n/2
1/ 2 n
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
66
11
Teste dos Sinais – Grandes amostras

Teste dos Sinais – Grandes amostras
EXEMPLO - Sessenta alunos matricularam-se num curso de inglês. Na primeira aula aplica-se um
teste que mede o conhecimento da língua. Após seis meses, aplica-se um segundo teste. Os
resultados mostram que 35 alunos apresentaram melhora (35 +), 20 se conduziram melhor no
primeiro teste (20 -) e 5 não apresentaram modificações (5 “0”). Será que o curso melhorou o
conhecimento de inglês?
Hipótese nula e alternativa unilateral :
H 0 : p  1/ 2 vs. H1 : p  1/ 2

p-value:
= 5%
H0: O curso não alterou o conhecimento de inglês
H1: O curso melhorou o conhecimento de inglês
m - número de sinais positivos (35);
n – tamanho da amostra descontado os empates (60-5=55)
z

 z

Região de Rejeição, ao nível de significância  :
Z   z , z :  1 (1   ), quantil da Normal(0,1), Z :
Isabel Fraga Alves
Z
Cálculo da variável
M  n / 2 m  n / 2
mn/2
p  value  P 

.
  P  Z  z   ( z ), z 
1/ 2 n 
1/ 2 n
 1/ 2 n
M n/2
1/ 2 n
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
M n/2
1/ 2 n
m  n / 2 35  55 / 2

 2.02
1/ 2 n
1/ 2 55
Z1-0.05= Z0.95= 1.64, logo se rejeita Ho, ie, o curso não melhorou o conhecimento de inglês
No R: > qnorm(0.95)
67
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
68
Amostras Emparelhadas - O Teste de Wilcoxon
(pequenas amostras)
População X

Teste de Wilcoxon
População Y

( X1 , Y1 ),( X 2 , Y2 ),
H 0 : distribuiçao de X  distribuiçao de Y
,( X n , Yn )
vs. H1 : localizaçao de X  localizaçao de Y (Teste Bilateral)
( > ) ou ( < )
Diferenças Di : X i  Yi ; D : X  Y ;

Contrapartida não-paramétrica para
H 0 : Med ( D)  0 vs. H1 : Med ( D)  0
Teste-t para amostras
emparelhadas
( > ) ou ( < )
Isabel Fraga Alves
•
Estatística de Teste
Isabel Fraga Alves
•
•
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
70
Teste de Wilcoxon (Pequenas Amostras Emparelhadas)
Motivação para a Região de Rejeição:
1. Obter as diferenças, Di = Xi - Yi
2. Obter os Valores Absolutos das diferenças, |Di |
3. Desprezar as diferenças de Valor 0 (empates)
diminuindo do mesmo número de unidades, a
dimensão da amostra.
4. Atribuir Ordens, onde a Menor = 1
5. Atribuir Ordens para diferenças „-‟ e „+‟
6. Somar as Ordens „+‟ (T+) & Ordens „-‟ (T-)
Estatística de Teste
(Teste Unilateral)
pois leva em consideração a magnitude da diferença para cada par.
O teste de sinal analisa apenas o sinal das diferenças, mas o Teste de Wilcoxon
usa o sinal e ordena as diferenças.

•
(Teste Bilateral)
O Teste de Wilcoxon é uma extensão do Teste de Sinais. É mais interessante

Teste de Wilcoxon (Pequenas Amostras Emparelhadas)
(Teste Unilateral)

• Sob a validade de H0,
• é de esperar que a soma das ordens positivas (T ) não
+
difira grandemente da soma das ordens negativas (T-).
• Uma soma “grande” para as ordens positivas (T )
+
relativamente a soma das ordens negativas (T-),
implica que a Mediana das Diferenças, Med(D), tenha
uma pequena probabilidade de ser igual a zero.
T- ou T+ (Teste Unilateral)
T:=min(T- , T+) (Teste Bilateral)
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
71
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
72
12
Teste de Wilcoxon (Pequenas Amostras Emparelhadas)
Teste de Wilcoxon (Pequenas Amostras Emparelhadas)
Ho: Med(D) =0
Ho: Med(D) = 0
(As distribuições de X e de Y são idênticas)
Teste Bilateral
H1: Med(D) 0 (As distribuições de X e de Y diferem na localização)
Teste Unilateral
H1: Med(D) > 0
(A distribuição de X tem
localização à direita da
localização de Y)
Rejeitar Ho se T ≤ T0 (Tabela 9), com
T:=min(T- ,T+)
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
73
Teste de Wilcoxon (Grandes Amostras Emparelhadas)

n “grande” , ie,
H1: Med(D) < 0
Rejeitar H0 se T- ≤ T0
No R:
wilcox.test(x,y,alternative = c("two.sided"),paired =T)
Isabel Fraga Alves
(As distribuições de X e de Y são idênticas)
Isabel Fraga Alves
(A distribuição de Y tem
localização à direita da
localização de X)
Rejeitar H0 se T+ ≤ T0
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
74
Teste de Wilcoxon (Grandes Amostras Emparelhadas)
n  +
Ho: Med(D) = 0
T   n(n  1) / 4
d

 N (0,1)
n(n  1)(2n  1) / 24
(As distribuições de X e de Y são idênticas)
Teste Bilateral
H1: Med(D) 0 (As distribuições de X e de Y diferem na localização)

Nas aplicações, para n  25
Z :
T   n(n  1) / 4
 Z  N (0,1)
n(n  1)(2n  1) / 24

T +  n(n  1) / 4
n(n  1)(2n  1) / 24

p-value:  2P Z  z  2{1  ( z )}.

 /2
 /2
z
Região de Rejeição, ao nível de significância  : z
Z  z / 2 ou Z   z / 2 , z / 2 : 1 (1   / 2), quantil da N(0,1)
 /2
 /2
ie, Rejeitar Ho se |Z| > z/2
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
75
Isabel Fraga Alves

(As distribuições de X e de Y são idênticas)
Teste Unilateral
H1: Med(D)> 0
H1: Med(D)< 0 (localização
(localização de X à direita
da localização de Y)


de X à esquerda da
localização de Y)
p-value: P  Z  z   1  ( z ).
p-value:
P Z  z   ( z ).
Região de Rejeição, ao nível de significância  :
Z   z , z :  (1   )
Z  z , z :  (1   )
1
1

z
Isabel Fraga Alves
76
Exemplo - Cancro pancreático
Teste de Wilcoxon (Grandes Amostras Emparelhadas)
Ho: Med(D) = 0
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)

Agora, podemos analisar o
grupo que teve intervenção
cirúrgica com Esplenectomia
Novamente, temos
observações emparelhadas
sobre cada um dos
pacientes, e estamos
interessados na diferença
entre duas medições de
plaquetas.
Será que há uma diferença
significativa?
Patient
Pre
Post
1
492
375
2
297
382
3
272
325
4
367
585
5
206
181
6
284
237
7
338
273
8
212
243
9
161
147
10
384
326
11
224
214
12
251
292
13
224
263

 z
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
77
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
78
13
Exemplo - Cancro pancreático - Teste de Wilcoxon
A hipótese nula para a nossa
investigação é que não há nenhuma
diferença na contagem de plaquetas, antes e
após a cirurgia com Esplenectomia .

•
•
H0: Med(D) = 0
H1: Med(D) ≠ 0
Rejeitar Ho se T ≤ T0 (Tabela 9),
com
T:=min(T- , T+)

Valor observado de T = 44
T0 (Tabela 9): n=13


•
Two-sided p=0.10
•
T0=21
•
Então: T
não se rejeita H0.

>T0,
Conclusão: Não há nenhuma evidência de
uma diferença entre o pré e pós contagem
plaquetas para os pacientes que tinham
uma Esplenectomia durante sua cirurgia.
Isabel Fraga Alves
Pacient
e
Pre
Post
Di
|Di|
Ordem
T+
1
492
375
117
117
12
12
2
297
382
-85
85
11
11
3
272
325
-53
53
8
8
4
367
585
-218
218
13
5
206
181
25
25
3
3
6
284
237
47
47
7
7
7
338
273
65
65
10
10
8
212
243
-31
31
4
9
161
147
14
14
2
2
10
384
326
58
58
9
9
11
224
214
10
10
1
1
12
251
292
-41
41
6
13
224
263
-39
39
5
Conclusões

T-
•
•
13

4
6
5
44
Os nossos testes de hipóteses mostram que:
47
os doentes a partir do grupo de preservação baço tinham uma
mudança significativa na sua contagem de plaquetas após cirurgia (rej H0)
e os pacientes do grupo Esplenectomia não têm uma mudança
significativa na sua contagem de plaquetas após cirurgia (não rej H0).
Estes resultados podem mostrar que a cirurgia de
preservação baço é difícil para o paciente e outras
medidas devem ser investigadas para garantir que esta
cirurgia não é excessivamente agressiva para os de
pacientes.
No R:
x=c(492,297,272,367,206,284,338,212,161,384,224,251,224)
y=c(375,382,325,585,181,237,273,243,147,326,214,292,263)
wilcox.test(x, y ,alternative = c("two.sided"),paired =T)
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
79
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
80
Comentários

Quando nós temos dados emparelhados e os pressupostos
de um teste-t emparelhado não forem pressupostos, temos
duas maneiras para elaborar o teste de hipóteses sobre a
localização:
Teste Mann-Whitney
• O Teste de Wilcoxon é sempre preferido ao Teste dos
Sinais já que usa mais informação contida nos dados (já que usa as
ordens).
• O Teste de Wilcoxon tem muito mais potência do que o
•
•
Teste dos Sinais para detectar uma diferença significativa.
Não há uma grande perda de potência no Teste de Wilcoxon
comparado a um teste-t quando se mantém a suposição de
normalidade.
Contrapartida não-paramétrica para
Teste-t para amostras
independentes
Por outro lado, o Teste de Wilcoxon é muito mais potente do que
o teste-t quando não é válida a suposição de normalidade.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
81
Teste Mann-Whitney – pequenas amostras independentes
1.
2.
3.
Teste Mann-Whitney – pequenas amostras independentes

Testes para Duas Populações, X e Y, Independentes
Corresponde ao Teste-t para 2 valores médios

Pressupostos
• T1 =
Soma das Ordens das Observações da amostra 1
na amostra conjunta de dimensão n=n1 + n2
• T2 = Soma das Ordens das Observações da amostra 2
na amostra conjunta de dimensão n=n1 + n2
Amostras Aleatórias Independentes (dimensões n1 e n2 )
Populações Contínuas
4.
Aproximação Normal se ni  10
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
H0: X e Y têm distribuição idêntica
H1: As distribuições de X e Y diferem na Localização
83
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
84
14
Teste Mann-Whitney – procedimento
Teste Mann-Whitney – pequenas amostras independentes


U1 = n1n2 +
n1(n1 + 1)
- T1
2
U2 = n1n2 +
n2(n2 + 1)
- T2
2
1. Atribuir Ordens para as n=n1 + n2 Observações
Amostrais
• Se n1 ≠ n2 , considera-se o índice 1 para a menor
dimensão (n1)
•
•
2.
Somar as Ordens, Ti , i=1,2, para cada Amostra
•
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Isabel Fraga Alves
85
Teste Bilateral
H1: As duas populações, X e Y, diferem na localização
Rejeitar H0 ao nível  se o valor observado de U , u, for tal que
p-value = 2 P[U < u ]  
87

Teste Unilateral
H1: A população 1 (X) está
localizada à direita da
população 2 (Y)
Rejeitar H0 ao nível  se o valor
observado de U1 , u1 , for tal
que
p-value=P[U < u1 ] , com
U = U1
Isabel Fraga Alves
Aproximação à Normal
µU 2 =
n1n2
2
U 2 =
86
Teste Unilateral
H1: A população 1 (X) está
localizada à esquerda da
população 2 (Y)
Rejeitar H0 ao nível  se o valor
observado de U2 , u2 , for tal
que
p-value=P[U < u2 ] , com
U = U2
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
88
Teste Mann-Whitney – grandes amostras independentes
Teste Mann-Whitney – grandes amostras independentes

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Procedimento:
1. Assumir que n1 ≤ n2 (inverter as amostras se
necessário)
2. Determinar U1 e U2
3. Usar os valores da Tabela 8 para testar H0 vs H1
Procedimento:
1. Assumir que n1 ≤ n2 (inverter as amostras se
necessário)
2. Determinar U1 e U2
3. U := min (U1 ,U2)
4. Usar os valores da Tabela 8 para testar H0 vs H1
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Isabel Fraga Alves
A distribuição exacta da ET, U , pode ser calculada
Teste Mann-Whitney – pequenas amostras independentes
Teste Mann-Whitney – pequenas amostras independentes
Isabel Fraga Alves
Menor Ordem = 1, Maior Ordem = n
Valores Iguais (ligações) são subsituídos pela
respectiva média das ordens.
H0: X e Y têm distribuição idêntica
n1n2(n1 + n2 + 1)
12
Determine U2 = n1n2 +
n2(n2 + 1)
- T2
2
Teste Bilateral

Z :=
U2 - µU
2
U 2
H1: As distribuições de X e Y diferem na Localização
Rejeitar Ho se | Z | > Z/2
 /2
 z / 2
 /2
z / 2
Z/2 := -1(1- /2),  (.) f.d. da N(0,1)
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
89
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
90
15
Teste Mann-Whitney – Exemplo
Teste Mann-Whitney – grandes amostras independentes

H0: X e Y têm distribuição idêntica
Determinar U2 = n1n2 +
n2(n2 + 1)
- T2
2
Teste Unilateral
H1: A população 1 (X) está
localizada à direita da
população 2 (Y)
Teste Unilateral
H1: A população 1 (X) está
localizada à esquerda
da população 2 (Y)
Rejeitar H0 se Z > z
Rejeitar H0 se Z < -z

z
Isabel Fraga Alves





91
Teste Mann-Whitney – Exemplo
Fábrica 2
Taxa
Ordem
85
82
94
97
...
...
Isabel Fraga Alves
Conclusão:
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Fábrica 1
Taxa
Ordem
71
1
82
77
92
88
93
Teste Mann-Whitney – Exemplo
92
Fábrica 2
Ordem
Taxa
85
82
94
97
...
...
Fábrica 2
Ordem
Taxa
85
82
94
97
...
...
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
94
Teste Mann-Whitney – Exemplo
Fábrica 1
Taxa
Ordem
71
1
82
3
77
2
92
88
Soma
das Ordens
Isabel Fraga Alves
Decisão:
Soma
das Ordens
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Fábrica 1
Taxa
Ordem
71
1
82
77
2
92
88
Estatística de Teste :
Teste Mann-Whitney – Exemplo
Soma
das Ordens
Isabel Fraga Alves
H0: Distribuição Idêntica
Ha: Localização Diferente
 = .10
n1 = 4 n2 = 5
Pontos críticos:

 z
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Fábrica 1
Taxa
Ordem
71
82
77
92
88
Suponha que é um gestor de produção e está interessado em investigar
se as taxas de produção de 2 fábricas são iguais. Para a fábrica 1, as
taxas (% de capacidade) são 71, 82, 77, 92, 88. Para a fábrica 2, as
taxas são 85, 82, 94, 97. Terão as taxas de produção das 2 fábricas a
mesma distribução de probabilidade ao nível de .10 ?
Fábrica 2
Taxa
Ordem
85
82
4
94
97
...
...
Soma
das Ordens
95
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
96
16
Teste Mann-Whitney – Exemplo
Fábrica 1
Taxa
Ordem
71
1
82
3 3.5
77
2
92
88
Teste Mann-Whitney – Exemplo
Fábrica 2
Taxa
Ordem
85
82
4 3.5
94
97
...
...
Fábrica 1
Taxa
Ordem
71
1
82
3 3.5
77
2
92
88
Soma
Das Ordens
Isabel Fraga Alves
Soma
Das Ordens
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
97
Teste Mann-Whitney – Exemplo
Fábrica 1
Taxa
Ordem
71
1
82
3 3.5
77
2
92
88
6
Fábrica 2
Taxa
Ordem
85
5
82
4 3.5
94
97
...
...
Fábrica 1
Taxa
Ordem
71
1
82
3 3.5
77
2
92
7
88
6
99
Teste Mann-Whitney – Exemplo
98
Fábrica 2
Taxa
Ordem
85
5
82
4 3.5
94
97
...
...
Fábrica 2
Taxa
Ordem
85
5
82
4 3.5
94
8
97
...
...
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
100
Teste Mann-Whitney – Exemplo
Fábrica 1
Taxa
Ordem
71
1
82
3 3.5
77
2
92
7
88
6
Soma
das Ordens
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Soma
Das Ordens
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Fábrica 1
Taxa
Ordem
71
1
82
3 3.5
77
2
92
7
88
6
Isabel Fraga Alves
Teste Mann-Whitney – Exemplo
Soma
Das Ordens
Isabel Fraga Alves
Fábrica 2
Taxa
Ordem
85
5
82
4 3.5
94
97
...
...
Fábrica 2
Taxa
Ordem
85
5
82
4 3.5
94
8
97
9
...
...
Soma
Das Ordens
101
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
102
17
Teste Mann-Whitney – Exemplo
Teste Mann-Whitney – Exemplo

Fábrica 1
Taxa
Ordem
71
1
82
3 3.5
77
2
92
7
88
6
Soma
Das Ordens
Fábrica 2
Taxa
Ordem
85
5
82
4 3.5
94
8
97
9
...
...
19.5




Suponha que é um gestor de produção e está interessado em investigar
se as taxas de produção de 2 fábricas são iguais. Para a fábrica 1, as taxas
(% de capacidade) são 71, 82, 77, 92, 88. Para a fábrica 2, as taxas são
85, 82, 94, 97. Terão as taxas de produção das 2 fábricas a mesma
distribução de probabilidade ao nível de .10 ?
Estatística de Teste :
T1 = 5 + 3.5 + 8+ 9 = 25.5
(Amostra de dimensão mais pequena)
H0: Distribuição Idêntica
n (n  1)
45
Ha: Localização Diferente
U1  n1n2  1 1
 T1  4  5 
 25.5  4.5
2
2
 = .10
p-value= 2P[ U1< 4.5 ] >2P[ U1< 4] =2x 0.0952
n1 = 4 n2 = 5
Decisão:
Não Rejeitar ao nível de  = 10%
25.5
Conclusão:
Não existe evidência estatística que nos permita duvidar que as 2
Fábricas têm Taxas de Produção Idênticas, ao nível de 10%.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
103
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
104
Teste Mann-Whitney – Exemplo




Suponha que é um gestor de produção e está interessado em investigar
se as taxas de produção de 2 fábricas são iguais. Para a fábrica 1, as taxas
(% de capacidade) são 71, 82, 77, 92, 88. Para a fábrica 2, as taxas são
85, 82, 94, 97. Terão as taxas de produção das 2 fábricas a mesma
distribução de probabilidade ao nível de .10 ?
Teste de Kruskal-Wallis
H0: Distribuição Idêntica
Ha: Localização Diferente
 = .10 n1 = 4 n2 = 5
No R:
x<-c(71, 82, 77, 92, 88)
y<-c(85, 82, 94, 97)
wilcox.test(x, y ,alternative = c("two.sided"),paired =F)
Wilcoxon rank sum test with continuity correction
Contrapartida não-paramétrica para
ANOVA completely
randomized
data: x and y
W = 4.5, p-value = 0.2187
alternative hypothesis: true location shift is not equal to 0
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
105
Teste de Kruskal-Wallis

Teste Kruskal-Wallis
A análise da variância leva em consideração que

• as variáveis são independentes,
• tem uma distribuição normal com uma variância
•
comum (homogeneidade das variâncias)
Ho: k populações com distribuições idênticas.
versus
• H1: pelo menos duas das k populações diferem
na localização.
• média constante em cada coluna.

O teste Kruskal-Wallis é um método não
paramétrico.
• Não leva em consideração formas específicas de
•
distribuição.
Contrapartida não-paramétrica para
ANOVA completely randomized
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Trata-se de um teste para decidir se
k amostras de dimensões ni, i=1,…,k, (k>2) independentes
provêm de
107

Considerar a amostra global das n = ∑ni observações e
atribua Ordens.

Calcular as Somas das Ordens Ri , para cada amostra
i=1,…,k.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
108
18
Teste Kruskal-Wallis
Teste Kruskal-Wallis – Grandes Amostras
Estatística de Teste:

•

Sob a hipótese nula, Estatística de Teste H
segue aproximadamente um Qui-Quadrado com g.l.= k-1

Decisão:
Sem empates
H  H* 
k
k
Ri2
12
12
 3(n  1) 
ni ( Ri  R ) 2 ,


n(n  1) i 1 ni
n(n  1) i 1
Rejeitar hipótese nula Ho se H > χ2k-1, 1-α
Ri  Ri / ni e R  (n  1) / 2
•
Rejeitar Ho se o valor da ET de K-W é
“grande”
Com empates( Siegel & Castellan ‟88, pg.210)
g := nº de grupos de empates distintos
tj := nº de valores empatados no grupo j de
H*
H
g
empates, j=1,…,g
1
 (t
j 1
3
j

n n
3
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Isabel Fraga Alves
χ2k-1, 1-α
tj)
109

Quando k = 3 e ni  5, sem empates:



os Quantis w ,  = 0.90, 0.95, 0.99 da
distribuição exacta da ET K-W estão
tabelados na
•

Decisão: (ao nível α)
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
110
Primeiramente, os dados são convertidos em “ordens”.
Considere os 4 Tratamentos seguintes, A, B, C, D, cada
um com cinco réplicas.
Tabela A8 (Conover ‟80)
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Tratamentos

Rejeitar hipótese nula Ho se H > w1-α
111
Teste de Kruskal-Wallis

Isabel Fraga Alves
Teste de Kruskal-Wallis
Teste Kruskal-Wallis – Pequenas Amostras

Deve-se usar apenas quando a mais pequena das
dimensões ni ≥ 5.
A
B
C
D
27
48
11
44
14
18
0
72
8
32
3
81
18
51
15
55
7
22
8
39
Podemos dizer que esses valores são provenientes da
mesma distribuição?
Ou seja, não existe uma diferença significativa entre os
Tratamentos?
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
112
Teste de Kruskal-Wallis
Ordenação



A hipótese nula é que todos os grupos vêem da
mesma população.
Seja n = 20, o tamanho da amostra total.
A Estatística de Teste é
H* 
i
k
R2
12
  i  3(n  1)
n(n  1) i 1 ni
i
i
i
i

i
 12 
H*  
 259.2  884.45  92.45  1479.2  3  (21)  14.6
 20  21
•Nota:
As diferenças nos pontos médios (Ri/ni) indicam diferenças nos grupos.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Para nosso exemplo
113
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
114
19
Teste de Kruskal-Wallis



Teste de Kruskal-Wallis
Factor de Correcção:
Com g = 2 (valores 8 e 18), t1 = t2 = 2 (dois valores 8 e dois valores 18),
A Estatística de Teste corrigida é
H*
H
1
Para nosso exemplo
2
1
 (t
j 1
3
j
tj)
n n
3
 1
 (t
j 1
3
j

n3  n
χ23
7.81
χ23, 0.95
DECISÃO:
14.6
 14.622
0.9985
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Comparação deste valor com o quantil 2 com (k -1=3)
graus de liberdade.
Da tabela do 2 com 3 graus de liberdade temos
• χ23, 0.95 =7.81 para 95%.
• Como H = 14.622
tj)
2(23  2)
12
 1
 0.9985
203  20
7980
H
Isabel Fraga Alves
2

14.5
Logo, a hipótese nula deve ser rejeitada, ou seja,
as amostras não pertencem a mesma população.
115
Teste de Kruskal-Wallis
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Isabel Fraga Alves
116
Teste de Kruskal-Wallis
No R:
No R:
kruskal.test(list(aa,bb,cc,dd))
aa <- c(27,14,8,18,7) # tratamento A
bb <- c(48,18,32,51,22)
# tratamento B
cc <- c(11,0,3,15,8) # tratamento C
dd <- c(44,72,81,55,39) #tratamento D
grupo <- factor(rep(1:4, each=5),labels = c("A","B","C","D"))
grupo
r<-rank(c(aa,bb,cc,dd))
R<-tapply(r,grupo,sum)
R
n=20
hstar= (12/(n*(n+1))) * sum(R^2/5) - 3*(n+1)
hstar
#Fator de correção
t=c(2,2)
correction=1-sum(t^3-t)/(n^3-n)
correction
h=hstar/correction
h
Outro exemplo
## Mucociliary efficiency from the rate of removal of
## dust in normal subjects, subjects with obstructive
## airway disease, and subjects with asbestosis.
x <-c(2.9, 3.0, 2.5, 2.6, 3.2) # normal subjects
y <-c(3.8,2.7,4.0,2.4)# with obstructive airway disease
z <-c(2.8, 3.4, 3.7, 2.2, 2.0) # with asbestosis
#h sob ho segue qui-quadrado com k-1 graus de liberdade=3
p.valor<-pchisq(h,df=3,lower.tail=F)
p.valor
quantil<-qchisq(p=0.95, df=3, lower.tail = TRUE)
quantil
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
117
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Isabel Fraga Alves
118
Teste do Coef de correlação ordinal de Spearman
Teste do Coeficiente de
correlação ordinal de
Spearman

População X
População Y
(contínuas)
( X1 , Y1 ),( X 2 , Y2 ),
,( X n , Yn )
H0 : Não existe relação (associaçao) entre X e Y , ie,
contrapartida não-paramétrica do
coeficiente de correlação
amostral de Pearson
X e Y são independentes
vs. H1 : existe associaçao entre X e Y (Teste Bilateral)
vs. H1 : existe associaçao directa entre X e Y (Teste Unilateral)
vs. H1 : existe associaçao inversa entre X e Y (Teste Unilateral)
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
120
20
Teste do Coef de correlação ordinal de Spearman
 O coeficiente de correlação ordinal de
Spearman Rs é a contrapartida não-paramétrica do
Teste do Coef de correlação ordinal de Spearman

Coeficiente de correlação ordinal de Spearman Rs:
coeficiente de correlação amostral de Pearson, em que
os Xi‟s e os Yi‟s sao substituídos pelas suas ordens.
Se nao houver empates,
• Para obter r(Xi)=ordem de Xi e r(Yi)= ordem de Yi,
6 d i2
n
RS  1 
i 1
,
n(n 2  1)
com d i  r ( xi )  r ( y i ).
ordenam-se as amostras dos Xi‟s e os Yi‟s separadamente.

Observação:

Num modelo paramétrico e Normal, X e Y são independentes sse o
coeficiente de correlção ρ=corr(X,Y)=0, ie,
•

FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
Isabel Fraga Alves
121
Teste do Coef de correlação ordinal de Spearman
 Região de Rejeição (Pequenas Amostras):
Isabel Fraga Alves
{RS  r0 } ou {RS  r0 }


= P(RS ≥ rS)

= P(RS ≤ rS)


p-value= 2 min[P(RS≤rS), P(RS≥rS)] (Teste Bilateral)


Teste Bilateral
Testes Unilaterais

(Testes Unilaterais)

Observação: Se o nº de empates for pequeno relativamente ao nº
de pares (Xi,Yi) o erro resultante desta última expressão é pequeno.

Grandes Amostras: para um nº de pares (Xi,Yi) elevado,
n-1 RS pode ser aproximada pela N(0,1).
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
123
Teste de Spearman - Exemplo
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
122
Teste de Spearman - Exemplo
Com r0 escolhido criteriosamente na Tabela 11,
Rejeitar H0 , se {RS  r0 ou RS  r0 }  | RS |  r0
Observação: Se o nº de empates for pequeno relativamente ao
nº de pares (Xi,Yi) o erro resultante desta última expressão é
pequeno.
testar Ho é equivalente a testar Ho: ρ =0, pelo que e natural usar o coeficiente
de correlacao amostral.
Cinco professores de Ciências do
ensino básico foram classificados
por um júri de acordo com sua
capacidade pedagógica.
Esses mesmos professores
realizaram um "exame nacional
para professores".
Existe acordo entre a classificação
do júri e a classificação no exame?
Se a Ordenação do Júri é baixa
(melhor professor), seria de
esperar a Classificação elevada
no exame para professores;
pelo que colocamos na hipótese
alternativa uma associação inversa
entre as variáveis Ordenação do
Júri e Classificação no Exame.
Isabel Fraga Alves
Professor
1
2
3
4
5
Ordenação
do Júri
4
2
3
1
5
Classificação
no Exame
72
69 82
93
80
H0 : Não existe associaçao) entre X e Y
vs.
H1 : existe associaçao inversa entre X e Y
(Teste Unilateral)
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
124
Teste de Spearman - Exemplo
H0 : Não existe associaçao) entre X e Y
vs.
H1 : existe associaçao inversa entre X e Y
n
rS  1 
(Teste Unilateral)

Ordenar os Resultados dos Exames (a 1ª variavel já está na
6 di2
i 1
2
n(n  1)
 1
6  di2
6(26)
 1
 0.3.
2
n(n  1)
5(25  1)
forma ordenada). Não há empates.
Professor
1
2
3
4
5
Ordenação do Júri
4
2
3
1
5

Classificação no Exame 72
69
82
93
80

R(xi)
4
2
3
1
5
R(yi)
2
1
4
5
3
di
2
1
-1
-4
2
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
125
Com nível de significância=0.05, n=5
Rejeita-se H0 se Rs <=0
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (2009/2010)
126
21
Teste de Spearman - Exemplo
Teste de Spearman - Exemplo
No R:
a <- c(4,2,3,1,5)
b <- c(72, 69,82,93,80)
cor.test(a, b, method="spearman",alternative="less")
Spearman's rank correlation rho
data: a and b
S = 26, p-value = 0.3417
alternative hypothesis: true rho is less than 0
sample estimates:
rho
-0.3
Decisão: Não Rejeitar Ho.
Não existe evidência suficiente que indique uma
associação negativa entre Ordenação do Júri e
Classificação no Exame, ao nível de significância de
5%.
> ?cor.test
22
Download