Métodos Não-Paramétricos - Moodle

Propaganda
Métodos Não-Paramétricos
Departamento: DEIO
Licenciatura: Estatística Aplicada
1ºAno / 2º Semestre / 6 ECTS
Docente: Isabel Fraga Alves ([email protected] )
Programa
Introdução
Análise de Dados Categorizados
•
Teste do Qui-Quadrado
•
•
Teste de Ajustamento
Tabelas de Contingência
•
•
Teste de Independência
Teste de Homogeneidade
Estatística Não-Paramétrica
•
•
•
•
Introdução: O problema geral da localização relativo a 2 amostras
Amostras emparelhadas
•
•
Teste dos Sinais (pequenas e grandes amostras)
Teste de Wilcoxon (pequenas e grandes amostras)
Uso das “Ordens” para Comparar Populações: Amostras Independentes
•
•
2 Populações: O Teste de Mann-Whitney (pequenas e grandes amostras)
Mais de 2 Populações:
•
•
O Teste de Kruskal-Wallis (pequenas e grandes amostras)
Teste de Friedman (pequenas e grandes amostras)
Uso das “Ordens” para Testar Independência e Aleatoriedade
•
•
Teste de Spearman (pequenas e grandes amostras)
Teste dos “Runs” para Aleatoriedade (pequenas e grandes amostras)
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
2
Bibliografia
CONOVER, W. J. (1999) - Practical Nonparametric Statistics, 3rd ed. Wiley.
DANIEL, W. W. (1990) - Applied Nonparametric Statistics, 2nd ed. PWS-Kent.
Graça Martins, M. E. (2005) – Introdução à Probabilidade e à Estatística – Com
complementos de Excel, SPE.
DeGroot, Morris H. - Probability and statistics (1986 ) - 2nd ed Massachusetts AddisonWesley.
Pestana e Velosa (2006) - Introdução à Probabilidade e à Estatística, I, Fundação
Gulbenkian. 2ª ed.
SIEGEL, S. and Castellan, N. Y. (1988) - Nonparametric Statistics for the Behavioral
Sciences. McGraw-Hill.
* Wackerly, D., Mendenhall, W. and Scheaffer, L. (1995) –
Mathematical Statistics with Applications. Duxbury Press; 5th ed.
* Manual Recomendado para consulta das Tabelas ao longo dos slides.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
3
Introdução
O que é a Estatística ?
Estudo da Incerteza
Como a quantificar? Que podemos fazer com ela?
As experiências repetidas
sob o que pensamos serem as condições
não resultam sempre da mesma forma…!
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
4
Tipos de Experiências
Causais ou Determinísticas
Ex: Deixar cair uma pedra no rio
Aleatória ou Estocástica
Ex: O Tempo que vou Esperar pelo Autocarro
Como posso “prever” o resultado?
Com Estatística quantificamos e medimos o “imprevisível”!
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
5
Estatística: produz afirmações numéricas relativamente a
situações sujeitas a INCERTEZA.
Exemplos:
• Quem irá ganhar as próximas eleições?
• Estarão os clientes da PT satisfeitos com o serviço
•
•
•
prestado?
Qual das duas pastas dentífricas é mais eficiente que a
outra para prevenir as cáries?
Qual a previsão da quantidade de precipitação para o
próximo inverno?
Após a monitorização de pacientes com doenças
cardíacas, como decidir acerca dos factores que
afectam a sua saúde ?
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
6
Como e Que Respostas ?
Para responder a estas perguntas frequentemente usamos modelos
probabilísticos, que são modelos matemáticos para lidar com incerteza.
São recolhidos Dados para explorar uma População, o objectivo
de nosso estudo.
•AMOSTRA
Quando é recolhida uma amostra grande é necessário produzir resumos
das informações nela contidas. Existem ferramentas gráficas e numéricas
que são normalmente utilizadas pelos estatísticos
•Estatística Descritiva
Inferência Estatística - faz generalizações, válidas para a População,
a partir de Amostras.
(enquanto na Previsão - é apresentada uma afirmação sobre o Futuro.)
Dados - observações de determinadas quantidades de interesse.
Variáveis - incerteza acerca dos seus verdadeiros valores.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
7
Tipos de Variáveis
VARIÁVEL
QUANTITATIVA
DISCRETA
Isabel Fraga Alves
CONTÍNUA
QUALITATIVA
ORDINAL
NOMINAL
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
8
Tipos de Variáveis (cont.)
QUANTITATIVA vs. QUALITATIVA : variáveis com /
sem representação numérica e ordenação natural
única (por exemplo, a pressão arterial versus religião).
DISCRETA vs. CONTÍNUA: variáveis quantitativas
com / sem lacunas conceptuais entre os seus valores
(por exemplo, número de crianças numa família versus
pressão arterial).
ORDINAL vs. NOMINAL: variáveis qualitativas com
/ sem ordenação (eventualmente não única) dos seus
valores (a satisfação do cliente versus religião).
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
9
Tipos de Variáveis (cont.)
De modo geral,
as variáveis qualitativas estão mais ligadas aos
modelos não-paramétricos
enquanto que
as variáveis quantitativas aos modelos
paramétricos.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
10
Tipos de Variáveis (cont.)
As variáveis qualitativas podem ainda ser classificadas de acordo com:
VARIÁVEL CATEGORIZADA – (Categórica, Nominal ou de Classe)
•
nomes das pessoas ou coisas; as letras do alfabeto; o sexo, masculino ou feminino,
macho ou fêmea; o estado civil, solteiro, casado, divorciado, viúvo; o curso, primário,
secundário, colegial, universitário, pós-graduação, etc.
Representa o nível mais simples e mais elementar de medição. Os indivíduos de uma
população ou amostra são medidos mediante uma certa característica que pode ser
categoria, nome ou classe.
Características binárias ou dicotomizadas:
•
presente ou ausente, 1 ou 0, positivo ou negativo, vivo ou morto, sim ou não, benigno
ou maligno, etc.
Essas características são mutuamente exclusivas, isto é, cada indivíduo só pode se enquadrar
em um único nome, categoria ou classe, e também são exaustivas, pois devem atingir todos os
indivíduos da população ou amostra em estudo, sem excepção.
A variável categórica é qualitativa e não se presta aos cálculos aritméticos
comuns: soma, subtracção, multiplicação e divisão.
Apresenta as seguintes propriedades de equivalência (=): reflexiva (x=x); simétrica
(x=y então y=x); transitiva (x=y e y=z então x=z).
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
11
Tipos de Variáveis (cont.)
VARIÁVEL ORDINAL –
•
no alfabeto, A,B,C,D ou D,C,B,A; em números de ordem, 1,2,3 ou 3,2,1; no
sexo, F,M ou M,F; no curso, primário- secundário-superior ou superiorsecundário-primário; em uma quantificação, leve-moderado-intenso ou intensomoderado-leve; em cruzes, +,++,+++,++++ ou ++++,+++,++,+; na ordenação
de dados numéricos, 11,18,23,29,35 ou 35,29,23,18,11; etc.
Os indivíduos de uma população ou amostra são classificados de acordo
com as diversas categorias de uma determinada característica e em
seguida são ordenados. Esta ordenação pode ser crescente ou
decrescente, ou igualmente, ascendente ou descendente.
A variável ordinal também é qualitativa.
• Sabe-se que um indivíduo ou coisa é maior ou menor do que outro, porém não se
sabe o quanto é maior nem o quanto é menor. São comuns as expressões
comparativas: maior, menor; superior, inferior; primeiro, último; mais intenso,
menos intenso; mais alto, mais baixo; preferível; etc.
Na escala ordinal utilizam-se as comparações maior do que (>) e menor do
que (<). As operações aritméticas comuns (adição, subtracção,
multiplicação e divisão) não são aplicáveis.
Na ordenação, a relação maior do que (>) apresenta a propriedade transitiva (se x>y e
y>z então x>z).
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
12
Tipos de Variáveis (cont.)
VARIÁVEL INTERVALAR –
•
os valores de idade, altura, peso, pressão arterial, frequência cardíaca, exames
laboratoriais, medidas diversas, etc.
A escala intervalar é verdadeiramente quantitativa. A medição é feita
directamente em números reais, obtidos mediante a comparação com um
determinado valor fixo, denominado unidade. O nome intervalar está
ligado aos intervalos entre as categorias da variável e aqui se sabe
exactamente o quanto uma categoria é menor ou maior que outra,
ou ainda se há igualdade entre elas.
As operações aritméticas comuns (soma, subtracção, multiplicação e
divisão) são aplicáveis.
A variável intervalar reúne todas as propriedades dos dois tipos anteriores
de mensuração: as de equivalência (=), reflexiva (x=x), simétrica (x=y
então y=x) e transitiva (x=y e y=z então x=z) e a de ordenação (>),
transitiva (x>y e y>z então x>z).
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
13
ESTATÍSTICA NÃO
PARAMÉTRICA
Extremamente interessante para
análises de dados qualitativos.
MEDIDAS DE TENDÊNCIA CENTRAL - Localização
Média
Mediana
Moda
ɺ
amostra aleatoria
(a.a.) - X 1 , X 2 ,⋯ , X n
amostra observada - x1 , x2 ,⋯ , xn
Média Amostral - é a soma de
todos os valores de uma amostra
dividida pelo nº de elementos da
amostra (dimensão).
É aplicada em variáveis quantitativas.
A média amostral é a
contrapartida empírica do Valor
Médio da População ou da
Variável, µ.
Isabel Fraga Alves
1 n
X = ∑ Xi
n i =1
1 n
x = ∑ xi
n i =1
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
15
MEDIDAS DE TENDÊNCIA CENTRAL - Localização
Mediana Amostral - É o valor da
amostra que ocupa a posição central,
quando todos os valores estão
ordenados em ordem crescente ou
decrescente.
Se n for ímpar, a mediana ( Med )
será o valor que ocupa a posição
central na amostra ordenada. Esta
posição pode ser calculada por
(n+1)/2.
Se n for par, a Med será calculada
pela média aritmética dos dois valores
centrais na amostra ordenada da
amostra. A posição de cada um desses
dois valores centrais pode ser
calculada por n/2 e n/2+1.
A Mediana é muito utilizada nos
cálculos não-paramétricos.
Isabel Fraga Alves
amostra ordenada observada x1:n ≤ x2:n ≤ ⋯ ≤ xn:n
x n +1
n impar

:n

2
Med =  

1
  x n + x n  n par
+1:n
 2  2 :n

2
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
16
MEDIDAS DE TENDÊNCIA CENTRAL - Localização
Moda - É o valor da
variável que
corresponde à
frequência máxima.
Dados:
25, 22, 28, 32, 35, 55, 83, 83, 98, 99, 43, 46, 51
(n=13)
amostra observada ( x1 , x2 ,⋯ , xn ) =
(25, 22, 28, 32, 35, 55, 83, 83, 98, 99, 43, 46, 51 )
A moda pode ter um
ou mais valores,
unimodal, bimodal,...,
multimodal, conforme
existam uma, duas, ou
mais frequências iguais,
dos valores da variável.
Isabel Fraga Alves
amostra ordenada observada x1:n ≤ x2:n ≤ ⋯ ≤ xn:n =
(22, 25, 28, 32, 35, 43, 46, 51, 55, 83, 83, 98, 99)
média
mediana
moda
x = 53.9
Med = 46
Mo = 83
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
17
Localização: Mediana vs. Média
Razões para usar a mediana:
• – É menos influenciada por valores extremos
• – Se as distribuições são simétricas, a média e a
mediana populacional coincidem
Média vs. Mediana
• 5 6 6 7 7 8 10
• Média = 7 Med = 7
• 5 6 6 7 7 8 50
• Média = 8.43 Med = 7
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
18
Objectivos do Curso
Distinguir
•
Metodologias Paramétricas
&
•
Explicar uma
•
Metodologias Não-Paramétricas
Variedade de Testes Não-Paramétricos
Resolver
•
Problemas de Testes de Hipóteses
usando
•
Isabel Fraga Alves
Testes Não-Paramétricos
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
19
Quadro Geral
Até este ponto, todos os testes que têm utilizado estão
sujeitos a suposições sobre a distribuição subjacente aos
dados. Especificamente, é assumido que os dados são normais
para usar o teste-t, por exemplo.
Poder-se-ia usar a teoria de grandes amostras e o Teorema
do Limite Central, mas isso ainda apenas se verifica
Assintoticamente
n→∞
O que é que acontece se não estamos dispostos ou não é sensato
fazer as suposições de normalidade sobre a distribuição subjacente
e temos uma amostra de dimensão pequena ?
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
20
TESTE DE HIPÓTESES
Trata-se de uma técnica para se
fazer a inferência estatística sobre
uma população a partir de uma
amostra
Teses de Hipóteses - Metodologias
Teste de
Hipóteses metodologias
Paramétricas
Não-Paramétricas
Teste
Wilcoxon
etc
Teste - z
Teste - t
etc
Teste
Kruskal-Wallis
ANOVA
E muitos mais…!
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
22
Teses de Hipóteses - Metodologias
Amostra emparelhada
Teste-t
emparelhado
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
23
Estatística Não-Paramétrica
Muitos dos testes estatísticos não-paramétricos
respondem à mesma série de questões tal como os
testes paramétricos.
• Com testes não-paramétricos as hipóteses podem ser
flexibilizadas consideravelmente.
• Por conseguinte, são utilizados métodos não-paramétricos
para situações que violem os pressupostos de procedimentos
paramétricos.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
24
Testes Paramétricos
Testes Paramétricos
•
Incidem explicitamente sobre um ou mais parâmetros
de uma ou mais populações;
• A distribuição de probabilidades da estatística de teste
pressupõe uma forma particular das distribuições
populacionais;
• As variâncias são homogéneas;
• Os erros ou resíduos são aleatórios e independentes
e têm distribuição normal com variância finita e
constante.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
25
Testes Não-Paramétricos
Testes Não Paramétricos
• Requerem menos pressupostos em relação à
população;
• Não exigem normalidade;
• Não se baseiam em parâmetros da distribuição (logo, não
necessitam variâncias homogéneas);
• Ligeiramente menos eficientes que os testes
paramétricos;
• Baseiam-se nas estatísticas ordinais (e não nos
valores das observações);
• Mais fáceis de aplicar.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
26
Testes Não-Paramétricos
Vantagens
Poucos Pressupostos Relativos à População
Facilidade de implementação
Maior Perceptibilidade
Aplicável em Situações Não Abrangidas Pela Normal
Mais Eficientes quando as Populações não têm Distribuição Normal
Os resultados podem ser tão exactos como nos procedimentos paramétricos
Desvantagens
As hipóteses testadas por testes não-paramétricos tendem a ser
menos específicas;
Não têm Parâmetros, Dificultando Comparações Quantitativas
entre Populações
Escasso Aproveitamento de Informação da Amostra
Pode ser de Difícil Cálculo à mão para Grandes Amostras
Tabelas não amplamente disponíveis
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
27
Estatística Não-Paramétrica - Distribuição Livre
• Não incorpora as suposições restritivas, características dos
testes paramétricos.
• Os dados não precisam estar normalmente distribuídos
(Distribution-Free). É necessário, apenas, que eles sejam
ordenáveis.
• Muitas vezes, são baseados nas ordens das observações e não
nos seus valores, como no caso paramétrico.
• Podem ser aplicados para variáveis quantitativas e qualitativas.
• Menos sensíveis aos erros de medida e rápidos para pequenas
amostras.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
28
TESTE DE HIPÓTESES
Trata-se de uma técnica para se
fazer a inferência estatística sobre
uma população a partir de uma
amostra
PRINCIPAIS CONCEITOS
HIPÓTESE
•
Trata-se de uma suposição quanto ao valor de um parâmetro
populacional, ou quanto à natureza da distribuição de
probabilidade de uma variável populacional.
TESTE
•
ESTATÍSTICA
DE HIPÓTESES
É uma regra de decisão para “aceitar” ou rejeitar uma hipótese
estatística com base nos elementos amostrais
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
30
TEORIA POPPERIANA
- Falseabilidade (ou refutabilidade)
“Science can't prove anything. It can only disprove things.”
A ciência não pode provar nada. Só pode refutar coisas.
•
Considere o exemplo do famoso Cisne Negro (black swan):
•
•
•
Isabel Fraga Alves
Um cientista gasta sua vida observando cisnes. Observa que todos
os cisnes que jamais viu são brancos. Com base nesta evidência
empírica, ele postula uma teoria de que “todos os cisnes são
brancos”.
Um dia viaja para a Austrália e vê - UPS! - um Cisne Negro.
A sua teoria é refutada. Mas isso não significa que não era
ciência quando a estabeleceu. Agora, pode estabelecer uma teoria
nova: “Os cisnes podem ser brancos ou pretos”.
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
31
Karl Popper(1902- 1994) - UM
FILÓSOFO INOVADOR
Sir Karl Raimund Popper foi filósofo da ciência austríaco naturalizado
britânico e um professor da London School of Economics.
Formou-se em matemática, física e filosofia da ciência britânica.
Uma das pessoas mais influentes da filosofia da Ciência durante o século
XX.
POPPER E A REFUTAÇÃO
•
•
•
Uma hipótese só é científica se puder ser colocada em questão
(“refutada”).
Isto significa que deve ser sempre possível realizar uma observação
que prove que a hipótese é falsa
Uma teoria científica não poderá em nenhuma circunstância ser
declarada “verdadeira”
A teoria científica mais não é do que uma hipótese; uma conjectura, que um dia será
refutada e substituída por uma outra.
“ What really makes science grow is new ideas, including false ideas.” –Karl Popper
SÓ APRENDEMOS QUANDO ERRAMOS.
OS ESTATÍSTICOS NÃO PERGUNTAM QUAL É A PROBABILIDADE DE ESTAREM CERTOS,
MAS A PROBABILIDADE DE ESTAREM ERRADOS.
•
Para fazerem isso estabelecem uma hipótese nula.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
32
Data Analysis and Research for Sport and Exercise Science: A Student Guide
By Craig Williams, Chris Wragg, Routledge ed., 2003. pag 6
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
33
PRINCIPAIS CONCEITOS
TIPOS DE HIPÓTESES
•
•
H0, hipótese nula, a hipótese estatística a ser testada
H1, hipótese alternativa
A HIPÓTESE NULA É UMA AFIRMAÇÃO DE COMO O MUNDO
DEVERIA SER, SE NOSSA SUPOSIÇÃO ESTIVESSE ERRADA.
• Ex:
A hipótese nula expressa uma igualdade, enquanto a
hipótese alternativa é dada por uma desigualdade.
H 0 : µ = 1.5 m vs. H1 : µ ≠ 1.5 m
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
34
Testes de Hipóteses – Erros
EXISTEM DOIS TIPOS DE ERRO:
• Erro tipo 1 - rejeição de uma hipótese nula verdadeira
• Erro tipo II – “aceitação” de uma hipótese nula falsa
• “aceitação”
“não rejeição”
• A probabilidade α do erro tipo I é denominada
“nível de significância” do teste.
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
35
Testes de Hipóteses – Erros
ET:= Estatística de Teste
RR:= Região de Rejeição
RA:= Região de Aceitação
REGRA de TESTE: ET∈ RR então Rejeitar H0
Realidade
H0 verdadeira
Decisão
Não rejeitar
H0
Decisão
correcta
H0 falsa
Erro tipo II
Decisão
Rejeitar
H0
Erro tipo I
correcta
α = P( erro tipo I ) = P(rejeitar H0| H0 verdadeira) = P(ET ∈ RR | H0 verd.)
nível de significância ou tamanho do teste
β = P(erro tipo II)= P(não rejeitar H0| H0 falsa) = P(ET ∈ RA | H0 falsa)
1-β
β = potência do teste → Probabilidade de não cometermos um erro do tipo II
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
36
p -Value
O resultado foi significativo?
Quão pequeno tem de ser o p-value, para se rejeitar a
hipótese nula?
•
•
Se p-value < 5 % estatisticamente significativo.
Se p-value < 1 % altamente significativo.
Os investigadores devem
•
resumir os dados,
• dizer qual o teste usado e
•
reportar o p-value
(em vez de apenas o comparar com os valores de 1 % ou 5 % )
No caso de se estabelecer à partida o nível de significância α e se o
TESTE indicar a aceitação de H0, diz-se que
Ao nível de significância α não se pode rejeitar H0 .
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
37
TIPOS DE TESTE
Qui-Quadrado
Teste
dos Sinais
Teste de Wilcoxon
Teste de Mann-Whitney
Teste de Kruskal-Wallis
Teste de Friedman
Teste de Spearman
Teste dos Runs
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
38
QUI-QUADRADO (χ
χ2)
Testes de Ajustamento,
Independência e Homogeneidade
QUI-QUADRADO
ET:
Testes:
1.
2
(
Observadas
−
esperadas
)
i
i
X2 =∑
esperadasi
i
Ajustamento (em inglês
“Goodness-of-fit”):
frequência observada ajustada a uma
frequência esperada );
2.
Independência entre duas
variáveis:
Comportamento de uma variável
dependente ou não de outra
(Tabelas de Contingência).
3.
Homogeneidade de
Populações independentes:
(Tabelas de Contingência - margem fixa)
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
40
Ajustamento (“Goodness-of-fit” - testes para o ajuste)
Tradicionalmente são utilizados para verificar a
qualidade da adequação (“fit”) de uma distribuição
teórica em relação a um conjunto de observações
(amostra) - e.g. testar a Normalidade de uma amostra.
Testes não paramétricos:
• amostras de valores contínuos (acesso aos dados originais)
• Kolgomorov-Smirnov (e outros que não iremos dar neste curso…)
• amostras de dados categorizados
• Qui-Quadrado Χ (sugerido por Karl Pearson)
2
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
41
Ajustamento (“Goodness-of-fit”)
Os testes de ajustamento servem para testar a
hipótese de que uma determinada amostra observada
tenha sido extraída de uma população com
distribuição especificada (Hipótese Nula Simples); .
F0
AMOSTRA ALEATÓRIA proveniente da f.d. F(.):
X 1 , X 2 ,⋯ , X n
i.e,
X i iid
F
Hipóteses a testar:
H 0 : F ( x) = F0 ( x) vs. H1 : F ( x) ≠ F0 ( x)
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
42
Exemplo 1
A procura diária de um certo
produto foi, em 60 dias
escolhidos ao acaso, a que
consta da tabela 1:
Será que tais observações
foram extraídas de uma
população com distribuição
de Poisson,
ie,
Será de admitir que tal
procura segue uma
distribuição de Poisson?
Isabel Fraga Alves
Número de
unidades
Número de
dias
0
2
1
4
2
9
3
11
4
14
5
10
6
5
7
3
8
1
9
1
Tabela
I: Procura diária de um
produto registada em 60 dias.
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
43
Exemplo 2
Pretende-se construir um modelo de
simulação das operações de um
determinado terminal de um porto
situado na Europa.
Uma das variáveis a considerar no
modelo é a diferença entre a data
de chegada dos navios provenientes
dos EU e a respectiva data planeada.
Dado que tal diferença é
influenciada por muitos factores,
pode tomar-se como uma variável
aleatória.
Há razões para supor que tem
distribuição Normal de valor médio
0.1 e desvio padrão 7.2.
Uma amostra de 30 navios revelou os
resultados que se apresentam na
Tabela 2.
-6.6
-2
5
2.4
-1.8
-0.3
15
-7.6
-0.6
2.6
-7.4
12.4
-6
-5.8
15.2
-2.4
-8.9
-5.6
-3.7
2.2
8.2
-9
13.2
7.6
-2.8
-1.8
1.8
4.4
2.2
4
Tabela
2: Diferença entre a data de chegada e a
data planeada para 30 navios.
Será mesmo de admitir que tais
dados foram extraídos de uma
população N(0.1, 7.22) ?
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
44
TESTE DO QUI-QUADRADO - Ajustamento
Consideremos uma População X dividida em k ≥ 2 categorias
disjuntas e exaustivas A1, A2, … , Ak,
(cada indivíduo da população pertence a uma e só a uma das categorias)
Para i=1, … , k, seja pi a proporção de indivíduos da População
pertencentes a categoria Ai ,
k
• pi = P[ X ∈ Ai ] com ∑ p = 1
i
i =1
Fazer inferência estatística acerca desta População resume-se a
estudar os parâmetros
Classes
• pi , i=1, … , k.
A1
Recolha-se da População X em estudo uma amostra de
A2
dimensão n,
x1 , x2 ,⋯ , xn
e comece-se por construir a tabela
Isabel Fraga Alves
Frequências
o1
o2
…
…
Ai
oi
…
…
Ak
ok
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
45
TESTE DO QUI-QUADRADO - Ajustamento
Temos a generalização do modelo Binomial, ie, o modelo Multinomial :
•
•
Consideram-se n provas idênticas;
O resultado de cada prova pode pertencer a uma de k classes possiveis A1, A2,
… , Ak ;
pi = P[ X ∈ Ai ]
•
k
é sempre a mesma de prova para prova, i=1, … , k. e
•
•
As provas são independentes;
As variáveis de interesse são
∑p
i
=1
i =1
O1 , O2 ,⋯ , Ok
k
•
em que
Oi = # { X i ∈ Ai }
com
∑O
i
=n
i =1
Da tabela de frequências obtêm-se as estimativas (de máxima verosimilhança) dos
parâmetros pi , i=1, … , k,
pˆ i =
Isabel Fraga Alves
oi
n
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
46
TESTE DO QUI-QUADRADO - Ajustamento
Teorema: Se
(O1, O2, … , Ok) é uma
v.a. multinomial, com parâmetros n, pi,
i=1, … , k, então a função distribuição da
k
v.a.
(Oi − npi ) 2
∑
i =1
npi
aproxima-se da função distribuição dum χ2
com (k-1) graus de liberdade, quando n→∞ .
Isabel Fraga Alves
FCUL/ DEIO - Estatística Aplicada: Métodos Não-Paramétricos 1ºAno/2ºSem (6 ECTS)
47
Download