Estimação e Testes de Hipóteses

Propaganda
Estimação e Testes de Hipóteses
1
Estatísticas e parâmetros
„
Valores calculados por expressões matemáticas que resumem
dados relativos a uma característica mensurável:
…
Parâmetros: medidas numéricas descritivas calculadas a
partir de dados sobre toda a população.
…
Estatísticas: medidas numéricas correspondentes
anteriores, mas calculadas sobre uma amostra.
às
Áurea Sousa /Deptº. Matemática U.A.
15-10-2008
2 2
Principais Parâmetros
µ
A MÉDIA
2
σ
A VARIÂNCIA
σ
O DESVIO
PADRÃO
π
A PROPORÇÃO
Áurea Sousa /Deptº. Matemática U.A.
3
PRINCIPAIS ESTIMADORES
2
S
X
P
A
A
MÉDIA
S
A
VARIÂNCIA
O
DESVIO
PADRÃO
PROPORÇÃO
Estimativas: Uma estimativa é um valor particular de um estimador.
Áurea Sousa /Deptº. Matemática U.A.
4
ESTIMAÇÃO
A estimação tem por objetivo
fornecer
informações
sobre
parâmetros populacionais, tendo
como base uma amostra aleatória
extraída da população de interesse.
Áurea Sousa /Deptº. Matemática U.A.
5
ESTIMAÇÃO
θ
AMOSTRA
POPULAÇÃO
θ̂
Áurea Sousa /Deptº. Matemática U.A.
6
ESTIMAÇÃO POR PONTO
A estimativa por ponto é feita
através de um único valor.
ESTIMAÇÃO POR INTERVALO
A estimativa por intervalo, fornece
um conjunto de valores.
Áurea Sousa /Deptº. Matemática U.A.
7
DISTRIBUIÇÕES AMOSTRAIS
POPULAÇÃO
θ
θ̂1
Amostra 1
θ̂2
Amostra 2
........................
θ̂ k
Amostra k
Áurea Sousa /Deptº. Matemática U.A.
8
DISTRIBUIÇÕES AMOSTRAIS
A distribuição de probabilidade de um
estimador
(variável
aleatória)
é
denominada de distribuição amostral
desse estimador.
Áurea Sousa /Deptº. Matemática U.A.
9
Distribuição Amostral da Média
(Distribuição de Médias Amostrais)
Suponhamos que a variável X assuma os valores 1, 2,
3, 4, 5. Vamos considerar todas as amostras possíveis,
com reposição, de dimensão n=2, e depois calcular as
médias (aritméticas) relativas a todas as amostras.
Sorteio 2
Sorteio 1
1
2
3
4
5
1
1,0
1,5
2,0
2,5
3,0
2
1,5
2
2,5
3,0
3,5
3
2,0
2,5
3,0
3,5
4,0
4
2,5
3
3,5
4,0
4,5
5
3,0
3,5
4,0
4,5
5,0
Áurea Sousa /Deptº. Matemática U.A.
10
„
Observação: O conjunto de valores 1, 2, 3, 4 e 5
constitui a população (π), de onde foram extraídas 25
amostras de dimensão n=2.
„
Exercício: Determine, usando o Excel:
i) a média e a variância populacionais.
ii) a média das médias amostrais.
iii) a variância das variâncias amostrais.
„
„
„
Áurea Sousa /Deptº. Matemática U.A.
11
Teorema do Limite Central
À medida que n (dimensão das amostras) aumenta, a
distribuição das médias amostrais vai progressivamente
tendendo para a Distribuição Normal. Com n ≥ 30 a
aproximação é já muito boa. Mesmo para n=2, a curva já
lembra uma Normal.
Áurea Sousa /Deptº. Matemática U.A.
12
„
A média das médias amostrais é igual à média
populacional.
X =µ
( )
σ X =
σ (X )
Erro Padrão da Média
n
Para calcularmos o Erro Padrão da Média (que, na
verdade é o desvio padrão da distribuição de médias
amostrais), podemos usar duas fórmulas:
( )
σ X =
σ (X )
n
Quando a variância
populacional é conhecida
e
S(X )
SX =
n
( )
S(x)- Desvio padrão da
amostra
Quando a variância populacional é
desconhecida e n ≥ 30.
Áurea Sousa /Deptº. Matemática U.A.
13
X −µ
X ~ N ( µ , σ / n) ⇔
~ N (0, 1)
σ/ n
2
Se x1, x2, …, xn constituem uma amostra aleatória de
uma população com média µ e variância σ2 finita, a
distribuição limite de
X −µ
Z=
σ/ n
à medida que n →∞ é a distribuição normal padrão.
Áurea Sousa /Deptº. Matemática U.A.
14
Testes de Hipóteses
Muitas situações práticas requerem que em função
dos valores observados se tomem decisões acerca
dos parâmetros (ou de outros aspectos) da
população.
Exemplo: Máquina de encher pacotes de açúcar. O
peso de cada pacote deve ser ≅ 8g (isto é, µ = 8).
Será que a máquina está a funcionar
correctamente?
Áurea Sousa /Deptº. Matemática U.A.
15
„
Uma hipótese estatística é qualquer conjectura sobre
aspectos desconhecidos da população (que podem ser
parâmetros ou mesmo a forma da distribuição).
„
Um teste de hipóteses é um procedimento que conduz
a uma decisão acerca das hipóteses (com base numa
amostra).
Áurea Sousa /Deptº. Matemática U.A.
16
Testes Paramétricos
„
A distribuição da população tem de ser conhecida à
priori;
„
Especificam condições sobre os parâmetros da
população;
„
Testam-se parâmetros em número finito;
„
Os dados são medidos, normalmente em escala de
intervalos;
„
Trabalham
recolhidas;
„
São mais potentes desde que sejam satisfeitas as
suposições.
directamente
com
observações
Áurea Sousa /Deptº. Matemática U.A.
17
Testes Não Paramétricos
„
O conhecimento da distribuição da população não é
necessário;
„
Especificam condições, mas em menor número que
os testes paramétricos;
„
Os dados podem ser medidos em escalas ordinais e
em certos casos em escalas nominais;
„
Trabalham com a ordem das observações;
„
Quando se tem amostras de pequenas dimensões e
não se conhece exactamente a forma da distribuição
da população só se podem utilizar estes testes.
Áurea Sousa /Deptº. Matemática U.A.
18
Testes de Hipóteses Paramétricos
„
São testes em que as hipóteses envolvidas são
paramétricas (dizem respeito ao(s) parâmetros(s),
supondo conhecida, pelo menos aprox., a forma da
distribuição.)
Áurea Sousa /Deptº. Matemática U.A.
19
Definição das Hipóteses
Hipótese Nula ou H0
„
Hipótese que é considerada verdadeira até prova em
contrário (caso em que é rejeitada e se aceita como
válida H1).
„
Contém sempre uma igualdade (=, ≥, ≤), apenas se
testando a situação de
“=” por ser a que mais se
aproxima de H1.
Áurea Sousa /Deptº. Matemática U.A.
20
Definição das Hipóteses (Cont)
Hipótese Alternativa ou H1
„
Hipótese que traduz uma conjectura que se pretende
verificar.
„
Contém sempre uma desigualdade (> ou <) ou uma nãoigualdade (≠) e nunca uma Igualdade (=).
Áurea Sousa /Deptº. Matemática U.A.
21
„
Exemplo (cont.): temos duas hipóteses: a máquina
funciona correctamente (µ= 8) ou a máquina não
funciona correctamente (µ ≠ 8):
H0: µ = 8
versus
(hipótese nula)
H1: µ ≠ 8
(hipótese alternativa)
„
Hipótese simples: é especificado apenas um valor para
o parâmetro.
„
Hipótese composta: é especificado mais de um valor
para o parâmetro.
Áurea Sousa /Deptº. Matemática U.A.
22
„
Vamos considerar sempre H0 como hipótese
simples.
„
A hipótese alternativa (H1) é, em geral, uma das
três seguintes:
H1:µ ≠ 8 Teste bilateral
H1: µ > 8 Teste unilateral à direita
H1: µ < 8 Teste unilateral à esquerda
„
Nota: os valores especificados nas hipóteses não
devem ter nada a ver com valores observados na
amostra.
Áurea Sousa /Deptº. Matemática U.A.
23
„
A resposta num teste de hipóteses é dada na forma
Rejeitar H0 - significa que os dados observados
testemunham fortemente contra H0 - neste caso será
adoptada a hipótese H1 ou
„
Não rejeitar H0 - significa que não há evidência
estatística suficiente para rejeitar H0.
Áurea Sousa /Deptº. Matemática U.A.
24
P(erro
de
1ª
espécie)=P(Rejeitar
H0|
H0
verdadeira)= α
α- nível de significância
P(erro erro de 2ª espécie)=P(Não rejeitar H0| H0
falsa ) =β
Áurea Sousa /Deptº. Matemática U.A.
25
Chama-se potência do teste à probabilidade de rejeitar a
hipótese nula quando a hipótese alternativa é verdadeira
( = 1-β ).
1- β= P(rejeitar H0| H0 falsa )
=P(rejeitar H0| H1 verdadeira)
Áurea Sousa /Deptº. Matemática U.A.
26
Fases da construção de um teste de
Hipóteses Paramétrico
1. Formulação das hipóteses;
2. Fixação do nível de significância α;
3. Escolher uma variável aleatória, estatística do teste,
com distribuição conhecida;
4. Definir a região de rejeição ou região crítica – RC
(conjunto de valores da estatística que nos levam a
rejeitar H0).
Áurea Sousa /Deptº. Matemática U.A.
27
Fases da construção de um teste de
Hipóteses Paramétrico (Cont)
5. Calcular o valor da estatística do teste, para a
amostra observada.:
6. Regra de Decisão:
„
Se o valor calculado ∈ RC →rejeita-se H0
„
Se o valor calculado ∉ RC →não se rejeita H0
Áurea Sousa /Deptº. Matemática U.A.
28
„
Rejeitar H0 significa que os dados testemunham
fortemente contra H0.
„
Costuma atribuir-se um valor muito baixo à
probabilidade do erro de 1ª espécie, por exemplo: α =
0.05 ou 0.01 ou 0.1.
Áurea Sousa /Deptº. Matemática U.A.
29
„
Teste de hipóteses para a média populacional.
„
Teste de hipóteses para a proporção populacional.
„
Testes de hipóteses para a diferença entre duas médias
populacionais.
„
Teste de hipóteses para a diferença entre duas proporções
populacionais.
„
Testes de homogeneidade de variâncias e de normalidade.
„
Testes de ajustamento.
„
Teste do Qui-quadrado de homogeneidade e independência.
„
Teste U de Mann-Whitney.
„
Testes de sinais e de Wilcoxon.
„
Medidas de associação não paramétrica e seus testes de
significância: Coeficiente de correlação ordinal de Spearman,
coeficiente de correlação V de Cramer e coeficiente fi.
Áurea Sousa /Deptº. Matemática U.A.
30
Verificação do Ajustamento à Normal
Teste de Aderência de Kolmogorov-Smirnov
à Normalidade:
´
teste mais potente e muito mais usado do que
o teste de ajustamento do Qui-quadrado de Pearson;
«
H0 : A amostra provém de uma população Normal
H1 : A amostra não provém de uma população Normal
«Pretende-se
observar o “grau de concordância” entre a
função de distribuição teórica (F0(.)), especificada na
hipótese nula, e a distribuição de frequências relativas
acumuladas observada de valores amostrais (Função de
distribuição empírica, (Sn(.)). Considera-se o ponto em que
as duas distribuições acusam maior divergência, sendo
então a estatística do teste:
Áurea Sousa /Deptº. Matemática U.A.
31
Interpretação do Output do SPSS
Most Extreme Diferences: (Cálculo das diferenças extremas
entre as funções de distribuição empírica e teórica).
•Absolute (seria o valor do teste calculado manualmente).
•Kolmogorov-Smirnov Z (valor da estatística de teste em
termos de Z (e não de D) fazendo aproximação à Normal.
•Asymp. Sig. (2-tailed) (Probabilidade associada ao valor
do teste (p-value)).
•Tomada de decisão:
•Com um α pré-fixado, tem-se:
•Se p-value > α - não se rejeita H0.
•Se p-value ≤ α - rejeita-se H0.
Áurea Sousa /Deptº. Matemática U.A.
32
Exemplo
O quadro pode ser interpretado do seguinte modo:
O valor do teste é de 1.201, tendo associada uma
probabilidade, se H0 for verdadeira, de 0.112. Trata-se de
uma probabilidade superior a 0.05, o que conduz a que
não se rejeite a hipótese nula. Portanto não há evidência
estatística para rejeitar a hipótese da amostra provir de
uma população Normal.
Áurea Sousa /Deptº. Matemática U.A.
33
Verificação do Ajustamento à Normal
Teste não paramétrico de Shapiro-Wilk:
´
apenas pode ser utilizado para averiguar se um dado conjunto de
observações se pode considerar proveniente de uma população com
distribuição normal – é um teste não paramétrico de normalidade.
Este teste tem-se revelado ser um dos mais potentes. Se X é a
característica
/ em estudo:
«
H0 : X tem distribuição normal
H1 : X não tem distribuição normal
« a estatística do teste é:
W=
(∑
n
i =1
ai xi
)
2
∑ (x − x )
n
i =1
constantes conhecidas
e calculadas segundo a
distribuição
2
i
o SPSS produz resultados
para este teste se n<51
Valores pequenos de W indicam fraco ajustamento à normal.
«Este teste é mais potente do que o teste de Kolmogorov-Smirnov
para amostras de dimensão inferior a 30.
«
Áurea Sousa /Deptº. Matemática U.A.
34
Média de uma População Normal
Seja X1, . . . ,Xn uma amostra
aleatória de uma população com
distribuição N(µ,σ2), com σ2 conhecido:
… para o teste:
H0 : µ = c (ou ≥ ou ≤)
H1 : µ ≠ c (ou < ou >)
… a estatística do teste é:
„
X − c H0
X −µ
Z=
~ N (0, 1) ⇒ Z 0 =
~ N (0, 1)
σ/ n
σ/ n
mas, normalmente a variância da
população não é conhecida, pelo que
a estatística do teste passa a ser
comparação de uma amostra
com uma constante
distribuição
t-student
…
X − c H0
T=
~ t n −1
S/ n
Áurea Sousa /Deptº. Matemática U.A.
35
Teste para uma Proporção populacional
: π ≤ (ou ≥ ) p0 ou π = p0
H1 : π < (ou >) p0 ou π ≠ p0
´ H0
´A
a hipótese nula deve
conter a igualdade
valor a testar
estatística com distribuição
conhecida que permite
avaliar o teste
estatística do teste é a diferença entre
a proporção observada e a esperada: nas condições da
p – p0 ~ Bin (n, π)
hipótese nula π = p0
´ No
caso de n > 20 e np > 7 pode-se
aplicar (assimptoticamente) o Teorema
do Limite Central usando-se agora a
estatística:
a
p − p0
~ N (0,1)
p (1 − p ) / n
O SPSS faz estes cálculos pelas duas
estatísticas e calcula a probabilidade de
significância do teste com ou sem
correcção de continuidade
Áurea Sousa /Deptº. Matemática U.A.
36
Teste de Homogeneidade de Variâncias
Teste de Levene é um dos mais
potentes e dos mais utilizados.
„
… pode ser usado para duas ou mais amostras,
soma das dimensões
das amostras para as
várias variáveis
pelo que as hipóteses a testar são:
H0 : σ12 = σ22 = ...= σk2
H1 : ∃i,j σi2 ≠ σj2
k
… assim, a estatística do teste é:
( N − k )∑i =1 ( Z i − Z ) 2 a
W=
~ F (k − 1, N - k )
k
n
2
(k − 1)∑i =1 ∑i =1 ( Z ij − Z i )
existem versões para variáveis com distribuição
aproximadamente normal (nesse caso Z é o módulo
da variável original menos a média) e para não
normais (usa-se a mediana) ou para a existência de
observações atípicas (usa-se a média aparada).
…
Áurea Sousa /Deptº. Matemática U.A.
o SPSS produz
resultados para a
média, mediana e
média aparada
37
Download