N - Universidade de Aveiro › SWEET

Propaganda
Aula 5. Intervalos de Confiança
Métodos Estadísticos 2008
Universidade de Averio
Profª Gladys Castillo Jordán
Duas Fases da Estatística
Estatística Descritiva: descrever e estudar uma amostra
Estatística Indutiva (inferencial): a partir de uma
amostra inferir sobre as características de uma
população
Fonte Diagrama: Projecto ALEA – Noçoes de Estatística
http://alea-estp.ine.pt/Html/nocoes/html/exemplo2_4_1_11.html
2
1
População vs. Amostra
Podemos inferir (deduzir) determinadas características de uma
população se extraímos uma amostra representativa desta
Amostra: Conjunto de dados ou
observações, recolhidos a partir de
um subconjunto da população, que
se estuda com o objectivo de tirar
conclusões para a população de
onde foi recolhida
População: colecção de unidades
individuais (pessoas ou resultados
experimentais) com uma ou mais
características comuns, que se
pretendem estudar.
amostragem
Imagens extraídas da referência 2
3
Amostragem
Processo pelo qual se extraem dados de uma população
Existem vários tipos de amostragem:
Vamos usar apenas este tipo
Amostragem Aleatória Simples: cada elemento da amostra é retirado
aleatoriamente de toda a população (com ou sem reposição)
⇒ cada possível amostra tem a mesma probabilidade de ser recolhida
Amostragem Estratificada: subdividir a população em, pelo menos,
dois subgrupos distintos que partilham alguma característica e, em
seguida, recolher uma amostra de cada um dos subgrupos (estratos)
Amostragem por clusters: dividir a população em secções (clusters);
seleccionar aleatoriamente alguns desses clusters; escolher todos os
membros dos clusters seleccionados.
4
2
Amostra Aleatória
Note que usamos letras minúsculas
pois estamos a definir concretizações
(observações) de variáveis aleatórias
Note que usamos letras maiúsculas,
pois estamos a definir variáveis
aleatórias e medidas em função dessas
variáveis
acetato adaptado de referencia 1
6
Parâmetro vs. Estatística
Parâmetro – Medida usada para descrever a distribuição
da população
a média µ e o desvio padrão σ2 são parâmetros de uma
distribuição Normal - N(µ,σ2)
a probabilidade de sucesso p é um parâmetro da distribuição
Binomial - B(n,p)
Estatística – Função de uma amostra aleatória que não
depende de parâmetros desconhecidos
n ∑i =1
Média amostral:
X=1
Variância amostral:
S2 = 1
Amplitude da amostra:
n
Xi
n ∑i =1
n
(Xi − X )
2
R = X n:n − X 1:n
7
3
Parâmetro vs. Estatística
Proporção dos
inquiridos de
raça branca
numa população
e numa amostra
π≈p
exemplo extraído da referência 2
8
Estimação de Parâmetros
Amostra
População
Distribuição da População
Parâmetros
(valor fixo)
Distribuição Amostral
estimar
Estatísticas
(função da amostra)
pontual (estatísticas)
Estimação
por intervalo (intervalos de confiança)
OBS: estatística: é a v.a. que estima (pontualmente) um parâmetro (populacional)
as vezes é chamada simplesmente de estimador
estimativa: é o valor do estimador obtido para uma amostra específica
acetato adaptado de referencia 3
9
4
Intervalo de Confiança
Um intervalo de confiança para um parâmetro θ,
a um grau de confiança 1-α
α,
é um intervalo aleatório (Linf, Lsup) tal que:
P(Linf < θ < Lsup) = 1-α , α ∈ (0,1)
onde α deve ser um valor muito reduzido por
forma a temos confianças elevadas
Valores usuais para o grau de confiança: 95%, 99% e 90%
13
Intervalo de Confiança (IC)
I. IC para a média µ com variância conhecida
Caso 1: população Normal
Caso 2: população qualquer (n>>30) aproximada pela Normal
II. IC para a média µ com variância desconhecida
Caso 1: população Normal
Caso 2: população qualquer (n>>30) aproximada pela Normal
III. IC para a diferença de médias de duas populações Normais
Caso 1: duas amostras independentes, variâncias conhecidas
Caso 2: duas amostras independentes, variâncias desconhecidas
Caso 3: amostras emparelhadas, variâncias desconhecidas
IV. IC para uma proporção
14
5
IC para µ com variância conhecida
Caso 1: População Normal
X ~ N ( µ,σ 2 )
XX ~~N? ( µ ,
σ
µ desconhecido, mas σ2 conhecido
N (0,1)
2
n
)
1−α
centrando e reduzindo:
X −µ
σ
Z
~ ?N (0,1) (Normal Padrão)
α
α
2
2
n
-∞
P( − z < Z < z ) = 1 − α
P(− z <
P(− z
X −µ
σ
z α/2
-z
0
quantil de ordem α/2
< z) = 1 − α
n
σ
< X −µ< z
) = 1−α
n
n
z
+∞
z1 - α/2
quantil de ordem 1-α/2
σ
P( X − z
σ
n
Linf
<µ<X +z
σ
n
) = 1−α
Lsup
IC para µ a grau de confiança 1-α
σ
σ 

IC(1−α ) ( µ ) =  X − z1−α 2
, X + z1−α 2

n
n

acetato adaptado de referencia 3
15
Interpretação do IC para µ
Para uma amostra aleatória de tamanho 50 seguindo uma distribuição
Normal com média µ = 10 e variância σ2 = 4 → X ~ N (10, 4) ,
determinamos o IC para µ com 95% de grau confiança:
P ( X − 1, 96
2
2
< µ < X + 1,96
) = 95%
50
50
P ( X − 0,5544 < µ < X + 0,5544) = 95%
IC95% ( µ ) = ( X − 0.5544, X + 0.5544 )
µ=10
Interpretação: 95% dos possíveis ICs
obtidos a partir de uma amostra de
tamanho 50, conterão de facto o
verdadeiro valor da média µ=10
16
6
IC para µ com variância conhecida
Caso 1: População Normal
Exemplo: Uma v.a. qualquer tem uma distribuição Normal com média µ desconhecida
e variância σ2 = 16. Retira-se uma amostra de 25 valores e calcula-se a
média amostral. Construa um IC de 95% para µ supondo que X = 12, 7.
σ
σ 

, X + z1−α 2
IC(1−α ) ( µ ) =  X − z1−α 2

n
n

z0,9750=1,96
σ
σ 

IC95% ( µ ) =  X − z0.9750
, X + z0.9750

n
n

95%
4
4 

= 12,7 − 1,96
,12,7 + 1.96

25
25 

= (12,7 − 1,568, 12,7 + 1,568)
2,5%
2,5%
IC95% ( µ ) = (11.132, 14.268)
0
12.7
Java Applet em:
P (11,132 < µ < 14, 268) = 0, 95
http://psych.colorado.edu/~mcclella/java/normal/normz.html
17
Determinando o Quantil de Ordem 1-α/2
Distribuição Normal Padronizada
Tabela 3.a. Normal Distribution
α
α
2
2
Para grau de confiança (1-α)x100 = 95%
⇒ nível de significância α=0.05
⇒ φ(z) = P(Z < z) = 1 - α/2 ⇔ z = z 1 - α/2
quantil de ordem 1-α/2
φ(z) = P(Z < z) = 1- (0.05/ 2) = 0.975
buscar valor de z na tabela:
φ(z) = 0.9750 ⇔ z = 1.96
Grau de
Confiança
Valor z
90%
1.65
95%
1.96
99%
2.58
90% grau de confiança – existem 10 possibilidades de 100 que o IC não contenha a média populacional
95% grau de confiança – existem 5 possibilidades de 100 que o IC não contenha a média populacional
99% grau de confiança – existe
1 possibilidade de 100 que o IC não contenha a média populacional
18
7
IC & Grau de Confiança
Como poderia obter intervalos de confiança mais estreitos,
ou seja, com limites mais próximos a média verdadeira?
figura extraída da referência 2
Diminuindo o grau de confiança
Diminuindo o grau de confiança de 99% a 95%, aumentamos o risco de estar
errados: de 1% de risco passamos a 5% de risco, ou seja temos mais
possibilidades (5/100 em vez de 1/100) de que o IC não contenha a média
populacional. Ao aumentar o risco, o intervalo deve ser mais preciso
19
IC & Dimensão da Amostra
Como poderia obter intervalos de confiança mais estreitos,
ou seja, com limites mais próximos a média verdadeira?
Aumentando a dimensão da amostra
Tabela extraída da referência 2
20
8
IC para µ com variância conhecida
Caso 2: População Genérica aproximada pela Normal
Se uma distribuição qualquer tiver média µ (desconhecida) e
variância σ2 (conhecida) e se forem validas as condições do TLC
(n>>30) podemos obter um IC aproximado para a média µ
IC para µ a grau de confiança 1-α
N (0,1)
σ
σ 

IC1−α ( µ ) ≈  X − z1−α 2
, X + z1−α 2

n
n

α
-∞
α
1−α
2
-z
0
2
+∞
z
quantil de ordem 1-α/2
z1 - α/2
21
IC para µ com variância conhecida
Resumo
IC para µ a grau de confiança 1-α
α
µ desconhecido, mas σ2 conhecido
1º caso
2º
quanto maior z
⇒ IC menos preciso
X ±z
cas
o
ICα ( µ ) = X ± z1−α 2
ICα ( µ ) ≈ X ± z1−α 2
σ
n
Se aumentarmos o grau de confiança
⇒ a precisão diminui porque aumenta o valor z
se 90% ⇒ z = 1.65
se 95% ⇒ z = 1.96
se 99% ⇒ z = 2.58
σ
n
σ
n
quanto maior n
⇒ menor o erro padrão
⇒ IC mais preciso
A expressão
σ
é chamada
n
erro padrão (standard error)
22
9
IC para µ com variância desconhecida
Se o valor de σ2 é desconhecido ⇒ substituir por uma estimativa
Estimadores pontuais para o desvio padrão σ :
desvio padrão amostral não-corrigido
σ =S=
⌢
desvio padrão amostral corrigido
n
1
∑ ( X i − X )2
n i =1
σ = Sc =
⌢
1 n
∑ ( X i − X )2
n − 1 i =1
Se σ2 desconhecida podemos distinguir dois casos:
Caso1. população Normal ⇒ usar distr.t de Student
X ~ N (µ ,σ 2 ) ⇔ T =
X −µ
~ t n −1 ⇒
Sc n
S
S 

IC1−α ( µ ) =  X − t1−α 2 , n −1 c , X + t1−α 2 , n −1 c 
n
n

Caso2. q.q. distribuição aproximada pela Normal, amostras grandes
⇒ usar distribuição Normal padronizada
X q.q. com n >> 30 ⇔ Z =
X −µ
Sc n
~ N (0,1) ⇒
a
S
S 

IC1−α ( µ ) ≈  X − z1−α 2 c , X + z1−α 2 c 
n
n

23
IC para µ com variância desconhecida
Caso 1: População Normal
Exemplo:
Uma v.a. qualquer tem uma distribuição Normal com média µ e variância σ2
desconhecidas. Retira-se uma amostra de 25 valores e calcula-se a média amostral e
variância amostral . Construa um IC de 95% para µ supondo que X = 12,7 e S2 = 16
Distribuição t de Student com
24 graus de liberdade
S
S 

IC(1−α ) ( µ ) =  X − t1−α 2 , n −1
, X + t1−α 2, n−1

n
n

t24
S
S 

IC95% ( µ ) =  X − t0.9750, 24
, X + t0.9750, 24

n
n

95%
4
4 

= 12,7 − 2,06
, 12,7 + 2,06

25
25 

= (12,7 − 1,648, 12,7 + 1,648)
IC95% ( µ ) = (11.052, 13.648)
2,5%
-∞
2,5%
-t
0
t
+∞
t0,9750,
? 24 = 2,06
24
10
Determinando t1-αα/2, n-1 - quantil de ordem 1-α/2 de
uma distribuição t-Student com n-1 graus de liberdade
Tabela 8. Student s t-Distribution
Por definição de quantil de ordem 1-α
α/2:
z = z 1 - α/2 ⇔ F(z) = P(Z < z) =1 - α/2
Para grau de confiança 95% ⇒ nível de significância α=0.05
F(z) = P(Z < z) = 1- (0.05/ 2) = 0.975 ⇒ F(z) = 0.9750
Para n=25 ⇒ 24 graus de liberdade
Determinar t0.9750, 24 usando Tabela 8:
t0.9750, 24 = 2.06
25
IC para µ com variância desconhecida
Caso 1: População Normal
exercício 5, capítulo 4
Uma amostra aleatória de 20 cigarros foi analisada para estimar a quantidade de
nicotina por cigarro, observando-se a média de 1,2 mg e variância amostral corrigida
de 0.04. Pressupondo que as observações têm distribuição Normal, determine um IC
para o valor médio da quantidade de nicotina por cigarro, grau de confiança de 99%
Usando esta amostra determinamos um IC aproximado para µ a 99%:
S
S 

IC(1−α ) ( µ ) =  X − t1−α 2, n−1 c , X + t1−α 2,n −1 c 
n
n

S
S 

IC99% ( µ ) =  X − t0.995,19 C , X + t0.995,19 C 
n
n

Para grau de confiança 99%:
(1-α) x 100% = 99% ⇒ (1-α) =0.99 ⇒ α=0.01
Por definição de quantil de ordem 1-α
α/2:
F(z) = P(Z < z) = 1- (0.01/ 2) = 0,995 ⇒ F(z) = 0.995
Para n=20 ⇒ 19 graus de liberdade
Determinar t0.995, 19 usando Tabela 8
t0.995, 19 = 2.86

0,04
0,04 

IC99% ( µ ) = 1,2 − 2,86
, 1,2 + 2,86
20
20 

= (1,2 − 2,86 × 0,044721, 1,2 + 2,86 × 0,044721)
IC99% ( µ ) = (1.0721, 1.3279)
26
11
IC para µ com variância desconhecida
Exemplo: População qualquer, amostra grande
Ingressos dos emigrantes hispânicos em EU segundo censo de 1980
Origem
Nº
pessoas
amostra
Rendimento
Médio
Desvio
Padrão
Amostral
IC para µ a grau de confiança 95%
cubanos
3895
$16 368
$3 069
mexicanos
5729
$13 342
$9 414
S
S 

IC95% ( µ ) ≈  X − 1.96
, X + 1.96

n
n

portoriquenhos
5908
$12 587
$8 647
cubanos:
erro padrão =
9414
= 124.41
mexicanos: erro padrão =
5729
8647
erro padrão =
= 112.5
5908
porto-riq.:
3069
= 49.17
3985
IC95% ( µ ) ≈ 16368 ± 1.96 × 49.17
IC ≈ ( 16272, 16464 )
IC95% ( µ ) ≈ 13342 ± 1.96 ×124.41
IC ≈( 13098, 13586 )
IC95% ( µ ) ≈ 12587 ± 1.96 ×112.5
IC ≈ ( 12367, 12807 )
27
IC para µ com variância desconhecida
Exemplo: População qualquer, amostra grande
Exemplo adaptado de referência 2
28
12
Inferência entre parâmetros
de duas populações
n
m
X
P1
E( X ) = µ X
P2
Y
E (Y ) = µY
Mesmo não se conhecendo as médias µ1 e µ2, seria possível verificar se elas
são iguais a partir de seus valores amostrais?
Se µ1 e µ2 são iguais, então µ1 - µ2 = 0.
Podemos a partir da diferença das médias amostrais
da diferença das médias de duas populações
X − Y inferir o valor
acetato adaptado de referencia 3
29
Intervalo de Confiança para µ1 - µ2
Duas populações Normais. Amostras independentes
Sejam X1,…, Xn e Y1, …, Ym duas amostras aleatórias constituídas por
observações independentes e provenientes de duas populações Normais
N(µX, σX2) e N(µY, σY2), respectivamente
IC para µ1−µ2 a grau de confiança 1-α
Caso 1: variâncias conhecidas
Caso 2: variâncias desconhecidas mas iguais
30
13
Intervalo de Confiança para µ1 - µ2
Populações Normais. Amostras emparelhadas
Sejam X1,…, Xn e Y1, …, Yn duas amostras provenientes de populações Normais
Amostras emparelhadas: se pares de observações (Xi, Yi) são
dependentes sendo todos os restantes pares (Xi, Yj), i≠j independentes
2
Consideram-se as diferenças: Di = ( X i − Yi ) ~ N ( µ D , σ D )
µD = µX- µY – diferença das médias populacionais
σD – desvio padrão das diferenças - desconhecido
mas pode ser estimado através das diferenças D1, …, Dn
⇒ D1, D2, ...Dn – a.a. com população Normal e variância desconhecida
D ~ N ( µ D , σ 2D ) ⇔ T =
D − µD
~ t n −1
S cD n
ScD – desvio padrão amostral
corrigido das diferenças
IC para µD= µX-µY a grau de confiança 1-α

Sc
SC
IC1−α ( µ D ) =  D − t1−α 2 , n −1 D , D + t1−α 2 , n −1 D

n
n





31
Intervalo de Confiança para Proporção
Considere que uma urna contêm bolas vermelhas e azúis e que n bolas são
escolhidas ao acaso (com reposição), definindo-se
X como o número de bolas vermelhas entre as n seleccionadas
n
X = ∑ Yi , Yi ~ Bernoulli sendo p = P(Xi = 1),
X ~ Binomial(n,p)
a probabilidade de se seleccionar um bola vermelha
i =1
Se p- desconhecido, um estimador pontual para p é a proporção amostral:
pˆ =
X
n
pˆ ~ N ( p,
a
p (1 − p )
) (se n é grande, pelo TLC)
N (0,1)
n
centrando e reduzindo:
Z
pˆ − p
=
p(1 − p) n
X
−p
n
p (1 − p ) n
1−α
~ N (0, 1)
α
2
2
a
-∞
I.C. para Z com grau de confiança 1-α
P(− z < Z < z ) = 1 − α
α
-z
z α/2
quantil de ordem α/2
0
z
+∞
z1 - α/2
quantil de ordem 1-α/2
P( pˆ − z pˆ (1 − pˆ ) n , pˆ + z pˆ (1 − pˆ ) n ) = 1 − α
32
14
Intervalo de Confiança para Proporção
Seja pˆ =
X
a proporção de indivíduos com uma certa característica de
n
interesse numa amostra aleatória de dimensão n, e p a proporção de
indivíduos com essa característica na população.
Um intervalo de confiança aproximado para p, a um grau de confiança
1-α
α, é dado por:

IC(1−α ) ( p ) ≈  pˆ − z1−α 2

pˆ (1 − pˆ )
, pˆ + z1−α 2
n
pˆ (1 − pˆ ) 

n

33
IC para uma proporção
Exemplo: Proporção de acessos a páginas de Internet nacionais
exercício 16, capítulo 4
Em 100 acessos a páginas de internet escolhidos ao acaso 30 são as páginas
nacionais. Determine um IC a 95% para a proporção de acessos a páginas nacionais
X - número de acessos á páginas de internet nacionais
X ~ Binomial(100 ,p )
p – proporção de acessos a páginas nacionais (em geral)
p – desconhecido
Usando esta amostra determinamos um IC aproximado para p a 95%:
pˆ (1 − pˆ )
IC(1−α ) ( p ) ≈ pˆ − z1−α 2 S p , pˆ + z1−α 2 S p com pˆ = X
e Sp =
n
n
1º. Determinar z1-αα/2 para α=0,05
z0,9750=1,96
(
)
IC(95%) ( p ) ≈ ( pˆ − z0.9750 S p , pˆ + z0.9750 S p )
IC( 95%) ( p ) ≈ ( pˆ − 1,96 × S p , pˆ + 1,96 × S p )
2º. Determinar as estimativas ^
p e Sp
pˆ =
X
30
=
= 0. 3
n 100
Sp =
pˆ (1 − pˆ )
0,3 × 0,7
=
= 0,04582
n
100
3º. Substituir na fórmula:
IC( 95%) ( p ) ≈ (0,3 − 1,96 × 0,04582, 0,3 + 1,96 × 0,04582)
= (0,3 − 0,089818, 0,3 + 0,089818)
IC95% ( p ) ≈ (0.2102, 0.3898)
34
15
Formulário
F
O
R
M
U
L
Á
R
I
O
35
Referências
Livro: Grande Maratona de Estatística no SPSS
Andreia Hall, Cláudia Neves e António Pereira
Capítulo 4.1 Intervalos de Confiança
Acetatos disponíveis on-line usados na elaboração destes acetatos:
Estatística Inferencial e Intervalos de Confiança, Amostragem
Andreia Hall
URL: http://www2.mat.ua.pt/pessoais/AHall/me/files/acetatos.htm
http://www2.mat.ua.pt/pessoais/AHall/Bioestat%EDstica/Bioestat%EDstica.htm
Chapter 11: Sampling and Sampling Distribution, Chapter 12: Estimation
Prof. J. Schwab , University of Texas at Austin
disciplina: Data Analysis I (spring 2004)
URL: www.utexas.edu/courses/schwab/sw318_spring_2004/TextbookLectureNotes
Estimação
Camilo Daleles Rennó, Instituto Nacional de Pesquisas Espaciais, Brasil
disciplina:Estatística: Aplicação ao Sensoriamento Remoto (2008)
URL: http://www.dpi.inpe.br/~camilo/estatistica/notas.html
Estimação por Intervalos
Ana Pires, IST Lisboa
disciplina: Probabilidades e Estatística
URL: : http://www.math.ist.utl.pt/~apires/materialpe.html
36
16
Download