X - BIOCOMP IFF

Propaganda
Bioestatística e Computação I
Inferência estatística
●
Distribuição Amostral da Média
Variável aleatória numérica
●
Maria Virginia P Dutra
●
Eloane G Ramos
parâmetros desconhecidos
–
média
–
desvio padrão
estimativa dos parâmetros
–
Vania Matos Fonseca
a partir de uma amostra
→ inferência estatística
Pós Graduação em Saúde da Mulher e da Criança
IFF – FIOCRUZ
Baseado nas aulas de M. Pagano e Gravreau e Geraldo Marcelo da Cunha
Inferência estatística
●
Distribuição de probabilidade de uma
variável aleatória na população (ex. altura
ou peso)
Inferência estatística
1000
∑ xi
i=1
x =
1000
●
●
●
●
Deseja-se estimar a média desta variável
para a população em questão.
●
x estimador do parâmetro 
Na distribuição da população
●
parâmetro
●
µ – média da população
σ – desvio-padrão
Na amostra
●
estimador
x - média da amostra ou média amostral
Retira-se uma amostra de 1000 pessoas
dessa população.
●
●
estimador de máxima verossimilhança
Calcula-se a média a partir da amostra.
●
SD – desvio padrão da amostra
Inferência estatística
●
Se for selecionada uma nova amostra
●
●
Inferência estatística
●
Incerteza da estimação depende de vários
fatores
a média amostral será diferente da anterior.
Existe uma incerteza na estimação de um
parâmetro populacional a partir de uma
amostra.
Tamanho mínimo da amostra
●
●
–
Garantia da precisão desejada
–
Cálculo do tamanho da amostra
Características desejáveis da amostra
População homogênea.
●
–
Inferência estatística
●
Representatividade da amostra para a variável
de interesse
–
–
Estimação não viesada
Estimação viesada
População
População
-2
0
2
µ
Cada indivíduo da população deve ter igual
probabilidade (>0) de ser selecionado.
4
6
8
-2
0
2
µ
x
Amostra aleatória
–
●
Viés de seleção
garantir que a amostra contenha indivíduos de toda a
faixa etária pretendida
faixas de renda, locais/condições de moradia, acesso
aos serviços de saúde, condições gerais de saúde
→ amostra estratificada
●
Se os indivíduos forem muito parecidos, qualquer
amostra será representativa do grupo inteiro.
4
6
8
x
15 amostras
15 amostras
Viés de seleção
●
Se algum dos critérios anteriores não for
satisfeito.
-2
-1
0
1
2
3
4
x 1 xx 15
5
6
7
8
9
-2
-1
0
1
2
3
4
x
5
6
7
8
9
Inferência estatística
Inferência estatística
Exemplo: Deseja-se estimar a média de uma variável
numérica para a população do Rio de Janeiro. Retira-se várias
amostras de tamanho n.
x2
Amostra 2, média = 
x1
Amostra 1, média = 
desvio SD
Distribuiçãos dos valores medidos em cada amostra
Amostra 2
Amostra 1
2
desvio SD1
População, média = µ
desvio padrão = σ
Amostra 3
Amostra 3, média =
desvio SD3
x 3
Amostra 4, média =
desvio SD4
x 4
N(µ,σ)
x 1
-2
-2
0
2
4
6
-1
0
1
2
µ
●
Média
populacional
µ = 3,24
Desviopadrão
populacional
●
σ
6
7
8
9
x
Inferência estatística
●
5
8
x
●
x 2
3 x3 4
Amostra
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Distribuição amostral
Média Amostral
x 1 2.925542
x 2 2.875775
x 3 3.224229
x 4 3.247810
3.015967
⁞ 3.124409
3.120330
3.414648
3.181152
3.529341
3.072117
2.922282
3.035807
3.362200
3.282813
3.108830
3.174209
3.099439
3.139982
3.564698
2.907053
3.029296
3.209778
3.069454
3.524735
3.158513
Variável
aleatória
X
Amostra
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
X
x 1
x 2
x 3
x 4
⁞
2.925542
2.875775
3.224229
3.247810
3.015967
3.124409
3.120330
3.414648
3.181152
3.529341
3.072117
2.922282
3.035807
3.362200
3.282813
3.108830
3.174209
3.099439
3.139982
3.564698
2.907053
3.029296
3.209778
3.069454
3.524735
3.158513
●
Distribuição da variável aleatória
X formada pelas médias
amostrais calculadas a partir de
várias amostras de tamanho n.
Distribuição Amostral da Média
Variabilidade
→ SDM
1.5
2.0
2.5
3.0
x
3.5
4.0
4.5
5.0
X
Distribuição amostral
●
●
Não é prático selecionar várias amostras
para estimar a média populacional.
Teorema Central do Limite
●
Entretanto, a distribuição amostral possui
propriedades que permitem inferir sobre a
média populacional a partir de uma única
amostra de tamanho n, por meio do
intervalo de confiança.
Dado que
●
X é uma variável aleatória numérica
●
A distribuição de probabilidade populacional da
variável X possui média µ e desvio σ
●
Foram selecionadas várias amostras dessa
população de tamanho n
→ Teorema Central do Limite
Teorema Central do Limite
1.A média da distribuição amostral, x, é
idêntica a média populacional µ.
Teorema Central do Limite
●
Exemplo: Níveis séricos de colesterol.
●
Suponha que a média na população é µ =
211 mg/100ml e o desvio é σ = 46
mg/100ml.
●
Ao retirarmos várias amostras de tamanho
n = 30, quantas amostras terão média
maior ou igual a 230 mg/100m?
2.O desvio-padrão da distribuição amostral,
SDM, é igual a

. SDM tem um nome
n
especial: erro-padrão da média (EP).
3.Se n é suficientemente grande (>30), a
distribuição amostral é aproximadamente
normal, independente da distribuição
populacional.
Teorema Central do Limite
Teorema Central do Limite
●
µ = 211
●
n = 30
●
σ = 46
●
P( x ≥ 230) = ?
x ==211

46
EP= =
=8,4
 n  30
●
 − X
 − X
 −211 X
 −211
X
=
=
=
EP
8,4
 /  n 46/  30

Para X =230
230−211
z=
=2,26
8,4
Z=
f(z)
Distribuição amostral ( X )
Transforma-se a variável X em uma variável
com distribuição normal padrão (Z) e
consulta-se a tabela da distribuição (A.3).
Distribuição na população (X)
-4
Pela tabela A.3:
100
200
211
300
400
●
E se tivéssemos selecionado amostras de
tamanho n=100, quantas amostras teriam
média maior ou igual a 230 mg/100m?
 − X
 − X
 −211 X
 −211
X
=
=
=
EP
4,6
 /  n 46/  100
 =230
Para X
230−211
=4,13
z=
4,6
Z=
Pela tabela A.3:
P( x ≥ 230) = P(z ≥ 4,13) < 0,001 (< 0,1%)
-2
-1
0
1
2
3
z
P( x ≥ 230) = P(z ≥ 2,26) = 0,012 = 1,2%
Nível sérico de colesterol (mg/100ml)
Teorema Central do Limite
-3
Exercícios
●
Capítulo 8
●
1 a 6, 8 e 10
4
Download