Técnicas de Amostragem - Instituto de Matemática

T ÉCNICAS DE A MOSTRAGEM
Ralph dos Santos Silva
Departamento de Métodos Estatísticos
Instituto de Matemática
Universidade Federal do Rio de Janeiro
Técnicas de Amostragem
Sumário
Definições e Notação
Estimação
Amostra Aleatória Simples Sem Reposição
Amostra Aleatória Simples Com Reposição
Técnicas de Amostragem
Definições e Notação
Definições e Notação
Regra geral da nossa notação:
I
Universo ou população:
L ETRAS M AIÚSCULAS .
I
Amostra:
letras minúsculas.
Exemplos:
Y
→
média populacional;
y
→
média amostral.
Técnicas de Amostragem
Definições e Notação
Definições e Notação: População
Seja uma população composta de N unidades elementares Ui , i = 1, . . . , N.
O conjunto
PN = U = {U1 , U2 , . . . , UN }
define os rótulos que identificam cada unidade da população.
Temos que
N
→
tamanho da população de pesquisa;
Ui
→
rótulo para uma unidade genérica i;
y
→
variável de pesquisa ou de interesse; e
Yi
→
valor da variável y para unidade i.
Técnicas de Amostragem
Definições e Notação
Alguns parâmetros de interesse
I
Total populacional: Y =
N
X
Yi .
i=1
I
Média populacional: Y = µ =
N
1 X
Yi .
N
i=1
I
Variância populacional: S 2 = Sy2 =
N
1 X
(Yi − Y )2 .
N −1
i=1
N
X
I
Razão populacional: R = Rxy =
i=1
N
X
i=1
Yi
=
Xi
Y
.
X
Técnicas de Amostragem
Definições e Notação
Alguns parâmetros de interesse
I
Covariância populacional:
Sxy =
N
1 X
(Yi − Y )(Xi − X ).
N −1
i=1
I
Coeficiente de correlação (de Pearson) populacional:
N
X
(Yi − Y )(Xi − X )
ρ = ρxy =
Sxy
i=1
= v
.
u N
Sx Sy
N
X
uX
t (Yi − Y )2
(Xi − X )2
i=1
i=1
Técnicas de Amostragem
Definições e Notação
Definições e Notação: Amostra
Qualquer subconjunto s ⊂ U não vazio, selecionado para ser observado e
utilizado para estimar parâmetros de U:
s = {u1 , u2 , . . . , un } ⊂ U.
Temos que
n
→
é o tamanho da amostra
ui
→
é a unidade i da amostra, i = 1, 2, . . . , n; e
yi
→
é o valor da variável de interesse y para a unidade i da amostra.
Técnicas de Amostragem
Definições e Notação
Estatísticas (funções da amostra)
Seja {y1 , y2 , . . . , yn } o conjunto dos dados amostrais.
I
Total amostral: t =
n
X
yi .
i=1
I
Média amostral: y =
n
1X
yi .
n
i=1
I
Variância amostral: s2 = sy2 =
n
1 X
(yi − y )2 .
n−1
i=1
n
X
I
Razão amostral: r = rxy =
i=1
n
X
i=1
yi
=
xi
y
.
x
Técnicas de Amostragem
Definições e Notação
Estatísticas (funções da amostra)
I
Covariância amostral:
sxy =
n
1 X
(yi − y )(xi − x).
n−1
i=1
I
Coeficiente de correlação (de Pearson) amostral:
n
X
(yi − y )(xi − x)
ρb = ρbxy =
sxy
i=1
= v
.
u n
sx sy
n
X
uX
t (yi − y )2
(xi − x)2
i=1
i=1
Técnicas de Amostragem
Definições e Notação
Exemplo de População
Seja uma população P3 , tal que uma variável de interesse y apresente o
seguinte conjunto de valores: Y1 = 4, Y2 = 5 e Y3 = 3.
Y
=
3
X
Yi = 4 + 5 + 3 = 12
i=1
Y
=
3
1X
4+5+3
Yi =
=4
3
3
i=1
Sy2
=
N
1 X
(Yi − Y )2 = 1,
3−1
i=1
2
2
σ =
.
3
Observação: na prática nunca faremos uma amostra de uma população
deste tamanho.
Técnicas de Amostragem
Definições e Notação
Exemplo 1
Vamos selecionar todas as possíveis amostras de tamanho 2 dessa
população, permitindo repetições.
Método:
I
Selecionar uma unidade com equiprobabilidade.
I
Anotar o valor de y e devolver a unidade à população.
I
Selecionar a segunda unidade com equiprobabilidade.
1
2
3
4
5
6
7
8
9
Amostral possível
{u1 , u2 } = {U1 , U1 }
{u1 , u2 } = {U1 , U2 }
{u1 , u2 } = {U1 , U3 }
{u1 , u2 } = {U2 , U1 }
{u1 , u2 } = {U2 , U2 }
{u1 , u2 } = {U2 , U3 }
{u1 , u2 } = {U3 , U1 }
{u1 , u2 } = {U3 , U2 }
{u1 , u2 } = {U3 , U3 }
y1
4
4
4
5
5
5
3
3
3
y2
4
5
3
4
5
3
4
5
3
t
8
9
7
9
10
8
7
8
6
y
4
4,5
3,5
4,5
5
4
3,5
4
3
s2
0
0,5
0,5
0,5
0
2
0,5
2
0
Técnicas de Amostragem
Definições e Notação
Exemplo 1 (continuação)
I
Veja que as estatísticas (das amostras) são diferentes para cada
amostra possível.
I
Portanto, são variáveis aleatórias.
I
Suponha que todas as amostras possíveis têm a mesma probabilidade
de serem selecionadas, ou seja, Pr(sj ) = 1/9 para j = 1, 2, . . . , 9.
I
Vamos calcular o valor esperado do total, da média e da variância da
amostra.
O que concluímos?
I
I
I
I
t tendencioso para Y ;
y não tendencioso para Y ; e
s2 tendencioso para Sy2 .
Técnicas de Amostragem
Definições e Notação
Exemplo 2
Vamos repetir o Exemplo 1, sem admitir repetição.
Método:
I
Selecionar uma unidade com equiprobabilidade.
I
Selecionar, também com equiprobabilidade, a segunda unidade entre as
restantes.
1
2
3
Amostral possível
{u1 , u2 } = {U1 , U2 }
{u1 , u2 } = {U1 , U3 }
{u1 , u2 } = {U2 , U3 }
y1
4
4
5
y2
5
3
3
t
9
7
8
y
4,5
3,5
4
s2
0,5
0,5
2
I
Agora temos 3 amostras possíveis com Pr(sj ) = 1/3, para j = 1, 2, 3.
I
Vamos calcular os mesmos valores esperados do Exemplo 1.
Quais as conclusões?
I
I
I
I
t tendencioso para Y ;
y não tendencioso para Y ; e
s2 não tendencioso para Sy2 .
Técnicas de Amostragem
Estimação
Definições
I
I
Parâmetro: é uma função dos valores da variável de interesse na
população.
Estatística: é uma função dos valores da variável de interesse na
amostra.
I
I
O valor da estatística varia conforme a amostra selecionada, portanto
é uma variável aleatória que possui um valor esperado e uma variância.
Estimador: é uma estatística adequada para estimar o valor de um
parâmetro a partir dos dados amostrais.
Estimador e Estimação
I
Portanto: estimador é uma função dos dados amostrais que serve para
estimar um parâmetro.
I
Precisão do estimador: é dada pela variância do estimador.
I
Estimativa: é o valor resultante da aplicação da função estimador aos
dados da amostra.
I
Todo estimador que puder ser escrito como uma combinação linear dos
valores amostrais será um estimador linear.
Técnicas de Amostragem
Estimação
Estimador e Estimação
Vamos considerar o problema de estimar o valor do total populacional a
partir de uma amostra, ou seja:
uma v ({y1 , y2 , . . . , yn }) que aproxime Y =
N
X
i=1
Será que existe um estimador linear com essa capacidade?
b =
Ou seja, existe Y
n
X
i=1
ωi yi ' Y =
N
X
i=1
Yi ?
Yi .
Técnicas de Amostragem
Estimação
Exemplo 2 (continuação)
I
I
I
I
Vimos que Y = 12.
Mas 1, 5 × Ep (t) = 12 = Y , ou ainda Ep (1, 5t) = 12 = Y .
Então a estatística t não é um bom estimador de Y , mas a estatística
1, 5t pode ser!
Se uma estatística é uma variável aleatória, ela tem uma distribuição de
probabilidades (que dá a probabilidade com que a variável aleatória
assume cada um dos seus valores possíveis).
Distribuição amostral
I
I
Distribuição amostral é a distribuição de probabilidades de uma
estatística.
Distribuição amostral de t:
t
Pr(t)
I
7
1/3
8
1/3
9
1/3
10,5
1/3
12
1/3
13,5
1/3
Distribuição amostral de 1, 5t:
1,5t
Pr(t)
Técnicas de Amostragem
Estimação
Probabilidade de inclusão
I
Define-se como probabilidade de inclusão da unidade Ui na amostra a
seguinte quantidade:
X
πi =
Pr(s).
s⊃Ui
I
Ou seja, a probabilidade da unidade Ui da população ser incluída na
amostra, é igual a probabilidade de uma das possíveis amostras que a
contenha ser a amostra selecionada.
Técnicas de Amostragem
Estimação
Variável indicadora de presença
I
Seja a variável aleatória δi uma indicadora da presença da unidade Ui
na amostra:
1, se a unidade Ui percente à amostra;
δi =
0, caso contrário.
I
Portanto, essa será uma variável aleatória de Bernouli com
Pr(δi = 1) = Pr(Ui ⊂ s) = πi .
I
Então, temos que:
Ep (δi ) = πi ,
I
Varp (δi ) = πi (1 − πi ).
Também temos que
Pr(δi δj = 1) = Pr(Ui ⊂ s; Uj ⊂ s) =
X
s⊃Ui ;Uj
tal que
Cov(δi , δj ) = πij − πi πj .
Pr(s) = πij ,
Técnicas de Amostragem
Estimação
Estimador linear (continuação)
I
O estimador linear do total pode ser escrito como:
b =
Y
n
X
ωi yi =
N
X
i=1
I
Seu valor esperado será:
b ) = Ep
E p (Y
n
X
!
ωi yi
i=1
I
ωj Yj δj .
j=1
=
N
X
ωj Yj Ep (δj ) =
j=1
N
X
ωj πj Yj .
j=1
Para que esse estimador seja não tendencioso, basta que:
ωj πj = 1
⇒
ωj =
1
.
πj
Técnicas de Amostragem
Estimação
Definição
I
O peso amostral da unidade ui de uma amostra probabilística é igual ao
inverso de sua probabilidade de inclusão nessa amostra:
ωi =
I
1
,
πi
i = 1, 2, . . . , n.
Interpretação intuitiva: o peso amostral é o número de unidades da
população “representadas” pela unidade ui da amostra.
Técnicas de Amostragem
Estimação
Estimador de Horvitz-Thompson
I
Então, um estimador não tendencioso para o total de uma variável de
interesse será dado por:
bHT =
Y
n
X
i=1
ωi yi =
n
X
1
yi .
πi
i=1
I
O estimador do total que acabamos de definir, como soma ponderada
dos valores amostrais, onde o peso de cada unidade amostral é o
inverso de sua probabilidade de inclusão, é chamado de estimador de
Horvitz-Thompson, que foram seus formuladores.
I
Esse estimador está definido para qualquer plano amostral onde todas
as unidades da população tenham probabilidades positivas de serem
selecionadas.
Técnicas de Amostragem
Estimação
Estimador de Horvitz-Thompson (continuação)
I
Variância do estimador de Horvitz-Thompson:
bHT ) =
Varp (Y
N
N
N
X
1 − πi 2 X X πij − πi πj
Yi +
Yi Yj .
πi
πi πj
i=1
I
Um estimador não tendencioso para a variância do estimador de
Horvitz-Thompson é:
d p (Y
bHT ) = vp (Y
bHT ) =
Var
I
i=1 j6=i
n
n
n
X
1 − πi 2 X X πij − πi πj
y
+
yi yj .
i
πi πj πij
πi2
i=1
i=1 j6=i
Note a divisão por quantidades extras πi e πij no estimador da variância
do estimador de Horvitz-Thompson.
Exercícios:
bHT , encontre a expressão para Varp (Y
bHT ).
1. Dado o estimador Y
d p (Y
bHT ) é um estimador não tendencioso de Varp (Y
bHT ).
2. Mostre que Var
Técnicas de Amostragem
Amostra Aleatória Simples Sem Reposição
Amostra Aleatória Simples Sem Reposição (AAS)
I
Método básico de muitos planos amostrais.
I
O algoritmo base é:
Para uma AAS de tamanho n:
1. Selecione uma unidade da população com equiprobabilidade.
2. Retire a unidade selecionada da população.
3. Repita os Passos 1 e 2 até ter selecionado n unidades.
I
Esse esquema garante que todas as amostras possíveis de tamanho n
têm a mesma probabilidade de serem escolhidas.
I
Garante que todas as unidades têm a mesma probabilidade de seleção
e de inclusão.
Técnicas de Amostragem
Amostra Aleatória Simples Sem Reposição
Amostra Aleatória Simples Sem Reposição (AAS)
I
A probabilidade de seleção da unidade Ui em qualquer uma das n
seleções é 1/N:
Pr(Ui ser selecionada na 1a )
=
Pr(Ui ser selecionada na 2a )
=
Pr(Ui ser selecionada na 3a )
=
1
N
1
1
1
1−
=
N N −1
N
1
1
1
1
1−
1−
=
N
N −1 N −2
N
..
.
I
A probabilidade de inclusão da unidade Ui na amostra, dessa forma,
será igual a probabilidade dela ser selecionada em pelo menos uma das
n seleções, ou seja:
πi = Pr(Ui ⊂ s) =
n
X
1
n
= .
N
N
i=1
Técnicas de Amostragem
Amostra Aleatória Simples Sem Reposição
Amostra Aleatória Simples Sem Reposição (AAS)
I
A probabilidade de inclusão das unidades Ui e Uj na amostra, será igual
a probabilidade de Ui ser selecionada em pelo menos uma das n
seleções, e Uj ser selecionada em uma das n − 1 outras seleções, ou
seja:
πij = Pr(Ui ⊂ s; Uj ⊂ s) =
n
n
X
1 X
1
n
n−1
=
×
.
N
N −1
N
N −1
i=1
j6=i,j=1
Técnicas de Amostragem
Amostra Aleatória Simples Sem Reposição
Amostra Aleatória Simples Sem Reposição (AAS)
I
Para o estimador do total populacional, empregaremos o estimador de
Horvitz-Thompson:
bHT = Y
bAAS =
Y
n
X
ωi yi =
i=1
I
n
n
n
X
X
yi
Nyi
NX
=
=
yi = Ny ,
πi
n
n
i=1
i=1
i=1
sendo ωi o peso amostral dado pelo inverso da probabilidade de
inclusão.
A variância do estimador do total é dada por
bAAS ) = N 2 (1 − f )
Var(Y
S2
,
n
sendo
f =
n
.
N
I
Um estimador não tendencioso de S 2 é dado pela variância amostral:
" n
#
n
X
X 2
1
1
2
2
2
2
b =s =
S
(yi − y ) =
yi − ny .
n−1
n−1
I
Consequentemente,
i=1
i=1
2
bAAS ) = Var(
d Y
bAAS ) = N 2 (1 − f ) s .
v (Y
n
Técnicas de Amostragem
Amostra Aleatória Simples Sem Reposição
Amostra Aleatória Simples Sem Reposição (AAS)
I
I
n
.
N
O termo (1 − f ) é chamado de fator de correção para populações finitas.
Definimos a fração amostral como f =
I
Note que se N → ∞, o fator de correção para populações finitas será
aproximadamente 1.
I
Estimador da média populacional:
n
bAAS
1X
Y
b
Y
=
yi .
AAS = y =
N
n
i=1
I
Variância do estimador da média:
Var(y ) = (1 − f )
I
S2
N −n
S2
=
×
.
n
N
n
Estimador da variância do estimador da média:
v (y ) = (1 − f )
s2
.
n
Técnicas de Amostragem
Amostra Aleatória Simples Sem Reposição
Exercício (Cochran)
Foram coletadas assinaturas para um abaixo assinado em 676 folhas. Cada
folha tinha espaço para 42 assinaturas, mas em muitas das folhas foi
coletado um número menor de assinaturas. Uma amostra aleatória simples
de 50 folhas foi selecionada, e os resultados estão na tabela abaixo:
Tabela: Dados sobre assinaturas.
yi
fi
yi
fi
42
23
14
1
41
4
11
1
36
1
19
1
32
1
9
1
29
1
7
1
27
2
6
3
23
1
5
2
19
1
4
1
16
2
3
1
15
2
Total
50
a) Estimar o total de assinaturas do abaixo assinado e a
variância do estimador.
b) Estimar o número médio de assinaturas por folha e a
variância do estimador.
Técnicas de Amostragem
Amostra Aleatória Simples Sem Reposição
Seleção de uma amostral aletória simples
I
Como selecionar uma amostral aletória simples de um cadastro?
I
Algoritmo natural é pouco eficiente do ponto de vista computacional.
I
Vamos dar 2 exemplos de Algoritmos: Hàjek, e Fan, Muller e Rezucha.
Algoritmo de Hàjek
I
Selecionar um número aleatório da distribuição U(0, 1), para cada
unidade da população PN .
I
Ordenar a população segundo os valores dos aleatórios gerados.
I
Selecionar as n primeiras unidades da população nessa nova ordem.
Qualquer pacote já tem pelo menos uma rotina de ordenação e geração de
números pseudo-aleatórios.
Técnicas de Amostragem
Amostra Aleatória Simples Sem Reposição
Algoritmo de Fan, Muller e Rezucha
I
I
Seja uma população com N unidades.
Deseja-se uma amostra de tamanho n desta população.
1. i ← 0
2. i ← i + 1
3. Para a unidade Ui gere um número aleatório Ai ∼ U (0, 1).
n
4. Se Ai < , faça
N
4.1 Inclua Ui na amostra.
4.2 Faça n ← n − 1 e N ← N − 1.
Caso contrário, se Ai >
n
, faça
N
4.1 Faça N ← N − 1.
5. Se n = 0 ou N = 0 pare. Caso contrário, retorne ao Passo 2.
I
Processamento sequencial.
I
Pode não precisar percorrer todo o cadastro.
Técnicas de Amostragem
Amostra Aleatória Simples Sem Reposição
Exercício
Suponha que exista um cadastro de 1.000.000 de unidades. Deseja-se
selecionar uma amostra aleatória simples sem reposição (AAS) com 1.500
unidades desta população. Faça o que é pedido abaixo no R e utilize no
início das rotinas set.seed(12345).
1. Utilize o Algoritmo de Hàjek para selecionar esta amostra.
2. Utilize o Algoritmo de Fan, Muller e Rezucha para selecionar esta
amostra.
3. Utilize a função sample ou sample.int para selecionar a amostra.
4. Compare os tempos de execução de cada algoritmo.
Técnicas de Amostragem
Amostra Aleatória Simples Com Reposição
Amostra Aleatória Simples Com Reposição (AASc)
I
Algoritmo natural da AASc:
1. Selecione uma unidade da população com equiprobabilidade;
2. Reponha a unidade selecionada na população;
3. Repita os Passos 1 e 2 até ter feito n seleções.
I
Para uma variável de interesse y , temos que os valores amostrais
y1 , y2 , . . . , yn serão:
I
I
I
I
Independentes;
Identicamente distribuídos; e
1
Pr(yi = Yj ) = , i = 1, 2, . . . , n,
N
Distribuição amostral de yi :
yi
Pr(yi = Yj )
I
Y1
1
N
Y2
1
N
···
···
Yj
1
N
···
···
YN
1
N
Temos que
EAASc (yi ) = Y
I
j = 1, 2, . . . , N.
e
VarAASc (yi ) = σ 2 .
Conclusão: yi é um estimador não tendencioso para a média da
população, mas a variância é “grande”.
Técnicas de Amostragem
Amostra Aleatória Simples Com Reposição
Amostra Aleatória Simples Com Reposição (AASc)
I
Vamos analisar a média amostral:
I
σ2
N −1
S2
=
×
.
n
N
n
Então, a média amostral também é estimador não tendencioso para a
média da população.
Vantagem: a variância é menor!
Comparação com a AAS:
I
Estimador da variância da média amostral
I
2
dAASc (y ) = vAASc (y ) = s .
Var
n
Na amostra aleatória simples com reposição, temos que
EAASc (y ) = Y
I
I
e
VarAASc (y ) =
VarAAS (y ) 6 VarAASc (y ).
EAASc (s2 ) = σ 2 =
I
N −1 2
S .
N
Para o total populacional:
bAASc = Ny ,
Y
bAASc ) = N 2
Var(Y
σ2
,
n
2
bAASc ) = N 2 s .
e v (Y
n
Técnicas de Amostragem
Amostra Aleatória Simples Com Reposição
Exercício
Definimos
σ2 =
N
1 X
(Yi − Y )2 .
N
i=1
Para uma amostra aleatória simples com reposição, mostre que:
1. EAASc (yi ) = Y e VarAASc (yi ) = σ 2 .
2. EAASc (y ) = Y e VarAASc (y ) =
3. VarAAS (y ) 6 VarAASc (y ).
N −1 2
4. EAASc (s2 ) = σ 2 =
S .
N
σ2
N −1
S2
=
×
.
n
N
n