T ÉCNICAS DE A MOSTRAGEM Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Técnicas de Amostragem Sumário Definições e Notação Estimação Amostra Aleatória Simples Sem Reposição Amostra Aleatória Simples Com Reposição Técnicas de Amostragem Definições e Notação Definições e Notação Regra geral da nossa notação: I Universo ou população: L ETRAS M AIÚSCULAS . I Amostra: letras minúsculas. Exemplos: Y → média populacional; y → média amostral. Técnicas de Amostragem Definições e Notação Definições e Notação: População Seja uma população composta de N unidades elementares Ui , i = 1, . . . , N. O conjunto PN = U = {U1 , U2 , . . . , UN } define os rótulos que identificam cada unidade da população. Temos que N → tamanho da população de pesquisa; Ui → rótulo para uma unidade genérica i; y → variável de pesquisa ou de interesse; e Yi → valor da variável y para unidade i. Técnicas de Amostragem Definições e Notação Alguns parâmetros de interesse I Total populacional: Y = N X Yi . i=1 I Média populacional: Y = µ = N 1 X Yi . N i=1 I Variância populacional: S 2 = Sy2 = N 1 X (Yi − Y )2 . N −1 i=1 N X I Razão populacional: R = Rxy = i=1 N X i=1 Yi = Xi Y . X Técnicas de Amostragem Definições e Notação Alguns parâmetros de interesse I Covariância populacional: Sxy = N 1 X (Yi − Y )(Xi − X ). N −1 i=1 I Coeficiente de correlação (de Pearson) populacional: N X (Yi − Y )(Xi − X ) ρ = ρxy = Sxy i=1 = v . u N Sx Sy N X uX t (Yi − Y )2 (Xi − X )2 i=1 i=1 Técnicas de Amostragem Definições e Notação Definições e Notação: Amostra Qualquer subconjunto s ⊂ U não vazio, selecionado para ser observado e utilizado para estimar parâmetros de U: s = {u1 , u2 , . . . , un } ⊂ U. Temos que n → é o tamanho da amostra ui → é a unidade i da amostra, i = 1, 2, . . . , n; e yi → é o valor da variável de interesse y para a unidade i da amostra. Técnicas de Amostragem Definições e Notação Estatísticas (funções da amostra) Seja {y1 , y2 , . . . , yn } o conjunto dos dados amostrais. I Total amostral: t = n X yi . i=1 I Média amostral: y = n 1X yi . n i=1 I Variância amostral: s2 = sy2 = n 1 X (yi − y )2 . n−1 i=1 n X I Razão amostral: r = rxy = i=1 n X i=1 yi = xi y . x Técnicas de Amostragem Definições e Notação Estatísticas (funções da amostra) I Covariância amostral: sxy = n 1 X (yi − y )(xi − x). n−1 i=1 I Coeficiente de correlação (de Pearson) amostral: n X (yi − y )(xi − x) ρb = ρbxy = sxy i=1 = v . u n sx sy n X uX t (yi − y )2 (xi − x)2 i=1 i=1 Técnicas de Amostragem Definições e Notação Exemplo de População Seja uma população P3 , tal que uma variável de interesse y apresente o seguinte conjunto de valores: Y1 = 4, Y2 = 5 e Y3 = 3. Y = 3 X Yi = 4 + 5 + 3 = 12 i=1 Y = 3 1X 4+5+3 Yi = =4 3 3 i=1 Sy2 = N 1 X (Yi − Y )2 = 1, 3−1 i=1 2 2 σ = . 3 Observação: na prática nunca faremos uma amostra de uma população deste tamanho. Técnicas de Amostragem Definições e Notação Exemplo 1 Vamos selecionar todas as possíveis amostras de tamanho 2 dessa população, permitindo repetições. Método: I Selecionar uma unidade com equiprobabilidade. I Anotar o valor de y e devolver a unidade à população. I Selecionar a segunda unidade com equiprobabilidade. 1 2 3 4 5 6 7 8 9 Amostral possível {u1 , u2 } = {U1 , U1 } {u1 , u2 } = {U1 , U2 } {u1 , u2 } = {U1 , U3 } {u1 , u2 } = {U2 , U1 } {u1 , u2 } = {U2 , U2 } {u1 , u2 } = {U2 , U3 } {u1 , u2 } = {U3 , U1 } {u1 , u2 } = {U3 , U2 } {u1 , u2 } = {U3 , U3 } y1 4 4 4 5 5 5 3 3 3 y2 4 5 3 4 5 3 4 5 3 t 8 9 7 9 10 8 7 8 6 y 4 4,5 3,5 4,5 5 4 3,5 4 3 s2 0 0,5 0,5 0,5 0 2 0,5 2 0 Técnicas de Amostragem Definições e Notação Exemplo 1 (continuação) I Veja que as estatísticas (das amostras) são diferentes para cada amostra possível. I Portanto, são variáveis aleatórias. I Suponha que todas as amostras possíveis têm a mesma probabilidade de serem selecionadas, ou seja, Pr(sj ) = 1/9 para j = 1, 2, . . . , 9. I Vamos calcular o valor esperado do total, da média e da variância da amostra. O que concluímos? I I I I t tendencioso para Y ; y não tendencioso para Y ; e s2 tendencioso para Sy2 . Técnicas de Amostragem Definições e Notação Exemplo 2 Vamos repetir o Exemplo 1, sem admitir repetição. Método: I Selecionar uma unidade com equiprobabilidade. I Selecionar, também com equiprobabilidade, a segunda unidade entre as restantes. 1 2 3 Amostral possível {u1 , u2 } = {U1 , U2 } {u1 , u2 } = {U1 , U3 } {u1 , u2 } = {U2 , U3 } y1 4 4 5 y2 5 3 3 t 9 7 8 y 4,5 3,5 4 s2 0,5 0,5 2 I Agora temos 3 amostras possíveis com Pr(sj ) = 1/3, para j = 1, 2, 3. I Vamos calcular os mesmos valores esperados do Exemplo 1. Quais as conclusões? I I I I t tendencioso para Y ; y não tendencioso para Y ; e s2 não tendencioso para Sy2 . Técnicas de Amostragem Estimação Definições I I Parâmetro: é uma função dos valores da variável de interesse na população. Estatística: é uma função dos valores da variável de interesse na amostra. I I O valor da estatística varia conforme a amostra selecionada, portanto é uma variável aleatória que possui um valor esperado e uma variância. Estimador: é uma estatística adequada para estimar o valor de um parâmetro a partir dos dados amostrais. Estimador e Estimação I Portanto: estimador é uma função dos dados amostrais que serve para estimar um parâmetro. I Precisão do estimador: é dada pela variância do estimador. I Estimativa: é o valor resultante da aplicação da função estimador aos dados da amostra. I Todo estimador que puder ser escrito como uma combinação linear dos valores amostrais será um estimador linear. Técnicas de Amostragem Estimação Estimador e Estimação Vamos considerar o problema de estimar o valor do total populacional a partir de uma amostra, ou seja: uma v ({y1 , y2 , . . . , yn }) que aproxime Y = N X i=1 Será que existe um estimador linear com essa capacidade? b = Ou seja, existe Y n X i=1 ωi yi ' Y = N X i=1 Yi ? Yi . Técnicas de Amostragem Estimação Exemplo 2 (continuação) I I I I Vimos que Y = 12. Mas 1, 5 × Ep (t) = 12 = Y , ou ainda Ep (1, 5t) = 12 = Y . Então a estatística t não é um bom estimador de Y , mas a estatística 1, 5t pode ser! Se uma estatística é uma variável aleatória, ela tem uma distribuição de probabilidades (que dá a probabilidade com que a variável aleatória assume cada um dos seus valores possíveis). Distribuição amostral I I Distribuição amostral é a distribuição de probabilidades de uma estatística. Distribuição amostral de t: t Pr(t) I 7 1/3 8 1/3 9 1/3 10,5 1/3 12 1/3 13,5 1/3 Distribuição amostral de 1, 5t: 1,5t Pr(t) Técnicas de Amostragem Estimação Probabilidade de inclusão I Define-se como probabilidade de inclusão da unidade Ui na amostra a seguinte quantidade: X πi = Pr(s). s⊃Ui I Ou seja, a probabilidade da unidade Ui da população ser incluída na amostra, é igual a probabilidade de uma das possíveis amostras que a contenha ser a amostra selecionada. Técnicas de Amostragem Estimação Variável indicadora de presença I Seja a variável aleatória δi uma indicadora da presença da unidade Ui na amostra: 1, se a unidade Ui percente à amostra; δi = 0, caso contrário. I Portanto, essa será uma variável aleatória de Bernouli com Pr(δi = 1) = Pr(Ui ⊂ s) = πi . I Então, temos que: Ep (δi ) = πi , I Varp (δi ) = πi (1 − πi ). Também temos que Pr(δi δj = 1) = Pr(Ui ⊂ s; Uj ⊂ s) = X s⊃Ui ;Uj tal que Cov(δi , δj ) = πij − πi πj . Pr(s) = πij , Técnicas de Amostragem Estimação Estimador linear (continuação) I O estimador linear do total pode ser escrito como: b = Y n X ωi yi = N X i=1 I Seu valor esperado será: b ) = Ep E p (Y n X ! ωi yi i=1 I ωj Yj δj . j=1 = N X ωj Yj Ep (δj ) = j=1 N X ωj πj Yj . j=1 Para que esse estimador seja não tendencioso, basta que: ωj πj = 1 ⇒ ωj = 1 . πj Técnicas de Amostragem Estimação Definição I O peso amostral da unidade ui de uma amostra probabilística é igual ao inverso de sua probabilidade de inclusão nessa amostra: ωi = I 1 , πi i = 1, 2, . . . , n. Interpretação intuitiva: o peso amostral é o número de unidades da população “representadas” pela unidade ui da amostra. Técnicas de Amostragem Estimação Estimador de Horvitz-Thompson I Então, um estimador não tendencioso para o total de uma variável de interesse será dado por: bHT = Y n X i=1 ωi yi = n X 1 yi . πi i=1 I O estimador do total que acabamos de definir, como soma ponderada dos valores amostrais, onde o peso de cada unidade amostral é o inverso de sua probabilidade de inclusão, é chamado de estimador de Horvitz-Thompson, que foram seus formuladores. I Esse estimador está definido para qualquer plano amostral onde todas as unidades da população tenham probabilidades positivas de serem selecionadas. Técnicas de Amostragem Estimação Estimador de Horvitz-Thompson (continuação) I Variância do estimador de Horvitz-Thompson: bHT ) = Varp (Y N N N X 1 − πi 2 X X πij − πi πj Yi + Yi Yj . πi πi πj i=1 I Um estimador não tendencioso para a variância do estimador de Horvitz-Thompson é: d p (Y bHT ) = vp (Y bHT ) = Var I i=1 j6=i n n n X 1 − πi 2 X X πij − πi πj y + yi yj . i πi πj πij πi2 i=1 i=1 j6=i Note a divisão por quantidades extras πi e πij no estimador da variância do estimador de Horvitz-Thompson. Exercícios: bHT , encontre a expressão para Varp (Y bHT ). 1. Dado o estimador Y d p (Y bHT ) é um estimador não tendencioso de Varp (Y bHT ). 2. Mostre que Var Técnicas de Amostragem Amostra Aleatória Simples Sem Reposição Amostra Aleatória Simples Sem Reposição (AAS) I Método básico de muitos planos amostrais. I O algoritmo base é: Para uma AAS de tamanho n: 1. Selecione uma unidade da população com equiprobabilidade. 2. Retire a unidade selecionada da população. 3. Repita os Passos 1 e 2 até ter selecionado n unidades. I Esse esquema garante que todas as amostras possíveis de tamanho n têm a mesma probabilidade de serem escolhidas. I Garante que todas as unidades têm a mesma probabilidade de seleção e de inclusão. Técnicas de Amostragem Amostra Aleatória Simples Sem Reposição Amostra Aleatória Simples Sem Reposição (AAS) I A probabilidade de seleção da unidade Ui em qualquer uma das n seleções é 1/N: Pr(Ui ser selecionada na 1a ) = Pr(Ui ser selecionada na 2a ) = Pr(Ui ser selecionada na 3a ) = 1 N 1 1 1 1− = N N −1 N 1 1 1 1 1− 1− = N N −1 N −2 N .. . I A probabilidade de inclusão da unidade Ui na amostra, dessa forma, será igual a probabilidade dela ser selecionada em pelo menos uma das n seleções, ou seja: πi = Pr(Ui ⊂ s) = n X 1 n = . N N i=1 Técnicas de Amostragem Amostra Aleatória Simples Sem Reposição Amostra Aleatória Simples Sem Reposição (AAS) I A probabilidade de inclusão das unidades Ui e Uj na amostra, será igual a probabilidade de Ui ser selecionada em pelo menos uma das n seleções, e Uj ser selecionada em uma das n − 1 outras seleções, ou seja: πij = Pr(Ui ⊂ s; Uj ⊂ s) = n n X 1 X 1 n n−1 = × . N N −1 N N −1 i=1 j6=i,j=1 Técnicas de Amostragem Amostra Aleatória Simples Sem Reposição Amostra Aleatória Simples Sem Reposição (AAS) I Para o estimador do total populacional, empregaremos o estimador de Horvitz-Thompson: bHT = Y bAAS = Y n X ωi yi = i=1 I n n n X X yi Nyi NX = = yi = Ny , πi n n i=1 i=1 i=1 sendo ωi o peso amostral dado pelo inverso da probabilidade de inclusão. A variância do estimador do total é dada por bAAS ) = N 2 (1 − f ) Var(Y S2 , n sendo f = n . N I Um estimador não tendencioso de S 2 é dado pela variância amostral: " n # n X X 2 1 1 2 2 2 2 b =s = S (yi − y ) = yi − ny . n−1 n−1 I Consequentemente, i=1 i=1 2 bAAS ) = Var( d Y bAAS ) = N 2 (1 − f ) s . v (Y n Técnicas de Amostragem Amostra Aleatória Simples Sem Reposição Amostra Aleatória Simples Sem Reposição (AAS) I I n . N O termo (1 − f ) é chamado de fator de correção para populações finitas. Definimos a fração amostral como f = I Note que se N → ∞, o fator de correção para populações finitas será aproximadamente 1. I Estimador da média populacional: n bAAS 1X Y b Y = yi . AAS = y = N n i=1 I Variância do estimador da média: Var(y ) = (1 − f ) I S2 N −n S2 = × . n N n Estimador da variância do estimador da média: v (y ) = (1 − f ) s2 . n Técnicas de Amostragem Amostra Aleatória Simples Sem Reposição Exercício (Cochran) Foram coletadas assinaturas para um abaixo assinado em 676 folhas. Cada folha tinha espaço para 42 assinaturas, mas em muitas das folhas foi coletado um número menor de assinaturas. Uma amostra aleatória simples de 50 folhas foi selecionada, e os resultados estão na tabela abaixo: Tabela: Dados sobre assinaturas. yi fi yi fi 42 23 14 1 41 4 11 1 36 1 19 1 32 1 9 1 29 1 7 1 27 2 6 3 23 1 5 2 19 1 4 1 16 2 3 1 15 2 Total 50 a) Estimar o total de assinaturas do abaixo assinado e a variância do estimador. b) Estimar o número médio de assinaturas por folha e a variância do estimador. Técnicas de Amostragem Amostra Aleatória Simples Sem Reposição Seleção de uma amostral aletória simples I Como selecionar uma amostral aletória simples de um cadastro? I Algoritmo natural é pouco eficiente do ponto de vista computacional. I Vamos dar 2 exemplos de Algoritmos: Hàjek, e Fan, Muller e Rezucha. Algoritmo de Hàjek I Selecionar um número aleatório da distribuição U(0, 1), para cada unidade da população PN . I Ordenar a população segundo os valores dos aleatórios gerados. I Selecionar as n primeiras unidades da população nessa nova ordem. Qualquer pacote já tem pelo menos uma rotina de ordenação e geração de números pseudo-aleatórios. Técnicas de Amostragem Amostra Aleatória Simples Sem Reposição Algoritmo de Fan, Muller e Rezucha I I Seja uma população com N unidades. Deseja-se uma amostra de tamanho n desta população. 1. i ← 0 2. i ← i + 1 3. Para a unidade Ui gere um número aleatório Ai ∼ U (0, 1). n 4. Se Ai < , faça N 4.1 Inclua Ui na amostra. 4.2 Faça n ← n − 1 e N ← N − 1. Caso contrário, se Ai > n , faça N 4.1 Faça N ← N − 1. 5. Se n = 0 ou N = 0 pare. Caso contrário, retorne ao Passo 2. I Processamento sequencial. I Pode não precisar percorrer todo o cadastro. Técnicas de Amostragem Amostra Aleatória Simples Sem Reposição Exercício Suponha que exista um cadastro de 1.000.000 de unidades. Deseja-se selecionar uma amostra aleatória simples sem reposição (AAS) com 1.500 unidades desta população. Faça o que é pedido abaixo no R e utilize no início das rotinas set.seed(12345). 1. Utilize o Algoritmo de Hàjek para selecionar esta amostra. 2. Utilize o Algoritmo de Fan, Muller e Rezucha para selecionar esta amostra. 3. Utilize a função sample ou sample.int para selecionar a amostra. 4. Compare os tempos de execução de cada algoritmo. Técnicas de Amostragem Amostra Aleatória Simples Com Reposição Amostra Aleatória Simples Com Reposição (AASc) I Algoritmo natural da AASc: 1. Selecione uma unidade da população com equiprobabilidade; 2. Reponha a unidade selecionada na população; 3. Repita os Passos 1 e 2 até ter feito n seleções. I Para uma variável de interesse y , temos que os valores amostrais y1 , y2 , . . . , yn serão: I I I I Independentes; Identicamente distribuídos; e 1 Pr(yi = Yj ) = , i = 1, 2, . . . , n, N Distribuição amostral de yi : yi Pr(yi = Yj ) I Y1 1 N Y2 1 N ··· ··· Yj 1 N ··· ··· YN 1 N Temos que EAASc (yi ) = Y I j = 1, 2, . . . , N. e VarAASc (yi ) = σ 2 . Conclusão: yi é um estimador não tendencioso para a média da população, mas a variância é “grande”. Técnicas de Amostragem Amostra Aleatória Simples Com Reposição Amostra Aleatória Simples Com Reposição (AASc) I Vamos analisar a média amostral: I σ2 N −1 S2 = × . n N n Então, a média amostral também é estimador não tendencioso para a média da população. Vantagem: a variância é menor! Comparação com a AAS: I Estimador da variância da média amostral I 2 dAASc (y ) = vAASc (y ) = s . Var n Na amostra aleatória simples com reposição, temos que EAASc (y ) = Y I I e VarAASc (y ) = VarAAS (y ) 6 VarAASc (y ). EAASc (s2 ) = σ 2 = I N −1 2 S . N Para o total populacional: bAASc = Ny , Y bAASc ) = N 2 Var(Y σ2 , n 2 bAASc ) = N 2 s . e v (Y n Técnicas de Amostragem Amostra Aleatória Simples Com Reposição Exercício Definimos σ2 = N 1 X (Yi − Y )2 . N i=1 Para uma amostra aleatória simples com reposição, mostre que: 1. EAASc (yi ) = Y e VarAASc (yi ) = σ 2 . 2. EAASc (y ) = Y e VarAASc (y ) = 3. VarAAS (y ) 6 VarAASc (y ). N −1 2 4. EAASc (s2 ) = σ 2 = S . N σ2 N −1 S2 = × . n N n