CAP5: Amostragem e Distribuição Amostral

CAP5: Amostragem e Distribuição Amostral
O que é uma amostra?
É um subconjunto de um universo (população).
Ex: Amostra de sangue; amostra de pessoas, amostra de objetos, etc
O que se espera de uma amostra?
Que ela represente as características do universo, ou seja, que seja representativa:
Software a ser utilizado: R – para baixar utilize o link:
Amostras aleatórias
Quando os elementos do universo têm a mesma probabilidade de ser selecionado para a amostra, dizemos que
se trata de uma amostra aleatória simples.
O processo de amostragem pode ser com ou sem reposição dos elementos do universo.
Procedimento para obter uma amostra aleatória de tamanho n:
Passo 1: Numere os elementos da população (supondo população finita)
Passo 2: Decida se o sorteio será com reposição (no caso de um elemento ter a possibilidade de ser sorteado
mais de uma vez na mesma amostra) ou sem reposição (no caso de não ser possível repetir elementos da
população)
Passo 3: Utilize um programa computacional para realizar o sorteio da amostra.
Exemplo 5.1
Suponha que a população seja composta de 25 elementos e se deseja obter uma amostra de tamanho n=5.
Programa escolhido: R
Comando para selecionar a amostra com reposição e sem reposição
set.seed(171);sample(1:25,5, replace=T)#comando para sorteio com reposição
Obtém-se os seguintes elementos da população (com reposição): 5 16 15 16 22
set.seed(16);sample(1:25,5) #comando para sorteio sem reposição
Obtém-se os seguintes elementos da população (sem reposição): 18 6 11 24 19
Exemplo 5.2
Um professor quer obter uma amostra aleatória simples sem reposição que seja representativa, de 10%, de uma
população de 200 alunos de uma escola, como deve proceder?
Passo 1: atribuir um número a cada aluno: 1:200;
Passo 2: sorteio sem reposição de 10% de 200. Logo n=20
Passo 3: utilizar um programa para realizar o sorteio. set.seed(16);sample(1:200,20)
Lista com os números sorteados ordenados: set.seed(16);sort(sample(1:200,20))
Amostragem Aleatória Estratificada de um universo finito
Muitas vezes uma população é composta de subpopulações (estratos) bem definidos, havendo maior
homogeneidade entre as unidades amostrais dentro de cada estrato do que entre as unidades amostrais de
estratos diferentes. Sexo, idade, condição sócio-econômica são exemplos típicos. Nestas condições, tais estratos
devem ser levados em consideração e o sorteio da amostra deve ser feito em cada um deles
independentemente; daí o nome de amostragem estratificada.
Há dois métodos de alocação das amostras aos estratos. Suponha que o universo esteja dividido em k estratos
de tal forma que o tamanho de cada estrato seja representado por
tal que a soma seja N. Se a
amostra da população for de tamanho n, é necessário estabelecer o tamanho da amostra em cada estrato, que
denotaremos por
tal que n1+n2+...+nk=n.
 Alocação Proporcional
Exemplo5.3: Numa localidade com 150 000 habitantes, 45 000 têm menos de 20 anos de idade, 75 000 têm
idades entre 30 e 50 anos e 30 000 têm mais de 50 anos de idade. Extrair uma amostra de 30 habitantes desta
população pelo processo de amostragem estratificada com alocação proporcional.
Elementos: N=150000; N1=45000; N2=75000; N3=30000 e n=30
Assim,
 Alocação Ótima de Neyman
Nesse tipo de alocação, a intensidade de amostragem calculada é distribuída proporcionalmente à variância de
cada estrato.
Este método depende de estimativas para o desvio-padrão de cada estrato. Estas estimativas podem ser obtidas
por variáveis auxiliares que apresentem alta correlação com a variável de interesse; através de conhecimentos
prévios ou por amostras pilotos.
Exemplo5.4: Numa localidade com 150 000 habitantes, 45 000 têm menos de 20 anos de idade, 75 000 têm
idades entre 30 e 50 anos e 30 000 têm mais de 50 anos de idade. Extrair uma amostra de 30 habitantes desta
população pelo processo de amostragem estratificada com alocação ótima de Neyman.
Considere as seguintes estimativas para o desvio padrão da variável de interesse: 1.20; 1.5 e 2.55
Elementos: N=150000; N1=45000; N2=75000; N3=30000 e n=30
Assim,
Estatísticas e Distribuições Amostrais
Estimador é qualquer função dos elementos da amostra e não depende de parâmetros desconhecidos.
Estimativa ou Estatística é a aplicação do estimador para valores obervados em uma amostra.
Parâmetros são números reais fixos e desconhecidos que compõem os modelos de probabilidade.
Exemplo5.5: Uma variável aleatória X com distribuição normal tem como parâmetros desconhecidos
que
representam a média e o desvio padrão desta variável aleatória.
As funções
representam estimadores para os valores observados de determinada amostra. Ao
selecionarmos a amostra e avaliarmos os valores obtidos em tais funções, obtendo o que chamamos de
estimativas ou estatísticas.
Valores observados da amostra: 3, 4, 8
O estimador diz como devo combinar os valores da amostra para obter as estimativas ou estatísticas
Estatísticas:
Parâmetros, o estimador
tem distribuição normal com parâmetro
.
Exemplo5.6: Observe que nem sempre a média e o desvio padrão de uma distribuição são os valores dos
parâmetros desta distribuição. Veja o caso da distribuição exponencial cujo parâmetro é , e, no entanto, a
média e o desvio padrão para esta distribuição é
. Nesta caso, o estimador
é o estimador de .
No caso da distribuição binomial, os parâmetros são
, enquanto que a média e o desvio padrão é
. Neste caso, o estimador de será dado pela proporção de sucessos na amostra, .
Supondo que a amostra 3,4,8 tenha sido retirada de uma população com distribuição exponencial, a estimativa
do parâmetro ,
(quando nos referimos a estimativas de um parâmetro, é usual colocar o acento ^
para se fazer a distinção entre estimativa e parâmetro).
Agora, se uma amostra apresenta 4 sucessos em 10 tentativas (distribuição binomial), a estimativa do parâmetro
,
.
Para se aprofundar mais neste assunto você poderá pesquisar sobre estimadores de máxima verossimilhança, ajustes de parâmetros para distribuições de
probabilidade.
Distribuições Amostrais
É a função de densidade de probabilidade que descreve o comportamento probabilístico do estimador em
amostras aleatórias simples.
Distribuição Amostral de
Se
então
Se
então
para
Como regra geral,
já fornece boa aproximação da normalidade para o estimador média amostral.
Se a amostra apresenta boa simetria, a aproximação se dá para ,
No caso de assimetria, que pode ser avaliada pelo coeficiente de assimetria , a regra empírica muito utilizada é
No R,
pode ser calculado com o comando library(fBasics); skewness(x)
Exemplo 5.7
Considere a seguinte amostra piloto sobre a variável de interesse:
5.7 6.2 8.7 12.8 0.9 2.1 5.7 11.0 1.1 3.3 0.5 1.4 2.1 3.6 2.2 5.1 0.9 11.7 2.7 6.1
Avalie a simetria dos dados utilizando um ramo e folhas ou histograma. Trata-se de uma distribuição assimétrica.
Para esta amostra obtemos
Assim, a regra sugere que o tamanho da amostra para utilizarmos adequadamente a aproximação normal para o
estimador é
Erro Padrão
O erro padrão de uma estatística é o desvio padrão de sua distribuição amostral.
O erro padrão de é
.
Se não conhecemos , então, utilizamos como estimativa o valor de , desse modo teremos a estimativa para o
erro padrão de :
.
Exemplo 5.8
Considere a amostra do exemplo anterior cujas estatísticas são:
Estatísticas:
O erro padrão estimado de é
Intervalo de Confiança
Formado por duas estatísticas I e S que estabelecem limites para o parâmetro de interesse , tal que
O intervalo de I a S é chamado de intervalo de
de confiança para o parâmetro desconhecido .
Veja a seguir o formulário para se obter as estatística I e S do intervalo:
É aconselhável ao aluno consultar a bibliografia para maiores detalhes. (Montgomery, Prob e Est na Eng)
Exemplo 5.9
Considere a amostra do exemplo 5.7. Se desejarmos estimar a média da variável de interesse, consultando a
tabela 10.5, vemos que se trata da terceira situação.
Já temos as estatísticas da amostra (exemplo 5.8)
Em geral utiliza-se
. Para obter
deve-se consultar a tabela da distribuição t. e obter 2.093.
No R, utilize
qt(0.025,19)
[1] -2.093024 #valor da cauda inferior
qt(0.975,19)
[1] 2.093024 #valor da cauda superior; é o simétrico do valor anterior!
Para utilizar a tabela observe o grau de liberdade (19) e a probabilidade acumulada em t (0.975).
Assim, 2.91
6.47
Exemplo 5.10
Para avaliar a proporção de itens defeituosos de um lote observou-se uma amostra de 50 itens dos quais 2
apresentaram defeito. Obtenha a estimativa por intervalo da proporção de itens defeituosos produzidos.
Consultando a tabela 10.5, vemos que se trata da penúltima situação.
Em geral utiliza-se
. Para obter
(atenção,
sempre associará
A estatística de p = 2/50 = 0.04
Assim, 0.014
0.094
deve-se consultar a tabela da distribuição normal e obter 1.96.
)
Escolha do tamanho da amostra para estimar
com Erro estabelecido
O pesquisador estabelece um limite de afastamento aceitável . Para um nível de significância , o tamanho da
amostra para se avaliar a média é dado por:
Exemplo 5.11
Para avaliar a condutividade térmica média do ferro Armco, o pesquisador estabelece um erro na estimativa de
no máximo 0.05 Btu/h-ft-oF, com 95% de confiança. Suponha que seja conhecido
. O tamanho amostral
necessário para este erro é:
O tamanho da amostra para se avaliar a proporção
é dado por:
O tamanho amostral para esta situação é máximo quando
. Desse modo, é sempre possível estabelecer
uma cota superior para n.
Exemplo 5.12
Para avaliar a proporção de peças com defeito, o pesquisador estabelece um erro na estimativa de no máximo
0.05, com 95% de confiança. Suponha que uma amostra piloto de 75 itens; 12 tinham algum defeito. O tamanho
amostral necessário para este erro é:
Veja que se não tivemos informação sobre a amostra piloto, poderíamos utilizar a cota superior:
Exercícios:
1. No jogo da mega sena são sorteados 6 números sem reposição entre os números de 1 a 60.
a. Simule um jogo com 6 números.
b. Simule um jogo com 10 números.
c. Simule o sorteio da mega sena. Se as apostas foram as do item a e b, quantos acertos ocorreram?
2. Obtenha o valor de
, para
.
3. Um engenheiro está analisando a força de compressão do concreto. Sabe-se que esta força se distribui
normalmente com
? Quantas amostras devem ser analisadas para se obter um intervalo de 95% de
confiança para a força média, estabelecendo um erro máximo de 3psi.
4. Suponha que o engenheiro da questão 2 conseguiu uma amostra de tamanho 8 com os seguintes valores:
3205, 3201, 3195, 3200, 3205, 3191, 3192, 3202
Obtenha o intervalo de 95% de confiança para a média.
5. Um gerente está planejando um experimento para testar a durabilidade de duas marcas de pneus (em km).
Suponha que o erro máximo estabelecido para um intervalo de 95% de confiança seja de 1000 km. Sabe-se
que o desvio padrão de cada marca é estimado em
a. Estabeleça o tamanho da amostra para cada marca:
b. Supondo que o tamanho amostral do experimento seja
e que há um universo de 10.000
pneus para cada marca. Calcule o tamanho da amostra em cada estrato definido pela marca do pneu
com base na alocação proporcional.
c. Repita o item c, utilizando a alocação ótima de Neyman.
6. Um estudo pretende estimar a proporção de veículos sem seguro em duas cidades A e B. Estudos
preliminares estimam que 20% dos veículos destas cidades não possuem seguro. Estabeleça o tamanho da
amostra considerando um erro máximo de 0.03 para estimar um intervalo de 95% de confiança para a
proporção.
7. Supondo que o tamanho amostral do estudo da questão anterior seja e que há um universo de 100.000
veículos na cidade A e 500.000 veículos na cidade B. Calcule o tamanho da amostra em cada cidade com
base na alocação proporcional.
8. Num levantamento realizado em certa cidade, de uma amostra de 120 veículos, 30 não possuíam seguro.
Estime o intervalo de 95% de confiança para a proporção de veículos sem seguro.
Resposta
1 Sugestão de solução: a)set.seed(1); sort(sample(1:60,6)); b) set.seed(1); sort(sample(1:60,10)); c)
set.seed(1); sort(sample(1:60,6)) (com a mesma semente ambas as apostas são vencedoras. Experimente mudar
a semente!
2.qt(0.025,5:15);
valores:
-2.570582
-2.446912
-2.364624
2.178813 -2.160369 -2.144787 -2.131450. Atenção que a notação
3 11
4
data: x
t = 1633.046, df = 7, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
3194.243 3203.507
sample estimates:
mean of x
3198.875
5 a 16 e 21 b 20 e 20 c 19 e 21
6 683
7 114 e 569
8 0.247 e 0.253
-2.306004
-2.262157
-2.228139
-2.200985
-
refere-se ao simétrico destes valores.