Teorema do Limite Central, distribuição amostral, estimação por

Propaganda
Teorema do Limite Central,
distribuição amostral, estimação por
ponto e intervalo de confiança
Prof. Marcos Pó
Métodos Quantitativos para Ciências Sociais
Distribuição amostral
• Duas amostragens oriundas da mesma população quase
sempre terão estatísticas diferentes.
• Diferentes amostragens produzirão amostras com estatísticas
distintas.
• Amostragens são probabilísticas, portanto, estatísticas
baseadas nas amostragens também o são.
• Se as características da amostragem e a composição da
população são conhecidas, a probabilidade de cada resultado
pode ser determinada.
2
Teorema do Limite Central (TLC)
• Quando o tamanho da amostra (n) aumenta, independente da
forma de distribuição da população, a distribuição amostral da
média da amostra (x) converge para uma distribuição normal.
Histogramas de
distribuição da média
para amostras de
algumas populações
3
Por que o TLC é importante para nós?
• Se a média de uma amostra for um estimador razoável não
será necessário conhecer a f.d.p. da população, pois a
distribuição de probabilidades da média das amostras será
aproximadamente uma normal.
• Dessa forma conseguimos fazer inferências a respeito da
amostra, tais como estimar se está dentro dos nossos critérios
de aceitação.
• A média das distribuições amostrais será igual à da população
(μ) e a sua variância será dada por σ2/n. Matematicamente:
E x  = μ
Var  x  =
2
n
  x =

n
4
Distribuição amostral da média
• Seja X uma variável aleatória (v.a.) com média μ e variância σ2,
e seja (X1, X2,..., Xn) uma Amostra Aleatória Simples (AAS)
de X, de tamanho n, então:
E( X ) = 

 

=

X
n
n
2
2
X
=
• Ou seja, quanto maior a amostra, menor o desvio padrão da
distribuição amostral.
5
Exercício: entregar em 12/02
• Utilizando a planilha “Alturas”, determinar a média e o desviopadrão de cada uma das 100 amostras (n = 15; n = 30; n = 60; n =
150).
• Depois, utilizando as médias obtidas em cada uma das
observações amostrais, determinar:
►
►
Média, desvio-padrão e amplitude
Fazer uma quadro comparando esses valores de cada n amostral
Amplitude das amostras
n
médias
mín
desvios-padrão
máx
mín
máx
Das médias
média
dpad
15
30
60
150
6
Resultados
Amplitude das amostras
n
médias
desvios-padrão
Das médias
mín
máx
mín
máx
média
dpad
15
1,550
1,777
0,085
0,239
1,672
0,039
30
60
150
1,610
1,738
0,101
0,213
1,672
0,027
1,624
1,720
0,114
0,182
1,671
0,019
1,643
1,703
0,132
0,168
1,669
0,012
População = X~N(1,67; 0,152)
Parece haver alguma relação entre o desvio-padrão das médias e o
tamanho da amostra (n)?
7
Exemplo: uso da curva normal e do TLC
Uma v.a. x tem distribuição normal, com média 100 e desviopadrão 10  X~N(100; 102).
a.
b.
c.
Qual a P(90<X<110)?
Se X for a média de uma amostra de 16 elementos tirados dessa
população, calcule P(90<X<110)?
Que tamanho deveria ter a amostra para que P(90<X<110) = 0,95?
8
Distribuição amostral de uma proporção
• Consideramos X uma v.a. onde:
1, se portador da característica
X
0, se não for portador da característica
• Ex.: doador de órgãos, profissão, preferência futebolística,
eleitor do candidato tal...
• Uma proporção é a freqüência de ocorrência da característica,
podendo ser descrita como uma porcentagem.
9
Distribuição amostral de uma proporção
• Podemos aproximar a distribuição binomial para uma normal,
onde a média e desvio-padrão são definidos como:
μ= E(X) = p
σ2 = Var(X) = p(1-p)
• Ou seja, a nossa população de proporção pode ser definida
como:
 p(1  p) 
pˆ ~ N  p;

n


10
Exercício: binomial como normal
1. Uma pesquisa de boca-de-urna com 400 eleitores
aleatoriamente selecionados mostra que o candidato Walfrido
Canavieira tem 52% das preferências em votos válidos.
a. Qual a probabilidade de que Walfrido Canavieira não vença a eleição?
b. Recalcule a probabilidade anterior caso a amostra fosse de 1024
eleitores.
2. Aceita-se que no preenchimento de cadastros de um
departamento haja 5% de erros. A cada semana sorteia-se
uma amostra de 25 cadastros e, se houver mais de 8% de
erros, o serviço é interrompido para conferência de todos os
cadastros feitos no período. Calcule a probabilidade de uma
interrupção desnecessária.
11
Estimação de parâmetros
• Problemas:
►
►
Estimar parâmetros de uma população a partir de amostras
Testar hipótese sobre os parâmetros
• Para isso precisamos buscar estimadores
►
►
►
Acurados
Precisos
Não-viesados
12
Estimadores
• Estimador: estatística usada para
aferir parâmetro da população.
• Notação genérica:
T estimador de 
x
x
erro
x
x

• Há vários estimadores possíveis.
x
►
Ex. para média populacional :
x 
x
• Erro entre a estimativa e o alvo:
►
►
erro absoluto: |T-|
erro quadrático: (T-)²
13
Características de um bom estimador
• Precisão: proximidade da média de todas as observações.
• Acurácia: proximidade do valor alvo.
• Ausência de viés: distância das observações em relação ao
alvo.
(a)
(b)
(c)
14
Estimador de ponto
• Fornece um número único como estimativa de um parâmetro
da população.
• Nossa preocupação é em minimizar o erro:


2
2


ˆ
E  
  ˆ      2ˆ


• Ou seja, que nossa estimativa amostral seja o mais próxima
possível do parâmetro da população.
• Pequena questão crucial: como saber se estamos perto se não
temos noção dos parâmetros da população?
15
Intervalo de confiança
Estimação de intervalos
• Quando determinamos uma estimativa T de uma amostra,
não temos nenhuma indicação de sua proximidade em relação
ao parâmetro θ da população.
• Diferente da estimação pontual, a estimação por intervalo nos
permite julgar a magnitude do erro que estamos cometendo.
• A sua determinação é baseada na distribuição amostral do
estimador pontual.
17
Fonte: Bussab; Morettin, 2002: 304
Ilustrativamente
PX 1,96 
x

   X  1,96  x = 0,95
18
Intervalo de confiança (IC)
• IC = Probabilidade de que o
intervalo estimado contenha
o parâmetro populacional que
queremos determinar.
• Também definido como
coeficiente de confiança (γ).
• Os valores mais comuns são
95% e 99%.
Fonte: Bussab; Morettin, 2002: 305
19
Metaforicamente
x
x
x  1,96
x
x  1,96
x

x
Estimador pontual
x
x  1,96
x  1,96
x  1,96

x  1,96
Estimador intervalar
20
Intervalo de confiança para proporção
• O procedimento para o caso de proporção é o mesmo que
para valores contínuos, com variância p(1-p).
pˆ  z
p(1  p)
 p  pˆ  z
n
p(1  p)
n
• Se não tivermos ideia sobre o valor de p, há duas alternativas:
►
►
Buscar uma estimativa de p por meio de uma pesquisa piloto
Usar p(1-p) = 0,25 (valor máximo), de forma a obter uma estimativa
conservadora do IC.
21
E se a variância da população não for conhecida?
• Nesse caso temos que usar o s da amostra para determinar o
intervalo de confiança.
• Podemos ter duas situações
►
►
Amostras grandes: nesse caso pode-se considerar que a amostra
aproxima-se da normal
Amostras pequenas: usar a distribuição t de Student
• Costuma-se tomar arbitrariamente 30 ou 60 como referência
para definir se uma amostra é grande ou pequena, mas devese analisar o problema e a variância para uma decisão mais
informada.
22
Distribuição t de Student
• Desenvolvida por Willian S. Gosset em
1908, que publicou suas descobertas sob o
pseudônimo Student.
• Ele desenvolveu essa distribuição enquanto
trabalhava nas cervejarias Guinness, na
Irlanda, visando resolver problemas
relacionados às pequenas amostragens que
não se comportavam como predito pela
distribuição normal.
23
Distribuição t de Student
• A distribuição t é semelhante à
normal, porém com caudas mais
largas.
• O parâmetro que a define é o
número de graus de liberdade (ν).
Quanto mais graus de liberdade,
mais próxima da normal será sua
curva.
►
►
Graus de liberdade são o número de
escolhas livres depois que uma
estatística como a média é calculada.
No caso de intervalos de confiança e
teste de hipótese sobre médias:
gl = ν = n-1.
Fonte: http://en.wikipedia.org/wiki/File:Student_t_pdf.svg
24
Intervalo de confiança: resumo
• É o intervalo que contém o parâmetro da população que
queremos estimar com um determinado grau de certeza,
indicado pelo coeficiente de confiança γ.
• O uso de intervalo permite estabelecer um julgamento do
erro que estamos cometendo, que é determinado com base na
distribuição amostral do estimador pontual.

ICx;  P X  z


IC pˆ ;

ˆ  z
 P p



n

xX z

p(1 p)
 pˆ  pˆ  z
n


 = 
n
p(1 p) 

n 
γ
α/2
α/2
25
Exercícios
1. Calcule o intervalo de confiança para a média de altura de uma
população normal em cada um dos casos abaixo:
n
σ
γ
170 cm
36
15 cm
95%
170 cm
225
15 cm
95%
180 cm
225
15 cm
99%
2. Do público que frequenta um posto de saúde é retirada uma amostra de
100 pessoas, obtendo-se uma renda média de R$800 e desvio-padrão de
R$250.
a. Qual o intervalo de confiança de 95% para a renda média da população?
b. Com que confiança pode-se dizer que a renda média é R$800±R$75?
3. Uma amostra aleatória de 484 donas de casa revela que 60% viram os
comunicados de vacinação veiculados no intervalo da programação
matinal de televisão. Construa um intervalo de confiança de 90% para a
proporção das donas de casa que viram os comunicados.
26
Exercícios
4. Alunos da UFXYZ, tentando salvar o que resta de humanidade nas redes
sociais, tiveram a ideia de lançar a campanha “abraça-um-reaça”, onde dariam
demonstrações de afeto aos que fazem comentários politicamente
retrógrados, desinformados ou preconceituosos. Para testar a adesão à
campanha, fazem uma amostra aleatória de 40 estudantes, obtendo os
seguintes resultados:
Resposta
n
%
Sim, apoio: mais amor, por favor!
21
52,5%
Agora não dá, meu CR está perigando...
10
25%
Bebeu? Eu abraçar reaça/comuna? Nunquinha!
9
22,5%
• Determine:
a. Um intervalo de confiança de 95% de alunos que apoiariam a campanha. (use a
distribuição t de Student)
b. O tamanho da amostra necessário para que os proponentes da campanha tivessem 99%
de certeza de que a maioria dos alunos a apoia.
c. Com base no intervalo de confiança determinado no item (a), você acha prudente lançar
a campanha? Justifique.
27
Números do cotidiano
Um terço dos estudantes do sexo masculino diz que eles estuprariam uma mulher se não
houvesse consequências
Buzzfeed, 20 de janeiro de 2015, 12:44 p.m.
[...] Em um estudo liderado pelo professor Sarah Edwards e publicado em Violence and Gender,
86 estudantes universitários americanos do sexo masculino [...] foram convidados a autodenunciar
a probabilidade de se envolverem em certos tipos de uma conduta sexual [...].
Um terço dos participantes (31,7%) disse que forçariam uma mulher a ter relações sexuais em
uma “situação sem consequências” – e muitos não rotulariam ou não reconheceriam suas ações
como “estupro”. Além disso, 13,6% dos participantes disseram que estuprariam uma mulher.
Como parte do estudo, os investigadores abordaram o nível de hostilidade que os participantes
mostraram em relação às mulheres e se isso influenciou na evolução dos resultados. [...]
Os pesquisadores disseram que é importante dissipar a ideia de um “estuprador estereotipado”,
já que o grupo que “endossa a força, mas nega o estupro” não se identifica com o comportamento
dos estupradores. A ideia do estereótipo do estuprador poderia levar a programas de prevenção de
estupro menos eficazes.
http://www.buzzfeed.com/rossalynwarren/um-tereo-dos-estudantes-do-sexo-masculino-diz-que#.bup3Eo11d; Íntegra do estudo aqui.
Com base no tamanho da amostra, calcule:
(a). O intervalo de confiança da proporção de estudantes que “forçariam uma mulher a
ter relações em uma ‘situação sem consequências’” e dos que “disseram que estuprariam
uma mulher”.
(b). É possível extrapolar os resultados do estudo como faz a manchete? Discuta.
28
Apresentação de grupos: dia 26/02 (quinta)
• Explicar Enem e as possíveis manipulações e cuidados com
rankings.
• O que se pode aprender disso?
• Fontes:
http://exame.abril.com.br/brasil/noticias/30-melhores-notas-por-escola-mudam-ranking-doenem
http://educacao.estadao.com.br/noticias/geral,escolas-publicas-e-privadas-da-mesma-classesocial-tem-medias-iguais-no-enem,1611102
http://revistaeducacao.uol.com.br/textos/0/o-incoerente-ranking-do-enem-294325-1.asp
http://educacao.estadao.com.br/blogs/mateus-prado/campea-do-enem-e-ao-mesmo-tempo-aescola-1-e-a-escola-569-do-brasil/
29
Download