Distribuição Amostral

Distribuição Amostral
3
Miguel Angel Uribe Opazo
O objetivo pelo qual selecionamos
uma amostra, é para obter
estimativas
de
parâmetros
desconhecidos da população
(µ, σ2, π) fazer afirmações sobre os
mesmos e, também, nos auxiliar na
verificação da forma (distribuição),
como a estatística se distribui.
X
Exemplo
Vamos raciocinar em cima da seguinte pergunta:
Um pesquisador está interessado em avaliar a
produção média (µ), por planta, da cultivar de
maça Gala. O valor da produção média por
planta X, numa amostra de 10 plantas, vai ser
um valor próximo da verdadeira produção média
referente a todas as plantas da cultivar Gala?.
•Quando se extraem repetidas amostras de
uma mesma população, são obtidos
diferentes valores da media amostral.
Provavelmente, os valores das médias
amostrais são todas diferentes, e, também,
diferentes da verdadeira média da
população, simplesmente devido a fatores
casuais na amostragem.
• Esta variabilidade é conhecida como
Variabilidade amostral. Portanto, tornase imprescindível, quando vamos fazer
inferências
sobre
parâmetros
populacionais, levar em consideração a
variabilidade amostral. Vamos estudar a
variabilidade
amostral
através
das
distribuições amostrais.
Os valores da estatística, calculados nas amostras, vão formar uma nova população (de
médias, de variâncias, de proporções), cuja distribuição recebe o nome de distribuição
amostral (de médias, de variâncias, de proporções). Assim o conjunto:
X 1, X 2,..., X k é denominado de distribuição amostral das médias ou da média;
o conjunto:
p1, p2, ..., pk é denominado de distribuição amostral das proporções ou da proporção;
o conjunto:
S12 , S 22 ,..., S k2 é denominado de distribuição amostral da variância.
Distribuição Amostral da Média
• Seja X uma variável aleatória que assume
os seguintes elementos {2, 3, 4, 5}.
Vamos extrair, aleatoriamente, com
reposição, amostras de dois elementos.
Então, 42 = 16 o número de amostras
possíveis, já que N = 4 e n = 2 é o
processo com reposição.
(2, 2) (2, 3) (2, 4) (2, 5)
(3, 2) (3, 3) (3, 4) (3, 5)
(4, 2) (4, 3) (4, 4) (4, 5)
(5, 2) (5, 3) (5, 4) (5, 5)
Se calcularmos para cada amostra sua média obtermos as seguintes
2,0 2,5
3,0
3,5
2,5 3,0
3,5
4,0
3,0 3,5
4,0
4,5
3,5 4,0
4,5
5,0
A distribuição de probabilidade de X é
X
2,0
2,5
3,0
3,5
4,0
4,5
5,0
P( X )
1/16
2/16
3/16
4/16
3/16
2/16
1/16
Calculamos a E( X ) e Var( X ) da seguinte maneira:
X = E ( X ) =
7
 X P( X ) = 3,5
i 1
i
i
7
Var( X ) = (  X i2 P( X i ) ) – (E ( X ))2 = 0,625.
i 1
Como a população é formada pelos elementos {2, 3, 4, 5} calculamos a média e variância
populacional
X =
Xi
23 45
=
= 3,5

N
4
i 1
N
( X i   X )2
Var (X ) =  = 
=1,25 .
N
i 1
N
2
Observado os resultados acima verificamos que as médias são iguais e a Var( X ) é a metade
da variância da população, pois n = 2.
Dai constatarmos que
X = X e
Var ( X )  2
Var( X ) =
=
.
n
n
Será que foi coincidência o fato que a média das médias amostrais ter coincidido com a
média populacional? e a variância de X ser igual à Var( X ) dividido por 2?
Vamos mostrar que isso sempre acontece.
Teorema
Seja X uma variável aleatória com média  X e variância  2 , e seja (X1, X2, ..., Xn)
n
uma amostra aleatória simples, então, se X = 
i 1
temos
E ( X ) = X
2
e Var( X ) =
.
n
Xi
n
Teorema Central do Limite
Para amostras aleatórias simples ( X1, X2, ..., Xn) retiradas de uma população com média
 X e variância  , a distribuição amostral da média X =
2
n
Xi
i1 n aproxima-se de uma
2
distribuição normal com média  X e variância
, quando n tende ao infinito.
n
Isto é,
2
X  N (  , ) , quando n   .
n
Corolário
Se ( X1, X2, ..., Xn) é uma amostra simples aleatória de uma população X com média
 X e variância 
Então,
Z
n
2
Xi
eX = ,
i 1 n
X  X
 n
 N (0,1) , quando n   .
Distribuição Amostral da
Proporção
i.
n
k
Seja pˆ  a proporção amostral, onde k   X i , sendo
n
i 1
ii.
X i  1 , se é sucesso
iii.
0 , se é fracasso
iv.
v.
Para n grande, temos que pelo Teorema Central do Limite,
p̂  N ( p,
p(1  p)
).
n
Observação: considera-se n grande, para n > 30.
Distribuição Amostral da
Variância
Seja X1,...,Xn uma amostra extraída de uma população normal com média  X e variância  2 .
n
Seja S 
2
2
(
X

X
)
 i
i 1
n 1
n
A soma
(X
i 1
n
(X
i 1
 X) =
2
i
i
1 n
a variância amostral, e X   X i a média amostral.
n i 1
 X ) 2 dos quadrados dos desvios pode ser escrita como:
n
(X
i 1
 ) - n
2
i
n
 (X  )
i 1
2
.
Assim, a variância da amostra pode ser escrita como:
1
S = [
n
2
n
 ( X i  ) - n
2
i 1
n
2
(
X


)
].

i 1
Multiplicando-se ambos por (n-1)/  2 , temos:
(n  1) S 2 1
 2[
2


n
 ( X i  ) - n
2
i 1
n
2
(
X


)
]

i 1
Xi  
Como os termos
são variáveis aleatórias normais padronizadas com média zero e

variância um( N(0,1)).
E por outro lado,
X 

é também N(0,1).Temos que
n
1

2
n
(X
i 1
i
  ) 2 tem distribuição qui-
2



X 
2
quadrado com n graus de liberdade (  n ), analogamente 
tem distribuição  12 .



n 

Portanto,
(n  1) S 2

2
2
Então E[S ]= E[
2
Var [S ] = Var[
2
tem distribuição  n21 (qui-quadrado com n-1 graus de liberdade).
2
(n  1)
2
(n  1)

2
n 1

2
n 1
]=
]=
Em resumo S tem distribuição
2
(n  1)
E[ 
4
(n  1) 2
4
(n  1)
2
2
n 1
]=
Var[ 
2
n 1

2
n 1
2
(n  1)
(n-1) =  2 .
4
2 4
]=
(2(n-1)) =
(n  1) 2
(n  1)
com média 
2
2 4
e variância
.
(n  1)
Intervalos de Confiança
Eis outra maneira de calcularmos uma estimativa de um parâmetro desconhecido. Vamos
construir um intervalo de confiança para o parâmetro desconhecido com uma probabilidade
(1-)% (nível de confiança) de que um intervalo contenha o verdadeiro parâmetro. Observem
que (1-)% pode ser igual a 99%, 95%, 90% , 80%, etc.
Desta maneira  será o nível de significância, isto é, o erro que estamos cometendo ao
afirmarmos que, por exemplo, 95% das vezes o intervalo ˆ1 <  < ˆ2 contém  será de
5%.
Tipos de Intervalo de Confiança
7.1. Intervalo de confiança para a média populacional
quando a variância populacional é conhecida;
7.2. Intervalo de confiança para a média populacional
quando a variância populacional é desconhecida;
7.3. Intervalo de confiança para proporção
populacional;
7.4 intervalo de confiança para a variância populacional.
7.1. Intervalo de confiança para a média populacional
quando a variância populacional é conhecida
a) Se a variável aleatória tem distribuição normal,isto é, X ~N (  ,  2 ), o intervalo de
(1-)% de confiança para a média populacional  é da forma
IC[  , (1-)%] = [Li ; Ls]
Em que,
Li = X  z
Ls = X  z

, é o limite inferior do intervalo de confiança;
n

, é o limite superior do intervalo de confiança,
n
sendo, z obtido através da tabela de distribuição normal padrão com média zero e variância 1.
Com o intuito de auxiliar ao estudante na obtenção do intervalo de confiança,
apresentamos a seguir uma tabela com o valor de z através da tabela normal padrão e seu
respectivo nível de confiança e significância.
Tabela de distribuição Normal
Padrão
Nível de confiança
(1-  )%
99,74
99,00
95,44
95,00
90,00
85,00
80,00
Nível de significância
(  )%
0,26
1,00
4,56
5,00
10,00
15,00
20,00
Valor
z
3,00
2,58
2,00
1,96
1,65
1,44
1,28
Exemplo
Seja X a duração de vida de uma peça de equipamento que tem distribuição normal com
desvio padrão  = 5 horas. Admita-se que 100 peças foram ensaiadas fornecendo uma
duração de vida média de X = 500 horas e que se deseje obter um intervalo de 95% para a
média populacional  .
Solução
n = 100 , X = 500;  = 5 ;
(1-)% = 0 95% ; z = 1,96.
Os limites do intervalo de confiança são
Li = 500 – 1,96
Ls = 500 + 1,96
5
100
5
100
= 499,02;
= 500,98 .
Logo o intervalo de 95% de confiança para a média populacional  é
IC [  , 95% ] =[ 499,02 ; 500,98] .
Assim, podemos dizer que 95% das vezes, o intervalo [499,02 ; 500,98 ] contém a
verdadeira média  .
b)Se não conhecemos a distribuição de X, então para n > 30, utilizaremos o Teorema
2
Central de Limite, que diz X  N (  , ) , quando n   .
n
Assim, o intervalo de (1-)% de confiança para a média populacional  é da forma
IC[  , (1-)%] = [Li ; Ls]
em que,
Li = X  z

, é o limite inferior do intervalo de confiança média populacional;
n

Ls = X  z , é o limite superior do intervalo de confiança média populacional.
n
7.2. Intervalo de confiança para a média populacional
quando a variância populacional é desconhecida
a) Se a variável aleatória tem distribuição normal,isto é, X~N(  ,  2 ), mas não conhecemos
a variância populacional  2 , neste caso, precisamos calcular a estimativa
(variância amostral) de  2 .
n
S2 
Seja
(X
i 1
i
 X )2
o estimador não viciado de variância mínima de  2 .
n 1
Como X ~ N (  ,
2
n
)
e
Z 
X 

~ N (0,1) ,
n
vamos considerar a nova variável aleatória
t
X 
S
n
Pelo teorema de Fisher (Bussab e Morettin, 2003) temos
(n  1)
logo,
S2
2
S2
2
~
 (2n1)
1
~
n 1
 (2n1) .
=
X  
Z
=
.
S
S

 n
de S 2
Assim, a estatística t ~ t ( n 1) , isto é, a estatística t tem uma distribuição t-Student com
n-1 graus de liberdade.
Assim, o intervalo de (1-)% de confiança para a média populacional  é da forma
IC[  , (1-)%] = [ Li ; Ls]
em que,
Li = X  t (n1) S n , é o limite inferior do intervalo de confiança média populacional;
Ls = X  t (n1) S n , o limite superior do intervalo de confiança média populacional.
sendo, t(n-1) o valor da tabela t-student com n-1 grau de liberdade e erro  %.
Anexo 1
b) Se não conhecemos a distribuição de X, então, para n >30, utiliza-se o Teorema Central
de Limite e o intervalo de (1-)% de confiança para a média populacional  é da forma
IC[  , (1-)%] = [ Li ; Ls ]
em que,
Li = X  t(n1) S n , é o limite inferior do intervalo de confiança média populacional;
Ls = X  t(n1) S n , o limite superior do intervalo de confiança média populacional.
sendo, t(n-1) o valor da tabela t-student com n-1 grau de liberdade e erro %. (ver Anexo 1).
7.3. Intervalo de Confiança para Proporção
Populacional
Lembrando que p̂  N ( p,
p (1  p )
) quando n for grande ( n > 30).
n
O intervalo de ( 1-)% de confiança para a proporção populacional p é definido da seguinte
forma
IC[p , (1-)%] = [Li ; Ls ]
Em que,
Li =
pˆ  z
Ls = pˆ  z
pˆ (1  pˆ )
, é o limite inferior do intervalo de p;
n
pˆ (1  pˆ )
, é o limite superior do intervalo de p,
n
Sendo,que z obtido através da tabela de distribuição normal padrão com média zero e
variância 1.
7.4 Intervalo de Confiança para a Variância
Populacional
Neste caso precisamos calcular a estimativa S (desvio padrão) a partir da amostra.
Lembrando que
(n  1) S 2

2
tem distribuição  n21 (qui-quadrado com n-1 graus de liberdade).
O intervalo de (1-)% de confiança para a variância populacional  2 é definido da
seguinte forma
IC[  2 , (1-)%] = [Li ; Ls ]
Em que,
(n  1)S 2
Li =
, é o limite inferior do intervalo de  2 ;
2
 sup
(n  1) S 2
Ls =
 inf2
, é o limite superior do intervalo de  2 ,
2
2
e
são os valores da tabela qui-quadrado com n-1 graus de liberdade


inf
sup
Sendo que,
associados ao coeficientes /2 e 1- /2 , respectivamente.
Anexo 2
EXERCICIOS