variáveis aleatórias contínuas

1 - Distribuições amostrais
Considere uma população de objetos dos quais estamos interessados em estudar uma
determinada característica. Quando dizemos que a população tem distribuição FX ( x ) ,
queremos dizer que estamos investigando uma característica X dos elementos desta
população e que esta característica X é uma variável aleatória com função de distribuição
FX ( x ) .
Seja ( X1 , X 2 ,..., X n ) uma amostra aleatória da variável aleatória X.
Definição 1.1
Uma variável aleatória G n = G ( X1 , X 2 ,..., X n ) definida como uma função das variáveis
aleatórias componentes de uma amostra é chamada Estatística.
Uma preocupação básica na estatística matemática é a determinação da distribuição das
estatísticas definidas a partir de uma amostra ( X1 , X 2 ,..., X n ) de uma variável X.
Em um primeiro tipo de problema devemos buscar para todo n, a função de distribuição de
G n . Tal distribuição é chamada distribuição exata da estatística G n , e seu conhecimento é
de vital importância na solução de problemas estatísticos, quando o número de observações
é pequeno. Neste caso estamos tratando de pequenas amostras.
Num segundo tipo de problema não estaremos interessados em investigar a distribuição
exata de G n para um determinado n, e sim sua distribuição limite quando n → ∞ , e neste
caso estamos lidando com grandes amostras.
Não há um critério geral estabelecido teoricamente que nos permite dizer se uma amostra é
grande ou não. Isto depende da estatística em análise. Uma amostra pode ser considerada
grande para uma estatística e insuficiente para outra estatística.
Definição 1.2
Se ( X1 , X 2 ,..., X n ) é uma amostra de uma variável aleatória X, chama-se média da
amostra, à estatística G n definida por X =
1 n
∑ Xi
n i= 1
1.1 - Distribuição de Amostragem da Média da Amostra.
Seja X uma variável aleatória com média µ e variância σ 2 . Definida uma amostra aleatória
de tamanho n de X, temos:
1.1.1 - Média da Média da Amostra.
1
1 n
 1 n
E ( X ) = E  ∑ Xi  = ∑ E ( X i ) = nµ = µ
n
 n i= 1  n i= 1
(1.1)
Obs: o fato da média da estatística X ser igual a média de X, não significa que a média
amostral x de uma particular amostra seja necessariamente igual a µ . A interpretação
correta é a seguinte: fixado um valor de n, se realizarmos todas as amostras possíveis de
tamanho n da variável aleatória X, a média dos x ’s encontrados é igual a µ .
Exercício proposto:
Considere a população constituída pelo conjunto { 2,5, 6, 7} . Defina todas as amostras
 4
possíveis de tamanho 3, num total de   = 4 . Calcule os valores de x k , ( k = 1, 2, 3, 4 ) e
 3
verifique a observação comentada.
1.1.2 - Variância da Média da Amostra.
1 n
 1
VAR ( X ) = VAR  ∑ Xi  = 2
 n i= 1  n
1
σ2
2
∑i= 1 VAR ( Xi ) = n 2 nσ = n
n
(1.2)
Obs: Convém registrar que a variância da média da amostra, para n > 1, é sempre menor
que variância de X.
Teorema 1.1
Seja X a média da amostra ( X1 , X 2 ,..., X n ) de uma variável aleatória com média µ e
desvio padrão σ. Nestas condições X converge em probabilidade para a média µ de X.
σ2
O teorema é facilmente comprovado, pois lim VAR ( X ) = lim
= 0 , e, aplicando-se a
n→ ∞
n→ ∞ n
desigualdade de Chebyshev o resultado é imediato.
1.1.3 - Distribuição da média da amostra quando X é Normal (µ,σ).
Encontrar a distribuição exata de uma estatística pode em alguns casos ser muito
complicado. Contudo há métodos que freqüentemente são usados para resolver este tipo de
problema. Vamos usar propriedades das funções características, para determinar a
distribuição de X quando X tem distribuição normal de parâmetros µ e σ.
Se X é N(µ,σ) então sua função característica é dada por:

σ 2t2 
ϕ X ( t ) = exp  itµ −

2 

(1.3)
De acordo com propriedades das funções características, teremos então que
n

σ 2t2 
  t 
ϕ X ( t ) =  ϕ X    , e conseqüentemente, ϕ X ( t ) = exp  itµ −
 . Ora a função
2n 

  n
característica encontrada corresponde a de uma variável aleatória normal de parâmetros
σ
µ e
.
n
Exemplo 1.1
Seja ( X1 , X 2 ,..., X10 ) uma amostra aleatória de uma variável aleatória N(2;2). Como vimos
2
≅ 0, 63 .
em (1.1) a distribuição de X é normal de parâmetros µ = 2 e σ =
10
A probabilidade de X pertencer ao intervalo (1,3) é
P ( 1 < X < 3) = P ( − 0,5 < Z < 0,5 ) ≅ 0,38
A probabilidade de X pertencer ao intervalo (1,3) é
P ( 1 < X < 3) = P ( − 1,58 < Z < 1,58 ) ≅ 0,88
Na prática, podemos interpretar os resultados da seguinte maneira: se selecionarmos
diversas amostras de tamanho n = 10 de uma variável X com distribuição N(2,2), em
aproximadamente 88 a cada 100 amostras, encontraremos o valor observado de X no
intervalo (1,3).
Por outro lado, se selecionarmos um elemento da população, um grande número de vezes,
obteremos somente 38 a cada 100 vezes, valores observados de X, naquele intervalo.
Isto ocorre, evidentemente, porque a distribuição de X está mais concentrada em torno de
µ = 2, do que a distribuição de X. O gráfico 1.1 mostra as densidades das variáveis
aleatórias N(2,2) e N(2;0,63), respectivamente.
1.1.4 - Distribuição Assintótica da média da amostra de X.
Se X é a média de uma amostra aleatória ( X1 , X 2 ,..., X n ) , de uma variável X, então, para n
suficientemente grande, de acordo com o Teorema Central do Limite (TCL), devido a
σ
Lindeberg-Lévy, X é assintoticamente normal de média µ e desvio padrão
n.
Decorrente disto, variável reduzida de X - a qual representaremos por Z - tem distribuição
( X − µ ) n é ≈ N 0,1
assintoticamente normal padrão, isto é
Z=
( )
σ
Vale lembrar, a título de revisão, que o TCL, impõe apenas que as variáveis Xi , i=1,2,...,n
sejam independentes e identicamente distribuídas (i.i.d.), com mesma média e variância.
Como as variáveis aleatórias componentes de amostra aleatória satisfazem esta condição, a
aplicação do Teorema quando n é suficientemente grande, resolve assintoticamente o
problema de determinar a distribuição da estatística X , independentemente da origem
populacional
1.1.5 - Distribuição de amostragem da média da amostra de X quando X não é
Normal.
Se X não tem distribuição normal e se n não é grande, o estabelecimento da distribuição
exata de X é fundamental. O problema consiste em buscar a solução na teoria de
transformadas de variáveis aleatórias - no caso trata-se de uma transformada do tipo
R n → R - e, na maioria dos casos, a aplicação das propriedades da função característica de
uma função linear de variáveis aleatórias independentes é usada.
1.2 - Distribuição de amostragem da variância da amostra de X
Definição 1.3:
Se ( X1 , X 2 ,..., X n ) é uma amostra de uma variável aleatória X, chama-se variância da
2
amostra, à estatística G n definida por S =
2
1 n
Xi − X )
(
∑
n − 1 i= 1
Dada uma amostra ( X1 , X 2 ,..., X n ) de uma variável aleatória X com média µ e desvio
padrão σ, as variáveis X i , i = 1,2,...,n são identicamente distribuídas, com mesma
distribuição de X, e, por conseqüência, elas tem os mesmos momentos de X. Assim,
E ( X i2 ) = E ( X 2 ) = VAR ( X ) + E 2 ( X ) , para todo i = 1,2,..,n , ou seja,
E ( X i2 ) = E ( X 2 ) = σ 2 + µ 2 .
Por outro lado, como X tem média µ e desvio padrão
E ( X2 ) =
σ
n , pode-se escrever:
σ2 2
+µ .
n
Então:
E( X ) − E( X
2
i
2
)
2
σ 2 ( n − 1) σ
para todo i = 1,2,..,n
= σ −
=
n
n
2
Sabemos também que
2
 n
 n

E  ∑ ( Xi − X )  = E  ∑ ( Xi2 − 2XXi + X 2 ) 
 i= 1

 i= 1

n


= E  ∑ X i2 − 2nX 2 + nX 2 
 i= 1

n


= E  ∑ X i2 − nX 2 
 i= 1

=
n
∑ E ( X ) − nE ( X )
i= 1
2
i
2
Como as variáveis X e X i , i=1,2,...,n são identicamente distribuídas, escrevemos
2
 n
E  ∑ ( Xi − X )  = nE ( X 2 ) − nE ( X 2 )
 i= 1

Finalmente,
2
 n
E  ∑ ( Xi − X )  = ( n − 1) σ 2
 i= 1

⇒
2
 1 n
E
Xi − X )  = σ 2 (1.4)
(
∑
 n − 1 i= 1

De modo que, convenientemente, definimos a estatística variância da amostra por:
2
1 n
S2 =
X i − X ) , de tal forma que E ( S2 ) = σ 2 .
(
∑
n − 1 i= 1
Definição 1.4
Se ( X1 , X 2 ,..., X n ) é uma amostra de uma variável aleatória X, chama-se desvio padrão da
amostra, à estatística G n definida por
S = + S2 = +
Teorema 1.2
2
1 n
Xi − X )
(
∑
n − 1 i= 1
Se ( X1 , X 2 ,..., X n ) é uma amostra aleatória de uma variável X com distribuição normal de
média µ e desvio padrão σ, então
- as estatísticas X e S2 são independentes.
( n − 1) S2 tem distribuição qui-quadrado com (n-1) graus de liberdade
σ2
Esta distribuição está relacionada com a distribuição da variância amostral obtida a partir
de uma amostra aleatória Normal. Se desejarmos construir um intervalo de confiança
baseado na variância amostral que contenha com alta probabilidade a
variância(desconhecida) da distribuição Normal, este intervalo deverá ser baseado na
distribuição qui-quadrado! O mesmo acontece com teste de hipótese sobre a variância
populacional.
1.3 - Distribuição de amostragem da média da amostra de X quando σ
conhecido.
Anteriormente vimos que a média da amostra X =
não é
1 n
∑ Xi de uma população X com
n i= 1


distribuição N(µ,σ) tem distribuição N  µ ; σ
 . Se conhecermos o valor de µ, mas
n

desconhecemos o valor de σ, então a distribuição de X na verdade é uma família de
distribuições dependendo de um parâmetro σ, pertencente a um conjunto paramétrico
{ σ > 0} .
Obviamente não podemos substituir σ (desvio padrão da população) por s (desvio padrão
amostral), pois S = + S2 é uma variável aleatória e pode assumir diferentes valores em
diferentes amostras.
Se desejarmos deduzir alguma informação sobre µ, sem o conhecimento de σ, devemos
buscar uma estatística que seja função de µ, mas com distribuição independente de σ. Este
problema foi resolvido por Gosset (pseudônimo: Student) que definiu chamada Estatística
T de Student.
Definição 1.5
Sejam X, X1 , X 2 ,..., X n variáveis aleatórias independentes, todas com distribuição N(0, σ 2 ).
Dizemos que T tem distribuição de Student com n graus de liberdade se
T=
X
1 n 2 .
∑ Xi
n i= 1
A
variável T pode ser apresentada alternativamente como segue: Define-se
X
X
Z=
e Zi = i com distribuição normal padrão, isto é N(0,1), para todo i = 1,2,...,n .
σ
σ
Substituindo-se esses valores em T, obtemos:
T=
σZ
n
1
2
( σ Zi )
∑
n i= 1
e T=
Z
1 n 2
∑ Zi
n i= 1
(1.5)
n
Observemos que Z é uma variável aleatória N(0,1) e
∑
i= 1
Zi2 é uma variável aleatória qui-
quadrado com n graus de liberdade.
Devido à importância da distribuição T na Teoria de Inferência Estatística, vale a pena
estabelecer uma fórmula simbólica para tal variável, qual seja
Tn =
Z
χ 2n
, onde Z é N(0,1)
(1.6)
n
A leitura desta fórmula é:
“a variável aleatória T de Student com n graus de liberdade, é a razão entre uma variável
aleatória N(0,1), e a raiz quadrada de uma variável aleatória qui-quadrado com n graus
de liberdade, esta dividida pelo seu parâmetro n, sendo ambas as variáveis independentes”
Teorema 1.3 - Razão de Student
Seja ( X1 , X 2 ,..., X n ) uma amostra aleatória de uma variável X com distribuição normal de
média µ e desvio padrão σ. Se X e S2 são respectivamente a média e variância da
( X − µ ) n tem distribuição de Student com (n-1) graus de liberdade.
amostra, então
S
( X-µ ) n é N(0,1) , enquanto que ( n − 1) S2 tem
σ 

De fato sabemos que X é N  µ ,
e

σ
σ2
n

distribuição qui-quadrado com (n-1) graus de liberdade. Se usarmos a fórmula (1.5)
obteremos
Tn − 1 =
(X− µ )
n
σ
×
( n − 1)
( n − 1) S2
⇒
σ
Tn-1 =
(X− µ )
n
(1.7)
S
2
Observamos que na definição 1.5 a v.a. Tn foi construída a partir de (n + 1) variáveis
aleatórias independentes, uma delas compondo o numerador da razão e as demais o
denominador.
No Teorema 1.3 temos n variáveis definidas gerando uma v.a. de Student com (n-1) graus
de liberdade, como era esperado. Resta comentar que neste caso, as variáveis que compõem
o denominador são ( Xi − X ) , i = 1,2,...,n que, como já visto, são não correlacionadas com
X , e ainda independentes, por terem origem normal.
1.4- Distribuição da Razão entre as variâncias de duas amostras independentes das
N ( 0, σ 2 )
variáveis X e Y, ambas com distribuição
.
Esta variável aleatória é definida como o coeficiente de duas variáveis aleatórias com
distribuição qui-quadrado.
Sejam X1 , X 2 ,..., X n e Y1 , Y2 ,..., Ym variáveis aleatórias independentes com distribuição
N ( 0, σ 2 ) . Temos então definidas duas amostras aleatórias independentes, com variâncias
são respectivamente
S2x =
2
2
1 n
1 m
2
X
−
X
e
S
=
Yi − Y )
(
)
(
∑
∑
i
y
n − 1 i= 1
m − 1 i= 1
Conforme estabelecido no teorema 1.2 as variáveis
( n − 1) S
2
x
σ
liberdade.
2
e
( m-1) S
2
y
σ2
(1.8)
S2x e S2y
são tais que
tem distribuição qui-quadrado com (n-1) e (m-1) graus de
Nessas condições, definimos uma variável aleatória Fn − 1,m − 1 =
S2x
, com distribuição de
S2y
Snedecor com n-1 e m-1 graus de liberdade
1.5 - Distribuição da Diferença entre as Médias de duas amostras independentes das
variáveis X e Y, ambas com distribuição N(µ,σ).
Sejam X1 , X 2 ,..., X n , Y1 , Y2 ,..., Ym variáveis aleatórias independentes com distribuição
N ( µ , σ 2 ) . Temos então definidas duas amostras aleatórias independentes com médias
X e Y , respectivamente. As variâncias das duas amostras são respectivamente
S2x =
2
2
1 n
1 m
2
X
−
X
e
S
=
Yi − Y ) .
(
)
(
∑
∑
i
y
n − 1 i= 1
m − 1 i= 1
Consideremos estatística ( X − Y ) , diferença entre as duas médias em questão, a média e
variância são, respectivamente:
E ( X − Y) = E ( X) − E ( Y) = µ − µ = 0
σ2 σ2
 n+ m
VAR ( X − Y ) = VAR ( X ) + VAR ( Y ) =
+
= σ 2

n m
 nm 
Por ser uma combinação de variáveis aleatórias normais, escrevemos então que
( X − Y)
é
(
N 0; σ n + m nm
)
e
( X − Y)
 n + m  é N(0,1)
σ 

 nm 
(1.9)
Sendo σ um parâmetro desconhecido, devemos substituí-lo por uma estatística da amostra
que é a média ponderada das variâncias das amostras, ou seja,
n − 1) S2X + ( m − 1) S2Y
(
2
(1.10)
Sp =
n+ m− 2
Note que
(n+
m − 2 ) S2p = ( n − 1) S2X + ( m − 1) S2Y
Dividindo-se ambos os membros da igualdade por σ 2 , temos:
(n+
m − 2 ) S2p
σ2
=
( n − 1) S2X + ( m − 1) S2Y
σ2
σ2
(1.11)
Como as amostras são independentes, as variáveis χ 2n − 1 e χ 2m − 1 são independentes e sua
soma define uma variável qui-quadrado com (m + n -2) graus de liberdade.
Assim, se σ 2 é desconhecida, construímos uma v.a. de Student com n + m -2 graus de
liberdade, como segue
( X − Y)
Tn + m − 2 =
n+ m
( X − Y ) nm
nm
∴ Tn + m − 2 =
Sp n + m
(n + m − 2) × S2p
σ
σ 2 ( m + n − 2)
que nos permitirá estudar intervalo de confiança e realizar testes de hipótese sobre a
diferença entre as médias de duas populações.