1 - Distribuições amostrais Considere uma população de objetos dos quais estamos interessados em estudar uma determinada característica. Quando dizemos que a população tem distribuição FX ( x ) , queremos dizer que estamos investigando uma característica X dos elementos desta população e que esta característica X é uma variável aleatória com função de distribuição FX ( x ) . Seja ( X1 , X 2 ,..., X n ) uma amostra aleatória da variável aleatória X. Definição 1.1 Uma variável aleatória G n = G ( X1 , X 2 ,..., X n ) definida como uma função das variáveis aleatórias componentes de uma amostra é chamada Estatística. Uma preocupação básica na estatística matemática é a determinação da distribuição das estatísticas definidas a partir de uma amostra ( X1 , X 2 ,..., X n ) de uma variável X. Em um primeiro tipo de problema devemos buscar para todo n, a função de distribuição de G n . Tal distribuição é chamada distribuição exata da estatística G n , e seu conhecimento é de vital importância na solução de problemas estatísticos, quando o número de observações é pequeno. Neste caso estamos tratando de pequenas amostras. Num segundo tipo de problema não estaremos interessados em investigar a distribuição exata de G n para um determinado n, e sim sua distribuição limite quando n → ∞ , e neste caso estamos lidando com grandes amostras. Não há um critério geral estabelecido teoricamente que nos permite dizer se uma amostra é grande ou não. Isto depende da estatística em análise. Uma amostra pode ser considerada grande para uma estatística e insuficiente para outra estatística. Definição 1.2 Se ( X1 , X 2 ,..., X n ) é uma amostra de uma variável aleatória X, chama-se média da amostra, à estatística G n definida por X = 1 n ∑ Xi n i= 1 1.1 - Distribuição de Amostragem da Média da Amostra. Seja X uma variável aleatória com média µ e variância σ 2 . Definida uma amostra aleatória de tamanho n de X, temos: 1.1.1 - Média da Média da Amostra. 1 1 n 1 n E ( X ) = E ∑ Xi = ∑ E ( X i ) = nµ = µ n n i= 1 n i= 1 (1.1) Obs: o fato da média da estatística X ser igual a média de X, não significa que a média amostral x de uma particular amostra seja necessariamente igual a µ . A interpretação correta é a seguinte: fixado um valor de n, se realizarmos todas as amostras possíveis de tamanho n da variável aleatória X, a média dos x ’s encontrados é igual a µ . Exercício proposto: Considere a população constituída pelo conjunto { 2,5, 6, 7} . Defina todas as amostras 4 possíveis de tamanho 3, num total de = 4 . Calcule os valores de x k , ( k = 1, 2, 3, 4 ) e 3 verifique a observação comentada. 1.1.2 - Variância da Média da Amostra. 1 n 1 VAR ( X ) = VAR ∑ Xi = 2 n i= 1 n 1 σ2 2 ∑i= 1 VAR ( Xi ) = n 2 nσ = n n (1.2) Obs: Convém registrar que a variância da média da amostra, para n > 1, é sempre menor que variância de X. Teorema 1.1 Seja X a média da amostra ( X1 , X 2 ,..., X n ) de uma variável aleatória com média µ e desvio padrão σ. Nestas condições X converge em probabilidade para a média µ de X. σ2 O teorema é facilmente comprovado, pois lim VAR ( X ) = lim = 0 , e, aplicando-se a n→ ∞ n→ ∞ n desigualdade de Chebyshev o resultado é imediato. 1.1.3 - Distribuição da média da amostra quando X é Normal (µ,σ). Encontrar a distribuição exata de uma estatística pode em alguns casos ser muito complicado. Contudo há métodos que freqüentemente são usados para resolver este tipo de problema. Vamos usar propriedades das funções características, para determinar a distribuição de X quando X tem distribuição normal de parâmetros µ e σ. Se X é N(µ,σ) então sua função característica é dada por: σ 2t2 ϕ X ( t ) = exp itµ − 2 (1.3) De acordo com propriedades das funções características, teremos então que n σ 2t2 t ϕ X ( t ) = ϕ X , e conseqüentemente, ϕ X ( t ) = exp itµ − . Ora a função 2n n característica encontrada corresponde a de uma variável aleatória normal de parâmetros σ µ e . n Exemplo 1.1 Seja ( X1 , X 2 ,..., X10 ) uma amostra aleatória de uma variável aleatória N(2;2). Como vimos 2 ≅ 0, 63 . em (1.1) a distribuição de X é normal de parâmetros µ = 2 e σ = 10 A probabilidade de X pertencer ao intervalo (1,3) é P ( 1 < X < 3) = P ( − 0,5 < Z < 0,5 ) ≅ 0,38 A probabilidade de X pertencer ao intervalo (1,3) é P ( 1 < X < 3) = P ( − 1,58 < Z < 1,58 ) ≅ 0,88 Na prática, podemos interpretar os resultados da seguinte maneira: se selecionarmos diversas amostras de tamanho n = 10 de uma variável X com distribuição N(2,2), em aproximadamente 88 a cada 100 amostras, encontraremos o valor observado de X no intervalo (1,3). Por outro lado, se selecionarmos um elemento da população, um grande número de vezes, obteremos somente 38 a cada 100 vezes, valores observados de X, naquele intervalo. Isto ocorre, evidentemente, porque a distribuição de X está mais concentrada em torno de µ = 2, do que a distribuição de X. O gráfico 1.1 mostra as densidades das variáveis aleatórias N(2,2) e N(2;0,63), respectivamente. 1.1.4 - Distribuição Assintótica da média da amostra de X. Se X é a média de uma amostra aleatória ( X1 , X 2 ,..., X n ) , de uma variável X, então, para n suficientemente grande, de acordo com o Teorema Central do Limite (TCL), devido a σ Lindeberg-Lévy, X é assintoticamente normal de média µ e desvio padrão n. Decorrente disto, variável reduzida de X - a qual representaremos por Z - tem distribuição ( X − µ ) n é ≈ N 0,1 assintoticamente normal padrão, isto é Z= ( ) σ Vale lembrar, a título de revisão, que o TCL, impõe apenas que as variáveis Xi , i=1,2,...,n sejam independentes e identicamente distribuídas (i.i.d.), com mesma média e variância. Como as variáveis aleatórias componentes de amostra aleatória satisfazem esta condição, a aplicação do Teorema quando n é suficientemente grande, resolve assintoticamente o problema de determinar a distribuição da estatística X , independentemente da origem populacional 1.1.5 - Distribuição de amostragem da média da amostra de X quando X não é Normal. Se X não tem distribuição normal e se n não é grande, o estabelecimento da distribuição exata de X é fundamental. O problema consiste em buscar a solução na teoria de transformadas de variáveis aleatórias - no caso trata-se de uma transformada do tipo R n → R - e, na maioria dos casos, a aplicação das propriedades da função característica de uma função linear de variáveis aleatórias independentes é usada. 1.2 - Distribuição de amostragem da variância da amostra de X Definição 1.3: Se ( X1 , X 2 ,..., X n ) é uma amostra de uma variável aleatória X, chama-se variância da 2 amostra, à estatística G n definida por S = 2 1 n Xi − X ) ( ∑ n − 1 i= 1 Dada uma amostra ( X1 , X 2 ,..., X n ) de uma variável aleatória X com média µ e desvio padrão σ, as variáveis X i , i = 1,2,...,n são identicamente distribuídas, com mesma distribuição de X, e, por conseqüência, elas tem os mesmos momentos de X. Assim, E ( X i2 ) = E ( X 2 ) = VAR ( X ) + E 2 ( X ) , para todo i = 1,2,..,n , ou seja, E ( X i2 ) = E ( X 2 ) = σ 2 + µ 2 . Por outro lado, como X tem média µ e desvio padrão E ( X2 ) = σ n , pode-se escrever: σ2 2 +µ . n Então: E( X ) − E( X 2 i 2 ) 2 σ 2 ( n − 1) σ para todo i = 1,2,..,n = σ − = n n 2 Sabemos também que 2 n n E ∑ ( Xi − X ) = E ∑ ( Xi2 − 2XXi + X 2 ) i= 1 i= 1 n = E ∑ X i2 − 2nX 2 + nX 2 i= 1 n = E ∑ X i2 − nX 2 i= 1 = n ∑ E ( X ) − nE ( X ) i= 1 2 i 2 Como as variáveis X e X i , i=1,2,...,n são identicamente distribuídas, escrevemos 2 n E ∑ ( Xi − X ) = nE ( X 2 ) − nE ( X 2 ) i= 1 Finalmente, 2 n E ∑ ( Xi − X ) = ( n − 1) σ 2 i= 1 ⇒ 2 1 n E Xi − X ) = σ 2 (1.4) ( ∑ n − 1 i= 1 De modo que, convenientemente, definimos a estatística variância da amostra por: 2 1 n S2 = X i − X ) , de tal forma que E ( S2 ) = σ 2 . ( ∑ n − 1 i= 1 Definição 1.4 Se ( X1 , X 2 ,..., X n ) é uma amostra de uma variável aleatória X, chama-se desvio padrão da amostra, à estatística G n definida por S = + S2 = + Teorema 1.2 2 1 n Xi − X ) ( ∑ n − 1 i= 1 Se ( X1 , X 2 ,..., X n ) é uma amostra aleatória de uma variável X com distribuição normal de média µ e desvio padrão σ, então - as estatísticas X e S2 são independentes. ( n − 1) S2 tem distribuição qui-quadrado com (n-1) graus de liberdade σ2 Esta distribuição está relacionada com a distribuição da variância amostral obtida a partir de uma amostra aleatória Normal. Se desejarmos construir um intervalo de confiança baseado na variância amostral que contenha com alta probabilidade a variância(desconhecida) da distribuição Normal, este intervalo deverá ser baseado na distribuição qui-quadrado! O mesmo acontece com teste de hipótese sobre a variância populacional. 1.3 - Distribuição de amostragem da média da amostra de X quando σ conhecido. Anteriormente vimos que a média da amostra X = não é 1 n ∑ Xi de uma população X com n i= 1 distribuição N(µ,σ) tem distribuição N µ ; σ . Se conhecermos o valor de µ, mas n desconhecemos o valor de σ, então a distribuição de X na verdade é uma família de distribuições dependendo de um parâmetro σ, pertencente a um conjunto paramétrico { σ > 0} . Obviamente não podemos substituir σ (desvio padrão da população) por s (desvio padrão amostral), pois S = + S2 é uma variável aleatória e pode assumir diferentes valores em diferentes amostras. Se desejarmos deduzir alguma informação sobre µ, sem o conhecimento de σ, devemos buscar uma estatística que seja função de µ, mas com distribuição independente de σ. Este problema foi resolvido por Gosset (pseudônimo: Student) que definiu chamada Estatística T de Student. Definição 1.5 Sejam X, X1 , X 2 ,..., X n variáveis aleatórias independentes, todas com distribuição N(0, σ 2 ). Dizemos que T tem distribuição de Student com n graus de liberdade se T= X 1 n 2 . ∑ Xi n i= 1 A variável T pode ser apresentada alternativamente como segue: Define-se X X Z= e Zi = i com distribuição normal padrão, isto é N(0,1), para todo i = 1,2,...,n . σ σ Substituindo-se esses valores em T, obtemos: T= σZ n 1 2 ( σ Zi ) ∑ n i= 1 e T= Z 1 n 2 ∑ Zi n i= 1 (1.5) n Observemos que Z é uma variável aleatória N(0,1) e ∑ i= 1 Zi2 é uma variável aleatória qui- quadrado com n graus de liberdade. Devido à importância da distribuição T na Teoria de Inferência Estatística, vale a pena estabelecer uma fórmula simbólica para tal variável, qual seja Tn = Z χ 2n , onde Z é N(0,1) (1.6) n A leitura desta fórmula é: “a variável aleatória T de Student com n graus de liberdade, é a razão entre uma variável aleatória N(0,1), e a raiz quadrada de uma variável aleatória qui-quadrado com n graus de liberdade, esta dividida pelo seu parâmetro n, sendo ambas as variáveis independentes” Teorema 1.3 - Razão de Student Seja ( X1 , X 2 ,..., X n ) uma amostra aleatória de uma variável X com distribuição normal de média µ e desvio padrão σ. Se X e S2 são respectivamente a média e variância da ( X − µ ) n tem distribuição de Student com (n-1) graus de liberdade. amostra, então S ( X-µ ) n é N(0,1) , enquanto que ( n − 1) S2 tem σ De fato sabemos que X é N µ , e σ σ2 n distribuição qui-quadrado com (n-1) graus de liberdade. Se usarmos a fórmula (1.5) obteremos Tn − 1 = (X− µ ) n σ × ( n − 1) ( n − 1) S2 ⇒ σ Tn-1 = (X− µ ) n (1.7) S 2 Observamos que na definição 1.5 a v.a. Tn foi construída a partir de (n + 1) variáveis aleatórias independentes, uma delas compondo o numerador da razão e as demais o denominador. No Teorema 1.3 temos n variáveis definidas gerando uma v.a. de Student com (n-1) graus de liberdade, como era esperado. Resta comentar que neste caso, as variáveis que compõem o denominador são ( Xi − X ) , i = 1,2,...,n que, como já visto, são não correlacionadas com X , e ainda independentes, por terem origem normal. 1.4- Distribuição da Razão entre as variâncias de duas amostras independentes das N ( 0, σ 2 ) variáveis X e Y, ambas com distribuição . Esta variável aleatória é definida como o coeficiente de duas variáveis aleatórias com distribuição qui-quadrado. Sejam X1 , X 2 ,..., X n e Y1 , Y2 ,..., Ym variáveis aleatórias independentes com distribuição N ( 0, σ 2 ) . Temos então definidas duas amostras aleatórias independentes, com variâncias são respectivamente S2x = 2 2 1 n 1 m 2 X − X e S = Yi − Y ) ( ) ( ∑ ∑ i y n − 1 i= 1 m − 1 i= 1 Conforme estabelecido no teorema 1.2 as variáveis ( n − 1) S 2 x σ liberdade. 2 e ( m-1) S 2 y σ2 (1.8) S2x e S2y são tais que tem distribuição qui-quadrado com (n-1) e (m-1) graus de Nessas condições, definimos uma variável aleatória Fn − 1,m − 1 = S2x , com distribuição de S2y Snedecor com n-1 e m-1 graus de liberdade 1.5 - Distribuição da Diferença entre as Médias de duas amostras independentes das variáveis X e Y, ambas com distribuição N(µ,σ). Sejam X1 , X 2 ,..., X n , Y1 , Y2 ,..., Ym variáveis aleatórias independentes com distribuição N ( µ , σ 2 ) . Temos então definidas duas amostras aleatórias independentes com médias X e Y , respectivamente. As variâncias das duas amostras são respectivamente S2x = 2 2 1 n 1 m 2 X − X e S = Yi − Y ) . ( ) ( ∑ ∑ i y n − 1 i= 1 m − 1 i= 1 Consideremos estatística ( X − Y ) , diferença entre as duas médias em questão, a média e variância são, respectivamente: E ( X − Y) = E ( X) − E ( Y) = µ − µ = 0 σ2 σ2 n+ m VAR ( X − Y ) = VAR ( X ) + VAR ( Y ) = + = σ 2 n m nm Por ser uma combinação de variáveis aleatórias normais, escrevemos então que ( X − Y) é ( N 0; σ n + m nm ) e ( X − Y) n + m é N(0,1) σ nm (1.9) Sendo σ um parâmetro desconhecido, devemos substituí-lo por uma estatística da amostra que é a média ponderada das variâncias das amostras, ou seja, n − 1) S2X + ( m − 1) S2Y ( 2 (1.10) Sp = n+ m− 2 Note que (n+ m − 2 ) S2p = ( n − 1) S2X + ( m − 1) S2Y Dividindo-se ambos os membros da igualdade por σ 2 , temos: (n+ m − 2 ) S2p σ2 = ( n − 1) S2X + ( m − 1) S2Y σ2 σ2 (1.11) Como as amostras são independentes, as variáveis χ 2n − 1 e χ 2m − 1 são independentes e sua soma define uma variável qui-quadrado com (m + n -2) graus de liberdade. Assim, se σ 2 é desconhecida, construímos uma v.a. de Student com n + m -2 graus de liberdade, como segue ( X − Y) Tn + m − 2 = n+ m ( X − Y ) nm nm ∴ Tn + m − 2 = Sp n + m (n + m − 2) × S2p σ σ 2 ( m + n − 2) que nos permitirá estudar intervalo de confiança e realizar testes de hipótese sobre a diferença entre as médias de duas populações.