moq-13 probabilidade e estatística

MOQ-13 PROBABILIDADE
E ESTATÍSTICA
Professor: Rodrigo A. Scarpel
[email protected]
www.mec.ita.br/~rodrigo
Programa do curso:
Semanas
Conteúdo
1
Introdução à probabilidade (eventos, espaço amostral, axiomas, propriedades, probabilidade condicional e independência).
2
Teorema da probabilidade total e teorema de Bayes. Variáveis aleatórias. Distribuições de probabilidade. Funções massa,
densidade, e distribuição acumulada. Funções de variáveis aleatórias.
3
Valor esperado e variância. Momentos de uma variável aleatória. Função geradora de momentos. Principais distribuições de
probabilidade discretas (Bernoulli, Binomial e Poisson).
4
Principais distribuições de probabilidade contínuas (Exponencial negativa e Normal).
5
Feriado (2/4)
6
Variáveis aleatórias conjuntas, função distribuição conjunta e marginal. Independência estatística. Covariância e Coeficiente
de Correlação.
7
Prova
8
Princípios de estatística. Estimadores e estimativas. Estimação pontual de parâmetros (Métodos dos momentos e da máxima
verossimilhança). Estatística Descritiva.
9
Amostras aleatórias. Distribuições amostrais. Teorema do limite central. Variáveis aleatórias Qui-quadrado e t-Student.
10
Propriedades dos estimadores. Intervalos de confiança (estimação por intervalo). Tamanho da amostra. Princípios de testes
de hipóteses.
11
Testes de Hipóteses. Inferência baseada em 2 amostras (entre parâmetros de populações distintas).
12
Testes não-paramétricos (associação, independência e de aderência).
13
Feriado (4/6)
14
Prova
15 e 16
Regressão linear simples e correlação.
Aplicações de modelos de regressão linear.
DISTRIBUIÇÕES
AMOSTRAIS
Professor: Rodrigo A. Scarpel
[email protected]
www.mec.ita.br/~rodrigo
Estatísticas e suas distribuições:
Quando estudamos estatística descritiva, observamos uma amostra única
(x1, x2, …,xn) de tamanho n da população para obter estimativas pontuais
dos momentos amostrais (x e s2).
Se selecionarmos 2 amostras (cada uma de tamanho n) é de se esperar
que as observações da segunda amostra serão diferentes das observações
da primeira amostra. Por exemplo:
Amostra 1 (n=3 carros) → x1=30,7 x2=29,4 x3=31,1
Amostra 2 (n=3 carros) → x1=28,8 x2=30,0 x3=31,3
Essas estimativas pontuais são utilizadas para fazer inferências em
relação ao valor esperado e ao desvio-padrão / variância da população, os
quais são desconhecidos.
Estatísticas e suas distribuições:
Def: ESTATÍSTICA é qualquer quantidade cujo valor pode ser calculado a
partir de uma amostra. Como há incerteza em relação a esses valores toda
estatística é uma variável aleatória (iid).
Toda estatística, por ser uma variável aleatória, tem uma distribuição de
probabilidade. A distribuição de probabilidade de uma estatística é
chamada distribuição amostral.
Def: Distribuição amostral é a distribuição de probabilidade de uma
estatística e descreve como o valor da estatística varia em função das
amostras selecionadas.
A distribuição amostral depende da distribuição de probabilidade da
população, do tamanho da amostra e do método de amostragem (neste
curso vamos estudar apenas a aleatória)
Distribuição da média amostral (x):
Sejam x1, x2, …, xn n elementos de uma amostra aleatória de uma
população normal com parâmetros E[x] = µ e Var[x] = σ2. Então:
i. E[ x ] = µ
ii. Var[ x ] = σ2/n
iii. To = x1 + … + xn , E[To] = nµ
µ, Var[To] = nσ
σ2
De acordo com i a distribuição amostral de x é centrada no valor esperado
da população da qual a amostra foi selecionada, com ii que a distribuição
se torna mais concentrada em torno de µ com o crescimento do tamanho
da amostra (n).
Distribuição da média amostral (x):
Proposição: Seja x1, x2, …, xn uma amostra aleatória de uma população
normal com E[x] = µ e Var[x] = σ2, então, para qualquer n:
 σ2
x ~ N  µ,

n

⇒
x−µ
σ




P( X)
Maior
tamanho
de
amostra
Menor
tamanho
de
amostra
A
~Z
n
(
B
To ~ N nµ , nσ
µ
2
)
⇒
To − nµ
σ n
~Z
X
Distribuição de uma combinação linear de v.as:
Sendo Y = a1X1 +…+ anXn
⇒ E[Y] = a1E[X1] +…+ anE[Xn] = a1µ1+ … + anµn
Se as variáveis aleatórias são independentes,
Var[a1X1 +…+ anXn] = a12Var[X1] + … + an2Var[Xn]
Distribuição da diferença entre médias de populações normais:
Sejam A e B duas populações normais com parâmetros µA, σA, µB e σB.
Assim,
(
X A ~ N µ A ,σ A2 n A
)
e
(
X B ~ N µ B , σ B2 nB
2
2 

σ
σ
A
B  ⇒ (X A − X B ) − (µ A − µ B ) ~ Z

+
X A − X B ~ N µ A − µB ,

n A nB 
σ A2 σ B2

+
nA
nB
)
Distribuição amostral de estatísticas:
Existem dois métodos para obter a distribuição amostral de uma estatística:
Método 1: Utilizando regras da probabilidade
Ex: Serviço
Preço: x
p(x)
A
40
0,2
B
45
0,3
C
50
0,5
µ = E[x] = 40 * 0,2 + 45 * 0,3 + 50 * 0,5 = 46,5
σ2 = Var[x] = 0,2 * (40-46,5)2 +0,3 * (45-46,5)2 +0,5 * (50-46,5)2 =15,25
Método 2: Realização de um experimento de simulação
Usa-se um computador para obter k amostras aleatórias de tamanho n
da distribuição designada. Para cada amostra calcula-se as estatísticas
de interesse e cria-se um histograma para avaliar a distribuição amostral
aproximada da estatística.
Distribuição amostral de estatísticas:
Método 1: n=2
x2
40
45
50
40
45
50
40
45
50
p(x1)
0,2
0,2
0,2
0,3
0,3
0,3
0,5
0,5
0,5
p(x2) p(x1,x2)
0,2
0,04
0,3
0,06
0,5
0,1
0,2
0,06
0,3
0,09
0,5
0,15
0,2
0,1
0,3
0,15
0,5
0,25
x
40
42,5
45
42,5
45
47,5
45
47,5
50
2
s
0
12,5
50
12,5
0
12,5
50
12,5
0
DISTRIBUIÇÃO DE PROBABILIDADE DA MÉDIA
0,35
0,3
0,25
PROBABILIDADE
x1
40
40
40
45
45
45
50
50
50
0,2
0,15
0,1
0,05
0
40
42,5
45
VALORES
E[ x ] = 40 * 0,04 + 42,5 * 0,12 + ... + 50 * 0,25 = 46,5
Var[ x ] = 0,04 * (40-46,2)2 + ... + 0,25 * (50-46,5)2 = 7,625
E[ s2 ] = 0 * 0,38 + 12,5 * 0,42 + 50 * 0,20 = 15,25
47,5
50
Distribuição amostral de estatísticas:
x4
40
45
50
40
45
50
40
45
50
p(x1)
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
p(x2)
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
p(x3)
0,2
0,2
0,2
0,3
0,3
0,3
0,5
0,5
0,5
...
...
...
...
...
...
...
p(x4)
0,2
0,3
0,5
0,2
0,3
0,5
0,2
0,3
0,5
50
50
50
50
50
50
50
50
50
40
45
50
0,5
0,5
0,5
0,5
0,5
0,5
0,5
0,5
0,5
0,2
0,3
0,5
p(x1,x2,x3,x4)
0,0016
0,0024
0,004
0,0024
0,0036
0,006
0,004
0,006
0,01
0,025
0,0375
0,0625
x
40
41,25
42,5
41,25
42,5
43,75
42,5
43,75
45
2
s
0
6,25
25
6,25
8,333
22,92
25
22,92
33,33
...
x3
40
40
40
45
45
45
50
50
50
...
x2
40
40
40
40
40
40
40
40
40
...
x1
40
40
40
40
40
40
40
40
40
...
Método 1: n=4
47,5
48,75
50
25
6,25
0
DISTRIBUIÇÃO DE PROBABILIDADE DA MÉDIA
0,25
PROBABILIDADE
0 ,2
E[ x ]=40*0,016+...+50*0,0625=46,5
0,15
0 ,1
Var[ x ] = 3,8125 (s2 / 4)
0,05
0
40
41,25
42 ,5
43 ,75
45
VALORES
4 6,25
4 7,5
48,7 5
50
Distribuição da média amostral (x):
Distribuição de x para uma população não normal:
,3
,2
,1
,0
0,25
0,25
0,25
0,25
1
2
3
4
E[x] = 1 * 0,25 + 2 * 0,25 + 3 * 0,25 + 4 * 0,25 = 2,5
Var[x] = E[x-E(x)] = 0,25 * (1-2,5)2 +0,25 * (2-2,5)2
+ 0,25 * (3-2,5)2 + 0,25 * (4-2,5)2 =1,12
Distribuição da média amostral (x):
Distribuição de x para uma população não normal:
N
AMOSTRAS (1a,2a):
a
∑x
i
a
1
Obs
2 Observação
1
2
3
4
1
1,1 1,2 1,3 1,4
2
2,1 2,2 2,3 2,4
3
3,1 3,2 3,3 3,4
4
4,1 4,2 4,3 4,4
MÉDIAS DAS
AMOSTRAS:
µx =
i =1
N
1,0 + 1,5 + L + 4,0
=
= 2,5
16
N
2
(
)
x
−
µ
∑i x
σx =
1a
Obs
2a Observação
1
2
3
4
1
1,0 1,5 2,0 2,5
2
1,5 2,0 2,5 3,0
3
2,0 2,5 3,0 3,5
4
2,5 3,0 3,5 4,0
i=1
N
,3
=
(1,0 − 2,5)2 +L = 0,79
16
P(x)
,2
,1
x
,0
1,0 1,5 2,0 2,5 3,0 3,5 4,0
Teorema do limite central:
TLC: Seja x1, x2,…, xn uma amostra aleatória de uma distribuição
qualquer com parâmetros E[X] = µ e Var[X] = σ2. Se n é
suficientemente grande, a distribuição de x aproxima-se a uma
normal com E[x] = µ e Var[x] = σ2/n e a distribuição do Total
(x1+…+xn) aproxima-se a uma distribuição normal com E[To] =nµ
µ
e Var[To] =nσ
σ2. Assim,
 σ2
x ~& N  µ ,
n

(
Distribuição
Distribuição Populacional
Populacional
σ = 10

x−µ
 ⇒
~& Z

σ n

To ~& N n µ , n σ
2
)⇒
To − n µ
σ
n
µ = 50
X
Distribuição
Distribuição amostral
~& Z
n=4
σX = 5
n =30
σX = 1.8
µX-X = 50
X
Distribuição amostral da proporção (e frequência):
O TLC pode ser utilizado para justificar a aproximação da Binomial
pela Normal pois se X é uma variável aleatória que “conta” o número
de sucessos em n tentativas independentes, como a probabilidade de
sucesso é constante os Xs são iid.
Portanto, se n é suficientemente grande
n sucessos = X ~& N (np, np (1 − p ) ) ⇒
o
X
= pˆ ~& N ( p, p (1 − p ) n ) ⇒
n
X − n. p
n. p.(1 − p)
pˆ − p
p.(1 − p ) n
~& Z
~& Z
Distribuição amostral de s2:
Quando há incerteza em relação ao valor de σ estima-se o seu valor por:
n
σˆ 2 = s 2 =
2
(
x
−
x
)
∑ i
i =1
n −1
Teorema: Se s2 é a variância de uma amostra aleatória de tamanho n,
retirada de uma população normal com parâmetros µ e σ2, então a
estatística
n
2
(
)
x
−
x
∑ i
i =1
σ
2
=
(n − 1) s 2
σ2
tem distribuição χ2 com n-1 graus de liberdade.
σ2
Na utilização é necessário obter χ2calc= (n-1)s2/σ
Distribuição
amostral de s2:
Graus de liberdade:
Os graus de liberdade podem ser vistos como uma medida da
informação amostral.
Sabendo que
n
2
(
)
x
−
µ
∑ i
σ2 →
i =144
1
42444
3
~ χ n2
n
2
(
)
x
−
x
∑ i
σ2
i =144
1
42444
3
~ χ n2−1
quando µ não é conhecido há 1 grau de liberdade a menos ou
considera-se que um grau de liberdade é perdido na estimação de µ.
Generalização: Há n graus de liberdade, ou partes de informação
independentes, em uma amostra aleatória de uma população normal e
cada vez que se utiliza uma estatística em substituição a um parâmetro
perde-se um grau de liberdade.
x, s e a distribuição t-Student:
A dificuldade prática em relação ao TLC é que ele demanda o
conhecimento de σ.
A ferramenta utilizada para lidar com essa dificuldade é a distribuição t
(William Gosset, 1908) que é formada pela divisão
Z
χ n2−1
n −1
=
x−µ σ / n
(n − 1) s 2 / σ 2
n −1
x−µ σ
x−µ
=
. =
σ / n s s/ n
Assim, é possível fazer inferências em relação a µ usando uma
estimativa de σ fornecida pela mesma amostra que gerou x.
Def: Seja x1, …, xn uma amostra aleatória de uma população normal
(
)
com E[X] = µ e Var[X] = σ2, então T = (x − µ ) s / n tem distribuição
t com n-1 graus de liberdade.
x, s e a distribuição t-Student:
Propriedades das distribuições t-student: Seja tν a curva da função
densidade dos gl de ν.
1. Cada curva tν possui um formato de sino e está centrada em 0.
2. Toda curva tν é mais dispersa que a curva normal padronizada (Z).
3. À medida que ν aumenta, a dispersão da curva tν correspondente diminui.
4. À medida que ν → ∞ a seqüência das
curvas tν se aproxima da curva normal
padronizada (de forma que a curva Z é
chamada geralmente de t com gl= ∞).
x, s e a distribuição t-Student:
Para casa:
• Lista de Exercícios 7 (site: www.mec.ita.br/~rodrigo/)
• Leitura: Devore – cap. 5: Distribuições … e amostras aleatórias (5.3 a 5.5)
Walpole et al. – cap. 8: Distribuições amostrais … (8.1 a 8.7)