Variáveis aleatórias Variáveis aleatórias

Propaganda
Variáveis aleatórias
Definição 1 (Variável Aleatória (v.a.)):
Estimação e Filtragem Estocástica
Programa de Pós-Graduação em Engenharia de Sistemas Eletrônicos e de Automação
Departamento de Engenharia Elétrica
Universidade de Brasília
Uma função real X(·) definida no espaço de probabilidades Ω é dita uma variável
aleatória (v.a.) se para todo número x ∈ <, a inequação
X(ω) ≤ x
representa um conjunto (eventos) cuja probabilidade de ocorrência é definida.
F UNDAMENTOS DE PROBABILIDADE E
ESTATÍSTICA
Geovany A. Borges
[email protected]
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
1
Tem-se ainda que
Variáveis aleatórias
lim FX (x) = 0
x→−∞
Variáveis aleatórias contínuas
lim FX (x) = 1
x→∞
• Função de distribuição: FX (x) = Pr{X(ω) ≤ x}
Se x1 < x2 então {X(ω) ≤ x2} = {X(ω) ≤ x1}∪ {x1 < X(ω) ≤ x2}, que
são conjuntos dijuntos. Assim
Pr{X(ω) ≤ x2} = Pr{X(ω) ≤ x1} + Pr{x1 < X(ω) ≤ x2}
levando a
Pr{x1 < X(ω) ≤ x2} = Pr{X(ω) ≤ x2} − Pr{X(ω) ≤ x1}.
• Propriedades de FX (x):
Monotônica não-drescente: se x1 < x2, então {X(ω) ≤ x1} ⊂ {X(ω) ≤ x2} e
assim
FX (x1) ≤ FX (x2)
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
• Função de Densidade de Probabilidade (FDP):
pX (x) =
2
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
dFX (x)
dx
3
Como FX (x) é monotônica não-drescente, então pX (x) ≥ 0.
E ainda
Z x
pX (ξ)dξ
FX (x) =
Variáveis aleatórias
−∞
com
FX (∞) =
Z
∞
Variáveis aleatórias discretas (número contável de valores)
• Função de massa: mX (x) > 0 tal que
pX (ξ)dξ = 1.
FX (x) = Pr{X(ω) ≤ x}
X
=
mX (ξ)
−∞
Tem-se ainda que
pX (−∞) = pX (∞) = 0.
(2)
(3)
ξ≤x
Considerando o intervalo x ≤ X(ω) ≤ x + ∆x, tem-se
Pr{x ≤ X(ω) ≤ x + ∆x} =
≈ pX (x)∆x
Z
x+∆x
pX (ξ)dξ
x
(1)
se ∆x suficientemente pequeno.
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
4
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
5
A partir de então, pode-se demonstrar que
Caracterização de variáveis aleatórias
pY (y) = pX (f
Assim
E{X(w)} =
Z
∞
xpX (x)dx
(4)
−∞
• Caso discreto:
E{X(w)} =
X
ξmX (ξ)
(5)
ξ∈Ω
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
E{Y } =
Z
∞
−∞
ypY (y)dy =
Z
∞
(7)
f (x)pX (x)dx
(8)
−∞
– Sendo X = c, com c sendo uma constante, ou seja, pX (x) = δ(x − c), então
E{X} = c.
– Sendo Y = a · g1(X) + b · g2(X), com a e b sendo constantes, então
E{Y } = a · E{g1(X)} + b · E{g2(X)}
• Propriedades:
– Se y = f (x) com f (·) sendo uma função escalar monotônica no intervalo
x1 ≤ x ≤ x2. Tem-se que
Pr{y1 ≤ y ≤ y2} = Pr{x1 ≤ x ≤ x2}.
−1
dy (y)) dx
x=f −1 (y)
Expectância (esperança, média ou primeiro momento)
• Caso contínuo:
−1
(9)
(6)
6
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
7
Caracterização de variáveis aleatórias
Define-se também σ{X} =
Mediana
n -ésimo momento (momento de ordem n )
E{X n} =
Z
∞
med{X} = argxmed FX {xmed} =
Moda: máximos locais da FDP pX (x), ou seja mod{X} deve satisfazer a ambas as
relações abaixo:
n -ésimo momento central (momento central de ordem n )
n
E {(X − E{X}) } =
∞
−∞
1
2
xnpX (x)dx
−∞
Z
p
var{X} como desvio padrão da v.a. X.
∂pX (x) = 0
∂x x=mod{X}
∂ 2pX (x) < 0
∂x2 x=mod{X}
(x − E{X})npX (x)dx
Caso especial: para n = 2 o momento central é chamado de variância
2
var{X} = E{(X − E{X}) }
Se pX (x) tiver apenas uma moda, diz-se que ela é monomodal. Uma FDP com
duas ou mais modas é dita multimodal.
= E{X 2} − E{X}2
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
8
Se pX (x) for monomodal e simétrica com relação à média E{X}, então
med{X} = mod{X} = E{X}.
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
9
Distribuições unidimensionais discretas
Distribuição de Bernoulli
Nesta distribuição Ω = {0, 1} representa a ocorrência ou não de um evento. A
função de massa é dada por
mX (x) =
1 − p, x = 0
p,
x=1
(10)
em que p é a probabilidade de ocorrência do evento (x = 1).
Distribuição Binomial
Uma v.a. Y com distribuição Binomial representa a soma de n v.a.s Xk de
Bernoulli com parâmetro p
n
X
Xk .
Y =
(11)
k=1
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
10
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
11
Sendo assim, Ω = {0, 1, 2, . . . , n} e
mY (k) =
com
Distribuições unidimensionais contínuas
n
k
=
n!
k!(n − k)!
n
k
pk (1 − p)n−k
Uma v.a. X de distribuição uniforme com parâmetros b ≥ a possui Ω = [a, b] e
FDP
1
b−a , a ≤ x ≤ b
(12)
pX (x) =
0, caso contrário.
Usada na contagem de eventos.
Distribuição Uniforme
Distribuição Uniforme:
Notação: X ∼ U (a, b).
Uma v.a. discreta uniforme X possui espaço amostral Ω = {a, a + 1, . . . , b − 1, b}
tal que b ≥ a são parâmetros que definem um intervalo e
Tem-se ainda que
mX (k) =
1
b−a+1 ,
0,
k = a, . . . , b
caso contrário.
FX (x) =
Usada quando os elementos de Ω forem equiprováveis.
E{X} =
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
12
Distribuição Normal (ou Gaussiana)
0,
x−a
b−a ,

1,
b−a
2
x<a
a≤x<b
x≥b
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
(13)
(14)
13
em que G (·) é denominada de função de Gauss sendo dada por
2
Uma v.a. X de distribuição Gaussiana com parâmetros µ e σ possui Ω = < e FDP
pX (x) = √


1 (x − µ)2
exp −
.
2 σ2
2πσ 2
1
1
G(u) = √
2π
(15)
2
v
exp −
dv
2
−∞
Z
u
Deve ser observado que sendo G(∞) = FX (∞) = 1, então
2
√
√
v
exp −
dv = 2π · G(∞) = 2π
2
−∞
Z
Notação: X ∼ N (µ, σ 2)
Tem-se ainda que
∞
• Interpretação gráfica da FDP: monomodal e simétrica com relação à média.
E{X} = µ,
E{(X − E{X})2} = σ 2.
A função de distribuição de X é dada por
FX (x) = √
1
2πσ 2
1 (u − µ)2
x−µ
exp −
du = G
2 σ2
σ
−∞
Z
x
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
14
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
15
Exemplo 1 (Transformação afim de uma v.a. Gaussiana):
Distribuições unidimensionais contínuas
N (µX , σ 2X ),
Se X ∼
qual seria a distribuição da v.a. Y = aX + b, sendo a 6= 0 e
b constantes reais? Solução: aplicar a eq. (7).
Distribuição χ2n (Qui-quadrado com n graus de liberdade)
Uma v.a. X de distribuição χ2n com parâmetro n ≥ 1 inteiro possui Ω = [0, ∞) e
FDP
(
xn/2−1
exp(−x/2),
x≥0
2n/2 Γ(n/2)
pX (x) =
(16)
0
caso contrário
com
Z ∞
xu−1 exp(−x)dx,
Γ(u) =
0
u > 0, sendo função Gama. Esta função possui as seguintes propriedades:
Γ(u) = (u − 1)Γ(u − 1) = (u − 1)!
se u é um inteiro e Γ(1/2) =
Notação: X ∼
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
16
Tem-se ainda que
√
π.
χ2n
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
17
Variáveis aleatórias de distribuição conjunta
E{X} = n
var{X} = 2n
Exemplo 2 (Transformação quadrática de uma v.a. Gaussiana):
Se as v.a.s X1, X2, . . . , Xn estão definidas no mesmo espaço Ω, então elas são
ditas de distribuição conjunta com distribuição dada por
FX1,X2,...,Xn (x1, x2, . . . , xn) = Pr{X1 ≤ x1, X2 ≤ x2, . . . , Xn ≤ xn}
Z xn
Z x1 Z x2
pX1,X2,...,Xn (u1, u2, . . . , un)du1du2 · · · dun
···
=
2
Se V ∼ N (0, 1), é uma v.a. de distribuição normal, então W = V é uma v.a. de
distribuição χ21.
−∞
−∞
−∞
com pX1,X2,...,Xn (x1, x2, . . . , xn) sendo a FDP conjunta tal que
pX1,X2,...,Xn (x1, x2, . . . , xn) =
∂ nFX1,X2,...,Xn (x1, x2, . . . , xn)
∂x1∂x2 · · · ∂xn
(17)
Propriedades de FX1,X2,...,Xn (x1, x2, . . . , xn):
FX1,...,Xi,...,Xn (x1, . . . , xi = −∞, . . . , xn) = 0
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
18
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
19
uma vez que Pr{Xi ≤ −∞} = 0.
Variáveis aleatórias de distribuição conjunta
FX1,...,Xn (−∞, . . . , −∞) = 0
FX1,...,Xn (∞, . . . , ∞) = 1
pX1,X2,...,Xn (x1, x2, . . . , xn) ≥ 0
Função de distribuição conjunta de um subconjunto de v.a.s: sendo m < n
FX1,...,Xm (x1, . . . , xm) = FX1,...,Xm,...,Xn (x1, . . . , xm, ∞, . . . , ∞)
Z ∞
Z xm Z ∞
Z x1
···
···
=
pX1,X2,...,Xn (u1, u2, . . . , un)du1du2 · · · dun
−∞
| −∞ {z −∞} −∞
m
|
{z
}
Pr{xa < X1 ≤ xb, X2 ≤ x2, . . . , Xn ≤ xn} =
FX1,X2,...,Xn (xb, x2, . . . , xn) − FX1,X2,...,Xn (xa, x2, . . . , xn)
n
Pr{x1 < X1 ≤ x1 + ∆x1, . . . , xn < Xn ≤ xn + ∆xn} ≈
FX1,...,Xm (x1, . . . , xm) é chamada de distribuição marginal das v.a.s X1, . . . , Xm.
pX1,X2,...,Xn (x1, x2, . . . , xn) · ∆x1 · · · ∆xn
Se n = 2, então tem-se uma distribuição Bivariável
Se n > 2, então tem-se uma distribuição Multivariável
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
20
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
Portanto
Expectância marginal E{Xk }, com 1 ≤ k ≤ n: partindo de
E{Xk } =
Z
∞
−∞
E{Xk } =
Z ∞
Z
···
xk · pXk (xk )dxk
−∞
∞
−∞
xk · pX1,...,Xk ,...,Xn (u1, . . . , xk , . . . , un)du1, . . . , dxk , . . . , dun
=
Z
∞
−∞
Com
∞
−∞
uk · pX1,...,Xn (u1, . . . , un)du1, . . . , dun
Independência: duas v.a.s de distribuição conjunta Xi e Xj , i 6= j, são ditas
independentes se os eventos {Xi ≤ xi} e {Xj ≤ xj } forem indepentes. Isto leva a
(18)
e em conseqüência
pXi,Xj (xi, xj ) =
−∞
du1, . . . , duk−1, duk+1, . . . , dun
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
···
Z
FXi,Xj (xi, xj ) = FXi (xi)FXj (xj )
dFXk (xk )
∂
=
FX ,...,Xk−1,Xk ,Xk+1,...,Xn (∞, . . . , xk . . . , ∞)
pXk (xk ) =
dxk
∂xk 1
Z ∞
Z ∞
=
···
pX1,...,Xk−1,Xk ,Xk+1,...,Xn (u1, . . . , uk−1, xk , uk+1, . . . , un)×
−∞
21
22
∂ 2FXi,Xj (xi, xj )
= pXi (xi)pXj (xj )
∂xi∂xj
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
(19)
23
Variáveis aleatórias de distribuição conjunta
Variáveis aleatórias de distribuição conjunta
Exemplo 3 (Distribuição conjunta bivariável uniforme):
Considerando X e Y v.a.s distribuídas conjuntamente tal que
pX,Y (x, y) =
1
TX TY
0,
, no espaço [0, TX ] × [0, TY ]
caso contrário
V.A.s mutuamente independentes: as v.a.s X1, · · · , Xn são mutuamente
independentes se
n
Y
FXi (xi)
FX1,··· ,Xn (x1, · · · , xn) =
e em conseqüência
determinar as densidades marginais de X e Y e verificar se estas v.a.s são
independentes.
pX1,··· ,Xn (x1, · · · , xn) =
Exercício 1 (Independência de v.a.s Gaussianas):
Considerando X e Y v.a.s gaussianas distribuídas conjuntamente tal que
24
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
=
−∞
∞
Z
−∞
Intuitivamente, se cov{Xi, Xj } 6= 0 existe alguma relação (linear ou não) entre
elas.
Expectância de uma função aleatória multivariável: sendo Y = f (X1, · · · , Xn),
então
Coeficiente de correlação:
ρ(Xi, Xj ) =
y · pY (y)dy
···
Z
∞
−∞
25
com cov{Xi, Xi} = var{Xi}.
Variáveis aleatórias de distribuição conjunta
E{Y } =
(21)
pX1,··· ,Xi (x1, · · · , xi) · pXi+1,··· ,Xn (xi+1 · · · , xn)
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
∞
pXi (xi)
i=1
pX1,··· ,Xi,Xi+1,··· ,Xn (x1, · · · , xi, xi+1 · · · , xn) =
determinar as condições necessárias para que X e Y sejam estatisticamente
independentes.
Z
n
Y
De forma similar, X1, · · · , Xi e Xi+1, · · · , Xn são independentes se
1 36x − y 2 − 9x2 − 36
pX,Y (x, y) = c exp
18
(20)
i=1
(22)
f (x1, · · · , xn)pX1,...,Xn (x1, · · · , xn)dx1 · · · dxn(23)
cov{Xi, Xj }
σ{Xi}σ{Xj }
(25)
tal que −1 ≤ ρ(Xi, Xj ) ≤ 1.
Covariância: se Xi e Xj , i 6= j, são duas v.a.s, define-se a covariância entre elas
como
cov{Xi, Xj } = E{(Xi − E{Xi}) · (Xj − E{Xj })}
(24)
= E{Xi · Xj } − E{Xi}E{Xj }
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
26
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
27
Exemplo 4 (Covariância de v.a.s independentes):
Vetores de variáveis aleatórias
Se Xi e Xj são independentes, demonstrar que
cov{Xi, Xj } = E{Xi · Xj } − E{Xi}E{Xj } = 0
(26)
o que significa que Xi e Xj são não-correlacionadas e portanto
E{Xi · Xj } = E{Xi}E{Xj }
Um vetor aleatório é formado a partir de v.a.s X1, X2, . . . , Xn de distribuição
conjunta, e dado por


X1
 X2  T

X=
 ..  = X1 X2 · · · Xn
Xn
simpificando a notação, a PDF associada é dada por
E ainda, ρ(Xi, Xj ) = 0 se ρ{Xi}ρ{Xj } 6= 0.
pX1,X2,...,Xn (x1, x2, . . . , xn) = pX (x)
xn ]T é um vetor e
em que x =[ x1 x2 · · ·
R
pX (x)dx = 1
Observa-se que pX (x) é um escalar. De forma similar
E{X} =
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
28
Matriz de covariâncias de X:
PX
Portanto,
PX
= E{(X − E{X}) · (X

X1 − E{X1}



X
2 − E{X2 }
= E 

.



Xn − E{Xn}

E{X1} E{X2} · · ·
E{Xn}
T
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
29
Vetores de variáveis aleatórias
− E{X})T }






T
 · [•]




var{X1}
cov{X1, X2} · · ·
 cov{X2, X1}
var{X2}
···
=
..
..
...

cov{Xn, X1} cov{Xn, X2}
Distribuição Gaussiana Multivariada
1
1
−1
T
pX (x) =
exp − (x − E{X}) · PX · (x − E{X})
2
(2π)n/2|PX |1/2
com |PX | sendo o determinande de PX .

cov{X1, Xn}
cov{X2, Xn} 


var{Xn}
sendo simétrica uma vez que cov{Xi, Xj } = cov{Xj , Xi} e positiva semidefinida
pois uT PX u ≥ 0 para todo u 6= 0.
• Notação: X ∼ N (E{X}, PX )
• Se os elementos de X forem não-correlacionados, ou seja, cov{Xi, Xj } = 0,
i 6= j, então pode-se mostrar que
pX (x) =
n
Y
i=1
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
30
pXi (xi) =
n
Y
1
1 (xi − E{Xi})2
exp
−
2 var{Xi}
(2π)1/2var{Xi}1/2
i=1
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
31
uma vez que |PX | =
Qn
ι=1 var{Xi }



P−1
X =

1
var{X1 }
0
1
var{X2 }
0
..
0
No mais, se X é Gaussiana, então Y também o será. Para comprovar esta última
afirmação, faz-se necessário determinar pY (y).
• Simulação de uma v.a. Gaussiana multivariável: usando o resultado acima, se
X ∼ N (0, In), com In sendo a matriz identidade de dimensão n, então
Y ∼ N (b, AAT ). Isto significa que, se for desejado obter Y ∼ N (E{Y }, PY ),
então basta escolher
e
..
0
···
···
...
0
0
1
var{Xn }





Neste caso, como X é formado por elementos independentes e de mesma
distribuição (embora de diferentes parâmetros E{Xi} e var{Xi}), diz-se que X
é formado por elementos i.i.d. (independentes e identicamente distribuídos).
• Pode-se verificar que, para A e b sendo contantes tais que dim{A} = m × n e
dim{b} = m × 1 e X sendo uma v.a. de distribuição multivariada, então a
transformação afin
Y = AX + b
(27)
resulta em
E{Y } = AE{X} + b
PY
= APX A
é χ2n. Para verificar este resultado, considera-se a v.a.
tal que
−1/2
PX
=
1/2
P−1
X
=
1/2
PX
simétrica e positiva semidefinida, e
simétrica). Pode-se verificar que
−1
1/2
PX
, uma vez que PX =
(32)
1/2 1/2
PX PX
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
é
q ≤ χ2n(1 − r)
com 1 − r sendo o percentual da distribuição χ2n. Geralmente escolhe-se
1 − r = 0, 95. Consultando a tabela χ2n, montada para valores de 1 − r,
obtem-se [1]
= In
significando que os elementos de U são i.i.d. Gaussianos de média nula e
variância unitária. Por outro lado, Q pode ser decomposta em
Q = UTU =
Ui2
33
q = (x − E{X})T · P−1
X · (x − E{X})
é sua matriz raiz-quadrada (também
n
X
(31)
é comumente usada para testar a hipótese do vetor x pertencer a uma
distribuição N (E{X}, PX ), considerada verdadeira se
E{U } = 0
PU
= PY ,
(30)
Q = (X − E{X})T · P−1
X · (X − E{X})
• A função
− E{X})
T
Para determinar a matriz A tal que eq.(31) seja resolvida, usa-se a fatoração de
Cholesky. Pela fatoração de Cholesky, obtém-se a matriz triangular superior R
tal que PY = RT R. Portanto, tem-se A = RT .
• A variável aleatória
(29)
32
U=
AA
(28)
T
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
−1/2
PX (X
b = E{Y },
(1 − r) = 0, 95 com n = 1 =⇒ χ21(1 − r) = 3, 841
(1 − r) = 0, 95 com n = 2 =⇒ χ22(1 − r) = 5, 991
(33)
(1 − r) = 0, 95 com n = 3 =⇒ χ23(1 − r) = 7, 815
i=1
que é a definição de uma v.a. de distribuição χ2n.
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
34
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
35
Vetores de variáveis aleatórias
não considera as incertezas devido às distribuições.
Exemplo 5 (Casamento probabilístico de padrões):
Para todo 1 ≤ k ≤ K, determinar a medida
Existe uma classe de problemas de reconhecimento de padrões que se apresentam da
seguinte forma [2]. Dispõe-se de K vetores de características x1, · · · , xK , cada qual
assumido de distribuição Gaussiana de média E{Xk } e matriz de covariâncias PXk .
Deseja-se verificar qual destes vetores corresponde (com maior probabilidade) a um
vetor de referência y suposto N (E{Y }, PY ). Neste problema, encontrar a boa
correspondência significa determinar o par {xk∗ , y} tal que a distância
(probabilística) xk∗ e y seja a menor.
que segue χ2n. É comum também assumir que a correpondência é verdadeira, e assim
E{Y } = E{Xk }, resultando em
Solução:
e neste caso, esta medida é chamada de Distância de Mahalanobis.
Para todo 1 ≤ k ≤ K, determinar o vetor de diferença
O par {xk∗ , y} de menor distância estatística é aquele cujo índice k ∗ satisfaz a
qk = (εk − E{εk })T · P−1
εk · (εk − E{εk })
−1
qk = (y − xk )T · (PY +PXk )
εk = y − xk
k ∗ = argk min qk
para
q o qual E{εk } = E{Y } − E{Xk } e Pεk = PY + PXk . Pode-se observar que
εTk εk é a distância euclidiana entre y e xk . No entanto, esta métrica de distância
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
e a correspondência será aceita se qk∗ ≤ χ2n(1 − r).
36
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
37
• FDP conjunta: para um dado x = [x1, x2]T
Vetores de variáveis aleatórias
1
com
• Considera-se o caso de uma distribuição Gaussiana com n = 2:
X
=
E{X1} E{X2}
σ 2X1
σ X1 X2
=
2
σ X1 X 2
σ X2
E{X} =
PX
X1 X2
T
q
T
=
(
2
1
x1 − E{X1}
1 − ρ2
σ X1
2 )
x2 − E{X2}
x2 − E{X2}
x1 − E{X1}
+
−2ρ
σ X1
σ X2
σ X2
Fazendo u1 = (x1 − E{X1})/σ X1 e u2 = (x2 − E{X2})/σ X2 , q pode ser
re-escrita como
em que cov{X1, X2} = cov{X2, X1} = σ X1X2 = ρ σ X1 σ X2 . Como PX é
simétrica, ela pode ser decomposta em
1 2
u1 − 2u1u2ρ + u22
q = uT P−1
u u=
2
1−ρ
1 ρ
T
em que u = [u1, u2] e Pu =
.
ρ 1
PX = e1v1v1T + e2v2v2T
com e1 e e2 sendo os autovalores de PX e v1e v2 sendo seus autovetores.
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
1
p
pX (x) =
exp − q
2
2
2πσ X1 σ X2 1 − ρ
Distribuição Gaussiana Bivariada
· (y − xk )
38
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
39
• Representação gráfica.
No plano x1× x2, uma forma de representar gráficamente a distribuição
bivariada é por meio da curva de nível correspondentes a uma densidade
constante, ou seja, pX (x) =const. Isto implica em
q=
1 2
u1 − 2u1u2ρ + u22 = c
2
1−ρ
Dado que |ρ| ≤ 1, a eq. (34) corresponde a uma elipse com os seguintes
parâmetros:
– Centro:
E{X} = [E{X1}, E{X2}]T
(35)
– Ângulo com relação ao eixo x1:
(34)
1
θ = arctan
2
com c sendo uma constante cujo significado ficará logo claro.
2ρσ X1 σ X2
σ 2X1 − σ 2X2
!
– Eixos principais : r1 (menor) e r2 (maior)
r12 =
r22 =
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
40
Assim, no plano x1× x2 tem-se abaixo um exemplo com ρ > 0.
cσ 2X1 σ 2X2 (1 − ρ2)
(36)
cσ 2X1 σ 2X2 (1 − ρ2)
(37)
σ 2X2 cos2(θ) − 2ρσ X1 σ X2 sin(θ) cos(θ) + σ 2X1 sin2(θ)
σ 2X2
2
sin (θ) + 2ρσ X1 σ X2 sin(θ) cos(θ) + σ 2X1 cos2(θ)
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
41
Verifique você mesmo: se n = 3, então pX (x) =const. implica em uma
elipsóide.
Exemplo 6 (Elipse 3-sigma de uma distribuição gaussiana bivariada):
Simulação gaussiana bivariada realizada considerando E{X1} = 5, E{X2} = 2 e
diferentes valores de PX .
√
Esta elipse é comumente chamada de “Elipse de incerteza c−sigma”, cujo
interior incorpora uma determinada porcentagem p da distribuição de X.
Pode-se demonstrar que
1
p = 1 − √ c.
(38)
e
√
No caso especial de c = 3, tem-se a chamada elipse 3-sigma, que incorpora
p = 98, 9981% da distribuição de X.
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
42
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
43
Probabilidade condicional de variáveis aleatórias
FDP condicional
pX|Y (x|y) ,
Considerando A e B eventos, a probabilidade condicional é dada por
Pr{A|B} =
=
Pr{A ∩ B}
Pr{B}
=
Se associarmos estes eventos a variáveis aleatórias X e Y de distribuição contínua,
pode-se considerar
A = {X ≤ x},
lim Pr{X ≤ x|y < Y < y + ∆y}
Rx
pX,Y (u, y)du
∂FX,Y (x, y) dFY (y)
= −∞
.
∂y
dy
pY (y)
∆y→0
=
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
E{X} =
E{X|Y } ,
xpX|Y (x|y)dx
(43)
=
−∞
E{g(Y )|Y } =
Como E{X|Y } e pX|Y (x|y) são funções da v.a. Y , elas são portanto v.a.s.
(41)
pY |X (y|x)pX (x)
pY (y)
(42)
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
Expectância condicional:
∞
mX,Y (x, y)
mY (y)
Regra de Bayes para FDPs de variáveis aleatórias:
pX|Y (x|y) =
44
Z
pX,Y (x, y)
p
(x, y)dx
−∞ X,Y
mX|Y (x, y) =
(39)
(40)
R∞
No caso discreto:
B = {y < Y < y + ∆y},
com ∆y > 0. Então, pode-se mostrar que
FX|Y (x|y) =
dFX|Y (x|y)
dx
pX,Y (x, y)
pY (y)
Z
∞
45
xpX (x)dx =
−∞
∞ Z ∞
Z
−∞
∞
Z
−∞
= g(Y )
−∞
Z
∞
−∞
x
Z
∞
pX|Y (x|y)pY (y)dydx (48)
−∞
xpX|Y (x|y)dx pY (y)dy = EY {E{X|Y }}
g(Y )pX|Y (x|y)dx
(49)
Z
(50)
∞
pX|Y (x|y)dx = g(Y )
−∞
Propriedades:
pX|Y (x|y) ≥ 0
Z
FX|Y (∞|y) =
pX (x) =
com g(Y ) sendo uma função escalar, ou seja, g(Y ) : <m → <.
(44)
∞
−∞
∞
Z
−∞
pX|Y (x|y)dx = 1
pX,Y (x, y)dy =
= EY {pX|Y (x|y)}
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
Matriz de covariâncias condicional
(45)
Z
∞
pX|Y (x|y)pY (y)dy
(46)
PX|Y = E{(X − E{X}) · (X − E{X})T |Y }
(51)
−∞
(47)
46
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
47
Probabilidade condicional de variáveis aleatórias
Exercício 4 (Distribuição bivariada gaussiana):
Exercício 2 (Condicional de distribuição exponencial):
Considere X, Y vetores de v.a.s Gaussianas dos quais se obtém
Considere X, Y v.a.s cuja distribuição conjunta seja
−y
e
0<x<y<∞
pX,Y (x, y) =
.
0
caso contrário
Z = X + g(Y ).
em que g(.) é uma transformação não-linear. Determine pZ|Y (z|y), E{Z|Y } e
E{(Z − E{Z|Y })(Z − E{Z|Y })T |Y }.
Determine: (i) a fdp marginal de X, (ii) a fdp condicional de Y dado X = x e (iii) a
esperança e variância de Y dado X = x.
Exercício 3 (Distribuição bivariada gaussiana):
Considere X, Y v.a.s Gaussianas cuja distribuição conjunta seja
pX,Y (x, y) =
1
(2x2 − 6xy + 5y 2)
exp −
.
2π
2
Determine pY (y) e pX|Y (x|y). Sugestão: complete os quadrados da função
f (x, y) = (2x2 − 6xy + 5y 2) de forma a obter f (x, y) = g(x, y) + h(y).
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
48
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
Estatística amostral
Esta estimativa é polarizada pois E{P̄X } 6= PX . Pode-se mostrar que
P̄X =
Estimação da média, matriz de covariâncias e FDP de uma v.a. X a partir de M
amostras x1, · · · , xM .
M
1 X
(xi − x̄)(xi − x̄)T
M − 1 i=1
(54)
é uma estimativa não polarizada (chamada de matriz de covariâncias amostral
não-polarizada).
Média amostral:
x̄ =
M
1 X
xi
M i=1
(52)
Esta estimativa é não-polarizada pois E{x̄} = E{X} e consistente uma vez que
Px̄ → 0 com M → ∞.
49
M
1 X
(xi − x̄)(xi − x̄)T
M i=1
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
FDP a partir de histograma
• Caso escalar: dadas amostras x1, · · · , xM , obtém-se um histograma, que nada
mais é que um gráfico do número de amostras pertencentes a intervalos. Os
intervalos possuem espaçamentos ∆x iguais entre os limites
xmin = min(x1, · · · , xM ) e xmax = max(x1, · · · , xM ) :
Covariância amostral:
P̄X =
(53)
xmin, xmin + ∆x, , xmin, · · · , xk−1, xk , · · · , xmax − ∆x, xmax.
com o k-ésimo intervalo sendo dado por [xk−1, xk [. Denomina-se nk o número
50
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
51
de amostras neste intervalo. Assim, tem-se que
inseridas nos intervalos bidimensionais
Ii,j = [x1,i−1, x1,i[×[x2,j−1, x2,j [
nk
M
≈ pX (xk−1)∆x
Pr{xk−1 ≤ X < xk } ≈
para os quais i e j os índices do intervalo nas dimensões 1 e 2, respectivamente.
Denomina-se nIi,j o número de amostras em cada intervalo Ii,j . Assim, tem-se
que
Portanto, pode-se obter uma estimativa para a PDF em pX (xk−1) através de
pX (xk−1) =
Pr{{x1,k−1 ≤ X1 < x1,k }, {x2,k−1 ≤ X2 < x2,k }} ≈
nk
M ∆x
≈ pX (xij = [ x1,i−1 x2,j−1 ]T )∆x1∆x2
Deve-se observar que esta é uma forma não paramétrica da PDF pX (x).
• Caso bivariável: dadas amostras x1, · · · , xM , obtém-se um histograma
bidimensional, que é um gráfico do número de amostras pertencentes a
intervalos em duas dimensões. Os intervalos possuem espaçamento
∆x = [∆x1, ∆x2]T igual entre os limites xd,min = min(xd,1, · · · , xd,M ) e
xd,max = max(xd,1, · · · , xd,M ), para d = 1, 2 (no caso N = 2 é a dimensão da
v.a. amostrada). O histograma é portanto um gráfico de contagens de amostras
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
52
Portanto, pode-se obter uma estimativa para a PDF em pX (xij ) através de
pX (xij ) =
nIi,j
M ∆x1∆x2
• Caso multi-variável: extensão para N variáveis a partir do caso bivariável.
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
53
Exemplo 7 (Transformação linear):
Funções de variáveis aleatórias
nIi,j
M
Conceitos básicos: seja Y = g(X) tal que g(X) : <n → <m é um mapeamento de
domínio DX e imagem IY . O problema consiste em determinar a distribuição de Y
a partir da distribuição de X.
Considere Y = aX + b com a, b constantes, e X e Y v.a.s unidimensionais. Sendo
esta função monotônica, pode-se verificar que

y−b
,a > 0
 FX ( a )
FY (y) =
)
,a < 0
1 − FX ( y−b
a

1(y − b)
,a = 0

y−b
 pX ( a ) a1
1
pY (y) =
−pX ( y−b
a )a

δ(y − b)
,a > 0
,a < 0
,a = 0
em que 1(u) é a função degrau em u = 0, e δ(u) é a função impulso em u = 0. Se
a 6= 0, pY (y) pode ser escrito como
pY (y) = pX (
Este problema resolve-se a partir de
y−b 1
)
a |a|
que é o mesmo resultado obtido pela eq. (7).
Pr{IY } = Pr{CX }
em que CX é o contra-domínio de g(X), determinado a partir de IY e g −1(X)
(função inversa).
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
54
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
55
Exemplo 8 (Transformação quadrática):
• Caso escalar: g −1(Y ) pode ter um ou mais mapeamentos.
Considere Y = X 2 com X e Y v.a.s unidimensionais. Pode-se verificar que CX
somente existe para Y ≥ 0. Neste caso,
IY = {0 ≤ Y ≤ y} =⇒ CX
pX (x1)
pX (xn)
+ ··· + 0
|g 0(x1)|
|g (xn)|
n
X
dg(y) −1
pX (xi) =
dx
x=xi
i=1
pY (y) =
√
√
= {− y ≤ X ≤ y}
Portanto,
√
√
FX ( y) − FX (− y) , y ≥ 0
0
, caso contrário.
1 √ √
√
,y ≥ 0
2 y pX ( y) + pX (− y)
pY (y) =
0
, caso contrário.
FY (y) =
(55)
(56)
em que x1, · · · , xn são as soluções para a variável x em g −1(y) = x.
Exercício 5 (Transformação escalar raiz-quadrada):
Considere Y = X 1/2 com X e Y v.a.s unidimensionais. Sendo X ∼ N (µ, σ 2X ) com
parâmetros µ e σ 2 tais que Pr{X ≤ 0} ≈ 0. Determinar pY (y).
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
Determinação direta da FDP
56
Determinação direta da FDP
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
57
em que as funções gi(x) são obtidas de g(x)


g1(x)
..
.
g(x) = 
gn(x)
• Caso vetorial com g(X) monotônica, g(X) : <n → <n. (atenção: X e Y são
de mesma dimensão)
pY (y) = pX (g −1(y)) det(J−1)
=
pX (g −1(y))
|det(J)|
(59)
Exemplo 9 (Conversão coordenadas cartesianas em coordenadas polares):
(57)
Considere um ponto P de coordenadas cartesianas (X, Y ) tal que X ∼ N (x0, σ 2) e
Y ∼ N (y0, σ 2) são independentes. Determinar a fdp conjunta das coordenadas
polares de P. Quais as distribuições marginais de tais coordenadas?
com det(J−1) = 1/ det(J) e J sendo a Jacobiana da transformação, de
dimensão n × n, dada por


J=
∂g1 (x)
∂x1
..
∂gn (x)
∂x1
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
···
∂g1 (x)
∂xn
···
∂gn (x)
∂xn
..



(58)
x=g−1 (y)
58
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
59
Propagação de incertezas
Propagação de incertezas
Definição do problema: determinar a média e a matriz de covariâncias da v.a.
• Simulação de Monte Carlo:
Gera-se S amostras {xi}Si=1, das quais obtém-se yi = g(xi). Assim, estimativas
para a média e matriz de covariâncias de Y são dadas por
Y = g(X)
em que X é uma v.a. de média E{X} e matriz de covariâncias PX . Nesse caso,
g(X) : <n → <l em que não necessariamente l = n.
S
E{Y } ≈ ȳ =
Solução fechada para g(X) = AX + b:
E{Y } = AE{X} + b
PY
Aproximações para g(X) sendo uma função não-linear
PY ≈ P̄Y =
T
= APX A .
1X
yi
S i=1
S
1 X
(yi − ȳ)(yi − ȳ)T
S − 1 i=1
(60)
(61)
Observa-se que nada é necessário ser afirmado sobre a distribuição de Y ou de X.
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
60
• Aproximação de primeira ordem (linearização):
Se g(x) for sufientemente suave em torno do suporte da distribuição de X,
pode-se mostrar que sendo X gaussiano, Y será aproximadamente gaussiano.
Para demonstrar isto, conseidera-se a seguinte parametrização de
X ∼ N (E{X}, PX }:
E{Y } ≈ g(E{X})
!
∂g(u) PX
PY ≈
∂u u=E{X}
com ∆X ∼ N (0, PX }. Por expansão em série de Taylor, truncada em primeira
ordem,
= E{Y } + ∆Y =
= g(E{X} + ∆X ) ≈ g(E{X}) +
61
gaussiana ∆X . Pode-se então obter
X = E{X} + ∆X
Y
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
!T
∂g(u) ∂u u=E{X}
• Propagação implícita:
Técnica proposta em [3] para estimação de matriz de covariâncias de parâmetros
estimados por minimização de função de custo. A ser detalhado mais à frente no
curso.
∂g(u) ∆X
∂u u=E{X}
Então, Y é aproximadamente obtido por uma transofmação afim sobre a v.a.
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
62
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
63
• Unscented Transform (UT):
Forma simplificada da simulação de Monte Carlo em que são geradas amostras
consideradas relevantes de X.
S−1
Em suma, de acordo com [4], gera-se S = 2n + 1 amostras {xi}i=0
(ou
também denominados de pontos-sigma) segundo as regras abaixo:





E{X},
q
n
P
E{X}
+
X
1−w
0
xi =
q
i


n

P
 E{X} −
X
1−w0
A partir dos ponto-sigma obtém-se yi = g(xi). As estimativas para a média e
matriz de covariâncias de Y são dadas por
para i = 0
para i = 1, . . . , n
PY ≈ P̄Y =
para i = n + 1, . . . , 2n
64
Gerador de números aleatórios: algoritmo que gera amostras
x1, x2, x3, . . .
(63)
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
65
K = 231 − 2
– Gerador com K0 ≈ 230
a = 1103515245
Geradores de distribuições uniformes
– Gerador U (0, 1):
• Fórmula genérica de geradores lineares congluentes:
xi =
xi = (a · xi−1 + b) mod(K + 1)
b = 12345
K = 232 − 1
a · xi−1 + b
mod(1)
K +1
de onde verifica-se que os geradores funcionam se a seqüência discreta
que gera números com as seguintes propriedades:
I. Valores gerados entre 0 e K.
II. K é um número primo muito grande
III. xi é uma seqüência periódica, com periodicidade K0 ≤ K
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
wi(yi − ȳ)(yi − ȳ)T
Simulação propagacao incertezas para avaliar a escolha entre raiz quadrada
matricial e decomposição de Cholesky na propagação pela UT com diferentes
valores de PX .
de uma v.a. X a partir de pX ou de FX .
i=0
IV. x0 é chamado de semente do gerador
V. a, b e K devem ser bem escolhidos
• Alguns geradores:
– Park & Miller:
a = 75
b=0
Geração de números aleatórios
(62)
i=0
Exemplo 10 (Propagação em um caso de distribuição gaussiana bivariada):
i−n
em que (·)i é um operador que corresponde à i-ésima coluna da matriz
√
argumento. Deve ser observado que é a raiz quadrada matricial, sendo que em
alguns casos usa-se também a decomposição de Cholesky.
0
Associado a cada ponto-sigma tem-se um peso wi = 1−w
2n para i 6= 0, e w0 é um
parâmetro de entrada. Supondo-se que a distribuição de X seja Gaussiana, de
acordo com [4] recomenda-se w0 = 31 .
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
S−1
X
S−1
X
wiyi
E{Y } ≈ ȳ =
xi =
a
b
· xi−1 +
K +1
K +1
for instável.
66
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
67
média e variância de Y são dados por
Geradores de distribuições não-uniformes
• Método da inversa generalizada
Sendo FX (x) uma função de distribuição, define-se a inversa generalizada como
sendo
E{Y } = Ȳ =
Portanto, para se obter uma amostra xi da distribuição FX , utiliza-se o seguinte
algoritmo:
I. Gera-se u ∼ U (0, 1)
−1
II. Obtem-se uma amostra xi = FX
(u)
• Gerador normal usando o teorema do limite central
Pelo teorema do limite central, a soma
m
X
68
Assim, se for de interesse gerar Z ∼ N (0, 1) basta fazer
(Y − m/2)
Z= p
m/12
pX (x) =
m
X
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
69
si =
i
X
ωj
j=1
III. Como resultado, obtém-se uma amostra de pi(x)
NãoP
seria a mesma coisa se fossem gerados xi ∼ pi(x) e a amostra final dada
m
por i=1 ω ixi?
ω ipi(x)
i=1
com pi(x) sendo FDP da qual pode-se gerar amostras e
m
X
que se torna fácil de resolver se m = 12.
com
• Método da mistura
Se a FDP de X puder ser escrita sob a forma
i=1
m m
Y ∼ N( , )
2 12
i=1
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
σ 2Xi
Sendo Xi ∼ U (0, 1), obtém-se Ȳ = m/2 e σ 2Y = m/12. Com m → ∞, pelo
teorema do limite central obtém-se
Xi
com os Xi sendo i.i.d., tende a uma distribuição Gaussiana quando m → ∞. A
E{Xi}
i=1
m
X
E{(Y − E{Y })2} = σ 2Y =
−1
FX
(u) = inf {x; FX (x) ≥ u}
Y =
m
X
ωi = 1
i=1
de foma a satisfazer FX (∞) = 1. De posse deste modelo, uma amostra de
pX (x) é obtida da distribuição pi(x) com probabilidade ω i. Ou seja, segue-se o
seguinte algoritmo
I. Gera-se u ∼ U (0, 1)
II. Determina-se o índice j que satisfaz a
si−1 ≤ u ≤ si
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
70
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
71
• Método da amostragem por rejeição (rejection sampling)
Considera-se o caso de pX (·) ser uma fdp da qual se deseja obter amostras. Seja
pA(·) uma fdp auxiliar da qual obtém-se amostras mais facilmente, e uma
constante M tal que
pX (x) ≤ M pA(x)
Observa-se que as áreas sobre as curvas se relacionam por
Área{M1p1(x)}
Área{pX (x)}
Algoritmo de amostragem:
I. Gera-se x ∼ pA e u ∼ U (0, 1)
II. Se
Por exemplo, sendo p1 gaussiana e p2 uniforme:
= M1
pX (x)
≥u
M pA(x)
então x deve ser aceito como amostra de pX (·). Caso contrário, retornar ao
passo 1.
Exemplo 11 (Simulação de números aleatórios):
Ver simulação geradores aleatorios.
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
72
Referências
[1] MEYER, P. Probabilidade - aplicações à estatística. Segunda edição. [S.l.]: Livros
Técnicos e Científicos (LTC), 2003.
[2] DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classification. 2nd. ed. [S.l.]:
Wiley Interscience, 2000.
[3] HARALICK, R. Propagating covariances in computer vision. In: International
Conference on Pattern Recognition. [S.l.: s.n.], 1994. p. 493–498.
[4] JULIER, S. J.; UHLMANN, J. Unscented filtering and nonlinear estimation.
Proceedings of the IEEE, v. 92, n. 3, p. 401–422, 2004.
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
74
Estimação e Filtragem Estocástica - Prof. Geovany A. Borges
73
Download