Notas de Aula do Curso

Propaganda
Notas de Aula do Curso
PGE950: Probabilidade
Leandro Chaves Rêgo, Ph.D.
2014.1
Prefácio
Estas notas de aula foram feitas para compilar o conteúdo de várias referências bibliográficas
tendo em vista o conteúdo programático da disciplina PGE950-Probabilidade do curso de
mestrado em Estatística da Universidade Federal de Pernambuco. Em particular, elas não
contém nenhum material original e não substituem a consulta a livros textos. Seu principal
objetivo é dispensar a necessidade dos alunos terem que copiar as aulas e, deste modo,
poderem se concentrar em entender o conteúdo das mesmas.
Recife, março de 2014.
Leandro Chaves Rêgo, Ph.D.
i
Conteúdo
Prefácio
i
1 Introdução à Probabilidade
1.1 Experimento Aleatório . . . . . . . . . . . . . . . . . . . . .
1.2 Espaço Amostral . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Eventos e Coleção de Eventos . . . . . . . . . . . . . . . . .
1.3.1 Partição . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.2 Álgebra de Eventos . . . . . . . . . . . . . . . . . . .
1.3.3 Função Indicadora . . . . . . . . . . . . . . . . . . .
1.4 Fundamentos de Probabilidade . . . . . . . . . . . . . . . .
1.4.1 Hierarquia de Conceitos Estruturais de Probabilidade
1.4.2 Interpretações de Probabilidade . . . . . . . . . . . .
1.5 Frequências Relativas . . . . . . . . . . . . . . . . . . . . . .
1.6 Axiomas de Kolmogorov . . . . . . . . . . . . . . . . . . . .
1.6.1 Exemplos de Medidas de Probabilidade . . . . . . . .
1.6.2 Propriedades de uma Medida de Probabilidade . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
3
3
4
6
8
10
11
11
13
15
16
2 Probabilidade Condicional
2.1 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
22
29
3 Variável Aleatória
3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . .
3.2 Função de Distribuição Acumulada . . . . . . . . .
3.3 Tipos de Variável Aleatória . . . . . . . . . . . . .
3.3.1 Variável Aleatória Discreta . . . . . . . . . .
3.3.2 Variável Aleatória Contínua . . . . . . . . .
3.3.3 Variável Aleatória Singular . . . . . . . . . .
3.3.4 Decomposição de uma Variável Aleatória . .
3.4 Principais Distribuições de Probabilidade . . . . . .
3.5 Variáveis Aleatórias Multidimensionais . . . . . . .
3.5.1 Função de Distribuição Acumulada Conjunta
3.5.2 Independência entre Variáveis Aleatórias. . .
3.5.3 Exemplos de Distribuições Multivariadas . .
33
33
35
37
37
38
38
39
40
47
48
49
51
ii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.6
Funções de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . .
4 Esperança e Momentos de Variáveis Aleatórias
4.1 O Conceito de Esperança . . . . . . . . . . . . . . . . . .
4.2 Definição da Esperança - Caso Discreto . . . . . . . . . .
4.3 As integrais de Riemman-Stieltjes e de Lebesgue-Stieltjes
4.3.1 Propriedades da Integral de Lebesgue-Stieltjes . .
4.4 Definição da Esperança - Caso Geral . . . . . . . . . . .
4.4.1 Interpretação Geométrica da Esperança . . . . . .
4.5 Esperança de Funções de Variáveis Aleatórias . . . . . .
4.5.1 Caso Discreto . . . . . . . . . . . . . . . . . . . .
4.5.2 Caso Geral . . . . . . . . . . . . . . . . . . . . .
4.6 Propriedades da Esperança . . . . . . . . . . . . . . . . .
4.7 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7.1 Momentos Centrais . . . . . . . . . . . . . . . . .
4.8 Momentos Conjuntos . . . . . . . . . . . . . . . . . . . .
51
.
.
.
.
.
.
.
.
.
.
.
.
.
56
56
56
59
61
62
64
66
66
67
67
70
71
74
5 Distribuição e Esperança Condicionais
5.1 Distribuição condicional de X dada Y discreta . . . . . . . . . . . . . . . . .
5.2 Distribuição condicional de X dada Y : caso geral . . . . . . . . . . . . . . .
5.3 Esperança Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
77
79
83
6 Convergência Estocástica
6.1 Seqüência de Eventos . . . . . . . . . . . . . . .
6.1.1 Borel-Canteli . . . . . . . . . . . . . . .
6.2 Covergência de Variáveis Aleatórias . . . . . . .
6.2.1 Tipos de Convergência . . . . . . . . . .
6.2.2 Relação Entre os Tipos de Convergência
6.3 Convergência de Vetores Aleatórios . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
87
87
89
91
92
98
102
7 Funções Características
7.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Definição . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2.1 Propriedades . . . . . . . . . . . . . . . . . . .
7.2.2 Exemplos de Funções Características . . . . . .
7.3 Teorema da Continuidade de Levy . . . . . . . . . . . .
7.4 Soma de um Número Aleatório de Variáveis Aleatórias
7.5 Função Característica de um Vetor Aleatório . . . . . .
7.6 Funções Geratrizes de Momento . . . . . . . . . . . . .
7.7 Teorema de Slutsky . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
104
104
105
105
110
111
115
117
120
120
8 Lei
8.1
8.2
8.3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
dos Grandes Números
123
Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Lei Fraca dos Grandes Números . . . . . . . . . . . . . . . . . . . . . . . . . 125
Lei Forte dos Grandes Números . . . . . . . . . . . . . . . . . . . . . . . . . 127
iii
8.4
Um Exemplo de Divergência das Médias . . . . . . . . . . . . . . . . . . . . 134
9 Teorema Central do Limite
9.1 Motivação . . . . . . . . . . . . . . . . . . . . .
9.2 Teoremas e provas . . . . . . . . . . . . . . . .
9.3 Teorema Central do Limite: Caso Multivariado
9.4 Método Delta . . . . . . . . . . . . . . . . . . .
Referências Bibliográficas
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
136
136
136
145
145
149
iv
Capítulo 1
Introdução à Probabilidade
1.1
Experimento Aleatório
Um dos maiores objetivos de um estatístico é chegar a conclusões sobre certa população
de objetos através da realização de um experimento. Um experimento é qualquer processo
de observação. Em muitos experimentos de interesse, existe um elemento de incerteza, ou
chance, que não importa quanto nós sabemos sobre o passado de outras performances deste
experimento, nós essencialmente não somos capazes de predizer seu comportamento em futuras realizações. As razões para nossa falta de habilidade para predizer são varias: nós
podemos não saber de todas as causas envolvidas; nós podemos não ter dados suficientes sobre as condições iniciais do experimento; as causas podem ser tão complexas que o cálculo do
seu efeito combinado não é possível; ou na verdade existe alguma aleatoriedade fundamental
no experimento. Estamos interessados em uma classe particular de experimentos, chamados
experimentos aleatórios. Os seguintes traços caracterizam um experimento aleatório:
(a) Se for possível repetir as mesmas condições do experimento, os resultados do experimento em diferentes realizações podem ser diferentes. Por exemplo, jogar uma moeda
diversas vezes com bastante cuidado para que cada jogada seja realizada da mesma
maneira.
(b) Muito embora não sejamos capazes de afirmar que resultado particular ocorrerá, seremos capazes de descrever o conjunto de todos os possíveis resultados do experimento.1
(c) Quando o experimento for executado repetidamente, os resultados individuais parecerão ocorrer de uma forma acidental. Contudo, quando o experimento for repetido
um grande número de vezes, uma configuração definida ou regularidade surgirá. É
esta regularidade que torna possível construir um modelo probabilístico. Por exemplo,
1
É importante ressaltar que frequentemente são encontradas situações práticas onde não se consegue
descrever todos os possíveis resultados de um experimento. Uma maneira de contornar este problema é
assumir que um resultado possível do experimento é a não ocorrência de qualquer dos resultados descritos,
contudo, em problemas práticos, tal suposição pode acarretar em dificuldades quando se tenta elicitar ou
deduzir probabilidades.
1
1.2. ESPAÇO AMOSTRAL
2
pense nas repetidas jogadas de uma moeda, muito embora caras e coroas apareçam sucessivamente, em uma maneira arbitrária, é fato empírico conhecido que, depois de um
grande número de jogadas, a proporção de caras e de coroas serão aproximadamente
iguais (assumindo que a moeda é simétrica).
Os resultados de um experimento aleatório são caracterizados pelos seguintes componentes:
1. o conjunto de resultados possíveis Ω;
2. a coleção de conjuntos de resultados de interesse A;
3. um valor numérico P da verossimilhança ou probabilidade de ocorrência de cada um
dos conjuntos de resultados de interesse.
1.2
Espaço Amostral
O conjunto de possíveis resultados de um experimento aleatório é chamado de espaço amostral. Existem quatro pontos que são desejáveis da especificação de um espaço amostral:
SS1. listar os possíveis resultados do experimento;
SS2. fazê-lo sem duplicação;
SS3. fazê-lo em um nível de detalhamento suficiente para os interesses desejados;
SS4. especificar essa lista completamente em um sentido prático, embora usualmente não
completa no que se refere a todos os resultados logicamente ou fisicamente possíveis.
Por exemplo, uma única jogada de uma moeda pode ter o espaço amostral tradicional
Ω = {cara, coroa}, ou podemos considerar que a moeda pode fisicamente ficar equilibrada na
borda Ω = {cara, coroa, borda} (SS1). Uma outra possibilidade seria levar em consideração
as coordenadas (x, y) do centro da moeda quando ela para após ser jogada no ar. Como
vemos muito mais se sabe sobre o resultado de uma jogada de uma moeda que os simples
resultados binários tradicionais cara e coroa. Nós ignoramos está informação adicional (SS3)
usando uma hipótese não mencionada que existe uma aposta com pagamentos que dependem
apenas de qual lado da moeda cai para cima e não em outras informações (SS4).
Podemos classificar espaços amostrais em dois tipos de acordo com o número de elementos que eles contem. Espaços amostrais podem ser enumeráveis ou não enumeráveis; se os
elementos do espaço amostral podem ser colocados em uma correspondência 1-1 com um
subconjunto dos inteiros, o espaço amostral é enumerável. Em um nível filosófico, pode-se
argumentar que só existem espaços amostrais enumeráveis, visto que medidas não podem
ser feitas com infinita precisão. Enquanto na prática isto é verdadeiro, métodos estatísticos e probabilísticos associados com espaços amostrais não enumeráveis são, em geral,
menos complicados que aqueles para espaços amostrais enumeráveis, e proporcionam uma
boa aproximação para a situação (enumerável) real.
Autor: Leandro Chaves Rêgo
1.3. EVENTOS E COLEÇÃO DE EVENTOS
1.3
3
Eventos e Coleção de Eventos
Um evento é um subconjunto do espaço amostral, ou seja, é um conjunto de resultados
possíveis do experimento aleatório. Se ao realizarmos um experimento aleatório, o resultado
pertence a um dado evento A, dizemos que A ocorreu. Estaremos interessados no estudo da
ocorrência de combinações de eventos. Para tanto, utilizaremos as operações Booleanas de
conjuntos (complementar, união, intersecção, diferença) para expressar eventos combinados
de interesse.
Definição 1.3.1: Os eventos A e B são disjuntos ou mutuamente excludentes ou mutuamente exclusivos se não puderem ocorrer juntos, ou, em linguagem de conjuntos, A ∩ B = ∅.
Exemplo 1.3.2: Sejam A, B, e C eventos em um mesmo espaço amostral Ω. Expresse os
seguintes eventos em função de A, B, e C e operações Booleanas de conjuntos.
(a) Pelo menos um deles ocorre:
A ∪ B ∪ C.
(b) Exatamente um deles ocorre:
(A ∩ B c ∩ C c ) ∪ (Ac ∩ B ∩ C c ) ∪ (Ac ∩ B c ∩ C).
(c) Apenas A ocorre:
(A ∩ B c ∩ C c ).
(d) Pelo menos dois ocorrem:
(A ∩ B ∩ C c ) ∪ (A ∩ B c ∩ C) ∪ (Ac ∩ B ∩ C) ∪ (A ∩ B ∩ C).
(e) No máximo dois deles ocorrem:
(A ∩ B ∩ C)c .
(f ) Nenhum deles ocorre:
(Ac ∩ B c ∩ C c ).
(g) Ambos A e B ocorrem, mas C não ocorre:
(A ∩ B ∩ C c ).
1.3.1
Partição
Definição 1.3.3: Dado um espaço amostral Ω, uma partição Π = {Aα , α ∈ I} de Ω é uma
coleção de eventos (subconjuntos de Ω) (neste caso, indexados por α que toma valores no
conjunto de índices I) e satisfaz:
P1. Para todo α ̸= β, Aα ∩ Aβ = ∅;
Autor: Leandro Chaves Rêgo
1.3. EVENTOS E COLEÇÃO DE EVENTOS
4
P2. ∪α∈I Aα = Ω.
Deste modo os eventos de uma partição são mutuamente excludentes (ou disjuntos) e
cobrem todo o espaço amostral. Portanto, cada elemento ω ∈ Ω pertence a um, e somente
um, dos eventos Aα de uma partição.
Exemplo 1.3.4: Se Ω = {1, 2, 3, 4}, então {A1 , A2 }, onde A1 = {1, 2, 3} e A2 = {4}, é uma
partição de Ω.
Exemplo 1.3.5: A coleção de intervalos {(n, n + 1] : n ∈ Z} é uma partição dos números
reais IR.
1.3.2
Álgebra de Eventos
Embora possa-se pensar que, dado um espaço amostral, necessariamente é de interesse analisar todos os seus subconjuntos (e isto eventualmente é verdadeiro), temos três razões para
esperar que estejamos apenas interessados em alguns subconjuntos do espaço amostral. Primeiro, o espaço amostral pode conter um grau de detalhamento superior ao que estamos
interessados no momento. Por exemplo, ele pode representar uma única jogada de um dado
com 6 elementos, mas nós apenas estamos interessados em saber se o resultado é par ou
ímpar. Segundo, nós vamos querer associar cada evento A com uma probabilidade numérica
P (A). Como essas probabilidades estão baseadas em algum conhecimento sobre a tendência
de ocorrer do evento, ou no grau de nossa crença que determinado evento ocorrerá, nosso
conhecimento sobre P pode não estender para todos os subconjuntos de Ω. A terceira (e
técnica) razão para limitar a coleção de eventos de interesse é que condições impostas em
P pelos axiomas de Kolmogorov, que estudaremos adiante, podem não permitir que P seja
definida em todos os subconjuntos de Ω, em particular isto pode ocorrer quando Ω for não
enumerável, mas não iremos demonstrar este fato que está fora do escopo deste curso.
Estaremos interessados em uma coleção especial A de subconjuntos do espaço amostral
Ω (note que A é um conjunto cujos elementos também são conjuntos!) que são eventos de
interesse no que se refere ao experimento aleatório E e os quais temos conhecimento sobre a
sua verossimilhança de ocorrência. A é chamado de uma álgebra de eventos.
Definição 1.3.6: Uma álgebra de eventos A é uma coleção de subconjuntos do espaço
amostral Ω que satisfaz:
1. não é vazia;
2. fechada com respeito a complementos (se A ∈ A, então Ac ∈ A);
3. fechada com respeito a uniões finitas (se A, B ∈ A, então A ∪ B ∈ A).
Pelas Leis de De Morgan, vemos que A é fechada com respeito a intersecções finitas
também.
Autor: Leandro Chaves Rêgo
1.3. EVENTOS E COLEÇÃO DE EVENTOS
5
Exemplo 1.3.7:
1. A menor álgebra de eventos é A = {∅, Ω};
2. A maior álgebra de eventos é o conjunto das partes de Ω;
3. Um exemplo intermediário, temos:
Ω = {1, 2, 3}, A = {Ω, ∅, {1}, {2, 3}}.
4. A álgebra de eventos finitos e co-finitos. Seja Ω = IR e
A = {A ⊆ IR : A é finito} ∪ {A ⊆ IR : Ac é finito},
ou seja, A consiste dos subconjuntos de IR que ou são finitos ou têm complementos
finitos. A é uma álgebra de eventos.
Lema 1.3.8: Se A é uma álgebra, então Ω ∈ A
Prova: Como A é não vazia, seja A um elemento qualquer seu. Pela segunda propriedade
de álgebras, temos que Ac ∈ A, e pela terceira propriedade temos que Ω = A ∪ Ac ∈ A.
Teorema 1.3.9: Sejam A1 e A2 álgebras de subconjuntos de Ω e seja A = A1 ∩A2 a coleção
de subconjuntos comuns as duas álgebras. Então, A é uma álgebra.
Prova: Como A1 e A2 são álgebras, ambos contém Ω. Então, Ω ∈ A. Se A ∈ A, então A
está em ambos A1 e A2 . Logo, Ac está em ambos A1 e A2 , e portanto na sua intersecção A.
Se A, B ∈ A, então eles estão em ambos A1 e A2 . Consequentemente, A ∪ B está em ambos
A1 e A2 e, portanto, em A. Como A satisfaz as três condições da definição de álgebra de
eventos, A é uma álgebra de eventos.
É fácil ver que a prova do Teorema 1.3.9 pode ser estendida para o caso de uma intersecção
de um número arbitrário de álgebras. O seguinte corolário usa este fato para provar que
sempre existe uma menor álgebra contendo uma família qualquer de eventos.
Corolário 1.3.10: Existe uma menor (no sentido de inclusão) álgebra contendo qualquer
família dada de subconjuntos de Ω.
Prova: Seja C uma coleção qualquer de subconjuntos de Ω, defina A(C) como sendo o
conjunto que é igual a intercessão de todas as álgebras de eventos que contém C, isto é:
∩
A(C) =
A.
A⊇C:A é uma álgebra de eventos
Pelo Teorema 1.3.9, A(C) é uma álgebra de eventos, e consequentemente é a menor álgebra
de eventos contendo C. A(C) é conhecida como a álgebra de eventos gerada por C.
Autor: Leandro Chaves Rêgo
1.3. EVENTOS E COLEÇÃO DE EVENTOS
6
Teorema 1.3.11: Se A é uma álgebra de eventos, então
Ai ∈ A, i = 1, 2, . . . , n ⇒ ∪ni=1 Ai ∈ A
Prova: Para n = 1, o resultado é óbvio. Para n = 2, o resultado segue diretamente
da terceira propriedade na definição de álgebra de eventos. Vamos agora provar o passo
indutivo, suponha que
Ai ∈ A, i = 1, 2, . . . , k ⇒ ∪ki=1 Ai ∈ A.
Vamos agora provar que o caso n = k + 1 é verdadeiro. Suponha que Ai , i = 1, 2, . . . , k + 1 ∈
A, então como
k
∪k+1
i=1 Ai = (∪i=1 Ai ) ∪ Ak+1 ,
temos que utilizando o caso n = k, ∪ki=1 Ai ∈ A. Como ∪ki=1 Ai ∈ A e Ak+1 ∈ A, temos que
utilizando o caso n = 2, (∪ki=1 Ai ) ∪ Ak+1 ∈ A.
Observação 1.3.12: Uma maneira de construir uma álgebra de eventos, é primeiro particionar Ω em um número finito subconjuntos e depois considerar álgebra que consiste dos
eventos que são uniões finitas dos subconjuntos da partição.
Exemplo 1.3.13: Por exemplo, Ω = {a, b, c, d}. Considere a partição, {{a, c}, {b, d}},
então considere a coleção de eventos que consiste de uniões finitas dos eventos desta partição:
A = {∅, Ω, {a, c}, {b, d}}. É fácil ver que A é uma álgebra de eventos.
Dada uma coleção finita eventos C = {A1 , A2 , . . . , An }, define-se um átomo de C como
sendo qualquer evento B da seguinte forma: B = B1 ∩ B2 ∩ . . . ∩ Bn , onde Bi = Ai ou
Bi = Aci para i = 1, 2, . . . , n. Note que existem no máximo 2||C|| átomos diferentes e que
eles formam uma partição de Ω (verifique!). Quando C for uma coleção finita de eventos,
um evento pertencerá a A(C), se e somente se, for igual a uma união finita de átomos de C.
||C||
Note que A(C) terá no máximo 22
elementos (verifique!).
Exemplo 1.3.14: Se Ω = {a, b, c, d, e, f }, encontre a álgebra gerada por C = {{a, b, d}, {b, d, f }}.
Os átomos de C são {{a}, {f }, {c, e}, {b, d}}. Logo,
A(C) = {∅, Ω, {a}, {f }, {c, e}, {b, d}, {a, f }, {a, c, e},
{a, b, d}, {c, e, f }, {b, d, f }, {b, c, d, e}, {a, f, c, e},
{a, f, b, d}, {a, b, c, d, e}, {b, c, e, d, f }}.
1.3.3
Função Indicadora
É sempre conveniente representar um evento A por uma função IA tendo domínio (conjunto
dos argumentos da função) Ω e contra-domínio (conjunto dos possíveis valores da função)
binário {0, 1}.
Autor: Leandro Chaves Rêgo
1.3. EVENTOS E COLEÇÃO DE EVENTOS
7
Definição 1.3.15 : Função Indicadora. A função indicadora IA : Ω → {0, 1} de um
evento A é dada por
{
1 se ω ∈ A,
IA (ω) =
0 se ω ∈
/ A.
Note que podemos determinar A a partir de sua função indicadora: A = {ω : IA (ω) = 1}.
Exemplo 1.3.16: Se IA (ω) for identicamente igual a 1, ou seja, IA (ω) = 1, ∀ω ∈ Ω, então
A é igual ao espaço amostral Ω. Se IA (ω) for identicamente igual a 0, então A é igual ao
conjunto vazio ∅. Se IA (ω) for igual a 1 somente quando ω = ω0 , então A é o evento {ω0 }
que contém somente o elemento ω0 .
Note que existe uma correspondência 1-1 entre eventos e suas funções indicadoras:
A = B ⇔ (∀ω ∈ Ω)IA (ω) = IB (ω).
O fato que eventos são iguais se, e somente se, suas funções indicadoras forem idênticas nos
permitem explorar a aritmética de funções indicadoras:
IAc = 1 − IA ,
A ⊆ B ⇔ IA ≤ IB ,
IA∩B = min(IA , IB ) = IA IB ,
IA∪B = max(IA , IB ) = IA + IB − IA∩B ,
IA−B = max(IA − IB , 0) = IA IB c ,
para construir argumentos rigorosos no que se refere a relação entre eventos. Ou seja, nós
transformamos proposições sobre eventos em proposições sobre funções indicadoras e podemos então utilizar nossa familiaridade com álgebra para resolver perguntas menos familiares
sobre eventos.
Exemplo 1.3.17: Utilizando funções indicadoras, verifique que A ⊆ B ⇔ B c ⊆ Ac .
Solução: Temos que
A ⊆ B ⇔ IA ≤ IB ⇔ 1 − IA ≥ 1 − IB ⇔ IAc ≥ IB c ⇔ B c ⊆ Ac .
Exemplo 1.3.18: As seguintes questões não estão relacionadas umas com as outras.
a. Se IA IB for identicamente igual a zero, o que sabemos a respeito da relação entre A e
B?
b. Se A ∩ B c = B ∩ Ac , o que sabemos a respeito da relação entre A e B?
c. Se IA2 + IB2 for identicamente igual a 1, o que podemos concluir sobre A e B?
Autor: Leandro Chaves Rêgo
1.4. FUNDAMENTOS DE PROBABILIDADE
8
d. Se IA − IB for identicamente igual a 1, o que podemos concluir sobre A e B?
e. Se A ∩ B = B ∪ A, o que podemos concluir sobre A e B?
Solução: Exercício.
Exemplo 1.3.19 : Utilizando funções indicadoras, determine se (A − C) ∪ (B − C) =
(A ∩ B c ∩ C c ) ∪ (Ac ∩ B ∩ C c ). (Sugestão: Faça um Diagrama de Venn.)
Solução: Seja ω ∈ A ∩ B ∩ C c . Então, IA (ω) = IB (ω) = IC c (ω) = 1. Portanto, temos
I(A−C)∪(B−C) = IA−C + IB−C − IA−C IB−C = IA IC c + IB IC c − IA IC c IB IC c .
De onde conclui-se que I(A−C)∪(B−C) (ω) = 1. Por outro lado,
I(A∩B c ∩C c )∪(Ac ∩B∩C c ) = I(A∩B c ∩C c ) + I(Ac ∩B∩C c ) − I(A∩B c ∩C c ) I(Ac ∩B∩C c )
= IA IB c IC c + IAc IB IC c − IA IB c IC c IAc IB IC c
De onde conclui-se que I(A∩B c ∩C c )∪(Ac ∩B∩C c ) (ω) = 0. Logo, I(A−C)∪(B−C) ̸= I(A∩B c ∩C c )∪(Ac ∩B∩C c ) ,
o que implica que (A − C) ∪ (B − C) ̸= (A ∩ B c ∩ C c ) ∪ (Ac ∩ B ∩ C c ).
1.4
Fundamentos de Probabilidade
Raciocínio probabilístico aparece em uma ampla variedade de fenômenos de chance e incerteza, ele é lugar comum em nosso dia-a-dia. Nós expressamos julgamentos probabilísticos
tanto através da linguagem como através de nossas ações. Ultrapassar um carro em uma
estrada com outro carro vindo em direção oposta implica que calculamos as distâncias e
velocidades, e calculamos os riscos de uma batida ocorrer e estamos conscientes das graves
consequências de erros nos nossos julgamentos, mas os consideramos pequenos o suficiente.
Raciocínio probabilístico no dia-a-dia enquanto não desenvolvido matematicamente precisa
ser levado seriamente em conta se desejamos tomar decisões racionais.
Nota-se que, em geral, precisamos incorporar conhecimento probabilístico que seja tanto
qualitativo e expresso linguisticamente como também o conhecimento quantitativo que pode
ser expresso numericamente. Antes de focarmos em uma teoria probabilística, vamos explorar
o espaço de alternativas. Nós podemos classificar as formas de raciocínio probabilístico nas
seguintes dimensões:
• grau de precisão: o conceito estrutural
• o significado, ou interpretação a ser dada a probabilidade
• estrutura matemática formal de probabilidade dada por um conjunto de axiomas
O conceito estrutural determina a precisão com que podemos esperar que probabilidade
represente fenômenos aleatórios. A interpretação proporciona a base com a qual probabilidade deve ser determinada e indica o que podemos esperar aprender com ela, ou seja, o
que uma afirmação probabilística significa. O conceito estrutural e a interpretação guiam a
Autor: Leandro Chaves Rêgo
1.4. FUNDAMENTOS DE PROBABILIDADE
9
escolha dos axiomas. O conjunto de axiomas, contudo, pode somente capturar uma parte
do que entendemos da interpretação.
Compreensão de fundamentos de probabilidade é importante, pois aplicações de teoria
da probabilidade dependem fortemente de seus fundamentos. Por exemplo, os fundamentos
influem na escolha dos métodos estatísticos a serem utilizados (Frequentistas, Bayesianos,
. . . ) e na interpretação dos resultados obtidos. Os próximos exemplos ajudam a motivar um
pouco a importância do estudo de fundamentos de probabilidade.
Exemplo 1.4.1: Suponha que Alice tenha uma moeda honesta e que ela e Bob saibam que
a moeda é honesta. Alice joga a moeda e olha o resultado. Após a moeda ser jogada, qual a
probabilidade de cara segundo Bob? Um argumento diria que a probabilidade ainda é 1/2,
pois Bob não aprendeu nada sobre o resultado da jogada, então ele não deve alterar o valor
de sua probabilidade. Um outro argumento, questiona se realmente faz sentido falar sobre
probabilidade de cara depois que a moeda foi jogada. Segundo este argumento, a moeda ou
caiu cara ou coroa, então o melhor que Bob pode afirmar é que a probabilidade de cara ou
é 0 ou é 1, mas ele não sabe discernir entre esses valores.
Exemplo 1.4.2 : Suponha agora que Alice tenha duas moedas, uma honesta e outra
tendenciosa e é duas vezes mais provável dar cara que coroa com esta moeda. Alice escolhe
uma das moedas (suponha que ela sabe distinguir as moedas) e está prestes a jogá-la. Bob
sabe que uma moeda é honesta e que a outra é tendenciosa e que é duas vezes mais provável
cair cara que coroa com a moeda tendenciosa, mas ele não sabe que moeda Alice escolheu nem
lhe foi dada a probabilidade com que Alice escolhe a moeda honesta. Qual a probabilidade
de cara segundo Bob?
Exemplo 1.4.3: Paradoxo de Ellsbergue. Suponha que existam duas urnas cada uma
com 60 bolas. A urna 1 contém 30 bolas azuis e 30 bolas verdes. Tudo que se sabe sobre
a urna 2 é que ela contém bolas azuis e verdes, mas não sabe-se a distribuição das bolas.
Considere que existem duas loteria com prêmios baseados no sorteio de bolas dessas urnas.
Loteria L1 paga R$1.000,00 se uma bola azul for sorteada na urna 1, e R$0,00 caso contrário.
Loteria L2 paga R$1.000,00 se uma bola azul for sorteada na urna 2, e R$0,00 caso contrário.
A maioria das pessoas quando questionada se prefere um bilhete da Loteria L1 ou L2 prefere
um bilhete da loteria L1 . Suponha agora que temos duas outras loterias L3 e L4 , onde a
primeira paga R$1.000,00 somente se uma bola verde for sorteada da urna 1, e a segunda
para R$1.000,00 somente se uma bola verde for sorteada da urna 2. Também, é verificado que
a maioria das pessoas que preferiram a loteria L1 a loteria L2 preferem a loteria L3 a loteria
L4 . Com estas preferências, não é possível que o decisor possua uma única distribuição de
probabilidade subjetiva sobre as cores das bolas na urna 2, pois a primeira preferência (L1
sobre L2 ) indica que o decisor considera que existam mais bolas verdes que azuis na urna 2,
e a segunda (L3 sobre L4 ) indica que o decisor considera que existam mais bolas azuis que
verdes na urna 2. Esse fenômeno é conhecido na literatura como aversão a ambiguidade,
e pode-se modelar a incerteza do decisor por um conjunto de medidas de probabilidade ao
invés de uma única medida de probabilidade.
Autor: Leandro Chaves Rêgo
1.4. FUNDAMENTOS DE PROBABILIDADE
10
Nós discutiremos uma variedade de conceitos estruturais e interpretações de probabilidade. Depois nós focaremos na probabilidade numérica tradicional que satisfaz os famosos
axiomas de Kolmogorov e em uma interpretação baseada em frequências de ocorrência.
1.4.1
Hierarquia de Conceitos Estruturais de Probabilidade
Os seguintes são exemplos de uma variedade de conceitos estruturais de probabilidade:
Possivelmente. “Possivelmente A” é o conceito mais rudimentar e menos preciso, e o usado
pelos antigos Gregos para distinguir entre o que era necessário e o que era contingente.
Existe um número de conceitos de possibilidade que incluem os seguintes:
possibilidade lógica, no sentido que não se contradiz logicamente;
possibilidade epistêmica, segundo a qual ocorrência de A não contradiz nosso conhecimento, que inclui, mas estende mais que mera lógica;
possibilidade física, a ocorrência de A é compatível com leis físicas, contudo ela
pode ser extremamente improvável — por exemplo, uma moeda parando e ficando
equilibrada na borda em uma superfície rígida;
possibilidade prática, a noção do dia-a-dia segundo a qual A é praticamente possível
se ele tem pelo menos uma verossimilhança não tão pequena de ocorrer.
Provavelmente. Provavelmente A é um fortalecimento da noção de possibilidade que significa mais que provável que não. Enquanto ela pode corresponder ao caso que a
probabilidade numérica de A seja maior que 1/2, este conceito não requer nenhum
comprometimento com probabilidade numérica nem com o preciso estado de conhecimento que probabilidade numérica requer.
Probabilidade Comparativa. “A é pelo menos tão provável quanto B”. A probabilidade
comparativa inclui “provavelmente A” através de “A é pelo menos tão provável quanto
Ac ”. Pode ser relacionada com probabilidade numérica através de P (A) ≥ P (B); embora como nos dois exemplos anteriores, probabilidade comparativa não requer nenhum
comprometimento com probabilidade numérica.
Probabilidade Intervalar. “A tem probabilidade intervalar, ou probabilidade inferior e
superior (P (A), P (A))”. Isto permite um grau de indeterminação variável sem nenhum
comprometimento com que exista um “verdadeiro” valor no intervalo.
Probabilidade Numérica. “A probabilidade de A é o número real P (A).” Este é o conceito
usual com o qual nos ocuparemos neste curso. Enquanto este conceito absorveu quase
toda atenção de pessoas envolvidas com fenômenos de chance e incerteza e provou
ser frutífero na prática científica, este não é o único conceito utilizado em linguagem
ordinária e no raciocínio probabilístico do dia-a-dia. É duvidoso que probabilidade
numérica seja adequada a todas as aplicações que ela é utilizada, e é provável que
ela tenha inibido o desenvolvimento de teorias matemáticas apropriadas para outros
fenômenos aleatórios.
Autor: Leandro Chaves Rêgo
1.5. FREQUÊNCIAS RELATIVAS
11
De agora em diante focaremos no conceito estrutural mais utilizado e preciso que é a
probabilidade numérica.
1.4.2
Interpretações de Probabilidade
Parece não ser possível reduzir probabilidade a outros conceitos; ela é uma noção em si
mesma. O melhor que podemos fazer é relacionar probabilidade a outros conceitos através
de uma interpretação. Os cinco mais comuns grupos de interpretação são os seguintes:
1. Lógica: grau de confirmação da hipótese de uma proposição que “A ocorre” dada uma
evidência através da proposição que “B ocorreu”. Esta interpretação está ligada a um
sistema lógico formal e não, digamos, ao mundo físico. Ela é usada para tornar o raciocínio indutivo quantitativo. Quando as evidências ou premissas são insuficientes para
deduzir logicamente a hipótese ou conclusão, podemos ainda medir quantitativamente
o grau de suporte que uma evidência da a uma hipótese através de probabilidade lógica.
2. Subjetiva: se refere ao grau de crença pessoal na ocorrência do evento A e é medida
através da interpretação comportamental de disposição a apostar ou agir.
3. Frequentista: se refere ao limite da frequência relativa de ocorrência do evento A em
repetidas realizações não relacionadas do experimento aleatório E. Note que limites de
frequência relativas são uma idealização, pois não se pode repetir infinitas vezes um
experimento.
4. Propensidade: tendência, propensidade, ou disposição para um evento A ocorrer. Por
exemplo, considerações de simetria, podem levar a conclusão que um dado tem a mesma
propensão ou tendência a cair em qualquer uma de suas faces.
5. Clássica: baseada em uma enumeração de casos igualmente prováveis.
1.5
Frequências Relativas
Resta-nos discutir o terceiro elemento para modelagem do raciocínio probabilístico, a associação de uma medida numérica a eventos que representam a verossimilhança com que
eles ocorrem. As propriedades desta associação são motivadas em grande parte pelas propriedades de frequência relativas. Considere uma coleção de experimentos aleatórios Ei que
possuem a mesma álgebra de eventos A e tem resultados individuais não necessariamente
numéricos {ωi }. Seja X(ω) uma função real dos resultados, com Xi =∑
X(ωi ) sendo o valor
1
associado com o resultado ωi do i-ésimo experimento. Seja Avn X = n ni=1 Xi a média dos
resultados dos n primeiros experimentos. Por simplicidade matemática, assumiremos que a
função X é escolhida de uma família F de funções que podem assumir apenas um número
finito de valores numéricos. Fixando uma dada sequência de resultados {ωi }, é fácil verificar
as seguintes propriedades de Avn :
Av0. Avn : F → IR.
Autor: Leandro Chaves Rêgo
1.5. FREQUÊNCIAS RELATIVAS
12
Av1. Se para todo ω, X(ω) ≥ 0, então Avn ≥ 0.
Av2. Se X é uma função constante, então Avn X = X.
Av3. Para todo X, Y ∈ F, para todo α, β ∈ IR,
Avn (αX + βY ) = αAvn X + βAvn Y.
Em particular, se estamos interessados em um dado evento A e escolhemos X(ω) = IA (ω),
uma função binária, então a média é conhecida como a frequência relativa de A.
Definição 1.5.1: A frequência relativa de um evento A, determinada pelos resultados
{ω1 , . . . , ωn } de n experimentos aleatórios, é
1∑
Nn (A)
rn (A) =
IA (ωi ) =
.
n i=1
n
n
Propriedades chaves da frequência relativa são:
FR0. rn : A → IR.
FR1. rn (A) ≥ 0.
FR2. rn (Ω) = 1.
FR3. Se A e B são disjuntos, então rn (A ∪ B) = rn (A) + rn (B).
A1 , A2 , · · · An , · · · é uma sequência de eventos disjuntos dois a dois, então rn (∪∞
FR4. Se
i=1 Ai ) =
∑∞
r
(A
).
i
i=1 n
Pode-se expressar Avn em termos de rn . Dada uma função X que assume valores no conjunto finito {x1 , x2 , . . . , xk }, considere os k eventos {Ai = {ω : X(ω) = xi }, i = 1, 2, . . . , k}.
Podemos rearranjar os termos em Avn X e reescrevê-la da seguinte forma:
Avn X =
k
∑
xi rn (Ai ) =
i=1
k
∑
xi rn (X = xi ).
i=1
Em particular, se para cada i, temos convergência da sequência r1 (X = xi ), r2 (X = xi ), . . . ,
rn (X = xi ) para um limite pi , então também temos convergência da média Avn X,
lim Avn X =
n
n
∑
xi pi .
i=1
Este limite das médias, quando existe, serve como interpretação para o conceito essencial de
esperança ou média de uma quantidade aleatória numérica X. Veremos mais sobre esperança
neste curso.
Nós prosseguiremos como se existisse alguma base empírica ou metafísica que garanta
que rn (A) → P (A), embora que o sentido de convergência quando n cresce só será explicado
pela Lei dos Grandes Números. Esta tendência da frequência relativa de estabilizar em um
certo valor é conhecida como regularidade estatística. Deste modo, P herdará propriedades
da frequência relativa rn .
Autor: Leandro Chaves Rêgo
1.6. AXIOMAS DE KOLMOGOROV
1.6
13
Axiomas de Kolmogorov
Primeiro por razões técnicas, fora do escopo deste curso, temos que o domínio da medida
formal de probabilidade é uma álgebra de eventos que também é fechada com relação a um
número enumerável de uniões.
Definição 1.6.1: Uma σ-álgebra A é uma álgebra de eventos que também é fechada com
relação a uma união enumerável de eventos,
(∀i ∈ Z)Ai ∈ A ⇒ ∪i∈Z Ai ∈ A.
Exemplo 1.6.2: A coleção de conjuntos de números reais finitos e co-finitos é uma álgebra
que não é uma σ-álgebra.
Exemplo 1.6.3: A σ-álgebra de Borel B de subconjuntos reais é, por definição, a menor σálgebra contendo todos os intervalos e é a σ-álgebra usual quando lidamos com quantidades
reais ou vetoriais. Em particular, temos que uniões enumeráveis de intervalos (por exemplo,
o conjunto dos números racionais), seus complementos (por exemplo, o conjunto dos números
irracionais), e muito mais está em B.
Os axiomas que descreveremos a seguir não descrevem um único modelo probabilístico,
eles apenas determinam uma família de modelos probabilísticos, com os quais poderemos
utilizar métodos matemáticos para descobrir propriedades que serão verdadeiras em qualquer
modelo probabilístico. A escolha de um modelo específico satisfazendo os axiomas é feito
pelo analista/estatístico familiar com o fenômeno aleatório sendo modelado.
Motivados pelas propriedades de frequência relativa, impõe-se os primeiros quatro axiomas de Kolmogorov:
K0. Inicial. O experimento aleatório é descrito pelo espaço de probabilidade (Ω, A, P ) que
consiste do espaço amostral Ω, de uma σ-álgebra A, e de uma função de valores reais
P : A → IR.
K1. Não-negatividade. ∀A ∈ A, P (A) ≥ 0.
K2. Normalização Unitária. P (Ω) = 1.
K3. Aditividade Finita. Se A, B são disjuntos, então P (A ∪ B) = P (A) + P (B).
É fácil provar (tente!) utilizando indução matemática que K3 é válida para qualquer
coleção finita de eventos disjuntos par ∑
a par, ou seja, se Ai , i = 1, 2, . . . , n, são eventos
disjuntos par a par, então P (∪ni=1 Ai ) = ni=1 P (Ai ).
Um quinto axioma, embora não tenha significado em espaços amostrais finitos, foi proposto por Kolmogorov para garantir um certo grau de continuidade da medida de probabilidade.
Autor: Leandro Chaves Rêgo
1.6. AXIOMAS DE KOLMOGOROV
14
K4. Continuidade Monotônica. Se para todo i > 0, Ai+1 ⊆ Ai e ∩i Ai = ∅, então
lim P (Ai ) = 0.2
i→∞
Um forma equivalente de K4 é a seguinte:
K4′ . σ-aditividade. Se {Ai } é uma coleção enumerável de eventos disjuntos dois a dois,
então
∞
∑
∞
P (∪i=1 Ai ) =
P (Ai ).
i=1
Teorema 1.6.4: Se P satisfaz K0-K3, então P satisfaz K4′ se, e somente se, ela satisfaz
K4.
Prova: Primeiro, vamos provar que K0-K4 implicam o axioma da σ-aditividade K4′ . Seja
{Ai } qualquer sequência enumerável de eventos disjuntos par a par, e defina para todo n
Bn = ∪i>n Ai ,
n
∪∞
i=1 Ai = Bn ∪ (∪i=1 Ai ).
Claramente, para todo i ≤ n, temos que Ai e Bn são disjuntos. Por K3, temos
P (∪∞
i=1 Ai ) = P (Bn ) +
n
∑
P (Ai ).
i=1
Por definição de série numérica,
lim
n
n
∑
i=1
P (Ai ) =
∞
∑
P (Ai ).
i=1
K4′ segue se conseguirmos mostrar que limn P (Bn ) = 0. Note que Bn+1 ⊆ Bn , e que
′
∩∞
n=1 Bn = ∅. Então por K4, temos que o limite acima é zero e K4 é verdadeiro.
′
Agora, vamos provar que K0-K3, K4 implicam o axioma da continuidade monotônica
K4. Seja {Bn } qualquer coleção enumerável de eventos satisfazendo as hipóteses do axioma
K4: Bn+1 ⊆ Bn e ∩∞
n=1 Bn = ∅. Defina, An = Bn − Bn+1 e observe que {An } é uma coleção
enumerável de eventos disjuntos par a par. Note que
Bn = ∪j≥n Aj .
K4 (ou equivalentemente K4′ ) é uma idealização que não é aceita por alguns tratamentos subjetivistas
de probabilidade, em especial não é aceita por uma escola de estatísticos liderados por deFinetti (1972).
Assumir apenas aditividade finita, embora pareça mais plausível, pode levar a complicações inesperadas em
teoria estatística. Portanto, nós prosseguiremos sobre a suposição que o axioma da continuidade (K4) é
válido.
2
Autor: Leandro Chaves Rêgo
1.6. AXIOMAS DE KOLMOGOROV
15
Então, por K4′ temos que
P (Bn ) = P (∪j≥n Aj ) =
∑
P (Aj ).
j≥n
Como por K4′ ,
∞
∑
P (Aj ) = P (∪∞
j=1 Aj ) ≤ 1,
j=1
temos que
lim P (Bn ) = lim
n
n
∑
P (Aj ) = 0,
j≥n
logo K4 é verdadeiro.
Definição 1.6.5: Uma função que satisfaz K0-K4 é chamada de uma medida de probabilidade.
A terna (Ω, A, P ) é chamada de espaço de probabilidade. Intuitivamente quando se
modela uma problema através de probabilidade, basicamente, o que se faz é especificar cada
uma das componentes da terna acima.
Eventos são os elementos de A, aos quais se pode atribuir probabilidade. Probabilidade é
uma função cujo argumento é um conjunto. Portanto, não somente conjuntos, como também
as operações sobre eles, têm uma importância fundamental em teoria da probabilidade.
1.6.1
Exemplos de Medidas de Probabilidade
Exemplo 1.6.6: Se Ω for um conjunto finito, então temos que a probabilidade clássica que
assume que todos os resultados são igualmente prováveis, é um exemplo de uma medida de
probabilidade. Neste caso, temos que
P (A) =
||A||
||Ω||
definido para qualquer subconjunto A de Ω. O fato que 0 ≤ ||A|| ≤ ||Ω|| e que
||A ∪ B|| = ||A|| + ||B|| − ||A ∩ B||,
permitem que verifiquemos que P satisfaz os axiomas de Kolmogorov.
Exemplo 1.6.7:
, ωn } um conjunto finito, e seja P ({ωi }) = pi , onde
∑n Se Ω = {ω1 , ω2 , . . . ∑
pi ≥ 0, i ≥ 1 e i=1 pi = 1, e P (A) = ωi ∈A P ({ωi }). Neste caso, também é fácil verificar
que P é uma medida de probabilidade verificando os axiomas.
Exemplo 1.6.8: Seja Ω = [0, 1] e B0 a σ-álgebra de Borel restrita a eventos contidos em
[0, 1]. Pode-se provar que existe uma medida de probabilidade µ em (Ω, B0 ) tal que para
todo intervalo I em [0, 1] µ(I) é igual ao comprimento de I. Esta medida de probabilidade
µ é conhecida como medida de Lebesgue.
Autor: Leandro Chaves Rêgo
1.6. AXIOMAS DE KOLMOGOROV
1.6.2
16
Propriedades de uma Medida de Probabilidade
Teorema 1.6.9: Se P é uma medida de probabilidade, então
1. P (Ac ) = 1 − P (A).
2. P (∅) = 0.
3. P (A) ≤ 1.
Prova: Parte 1, segue do fato que Ω = A ∪ Ac , K2, e K3, pois
1 = P (Ω) = P (A) + P (Ac ).
Parte 2, segue da Parte 1, do fato que Ωc = ∅, e K2, K3, pois
P (∅) = 1 − P (Ω) = 0.
Parte 3, segue do fato que 1 = P (Ω) = P (A) + P (Ac ) ≥ P (A), já que P (Ac ) ≥ 0 por K1.
Teorema 1.6.10: Monotonicidade. Se A ⊆ B, então P (A) ≤ P (B).
Prova: Note que B = A ∪ (B − A), onde A e B − A são disjuntos. Então K3 implica que
P (B) = P (A) + P (B − A). O resultado segue do fato que P (B − A) ≥ 0.
Corolário 1.6.11: P (A ∪ B) ≥ max(P (A), P (B)) ≥ min(P (A), P (B)) ≥ P (A ∩ B).
Teorema 1.6.12: Uma expressão exata para a probabilidade de uma união não-disjunta é
dada por
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Prova: Como A ∪ B = A ∪ (B − A), e A e B − A são disjuntos, K3 implica que P (A ∪ B) =
P (A) + P (B − A). E como B = (A ∩ B) ∪ (B − A), A ∩ B e B − A são disjuntos, K3 implica
que P (B) = P (A ∩ B) + P (B − A). Logo,
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Teorema 1.6.13: Probabilidade de Partições. Se {Ai } é uma partição enumerável de
Ω feita de conjuntos em A, então para todo B ∈ A
∑
P (B) =
P (B ∩ Ai ).
i
Autor: Leandro Chaves Rêgo
1.6. AXIOMAS DE KOLMOGOROV
17
Prova: Como {Ai } é uma partição, segue que
B = B ∩ Ω = B ∩ (∪i Ai ) = ∪i (B ∩ Ai ).
O resultado segue então por K4′ .
Teorema 1.6.14: Desigualdade de Boole. Para n eventos arbitrários {A1 , . . . , An }, a
desigualdade de Boole é
n
∑
n
P (Ai ).
P (∪i=1 Ai ) ≤
i=1
Prova: Provaremos por indução matemática em n. A desigualdade é trivialmente verdadeira
para n = 1 e verdadeira para n = 2, pois é uma consequência imediata do Teorema 1.6.12.
Assuma que a desigualdade é válida para n = k e vamos provar que ela é válida para n = k+1.
k
Para ver isto, escrevemos ∪k+1
i=1 Ai = Ak+1 ∪ ∪i=1 Ai .
Pela desigualdade para n = 2,
k
P (∪k+1
i=1 Ai ) ≤ P (Ak+1 ) + P (∪i=1 Ai ).
Pela hipótese do passo indutivo, para n = k,
P (∪ki=1 Ai )
≤
k
∑
P (Ai ),
i=1
portanto, a desigualdade de Boole é verdadeira.
Corolário 1.6.15: Para n eventos arbitrários {A1 , . . . , An },
P (∩Ai ) ≥
n
∑
P (Ai ) − (n − 1).
i=1
Prova: Utilizando a Lei de De Morgan e a desigualdade de Boole para os eventos {Ac1 , . . . , Acn },
temos
n
n
∑
∑
n
c
c
P (∪i=1 Ai ) = 1 − P (∩Ai ) ≤
P (Ai ) =
(1 − P (Ai )).
i=1
Logo,
P (∩Ai ) ≥
n
∑
i=1
P (Ai ) − (n − 1).
i=1
O próximo teorema permite que possamos calcular de maneira exata a probabilidade
P (∪ni=1 Ai ) para n eventos arbitrários.
Autor: Leandro Chaves Rêgo
1.6. AXIOMAS DE KOLMOGOROV
18
Teorema 1.6.16 : Princípio da Inclusão-Exclusão. Seja I um conjunto genérico de
índices que é um subconjunto não-vazio qualquer de {1, 2, . . . , n}. Para eventos arbitrários
{A1 , . . . , An },
∑
P (∪ni=1 Ai ) =
(−1)||I||+1 P (∩i∈I Ai ),
∅̸=I⊆{1,...,n}
onde o somatório é sobre todos os 2 − 1 conjuntos de índices excluindo apenas o conjunto
vazio.
n
No caso particular de n = 3, o princípio de inclusão-exclusão afirma que
P (A1 ∪A2 ∪A3 ) = P (A1 )+P (A2 )+P (A3 )−P (A1 ∩A2 )−P (A1 ∩A3 )−P (A2 ∩A3 )+P (A1 ∩A2 ∩A3 ).
Prova: A prova é por indução matemática em n. O resultado é trivialmente verdadeiro
para n = 1 e já foi provado para n = 2 no Teorema1.6.12. Assuma que o resultado vale para
n = k e vamos provar que ele é verdadeiro para n = k + 1. Como na prova da desigualdade
k
de Boole, ∪k+1
i=1 Ai = Ak+1 ∪ ∪i=1 Ai . Usando o resultado para n = 2, temos
k
k
P (∪k+1
i=1 Ai ) = P (Ak+1 ) + P (∪i=1 Ai ) − P (Ak+1 ∩ ∪i=1 A1 ).
Reescrevendo o último termo como P (∪ki=1 (Ak+1 ∩ Ai )), nos dá uma expressão que contém
uma união de exatamente k conjuntos. Então, usando a hipótese do passo indutivo para os
dois últimos termos
∑
∑
||I||+1
P (∪k+1
A
)
=
P
(A
)+
(−1)
P
(∩
A
)−
(−1)||I||+1 P (∩i∈I (Ak+1 ∩Ai )).
k+1
i∈I i
i=1 i
∅̸=I⊆{1,...,k}
∅̸=I⊆{1,...,k}
O resultado segue ao rearranjarmos os termos destes somatórios.
Exemplo 1.6.17: Professor Leônidas está tentando calcular a probabilidade p = P (A) do
evento A, e determinou que ela é uma raiz do seguinte polinômio de grau cinco:
√
√
(p − 3)(p − 3 −1)(p + 3 −1)(p + 0.3)(p − 0.3) = 0.
Baseado nesta fato, qual é o valor de p?
Exemplo 1.6.18: Se Ω = {a, b, c}, e a álgebra A é o conjunto das partes de Ω, e a medida
de probabilidade P é parcialmente definida por
P ({a, b}) = 0.5, P ({b, c}) = 0.8, P ({a, c}) = 0.7,
então complete a especificação de P para todos os eventos em A.
Exemplo 1.6.19: Se {Ai } for uma partição enumerável de Ω e P (Ai ) = abi , i ≥ 1, então
quais as condições que a e b devem satisfazer para que P seja uma medida de probabilidade?
Autor: Leandro Chaves Rêgo
1.6. AXIOMAS DE KOLMOGOROV
19
Exemplo 1.6.20: Em um grupo de r pessoas qual a probabilidade de haver pelo menos duas
pessoas que façam aniversário no mesmo dia, assumindo que a distribuição de aniversários
é uniforme ao longo do ano e desprezando a existência de anos bissextos?
Solução: Para determinar esta probabilidade, vamos utilizar a probabilidade clássica. O
número de resultados possíveis para os aniversários de r pessoas é 365r . O número de casos
possíveis onde todas as pessoas fazem aniversário em dias diferentes é dado por 365 × 364 ×
· · · × (365 − (r − 1)). Portanto, o número de casos possíveis onde pelo menos duas pessoas
fazem aniversário no mesmo dia é a diferença entre o número total de aniversários possíveis
e o número de casos onde as pessoas têm aniversários em datas diferentes, ou seja, é igual a
365r − 365 × 364 × · · · × (365 − (r − 1)).
Logo, a probabilidade deste evento é:
1−
365 × 364 × · · · × (365 − (r − 1))
.
365r
Para r = 23, temos que essa probabilidade é aproximadamente igual a 0, 51. E para r = 50,
essa probabilidade é igual a 0, 97.
Exemplo 1.6.21: Em uma loteria de N números há um só prêmio. Salvador compra n
(1 < n < N ) bilhetes para uma só extração e Sílvio compra n bilhetes, um para cada uma
de n extrações. Qual dos dois jogadores têm mais chances de ganhar algum prêmio?
Solução: A probabilidade de Salvador ganhar algum prêmio é Nn . O número total de
n extrações possíveis é N n . O número de casos onde Sílvio não ganha nenhum prêmio é
(N − 1)n , logo o número de casos onde Sílvio ganha algum prêmio é igual a N n − (N − 1)n .
n
.
Logo, a probabilidade de Sílvio ganhar algum prêmio é 1 − (NN−1)
n
Vamos provar por indução que Salvador tem mais chance de ganhar, ou seja, Nn > 1 −
(N −1)n
, que equivale a
Nn
(N − 1)n
n
>1− .
n
N
N
Para n = 2, temos:
(N − 1)2
2
1
2
=1−
+ 2 >1− .
2
N
N
N
N
Suponha que para n = k, temos que
k
(N − 1)k
>1− .
k
N
N
Multiplicando esta expressão por
N −1
,
N
obtemos:
(N − 1)k+1
N −1
k
1
k
k
k+1
>(
)(1 − ) = 1 −
−
+ 2 >1−
.
k+1
N
N
N
N
N
N
N
Exemplo 1.6.22: Doze pessoas são divididas em três grupos de 4. Qual é a probabilidade
de duas determinadas dessas pessoas ficarem no mesmo grupo?
Autor: Leandro Chaves Rêgo
1.6. AXIOMAS DE KOLMOGOROV
20
Solução:
O número total de divisões de doze pessoas em 3 grupos de 4 é igual a
(12)(
)( )
8 4
.
Vamos
agora contar o número de casos favoráveis ao nosso evento. Existem
4
4 4
3 opções de escolhermos em qual grupo as duas pessoas determinadas podem ficar. Das 10
pessoas restantes,
temos que escolher mais (duas
( )
)( )para estarem neste grupo, o que podemos
8 4
fazer de 10
maneiras
diferentes.
E
temos
maneiras diferentes de dividir as outras 8
2
4 4
pessoas nos dois grupos restantes. Portanto, a probabilidade de duas determinadas pessoas
ficarem no mesmo grupo é:
( )(8)(4)
3 10
3
(122)(84)(44) = .
11
4
4 4
Exemplo 1.6.23 : Suponha que temos em uma sala n mães cada uma com um filho.
Suponha formemos duplas aleatoriamente, onde cada dupla contém uma mãe e um filho,
qual a probabilidade de que pelo menos uma mãe forme uma dupla com seu próprio filho?
Solução: Seja Ai o evento que a i-ésima mãe forma dupla com seu filho. Queremos
determinar
P (∪ni=1 Ai ).
Vamos calcular esta probabilidade utilizando a fórmula da inclusão exclusão. Note que:
(n − 1)!
1
= para todo i ∈ {1, 2, . . . , n}
n!
n
(n − 2)!
1
P (Ai ∩ Aj ) =
=
para i ̸= j
n!
n(n − 1)
P (Ai ) =
e em geral, para um grupo I ∈ {1, 2, . . . , n} de mães temos que
P (∩i∈I Ai ) =
Como existem
(
)
n
||I||
(n − ||I||)!
.
n!
grupos de mães com cardinalidade ||I||, temos que
P (∪ni=1 Ai )
=
n
∑
i=1
=
n
∑
i=1
(−1)i+1
i+1
(−1)
( )
n (n − i)!
i
n!
1
i!
Note que quando n → ∞, temos que esta probabilidade tende a 1 − 1e .
Exemplo 1.6.24: Demonstre que se P (Ai ) = 1 para i = 1, 2, . . ., então P (∩∞
i=1 Ai ) = 1.
c
)
=
1−P
(A
)
=
0.
Logo,
pela
desigualdade
Solução: Como P (Ai ) = 1,
temos
que
P
(A
i
i
∑∞
c
∞
c
c
∞
de Boole, temos P (∪i=1 Ai ) ≤ i=1 P (Ai ) = 0. Logo, P (∪i=1 Ai ) = 0. Portanto, como pela
c
∞
∞
c c
∞
Lei de De’Morgan, ∩∞
i=1 Ai = (∪i=1 Ai ) , temos que P (∩i=1 Ai ) = 1 − P (∪i=1 Ai ) = 1.
Exemplo 1.6.25: Demonstre: se A1 , A2 , . . . e B1 , B2 , . . . são eventos aleatórios do mesmo
espaço de probabilidade tais que P (An ) → 1 e P (Bn ) → p, então P (An ∩ Bn ) → p.
Autor: Leandro Chaves Rêgo
1.6. AXIOMAS DE KOLMOGOROV
21
Solução: Note que
P (An ∩ Bn ) = 1 − P ((An ∩ Bn )c ) = 1 − P (Acn ∪ Bnc )
≥ 1 − P (Acn ) − P (Bnc ) = P (An ) + P (Bn ) − 1.
(1.1)
Como P (Bn ) ≤ P (An ∩ Bn ) ≤ P (An ) + P (Bn ) − 1, P (An ) + P (Bn ) − 1 → p e P (Bn ) → p,
pelo teorema do confronto (ou sanduíche), temos que P (An ∩ Bn ) → p.
Autor: Leandro Chaves Rêgo
Capítulo 2
Probabilidade Condicional
2.1
Probabilidade Condicional
Como vimos no capítulo anterior, existem várias possíveis interpretações de probabilidade.
Por exemplo, pode-se interpretar probabilidade de um evento A como um limite das freqüências relativas de ocorrência do evento A em realizações independentes de um experimento.
Por outro lado, a interpretação subjetiva de probabilidade associa a probabilidade de um
evento A com o grau de crença pessoal que o evento A ocorrerá. Em ambos os casos, probabilidade é baseada em informação e conhecimento. Revisão desta base de informação ou
conhecimento pode levar a revisão do valor da probabilidade. Em particular, conhecimento
que determinado evento ocorreu pode influenciar na probabilidade dos demais eventos.
Considerando-se a interpretação freqüentista de probabilidade, suponha que estejamos
interessados em saber qual a probabilidade de um dado evento A, visto que sabe-se que um
dado evento B ocorreu. Suponha que realizasse um experimento n vezes das quais o evento
A (resp., B e A ∩ B) ocorre NA (resp., NB > 0 e NA∩B ) vezes. Seja rA = NA /n a freqüência
relativa do evento A nestas n realizações do experimento. A probabilidade condicional de
A dado que sabe-se que B ocorreu segundo esta interpretação freqüentista, sugere que ela
deve ser igual ao limite das freqüências relativas condicionais do evento A dado o evento B,
isto é, ela deve ser o limite da razão NA∩B /NB quando n tende ao infinito. É fácil provar
que esta razão é igual a rA∩B /rB , que por sua vez segundo a interpretação freqüentista de
probabilidade é aproximadamente igual a P (A ∩ B)/P (B) para valores grandes de n.
Considerando-se uma interpretação mais subjetiva suponha que a incerteza de um agente
é descrita por uma probabilidade P em (Ω, A) e que o agente observa ou fica sabendo que
o evento B ocorreu. Como o agente deve atualizar sua probabilidade P (·|B) de modo a
incorporar esta nova informação? Claramente, se o agente acredita que B é verdadeiro,
então parece razoável requerer que
P (B c |B) = 0
(2.1)
Em relação aos eventos contidos em B, é razoável assumir que sua chance relativa permaneça inalterada se tudo que o agente descobriu foi que o evento B ocorreu, ou seja, se
22
2.1. PROBABILIDADE CONDICIONAL
23
A1 , A2 ⊆ B com P (A2 ) > 0, então
P (A1 )
P (A1 |B)
=
P (A2 )
P (A2 |B)
(2.2)
Segue que (2.1) e (2.2) determinam completamente P (·|B) se P (B) > 0.
Teorema 2.1.1: Se P (B > 0) e P (·|B) é uma medida de probabilidade em Ω que satisfaz
(2.1) e (2.2), então
P (A ∩ B)
P (A|B) =
.
P (B)
Prova: Como P (·|B) é uma medida de probabilidade e satisfaz P (B c |B) = 0, nós temos
que P (B|B) = 1 − P (B c |B) = 1. Considerando A1 = A e A2 = B em (2.2), temos
(A)
então P (A|B) = PP (B)
para A ⊆ B. Se A não é um subconjunto de B, temos que A =
c
(A ∩ B) ∪ (A ∩ B ). Como (A ∩ B) e (A ∩ B c ) são eventos disjuntos, temos P (A|B) =
P (A ∩ B|B) + P (A ∩ B c |B). Como A ∩ B c ⊆ B c e P (B c |B) = 0, temos que P (A ∩ B c |B) = 0.
Como A ∩ B ⊆ B, usando o caso anterior
P (A ∩ B)
P (A|B) = P (A ∩ B|B) =
.
P (B)
Deste modo as interpretações freqüentista e subjetivista de probabilidade justificam a
seguinte definição.
Definição 2.1.2: Seja (Ω, A, P ) um espaço de probabilidade. Se A, B ∈ A e P (B) > 0 a
probabilidade condicional de A dado B é definida por
P (A|B) =
P (A ∩ B)
P (B)
Vamos provar que para um evento fixo B que satisfaz P (B) > 0, P (·|B) satisfaz os
axiomas K1-K4 acima e realmente é uma medida de probabilidade. Para provar K1, note
que para todo A ∈ A, como P (A ∩ B) ≥ 0, nós temos
P (A ∩ B)
≥ 0.
P (B)
Para provar K2, note que Ω ∩ B = B, então
P (Ω ∩ B)
P (B)
P (Ω|B) =
=
= 1.
P (B)
P (B)
P (A|B) =
Finalmente, para provar K4′ (que implica K3), note que se A1 , A2 , . . . são mutuamente
exclusivos A1 ∩ B, A2 ∩ B, . . . também o são, então
P (∪i (Ai ∩ B))
P ((∪i Ai ) ∩ B)
=
P (∪i Ai |B) =
P (B)
P (B)
∑
∑
P (Ai ∩ B)
= i
=
P (Ai |B).
P (B)
i
A probabilidade condicional também satisfaz as seguintes propriedades:
Autor: Leandro Chaves Rêgo
2.1. PROBABILIDADE CONDICIONAL
24
1. P (B|B) = 1;
2. P (A|B) = P (A ∩ B|B);
3. se A ⊇ B, então P (A|B) = 1;
4. P (A ∩ B|C) = P (A|B ∩ C)P (B|C).
Fazendo C = Ω na propriedade 4 acima, temos que:
P (A ∩ B) = P (A|B)P (B).
Utilizando indução matemática, pode-se facilmente provar que
P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 )P (A2 |A1 ) . . . P (An |A1 ∩ . . . ∩ An−1 ).
Um método de se obter uma probabilidade (incondicional) de uma probabilidade condicional é utilizando o Teorema da Probabilidade Total. Antes de enunciar este teorema
precisamos relembrar o que é uma partição do espaço amostral. Uma seqüência de eventos A1 , A2 , A3 , . . . é uma partição do espaço amostral Ω se estes eventos são mutuamente
exclusivos e contém todos os elementos de Ω (∪i Ai = Ω).
Teorema 2.1.3:
todo A ∈ A
Seja a seqüência de eventos B1 , B2 , . . . uma partição de Ω, então para
∑
P (A|Bi )P (Bi )
P (A) =
i:P (Bi )̸=0
Prova:
Como B1 , B2 , . . . é uma partição de Ω, temos que
A = A ∩ Ω = A ∩ (∪i Bi ) = ∪i (A ∩ Bi ).
Como os eventos Bi ’s são mutuamente exclusivos, os eventos (A ∩ Bi )’s também são
mutuamente exclusivos. Então axioma K3 implica que
P (A) = P (∪i (A ∩ Bi )) =
=
∑
i:P (Bi )̸=0
∑
P (A ∩ Bi )
i
P (A ∩ Bi ) =
∑
P (A|Bi )P (Bi ).
i:P (Bi )̸=0
Se nós interpretarmos a partição B1 , B2 , . . . como possíveis causas e o evento A corresponda a um efeito particular associado a uma causa, P (A|Bi ) especifica a relação estocástica
entre a causa Bi e o efeito A.
Por exemplo, seja {D, Dc } uma partição do espaço amostral, onde o evento D significa
que um dado indivíduo possui uma certa doença. Seja A o evento que determinado teste para
Autor: Leandro Chaves Rêgo
2.1. PROBABILIDADE CONDICIONAL
25
o diagnóstico da doença deu positivo. Então, P (A|Dc ) descreve a probabilidade do exame dá
positivo mesmo que o paciente esteja saudável, é a chamada probabilidade de falso positivo.
P (Ac |D) é a probabilidade do exame dá negativo mesmo que o paciente esteja doente, é a
chamada probabilidade de falso negativo. Estas probabilidades determinam a qualidade do
teste, quanto menores as probabilidades de falso negativo e falso positivo melhor a qualidade
do teste. Caso as probabilidades P (D), P (A|D), P (A|Dc ) sejam conhecidas pode-se usando o
Teorema da Probabilidade Total obter a probabilidade incondicional de determinado exame
dar positivo P (A). Porém geralmente, o que se busca é saber que dado que o resultado de
um exame deu positivo qual a probabilidade de que o indivíduo esteja doente. Pode-se obter
esta probabilidade utilizando a famosa fórmula de Bayes:
P (D|A) =
P (A ∩ D)
P (A|D)P (D)
=
.
c
P (A ∩ D) + P (A ∩ D )
P (A|D)P (D) + P (A|Dc )P (Dc )
Para outro exemplo, suponha que os eventos B1 , B2 , . . . formam uma partição do espaço amostral, e os eventos Bi ťs descrevem diferentes mensagens emitidas em um sistema
de comunicações e A descreve uma mensagem recebida pelo sistema. P (A|Bi ) determina
a probabilidade que a mensagem Bi seja emitida e a mensagem A seja recebida por este
sistema. Essas probabilidades condicionais especificam o modelo do canal de comunicações.
Caso, as probabilidades P (Bi )’s de cada mensagem ser enviada e as probabilidades condicionais que descrevem o canal de comunicação sejam conhecidas pode-se usando o Teorema
da Probabilidade Total obter a probabilidade incondicional que determinada mensagem A
seja recebida. Porém geralmente, o que se busca é saber que dado uma certa mensagem foi
recebida (efeito) A qual a probabilidade de cada uma das mensagens Bi terem sido as mensagens enviadas. Podem-se obter estas probabilidades utilizando a forma geral da famosa
fórmula de Bayes:
P (A ∩ Bi )
P (A ∩ Bi )
P (Bi |A) = ∑
=∑
j P (A ∩ Bj )
j:P (Bj )̸=0 P (A ∩ Bj )
=∑
P (A|Bi )P (Bi )
.
j:P (Bj )̸=0 P (A|Bj )P (Bj )
É fácil de provar esta fórmula usando o Teorema da Probabilidade Total. As probabilidades P (Bi ) são usualmente chamadas de probabilidades a priori e as probabilidades
condicionais P (Bi |A) são chamadas de probabilidades a posteriori. O seguinte exemplo
ilustra uma aplicação da fórmula de Bayes.
Exemplo 2.1.4: Considere uma imagem formada por n × m pixels com a k-ésima linha
contendo dk (≤ m) pixels defeituosos. No primeiro estágio do experimento uma linha é
escolhida ao acaso e nós não sabemos qual foi a escolha. Nós então examinamos um pixel
selecionada ao acaso nesta linha e descobrimos que o pixel é defectivo (chamamos este evento
de D). Qual a probabilidade de que este pixel defeituoso esteja na linha k? Seja R = k o
evento que este pixel pertencia a k-ésima linha da imagem. A fórmula de Bayes nos permite
determinar que dado que
dk
1
e P (D|R = k) = ,
P (R = k) =
n
m
Autor: Leandro Chaves Rêgo
2.1. PROBABILIDADE CONDICIONAL
26
nós temos que
P (R = k|D) =
1 dk
nm
∑n 1 d i
i=1 n m
dk
= ∑n
i=1
di
.
Então, mesmo que a linha tenha inicialmente sido escolhida ao acaso, dado o evento que
encontramos ao acaso um pixel defectivo nesta linha, agora é mais provável que seja uma
linha contendo um número grande de pixels defectivos dk .
Exemplo 2.1.5: Uma urna contém 4 bolas brancas e 6 bolas pretas. Sacam-se, sucessivamente e sem reposição, duas bolas dessa urna. Determine a probabilidade da primeira bola
ser branca sabendo que a segunda bola é branca.
Solução: Sejam B1 e B2 os eventos a primeira bola é branca e a segunda bola é branca,
respectivamente. Queremos calcular P (B1 |B2 ). Utilizando a fórmula de Bayes, temos
P (B1 |B2 ) =
P (B2 |B1 )P (B1 )
.
P (B2 |B1 )P (B1 ) + P (B2 |B1c )P (B1c )
Mas P (B2 |B1 ) = 39 , P (B2 |B1c ) = 94 , P (B1 ) =
P (B1 |B2 ) =
3
9
·
3
9
4
10
4
10
e P (B1c ) =
4
· 10
+ 49 ·
6
10
=
2
15
2
5
6
.
10
Logo,
1
= .
3
Exemplo 2.1.6: Se P (C|D) = 0, 4 e P (D|C) = 0, 5, que evento é mais provável C ou D?
Solução:
Exemplo 2.1.7: Se P (E) = 0, 4 e P (F ) = 0, 7, o que pode-se concluir sobre P (E|F )?
Solução: Por definição, temos que:
P (E|F ) =
P (E ∩ F )
.
P (F )
Porém, sabemos que max(P (E) + P (F ) − 1, 0) ≤ P (E ∩ F ) ≤ min(P (E), P (F )). Logo,
0, 1 ≤ P (E ∩ F ) ≤ 0, 4, portanto
0, 1
0, 4
≤ P (E|F ) ≤
.
0, 7
0, 7
Exemplo 2.1.8: (Paradoxo de Monty Hall) Monty Hall foi um popular apresentador de
programa de jogos em TV cujo jogo começava mostrando ao participante 3 portas fechadas
d1 , d2 , d3 , e atrás de apenas uma delas havia um prêmio valioso. O participante selecionava
uma porta, por exemplo, d1 , mas antes que a porta fosse aberta, Monty Hall, que sabia em
que porta estava o prêmio, por exemplo, d2 , abria a porta restante d3 , que não continha
o prêmio. O participante tinha então permissão para ficar com sua porta original, d1 , ou
escolher a outra porta fechada. A pergunta é se é melhor ficar com a porta original ou trocar
de porta. Vamos agora utilizar a fórmula de Bayes para analisar este problema. Seja G uma
porta escolhida aleatoriamente para conter o prêmio; Y a porta que o participante escolhe
primeiro; e M a porta que Monty Hall abre. O participante não tem nenhum conhecimento
Autor: Leandro Chaves Rêgo
2.1. PROBABILIDADE CONDICIONAL
27
a priori sobre a localização do prêmio, ou seja ele considera todas as portas equiprováveis, e
isto pode ser modelado por:
1
P (G = di |Y = dj ) = ;
3
todas as portas tem a mesma probabilidade de conter o prêmio não importa qual porta o
participante escolhe. Se o participante escolher uma porta que não contém o prêmio, Monty
Hall necessariamente terá de abrir a porta que não contém o prêmio, isto pode ser modelado
por:
P (M = di1 |Y = di2 , G = di3 ) = 1,
onde i1 , i2 , i3 ∈ {1, 2, 3} e são distintos. Se o participante escolher corretamente, por exemplo,
Y = G = di2 , então assumimos que Monty Hall escolhe aleatoriamente entre as outras duas
outras portas:
1
P (M = di1 |Y = G = di2 ) = , para di1 ̸= di2 .1
2
Para determinar se o participante deve trocar de porta, devemos calcular
P (G = d1 , Y = d2 , M = d3 )
P (G = d1 |Y = d2 , M = d3 ) =
P (Y = d2 , M = d3 )
P (M = d3 |G = d1 , Y = d2 )P (G = d1 |Y = d2 )P (Y = d2 )
=
P (M = d3 |Y = d2 )P (Y = d2 )
P (M = d3 |G = d1 , Y = d2 )P (G = d1 |Y = d2 )
=
P (M = d3 |Y = d2 )
1/3
=
P (M = d3 |Y = d2 )
Para determinar o valor de P (M = d3 |Y = d2 ) utilizamos o Teorema da Probabilidade Total
e a definição de probabilidade condicional:
P (Y = d2 , M = d3 )
P (M = d3 |Y = d2 ) =
P (Y = d2 )
P (Y = d2 , M = d3 , G = d1 ) + P (Y = d2 , M = d3 , G = d2 ) + P (Y = d2 , M = d3 , G = d3 )
=
P (Y = d2 )
P (M = d3 |Y = d2 , G = d1 )P (G = d1 |Y = d2 )P (Y = d2 )
=
P (Y = d2 )
P (M = d3 |Y = d2 , G = d2 )P (G = d2 |Y = d2 )P (Y = d2 )
+
P (Y = d2 )
P (M = d3 |Y = d2 , G = d3 )P (G = d3 |Y = d2 )P (Y = d2 )
+
P (Y = d2 )
= P (M = d3 |Y = d2 , G = d1 )P (G = d1 |Y = d2 )
+P (M = d3 |Y = d2 , G = d2 )P (G = d2 |Y = d2 )
+P (M = d3 |Y = d2 , G = d3 )P (G = d3 |Y = d2 )
1 1 1
1
=1· + · +0= .
3 2 3
2
1
A solução depende como resolvemos este caso.
Autor: Leandro Chaves Rêgo
2.1. PROBABILIDADE CONDICIONAL
28
Logo, P (G = d1 |Y = d2 , M = d3 ) = 23 , e o participante deve trocar de porta de sua escolha
original d2 para d1 !
Exemplo 2.1.9: Seja D o evento que um indivíduo selecionado ao acaso de uma população tem uma doença particular, Dc seu complemento. A probabilidade que um indivíduo
selecionado ao acaso nesta população tenha determinada dença é pd . Existe um teste para
diagnóstico desta doença que sempre acusa presença da doença quando o indivíduo tem a
doença. Contudo, quando o indivíduo não tem a doença, o teste reporta falsamente que
o indivíduo tem a doença com probabilidade pt . Seja T P o evento que o teste reporta
positivamente que o indivíduo tem a doença. Formalmente, temos:
P (D) = pd , P (T P |D) = 1, P (T P |Dc ) = pt .
Um indivíduo deve estar interessado em saber a probabilidade P (D|T P ) que ele tenha a
doença dado que o teste deu positivo. Se, por exemplo, a doença for rara e pd = 0, 001, e o
teste reportar falsamente com probabilidade pequena pt = 0, 05, veremos que apesar desta
pequena probabilidade do teste da um resultado errado, a probabilidade do indivíduo ter a
doença é pequena. Pela fórmula de Bayes
P (D|T P ) =
P (T P |D)P (D)
pd
=
= 0, 02.
c
c
P (T P |D)P (D) + P (T P |D )P (D )
pd + pt (1 − pd )
Embora probabilidade condicional seja bastante útil, ela sofre de alguns problemas, em
particular quando se quer tratar de eventos de probabilidade zero. Tradicionalmente, se
P (B) = 0, então P (A|B) não é definida. Isto leva a um número de dificuldades filosóficas em relação a eventos com probabilidade zero. São eles realmente impossíveis? Caso
contrário, quão improvável um evento precisa ser antes de ele ser atribuído probabilidade
zero? Deve um evento em algum caso ser atribuído probabilidade zero? Se existem eventos
com probabilidade zero que não são realmente impossíveis, então o que significa condicionar em eventos de probabilidade zero? Por exemplo, considere o espaço de probabilidade
([0, 1], B, µ) onde B é a σ-álgebra de Borel restrita a eventos contidos em [0, 1] e µ é uma
medida de probabilidade na qual todo intervalo em [0, 1] possui probabilidade igual ao seu
comprimento. Seja B = {1/4, 3/4} e A = {1/4}. Como µ(B) = 0, µ(A|B) não é definida.
Porém parece razoável assumir que neste caso µ(A|B) = 1/2 já que µ intuitivamente implica
que todos os estados são equiprováveis, mas a definição formal de probabilidade condicional
não nos permite obter esta conclusão.
Uma maneira de contornar alguns destes problemas é utilizar probabilidades não-padrão,
que envolve conceitos de análise matemática não-padrão, que utiliza noções de infinitesimais.
Outro modo é considerar probabilidades condicionais (e não incondicionais) como a noção
fundamental. Uma medida de probabilidade condicional tem pares de eventos A, B como
argumentos. Formalmente, a medida de probabilidade condicional é definida em uma álgebra
de Popper.
Definição 2.1.10: Uma álgebra de Popper sobre Ω é um conjunto A × A′ de subconjuntos
de Ω × Ω′ tal que (a) A é uma álgebra sobre Ω, (b) A′ é um subconjunto não-vazio de A,
e (c) A′ é fechado em relação a superconjuntos em A, ou seja, se B ∈ A′ , B ⊆ B ′ , B ′ ∈ A,
então B ′ ∈ A′ .
Autor: Leandro Chaves Rêgo
2.2. INDEPENDÊNCIA
29
Pode-se então definir uma medida de probabilidade condicional da seguinte maneira:
Definição 2.1.11: Uma espaço de probabilidade condicional é uma tupla (Ω, A, A′ , µ) tal
que A × A′ é uma álgebra de Popper sobre Ω e µ : A × A′ → [0, 1] satisfaz as seguintes
condições:
CP1. µ(A|A) = 1 se A ∈ A′ .
CP2. µ(A1 ∪ A2 |B) = µ(A1 |B) + µ(A2 |B) se A1 ∩ A2 = ∅, A1 , A2 ∈ A e B ∈ A′ .
CP3. µ(A1 ∩ A2 |A3 ) = µ(A1 |A2 ∩ A3 ) × µ(A2 |A3 ) se A2 ∩ A3 ∈ A′ e A1 ∈ A.
2.2
Independência
O que exatamente significa que dois eventos são independentes? Intuitivamente, isto significa que eles não têm nada haver um com o outro, eles são totalmente não relacionados; a
ocorrência de um não tem nenhuma influência sobre o outro. Por exemplo, suponha que duas
diferentes moedas são lançadas. A maioria das pessoas viria os resultados desses lançamentos
como independentes. Portanto, a intuição por trás da frase “o evento A é independente do
evento B” é que nosso conhecimento sobre a tendência para A ocorrer dado que sabemos que
B ocorreu não é alterada quando ficamos sabendo que B ocorreu. Então, usando probabilidades condicionais podemos formalizar esta intuição da seguinte forma, A é independente
de B se P (A|B) = P (A). Mas usando a definição de probabilidade condicional, chega-se a
seguinte conclusão A é independente de B se P (A ∩ B) = P (A)P (B). Como esta última
expressão é definida inclusive para o caso de P (B) = 0, ela é a expressão adotada como a
definição de independência entre eventos.
Definição 2.2.1: O evento A é independente do evento B se P (A ∩ B) = P (A)P (B).
Note que esta definição de independência implica que independência é um conceito simétrico em teoria da probabilidade, isto é, A é independente de B se e somente se B é
independente de A. Note que esta definição também implica que eventos A e B são independentes se P (A) = 0 ou P (B) = 0, o que pode gerar algumas conclusões não intuitivas se
de fato P (A) = 0 ou P (B) = 0. Por exemplo, se P (A) = 0, então A é independente dele
mesmo, porém A certamente não é não relacionado consigo mesmo. Similarmente, é fácil
provar que se P (A) = 1, A é independente dele mesmo. O seguinte teorema prova que estes
são os únicos casos em que um evento é independente dele mesmo.
Teorema 2.2.2: A é independente dele mesmo se e somente se P (A) = 0 ou P (A) = 1.
Prova:
P (A ∩ A) = P (A) = P (A)P (A) ⇔ P (A) = 0 ou P (A) = 1.
Intuitivamente, se A é independente de B o fato que B não ocorreu, ou seja que B c
ocorreu, não deve alterar a probabilidade de A. Portanto, é de se esperar que se A e B são
independentes, então A e B c também são. O seguinte teorema prova que esta intuição é
verdadeira.
Autor: Leandro Chaves Rêgo
2.2. INDEPENDÊNCIA
Teorema 2.2.3:
também o são.
30
Se A e B são eventos independentes, A e B c (resp., Ac e B, Ac e B c )
Prova: Note que
A = A ∩ Ω = A ∩ (B ∪ B c ) = (A ∩ B) ∪ (A ∩ B c ).
Então, como A ∩ B e A ∩ B c são mutuamente exclusivos, axioma K3 implica que
P (A) = P (A ∩ B) + P (A ∩ B c ).
Como A e B são independentes, nós temos
P (A) = P (A)P (B) + P (A ∩ B c ).
Rearrajando os termos e utilizando o fato que P (B c ) = 1 − P (B), temos P (A ∩ B c ) =
P (A)P (B c ), como queríamos demonstrar.
O conceito de independência também se aplica a uma coleção arbitrária de eventos
{Ai }i∈I , onde I é um conjunto de índices. Neste caso, têm-se duas definições.
Definição 2.2.4: Uma coleção de eventos {Ai }i∈I é independente par a par se para todo
i ̸= j ∈ I, Ai e Aj são eventos independentes.
Definição 2.2.5: Uma seqüência finita de eventos A1 , A2 , . . . , An , n ≥ 1, é mutuamente
independente se para todo I ⊆ {1, . . . , n},
∏
P (∩i∈I Ai ) =
P (Ai )
i∈I
E uma coleção de eventos {Ai }i∈I é mutuamente independente se para todo J ⊆ I finito,
{Ai }i∈J é mutuamente independente.
Considere os seguintes exemplos que ilustram o conceito de independência.
Exemplo 2.2.6: Se Ω = {1, 2, 3, 4} e P ({w}) = 1/4, então A = {1, 2}, B = {1, 3}, e
C = {2, 3} são eventos independentes par a par. Pode-se verificar isto pelo fato que
P (A ∩ B) = P ({1}) =
1
11
=
= P (A)P (B).
4
22
Similarmente, pode-se provar o mesmo resultado para os outros pares. Contudo, a probabilidade
1
P (A ∩ B ∩ C) = P (∅) = 0 ̸= P (A)P (B)P (C) = .
8
Então, A, B, e C não são mutuamente independentes.
Exemplo 2.2.7: Certo experimento consiste em lançar um dado equilibrado duas vezes,
independentemente. Dado que os dois números sejam diferentes, qual é a probabilidade
condicional de
Autor: Leandro Chaves Rêgo
2.2. INDEPENDÊNCIA
31
(a) pelo menos um dos números ser 6,
(b) a soma dos números ser 8?
Solução: Para parte (a), note que existem 30 resultados possíveis para os lançamentos
do dado de modo que o mesmo número não se repita, dos quais 10 o número 6 ocorre.
Portanto, esta probabilidade é igual a 1/3.
Para parte (b), note que existem 4 resultados possíveis que somam 8 dado que os números
são diferentes, logo esta probabilidade é igual a 4/30.
Exemplo 2.2.8: Suponha que um determinado experimento é realizado repetidas vezes de
forma independente e observa-se a ocorrência de determinado evento A que tem probabilidade
p. Qual é a probabilidade que A occorra n vezes antes de Ac ocorrer m vezes?
Solução: Note que o evento A ocorra n vezes antes de Ac ocorrer m vezes é equivalente
ao evento A ocorrer pelo menos n vezes nas primeiras n + m − 1 repetições do experimento.
Como a ordem de ocorrência do evento A nas repetições não é importante e as repetiç es são
independentes, temos que o evento A ocorre k vezes em n + m − 1 repetições do experimento
tem probabilidade igual a:
(
)
n+m−1 k
P (k ocorrências de A em n + m − 1 repetições) =
p (1 − p)n+m−1−k .
k
e, então,
c
P (n ocorrências de A antes de m ocorrências de A ) =
n+m−1
∑ (
)
n+m−1 k
p (1−p)n+m−1−k .
k
k=n
Exemplo 2.2.9: Assuma que A1 , . . . , An são eventos mutuamente independentes e que
P (Ai ) = pi . Nós calculamos as probabilidades dos seguintes eventos:
• O evento A é o evento que todos estes eventos ocorrem, então
P (A) =
P (∩ni=1 Ai )
=
n
∏
P (Ai ) =
i=1
n
∏
pi
i=1
• O evento B é o evento que nenhum desses eventos ocorre, então
P (B) =
P (∩ni=1 Aci )
=
n
∏
P (Aci )
=
i=1
n
∏
(1 − pi )
i=1
• O evento C é o evento que pelo menos um desses eventos ocorre, então C = B c
P (C) = P (B ) = 1 − P (B) = 1 −
c
n
∏
(1 − pi )
i=1
Autor: Leandro Chaves Rêgo
2.2. INDEPENDÊNCIA
32
Exemplo 2.2.10 : João e José disputam um jogo com uma moeda equilibrada. Cada
jogador lança a moeda duas vezes e vence o jogo aquele que primeiro obtiver dois resultados
iguais. João começa jogando e se não vencer passa a moeda para José e continuam alternando
jogadas. Qual a probabilidade de João vencer o Jogo?
Solução: Seja Ak o evento dois resultados iguais são obtidos na k-ésima tentativa. Note
que P (Ak ) = 12 . Seja Bk o evento João ganha na sua k-ésima jogada. Então,
B1 = A1 ; B2 = Ac1 ∩ Ac2 ∩ A3 ; B3 = Ac1 ∩ Ac2 ∩ Ac3 ∩ Ac4 ∩ A5 ,
em geral,
Bk = Ac1 ∩ Ac2 ∩ · · · ∩ Ac2k−2 ∩ A2k−1 .
Portanto,
1
P (Bk ) = P (Ac1 ∩ Ac2 ∩ · · · ∩ Ac2k−2 ∩ A2k−1 ) = P (Ac1 )P (Ac2 ) · · · P (Ac2k−2 )P (A2k−1 ) = ( )2k−1 ,
2
onde a penúltima igualdade se deve ao fato dos lançamentos serem independentes. Logo,
P (João vencer) =
P (∪∞
k=1 Bk )
∞
∑
1
2
( )2k−1 = .
P (Bk ) =
=
2
3
k=1
k=1
∞
∑
Autor: Leandro Chaves Rêgo
Capítulo 3
Variável Aleatória
3.1
Introdução
Suponha que uma moeda é lançada cinco vezes. Qual é o número de caras? Esta quantidade
é o que tradicionalmente tem sido chamada de variável aleatória. Intuitivamente, é uma
variável porque seus valores variam, dependendo da sequência de lançamentos da moeda
realizada; o adjetivo “aleatória” é usado para enfatizar que o seu valor é de certo modo
incerto. Formalmente, contudo, uma variável aleatória não é nem “aleatória” nem é uma
variável.
Definição 3.1.1: Seja (Ω, A, P ) um espaço de probabilidade. Uma função X : Ω → R é
chamada de variável aleatória se para todo evento Boreliano B, X −1 (B) ∈ A.
Por definição, temos que X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} é o conjunto de elementos
do espaço amostral cuja imagem segundo X está em B. Nós recordamos que um evento
Boreliano é qualquer evento pertencente à σ-álgebra de Borel, onde a σ-álgebra de Borel é a
menor σ-álgebra contendo todos os intervalos.
Para determinar se uma dada função X de Ω para os reais é uma variável aleatória
usando a definição, precisa-se checar se para todo evento Boreliano B, a imagem inversa de
B de acordo com X faz parte da σ-álgebra A. O próximo teorema prova que na verdade, só
precisamos checar que a imagem inversa de intervalos da forma (−∞, x] pertence à σ-álgebra
A.
Teorema 3.1.2: Seja (Ω, A) um espaço mensurável. Uma função real X : Ω → R é uma
variável aleatória se e somente se
X −1 ((−∞, λ]) = {w : X(w) ≤ λ} ∈ A, ∀λ ∈ R.
Prova:
Para provar este teorema, nós precisamos de uma série de Lemas.
Lema 3.1.3: Seja B a σ-álgebra de Borel, então X −1 (B) = {X −1 (B) : B ∈ B} é uma
σ-álgebra de eventos de Ω.
33
3.1. INTRODUÇÃO
34
Prova: Nós verificamos os três postulados para uma σ-álgebra:
(i) Ω ∈ X −1 (B).
Como R ∈ B, nós temos X −1 (R) = Ω ∈ X −1 (B).
(ii) Se A ∈ X −1 (B), então Ac ∈ X −1 (B).
Suponha que A ∈ X −1 (B), então existe A′ ∈ B tal que A = X −1 (A′ ). Como B é uma
σ-álgebra, temos que (A′ )c ∈ B. Logo, X −1 ((A′ )c ) ∈ X −1 (B). Como
X −1 ((A′ )c ) = (X −1 (A′ ))c ,
temos que Ac ∈ X −1 (B).
−1
(iii) Se A1 , A2 , . . . ∈ X −1 (B), então ∪∞
(B).
i=1 Ai ∈ X
Suponha que A1 , A2 , . . . ∈ X −1 (B), então existem A′1 , A′2 , . . . ∈ B tais que Ai =
′
X −1 (A′i ) para i ≥ 1. Como B é uma σ-álgebra, temos que ∪∞
i=1 Ai ∈ B. Logo,
−1
∞
′
−1
X (∪i=1 Ai ) ∈ X (B). Como
−1
′
∪∞
(A′i ) = X −1 (∪∞
i=1 X
i=1 Ai ),
−1
temos que ∪∞
(B).
i=1 Ai ∈ X
Dado qualquer classe de conjuntos C, denotamos por σ(C) a menor σ-álgebra contendo
C. Desta forma se B ′ = {(−∞, λ] : λ ∈ R}, então B = σ(B ′ ). O próximo lema prova um
resultado semelhante ao do lema anterior, porém mais forte.
Lema 3.1.4: X −1 (B) = σ(X −1 (B ′ )), isto é, a imagem inversa de eventos Borelianos é
igual a menor σ-álgebra contendo as imagens inversas dos eventos Borelianos.
Prova: De acordo com Lema 3.1.3, X −1 (B) é uma σ-álgebra. Como B′ ⊆ B, temos que
X −1 (B′ ) ⊆ X −1 (B). Então, por definição de menor σ-álgebra, temos que σ(X −1 (B′ )) ⊆
X −1 (B).
Para provar igualdade, definimos
F = {B ′ ⊆ R : X −1 (B ′ ) ∈ σ(X −1 (B′ ))}.
É fácil provar que F é uma σ-álgebra; nós omitimos os detalhes. Por definição, temos
que X −1 (F) ⊆ σ(X −1 (B ′ )) e B ′ ⊆ F . Como F é uma σ-álgebra, B = σ(B′ ) ⊆ F . Portanto,
X −1 (B) ⊆ X −1 (F) ⊆ σ(X −1 (B ′ )).
Autor: Leandro Chaves Rêgo
3.2. FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA
35
Agora nós podemos provar o teorema. Suponha que X −1 (B ′ ) ⊆ A. Por definição de
menor σ-álgebra, σ(X −1 (B ′ )) ⊆ A. Então, pelo Lema 3.1.4, X −1 (B) ⊆ A, o que implica que
X é uma variável aleatória.
Dada uma variável aleatória X, pode-se definir uma probabilidade induzida PX no espaço
mensurável (R, B) da seguinte maneira: para todo A ∈ B, definimos PX (A) = P (X −1 (A)).
Por definição de variável aleatória, tem-se que X −1 (A) ∈ A, então PX está bem definida.
Resta provar que PX satisfaz os axiomas K1, K2, e K4′ de probabilidade:
K1. PX (A) = P (X −1 (A)) ≥ 0.
K2. PX (R) = P (X −1 (R)) = P (Ω) = 1.
K4′ . Suponha que A1 , A2 , . . . são eventos Borelianos disjuntos. Então,
∑
∑
PX (∪i Ai ) = P (X −1 (∪i Ai )) = P (∪i X −1 (Ai )) =
P (X −1 (Ai )) =
PX (Ai ).
i
3.2
i
Função de Distribuição Acumulada
Para uma variável aleatória X, uma maneira simples e básica de descrever a probabilidade
induzida PX é utilizando sua função de distribuição acumulada.
Definição 3.2.1: A função de distribuição acumulada de uma variável aleatória X, representada por FX , é definida por
FX (x) = PX ((−∞, x]), ∀x ∈ R.
A função de distribuição acumulada FX satisfaz as seguintes propriedades:
F1. Se x ≤ y, então FX (x) ≤ FX (y).
x ≤ y ⇒ (−∞, x] ⊆ (−∞, y] ⇒ PX ((−∞, x]) ≤ PX ((−∞, y]) ⇒ FX (x) ≤ FX (y).
F2. Se xn ↓ x, então FX (xn ) ↓ FX (x).
Se xn ↓ x, então os eventos (−∞, xn ] são decrescentes e ∩n (−∞, xn ] = (−∞, x].
Logo, pela continuidade da medida de probabilidade, tem-se que PX ((−∞, xn ]) ↓
P ((−∞, x]), ou seja, FX (xn ) ↓ FX (x).
F3. Se xn ↓ −∞, então FX (xn ) ↓ 0, e se xn ↑ ∞, então FX (xn ) ↑ 1.
Se xn ↓ −∞, então os eventos (−∞, xn ] são decrescentes e ∩n (−∞, xn ] = ∅. Logo,
pela continuidade da medida de probabilidade, tem-se que PX ((−∞, xn ]) ↓ P (∅), ou
seja, FX (xn ) ↓ 0. Similarmente, se xn ↑ ∞, então os eventos (−∞, xn ] são crescentes
e ∪n (−∞, xn ] = IR. Logo, pela continuidade da medida de probabilidade, tem-se que
PX ((−∞, xn ]) ↑ P (Ω), ou seja, FX (xn ) ↑ 1.
Autor: Leandro Chaves Rêgo
3.2. FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA
36
Teorema 3.2.2: Uma função real G satisfaz F1–F3 se e somente se G é uma distribuição
de probabilidade acumulada.
Prova: A prova de que se G for uma distribuição de probabilidade acumulada, então G
satisfaz F1-F3 foi dada acima. A prova de que toda função real que satisfaz F1-F3 é uma
função de probabilidade acumulada é complexa envolvendo o Teorema da Extensão de Carathéodory. Nós apresentamos aqui um esquema de como a prova é feita. Primeiro define-se
PX ((−∞, x]) = FX (x), PX ((x, ∞)) = 1 − FX (x), e PX ((a, b]) = FX (b) − FX (a). Com esta
definição, considera-se a álgebra formada por união finita de intervalos e prova-se que PX
é σ-aditiva nesta álgebra. Finalmente, aplica-se o Teorema da Extensão de Carathéodory
para provar que PX pode ser estendida para todo evento Boreliano.
Observação 3.2.3: Uma função de distribuição pode corresponder a várias variáveis aleatórias no mesmo espaço de probabilidade (Ω, A, P ). Por exemplo, se X tem uma distribuição normal com parâmetros 0 e 1, então por simetria é fácil ver que −X também
distribuição normal com parâmetros 0 e 1. Consequentemente, FX = F−X . No entanto,
P (X = −X) = P (X = 0) = 0.
Condição F2 significa que toda função distribuição de probabilidade acumulada FX é
continua à direita. Ainda mais, como FX é não-decrescente e possui valores entre 0 e 1,
pode-se provar que ela tem um número enumerável de descontinuidades do tipo salto. Pela
continuidade à direita , o salto no ponto x é igual a
FX (x) − FX (x− ) = FX (x) − lim F (x −
n→∞
= PX ((−∞, x]) − lim PX ((−∞, x −
n→∞
1
)
n
1
])
n
1
= lim PX ((x − , x]).
n→∞
n
Como a sequência de eventos (x − n1 , x] é decrescente e ∩n (x − n1 , x] = {x}. Temos que
{x} é Boreliano e
PX (x) = FX (x) − FX (x− ).
Ou seja, a probabilidade da variável aleatória X assumir o valor x é igual ao salto da
função de distribuição acumulada FX no ponto x. O próximo teorema indica que o conjunto
de pontos de descontinuidade de F é enumerável.
Teorema 3.2.4: Seja D o conjunto de pontos de descontinuidade da função de distribuição
F . Então, D é enumerável.
Prova: Pela monotonicidade, temos que para todo x ∈ IR, F (x− ) ≤ F (x) ≤ F (x+ ). Logo,
x ∈ D se, e somente se, F (x+ ) > F (x− ). Para n = 1, 2, 3, . . . seja
An = {x : F (x+ ) − F (x− ) >
1
}.
n
Autor: Leandro Chaves Rêgo
3.3. TIPOS DE VARIÁVEL ALEATÓRIA
37
Então, D = ∪∞
n=1 An . Vamos verificar que todo An contém menos que n pontos e, portanto,
é finito. Dessa forma, D será enumerável.
Por absurdo, suponha que exista An que contém n pontos. Assim, An = {x1 , x2 , . . . , xn },
onde x1 < x2 < · · · xn e
+
−
+
−
+
0 ≤ F (x−
1 ) ≤ F (x1 ) ≤ F (x2 ) ≤ F (x2 ) ≤ · · · ≤ F (xn ) ≤ F (xn ) ≤ 1.
∑
−
Então, temos nk=1 [F (x+
definição do conjunto An , temos que
k ) − F (xk )] ≤ 1. Mas por ∑
−
+
−
1
1
F (xi ) − F (xi ) > n para todo xi ∈ An . Portanto, nk=1 [F (x+
k ) − F (xk )] > n × n > 1,
absurdo. Logo, An contém menos que n pontos.
3.3
Tipos de Variável Aleatória
Definição 3.3.1: Existem três tipos de variáveis aleatórias:
• Discreta. Uma variável aleatória X é discreta se assume um número enumerável de
valores, ou seja, se existe um conjunto enumerável {x1 , x2 , . . .} ⊆ R tal que X(w) ∈
{x1 , x2 , . . .}, ∀w ∈ Ω. A função p(xi ) definida por p(xi ) = PX ({xi }), i = 1, 2, . . . e
p(x) = 0 para x ∈
/ {x1 , x2 , . . .}, é chamada de função probabilidade de X. Note que
neste caso, temos
∑
FX (x) =
p(xi ).
i:xi ≤x
• Contínua. Uma variável aleatória X é contínua se existe uma função fX (x) ≥ 0 tal
que
∫ x
FX (x) =
fX (t)dt, ∀x ∈ R.
−∞
Neste caso, a função fX é chamada de função densidade de probabilidade de X.
• Singular. Uma variável aleatória X é singular se FX é uma função contínua cujos
pontos de crescimento formam um conjunto de comprimento (medida de Lebesgue)
nulo.
Pode-se provar que toda função de distribuição de probabilidade acumulada FX pode ser
decomposta na soma de no máximo três funções de distribuição de probabilidade acumuladas,
sendo uma discreta, uma contínua e outra singular. Na próxima seção analisaremos as
variáveis aleatórias discretas.
3.3.1
Variável Aleatória Discreta
Vamos considerar agora o caso das variáveis aleatórias discretas. Nós vimos na seção anterior
que se uma variável aleatória é discreta, então nós podemos definir uma função de probabilidade p de modo que p(xi ) = PX ({xi }), i = 1, 2, . . ., onde X ⊆ {x1 , x2 , . . .} e p(x) = 0
para x ∈
/ {x1 , x2 , . . .}. Note que toda função de probabilidade é uma função dos reais R e
Autor: Leandro Chaves Rêgo
3.3. TIPOS DE VARIÁVEL ALEATÓRIA
38
assume valores entre 0 e∑1, sendo positiva para um número enumerável de pontos e satisfaz
a seguinte propriedade i p(xi ) = 1.
Por outro lado, dada uma função p : R
∑→ [0, 1], onde p é positiva para um número
enumerável de pontos {x1 , x2 , . . .} e satisfaz
i p(xi ) = 1, uma função P definida nos eventos
∑
Borelianos de modo que P (A) =
p(x
i ), ∀A ∈ B é uma medida de probabilidade
xi ∈A
em (R, B) (é fácil verificar que P satisfaz os axiomas de Kolmogorov e portanto é uma
medida de probabilidade). Logo, a distribuição de uma variável aleatória discreta X pode
ser determinada tanto pela função de distribuição acumulada FX ou pela sua função de
probabilidade p.
3.3.2
Variável Aleatória Contínua
Vamos considerar agora o caso das variáveis aleatórias contínuas. Nós vimos na seção anterior
que se uma variável
∫ xaleatória é (absolutamente) contínua, então existe uma ′função fX (x) ≥ 0
tal que FX (x) = −∞ fX (t)dt. Deste modo, FX é contínua e fX (x) = FX (x), exceto num
conjunto de medida de Lebesgue
∫ ∞ nula. Uma função f (x) ≥ 0 é densidade de alguma variável
aleatória se e somente se, −∞ f (x)dx = 1, já que neste caso é fácil provar que a função F
∫x
definida por −∞ f (t)dt satisfaz as condições F1, F2, e F3. Portanto, pelo Teorema 3.2.2
F é uma função de distribuição acumulada. Logo, a distribuição de uma variável aleatória
contínua X pode ser determinada tanto pela função de distribuição acumulada FX ou pela
sua função de densidade fX .
Uma variável aleatória X tem densidade se FX é a integral (de Lebesgue) de sua derivada;
sendo neste caso a derivada de FX uma função densidade para X. Este fato pode ser provado
utilizando argumentos de Teoria da Medida, mas omitimos os detalhes aqui. Sem recorrer a
argumentos envolvendo Teoria da Medida, em quase todos os casos encontrados na prática,
uma variável aleatória X tem densidade se FX é (i) contínua e (ii) derivável por partes, ou
seja, se FX é derivável no interior de um número finito ou enumerável de intervalos fechados
cuja união é a reta R.
Por exemplo, considere

 0 se x < 0,
x se 0 ≤ x < 1,
FX (x) =

1 se x ≥ 1.
Então X tem densidade pois FX é contínua e derivável em todos os pontos da reta exceto
em {0, 1}.
3.3.3
Variável Aleatória Singular
Vamos nesta seção dar o exemplo de uma função de distribuição de uma variável aleatória
singular conhecida como função de Cantor. Esta função é contínua, derivável em todo ponto
exceto em um conjunto de medida de Lebesgue nula, mas não é absolutamente contínua.
Seja F (x) = 0 se x < 0 e F (x) = 1 se x > 1. Continuemos por etapas:
Etapa 1: Seja F (x) = 12 para x ∈ (1/3, 2/3). Então, o valor de F neste intervalo é igual a
média dos valores de F nos intervalos vizinhos em que F já está definida: (−∞, 0) e
Autor: Leandro Chaves Rêgo
3.3. TIPOS DE VARIÁVEL ALEATÓRIA
39
(1, ∞). F continua sem definição em dois intervalos: [0, 1/3] e [2/3, 1] de comprimento
total 2/3.
Etapa n + 1: No terço central de cada um dos 2n intervalos restantes após a etapa n, seja
F (x) igual à média dos valores nos dois intervalos vizinhos onde F já está definida.
Por exemplo, na etapa 2 defina F (x) = 1/4 para x ∈ (1/9, 2/9) e F (x) = 3/4 para
x ∈ ∪(7/9, 8/9). Restarão então 2n+1 intervalos (o dobro do número restante após a
etapa n), de comprimento total (2/3)n+1 , em que F ainda não estará definida.
Então definimos F por indução em um número enumerável de intervalos abertos, cujo
complementar (ou seja, o conjunto onde F ainda não está definida) é o conjunto de Cantor,
um conjunto de comprimento 0. Podemos estender a definição de F até o conjunto de Cantor
C por continuidade: se x ∈ C, a diferença entre os valores de F nos dois intervalos vizinhos
após a etapa n é 1/2n . Note que F é monótona não decrescente em C c . Se an é o valor de
F no intervalo vizinho esquerdo após a etapa n, e bn é o valor no intervalo vizinho direito
após a etapa n, então, an ↑, bn ↓ e bn − an ↓ 0. Seja F (x) o limite comum de an e bn . Deste
modo F está definida em toda reta e é de fato uma função de distribuição (verifique!).
Seja X uma variável aleatória cuja função de distribuição é F , a função de Cantor.
Então
X não é discreta e nem contínua pois X não tem densidade F ′ (x) = 0 em C c e
∫x
′
F (t)dt = 0, ou seja, F não é a integral de sua derivada, ou melhor, não é absolutamente
−∞
contínua. Como F é contínua e F ′ (x) = 0 para x ∈ C c e C tem comprimento nulo, temos
que X é uma variável aleatória singular.
3.3.4
Decomposição de uma Variável Aleatória
Vamos ver agora que toda variável aleatória é uma mistura dos três tipos: discreto, contínuo
e singular. Seja X uma variável aleatória qualquer e seja F sua função de distribuição. Se
J = {x1 , x2 , . . .} é o conjunto dos pontos de salto de F (se F for contínua J = ∅), indiquemos
com pi o salto no ponto xi , ou seja,
pi = F (xi ) − F (x−
i ).
∑
Definimos Fd (x) = i:xi ≤x pi . Fd é uma função degrau não-decrescente: a parte discreta de
F . Como uma função monótona possui derivada em quase toda parte, seja
{ ′
F (x) se F é diferenciável em x,
f (x) =
0
se F não é diferenciável em x.
∫x
Seja Fac (x) = −∞ f (t)dt. Fac é não-decrescente, pois a integral indefinida de uma função
nao-negativa (f ≥ 0 porque F é não-decrescente). A sua derivada é igual a f em quase toda
parte, de modo que Fac é absolutamente contínua: Fac é a parte absolutamente contínua de
F.
Seja Fs (x) = F (x) − Fd (x) − Fac (x). Fs é contínua pois é a diferença de duas funções
contínuas. A derivada de Fs é igual a zero em quase toda parte, porque F e Fac têm a mesma
derivada f , e Fd possui derivada zero em quase toda parte. Pode-se provar que Fs também
é não-decrescente, mas está fora do escopo deste curso. Fs é a parte singular de F .
Autor: Leandro Chaves Rêgo
3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE
40
Esta discussão nos dá um método de decompor F em suas partes discreta, absolutamente
contínua e singular. Considere o seguinte exemplo:
Exemplo 3.3.2: Suponha que X ∼ U [0, 1]

 0
x
FY (x) =

1
e Y = min(X, 1/2). Note que
se x < 0,
se 0 ≤ x < 1/2,
se x ≥ 1/2.
FY tem apenas um salto em x = 1/2 e p1 = 1/2. Logo, Fd (x) = 0 se x < 1/2 e
Fd (x) = 1/2 se x ≥ 1/2. Diferenciando FY , temos
{
0 se x < 0 ou x > 1/2,
′
FY (x) =
1 se 0 < x < 1/2.
Logo, por definição,
{
f (x) =
Portanto,
0 se x ≤ 0 ou x ≥ 1/2,
1 se 0 < x < 1/2.

se x < 0,
 0
x
se 0 ≤ x ≤ 1/2,
Fac (x) =
f (t)dt =

−∞
1/2 se x > 1/2.
∫
x
Como Fd + Fac = FY , temos que Fs (x) = 0, ∀x ∈ IR e não há parte singular. Uma variável
aleatória que possui apenas partes discreta e absolutamente contínua é conhecida como uma
variável aleatória mista. Na prática, é pouco provável que surja uma variável aleatória
singular. Portanto, quase todas as variáveis aleatórias são discretas, contínuas ou mistas. A
seguir veremos os principais tipos de distribuições.
3.4
Principais Distribuições de Probabilidade
Vamos primeiro explorar alguns exemplos importantes de variáveis aleatórias discretas.
Aleatória.
Dizemos que X tem uma distribuição aleatória com parâmetro n, onde n é um número
inteiro, se X(w) ∈ {x1 , x2 , . . . , xn } e p(xi ) = n1 , para i ∈ {1, . . . , n}.
A função de probabilidade aleatória pode ser utilizada para modelar mecanismos de
jogos (por exemplo, dados e moedas balanceados, cartas bem embaralhadas). Utilizando
a propriedade de aditividade da probabilidade, é fácil ver que para qualquer evento A ⊆
.
{x1 , x2 , . . . , xn }, temos que P (X ∈ A) = ||A||
n
Autor: Leandro Chaves Rêgo
3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE
41
Bernoulli.
Dizemos que X tem uma distribuição Bernoulli com parâmetro p, onde 0 ≤ p ≤ 1, se
X(w) ∈ {x0 , x1 } e p(x1 ) = p = 1 − p(x0 ).
A função de probabilidade Bernoulli pode ser utilizada para modelar a probabilidade de
sucesso em uma única realização de um experimento. Em geral, qualquer variável aleatória
dicotômica, ou seja que assume somente dois valores, pode ser modelada por uma distribuição
Bernoulli.
Binomial.
Dizemos que X tem uma distribuição Binomial com parâmetros
n e p, onde n é um número
( )
inteiro e 0 ≤ p ≤ 1, se X(w) ∈ {0, 1, . . . , n} e p(k) = nk pk (1 − p)1−k , para k ∈ {0, 1, . . . , n}.
Note que utilizando o Teorema Binomial, temos que
n
n ( )
∑
∑
n k
p(k) =
p (1 − p)n−k = (p + 1 − p)n = 1.
k
k=0
k=0
Logo, esta é uma legítima função probabilidade de massa.
A função de probabilidade Binomial pode ser utilizada para modelar a quantidade de erros
em um texto de n símbolos quando os erros entre símbolos são assumidos independentes e a
probabilidade de erro em um símbolo do texto é igual a p. Também pode ser utilizada para
modelar o número de caras em n lançamentos de uma moeda que possui probabilidade p de
cair cara em cada lançamento. Se p = 1/2, temos um modelo para o número de 1’s em uma
sequência binária de comprimento n escolhida aleatoriamente ou o número de caras em n
lançamentos de uma moeda justa.
Geométrica.
Dizemos que X tem uma distribuição Geométrica com parâmetro β, onde 0 ≤ β < 1, se
X(w) ∈ {0, 1, . . .} e p(k) = (1 − β)β k , para k ∈ {0, 1, . . .}.
Utilizando o resultado de uma soma infinita de uma Progressão Geométrica, temos que
∞
∑
∞
∞
∑
∑
k
p(k) =
(1 − β)β = (1 − β)
β k = 1.
k=0
k=0
k=0
Logo, esta é uma legítima função probabilidade de massa.
A função de probabilidade Geométrica pode ser utilizada para modelar o tempo de espera
medido em unidades de tempo inteira até a chegada do próximo consumidor em uma fila,
até a próxima emissão de um fóton, ou até a primeira ocorrência de cara numa sequência de
lançamentos de uma moeda.
Binomial Negativa ou Pascal.
Esta distribuição é uma generalização óbvia da distribuição geométrica. Suponha que ao
invés de estarmos interessados no tempo de espera até a primeira ocorrência de um evento,
Autor: Leandro Chaves Rêgo
3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE
42
estejamos interessados em calcular o tempo de espera até a r-ésima ocorrência de um evento.
Seja Y o tempo de espera necessário a fim de que um evento A possa ocorrer exatamente
r vezes. Temos que Y = k se, e somente se, A ocorrer na (k + 1)-ésima repetição e A
tiver ocorrido r − 1 vezes nas k repetições
Assumindo independência entre os
( kanteriores.
) r−1
experimentos, esta probabilidade é igual p r−1
p (1 − p)k−r+1 . Portanto,
(
)
k
P (Y = k) =
pr (1 − p)k−r+1 , onde k ≥ r − 1.
r−1
Note que se r = 1, temos que Y tem uma distribuição geométrica com parâmetro β = 1 − p.
No caso geral, dizemos que Y tem uma distribuição Binomial Negativa ou Pascal.
Relação entre as Distribuições Binomial e Binomial Negativa. Suponhamos que X
tenha distribuição binomial com parâmetros n e p, ou seja, X é igual ao número de sucessos
em n ensaios repetidos de Bernoulli com probabilidade de sucesso p. Suponhamos que Y
tenha uma distribuição Binomial Negativa com parâmetros r e p, ou seja, Y + 1 é o número
de ensaios de Bernoulli necessários para se obter r sucessos com probabilidade de sucesso p.
Então, temos que {X ≥ r} = Y + 1 ≤ n, ou seja, o número de sucessos em n ensaios é maior
ou igual a r se, e somente se, o tempo de espera para o r-ésimo sucesso for menor ou igual
a n − 1. Portanto,
P (X ≥ r) = P (Y ≤ n − 1).
Observe que estas duas distribuições tratam de ensaios de Bernoulli repetidos. A distribuição binomial surge quando lidamos com um número fixo de ensaios e estamos interessados
no número de sucessos que venham a ocorrer. A distribuição binomial negativa é encontrada
quando fixamos o número de sucessos e então registramos o tempo de espera necessário.
Zeta ou Zipf.
Dizemos que X tem uma distribuição Zeta ou Zipf com parâmetro α, onde α > 1, se
X(w) ∈ {1, 2, . . .} e
k −α
, k = 1, 2, . . . ,
p(k) =
ζ(α)
∑
−α
onde ζ(α) = ∞
é conhecida como a função Zeta de Riemann.
k=1 k
A função de probabilidade Zeta ou Zipf é um exemplo de uma distribuição de cauda
pesada cuja importância cresceu bastante desde meados dos anos 1990. As aplicações desta
função de probabilidade incluem: número de consumidores afetados por um blackout, tamanhos de arquivos solicitados em transferência via Web e atraso de pacotes na internet.
Hipergeométrica.
A distribuição hipergeométrica descreve o número de sucessos em uma sequência de n amostras de uma população finita sem reposição.
Por exemplo, considere que tem-se uma carga com N objetos dos quais D têm defeito. A
distribuição hipergeométrica descreve a probabilidade de que em uma amostra de n objetos
distintos escolhidos da carga aleatoriamente exatamente k objetos sejam defeituosos.
Autor: Leandro Chaves Rêgo
3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE
43
Em geral, se uma variável aleatória X segue uma distribuição hipergeométrica com parâmetros N, D, e n, então a probabilidade de termos exatamente k sucessos é dada por
(D)(N −D)
(Nn−k
) .
k
p(k) =
n
Esta probabilidade é positiva se: N − D ≥ n − k, ou seja k ≥ max(0, D + n − N ), e
k ≤ min(n, D).
( )
Esta fórmula pode ser entendida assim: existem Nn possíveis amostras sem reposição.
( )
( −D)
Existem Dk maneiras de escolher k objetos defeituosos e existem Nn−k
maneiras de preencher o resto da amostra com objetos sem defeito.
Quando a população é grande quando comparada ao tamanho da amostra (ou seja, N for
muito maior que n) a distribuição hipergeométrica é aproximada razoavelmente bem por uma
distribuição binomial com parâmetros n (tamanho da amostra) e p = D/N (probabilidade
de sucesso em um único ensaio).
Poisson.
Dizemos que X tem uma distribuição Poisson com parâmetro λ, onde λ ≥ 0, se X(w) ∈
k
{0, 1, . . .} e p(k) = e−λ λk! , para k ∈ {0, 1, . . .}.
Por definição, temos que para todo x real,
x
e =
∞
∑
xk
k=0
k!
.
Utilizando este fato, temos que
∞
∑
k=0
p(k) =
∞
∑
e−λ λk
k=0
k!
−λ
=e
∞
∑
λk
k=0
k!
= e−λ eλ = 1.
Logo, esta é uma legítima função probabilidade de massa.
A função de probabilidade Poisson é utilizada para modelar a contagem do número de
ocorrências de eventos aleatórios em um certo tempo T : número de fótons emitidos por
uma fonte de luz de intensidade I fótons/seg em T segundos (λ = IT ), número de clientes
chegando em uma fila no tempo T (λ = CT ), número de ocorrências de eventos raros no
tempo T (λ = CT ).
Poisson como um Limite de Eventos Raros de Binomial Suponhamos que chamadas
telefônicas cheguem em uma grande central, e que em um período particular de três horas
(180 minutos), um total de 270 chamadas tenham sido recebidas, ou seja, 1,5 chamadas por
minuto. Suponhamos que queiramos calcular a probabilidade de serem recebidas k chamadas
durante os próximos três minutos.
Ao considerar o fenômeno da chegada de chamadas, poderemos chegar à conclusão de que,
a qualquer instante, uma chamada telefônica é tão provável de ocorrer como em qualquer
Autor: Leandro Chaves Rêgo
3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE
44
outro instante. Como em qualquer intervalo de tempo, temos um número infinito de pontos,
vamos fazer uma série de aproximações para este cálculo.
Para começar, pode-se dividir o intervalo de 3 minutos em nove intervalos de 20 segundos cada um. Poderemos então tratar cada um desses nove intervalos como um ensaio de
Bernoulli, durante o qual observaremos uma chamada (sucesso) ou nenhuma chamada (fa20
= 0, 5. Desse
poderemos
lha), com probabilidade de sucesso igual a p = 1, 5 × 60
(9) modo,
9
9
ser tentados a afirmar que a probabilidade de 2 chamadas é igual a 2 (0, 5) = 128
. Porém, este cálculo ignora a possibilidade de que mais de uma chamada possa ocorrer em um
único intervalo. Então, queremos aumentar o número n de subintervalos de tempo de modo
que cada subintervalo corresponde a 180
segundos e então a probabilidade de ocorrência
n
180
de uma chamada em um subintervalo é igual a p = 1, 5 × 60n
. Desta maneira temos que
np = 4, 5 permanece constante ao crescermos o número de subintervalos. Utilizando novamente
binomial, temos que a probabilidade de ocorrerem k chamadas é dada por:
(n) 4,5 ok modelo
4,5 n−k
( n ) (1 − n ) . Queremos saber então o que acontece com esta probabilidade quando
k
n → ∞. A resposta como veremos a seguir é que esta distribuição tende a distribuição de
Poisson e este resultado é conhecido como limite de eventos raros.
Consideremos a expressão geral da probabilidade binomial,
( )
n k
n!
n(n − 1) · · · (n − k + 1) k
p(k) =
p (1 − p)n−k =
pk (1 − p)n−k =
p (1 − p)n−k .
k
k!(n − k)!
k!
Como queremos estudar o caso em que np é constante, façamos np = α, ou seja, p = α/n
. Então,
e 1 − p = n−α
n
n(n − 1) · · · (n − k + 1) α k n − α n−k
( ) (
)
k!
n
n
αk
1
k−1
α
=
[(1)(1 − ) · · · (1 −
)][1 − ]n−k
k!
n
n
n
p(k) =
Fazendo n → ∞, temos que os termos da forma (1 − nj ), para 1 ≤ j ≤ k − 1, tendem
para 1 e como existe um número fixo k deles, o seu produto também tende a 1. O mesmo
ocorre com (1 − αn )−k . Finalmente, por definição do número e, temos que (1 − αn )n → e−α
quando n → ∞. Portanto,
αk
lim p(k) = e−α ,
n
k!
ou seja obtemos a expressão de Poisson.
Mais geralmente, pode-se provar o seguinte teorema:
Teorema 3.4.1: Se limn→∞ npn = α > 0, então
( )
k
n k
n−k
−α α
.
lim
pn (1 − pn )
=e
n→∞ k
k!
Prova: Nós utilizamos os seguintes fatos:
( )
k
1. limn→∞ nk = limn→∞ nk! .
Autor: Leandro Chaves Rêgo
3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE
45
2. limn→∞ np2n = 0.
3. (1 − x)n ≤ e−nx , para x ≥ 0.
4. (1 − x)n ≥ e−nx−nx , para 0 ≤ x ≤ 12 .
2
Usando fatos 2, 3, e 4, nós obtemos limn→∞ (1 − pn )n−k = limn→∞ e−(n−k)pn .
Logo, usando fato 1,
( )
(npn )k −(n−k)pn
n k
αk
pn (1 − pn )n−k = lim
lim
e
= e−α .
n→∞
n→∞ k
k!
k!
Vamos agora explorar alguns exemplos importantes de variáveis aleatórias contínuas.
Uniforme.
Dizemos que X tem uma distribuição uniforme com parâmetros a e b, onde a e b são números
reais e a < b, se a função densidade de X é igual a
fX (x) =
1
U (x − a)U (b − x).
b−a
Este modelo é frequentemente usado impropriamente para representar “completa ignorância” sobre valores de um parâmetro aleatório sobre o qual apenas sabe-se estar no intervalo
finito [a, b]. Esta distribuição também é frequentemente utilizada a fase de osciladores e fase
de sinais recebidos em comunicações incoerentes.
Exponencial.
Dizemos que X tem uma distribuição Exponencial com parâmetro λ, onde λ > 0 é um
número real, se a função densidade de X é igual a
fX (x) = λe−λx U (x).
A densidade exponencial pode ser utilizada para modelar os seguintes fenômenos: tempo
de vida de componentes que falham sem efeito de idade; tempo de espera entre sucessivas
chegadas de fótons, emissões de elétrons de um cátodo, ou chegadas de consumidores; e
duração de chamadas telefônicas.
Qui-quadrado.
Dizemos que X tem uma distribuição Qui-quadrado com parâmetro n, onde n é número
natural, se a função densidade de X é igual a
fX (x) =
xn/2−1 e−x/2
U (x),
2n/2 Γ(n/2)
Autor: Leandro Chaves Rêgo
3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE
46
∫∞
onde Γ(p) = 0 xp−1 e−x dx para p > 0 é a função gama. n é conhecido como número de
graus de liberdade da distribuição Qui-quadrado.
Pode-se provar que a soma dos quadrados de n variáveis aleatórias independentes com
distribuição normal padrão possui uma distribuição Qui-quadrado com n graus de liberdade.
A distribuição Qui-quadrado tem inúmeras aplicações em inferência estatística. Por exemplo,
em testes qui-quadrados e na estimação de variâncias.
Gama.
Dizemos que X tem uma distribuição Gama com parâmetros α e β, onde α > 0 e β > 0 são
números reais, se a função densidade de X é igual a
β α α−1 −βx
fX (x) =
x e U (x).
Γ(α)
Pode-se provar que a soma de α variáveis aleatórias exponenciais com média 1/β tem
uma distribuição Gama. É fácil ver que se α = 1, temos uma distribuição exponencial com
parâmetro β, e se α = n/2 e β = 1/2 temos uma distribuição Qui-quadrado com n graus de
liberdade.
Beta.
Dizemos que X tem uma distribuição Beta com parâmetros α e β, onde α > 0 e β > 0 são
números reais, se a função densidade de X é igual a
fX (x) = ∫ 1
0
xα−1 (1 − x)β−1
uα−1 (1
−
u)β−1 du
U (x)U (1 − x) =
1
xα−1 (1 − x)β−1 U (x)U (1 − x),
B(α, β)
onde B(α, β), para α > 0, β > 0, é a função beta que é o fator de normalização que garante
que fX é uma densidade.
Distribuições Beta são usadas exaustivamente em Estatística Bayesiana, pois elas são
uma família de distribuições a priori conjugadas para distribuições binomiais e geométricas.
A distribuição beta pode ser utilizada para modelar eventos que tem restrição de estar em
um intervalo finito.
t de Student.
Dizemos que X tem uma distribuição t de Student com parâmetro n, onde n é número
natural, se a função densidade de X é igual a
Γ[(n + 1)/2]
x2 −(n+1)
√
fX (x) =
(1 + ) 2 ,
n
Γ[n/2] πn
onde n é conhecido como número de graus de liberdade da distribuição t de Student.
Pode-se provar que se Z tem uma distribuição normal padrão, V tem uma distribuição
qui-quadrado com n graus de liberdade e Z e V forem independentes, então √Z tem uma
V /n
distribuição t de Student com n graus de liberdade. A distribuição t de Student é bastante
utilizada em inferência estatística. Por exemplo, pode-se utilizá-la para calcular intervalos de
confiança para a média de uma amostra quando a variância da população não é conhecida.
Autor: Leandro Chaves Rêgo
3.5. VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS
47
Pareto.
Dizemos que X tem uma distribuição Pareto com parâmetros α e τ , onde α e τ são números
reais positivos, se a função densidade de X é igual a
fX (x) = ατ α x−α−1 U (x − τ ).
A distribuição de Pareto é o exemplo mais fundamental de uma distribuição de cauda
pesada. Ela pode ser utilizada para modelar distribuição de riquezas; atrasos em transmissão
de pacotes; e duração sessões de Internet.
Normal ou Gaussiana.
Dizemos que X tem uma distribuição Normal (ou Gaussiana) com parâmetros m e σ, onde
m e σ > 0 são números reais, se a função densidade de X é igual a
−(x−m)2
1
fX (x) = √ e 2σ2 .
σ 2π
Historicamente, esta distribuição foi chamada de “normal” porque ela era amplamente
aplicada em fenômenos biológicos e sociais que era sempre tida como a distribuição antecipada ou normal. Se m = 0 e σ = 1, diz-se que X tem uma distribuição normal padrão ou
normal reduzida. Aplicações da distribuição normal incluem ruído térmico em resistores e em
outros sistemas físicos que possuem um componente dissipativo; ruídos de baixa-frequência
como os em encontrados em amplificadores de baixa frequência; e variabilidade em parâmetros de componentes manufaturados e de organismos biológicos (por exemplo, altura, peso,
inteligência).
Cauchy.
Dizemos que X tem uma distribuição Cauchy com parâmetro a > 0, se a função densidade
de X é igual a
1
a
fX (x) = · 2
.
π a + x2
A razão entre duas variáveis aleatórias com distribuição Normal padrão independentes
tem uma distribuição Cauchy com parâmetro 1.
3.5
Variáveis Aleatórias Multidimensionais
Muitas vezes estamos interessados na descrição probabilística de mais de um característico
numérico de um experimento aleatório. Por exemplo, podemos estar interessados na distribuição de alturas e pesos de indivíduos de uma certa classe. Para tanto precisamos estender
a definição de variável aleatória para o caso multidimensional.
⃗ : Ω → Rn é
Definição 3.5.1: Seja (Ω, A, P ) um espaço de probabilidade. Uma função X
⃗ −1 (B) ∈ A.
chamada de um vetor aleatório se para todo evento B Boreliano de IRn , X
Autor: Leandro Chaves Rêgo
3.5. VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS
48
Onde um evento é Boreliano em IRn se pertence a menor σ-álgebra que contem todas regiões
da seguinte forma: C⃗a = {(X1 , X2 , . . . , Xn ) : Xi ≤ ai , 1 ≤ i ≤ n}.
⃗ pode-se definir uma probabilidade induzida P ⃗ no esDado um vetor aleatório X,
X
n
n
paço mensurável (IR , B ) da seguinte maneira: para todo A ∈ B n , definimos PX⃗ (A) =
⃗ −1 (A)). Por definição de vetor aleatório, tem-se que X
⃗ −1 (A) ∈ A, então P ⃗ está bem
P (X
X
definida.
3.5.1
Função de Distribuição Acumulada Conjunta
⃗ uma maneira simples e básica de descrever a probabilidade
Para um vetor aleatório X,
induzida PX⃗ é utilizando sua função de distribuição acumulada conjunta.
⃗
Definição 3.5.2: A função de distribuição acumulada conjunta de um vetor aleatório X,
representada por FX⃗ ou simplesmente por F , é definida por
FX⃗ (⃗x) = P (C⃗x ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ), ∀⃗x ∈ IRn .
A função de distribuição acumulada FX⃗ satisfaz as seguintes propriedades:
F1. Se xi ≤ yi , ∀i ≤ n, então FX⃗ (⃗x) ≤ FX⃗ (⃗y ).
xi ≤ yi ∀i ≤ n ⇒ C⃗x ⊆ C⃗y ⇒ P (C⃗x ) ≤ P (C⃗y ) ⇒ FX⃗ (⃗x) ≤ FX⃗ (⃗y ).
F2. F (x1 , x2 , . . . , xn ) é contínua a direita em cada uma das variáveis. Por exemplo, se
ym ↓ x1 , então
F (ym , x2 , . . . , xn ) ↓ F (x1 , x2 , . . . , xn ), quando m → ∞.
F3a. Se para algum i ≤ n xi → −∞, então C⃗x decresce monotonicamente para o conjunto
vazio ∅. Logo, pela continuidade monotônica de probabilidade, temos que
lim FX⃗ (⃗x) = 0.
xi →−∞
F3b. Se xi → ∞, então C⃗x cresce monotonicamente para o conjunto {X1 ≤ x1 , . . . Xi−1 ≤
xi−1 , Xi+1 ≤ xi+1 , . . . , Xn ≤ xn }, ou seja a restrição em Xi é removida. Então, podemos
escrever
lim FX⃗ (⃗x) = FX1 ,...,Xi−1 ,Xi+1 ,...,Xn (x1 , . . . , xi−1 , xi+1 , . . . , xn ).
xi →∞
Portanto, a função de distribuição acumulada conjunta de X1 , . . . , Xn−1 pode ser facilmente determinada da função de distribuição acumulada conjunta de X1 , . . . , Xn
fazendo xn → ∞. Observe que funções de distribuição acumuladas conjuntas de ordem
maiores determinam as de ordem menores, mas o contrário não é verdadeiro. Em
particular, temos que
lim FX⃗ (⃗x) = 1.
⃗
x→∞
A função de distribuição acumulada de Xi que se obtém a partir da função acumulada
conjunta de X1 , . . . , Xn fazendo xj → ∞ para j ̸= i é conhecida como função de
distribuição marginal de Xi .
Autor: Leandro Chaves Rêgo
3.5. VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS
49
O próximo exemplo mostra que para n ≥ 2 as propriedades F1, F2, e F3 não são suficientes para que F seja uma função de distribuição.
Exemplo 3.5.3: Seja F0 : IR2 → IR uma função definida no plano tal que F0 (x, y) = 1
se x ≥ 0, y ≥ 0, e x + y ≥ 1, e F0 (x, y) = 0, caso contrário. É claro que F1, F2, e F3 são
satisfeitas, mas F0 não é função de distribuição de nenhum vetor aleatório (X, Y ). Se fosse,
teríamos uma contradição
0 ≤ P (0 < X ≤ 1, 0 < Y ≤ 1)
= F0 (1, 1) − F0 (1, 0) − F0 (0, 1) + F0 (0, 0) = 1 − 1 − 1 + 0 = −1
Os tipos discretos e contínuos de variáveis aleatórias têm os seguintes análogos no caso
⃗ for um vetor aleatório discreto, ou seja assumir um número enumerámultivariado. (a) Se X
vel de valores {⃗x1 , ⃗x2 . . . , }, podemos definir uma função de probabilidade de massa conjunta,
p tal que
• p(⃗xi ) ≥ 0.
∑∞
xi ) = 1.
•
i=1 p(⃗
Neste caso, pode-se definir a função probabilidade de massa marginal de Xi como sendo
∑
∑∑ ∑
pXi (xi ) =
···
···
p(x1 , . . . , xi−1 , xi+1 , . . . , xn ).
x1
xi−1 xi+1
xn
⃗ = (X1 , . . . , Xn ) um vetor aleatório e F sua função de distribuição. Se existe
(b) Seja X
uma função f (x1 , . . . , xn ) ≥ 0 tal que
∫ xn
∫ x1
F (x1 , . . . , xn ) =
···
f (t1 , . . . , tn )dt1 . . . dtn , ∀(x1 , . . . , xn ) ∈ IRn ,
−∞
−∞
então f é chamada de densidade conjunta das variáveis aleatórias X1 , . . . , Xn , e neste caso,
⃗ é (absolutamente) contínuo. Neste caso, define-se a densidade marginal de
dizemos que X
Xi como sendo
∫ ∞
∫ ∞
fXi (xi ) =
···
f (x1 , . . . , xi−1 , xi+1 , . . . , xn )dx1 . . . dxi−1 dxi+1 . . . dxn .
−∞
3.5.2
−∞
Independência entre Variáveis Aleatórias.
Sejam X1 , X2 , . . . , Xn variáveis aleatórias definidas no mesmo espaço de probabilidade (Ω, A, P ).
Informalmente, as variáveis aleatórias Xi ’s são independentes se, e somente se, quaisquer
eventos determinados por qualquer grupo de variáveis aleatórias distintas são independentes. Por exemplo, [X1 < 5], [X2 > 9], e 0 < X5 ≤ 3 são independentes. Formalmente,
Definição 3.5.4: Dizemos que um conjunto de variáveis aleatórias {X1 , . . . , Xn } é mutuamente independente se, e somente se, para quaisquer eventos borelianos A1 , . . . , An ,
P (X1 ∈ A1 , . . . , Xn ∈ An ) =
n
∏
P (Xi ∈ Ai ).
i=1
Autor: Leandro Chaves Rêgo
3.5. VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS
50
O próximo teorema estabelece três critérios para provar que um conjunto de variáveis
aleatórias é mutuamente independente.
Teorema 3.5.5 : As seguintes condições são necessárias e suficientes para testar se um
conjunto {X1 , . . . , Xn } de variáveis aleatórias é mutuamente independente:
∏
(a) FX⃗ (⃗x) = ni=1 FXi (xi ).
⃗ for um vetor aleatório discreto,
(b) Se X
pX⃗ (⃗x) =
n
∏
pXi (xi ).
i=1
⃗ for um vetor aleatório contínuo,
(c) Se X
fX⃗ (⃗x) =
n
∏
fXi (xi ), ∀(x1 , . . . , xn ) ∈ IRn .
i=1
Prova: Para parte (a), note que se {X1 , . . . , Xn } são variáveis aleatórias mutuamente independentes, então
FX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn )
n
n
∏
∏
=
P (Xi ≤ xi ) =
FXi (xi ), ∀(x1 , . . . , xn )
i=1
i=1
A prova da suficiência da parte (a) será omitida pois envolve argumentos de teoria da
medida.
Para parte (b), se {X1 , . . . , Xn } são variáveis aleatórias mutuamente independentes, então
pX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn )
n
n
∏
∏
=
P (Xi = xi ) =
pXi (xi ), ∀(x1 , . . . , xn )
i=1
i=1
Reciprocamente, se a função de probabilidade de massa conjunta fatora e se {xi1 , xi2 , . . . , xin , . . .}
são os possiveis valores assumidos pela variável aleatória Xi , temos que
∑
∑
P (X1 ∈ B1 , X2 ∈ B2 , . . . , Xn ∈ Bn ) =
···
P (X1 = x1i , . . . , Xn = xni )
=
∑
···
i:x1i ∈B1
=
∑
i:x1i ∈B1
∑
i:x1i ∈B1
i:xni ∈Bn
pX1 ,...,Xn (x1i , . . . , xni )
i:xni ∈Bn
···
n
∑ ∏
i:xni ∈Bn j=1
pXj (xji ) =
n
∏
P (Xj ∈ Bj )
j=1
Autor: Leandro Chaves Rêgo
3.6. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS
51
A parte (c) é uma consequência direta da parte (a) e da definição de função de densidade.
Omitimos os detalhes.
É fácil observar que utilizando, a definição de probabilidade condicional que se X e Y
são independentes, então para todo A e B boreliano tal que P (Y ∈ B) > 0:
P (X ∈ A|Y ∈ B) = P (X ∈ A),
ou seja, se X e Y são independentes o conhecimento do valor de Y não altera a descrição
probabilística de X.
3.5.3
Exemplos de Distribuições Multivariadas
A Distribuição Multinomial
Vamos dar o exemplo de uma distribuição conjunta de variáveis aleatórias, que pode ser
considerada como uma generalização da distribuição binomial. Considere um experimento
aleatório qualquer e suponha que o espaço amostral deste experimento é particionado em k
eventos {A1 , A2 , . . . , Ak }, onde o evento Ai tem probabilidade pi . Suponha que se repita este
experimento n vezes de maneira independente e seja Xi o número de vezes que o evento Ai
ocorreu nestas n repetições. Então,
P (X1 = n1 , X2 = n2 , . . . , Xk = nk ) =
n!
pn1 1 pn2 2 · · · pnk k ,
n1 !n2 ! · · · nk !
∑
onde ki=1 ni = n. (Relembre que o número de maneiras de arranjar n objetos, n1 dos quais
é de uma espécie, n2 dos quais é de uma segunda espécie, . . ., nk dos quais são de uma
k-ésima espécie é dado pelo coeficiente multinomial n1 !n2n!!···nk ! .)
A Distribuição Normal Bivariada
Dizemos que o vetor aleatório (X, Y ) possui distribuição normal bivariada quando tem densidade dada por
f (x, y) =
2πσ1 σ2
1
√
1 − ρ2
exp{−
1
x − µ1 2
x − µ1 y − µ2
y − µ2 2
[(
)
−
2ρ(
)(
)
+
(
) ]},
2(1 − ρ2 )
σ1
σ1
σ2
σ2
onde σ1 > 0, σ2 > 0, −1 < ρ < 1, µ1 ∈ IR, µ2 ∈ IR.
Se ρ = 0, esta densidade fatora e temos que X e Y são independentes. Se ρ ̸= 0, esta
densidade não fatora e X e Y não são independentes.
3.6
Funções de Variáveis Aleatórias
Muitas vezes sabemos a distribuição de probabilidade que descreve o comportamento de
uma variável aleatória X definida no espaço mensurável (Ω, A), mas estamos interessados
na descrição de uma função Y = H(X). Por exemplo, X pode ser uma mensagem enviada em um canal de telecomunicações e Y ser a mensagem recebida. Nosso problema é
Autor: Leandro Chaves Rêgo
3.6. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS
52
determinar P (Y ∈ A), onde A é um evento Boreliano, dado PX . Para determinarmos esta
probabilidade, estaremos interessados na imagem inversas a função H, ou seja, a probabilidade do evento {Y ∈ A} será por definição igual a probabilidade do evento {X ∈ H −1 (A)},
onde H −1 (A) = {x ∈ IR : H(x) ∈ A}. Para que esta probabilidade esteja bem definida,
precisamos restringir H tal que H −1 (A) seja um evento boreliano para todo A boreliano,
caso contrário não poderemos determinar P ({X ∈ H −1 (A)}); uma função que satisfaz esta
condição é conhecida como mensurável com respeito a A e B. Note que Y também pode ser
vista como uma função do espaço amostral Ω, Y (ω) = H(X(ω)) para todo ω ∈ Ω. Visto
dessa maneira Y é uma variável aleatória definida em (Ω, A), pois para todo boreliano A
Y −1 (A) = X −1 (H −1 (A)) e como por suposição H −1 (A) é boreliano e X é uma variável
aleatória, temos que X −1 (H −1 (A)) ∈ A e portanto satisfaz a definição de uma variável aleatória. Nesses problemas é sempre útil fazer um esboço do gráfico da transformação H para
determinarmos quais são as regiões inversas H −1 (A).
Vamos primeiro tratar este problema no caso de variáveis aleatórias discretas. Neste caso
para qualquer função H, temos que Y = H(X) é uma variável aleatória discreta.
Suponha que X assuma os valores x1 , x2 , . . . e seja H uma função real tal que Y = H(X)
assuma os valores y1 , y2 , . . .. Vamos agrupar os valores que X assume de acordo os valores de
suas imagens quando se aplica a função H, ou seja, denotemos por xi1 , xi2 , xi3 , . . . os valores
de X tal que H(xij ) = yi para todo j. Então, temos que
P (Y = yi ) = P (X ∈ {xi1 , xi2 , xi3 , . . .}) =
∞
∑
P (X = xij ) =
j=1
∞
∑
pX (xij ),
j=1
ou seja, para calcular a probabilidade do evento {Y = yi }, acha-se o evento equivalente
em termos de X, isto é, todos os valores xij de X tal que H(xij ) = yi e somam-se as
probabilidades de X assumir cada um desses valores.
Exemplo 3.6.1: Admita-se que X tenha os valores possíveis 1, 2, 3, . . . e suponha que
P (X = n) = (1/2)n . Seja Y = 1 se X for par e Y = −1 se X for ímpar. Então, temos que
P (Y = 1) =
∞
∑
n=1
(1/2)2n =
∞
∑
(1/4)n =
n=1
1/4
= 1/3.
1 − 1/4
Consequentemente,
P (Y = −1) = 1 − P (Y = 1) = 2/3.
⃗ de forma
Podemos estender este resultado para uma função de um vetor aleatório X
⃗ denotemos por ⃗xi1 , ⃗xi2 , ⃗xi3 , . . . os valores de X
⃗ tal que
análoga. Neste caso se Y⃗ = H(X),
H(⃗xij ) = ⃗yi para todo j. Então, temos que
⃗ ∈ {⃗xi1 , ⃗xi2 , ⃗xi3 , . . .}) =
P (Y⃗ = ⃗yi ) = P (X
∞
∑
j=1
⃗ = ⃗xij ) =
P (X
∞
∑
pX⃗ (⃗xij ),
j=1
ou seja, para calcular a probabilidade do evento {Y⃗ = ⃗yi }, acha-se o evento equivalente
⃗ isto é, todos os valores ⃗xij de X
⃗ tal que H(⃗xij ) = ⃗yi e somam-se as
em termos de X,
⃗ assumir cada um desses valores.
probabilidades de X
⃗ é contínuo.
Vamos ver agora um exemplo no caso em que X
Autor: Leandro Chaves Rêgo
3.6. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS
53
Exemplo 3.6.2: Se X ∼ U [0, 1], qual a distribuição de Y = − log(X)? Como
0<Y <∞⇔0<X<1
e P (0 < X < 1) = 1, temos FY (y) = 0, y ≤ 0. Se y > 0, então
P (Y ≤ y) = P (− log(X) ≤ y) = P (X ≥ e−y ) = 1 − e−y ,
ou seja, Y ∼ Exp(1).
Antes de prosseguirmos ao caso geral, vamos abrir um parênteses relembrar o que é o
Jacobiano de uma função.
Jacobiano de uma Função
Dado um conjunto de n equações em n variáveis x1 , . . . , xn ,
y1 = f1 (x1 , ..., xn ), . . . , yn = fn (x1 , ..., xn ),
a matriz Jacobiana é definida por

···
..
.
···
∂y1
∂x1

J =  ...
∂yn
∂x1
∂y1
∂xn

.. 
. 
∂yn
∂xn
O determinante de J é chamado de Jacobiano. Pode-se provar que o módulo Jacobiano nos
dá a razão entre volumes n-dimensionais em ⃗y e ⃗x quando a maior dimensão ∆xi tende a zero.
Deste modo, temos que o módulo do Jacobiano aparece quando queremos mudar as variáves
de integração em integrais múltiplas, ou seja, existe um teorema do cálculo que afirma que
se f : G0 → G for uma bijeção entre G0 e G, f e as derivadas parcias que aparecem na
matriz Jacobiana forem funções contínuas em G0 , e o Jacobiano for diferente de zero para
todo x ∈ G0
∫
∫
∫
∫
· · · g(y1 , . . . , yn )dy1 · · · dyn = · · · g(f1 (x1 , ..., xn ), . . . , fn (x1 , ..., xn ))|J|dx1 · · · dxn ,
A
f −1 (A)
para qualquer função g integrável em A ⊆ G.
Vamos agora utilizar mudança de variáveis para resolver o seguinte exemplo da soma de
duas variáveis aleatórias.
Exemplo 3.6.3: Suponha que (X, Y ) tenha densidade conjunta f (x, y) e seja Z = X + Y .
Neste caso,
FZ (z) = P (Z ≤ z) = P (X + Y ≤ z) = P ((X, Y ) ∈ Bz ),
onde Bz = {(x, y) : x + y ≤ z}. Portanto,
∫ ∞∫
FZ (z) =
−∞
z−y
f (x, y)dxdy.
−∞
Autor: Leandro Chaves Rêgo
3.6. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS
54
Fazendo a mudança de variáveis s = x + y, t = y, que tem jacobiano igual a 1, temos
∫ ∞∫ z
∫ z ∫ ∞
FZ (z) =
f (s − t, t)dsdt =
f (s − t, t)dtds.
Logo,
∫∞
−∞
−∞
−∞
−∞
−∞
f (s − t, t)dt é a densidade da soma Z = X + Y , ou seja,
∫
fZ (z) =
∞
−∞
∫
f (z − t, t)dt =
∞
−∞
f (s, z − s)ds,
onde fizemos a troca de variáveis s = z − t para obter a última expressão.
Se X e Y forem variáveis aleatórias independentes com densidades fX e fY , temos que
f (x, y) = fX (x)fY (y), então,
∫ ∞
∫ ∞
fX (z − t)fY (t)dt =
fX (t)fY (z − t)dt = fX ∗ fY ,
fZ (z) =
−∞
−∞
onde fX ∗ fY é conhecida como a convolução das densidades fX e fY .
Vamos agora descrever o método do Jacobiano para funções mais gerais H. Suponha que
G0 ⊆ IRn , G ⊆ IRn sejam regiões abertas, e que H : G0 → G seja uma bijeção entre G0 e G.
⃗ = H −1 Y⃗ . Suponha ainda que f é
Logo, existe a função inversa H −1 em G, de modo que X
⃗ e que P (X
⃗ ∈ G0 ) = 1. Se as derivadas parciais de H −1 existirem
a densidade conjunta de X
e o Jacobiano J de H −1 for diferente de zero para todo ⃗y ∈ G, podemos utilizar o teorema
da mudança de variáveis e obter que para B ⊆ G, B boreliano, temos
∫
∫
−1
⃗
⃗
P (Y ∈ B) = P (X ∈ H (B)) = · · · f (x1 , . . . , xn )dx1 · · · dxn
∫
=
∫
···
H −1 (B)
f (H1−1 (y1 , . . . , yn ), . . . , Hn−1 (y1 , . . . , yn ))|J|dy1 · · · dyn .
B
⃗ ∈ H −1 (G)) = P (X
⃗ ∈ G0 ) = 1, temos que para todo boreliano
Como P (Y⃗ ∈ G) = P (X
n
B no IR ,
∫
∫
P (Y⃗ ∈ B) = P (Y⃗ ∈ B ∩G) = · · · f (H1−1 (y1 , . . . , yn ), . . . , Hn−1 (y1 , . . . , yn ))|J|dy1 · · · dyn .
B∩G
Esta última integral é igual a integral sobre o conjunto B da função que toma o valor
f (H1−1 (y1 , . . . , yn ), . . . , Hn−1 (y1 , . . . , yn ))|J| para ⃗y ∈ G, e zero no caso contrário. Portanto,
pela definição de densidade temos que
{
f (H1−1 (y1 , . . . , yn ), . . . , Hn−1 (y1 , . . . , yn ))|J|, se ⃗y ∈ G,
fY⃗ (y1 , . . . , yn ) =
0,
caso contrário.
Observação 3.6.4:
Autor: Leandro Chaves Rêgo
3.6. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS
55
(a) Note que J é o Jacobiano da função inversa H −1 , em alguns casos pode ser útil obter
J a partir do Jacobiano J ′ da função H através da relação J = J1′ |⃗x=H −1 (⃗y) .
⃗ quando a dimensão de Y⃗ é menor que a
(b) Para obter a distribuição de Y⃗ = H(X)
⃗ muitas vezes é possível definir outras variáveis aleatórias Y ′ , . . . , Y ′ ,
dimensão de X
1
m
utilizar o método do Jacobiano para determinar a densidade conjunta de Y⃗ , Y1′ , . . . , Ym′
e, finalmente, obter a densidade marginal conjunta de Y⃗ . Considere o seguinte exemplo:
Exemplo 3.6.5: Suponha que X1 , X2 tem densidade conjunta dada por f (x, y) e
que estamos interessados na distribuição de Y1 = X12 + X2 . Como esta não é uma
transformação 1-1, ela não possui inversa. Vamos definir uma nova variável Y2 = X1
de modo que a função (Y1 , Y2 ) = H(X1 , X2 ) = (X12 + X2 , X1 ) possua uma função
inversa diferenciável, (X1 , X2 ) = H −1 (Y1 , Y2 ) = (Y2 , Y1 − Y22 ). Deste modo temos que
(
) (
)
∂x1
∂x1
0
1
∂y1
∂y2
J = det ∂x2 ∂x2
=
= −1
1 −2y2
∂y1
∂y2
Então temos que, fY1 ,Y2 (y1 , y2 ) = f (y2 , y1 − y22 ). Finalmente, para encontrarmos fY1
integramos sobre todos os possíveis valores da variável Y2 que introduzimos:
∫ ∞
fY1 =
f (y2 , y1 − y22 )dy2 .
−∞
(c) Podemos utilizar o método do Jacobiano em outros casos em que a função H não é
1-1. Para tanto, suponha que G, G1 , . . . , Gk sejam subregiões abertas do IRn tais que
⃗ ∈ ∪ki=1 Gi ) = 1, tais que a função H|G , a restrição
G1 , . . . , Gk sejam disjuntas e P (X
l
de H a Gl , seja um correspondência 1-1 entre Gl e G, para l = 1, . . . , k. Suponha que
para todo l, a função inversa de H|Gl satisfça as hipóteses do caso anterior, e seja Jl o
Jacobiano da inversa de H|Gl . Pode-se provar que
{ ∑k
−1
y ∈ G,
l=1 f (H|Gl (y1 , . . . , yn ))|Jl |, se ⃗
fY⃗ (y1 , . . . , yn ) =
0,
caso contrário.
Autor: Leandro Chaves Rêgo
Capítulo 4
Esperança e Momentos de Variáveis
Aleatórias
4.1
O Conceito de Esperança
O conceito de Esperança ou Valor Esperado de uma variável aleatória X, ou a “média” é
tão antigo quanto o próprio conceito de probabilidade. Na verdade, é até possível definir
probabilidade em termos de esperança, mas esta não é uma maneira comum de se apresentar
a teoria. Existem quatro tipos de interpretações da Esperança:
1. Parâmetro m de uma medida de probabilidade, função de distribuição, ou função
probabilidade de massa, também conhecido como média.
2. Um operador linear em um conjunto de variáveis aleatórias que retorna um valor típico
da variável aleatória interpretado como uma medida de localização da variável aleatória.
3. média do resultado de repetidos experimentos independentes no longo prazo.
4. preço justo de um jogo com pagamentos descritos por X.
4.2
Definição da Esperança - Caso Discreto
Vamos motivar a definição de esperança considerando o cálculo do resultado médio de 1000
lançamentos de um dado. Uma maneira de calcular este resultado médio seria somar todos
os resultados e dividir por 1000. Uma maneira alternativa seria calcular a fração p(k) de
todos os lançamentos que tiveram resultado igual a k e calcular o resultado médio através
da soma ponderada:
1p(1) + 2p(2) + 3p(3) + 4p(4) + 5p(5) + 6p(6).
Quando o número de lançamentos se torna grande as frações de ocorrência dos resultados
tendem a probabilidade de cada resultado. Portanto, em geral definimos a esperança de
uma variável discreta como uma soma ponderada onde as probabilidades são os pesos de
ponderação.
56
4.2. DEFINIÇÃO DA ESPERANÇA - CASO DISCRETO
57
Definição 4.2.1: Se X é uma variável aleatória discreta assumindo valores {x1 , x2 , x3 , . . .}
com probabilidade {p1 , p2 , p3 , . . .}, respectivamente, então sua esperança é dada pela fórmula
∑
∑
EX =
xi pi +
xi pi ,
i:xi <0
i:xi ≥0
desde que pelo menos um dos somatórios seja finito. Em caso os dois somatórios não sejam
finitos, a esperança não existe.
Exemplo 4.2.2: Considere uma variável aleatória X tal que: P (X = −1) = 0.25, P (X =
0) = 0.5 e P (X = 2) = 0.25. Então,
EX = −1(0.25) + 0(0.5) + 2(0.25) = 0.25.
Exemplo 4.2.3: Considere uma variável aleatória X tal que: P (X = −a) = P (X = a) =
1/2. Então,
EX = −a(0.5) + a(0.5) = 0.
Note então que muitas variáveis aleatórias diferentes podem ter o mesmo valor esperado
ou esperança. (É só variar o valor de a no exemplo anterior.)
Exemplo 4.2.4: Aleatória. Se X ∈ {1, 2, . . . , n} for uma variável aleatória com distribuição de probabilidade aleatória com parâmetro n, temos que sua esperança é dada por:
EX =
n
∑
k=1
kp(k) =
n
n
∑
1
1 n(n + 1)
1∑
n+1
k =
k=
=
.
n
n
n
2
2
k
k
Onde utilizamos a fórmula da soma dos primeiros n termos de uma progressão aritmética.
Exemplo 4.2.5: Bernoulli. Se X ∈ {0, 1} for uma variável aleatória com distribuição de
probabilidade Bernoulli com parâmetro p, temos que sua esperança é dada por:
EX = 0(1 − p) + 1(p) = p.
Exemplo 4.2.6: Binomial. Se X for uma variável aleatória com distribuição de probabilidade Binomial com parâmetros n e p, temos que sua esperança é dada por:
( )
n
n
∑
∑
n k
n!
n−k
pk (1 − p)n−k
EX =
k
p (1 − p)
=
k
k
k!(n − k)!
k=0
k=1
)
n
n (
∑
∑
(n − 1)!
n − 1 k−1
k
n−k
n
p (1 − p)
= np
p (1 − p)n−k = np.
k
−
1
(k
−
1)!(n
−
k)!
k=1
k=1
Onde utilizamos o Teorema Binomial na última igualdade.
Autor: Leandro Chaves Rêgo
4.2. DEFINIÇÃO DA ESPERANÇA - CASO DISCRETO
58
Exemplo 4.2.7 : Geométrica. Se X for uma variável aleatória com distribuição de
probabilidade Geométrica com parâmetro β, temos que sua esperança é dada por:
EX =
∞
∑
k(1 − β)β k =
k=0
= (1 − β)
∞ ∑
∞
∑
j=1 k=j
βk =
∞
∑
k=1
∞
∑
k(1 − β)β k =
βj =
j=1
∞ ∑
k
∑
(1 − β)β k
k=1 j=1
β
1−β
Onde utilizamos a fórmula da soma infinita de uma progressão geométrica com razão β.
Exemplo 4.2.8: Binomial Negativa. Se X for uma variável aleatória com distribuição
de probabilidade Binomial Negativa com parâmetros r e p, temos que sua esperança é dada
por:
(
)
(
)
∞
∞
∑
∑
k
k
r
k−r+1
EX =
k
p (1 − p)
=(
(k + 1)
pr (1 − p)k−r+1 ) − 1
r
−
1
r
−
1
k=r−1
k=r−1
=(
∞
∑
(k + 1)k!
pr (1 − p)k−r+1 ) − 1
(r
−
1)!(k
−
r
+
1)!
k=r−1
∞
(k + 1)!
r ∑
= (
pr+1 (1 − p)k+1−r ) − 1
p k=r−1 r!(k + 1 − r)!
Substituindo j = k + 1 e s = r + 1 no somatório, temos
∞
(j)!
r ∑
r
EX = (
ps (1 − p)j−s+1 ) − 1 = − 1
p j=s−1 (s − 1)!(j − s + 1)!
p
Onde utilizamos o fato que o somatório é igual soma da função probabilidade de massa
de uma variável aleatória Binomial Negativa para todos os valores que tem probabilidade
positiva, e portanto, é igual a 1.
Exemplo 4.2.9: Poisson. Se X for uma variável aleatória com distribuição de probabilidade Poisson com parâmetros λ, temos que sua esperança é dada por:
∞
∞
∞
∑
∑
e−λ λk ∑ e−λ λk
e−λ λk−1
EX =
k
=
k
=λ
= λ.
k!
k!
(k
−
1)!
k=0
k=1
k=1
Exemplo 4.2.10: Zeta. Se X for uma variável aleatória com distribuição de probabilidade
Zeta com parâmetro α > 2, temos que sua esperança é dada por:
∞
∞
∑
1 ∑ −(α−1) ζ(α − 1)
k −α
=
,
k
=
EX =
k
ζ(α)
ζ(α)
ζ(α)
k=1
k=1
onde ζ(α) =
∑∞
k=1
k −α .
Autor: Leandro Chaves Rêgo
4.3. AS INTEGRAIS DE RIEMMAN-STIELTJES E DE LEBESGUE-STIELTJES
59
Exemplo 4.2.11: Hipergeométrica. Se X for uma variável aleatória com distribuição
de probabilidade Hipergeométrica com parâmetro N, D, n, temos que sua esperança é dada
por:
(D)(N −D)
n
n
∑
∑
D!(N − D)!(N − n)!n!
k
n−k
EX =
k (N )
=
k!(D − k)!(n − k)!(N − D − n + k)!N !
n
k=0
k=1
(D−1)(N −D)
n
n
nD ∑
(D − 1)!(N − D)!(N − n)!(n − 1)!
nD ∑ k−1 n−k
(N −1)
=
=
N k=1 (k − 1)!(D − k)!(n − k)!(N − D − n + k)!(N − 1)!
N k=1
n−1
Substituindo no somatório D∗ = D − 1, k ∗ = k − 1, n∗ = n − 1 e N ∗ = N − 1, temos
(D∗ )(N ∗ −D∗ )
n∗
nD ∑ k∗ n∗ −k∗
nD
(N ∗ )
=
EX =
.
N k∗ =0
N
∗
n
Onde utilizamos o fato que o somatório é igual soma da função probabilidade de massa de
uma variável aleatória Hipergeométrica para todos os valores que tem probabilidade positiva,
e portanto, é igual a 1.
Antes de introduzirmos a definição geral da Esperança de uma variável aleatória qualquer,
vamos estudar um pouco sobre as integrais de Riemann-Stieltjes e de Lebesgue-Stieltjes.
4.3
As integrais de Riemman-Stieltjes e de LebesgueStieltjes
Antes de darmos as definições das integrais de Riemman-Stieltjes e Lebesgue-Stieltjes, vamos
relembrar a definição da integral de Riemann. Uma partição P do intervalo [a, b] é uma
seqüência de pontos {x1 , . . . , xn } tal que a = x1 < x2 < · · · < xn = b; a norma da partição P
é definida como sendo max1≤i≤n−1 xi+1 − xi . Suponha que φ seja uma função real qualquer
definida no intervalo [a, b]. Diz-se que esta função é Riemann integrável se as somas de
Riemann
n−1
∑
φ(yi )(xi+1 − xi ),
i=1
onde yi ∈ [xi , xi+1 ], convergem quando a norma de P tende a zero e este limite é independente
∫b
da escolha dos yi ’s e da partição P . Se esta integral existe denota-se o limite por a φ(x)dx.
A integral de Riemann-Stieltjes é uma generalização de integral de Riemann. Se φ é
uma função contínua definida no intervalo [a, b] e F é uma função de distribuição, define-se
a integral de Riemann-Stieltjes de φ em [a, b], em relação a F , como o limite de somas de
Riemann da forma
n−1
∑
φ(yi )[F (xi+1 ) − F (xi )],
i=1
Autor: Leandro Chaves Rêgo
4.3. AS INTEGRAIS DE RIEMMAN-STIELTJES E DE LEBESGUE-STIELTJES
60
onde a = x1 < x2 < · · · < xn = b, yi é um ponto arbitrário de [xi , xi+1 ], e toma-se o limite
quando a norma de partição P tende a zero. Tal limite existe e é finito sob as condições
descritas, e é representado por
∫
b
φ(x)dF (x).
a
A função φ é chamada de integrando e F de integrador. O limite acima existe mesmo que
F não seja uma função de distribuição basta que ela seja de variação limitada.
Definição 4.3.1: Define-se variação total de uma função f em [a, b] pelo funcional:
V (f, [a, b]) = sup
n
∑
|f (xi+1 ) − f (xi )|,
i=1
onde o supremo é tomado sobre todas as possíveis partições do intervalo fechado [a, b]. Uma
função é de variação limitada se V (f, [a, b]) < ∞.
A integral de Rieman-Stieltjes sobre a reta é uma integral imprópria definida da mesma
maneira que a integral imprópria de Riemann:
∫ ∞
∫ b
φ(x)dF (x) =
lim
φ(x)dF (x),
−∞
a→−∞,b→∞
a
se o limite existe. Esta definição da integral de Riemann-Stietjes pode ser∫ estendida a outras
b
funções φ além das contínuas. Para uma função qualquer φ, define-se a φ(x)dF (x) como
sendo o limite das somas de Riemann descritas acima quando a norma da partição tende a
zero, se este limite existe e é independente das escolhas dos yi ’s e da partição P . O problema
é que mesmo para funções bem simples este limite pode não existir como mostra o próximo
exemplo:
Exemplo 4.3.2: Seja F0 (x) = 1 se x ≥ 0, e F0 (x) = 0, caso contrário. Consideremos a
integral de Riemann-Stieltjes de F0 em [−1, 1] em relação a F0 . Note que se zero não é um
dos pontos da partição, de modo que xi < 0 < xi+1 para algum i, com F0 (xi+1 ) − F0 (xi ) = 1,
então o somatório assume como valor escolhido para yi ser maior que 0, ou não.
Uma integral mais robusta que não sofre desta deficiência é a integral de LebesgueStieltjes. A idéia da integral de Lebesgue-Stieltjes é particionar a imagem da função φ ao
invés de particionar o seu domínio. Diz-se que uma partição P ′ é um refinamento de P
se P ⊆ P ′ , ou seja, quando os intervalos da partição P são particionados na partição P ′ .
Suponha que φ seja não negativa e mensurável em relação a σ-álgebra de Borel. Seja µ for
uma medida nos reais, ou seja, uma função cujo domínio é a σ-álgebra de Borel que tem como
imagem do conjunto vazio zero, é não-negativa e σ-aditiva. Dada uma seqüência {P1 , P2 , . . .}
de partições de [0, ∞) onde Pn = {y1 , y2 , . . . , yn }, yn → ∞, Pi+i é um refinamento de Pi ,
e a norma de Pn tende a zero quando n → ∞, define-se a soma de Lebesgue em relação a
partição Pn como sendo,
n−1
∑
yi µ({x : yi ≤ φ(x) < yi+1 }) + yn µ({x : φ(x) ≥ yn }).
i=1
Autor: Leandro Chaves Rêgo
4.3. AS INTEGRAIS DE RIEMMAN-STIELTJES E DE LEBESGUE-STIELTJES
61
A integral de Lebesgue-Stieltjes de φ em relação a µ é definida como sendo igual ao limite
das somas de Lebesgue, quando n∫→ ∞. Dadas as condições acima este limite sempre existe
(pode ser +∞) e é denotado por φdµ.
Para uma função mensurável φ qualquer, podemos escrever φ = φ+ − φ− , onde φ+ =
max(φ, 0), a parte positiva de φ, e φ− = − min(φ, 0), o módulo da parte negativa de φ, são
funções não-negativas e portanto possuem integral de Lebesgue-Stieltjes. Se φ+ ou φ− possui
integral de Lebesgue-Stieltjes finita em relação a µ, define-se a integral de Lebesgue-Stieltjes
de φ em relação a µ como sendo
∫
∫
∫
+
φdµ = φ dµ − φ− dµ.
Se µ for uma medida de probabilidade em (IR, B) e F for a distribuição ∫de probabilidade acumulada associada
a variável aleatória
X(ω) = ω, então escreve-se ∫ φ(x)dF (x)
∫
∫
(ou simplesmente, φdF ) para denotar φdµ. Em geral, usa-se a notação φ(x)dF (x)
não somente para funções de distribuição, mas para qualquer função F que pode ser escrita como a diferença de duas funções monótonas não-decrescentes, limitadas e contínuas
à direita. Se G for uma função monótona não-decrescente, limitada e contínua à direita,
então dado
∫ um intervalo qualquer I = [x1 , x2∫], defina ν(I) = G(x2 ) − G(x1 ), então usa-se a
notação φ(x)dG(x) para denotar a integral φ(x)dν, onde ν é a única medida que satisfaz
ν(I) = G(x2 ) − G(x1 ) para todo intervalo I. Desta forma, se F = G1 − G2 , onde
∫ G1 e G2
são funções monótonas não-decrescentes,
∫
∫limitadas e contínuas à direita, então φ(x)dF (x)
é utilizado para denotar φ(x)dG1 (x) − φ(x)dG2 (x).
Dada um intervalo qualquer [a, b], define-se a integral de Lebesgue-Stieltjes de φ em
∫
∫b
relação a µ no intervalo [a, b] como sendo φI[a,b] dµ e denota-se por a φdµ.
4.3.1
Propriedades da Integral de Lebesgue-Stieltjes
P1. Quando o integrando é contínuo, a integral de Lebesgue-Stieltjes torna-se uma integral
de Riemman-Stieltjes.
∫b
∫b
P2. a dF = F (b) − F (a). Análoga ao teorema fundamental do cálculo: a φ′ (x)dx =
φ(b) − φ(a), onde φ(x) é a derivada de φ.
P3. Linearidade no integrando e no integrador. Se φ(x) = αf (x) + βg(x), temos
∫
∫
∫
φdF = α f dF + β gdF,
e para H(x) = αF (x) + βG(x), temos
∫
∫
∫
φdH = α φdF + β φdG.
P4. Aditividade. Se −∞ ≤ a < b < c ≤ ∞, então
∫ c
∫ b
∫ c
φdF =
φdF +
φdF.
a
a
b
Autor: Leandro Chaves Rêgo
4.4. DEFINIÇÃO DA ESPERANÇA - CASO GERAL
62
P5. Se F for a função de distribuição de uma variável aleatória discreta, ou seja, se
F (x) =
∞
∑
pi U (x − xi ),
i=1
onde P (X = xi ) = pi e
∑∞
i=1
pi = 1, então
∫
φdF =
∞
∑
pi φ(xi ).
i=1
P6. Se F for a função de distribuição de uma variável aleatória contínua, tendo densidade
f , temos dFdx(x) = f (x) em quase toda parte, e conseqüentemente,
∫
∫
φ(x)dF (x) = φ(x)f (x)dx.
P7. No caso de uma distribuição geral F , vimos que F pode ser decomposta em suas partes
discreta, contínua e singular da seguinte forma F = Fd +Fac +Fs , então por linearidade
do integrador:
∫
∫
∫
∫
φ(x)dF (x) = φ(x)dFd (x) + φ(x)dFac (x) + φ(x)dFs (x).
Se a parte singular for nula, Fs (x) = 0, ∀x, então:
∫
∫
∑
φ(x)dF (x) =
φ(xi )pi + φ(x)f (x)dx,
i
onde pi é o salto de F em xi e f é a derivada de F .
4.4
Definição da Esperança - Caso Geral
Vamos agora motivar a definição da Esperança no caso geral. Consideremos uma seqüência
{P1 , P2 , . . .} de partições de [0, ∞) onde Pn = {y1 , y2 , . . . , yn }, yn → ∞, Pi+i é um refinamento de Pi , e a norma de Pn tende a zero quando n → ∞. Dada uma variável aleatória
não-negativa qualquer X e uma partição Pn desta seqüência, definamos uma outra variável
aleatória Y discreta que aproxima
X assumindo o valor yi quando yi ≤ X < yi+1 e Y = yn
∑
y
I
se X ≥ yn , ou seja, Y = n−1
i=1 i [yi ≤X<yi+1 ] + yn I[X≥yn ] . Como Y é discreta temos que sua
esperança é dada por
EY =
n
∑
i=1
yi P (Y = yi ) =
n−1
∑
yi P (yi ≤ X < yi+1 ) + yn P (X ≥ yn ).
i=1
Note que esta esperança é uma soma de Lebesgue em relação a partição Pn com integrando X
e função integradora dada pela medida de probabilidade P . Note que a medida que pegamos
Autor: Leandro Chaves Rêgo
4.4. DEFINIÇÃO DA ESPERANÇA - CASO GERAL
63
partições mais refinadas na seqüência, Y se torna cada vez uma melhor aproximação para
X. Já que os valores de X e Y ficam cada vez mais próximos é intuitivo requerer que nossa
definição de esperança (média) EX seja igual ao limite de EY quando n → ∞, ou seja
EX = lim
n→∞
n
∑
i=1
yi P (Y = yi ) = lim
n→∞
n−1
∑
∫
yi P (yi ≤ X < yi+1 ) + yn P (X ≥ yn ) =
XdP.
i=1
Logo, EX é definida como sendo a integral de Lebesgue-Stieltjes
de X em relação a medida
∫
de probabilidade P , ou similarmente, EX = XdF , onde F é a função de distribuição
acumulada de X. No caso geral, temos a seguinte definição
Definição 4.4.1: Se X é uma variável aleatória com função de distribuição F , então sua
esperança é dada pela fórmula
∫ ∞
∫
∫ 0
XdF,
XdF +
EX = XdF =
−∞
0
desde que pelo menos uma das integrais seja finita. Em caso as duas integrais não sejam
finitas, a esperança não existe. Caso EX seja finita, diz-se que X é integrável.
Pela Propriedade P7 da integral de Lebesgue-Stieltjes, temos que se F = Fd + Fac + Fs ,
então
∫
∫
∫
∑
EX = XdF =
xi pi + xf (x)dx + xdFs (x),
i
onde pi é o salto de F em xi e f é a derivada de F . Como a parte singular costuma ser
nula, na prática a esperança reduz-se a uma série e/ou uma integral imprópria, usualmente
de Riemann se f for integrável a Riemann.
Exemplo 4.4.2: Considere uma variável aleatória Y com função de distribuição F , tal que

 0 , se x < 0
x , se 0 ≤ x < 1/2
F (x) =

1 , se x ≥ 1/2.
Decompondo em parte discreta e contínua tem-se
{
0
, se x < 1/2
Fd (x) =
1/2 , se x ≥ 1/2,
e

, se x < 0
 0
x
, se 0 ≤ x < 1/2
Fac (x) =

1/2 , se x ≥ 1/2.
Portanto,
1
1
EY = P (Y = ) +
2
2
∫
1/2
ydy =
0
1 1
3
+ = .
4 8
8
Autor: Leandro Chaves Rêgo
4.4. DEFINIÇÃO DA ESPERANÇA - CASO GERAL
64
Exemplo 4.4.3: Uniforme. Se X ∼ U (a, b), então X possui densidade igual a f (x) =
se x ∈ (a, b), e f (x) = 0, caso contrário. Logo, temos que sua esperança é dada por:
∫ b
x
a+b
EX =
dx =
.
2
a b−a
1
b−a
Exemplo 4.4.4 : Exponencial. Se X ∼ Exp(λ), então X possui densidade igual a
fX (x) = λe−λx U (x). Logo, temos que sua esperança é dada por:
∫ ∞
∫ ∞
−e−λx ∞ 1
−λx
−λx ∞
EX =
xλe dx = −xe |0 +
e−λx dx =
| = .
λ 0
λ
0
0
Normal. Se X ∼ N (m, σ), então X possui densidade igual a fX (x) =
Exemplo 4.4.5:
√1 e
σ 2π
−(x−m)2
2σ 2
. Logo, temos que sua esperança é dada por:
∫
EX =
∞
−(x−m)2
1
x √ e 2σ2 dx.
−∞ σ 2π
Fazendo a mudança de variável y = x−m
, temos
σ
∫ ∞
∫ ∞
∫ ∞
σy + m −y2
σy −y2
m −y2
2
2
√
√ e dy +
√ e 2 dy = 0 + m = m.
EX =
e dy =
2π
2π
2π
−∞
−∞
−∞
Exemplo 4.4.6: Cauchy. Se X ∼ Cauchy(a), então X possui densidade igual a fX (x) =
1
· a . Neste caso X não é integrável, ou seja EX não está definida, pois:
π a2 +x2
∫
0
−∞
∫
∞
0
4.4.1
x
a
· 2
dx = −∞, e
π a + x2
x
a
· 2
dx = ∞.
π a + x2
Interpretação Geométrica da Esperança
∫
Por definição, EX = xdF (x), ou seja, EX é a integral da diferencial xdF . Mas xdF é
uma diferencial de área. Para x > 0, xdF é uma diferencial da área da região compreendida
entre
∫ ∞ as curvas x = 0, y = 1, e y = F (x) no plano Euclideano, cuja área total é dada por
(1 − F (x))dx. Para x < 0, −xdF é uma diferencial da área da região compreendida
0
entre
(x) no plano Euclideano,
cuja área total é dada por
∫ 0 as curvas x = 0, y = 0, e y = F
∫∞
∫0
F (x)dx. Logo, temos que EX = 0 (1−F (x))dx− −∞ F (x)dx. Formalmente, podemos
−∞
∫∞
provar isso da seguinte maneira. A prova será dividida em duas etapas: (a) 0 xdF (x) =
∫∞
∫0
∫0
(1 − F (x))dx e (b) −∞ xdF (x) = − −∞ F (x)dx. Comecemos provando (b). Utilizando
0
integração por partes, temos que ∀a < 0,
∫ 0
∫ 0
∫ 0
xdF (x) = −aF (a) −
F (x)dx =
[F (a) − F (x)]dx.
a
a
a
Autor: Leandro Chaves Rêgo
4.4. DEFINIÇÃO DA ESPERANÇA - CASO GERAL
Como F (a) ≥ 0 e a < 0, temos
∫
∫
0
0
xdF (x) ≥ −
a
65
F (x)dx.
a
Como a desigualdade é válida para todo a < 0, temos que tomando o limite quando a → −∞
∫ 0
∫ 0
xdF (x) ≥ −
F (x)dx.
−∞
−∞
Por outro lado, seja λ < 0. Se a < λ, então
∫
∫ 0
∫ 0
[F (a) − F (x)]dx = F (a)(−λ) −
[F (a) − F (x)]dx ≤
F (x)dx,
λ
λ
a
0
e portanto, tomando o limite quando a → −∞, temos que
∫ 0
∫ 0
xdF (x) ≤ −
F (x)dx.
−∞
λ
Como isto é válido para todo λ < 0, tomando o limite quando λ → −∞, temos
∫ 0
∫ 0
xdF (x) ≤ −
F (x)dx,
−∞
−∞
como queríamos demonstrar.
Para parte (a), utilizando integração por partes, temos que ∀b > 0,
∫ b
∫ b
∫ b
xdF (x) = bF (b) −
F (x)dx =
[F (b) − F (x)]dx.
0
0
0
Como F (b) ≤ 1 e 1 − F (x) ≥ 0, temos
∫ b
∫ b
∫
xdF (x) =
[F (b) − F (x)]dx ≤
0
0
∞
[1 − F (x)]dx.
0
Como a desigualdade é válida para todo b > 0, temos que tomando o limite quando b → ∞
∫ ∞
∫ ∞
xdF (x) ≤
[1 − F (x)]dx.
0
0
Por outro lado, seja λ > 0. Se b > λ, então
∫ b
∫ λ
∫ λ
∫ λ
[F (b) − F (x)]dx ≥
[F (b) − F (x)]dx =
[F (b) − 1]dx +
[1 − F (x)]dx
0
0
0
0
∫ λ
= λ[F (b) − 1] +
[1 − F (x)]dx,
0
e portanto, tomando o limite quando b → ∞, temos que
∫ ∞
∫ λ
xdF (x) ≥
[1 − F (x)]dx.
0
0
Como isto é válido para todo λ > 0, tomando o limite quando λ → ∞, temos
∫ ∞
∫ ∞
xdF (x) ≥
[1 − F (x)]dx,
0
0
como queríamos demonstrar.
Autor: Leandro Chaves Rêgo
4.5. ESPERANÇA DE FUNÇÕES DE VARIÁVEIS ALEATÓRIAS
4.5
66
Esperança de Funções de Variáveis Aleatórias
Vamos iniciar considerando o caso discreto.
4.5.1
Caso Discreto
Como vimos anteriormente, se X for uma variável aleatória discreta e se Y = H(X), então
Y também será uma variável aleatória discreta. Conseqüentemente, pode-se calcular EY .
Existem duas maneiras de calcular EY que são equivalentes.
Definição 4.5.1: Seja X uma variável aleatória discreta e seja Y = H(X). Se Y assumir
os seguintes valores y1 , y2 , . . . e se p(yi ) = P (Y = yi ), definimos:
EY =
∞
∑
yi p(yi ).
i=1
Conforme vimos no capítulo anterior podemos determinar as probabilidades p(yi ) dado
que sabemos a distribuição de X. No entanto, podemos encontrar EY sem preliminarmente
encontrarmos a distribuição de probabilidade de Y , partindo-se apenas do conhecimento da
distribuição de probabilidade de X, conforme mostra o seguinte teorema.
Teorema 4.5.2: Seja X uma variável aleatória discreta assumindo os valores x1 , x2 , . . . e
seja Y = H(X). Se p(xi ) = P (X = xi ), temos
EY = E(H(X)) =
∞
∑
H(xi )p(xi ).
i=1
∑∞
Prova: Vamos re-ordenar o somatório i=1 H(xi )p(xi ), agrupando os termos onde xi tem
a mesma imagem de acordo com a função H, ou seja, sejam xi1 , xi2 , . . ., todos os valores xi
tal que H(xij ) = yi para j ≥ 1, onde y1 , y2 , . . . são os possíveis valores de Y . Desse modo
podemos reescrever
∞
∑
∞ ∑
∞
∑
H(xi )p(xi ) =
i=1
H(xij )p(xij ) =
i=1 j=1
∞
∑
yi
i=1
∞
∑
p(xij ) =
j=1
∞
∑
yi p(yi ) = EY.
i=1
Exemplo 4.5.3: Suponha que X é uma variável aleatória Poisson com parâmetro λ. Seja
Y = X 2 , vamos calcular EY . Utilizando o Teorema 4.5.2, temos
EY =
=λ
∞
∑
k
2 −λ λ
k e
k=0
∞
∑
2
−λ
e
k=2
k!
=
∞
∑
k=1
2 −λ λ
k e
k
k!
=
∞
∑
k=1
k(k − 1)e
−λ λ
k
k!
+
∞
∑
k=1
ke−λ
λk
k!
k−2
λ
+ λ = λ2 + λ.
(k − 2)!
Também podemos estender este resultado para o caso
de uma função real de um vetor
⃗ temos que EY = ∑ H(⃗
aleatório. Neste caso, se Y = H(X),
xi )pX⃗ (⃗
xi ), onde os x⃗i são os
i
⃗
valores assumidos pelo vetor aleatório X.
Autor: Leandro Chaves Rêgo
4.6. PROPRIEDADES DA ESPERANÇA
4.5.2
67
Caso Geral
No caso de uma variável aleatória qualquer X também podemos calcular a esperança de uma
função Y = φ(X) de forma similar.
Teorema 4.5.4: Seja X uma variável aleatória qualquer, Y = φ(X) uma outra variável
aleatória, então
∫
∫
EY = ydFY (y) = φ(x)dFX (x),
desde que estas integrais existam.
Prova: A prova no caso geral envolve Teoria da Medida e será omitida.
Uma fórmula análoga também é válida quando consideramos funções de vetores aleatórios.
⃗ um vetor aleatório e Y = φ(X)
⃗ uma variável aleatória. Então,
Teorema 4.5.5: Seja X
∫
∫
EY = ydFY (y) = φdFX⃗ .
4.6
Propriedades da Esperança
As seguintes propriedades são aplicações imediatas da definição de esperança:
1. P (X = c) = 1 ⇒ EX = c.
2. P (X ≥ 0) = 1 ⇒ EX ≥ 0.
3. E(aX) = aEX, onde a um número real qualquer. Esta propriedade segue facilmente
da expressão da esperança de uma função de variável aleatória.
4. E(X + Y ) = EX + EY . No caso discreto, note que
∑∑
∑ ∑
∑∑
E(X + Y ) =
(xi + yj )p(xi , yj ) =
xi
p(xi , yj ) +
yj p(xi , yj )
=
∑
i
i
xi p(xi ) +
j
∑
j
yj
∑
i
p(xi , yj ) = EX +
i
∑
j
i
j
yj p(yj ) = EX + EY.
j
No caso geral, temos que
∫ ∫
E(X + Y ) = E(φ(X, Y )) =
(x + y)dFX,Y (x, y),
e pela linearidade da integral obtemos
∫ ∫
∫ ∫
E(X + Y ) =
xdFX,Y (x, y) +
ydFX,Y (x, y) = EX + EY.
Autor: Leandro Chaves Rêgo
4.6. PROPRIEDADES DA ESPERANÇA
Corolário 4.6.1: E(
∑n
i
ai Xi ) =
∑n
i
68
ai EXi .
Prova: Aplicação das duas propriedades anteriores e indução matemática.
5. P (X ≥ Y ) = 1 ⇒ EX ≥ EY . Propriedade 5 segue da propriedades 2 e do corolário
anterior, pois
P (X ≥ Y ) = P (X − Y ≥ 0),
o que, pela propriedade 2, implica que E(X − Y ) ≥ 0. Pelo corolário, temos que
E(X − Y ) = EX − EY , ou seja podemos concluir que EX − EY ≥ 0.
∏n
6. Se
∏n{X1 , . . . , Xn } são variáveis aleatórias mutuamente independentes, então E( i=1 Xi ) =
i=1 EXi . Provaremos esta propriedade nos casos discreto e contínuo. No caso discreto, note que
n
∏
∑ ∑
E( Xi ) =
···
xi1 · · · xin p(xi1 , . . . , xin )
i=1
=
∑
i1
···
∑
i1
in
xi1 · · · xin
in
n
∏
p(xij ) =
j=1
∑
xi1 p(Xi1 ) · · ·
i1
No caso contínuo, temos que fX⃗ (⃗x) =
∏n
i=1
∑
xin p(xin ) =
in
n
∏
EXi .
i=1
fXi (xi ), logo
∫
∫
n
∏
E( Xi ) = · · · x1 · · · xn fX⃗ (⃗x)dx1 · · · dxn
i=1
∫
=
···
∫ ∏
n
xi fXi (xi )dx1 · · · dxn =
i=1
n ∫
∏
xi fXi (xi )dxi =
n
∏
EXi .
i=1
i=1
De maneira análoga, pode-se provar a seguinte generalização deste
se {X1 , . . . , Xn }
∏n resultado: ∏
são variáveis aleatórias mutuamente independentes, então E( i=1 G(Xi )) = ni=1 EG(Xi ).
7. Se Y for uma variável aleatória que assume valores inteiros não-negativos, temos que
EY =
∞
∑
kP (Y = k) =
k=1
∞ ∑
k
∑
P (Y = k),
k=1 j=1
trocando a ordem dos somatórios:
EY =
∞ ∑
∞
∑
j=1 k=j
P (Y = k) =
∞
∑
P (Y ≥ j).
j=1
8. (Desigualdade de Jensen) Seja φ uma função mensurável e convexa definida na reta.
Se X é integrável, então Eφ(X) ≥ φ(EX).
Autor: Leandro Chaves Rêgo
4.6. PROPRIEDADES DA ESPERANÇA
69
Prova: Pela convexidade de φ, dado algum ponto (x0 , φ(x0 ) do gráfico de φ, existe
uma reta que passa por esse ponto e fica sempre abaixo do gráfico de φ, ou seja, existe
algum λ tal que
φ(x) ≥ φ(x0 ) + λ(x − x0 ), ∀x.
Logo, pela monotonicidade e linearidade da esperança, temos
Eφ(X) ≥ φ(x0 ) + λ(EX − x0 ).
Em particular, para x0 = EX, temos Eφ(X) ≥ φ(EX).
O próximo Lema estabelece um critério para integrabilidade de variáveis aleatórias.
Lema 4.6.2: Seja X uma variável aleatória qualquer. Então,
∞
∑
P (|X| ≥ n) ≤ E|X| ≤ 1 +
n=1
e, portanto, X é integrável se, e somente se,
∑∞
n=1
∞
∑
P (|X| ≥ n),
n=1
P (|X| ≥ n) < ∞.
Prova: Se x ≥ 0, seja ⌊x⌋ a parte inteira de x. Então, a variável aleatória ⌊|X|⌋ assume o
valor k quando k ≤ |X| < k + 1 e 0 ≤ ⌊|X|⌋ ≤ |X| ≤ ⌊|X|⌋ + 1, então pela monotonicidade
e linearidade da esperança temos:
0 ≤ E⌊|X|⌋ ≤ E|X| ≤ 1 + E⌊|X|⌋.
Como ⌊|X|⌋ é uma variável aleatória que só assume valores inteiros não-negativos, temos
E⌊|X|⌋ =
∞
∑
P (⌊|X|⌋ ≥ n) =
n=1
logo
∞
∑
n=1
P (|X| ≥ n) ≤ E|X| ≤ 1 +
∞
∑
P (|X| ≥ n),
n=1
∞
∑
P (|X| ≥ n).
n=1
Se X + = max(X, 0) e X − = − min(X, 0), temos que X = X + − X − e |X| = X + + X − .
Por definição, temos que EX < ∞ se, e somente se, EX + < ∞ e EX − < ∞. Portanto,
vemos que EX < ∞ se, e somente se, E|X| < ∞. De forma análoga, pode-se concluir que
Eφ(X) < ∞ se, e somente se, E|φ(X)| < ∞ para qualquer função mensurável φ. O próximo
teorema nos dá um outro critério para integrabilidade de uma variável aleatória.
Teorema 4.6.3 : Sejam X e Y variáveis aleatórias tais que Y ≥ 0, Y é integrável, e
|X| < Y . Então, X é integrável.
Prova: Note que 0 ≤ |X| ≤ Y implica que 0 ≤ E|X| ≤ EY . Portanto, se EY < ∞, temos
que E|X| < ∞, o que por sua vez implica que EX < ∞.
Autor: Leandro Chaves Rêgo
4.7. MOMENTOS
4.7
70
Momentos
Momentos dão informações parciais sobre a medida de probabilidade P , a função de distribuição acumulada, ou a função probabilidade de massa de uma variável aleatória X. Momentos
de X são esperanças de potências de X.
Definição 4.7.1: Para qualquer inteiro não-negativo n, o n-ésimo momento da variável
aleatória X é EX n , se esta esperança existe.
Na seção anterior, vimos que o segundo momento de uma variável aleatória Poisson com
parâmetro λ é dado por: λ2 + λ. Vamos agora calcular o segundo momento de uma variável
aleatória X Binomial com parâmetros n e p:
( )
n
n
∑
∑
n!
2
2 n
k
n−k
EX =
k
p (1 − p)
=
k2
pk (1 − p)n−k =
k
k!(n
−
k)!
k=0
k=1
n
∑
n
∑
n!
n!
pk (1 − p)n−k +
k
pk (1 − p)n−k
k!(n − k)!
k!(n − k)!
k=1
k(k − 1)
k=1
n(n − 1)p
2
n
∑
k=2
= n(n − 1)p
2
(n − 2)!
pk−2 (1 − p)n−k + np
(k − 2)!(n − k)!
m
∑
j=0
(m)!
pj (1 − p)m−j + np = n(n − 1)p2 + np.
(j)!(m − j)!
Teorema 4.7.2: Se o k-ésimo momento de uma variável aleatória existir, então todos os
momentos de ordem menores do que k também existem.
Prova: Por hipótese, temos que E|X k | < ∞, logo E(1 + |X k |) < ∞. Como para qualquer
j tal que 0 < j < k, |X j | ≤ 1 + |X k |, e 1 + |X k | é integrável, temos que |X j | também é
integrável.
Vamos agora enunciar dois teoremas importantes que tratam da convergência de esperanças de variáveis aleatórias. Neste caso, estaremos tratando de convergência pontual de
variáveis aleatórias, ou seja, Xn → X se, e somente se, Xn (w) → X(w) para todo w ∈ Ω.
No próximo capítulo, veremos outras noções de convergência de variáveis aleatórias.
Teorema 4.7.3: Teorema da Convergência Monótona. Sejam X, X1 , X2 , . . . variáveis
aleatórias. Se 0 ≤ Xn ↑ X, então, EXn ↑ EX.
Teorema 4.7.4: Teorema da Convergência Dominada. Sejam Y, X, X1 , X2 , . . . variáveis aleatórias. Considere que Y seja integrável, |Xn | ≤ Y e Xn → X. Assim X e Xn são
integráveis e EXn → EX.
O próximo exemplo mostra que nem sempre Xn → X ⇒ EXn → EX.
Exemplo 4.7.5: Seja Y ∼ U (0, 1). Considere a seguinte seqüência {X1 , X2 , . . .} de variáveis aleatórias: Xn (ω) = n se Y (ω) ∈ (0, 1/n) e Xn (ω) = 0 em caso contrário. Então, temos
que Xn (ω) → 0, ∀ω. Mas, EXn = 1 ̸= 0 = E0, ou seja, EXn 9 0.
Autor: Leandro Chaves Rêgo
4.7. MOMENTOS
4.7.1
71
Momentos Centrais
Definição 4.7.6: Se X é uma variável aleatória seu n-ésimo momento central é: E(X −
EX)n , se esta esperança existir.
Note que o primeiro momento central é zero, pois E(X − EX) = EX − EEX = EX −
EX = 0. O segundo momento central é conhecido como variância e denota-se por V arX.
A variância pode ser também calculada por:
V arX = E(X − EX)2 = E(X 2 − 2XEX + (EX)2 ) = EX 2 − 2E(XEX) + E((EX)2 )
= EX 2 − 2(EX)2 + (EX)2 = EX 2 − (EX)2 .
Do Teorema Binomial e da linearidade da esperança, temos
n ( )
∑
n
E(X − EX) =
(−EX)n−k EX k
k
k=0
n
e
EX = E(X − EX + EX) =
n
n
n ( )
∑
n
k=0
k
(EX)n−k E(X − EX)k .
Como um corolário, temos que o n-ésimo momento central existe se, e somente se, o
n-ésimo momento existe.
Exemplo 4.7.7: Considere uma variável aleatória X tal que
P (X = m − a) = P (X = m + a) =
1
1
⇒ EX k = [(m − a)k + (m + a)k ].
2
2
1
EX = m, EX 2 = [2m2 + 2a2 ] = m2 + a2 , V arX = a2 .
2
Este exemplo, mostra que podemos encontrar uma variável aleatória bem simples possuindo
qualquer esperança e variância predeterminadas.
O desvio-padrão√ σ de uma variável aleatória X é definido como a raiz quadrada da
variância, σ(X) = V arX.
Propriedades da Variância e de outros Momentos
As seguintes propriedades da variância são conseqüências imediatas de sua definição.
1. V arX ≥ 0.
2. Se X = c, V ar(X) = 0.
Prova: Temos que EX = c, logo V ar(X) = E(X − c)2 = E(0) = 0.
Autor: Leandro Chaves Rêgo
4.7. MOMENTOS
72
3. V ar(X + a) = V arX, onde a é uma constante real.
Prova:
V ar(X + a) = E(X + a)2 − (E(X + a))2
= EX 2 + 2aEX + a2 − (EX)2 − 2aEX − a2 = EX 2 − (EX)2 = V arX.
4. V ar(aX) = a2 V arX
Prova:
V ar(aX) = E(aX)2 − (E(aX))2 = a2 EX 2 − a2 (EX)2 = a2 V arX.
5. Se X e Y forem variáveis aleatórias mutuamente independentes, então V ax(X + Y ) =
V arX + V arY .
Prova:
V ar(X + Y ) = E(X + Y )2 − [E(X + Y )]2
= E(X 2 + 2XY + Y 2 ) − (EX)2 − 2EXEY − (EY )2
= EX 2 + EY 2 − (EX)2 − (EY )2 + 2E(XY ) − 2EXEY = V arX + V arY
6. Se X1 , . . . , Xn são variáveis aleatórias independentes, então V ar(X1 +· · · Xn ) = V arX1 +
· · · + V arXn . Esta propriedade segue da propriedade anterior e de uma aplicação de
indução matemática.
7. Desigualdade de Chebyshev Generalizada. Dado um conjunto A e uma função
g(x) tal que ∀x g(x) ≥ IA (x), tem-se que P (X ∈ A) ≤ min(1, Eg(X)).
Prova: Pela monotonicidade da Esperança, temos que Eg(X) ≥ EIA (X) = P (X ∈
A). Mas, como a cota superior pode exceder 1, temos que min(1, Eg(X)) ≥ P (X ∈ A).
Corolário 4.7.8: Seja X uma variável aleatória, então para todo ϵ > 0, P (|X| ≥ ϵ) ≤
E|X|
.
ϵ
Prova: Escolha A = {x : |x| ≥ ϵ} e g(x) =
P (|X| ≥ ϵ) ≤ E|X|
.
ϵ
|x|
.
ϵ
Note que g(x) ≥ IA (x), então
Corolário 4.7.9: Se Z ≥ 0 e EZ = 0, então P (Z = 0) = 1.
Autor: Leandro Chaves Rêgo
4.7. MOMENTOS
73
Prova: P (Z ≥ n1 ) ≤ nEZ = 0. Como [Z > 0] = ∪n [Z ≥ n1 ], temos que
P (Z > 0) = P (∪n [Z ≥
∑
1
1
]) ≤
P (Z ≥ ) = 0.
n
n
n
Portanto, P (Z = 0) = 1 − P (Z > 0) = 1.
Note que este último corolário implica que, quando V ar(X) = 0, ou seja E(X−EX)2 =
0, temos que P (X = EX) = 1, ou seja X é constante com probabilidade 1.
Corolário 4.7.10: Desigualdade (Original) de Chebyshev. Seja X uma variável
aleatória, então P (|X − EX| ≥ ϵ) ≤ V arX
.
ϵ2
2
Prova: Escolha A = {x : |x| ≥ ϵ} e g(x) = xϵ2 . Note que g(x) ≥ IA (x), então pelo
2
teorema anterior, P (X ∈ A) = P (|X| ≥ ϵ) ≤ EX
. Substituindo X por X − EX,
ϵ2
V arX
temos P (|X − EX| ≥ ϵ) ≤ ϵ2 .
Note que a desigualdade de Chebyshev converte conhecimento sobre um momento de
segunda ordem ou uma variância numa cota superior para a probabilidade da cauda
de uma variável aleatória.
8. Se X e Y são variáveis aleatórias em (Ω, A, P ) tais que E|X t | < ∞ e E|Y t | < ∞, então
E|X + Y |t < ∞. Prova: |X + Y | ≤ |X| + |Y | ≤ 2 max(|X|, |Y |). Portanto, |X + Y |t ≤
2t max(|X|t , |Y |t ) ≤ 2t (|X|t + |Y |t ). Logo, E|X + Y |t ≤ 2t (E|X|t + E|Y |t ) < ∞.
Como E|X|t < ∞ obviamente implica E|aX|t < ∞, ∀a ∈ IR, esta propriedade diz que
a classe de variáveis aleatórias em (Ω, A, P ) possuidoras do t-ésimo momento finito é
um espaço vetorial ou espaço linear.
9. V arX = E(X − µ)2 = minc∈IR E(X − c)2 .
Prova:
(X − c)2 = (X − µ + µ − c)2 = (X − µ)2 + 2(µ − c)(X − µ) + (µ − c)2 ,
logo
E(X − c)2 = E(X − µ)2 + 2(µ − c)(EX − µ) + (µ − c)2
= V arX + (µ − c)2 .
Portanto, E(X − c)2 ≥ E(X − µ)2 , ∀c ∈ IR.
Autor: Leandro Chaves Rêgo
4.8. MOMENTOS CONJUNTOS
4.8
74
Momentos Conjuntos
Podemos definir a noção de momento quando lidamos com vetores aleatórios.
⃗ = (X1 , X2 , . . . , Xk ) um vetor aleatório k-dimensional. Então, os
Definição 4.8.1: Seja X
⃗ são da forma E(∏k X ji ), onde ji ’s são inteiros positivos, se
momentos conjuntos de X
i
i=1
esta esperança existir. De forma análoga ao caso unidimensional pode-se definir também
momentos conjuntos centrais.
No caso bidimensional, temos que a correlação e a covariância são momentos conjuntos
que são medidas do grau de dependência linear entre duas variáveis.
Definição 4.8.2: A correlação entre duas variáveis aleatórias X e Y é dada por EXY se
esta esperança existe. A covariância entre elas é dada por Cov(X, Y ) = E[(X − EX)(Y −
EY )] = EXY − (EX)(EY ).
Note que Cov(X, X) = V arX. Pela prova da propriedade 5 de variância, vemos que a
seguinte relação é válida:
V ar(X + Y ) = V arX + V arY + 2Cov(X, Y ).
Diz-se que duas varáveis são não-correlacionadas se Cov(X, Y ) = 0. Como já provamos
que se X e Y são independentes, então EXY = EXEY . Temos que se X e Y são independentes, elas necessariamente são não-correlacionadas. O contrário nem sempre é verdadeiro
como o próximo exemplo ilustra.
Exemplo 4.8.3: Se X é uma variável aleatória tal que P (X = −a) = P (X = a) = 1/2 e
Y = X 2 , temos que EXY = −a3 (1/2) + a3 (1/2) = 0 e EX = −a(1/2) + a(1/2) = 0. Logo,
EXY = EXEY = 0, ou seja, Cov(X, Y ) = 0. Porém, X e Y não são independentes, pois
Y é uma função de X.
Vejamos agora uma expressão para a variância da soma de n variáveis aleatórias.
Teorema 4.8.4: Sejam X1 , X2 , . . . , Xn variáveis aleatórias tais que V ar(Xi ) < ∞, então
V ar(X1 + · · · + Xn ) =
n
∑
V arXi + 2
i=1
∑
Cov(Xi , Xj ).
i<j
Prova:
V ar(X1 + · · · + Xn ) = E(X1 + · · · + Xn − E(X1 + · · · + Xn ))2
n
n
∑
∑
∑
2
= E( (Xi − EXi )) = E[ (Xi − EXi )2 + 2
(Xi − EXi )(Xj − EXj )]
=
i=1
n
∑
∑
i=1
i<j
V ar(Xi ) + 2
i=1
i<j
Cov(Xi , Xj ).
Autor: Leandro Chaves Rêgo
4.8. MOMENTOS CONJUNTOS
75
Corolário 4.8.5 : Sejam X1 , X2 , . . . , Xn variáveis aleatórias tais que V ar(Xi ) < ∞ e
Cov(Xi , Xj ) = 0 para i ̸= j, então
V ar(X1 + · · · + Xn ) =
n
∑
V arXi .
i=1
O próximo teorema trata de uma importante desigualdade em teoria da probabilidade:
Teorema 4.8.6: (E(XY ))2 ≤ EX 2 EY 2 e (Cov(X, Y ))2 ≤ V arXV arY .
Prova: (aX + Y )2 ≥ 0 ⇒ E(aX + Y )2 ≥ 0 ⇒ a2 EX 2 + 2aEXY + EY 2 ≥ 0. Observe
que esta equação do segundo grau em a não pode ter duas raízes reais diferentes, pois caso
contrário essa expressão seria negativa para os valores entre as raízes. Então, utilizando a
regra do discriminante, temos que
4(EXY )2 − 4EX 2 EY 2 ≤ 0,
e temos a primeira desigualdade. A segunda desigualdade segue da primeira trocando X por
X − EX e Y por Y − EY na expressão da primeira desigualdade.
O coeficiente de correlação entre duas variáveis aleatórias X e Y é dado por
ρ(X, Y ) = √
Cov(X, Y )
V ar(X)V ar(Y )
.
O teorema anterior provou que |ρ(X, Y )| ≤ 1. O próximo teorema mostra que o módulo do
coefieciente de correlação entre duas variáveis é igual a 1 se, e somente se, as variáveis são
linearmente dependentes.
Teorema 4.8.7: Sejam X e Y variáveis aleatórias com variâncias finitas e positivas. Então,
(a) ρ(X, Y ) = 1 se, e somente se, P (Y = aX + b) = 1 para algum a > 0 e b ∈ IR.
(b) ρ(X, Y ) = −1 se, e somente se, P (Y = aX + b) = 1 para algum a < 0 e b ∈ IR.
Prova: Parte (a). Como ( √X−EX − √Y −EY )2 ≥ 0, temos que
V ar(X)
V ar(Y )
X − EX
Y − EY 2
0 ≤ E( √
−√
)
V ar(X)
V ar(Y )
X − EX 2
Y − EY 2
2
= E( √
) + E( √
) −√
E((X − EX)(Y − EY ))
V ar(X)
V ar(Y )
V ar(X)V ar(Y )
V arX V arY
2Cov(X, Y )
=
+
−√
= 2 − 2ρ(X, Y ).
V arX V arY
V ar(X)var(Y )
Se ρ(X, Y ) = 1, então
X − EX
Y − EY 2
E( √
−√
) = 0,
V ar(X)
V ar(Y )
Autor: Leandro Chaves Rêgo
4.8. MOMENTOS CONJUNTOS
76
o que por sua vez implica que
X − EX
Y − EY
P (√
=√
) = 1,
V ar(X)
V ar(Y )
em outras palavras,
√
V arY
P (Y = EY + √
(X − EX)) = 1.
V arX
A prova da parte (b) é análoga, substituindo o sinal “+” por “-” na expressão acima.
Deixamos para o leitor verificar os detalhes.
O próximo teorema apresenta uma nova relação entre momentos conjuntos de variáveis
aleatórias. Ele é conhecido como Desigualdade de Hölder.
Teorema 4.8.8: Suponha que p e q satisfazem: p > 1, q > 1, e
E(|X|p ) < ∞ e E(|X|q ) < ∞, temos que
1
p
+
1
q
= 1. Então, se
E(|XY |) ≤ (E|X|p )1/p (E|Y |q )1/q .
Prova: A prova da desigualdade de Hölder utiliza um argumento de convexidade. Como
|X|p ≥ 0 (resp., |X|q ≥ 0), já vimos que se E|X|p = 0, então P (X = 0) = 1. Portanto, em
ambos os casos E(|XY |) = 0 e a desigualdade de Hölder é válida. Considere então o caso
em que o lado direito da desigualdade de Hölder é estritamente positivo.
Note que para a > 0 e b > 0, existe s, t ∈ IR tal que
t
s
a = exp( ) e b = exp( ).
p
q
Como a função exponencial é convexa e p−1 + q −1 = 1, temos por convexidade que
s t
exp( + ) ≤ p−1 exp(s) + q −1 exp(t),
p q
ou pela definição de s, t
Agora substituindo a por
ab ≤ p−1 ap + q −1 bq .
|X|
(E(|X|p ))1/p
e b por
|Y |
,
(E(|Y |q ))1/q
temos
|XY |
|X|
|Y |
−1
p
−1
≤
p
(
)
+
q
(
)q .
p
1/p
q
1/q
p
1/p
q
1/q
(E(|X| )) (E(|Y | ))
(E(|X| ))
(E(|Y | ))
Finalmente, tomando o valor esperado, temos
E|XY |
(E(|X|p ))1/p (E(|Y |q ))1/q
E|X|p p
E|Y |q q
−1
)
+
q
(
)
(E(|X|p ))
(E(|Y |q ))
= p−1 + q −1 = 1.
≤ p−1 (
Autor: Leandro Chaves Rêgo
Capítulo 5
Distribuição e Esperança Condicionais
5.1
Distribuição condicional de X dada Y discreta
Seja X uma variável aleatória no espaço de probabilidade (Ω, A, P ), e seja A um evento
aleatório tal que P (A) > 0. Usando o conceito de probabilidade condicional, podemos
definir a distribuição condicional de X dado o evento A por
P (X ∈ B|A) =
P ([X ∈ B] ∩ A)
,
P (A)
para B boreliano. Pode-se verificar facilmente que isto define uma probabilidade nos borelianos verificando-se os axiomas. Podemos interpretar a distribuição condicional de X dado
A como a nova distribuição que se atribui a X quando sabe-se da ocorrência do evento A.
A função de distribuição associada à distribuição condicional é chamada função distribuição
condicional de X dado A:
FX (x|A) = P (X ≤ x|A).
A esperança condicional de X dado A é a esperança da distribuição condicional, definida
por
∫
E(X|A) = xdFX (x|A),
se esta esperança existe.
Agora suponhamos que os eventos aleatórios A1 , A2 , . . . formem uma partição (finita ou
enumerável) de Ω. Pelo Teorema da Probabilidade Total, temos
∑
P (X ∈ B) =
P (An )P (X ∈ B|An ), ∀B ∈ B,
n
e
FX (x) = P (X ≤ x) =
=
∑
∑
P (An )P (X ≤ x|An )
n
P (An )FX (x|An ), ∀x,
n
77
5.1. DISTRIBUIÇÃO CONDICIONAL DE X DADA Y DISCRETA
78
e se a esperança de X existe,
∫
∫
∑
EX = xdFX (x) = xd(
P (An )FX (x|An ))
=
∑
∫
P (An )
n
xdFX (x|An ) =
∑
n
P (An )E(X|An ).
n
Em outras palavras, a distribuição de X (resp., função de distribuição, esperança de X) é
uma média ponderada da distribuição condicional (resp., função de distribuição condicional,
esperança condicional de X) dado An , onde os pesos são as probabilidades dos membros An
da partição.
Consideremos agora o caso em que a partição do espaço amostral é gerada por uma
variável aleatória discreta. Para tanto, seja Y uma variável aleatória discreta em (Ω, A, P ),
tomando somente os valores y1 , y2 , . . .. Então, os eventos An = [Y = yn ] formam uma
partição de Ω. Neste caso, a distribuição
P (X ∈ B|Y = yn ) = P (X ∈ B|An ),
para B boreliano, é chamada de distribuição condicional de X dado que Y = yn , e valem as
fórmulas
∑
P (X ∈ B) =
P (Y = yn )P (X ∈ B|Y = yn ), B boreliano
FX (x) =
EX =
∑
∑
n
P (Y = yn )FX (x|Y = yn )
n
P (Y = yn )E(X|Y = yn ),
n
onde vale a última fórmula se EX existe; em particular, se X é integrável.
Notemos que para B fixo, P (X ∈ B|Y = yn ) é função de yn , digamos g(yn ). Se definirmos
g(y) = P (X ∈ B|Y = y) arbitrariamente para y ∈
/ {yn : n ≥ 1}, por exemplo, g(y) = P (X ∈
B), então teremos
∫
∫
P (X ∈ B) = P (X ∈ B|Y = y)dFY (y) = g(y)dFY (y),
pelas propriedades da integral de Lebesgue no caso de Y discreto. As outras fórmulas
possuem interpretações análogas, logo teremos
∫
P (X ∈ B) = P (X ∈ B|Y = y)dFY (y), B boreliano
∫
FX (x) = FX (x|Y = y)dFY (y)
∫
EX = E(X|Y = y)dFY (y).
Autor: Leandro Chaves Rêgo
5.2. DISTRIBUIÇÃO CONDICIONAL DE X DADA Y : CASO GERAL
79
Essas fórmulas valem também no caso geral, como veremos adiante. Salientamos que a
esperança precisa existir para que a última fórmula valha. De fato, quando X for integrável,
φ(y) = E(X|Y = y) será finito. Nesse caso, a variável aleatória φ(Y ) será chamada de
esperança condicional de X dada Y e será indicada por φ(Y ) = E(X|Y ). Notemos que
E(X|Y = y) é um valor particular da variável aleatória E(X|Y ): é o valor quando Y = y.
Portanto, a última fórmula pode ser reescrita assim
EX = Eφ(Y ) = E(E(X|Y )).
Em outras palavras, a esperança de X é igual à esperança da esperança condicional de X
dada Y .
Exemplo 5.1.1: Consideremos o seguinte experimento em que participam dois jogadores,
I e II. Suponhamos que o jogador I lance uma moeda honesta n vezes, obtendo k caras, onde
0 ≤ k ≤ n, e que depois disso o jogador II lance a mesma moeda k vezes. Seja X o número
de caras obtidas pelo jogador II. Qual a esperança de X supondo independência de todos os
lançamentos?
Seja Y o número de caras nos n lançamentos do jogador I. Decorre das condições do
experimento que Y ∼ b(n, 12 ) e que X|Y = k ∼ b(k, 21 ). Por isso, a esperança condicional
de X dado que Y = k é a esperança da distribuição b(k, 21 ): E(X|Y = k) = k2 , ou seja,
E(X|Y ) = Y2 . Utilizando a fórmula, temos
Y
n
EX = E(E(X|Y )) = E( ) = .
2
4
Exemplo 5.1.2: Consideremos outro jogo que conta com a participação de dois jogadores
I e II. Neste jogo, o jogador I vai fazer uma seqüência de lançamentos independentes de uma
moeda que tem probabilidade p de dar cara, onde 0 < p < 1. Antes do jogador I começar,
o jogador II observa uma variável aleatória N tendo distribuição P oisson(λ), onde λ > 0.
Supomos que N seja independente da seqüência de lançamentos do jogador I. Se o jogador
II observar N = n, ele vai parar o jogador I depois de ter feito n lançamentos (se N = 0, o
jogador II não permite nenhum lançamento). Se S for o número de caras observadas até o
jogador I parar, qual é a esperança de S?
Solução: Como a seqüência de lançamentos é independente de N , a distribuição condicional de S dado que N = n é binomial(n, p). Portanto, E(S|N = n) = np, ou seja,
E(S|N ) = N p. Logo,
ES = E(N p) = pEN = pλ.
5.2
Distribuição condicional de X dada Y : caso geral
Nosso objetivo nesta seção é definir a distribuição condicional de X dado que Y = y para todo
y ∈ R e todo par de variáveis aleatórias X e Y definidas no mesmo espaço de probabilidade
(Ω, A, P ). Na seção anterior definimos a distribuição condicional dado que Y = y quando
P (Y = y) > 0; portanto nosso problema agora é como definir distribuição condicional
quando P (Y = y) = 0. No caso discreto essa definição era arbitrária, pois o conjunto
Autor: Leandro Chaves Rêgo
5.2. DISTRIBUIÇÃO CONDICIONAL DE X DADA Y : CASO GERAL
80
B0 = {yn : n = 1, 2, . . .}c também tinha probabilidade zero. Mas é evidente que essa solução
não serve no caso geral, já que no caso continuo P (Y = y) = 0 para todo y ∈ R.
Para termos uma intuição sobre a definição formal da distribuição condicional no caso
geral, consideremos novamente o caso discreto. Pelas fórmulas obtidas na seção anterior a
distribuição (resp., função de distribuição, esperança) de X é determinada pela distribuição
Y e a distribuição (resp., função de distribuição, esperança) condicional de X dada Y . De
fato, o Teorema da Probabilidade Total nos dá um resultado muito mais forte: a distribuição
conjunta de X e Y é determinada pela distribuição de Y e a distribuição condicional de X
dada Y . Para ver isto, basta notar que para todo x e y,
∑
FX,Y (x, y) = P (X ≤ x, Y ≤ y) =
P (X ≤ x, Y = yn )
=
n:yn ≤y
∑
P (Y = yn )P (X ≤ x|Y = yn ) =
n:yn ≤y
∫ y
=
−∞
∑
P (Y = yn )FX (x|Y = yn )
n:yn ≤y
FX (x|Y = t)dFY (t).
Vemos então que no caso discreto a função de distribuição conjunta é uma espécie de
composta da função de distribuição marginal de Y com a função de distribuição condicional
de X dada Y . E pode-se provar que para todo par de variáveis aleatórias X e Y , definidas
no mesmo espaço de probabilidade, existe uma, e somente uma, família de funções de distribuição condicional satisfazendo a condição acima. Isto justifica a seguinte definição formal
para a distribuição condicional de X dada Y :
Definição 5.2.1: Sejam X e Y variáveis aleatórias definidas no mesmo espaço de probabilidade (Ω, A, P ). Uma função P (X ∈ B|Y = y), definida para B boreliano e y ∈ R, será
chamada uma distribuição condicional (regular) para X dada Y se
(i) para todo y ∈ R fixo, P (X ∈ B|Y = y) define uma probabilidade na σ-álgebra de
Borel; e
(ii) para todo B boreliano fixo, P (X ∈ B|Y = y) é função mensurável de y e para todo
(x, y) ∈ R2 ,
∫ y
FX (x|Y = t)dFY (t) = FX,Y (x, y).
−∞
O próximo teorema prova que esta definição determina uma única distribuição condicional
quase certamente.
Teorema 5.2.2: Sejam X e Y variáveis aleatórias em (Ω, A, P ). Então existe uma distribuição condicional regular para X dada Y . Existe apenas uma, no sentido de que duas distribuições condicionais são iguais quase certamente: se P1 (X ∈ B|Y = y) e P2 (X ∈ B|Y = y)
são ambas distribuições condicionais para X dada Y , então existe um boreliano B0 tal que
P (Y ∈ B0 ) = 1 e P1 (X ∈ B|Y = y) = P2 (X ∈ B|Y = y), para todo B boreliano e y ∈ B0 .
Autor: Leandro Chaves Rêgo
5.2. DISTRIBUIÇÃO CONDICIONAL DE X DADA Y : CASO GERAL
81
Prova: Omitida.
Existe uma outra alternativa para se calcular a distribuição condicional de X dada Y
que utiliza uma aproximação da definição do caso discreto. Para tanto, seja I um intervalo
pequeno de comprimento ∆y e que contém o ponto y. Tomemos como aproximação para a
probabilidade condicional de X pertencer a B dado que Y = y, a probabilidade condicional
do mesmo evento dado que Y ∈ I, ou seja,
P (X ∈ B|Y = y) ≈ P (X ∈ B|Y ∈ I) =
P (X ∈ B, Y ∈ I)
.
P (Y ∈ I)
O seguinte teorema prova que esta maneira alternativa de calcular a distribuição condicional de X dado Y quase sempre coincide com a Definição 5.2.1.
Teorema 5.2.3: Para cada B boreliano fixo, o limite na definição 4.2 existe quase certamente, i.e., P (Y ∈ {y : limite existe em y}) = 1. Além disso, para cada B fixo, o
limite é igual a P (X ∈ B|Y = y) como definido na Definição 5.2.1, quase certamente, ou
seja, o conjunto dos y’s para os quais o limite converge para P (X ∈ B|Y = y) conforme a
Definição 5.2.1 tem probabilidade 1.
Tanto a Definição 5.2.1 quanto o método da aproximação por limites não são úteis para
encontrar a distribuição condicional. Para tanto deve-se tentar adivinhar um candidato.
Consideremos alguns casos simples em que a solução vem de imediato:
Caso I: Y discreta. Considere a solução que obtivemos quando analisamos o caso
discreto. Portanto, se Y assume os valores y1 , y2 , . . . tais que P (Y = yn ) > 0, então
P (X ∈ B|Y = yn ) =
P (X ∈ B, Y = yn )
, ∀B ∈ B,
P (Y = yn )
e P (X ∈ B|Y = y) = P (X ∈ B) se P (Y = y) = 0. Note que esta distribuição satisfaz as
duas condições da Definição 5.2.1 e portanto é uma distribuição condicional de acordo com
a definição do caso geral.
Caso II: X e Y independentes. Intuitivamente, a distribuição condicional de X dado
que Y = y não deveria depender de y. Portanto, nosso candidato é:
P (X ∈ B|Y = y) = P (X ∈ B), ∀B ∈ B, ∀y ∈ IR.
Portanto, a primeira condição da Definição 5.2.1 é satisfeita e nosso candidato para FX (x|Y =
y) é FX (x), logo
∫ y
∫ y
FX (x)dFY (t) = FX (x)
dFY (t) = FX (x)FY (y) = FX,Y (x, y),
−∞
−∞
ou seja, a segunda condição da definição também é satisfeita.
Caso III: X e Y possuem densidade conjunta f (x, y). Neste caso nosso candidato
será
f (x, y)
f (x|y) =
, x ∈ R,
f (y)
Autor: Leandro Chaves Rêgo
5.2. DISTRIBUIÇÃO CONDICIONAL DE X DADA Y : CASO GERAL
82
se f (y) > 0, e f (x|y) = f (x) se f (y) = 0. Esta função é chamada de densidade condicional
de X dado que Y = y. Note que f (x|y) preserva as chances relativas e realmente é uma
densidade. Agora, vamos mostrar que ela satisfaz a Definição 5.2.1. Parte (i),∫ segue do fato
que f (x|y) é uma densidade de probabilidade e portanto P (X ∈ B|Y = y) = X∈B f (x|y)dx
é uma probabilidade para todo boreliano
∫ x B. Para verificar (ii), note que a função de distribuição condicional é FX (x|Y = t) = −∞ f (s|t)ds. Logo
∫
∫
(
y
−∞
∫
y
∫
x
−∞
∫
f (s|t)ds)dFY (t) =
x
=
−∞
−∞
y
−∞
∫
(
x
−∞
f (s, t)
ds)fY (t)dt
fY (t)
(5.1)
f (s, t)dsdt = FX,Y (x, y).
Caso IV: X discreta e Y com densidade fY . De acordo com a definição de distribuição condicional, ela deve satisfazer neste caso:
∫ y
P (X = xi |Y = t)fY (t)dt = P (X = xi , Y ≤ y).
−∞
Note que se definirmos
1 ∂P (X = xi , Y ≤ t)
fY (t)
∂t
1 ∂P (Y ≤ t|X = xi )P (X = xi )
=
fY (t)
∂t
P (X = xi )
=
fY |X (t|xi ),
fY (t)
P (X = xi |Y = t) =
obtemos o resultado desejado.
Em casos mais complexos, no processo de escolha da distribuição condicional, ajuda
observar os seguintes princípios:
• Princípio da preservação das chances relativas. Este princípio diz que condicionalmente, dada a ocorrência de um evento A, os resultados possíveis (ou seja, w ∈ A)
mantêm as mesmas chances relativas que tinham antes da realização do experimento.
• Princípio da substituição. Este princípio diz que condicionalmente, dado que Y =
y, a variável aleatória Y pode ser substituída pelo valor y sempre que Y aparecer em
uma probabilidade (ou esperança) condicional. Mais geralmente, diz que para obter a
distribuição condicional de φ(X, Y ) dado que Y = y, basta substituir Y pelo valor y.
Exemplo 5.2.4: Seja X uma variável aleatória simétrica em torno de zero, de modo que
P (X ≤ x) = P (X ≥ −x), ∀x ∈ IR. Qual a distribuição condicional de X dado |X|?
Utilizando o princípio da preservação das chances relativas e a simetria da variável X,
temos que nosso candidato para distribuição condicional deve ser: P (X = y||X| = y) =
P (X = −y||X| = y) = 1/2 se y > 0 e P (X = 0||X| = 0) = 1.
Autor: Leandro Chaves Rêgo
5.3. ESPERANÇA CONDICIONAL
Como
∫
83
y
P (X ≤ x||X| = t)dF|X| (t)

∫y

0dF|X| (t)
, se x < −y

0

∫y 1
 ∫ |x|−
0dF|X| (t) + |x|− 2 dF|X| (t) , se −y ≤ x < 0
0∫
∫y
=
x

1dF∫|X| (t) + x 12 dF|X| (t)
, se 0 ≤ x < y

0−

y

1dF|X| (t)
, se x ≥ y ≥ 0
0−

0
, se x < −y



−
1/2(F|X| (y) − F|X| (|x| )) , se −y ≤ x < 0
=
1/2(F|X| (y) + F|X| (x))
, se 0 ≤ x < y



F|X| (y)
, se x ≥ y ≥ 0

0
, se x < −y



FX (x) − FX (−y − ) , se −y ≤ x < 0
=
FX (x) − FX (−y − ) , se 0 ≤ x < y



F|X| (y)
, se x ≥ y ≥ 0
0
Mas esta última expressão é igual a FX,|X| (x, y). Portanto, nosso candidato satisfaz a definição de distribuição condicional.
Exemplo 5.2.5 : Se fY |X (y|x) = |x + 1|e−|x+1|y U (y) e X ∼ Binomial(2, 1/2), qual a
densidade de Y ? Dado que Y = y, qual a distribuição de X para y > 0?
Solução:
fY (y) =
2
∑
−|i+1|y
|i + 1|e
i=0
( )
2
U (y)
(1/2)2
i
1
= U (y)(e−y + 4e−2y + 3e−3y )
4
Utilizando o resultado do Caso IV acima temos que
P (X = i)
P (X = i|Y = y) =
fY |X (t|i)
fY (y)
(2)
|i + 1|e−|i+1|y
i
, i = 0, 1, 2.
= −y
(e + 4e−2y + 3e−3y )
5.3
Esperança Condicional
Definição 5.3.1: Sejam X e Y variáveis aleatórias em (Ω, A, P ). A esperança condicional
de X dado que Y = y, é a esperança da distribuição condicional de X dado que Y = y, se
esta esperança existir. Ou seja,
∫
E(X|Y = y) = xdFX (x|Y = y).
Autor: Leandro Chaves Rêgo
5.3. ESPERANÇA CONDICIONAL
84
Pode-se provar que:
Teorema 5.3.2: Se X é integrável, então E(X|Y = y) existe e é finita quase certamente,
i.e., existe um boreliano B0 tal que P (Y ∈ B0 ) = 1 e E(X|Y = y) é finita para todo y ∈ B0 .
Se definirmos φ(y) = E(X|Y = y), a variável aleatória φ(Y ) = E(X|Y ) chama-se esperança condicional de X dada Y . A esperança condicional, sendo a esperança da distribuição
condicional, possui todas as propriedades da esperança ordinária (por exemplo, linearidade,
desigualdade de Jensen, convergência monótona, convergência dominada), mais a propriedade importante de que E(E(X|Y )) = EX, ou seja
∫
EX = E(X|Y = y)dFY (y).
Já demonstramos esta equação no caso discreto, vamos verificá-las quando X e Y têm
densidade conjunta f (x, y):
∫
∫ ∞
∫ ∞
f (x, y)
E(X|Y = y) = xdFX (x|Y = y) =
dx,
xf (x|y)dx =
x
fY (y)
−∞
−∞
se fY (y) > 0. Logo, quando X é integrável,
∫
∫ ∞ ∫ ∞
f (x, y)
E(E(X|Y )) = E(X|Y = y)dFY (y) =
(
x
dxfY (y)dy)
fY (y)
−∞ −∞
∫ ∞∫ ∞
∫ ∞ ∫ ∞
=
xf (x, y)dxdy =
(
f (x, y)dy)xdx
−∞ −∞
−∞ −∞
∫ ∞
=
xfX (x)dx = EX.
−∞
Como A = [IA = 1], temos
E(IA |Y = y) = 1 · P (IA = 1|Y = y) + 0 · P (IA = 0|Y = y)
= P (IA = 1|Y = y) = P (A|Y = y).
De fato, como IA é integrável, nós temos
P (A) = E(IA ) = E(E(IA |Y )) = E(P (A|Y )),
ou seja, a probabilidade de um evento é a esperança de sua probabilidade condicional dada
Y , para qualquer Y .
A seguir enumeramos algumas propriedades da esperança condicional, que são generalizações de propriedades da esperança incondicional.
EC1. E(E(X|Y )) = EX.
EC2. Se X = c, para alguma constante c, então E(X|Y ) = c.
Autor: Leandro Chaves Rêgo
5.3. ESPERANÇA CONDICIONAL
85
EC3. Se X1 ≤ X2 , então E(X1 |Y ) ≤ E(X2 |Y ).
EC4. E(aX1 + bX2 |Y ) = aE(X1 |Y ) + bE(X2 |Y ).
EC5. Seja φ uma função convexa. Então, φ(E(X|Y )) ≤ E(φ(X)|Y ).
EC6. Se Xn ≥ 0 e Xn ↑ X, então E(Xn |Y ) ↑ E(X|Y ).
EC7. Se Xn → X e se existe X0 integrável tal que |Xn | ≤ X0 , então limn E(Xn |Y ) =
E(X|Y ).
EC8. Se φ(X, Y ) é integrável, então
∫
E(φ(X, Y )|Y = y) = E(φ(X, y)|Y = y) =
φ(x, y)dFX (x|Y = y).
Assim como no caso incondicional podemos definir momentos condicionais de ordem mais
elevada de maneira análoga. O k-ésimo momento de X dado Y é dado por E(X k |Y ). E
o k-ésimo momento central é dado por E((X − E(X|Y ))k |Y ). Em particular, o segundo
momento central é conhecido como variância condicional de X dado Y e pode ser reescrito
como:
V ar(X|Y ) = E((X − E(X|Y ))2 |Y ) = E(X 2 |Y ) − (E(X|Y ))2 .
Exemplo 5.3.3: Sejam X e Y variáveis aleatórias independentes e identicamente distribuídas, com X ∼ U [0, 1], e sejam U = min(X, Y ) e V = max(X, Y ). Encontre E(U |V ).
Solução:
FU,V (x, y) = P (U ≤ x, V ≤ y) = P (V ≤ y) − P (U > x, V ≤ y)
{
P (X ≤ y, Y ≤ y) − P (x < X ≤ y, x < Y ≤ y) , se x < y
=
P (X ≤ y, Y ≤ y)
, se x ≥ y.
Portanto, como X e Y são independentes, temos

0
, se x ≤ 0 ou y ≤ 0




, se 0 < x < y < 1
 y 2 − (y − x)2
2
y
, se 0 < y ≤ x e y < 1
FU,V (x, y) =

2

1
−
(1
−
x)
, se y ≥ 1 e 0 < x < 1



1
, se y ≥ 1 e x ≥ 1.
Logo,
{
∂ 2 FU,V (x, y)
2 , se 0 < x < y < 1
fU,V (x, y) =
=
0
, caso contrário.
∂x∂y
∫
∫y
Como fV (y) = fU,V (x, y)dx = 0 2dx = 2y, se 0 < y < 1, e fV (y) = 0 caso contrário,
temos que
{ 1
fU,V (x, y)
, se 0 < x < y < 1
y
=
fU |V (x|y) =
0 , caso contrário.
fV (y)
Autor: Leandro Chaves Rêgo
5.3. ESPERANÇA CONDICIONAL
Então,
86
∫
E(U |V = y) =
∫
y
xfU |V (x|y)dx =
0
x
y
dx = ,
y
2
se 0 < y < 1, e E(U |V = y) = 0, caso contrário. Portanto,
{ V
, se 0 < V < 1
2
E(U |V ) =
0 , caso contrário.
Exemplo 5.3.4: Sejam X1 , . . . , Xn independentes, identicamente distribuídas e integráveis,
e seja S = X1 + · · · + Xn . Demonstre que E(Xi |S) = Sn , para i = 1, 2, . . . , n.
Solução: Note que os vetores (X1 , . . . , Xn ) e (Xi , X2 , . . . , Xi−1 , X1 , Xi+1 , . . . , Xn ) têm
a mesma distribuição. Isto implica que (X1 , S) e (Xi , S) possuem a mesma distribuição.
Como a distribuição conjunta determina a distribuição condicional, temos que X1 e Xi
têm a mesma distribuição condicional dado que S = s, e consequentemente tem a mesma
esperança condicional dado S = s. Portanto,
E(X1 |S = s) = E(X2 |S = s) = . . . = E(Xn |S = s).
Utilizando a linearidade da esperança, temos
nE(Xi |S = s) =
n
∑
E(Xi |S = s)
i=1
n
∑
= E(
Xi |S = s) = E(S|S = s) = s.
i=1
Então, podemos concluir que E(Xi |S = s) = ns , ou seja, E(Xi |S) = Sn .
Exemplo 5.3.5: Sejam X e Y duas variáveis aleatórias. Calculemos a distribuição de
Z = X + Y . Temos
∫
P (X + Y ≤ z) = E(P (X + Y ≤ z|Y )) = P (X + Y ≤ z|Y = y)dFY (y)
∫
∫
P (X ≤ z − y|Y = y)dFY (y) = FX (z − y|Y = y)dFY (y).
(5.2)
Se X e Y são independentes, então FX (z − y|Y = y) = FX (z − y) e temos
∫
FZ (z) = P (X + Y ≤ z) = FX (z − y)dFY (y).
(5.3)
Esta distribuição é a convolução das distribuições de X e Y .
Autor: Leandro Chaves Rêgo
Capítulo 6
Convergência Estocástica
6.1
Seqüência de Eventos
A definição de conceitos de convergência de variáveis aleatórias depende de manipulações de
seqüências de eventos. Seja An ⊆ Ω, define-se:
∞
inf Ak = ∩∞
k=n Ak , sup Ak = ∪k=n Ak
k≥n
k≥n
∞
lim inf An = ∪∞
n=1 ∩k=n Ak
n
∞
lim sup An = ∩∞
n=1 ∪k=n Ak .
n
O limite de uma seqüência de eventos é definido da seguinte maneira: se para alguma
seqüência (Bn ) de eventos lim inf n Bn = lim supn Bn = B, então B é chamado de limite de
(Bn ) e nós escrevemos limn Bn = B ou Bn → B.
n
n
Exemplo 6.1.1: lim inf[0, n+1
) = lim sup[0, n+1
) = [0, 1)
Teorema 6.1.2: Seja (An ) uma seqüência de eventos de Ω.
(a) ω ∈ lim sup An se, e somente se, ω ∈ Ak para um número infinito de índices k.
(b) ω ∈ lim inf An se, e somente se, ω ∈
/ Ak para um número finito de índices k.
Prova: Para parte (a), note que ω ∈ lim sup An , se, e somente se, para todo n, ω ∈ ∪∞
k=n Ak ,
ou seja, se, e somente se, para todo n existe n′ ≥ n tal que ω ∈ An′ . Como isto é válido para
todo n, temos que isto é equivalente a existência de um número infinito de índices k tais que
ω ∈ Ak .
A prova da parte (b) é similar.
A seguir descreveremos algumas propriedades do lim inf e lim sup de uma seqüência de
eventos.
1. lim inf An ⊆ lim sup An
Este fato é uma simples conseqüência do Teorema 6.1.2, pois se ω ∈ lim inf An , ω não
pertence apenas a um número finito de eventos Ak ’s, e conseqüentemente pertence a
um número infinito deles. Logo, ω ∈ lim sup An .
87
6.1. SEQÜÊNCIA DE EVENTOS
88
2. (lim inf An )c = lim sup Acn
Este fato decorre aplicando a Lei de De Morgan duas vezes:
∞
c
∞
∞
c
∞
∞
c
(∪∞
n=1 ∩k=n Ak ) = ∩n=1 (∩k=n Ak ) = ∩n=1 (∪k=n Ak ).
Seqüências Monotônicas
Uma seqüência de eventos (An ) é monotônica não-decrescente (resp., não-crescente) se A1 ⊆
A2 ⊆ . . . (resp, A1 ⊇ A2 ⊇ . . .). Denotaremos por An ↑ (resp., An ↓) uma seqüência
não-decrescente (resp. não-crescente) de eventos.
Teorema 6.1.3: Suponha que (An ) é uma seqüência monotônica de eventos. Então,
1. Se An ↑, então limn An = ∪∞
n=1 An .
2. Se An ↓, então limn An = ∩∞
n=1 An .
Conseqüentemente, como para qualquer seqüência Bn , temos inf k≥n Bk ↑ e supk≥n Bk ↓,
segue que:
lim inf Bn = lim(inf Bk ), lim sup Bn = lim(sup Bk )
n
k≥n
n
k≥n
Prova: Para provar (1), precisamos mostrar que lim inf An = lim sup An = ∪∞
n=1 An . Como
Aj ⊆ Aj+1 , temos ∩k≥n Ak = An , e portanto,
∞
lim inf An = ∪∞
n=1 (∩k≥n Ak ) = ∪n=1 An .
Por outro lado, temos,
∞
lim sup An = ∩∞
n=1 (∪k≥n Ak ) ⊆ ∪k=1 Ak
= lim inf An ⊆ lim sup An .
Logo, temos igualdade acima, ou seja, lim sup An = ∪∞
k=1 Ak .
A prova de (2) é similar.
Exemplo 6.1.4:
1
1. limn [0, 1 − n1 ] = ∪∞
n=1 [0, 1 − n ] = [0, 1).
1
2. limn [0, 1 + n1 ) = ∩∞
n=1 [0, 1 + n ) = [0, 1].
n
n
n
n
3. limn ( n+1
, n−1
) = ∩∞
n=1 ( n+1 , n−1 ) = {1}.
Exemplo 6.1.5: Sejam An , A, Bn , B eventos em Ω. Mostre que:
1. se limn An = A, então limn Acn = Ac .
Solução: lim inf Acn = (lim sup An )c = Ac e lim sup Acn = (lim inf An )c = Ac .
Autor: Leandro Chaves Rêgo
6.1. SEQÜÊNCIA DE EVENTOS
89
2. lim sup(An ∪ Bn ) = lim sup An ∪ lim sup Bn .
Solução: Se ω ∈ lim sup(An ∪ Bn ), então ω ∈ (Ak ∪ Bk ) para infinitos índices k. Logo,
temos que ω ∈ Ak para infinitos índices k, ou ω ∈ Bk para infinitos índices k. Portanto,
temos ω ∈ lim sup An ou ω ∈ lim sup Bn , ou seja, ω ∈ lim sup An ∪ lim sup Bn .
Reciprocamente, se ω ∈ lim sup An ∪lim sup Bn , então ω ∈ lim sup An ou ω ∈ lim sup Bn .
Logo, temos que ω ∈ Ak para infinitos índices k, ou ω ∈ Bk para infinitos índices k,
ou seja, ω ∈ (Ak ∪ Bk ) para infinitos índices k. Portanto, ω ∈ lim sup(An ∪ Bn ).
3. Não é verdade que lim inf(An ∪ Bn ) = lim inf An ∪ lim inf Bn .
Solução: Vamos construir um contra-exemplo: Suponha que A ∩ B = ∅, An = A ̸= ∅
e Bn = B ̸= ∅ para n par; e An = B e Bn = A para n ímpar. Como An ∪ Bn = A ∪ B
para todo n, é fácil ver que lim inf(An ∪ Bn ) = A ∪ B. Também é fácil ver que
lim inf An = lim inf Bn = A ∩ B = ∅, pois somente os ω ′ s em A ∩ B não ocorrem para
um número finito de índices n tanto na seqüência An quanto na seqüência Bn . Então,
A ∪ B = lim inf(An ∪ Bn ) ̸= ∅ = lim inf An ∪ lim inf Bn .
4. se An → A e Bn → B, então An ∪ Bn → A ∪ B e An ∩ Bn → A ∩ B.
Solução: Pela parte (2), temos que
lim sup An ∪ Bn = lim sup An ∪ lim sup Bn = A ∪ B,
e pela propriedade (1) de lim inf e lim sup, temos
lim inf An ∪ Bn ⊆ lim sup An ∪ Bn = A ∪ B.
Resta-nos provar que A ∪ B ⊆ lim inf An ∪ Bn . Suponha que ω ∈ A ∪ B, então
ω ∈ lim inf An ou ω ∈ lim inf Bn , ou seja, ω não pertence a um número finito de Ak ’s,
ou ω não pertence a um número finito de Bk ’s. Logo, ω não pertence a um número
finito de Ak ∪ Bk ’s. Portanto, ω ∈ lim inf An ∪ Bn . Então, An ∪ Bn → A ∪ B.
Utilizando os ítens anteriores e a Lei de De Morgan, temos:
A ∩ B = (Ac ∪ B c )c = (lim Acn ∪ lim Bnc )c =
= (lim Acn ∪ Bnc )c = lim(Acn ∪ Bnc )c = lim An ∩ Bn .
6.1.1
Borel-Canteli
A seguir vamos enunciar e provar um importante Lema, conhecido como Lema de BorelCantelli, que trata da probabilidade da ocorrência de um número infinito de eventos.
Lema 6.1.6: Sejam A1 , A2 , . . . eventos aleatórios em (Ω, A, P ), ou seja, An ∈ A, ∀n.
∑
(a) Se ∞
n=1 P (An ) < ∞, então P (An infinitas vezes ) = 0.
∑
(b) Se ∞
n=1 P (An ) = ∞ e os eventos An ’s são independentes, então
P (An infinitas vezes ) = 1.
Autor: Leandro Chaves Rêgo
6.1. SEQÜÊNCIA DE EVENTOS
90
Obervação: O ítem (b) não vale necessariamente
sem independência. Por exemplo,
∑
seja An = A, ∀n, onde 0 < P (A) < 1. Então,
P (An ) = ∞ mas o evento [An infinitas
vezes] = A e P (An infinitas∑vezes) = P (A) < 1. ∑
Prova: Para parte (a), se
P (An ) < ∞, então ∞
k=j P (Ak ) → 0 quando j → ∞. Mas
[An infinitas vezes] ⊆ ∪∞
k=j Ak , ∀j,
logo
P (An infinitas vezes) ≤
P (∪∞
k=j Ak )
≤
∞
∑
P (Ak ) → 0.
k=j
Portanto, P (An infinitas vezes) = 0.
Para parte (b), basta provar que
P (∪∞
k=n Ak ) = 1, ∀n
∞
(pois sendo [An infinitas vezes] = ∩∞
n=1 ∪k=n Ak a intersecção de um número enumerável de
eventos de probabilidade 1, é também de probabilidade 1). Para tanto, seja Bn = ∪∞
k=n Ak .
n+m
Então Bn contém ∪k=n Ak para todo m, e
n+m c
c
Bnc ⊆ (∪n+m
k=n Ak ) = ∩k=n Ak .
Logo para todo m,
1 − P (Bn ) =
P (Bnc )
≤
c
P (∩n+m
k=n Ak )
=
n+m
∏
P (Ack )
=
n+m
∏
(1 − P (Ak )).
k=n
k=n
Como 1 − p ≤ e−p para 0 ≤ p ≤ 1, temos
1 − P (Bn ) ≤
n+m
∏
k=n
quando m → ∞, pois
∑n+m
k=n
−P (Ak )
e
= exp(−
n+m
∑
P (Ak )) → 0
k=n
P (Ak ) → ∞ quando m → ∞. Logo P (Bn ) = 1, ∀n.
Exemplo 6.1.7: Se sabemos que para uma dada coleção de eventos {Ak }, as suas probabilidades individuais satisfazem P (Ak ) ≤ k12 , então podemos concluir que infitos desses vezes
ocorrem com probabilidade zero ou, que apenas um número finito deles ocorrem com probabilidade 1. Podemos reesecrever isso da seguinte forma: existe um instante aleatório N tal
que, com probabilidade 1, nenhum dos Ak ocorrem para k > N . É importante ressaltar que
nós podemos chegar a essa conclusão sem saber nada sobre as interações entre esses eventos
como as que são expressas por probabilidades de pares de eventos P (Ai ∩ Aj ). Contudo, se
apenas sabemos que P (Ak ) > 1/k, então não podemos concluir nada baseados no Lema de
Borel-Cantelli. Se soubermos que os eventos são mutuamente independentes, então sabendo
que P (Ak ) > 1/k, podemos concluir que infinitos Ak ocorrem com probabilidade 1.
Autor: Leandro Chaves Rêgo
6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS
91
Exemplo 6.1.8: Considere uma seqüência de variáveis aleatórias X1 , X2 , X3 , . . .. Podemos
usar o Lema de Borel-Cantelli para determinar a probabilidade que Xk > bk infinitas vezes
para qualquer seqüência de números reais {bk }. Note que P (Xk > bk ) = 1 − FXk (bk ). Logo,
se
∞
∞
∑
∑
P (Xk > bk ) =
1 − FXk (bk ) < ∞,
k=1
k=1
então, não importa qual a distribuição conjunta das variáveis aleatórias {Xk }, temos que o
evento {Xk > bk } só ocorrerá para um número finito de índices k. Por outro lado, se
∞
∑
P (Xk > bk ) =
k=1
∞
∑
1 − FXk (bk ) = ∞,
k=1
então precisaríamos de informação adicional sobre a distribuição conjunta das variáveis aleatórias {Xk } para determinar se os eventos {Xk > bk } ocorrem um número finito ou infinito
de vezes.
Exemplo 6.1.9: Considere uma moeda não necessariamente honesta com probabilidade
de cara igual a p, onde 0 < p < 1. Se esta moeda for jogada um número infinito de vezes de
maneira independente, qual a probabilidade da seqüência (cara, cara, coroa, coroa) aparecer
um número infinito de vezes? Justifique sua resposta.
Solução: Seja Xi o resultado do i-ésimo lançamento da moeda. Defina o evento Ai =
{Xi = cara, Xi+1 = cara, Xi+2 = coroa, Xi+3 = coroa}, queremos calcular P (Ai infinitas vezes).
Note que para todo i, temos P (Ai ) = p2 (1 − p)2 > 0. Não podemos aplicar diretamente o
lema de Borel Cantelli, pois os eventos Ai ’s não são independentes, visto que, por exemplo,
ambos A1 e A2 dependem de X2 , X3 , X4 . Considere a seguinte subseqüência da seqüência
de eventos (Ai ) tal que Bi = A4i−3 . Como os eventos Bi ’s dependem de famílias disjuntas de variáveis aleatórias independentes,
eles são independentes. Além disso temos que
∑
2
2
P (Bi ) = p (1 − p) > 0. Logo,
i P (Bi ) = ∞. Portanto, Borel-Cantelli implica que
P (Bi infinitas vezes) = 1. Como (Bi ) é uma subseqüência de (Ai ), temos que
[Bi infitas vezes] ⊆ [Ai infinitas vezes].
Portanto, P (Ai infinitas vezes) = 1.
6.2
Covergência de Variáveis Aleatórias
Seguindo uma interpretação freqüentista, probabilidade está relacionada com a freqüência
relativa de eventos no longo prazo. A matemática para estudar o longo prazo é a dos limites.
Mas quando se trata de funções, existem vários tipos de limites (por exemplo, pontual,
uniforme, em quase todo lugar). O mesmo ocorre quando consideramos limites de variáveis
aleatórias definidas em um mesmo espaço de probabilidade (Ω, A, P ), visto que variáveis
aleatórias são funções reais cujo domínio é Ω.
Relembrando: Seja (Ω, A) um espaço mensurável. Uma função X : Ω → R é chamada
de variável aleatória se para todo evento Boreliano B, X −1 (B) ∈ A. Nós recordamos que
um evento Boreliano é qualquer evento pertencente à σ-álgebra de Borel, onde a σ-álgebra
de Borel é a menor σ-álgebra contendo intervalos da forma (−∞, x] para todo x ∈ R.
Autor: Leandro Chaves Rêgo
6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS
6.2.1
92
Tipos de Convergência
Vamos a seguir descrever vários tipos de convergência estocástica, ilustrando com exemplos
cada tipo de convergência, e depois provaremos algumas relações entre os vários tipos de
convergência. Sejam Y, Y1 , Y2 , . . . variáveis aleatórias definidas em um mesmo espaço de
probabilidade (Ω, A, P ).
Convergência Quase Certa
Definição 6.2.1: A seqüência de variáveis aleatórias Y1 , Y2 , . . . converge quase certamente
(ou com probabilidade 1) para a variável aleatória Y se
P ({w : lim Yn (w) = Y (w)}) = 1.
n→∞
Notação: Yn → Y cp1.
Então se uma seqüência de variáveis aleatórias Y1 , Y2 , . . . converge quase certamente para
Y não significa que para todo w ∈ Ω, Yn (w) → Y (w), apenas o que se sabe é que a
probabilidade do evento D = {w : Yn (w) 9 Y (w)} é nula. D é chamado de conjunto de
exceção.
Exemplo 6.2.2: Considere uma variável aleatória Z tal que P ({w : 0 ≤ |Z(w)| < 1}) = 1.
Seja Xn (w) = Z n (w), então Xn (w) → 0 cp1; note que o conjunto de exceção é D = {w ∈
Ω : |Z(w)| ≥ 1} e que P (D) = 0. Podemos obter uma definição alternativa para convergência quase-certa, observando que,
pela definição de limite de sequências de números reais, para um dado w ∈ Ω fixo, temos que
limn Yn (w) = Y (w) se, e somente se, para todo k ∈ IN , existir N tal que para todo n ≥ N ,
temos |Yn (w) − Y (w)| < k1 . Portanto:
∞
∞
{w : lim Yn (w) = Y (w)} = {w : ∩∞
k=1 ∪N =1 ∩n=N |Yn (w) − Y (w)| <
n
1
}.
k
Então, Yn → Y cp1 se, e somente se,
∞
∞
P ({w : ∩∞
k=1 ∪N =1 ∩n=N |Yn (w) − Y (w)| <
1
}) = 1.
k
∞
∞
P ({w : ∩∞
k=1 ∪N =1 ∩n=N |Yn (w) − Y (w)| ≥
1
}) = 0.
k
Isto é equivalente a:
Defina An,k = {w : |Yn (w) − Y (w)| ≥ k1 }. Então para cada k fixo, temos que
∞
lim sup An,k = ∪∞
N =1 ∩n=N An,k .
n
Logo, Yn → Y cp1 se, e somente se, para todo k ∈ IN ,
P (lim sup An,k ) = 0.
n
Autor: Leandro Chaves Rêgo
6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS
93
Exemplo 6.2.3: Seja {Xn }n≥3 uma seqüência de variáveis aleatórias independentes com
distribuição de probabilidade dada por:
P (Xn = 0) = 1 −
1
1
e P (Xn = n) =
, ∀n ≥ 3.
log n
log n
Mostre que Xn 9 0 cp1.
Solução: Para qualquer ϵ tal que 0 < ϵ < 1, temos que
P (|Xn | > ϵ) = P (Xn = n) =
1
.
log n
∑ 1
∑
Logo,
n P (|Xn | > ϵ) =
n log n = ∞. Então, o Lema de Borel-Cantelli implica que
P (|Xn | > ϵ infinitas vezes) = 1, portanto com probabilidade 1, Xn 9 0.
Exemplo 6.2.4 : Considere {Xn : n ≥ 1} uma seqüência de variáveis aleatórias i.i.d.
com função de distribuição F. Suponha que F (x) < 1, para todo x < ∞. Defina Yn =
max(X1 , X2 , . . . , Xn ). Vamos verificar que Yn → ∞ cp1.
Inicialmente, observe que para cada ω ∈ Ω, as variáveis Yn formam uma seqüência nãodecrescente de números reais. Seja M um número real, temos
P (Yn ≤ M : n = 1, 2, . . .) ≤ P (Yn ≤ M : n = 1, 2, . . . , k) = P (Yk ≤ M )
= P (max(X1 , X2 , . . . , Xk ) ≤ M ) = P (X1 ≤ M, X2 ≤ M, . . . Xk ≤ M )
k
∏
=
P (Xn ≤ M ) = F k (M ), ∀k ≥ 1.
n=1
Fazendo k → ∞, temos que para todo M finito,
P (lim Yn ≤ M ) = P (Yn ≤ M : n = 1, 2, . . .) = 0;
n
pois F k (M ) tende a zero, quando k → ∞. Dessa forma, o conjunto dos w ∈ Ω, em que
limn Yn (w) é finito, tem probabilidade zero e, portanto, Yn → ∞ cp1.
Convergência na r-ésima Média
Definição 6.2.5: A seqüência de variáveis aleatórias Y1 , Y2 , . . . converge na r-ésima Média,
onde r > 0, para a variável aleatória Y se
lim E|Yn − Y |r = 0.
n→∞
Notação: Yn →r Y .
Se r = 2 este tipo de convergência é freqüentemente chamado de convergência em média
quadrática.
Autor: Leandro Chaves Rêgo
6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS
94
Exemplo 6.2.6: Sejam Z, X1 , X2 , . . . variáveis aleatórias tais que
Xn =
n
Z,
n+1
então Xn →2 Z se EZ 2 < ∞, mas não em caso contrário. Exemplo 6.2.7: Considere a seqüência de variáveis aleatórias definidas no Exemplo 6.2.3.
Mostre que Xn 9r 0, para todo r > 0.
Solução: Temos que
E|Xn |r = nr P (Xn = n) =
nr
→ ∞.
log n
Logo, Xn 9r 0.
O próximo teorema afirma que se Xn →r X, então Xn →s X para s < r.
Teorema 6.2.8: Se Xn →r X, então Xn →s X para 0 < s < r
Prova: Defina p =
r
s
>1eq=
r
.
r−s
Então,
1 1
s r−s
+ = +
= 1.
p q
r
r
Seja Z = |X|s e Y = 1. Com estas definições, a desigualdade de Hölder implica que
E|ZY | ≤ (E|Z|p )1/p (E|Y |q )1/q ,
ou seja,
E(|X|s ) ≤ (E|X|ps )1/p 1 = (E|X|r )s/r .
Substituindo X por Xn − X, temos
E(|Xn − X|s ) ≤ (E|Xn − X|r )s/r .
Portanto, se limn E|Xn − X|r = 0, então limn E|Xn − X|s = 0.
Convergência em Probabilidade
Definição 6.2.9: A seqüência de variáveis aleatórias Y1 , Y2 , . . . converge em probabilidade
para a variável aleatória Y se ∀ϵ > 0
lim P ({w : |Yn (w) − Y (w)| > ϵ}) = 0.
n→∞
Notação: Yn →P Y .
A intuição por trás desta definição é que para n muito grande a probabilidade de que Yn
e Y sejam bem próximas é bastante alta.
Autor: Leandro Chaves Rêgo
6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS
95
Exemplo 6.2.10: Considere a seqüência de variáveis aleatórias definidas no Exemplo 6.2.3.
Mostre que Xn →P 0. Solução: Temos que para 0 < ϵ < 1, P (|Xn | > ϵ) = P (Xn = n) e
para ϵ ≥ 1, P (|Xn | > ϵ) ≤ P (Xn = n). Como P (Xn = n) = log1 n → 0., temos que ∀ϵ > 0,
lim P (|Xn | > ϵ) = 0. Portanto, Xn →P 0.
Exemplo 6.2.11: Considere X, X1 , X2 , . . . onde as varáveis aleatórias têm distribuição
normal conjunta, todas com média 0 e matriz de covariância parcialmente descrita por
1
.
n
Seja Yn = Xn −X, como Yn é uma combinação linear de variáveis aleatórias com distribuição
normal, ela também possui distribuição normal. Precisamos determinar então sua média e
sua variância. Mas EY = E(Xn − X) = EXn − EX = 0 e
COV (X, X) = COV (Xn , Xn ) = 1, COV (X, Xn ) = 1 −
V arY = EY 2 = E(Xn − X)2 = EXn2 − 2EXn X + EX 2 = 1 − 2(1 −
Portanto, Yn ∼ N (0, n2 ). Então,
∫
∞
P (|Xn − X| > ϵ) = P (|Yn | > ϵ) = 2P (Yn > ϵ) = 2
ϵ
1
2
)+1= .
n
n
√
∫ ∞
x2
n − ny2
1
√ e 4 dy = 2 √ √ e− 2 dx.
4π
2π
ϵ n
2
Logo, ∀ϵ > 0, limn→∞ P (|Xn − X| > ϵ) = 0, ou seja, Xn →P X. Convergência em Distribuição
O último tipo de convergência estocástico que mencionamos não é exatamente uma noção
de convergência das variáveis aleatórias propriamente ditas, mas uma noção de convergência
de suas respectivas funções de distribuição acumuladas.
Definição 6.2.12: A seqüência de variáveis aleatórias Y1 , Y2 , . . ., converge em distribuição
para a variável aleatória Y se para todo ponto x de continuidade de FY
lim FYn (x) = FY (x).
n→∞
Notação: Yn →D Y .
Exemplo 6.2.13: Seja {Xn : n ≥ 1} uma seqüência de variáveis aleatórias independentes
com distribuição Uniforme em (0, b), b > 0. Defina Yn = max(X1 , X2 , . . . , Xn ) e Y = b.
Vamos verificar que Yn →D Y . Temos

se y < 0,
 0
y n
n
( ) se 0 ≤ y < b,
FYn (y) = P (max(X1 , X2 , . . . , Xn ) ≤ y) = FX1 (y) =
 b
1
se y ≥ b.
Fazendo n tender ao infinito, temos que
lim FYn (y) =
n
{
0 se y < b,
1 se y ≥ b,
que corresponde à função de distribuição de Y e, portanto, Yn →D Y .
Autor: Leandro Chaves Rêgo
6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS
96
Deve-se ficar atento que convergência em distribuição não implica nada em relação aos
outros tipos de convergência. Uma seqüência convergindo em distribuição para uma variável
aleatória X também converge em distribuição para qualquer outra variável aleatória Y tal
que FY = FX . O próximo exemplo serve para ilustrar melhor este fato.
Exemplo 6.2.14: Se uma seqüência de variáveis aleatórias Y1 , Y2 , . . . é independente e
identicamente distribuída de acordo com F , então para todo n tem-se que FYn = F , logo
a seqüência converge em distribuição para qualquer variável aleatória X tal que FX = F .
Claro, como a seqüência é independente, os valores de termos sucessivos são independentes
e não exibem nenhum comportamento usual de convergência. O requisito de continuidade, mencionado na definição acima, se justifica para evitar
algumas anomalias. Por exemplo, para n ≥ 1 seja Xn = n1 e X = 0, para todo Ω. Parece
aceitável que deveríamos ter convergência de Xn para X, qualquer que fosse o modo de
convergência. Observe que
{
0 se x < n1 ,
Fn (x) =
1 se x ≥ n1 , e
{
0 se x < 0,
F (x) =
1 se x ≥ 0.
Portanto, como limn Fn (0) = 0 ̸= F (0) = 1, não temos limn Fn (x) = F (x) para todo x ∈ IR.
Desse modo se houvesse a exigência de convergência em todos os pontos, não teríamos
convergência em distribuição. Entretanto, note que para x ̸= 0, temos limn Fn (x) = F (x) e,
como o ponto 0 não é de continuidade de F , concluímos que Xn →D X.
Um exemplo mais complexo de convergência em distribuição pode ser visto na análise do
limite de
n
1 ∑
Sn = √
(Xi − EXi ),
n i=1
onde Xi ’s são variáveis aleatórias independentes e identicamente distribuídas. Neste, o Teorema Central do Limite afirma que se V AR(Xi ) = σ 2 < ∞, então Sn converge em distribuição para qualquer variável aleatória com distribuição N (0, σ 2 ).
O próximo teorema estabelece duas condições suficientes para que uma seqüência de
variáveis aleatórias convirja em distribuição.
Teorema 6.2.15: Seja X, X1 , X2 , . . . uma seqüência de variáveis aleatórias:
(a) Se X, X1 , X2 , . . . são variáveis aleatórias discretas com P (Xn = xi ) = pn (i) e P (X =
xi ) = p(i), onde pn (i) → p(i) quando n → ∞ para todo i = 0, 1, 2, 3, . . ., então
Xn →D X.
(b) Se X, X1 , X2 , . . . são variáveis aleatórias absolutamente contínuas com densidades dadas respectivamente por f, f1 , f2 , f3 , . . ., onde fn (x) → f (x) quando n → ∞ em quase
todo lugar, então Xn →D X.
Autor: Leandro Chaves Rêgo
6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS
97
Prova: Se pn (i) → p(i) para todo i, então
∑
∑
FXn (x) =
pn (i) →
p(i) = FX (x).
i:xi ≤x
i:xi ≤x
Onde a convergência acima segue do Teorema da Convergência Dominada, visto que FXn (x) ≤
1, ∀x ∈ IR.
A prova da parte (b) usa conceitos de Teoria da Medida e será omitida.
O próximo exemplo mostra que se uma seqüência de variáveis aleatórias discretas converge
em distribuição, não necessariamente sua função probabilidade de massa converge.
Exemplo 6.2.16 : Sejam X, X1 , X2 , . . . variáveis aleatórias tais que P (X = 0) = 1 e
P (Xn = 1/n) = 1. Então, temos FX (x) = 1 se x ≥ 0, e FX (x) = 0 caso contrário; e
FXn (x) = 1 se x ≥ 1/n e FXn (x) = 0 caso contrário. Logo, FXn (x) → FX (x), ∀x ̸= 0, ou
seja, Xn →D X. Porém, p(0) = 1 ̸= 0 = limn pn (0).
O próximo exemplo mostra que se uma seqüência de variáveis aleatórias absolutamente
contínuas converge em distribuição, não necessariamente sua função densidade de probabilidade converge.
Exemplo 6.2.17 : Considere uma seqüência de variáveis aleatórias X, X1 , X2 , . . . com
função de distribuição acumuladas dadas respectivamente por F, F1 , F2 , F3 , . . ., onde

0
, se x ≤ 0

sen
2nπx
x(1 − 2nπx ) , se 0 < x ≤ 1
Fn (x) =

1
, se x > 1;
e

, se x ≤ 0
 0
x , se 0 < x ≤ 1
F (x) =

1
, se x > 1.
Então Fn e F são absolutamente contínuas com densidade dada por
{
1 − cos 2nπx , se 0 ≤ x ≤ 1
fn (x) =
0
, caso contrário;
{
e
f (x) =
1 , se 0 < x ≤ 1
0 , caso contrário.
É fácil ver que Fn (x) → F (x), ∀x ∈ IR. Contudo, fn (x) 9 f (x).
Autor: Leandro Chaves Rêgo
6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS
6.2.2
98
Relação Entre os Tipos de Convergência
A primeira relação que iremos provar é que convergência quase certa implica convergência
em probabilidade.
Teorema 6.2.18: Xn → X cp1 ⇒ Xn →P X.
Prova: Para provar que convergência quase certa implica em convergência em probabilidade,
considere a seguinte família de eventos
An,ϵ = {w : |Xn (w) − X(w)| ≤ ϵ}.
Logo, pela interpretação de convergência pontual,
C = {w : Xn (w) → X(w)} = ∩ϵ>0 ∪∞
N =1 ∩n≥N An,ϵ .
Se Xn → X cp1, então P (C) = 1. Equivalentemente, pela Lei de De Morgan,
c
D = C c = ∪ϵ>0 Dϵ , onde Dϵ = ∩∞
N =1 ∪n≥N An,ϵ ,
e
P (∪ϵ>0 Dϵ ) = 0.
Portanto, convergência quase certa implica que ∀ϵ > 0, P (Dϵ ) = 0. Seja FN = ∪n≥N Bn .
Note que FN ↓. Logo, limN FN = ∩∞
N =1 ∪n≥N Bn . Portanto, pelo axioma da continuidade
monotônica da probabilidade, tem-se que
P (∩∞
N =1 ∪n≥N Bn ) = lim P (∪n≥N Bn ).
N →∞
Então,
0 = P (Dϵ ) = lim P (∪n≥N Acn,ϵ ) ≥
N →∞
lim P (AcN,ϵ ) = lim P (|XN (w) − X(w)| > ϵ).
N →∞
N →∞
Portanto, Xn →P X.
O próximo teorema prova que convergência na r-ésima média implica convergência em
probabilidade.
Teorema 6.2.19: Xn →r X ⇒ Xn →P X.
Prova: Primeiro note que
|Xn −X|r
ϵr
≥ I{w:|Xn −X|>ϵ} . Logo, tem-se que
|Xn − X|r
E(
) ≥ E(I{w:|Xn −X|>ϵ} ),
ϵr
ou seja,
E(|Xn − X|r )
≥ P ({w : |Xn − X| > ϵ}).
ϵr
Autor: Leandro Chaves Rêgo
6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS
99
Se Xn →r X, tem-se que limn→∞ E(|Xn − x|r ) = 0. Então, para todo ϵ > 0
lim P ({w : |Xn − X| > ϵ}) = 0,
n→∞
ou seja, Xn →P X.
O próximo exemplo prova que nem convergência em probabilidade, nem convergência na
r-ésima média implicam convergência quase certa.
Exemplo 6.2.20: Seja X uma variável aleatória com distribuição uniforme no intervalo
[0, 1], e considere a seqüência de intervalos definida por
I2m +i = [
i i+1
,
],
2m 2m
para m = 0, 1, 2, . . . e i = 0, 1, . . . , 2m − 1.
Note que tem-se 2m intervalos de comprimento 2−m que cobrem todo o intervalo [0, 1], e
o comprimento dos intervalos fica cada vez menor tendendo a 0. Definamos
{
1 se X(w) ∈ In ,
Yn (w) =
0 se X(w) ∈
/ In .
A seqüência Y1 , Y2 , . . . converge em probabilidade para 0, pois para 0 < ϵ ≤ 1,
P (|Yn | ≥ ϵ) = P (Yn = 1) = P (X ∈ In ),
e esta probabilidade, que é igual ao comprimento de In , converge para zero quando n → ∞.
Esta seqüência também converge na r-ésima média para todo r > 0, visto que E(|Yn |r ) =
P (Yn = 1) → 0 quando n → ∞. Logo, Yn converge na r-ésima média para 0.
Porém para todo w ∈ Ω, Yn (w) = 1 para um número infinito de n’s e Yn (w) = 0 para
um número infinito de n’s. Portanto, Yn (w) não converge para todo w, o que implica que Yn
não converge quase certamente. O próximo teorema estabelece mais uma relação entre convergência quase certa e convergência em probabilidade.
Teorema 6.2.21: Xn →P X se, e somente se, toda subseqüência {Xnk } possui uma outra
subseqüência {Xnk(i) } tal que Xnk(i) → X cp1 para i → ∞.
Prova: Suponha que Xn →P X, então dada qualquer subseqüência {Xnk }, escolha uma
outra subseqüência {Xnk(i) } tal que j ≥ k(i) implica que P (|Xnj − X| ≥ i−1 ) < 2−i . Em
particular, temos que P (|Xnk(i) − X| ≥ i−1 ) < 2−i . Seja Ai = {|Xnk(i) − X| ≥ i−1 },
∑∞ −i
∑
= 1 < ∞. Logo, pelo Lema de Borel-Cantelli, temos que
então ∞
i=1 2
i=1 P (Ai ) <
P (Ai infinitas vezes) = 0, ou seja, P (Ai finitas vezes) = 1. Portanto, |Xnk(i) − X| < i−1
exceto para um número finito de i’s com probabilidade 1. Portanto, Xnk(i) → X cp1.
Se Xn não converge para X em probabilidade, existe um ϵ > 0 e uma subseqüência {Xnk }
tal que P (|Xnk − X| > ϵ) > ϵ. Logo nenhuma subseqüência de {Xnk } pode convergir para X
Autor: Leandro Chaves Rêgo
6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS
100
em probabilidade, logo pelo Teorema 6.2.18, nenhuma subseqüência converge para X quase
certamente.
O próximo exemplo mostra que convergência em probabilidade não implica convergência
na r-ésima média
Exemplo 6.2.22: Seja X uma variável aleatória com distribuição uniforme no intervalo
[0, 1]. Considere a seguinte seqüência de varáveis aleatórias
{ n
2 se X(w) ∈ (0, n1 ),
Yn (w) =
0 se X(w) ∈
/ (0, n1 ).
Então, P (|Yn | > ϵ) = P (X(w) ∈ (0, n1 )) =
1
n
→ 0, mas E(|Yn |r ) = 2nr n1 → ∞.
O próximo exemplo mostra que convergência quase-certa não implica convergência na
r-ésima média.
Exemplo 6.2.23: Seja {Yn , n ≥ 1} uma seqüência de variáveis aleatórias onde
P (Yn = 0) = 1 − n−2 e P (Yn = en ) = n−2 .
Portanto, para todo ϵ > 0,
P (|Yn | > ϵ) = P (Yn > ϵ) ≤ P (Yn = en ) = n−2 .
Logo,
∞
∑
P (|Yn | > ϵ) ≤
n=1
∞
∑
n−2 < ∞.
n=1
Então, Borel-Cantelli implica que |Yn | > ϵ infinitas vezes com probabilidade 0, o que por sua
vez implica que Yn → 0 com probabilidade 1, ou seja, Yn → 0 cp1. Porém,
enr
E|Yn | = 2 → ∞,
n
r
para todo r > 0. Portanto, Yn → 0 cp1, mas Yn 9r 0 para todo r > 0.
O próximo teorema trata da relação entre convergência em distribuição e convergência
em probabilidade.
Teorema 6.2.24: As seguintes relações entre os tipos de convergência são válidas:
(a) Xn →P X ⇒ Xn →D X
(b) Se Xn →D c, onde c é uma constante, então Xn →P c.
Autor: Leandro Chaves Rêgo
6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS
101
Prova: Para parte (a), suponha que Xn →P X e seja x um ponto de continuidade de FX .
Queremos provar que FXn (x) → FX (x) quando n → ∞.
Como para ϵ > 0, Xn ≤ x ⇒ X ≤ x + ϵ ou |X − Xn | > ϵ, temos {w : Xn (w) ≤ x} ⊆ {w :
X(w) ≤ x + ϵ} ∪ {w : |Xn (w) − X(w)| > ϵ}. Logo,
FXn (x) = P (Xn ≤ x) ≤ FX (x + ϵ) + P (|Xn − X| > ϵ).
Por outro lado, X ≤ x − ϵ ⇒ Xn ≤ x ou |Xn − X| > ϵ de modo que
FX (x − ϵ) ≤ FXn (x) + P (|Xn − X| > ϵ).
Juntando as duas desigualdades, temos que ∀ϵ > 0, and ∀n,
FX (x − ϵ) − P (|Xn − X| > ϵ) ≤ FXn (x) ≤ FX (x + ϵ) + P (|Xn − X| > ϵ).
Como Xn →P X, para qualquer δ > 0, existe N tal que para n ≥ N , temos que
FX (x − ϵ) − δ ≤ FXn (x) ≤ FX (x + ϵ) + δ.
Finalmente, como x é ponto de continuidade de FX , para ϵ suficientemente pequeno, temos
que
FX (x) − 2δ ≤ FX (x − ϵ) − δ ≤ FXn (x) ≤ FX (x + ϵ) + δ ≤ FX (x) + 2δ.
Ou seja, limn→∞ FXn (x) = FX (x).
Para parte (b), suponha que Xn →D c. Note que a função de distribuição de uma variável
aleatória constante c é:
{
1 se x ≥ c,
Fc (x) =
0 se x < c.
Pela convergência em distribuição, tem-se que limn→∞ FXn (x) = 0, se x < c e limn→∞ FXn (x) =
1, se x > c. Logo, para ϵ > 0,
P (|Xn − c| ≤ ϵ) = P (c − ϵ ≤ Xn ≤ c + ϵ) ≥ P (c − ϵ < Xn ≤ c + ϵ) =
FXn (c + ϵ) − FXn (c − ϵ) → 1 quando n → ∞.
Ou seja, ∀ϵ > 0, limn→∞ P (|Xn − c| > ϵ) = 0.
A Figura 6.1 resume a relação entre os tipos de convergência.
Exemplo 6.2.25: Para n ≥ 1, Xn ∼ U (0, 1) são variáveis aleatórias i.i.d. Defina Yn =
min(X1 , X2 , . . . , Xn ) e Un = nYn . Mostre que
(a) Yn →P 0,
(b) Un →D U , sendo U ∼ Exp(1).
Autor: Leandro Chaves Rêgo
6.3. CONVERGÊNCIA DE VETORES ALEATÓRIOS
102
Figura 6.1: Relação entre os tipos de convergência.
Solução: Para parte (a), note que
P (|Yn | > ϵ) = P (Yn > ϵ) = P (X1 > ϵ, X2 > ϵ, . . . , Xn > ϵ).
Como os Xn são independentes temos que a última expressão é igual a
(P (X1 > ϵ))n = (1 − ϵ)n .
Como (1 − ϵ)n → 0 quando n → ∞, temos que Yn →P 0.
Para parte (b), note que
FUn (x) = P (Un ≤ x) = 1 − P (Un > x) = 1 − P (nYn > x) = 1 − P (Yn > x/n)
De acordo com a parte (a), esta expressão é igual a 1 − (1 − x/n)n , que por sua vez converge
para 1 − e−x quando n → ∞, que é igual a FU (x).
6.3
Convergência de Vetores Aleatórios
Para o caso vetorial as definições de convergência sofrem algumas adaptações. Para as
convergências quase certa e em probabilidade, precisamos avaliar a proximidade entre os
vetores aleatórios Xn e X pelo comportamento
∑ da norma da diferença entre eles. Em geral,
essa norma é calculada por ||Xn − X|| = ( kj=1 (Xnj − Xj )2 )1/2 , onde k é a dimensão dos
vetores e Xnj a coordenada j do vetor Xn . Pode-se verificar que a convergência do vetor
aleatório, quase certamente ou em probabilidade, ocorre se, e somente se, existir a mesma
Autor: Leandro Chaves Rêgo
6.3. CONVERGÊNCIA DE VETORES ALEATÓRIOS
103
convergência em cada uma das variáveis que compõe o vetor aleatório. Dessa forma, o caso
multidimensional pode ser estudado a partir de repetidas aplicações do caso univariado.
Para convergência em distribuição de vetores aleatórios, requeremos que a função de
distribuição conjunta Fn (x) convirja para F (x), em todos os pontos de continuidade da
função F . Entretanto, lembremos que da função de distribuição conjunta podemos obter as
marginais, mas o caminho inverso nem sempre é possível. Por essa razão, diferentemente das
convergências quase certa e em probabilidade, não podemos reduzir o estudo da convergência
em distribuição de vetores aleatórios, ao comportamento das suas respectivas coordenadas.
Não temos equivalência, mas apenas implicação, em uma das direções. Ou seja, se o vetor
converge em distribuição então cada componente também converge em distribuição, para a
correspondente marginal da função de distribuição limite. Entretanto a recíproca não é em
geral, verdadeira.
Autor: Leandro Chaves Rêgo
Capítulo 7
Funções Características
7.1
Motivação
Em matemática e suas aplicações, é sempre valioso ter maneiras alternativas de representar
o mesmo objeto matemático. Uma analogia pode ser que um conjunto de vetores pode ser
representado em vários sistemas de coordenadas. No nosso caso de probabilidade, o conceito
básico é o de uma medida de probabilidade P que dá um valor real numérico a um conjunto
de eventos em uma σ-álgebra. Para X uma variável aleatória, sabe-se que existem outras
maneiras de representar a probabilidade P , como por exemplo através de sua função de distribuição acumulada FX . Se X for uma variável aleatória discreta, pode-se equivalentemente
representar P pela função de probabilidade de X, pX . Se X for absolutamente contínua,
então P pode ser representada pela função densidade de probabilidade de X, fX . Uma
função característica φX de uma variável aleatória X é uma outra maneira de representar
P . Algumas vantagens do uso da função característica são: pode-se calcular os momentos
de uma variável aleatória X diferenciando-se a função característica (o que geralmente é
mais simples que usar diretamente as definições de momento que envolvem integrais), podese calcular mais facilmente a distribuição de soma de variáveis aleatórias independentes, e
finalmente o uso de funções características ajuda na prova de uma família de Teoremas Centrais do Limite que ajudam a explicar a prevalência de distribuições normal ou Gaussianas
na Natureza.
Uma função geratriz de momento é uma outra representação alternativa da distribuição
de uma variável aleatória. As vantagens desta representação são as mesmas da função
característica, mas como a função característica é mais robusta (no sentido que ela sempre
existe), nós focaremos no uso da mesma, e apenas no final deste capítulo mencionaremos a
definição de uma função geratriz de momento.
Até aqui, só tratamos com variáveis reais, mas o caso complexo é similar. Sem aprofundar
o assunto, diremos que√uma variável aleatória X é complexa, se pode ser escrita como X =
X1 + iX2 , onde i = −1, e X1 e X2 são variáveis aleatórias reais. Logo, para verificar
que uma função complexa é variável aleatória, precisamos verificar propriedades da imagem
inversa nas suas duas partes. Para o valor esperado de X, exige-se que as duas partes sejam
finitas. Assim, temos: EX = EX1 + iEX2 , onde EX1 e EX2 são ambas finitas. Para
efeitos práticos, quando realizando integração de funções complexas, podemos operar como
104
7.2. DEFINIÇÃO
105
se estivéssemos com funções reais (trata-se i como se fosse uma constante real).
7.2
Definição
Definição 7.2.1: A função característica φX de uma variável aleatória X é dada por:
. √
φX (t) = EeitX = E cos(tX) + iE sen(tX), onde i = −1.
Note que como cos(tX) e sen(tX) são variáveis aleatórias limitadas, a esperança na
definição acima é finita e, conseqüentemente, a função característica de qualquer variável
aleatória é bem definida. Note também que de acordo com esta definição, a função de
distribuição acumulada determina a função característica de uma variável aleatória.
No caso particular de uma variável aleatória discreta, temos:
∑
φX (t) =
eitxk p(xk ),
k
onde p(xk ) é a função probabilidade de X.
Analogamente, se X for uma variável aleatória contínua, temos:
∫ ∞
φX (t) =
eitx fX (x)dx,
−∞
onde fX (x) é a função densidade de probabilidade de X.
Observação 7.2.2: A função característica de uma variável aleatória contínua é a transformada de Fourier da densidade de probabilidade de X.
7.2.1
Propriedades
A seguir listamos algumas propriedades da função característica.
P1. A função característica é limitada por 1: |φX (t)| ≤ 1, ∀t ∈ R.
Prova: Como pela desigualdade de Jensen, E 2 cos(tx) ≤ E cos2 (tx) e E 2 sen(tx) ≤
E sen2 (tx), temos
√
√
|φX (t)| = E 2 cos(tX) + E 2 sen(tX) ≤ E(cos2 (tX) + sen2 (tX)) = E1 = 1.
P2. A função característica assume o valor 1 no ponto 0: φX (0) = 1.
Prova: φX (0) = Eei0X = E1 = 1.
Autor: Leandro Chaves Rêgo
7.2. DEFINIÇÃO
106
P3. φX (t) = φX (−t), onde c é o complexo conjugado de c. (Se c = x + iy, o seu complexo
conjugado é c = x − iy.)
Prova: φX (−t) = E cos(−tX) + iE sen(−tX) = E cos(tX) − iE sen(tX) = φX (t).
P4. φX é uniformemente contínua na reta.
Prova: Uma função φ é uniformemente contínua, se para todo ϵ > 0 existe δ > 0 tal
que para todo t, s ∈ R |φ(t) − φ(s)| < ϵ quando |t − s| < δ. Logo,
|φ(t) − φ(s)| = |E(eitx − eisx )| ≤ E|eisx (ei(t−s)x − 1)| = E|ei(t−s)x − 1|.
Seja h(u) = |eiux − 1|. Como 0 ≤ |eiux − 1| ≤ 2, 2 é integrável, e limu→0 h(u) = 0, pelo
teorema da convergência dominada, temos que limu→0 Eh(u) = 0. Então, para todo
ϵ > 0 existe δ > 0 tal que |u| < δ implica que Eh(u) < ϵ, ou seja, para todo ϵ > 0
existe δ > 0 tal que |t − s| < δ implica que |φ(t) − φ(s)| ≤ E|ei(t−s)x − 1| < ϵ.
P5. Se X e Y são independentes, então φX+Y (t) = φX (t) · φY (t), ∀t ∈ R.
Prova: φX+Y (t) = Eeit(X+Y ) = E(eitX eitY ) = E(eitX )E(eitY ) = φX (t) · φY (t).
É fácil provar por indução
∏n que se X1 , . . . , Xn são variáveis aleatórias independentes,
então φX1 +...+Xn (t) = k=1 φXk (t), ∀t ∈ R.
P6. A variável aleatória X tem distribuição simétrica em torno de 0 se, e somente se, φX (t)
é real para todo t ∈ R.
Prova: X é simétrica em torno de 0 se e somente se P (X ≤ x) = P (X ≥ −x), ∀x ∈ R.
Como X ≥ −x ⇔ −X ≤ x, nós temos que FX = F−X , ou seja, φX = φ−X . Como
φ−X (t) = Eeit(−X) = Eei(−t)X = φX (−t) = φX (t).
Então, X é simétrica em torno de 0 se e somente se φX (t) = φX (t), ou seja, se φX (t)
é real para todo t ∈ R.
(k)
P7. Se E|X|n < ∞, então φX (0) = ik EX k para k ∈ {1, . . . , n}, de modo que a função
característica é uma espécie de função geradora de momentos.
Prova: Suponhamos que X seja integrável; queremos provar que φ′X (t) = E(iXeitX ).
X (t)
Note que para h ̸= 0, temos φX (t+h)−φ
= E(eitX (e h −1) ). Como (e h−1) → ix
h
quando h → 0 (regra de L’Hopital), ∀x ∈ R, temos que o resultado decorre se pudermos
trocar a ordem do limite e da esperança. Mas como para todo x,
∫h
∫ h isx
isx
ixe
ds
e ds
eihx − 1
|=| 0
| = |x| · | 0
| ≤ |x|.
|
h
h
h
ihX
ihx
Portanto, como |eitX | = 1, temos
|eitX
(eihX − 1)
| ≤ |X|.
h
Autor: Leandro Chaves Rêgo
7.2. DEFINIÇÃO
107
Como X é integrável, o Teorema da Convergência Dominada implica que
φX (t + h) − φX (t)
h→0
h
ihX
(e
− 1)
(eihX − 1)
= lim E(eitX
) = E(lim eitX
) = E(iXeitX ).
h→0
h→0
h
h
φ′X (t) = lim
Logo, φ′X (0) = iEX. O restante da prova segue por indução em n.
P8. Se Y = aX + b, onde a e b são números reais constantes, φY (t) = eitb φX (at).
Prova: φY (t) = EeitY = Eeit(aX+b) = Eeitb eitaX = eitb Eei(at)X = eitb φX (at).
P9. φX (t) é positiva definida. Isto é, para todo n = 1, 2, . . ., tem-se
n ∑
n
∑
φX (tj − tk )zj zk ≥ 0,
j=1 k=1
para quaisquer números reais t1 , t2 , . . . , tn e complexos z1 , z2 , . . . , zn .
Prova:
n ∑
n
∑
φX (tj − tk )zj zk
j=1 k=1
n ∑
n
∑
=
=
j=1 k=1
n
n ∑
∑
E(eiX(tj −tk ) )zj zk
E(zj eiX(tj ) zk e−iXtk )
j=1 k=1
n ∑
n
∑
zj eiX(tj ) zk eiXtk )
= E(
j=1 k=1
n
∑
= E[(
iX(tj )
zj e
j=1
n
∑
zk eiXtk )]
)(
k=1
n
n
∑
∑
iX(tj )
zk eiXtk )]
= E[(
zj e
)(
= E(|
j=1
n
∑
k=1
zj eiX(tj ) |2 ) ≥ 0
j=1
Portanto, φX é positiva definida.
Os resultados a seguir conhecidos como Fórmula de Inversão e Teorema da Unicidade
garantem que a função característica determina a função de distribuição de uma variável
aleatória.
Autor: Leandro Chaves Rêgo
7.2. DEFINIÇÃO
108
Teorema 7.2.3: Seja X uma variável aleatória qualquer, então sua função característica
φX (t) determina a função de distribuição de X, através da seguinte Fórmula de Inversão:
∫ c −iat
1
e
− e−ibt
F̃ (b) − F̃ (a) = lim
φX (t)dt;
c→∞ 2π −c
it
onde F̃ (w) = 12 (F (w+ ) + F (w− )), ∀w ∈ IR e a, b, c são números reais tais que c > 0 e a < b.
−iat
−ibt
Prova: Note que se F for contínua em w, então F̃ (w) = F (w). A função e it−e
é definida
para ser igual a b − a, quando t = 0, coincidindo com seu limite quando t → 0. Logo, ela
será contínua para todo t real e limitada, pois:
i(a+b)t
e−iat − e−ibt
e−iat − e−ibt
| = |e 2 | × |
|
it
it
1
1
2 sen[ (b−a)t
]
e 2 i(b−a)t − e 2 i(a−b)t
2
|=|
| ≤ b − a,
=|
it
t
|
onde a última desigualdade decorre do fato que | senw| ≤ w, ∀w ∈ IR.
Denotando por Int(c) a integral da fórmula da inversão, temos
∫ c −iat
e
− e−ibt
1
Int(c) =
φX (t)dt
2π −c
it
∫ c −iat
1
e
− e−ibt
=
E(eiXt )dt
2π −c
it
∫ c
1
e−i(a−X)t − e−i(b−X)t
=
E(
)dt
2π −c
it
∫ c −i(a−X)t
1
e
− e−i(b−X)t
= E[
dt],
2π −c
it
onde a última igualdade decorre da troca da ordem de integração que é justificada tendo em
vista que o integrando é limitado conforme provamos acima. Portanto, trabalhando o termo
entre colchetes, temos
∫
e−i(a−X)t − e−i(b−X)t
dt
it
−c
∫ c
1
1
=
[cos((X − a)t) + i sen((X − a)t) − cos((X − b)t) − i sen((X − b)t)]dt
2π −c it
∫
1 c sen((X − a)t) − sen((X − b)t)
(
)dt
=
π 0
t
∫
∫
1 c sen((X − a)t)
1 c sen((X − b)t)
=
dt −
dt
π 0
t
π 0
t
∫
∫
1 c(X−b) sen(u)
1 c(X−a) sen(u)
du −
du
=
π 0
u
π 0
u
= g(c(X − a)) − g(c(X − b)),
1
2π
c
Autor: Leandro Chaves Rêgo
7.2. DEFINIÇÃO
109
onde g é a função dada por g(w) =
1
π
∫ w sen(u)
du, w ∈ IR. Logo, temos
u
0
Int(c) = E[g(c(X − a)) − g(c(X − b))].
Como vamos passar ao limite para c → ∞, precisamos verificar se será possível trocar a
ordem entre limite e esperança. Como g é contínua e limw→±∞ g(w) = ± 21 , temos que g é
limitada. Então a troca de ordem do limite e da esperança é justificada pelo Teorema da
Convergência Dominada. Seja Y = 21 Ia≤X<b + 12 Ia<X≤b . Temos que
lim g(c(X − a)) − g(c(X − b)) = Y.
c→∞
Então,
lim Int(c) = E[ lim g(c(X − a)) − g(c(X − b))] = EY.
c→∞
c→∞
Mas o valor esperado de Y é dado por:
1
1
EY = P (X = a) + P (X = b) + P (a < X < b)
2
2
1
1
= (F (a) − F (a− )) + (F (b) − F (b− )) + (F (b− ) − F (a))
2
2
1
1
= (F (b) + F (b− )) − (F (a) + F (a− )) = F̃ (b) − F̃ (a).
2
2
Portanto, limc→∞ Int(c) = F̃ (b) − F̃ (a), como queríamos demonstrar.
Agora podemos utilizar a fórmula da inversão para provar o Teorema da Unicidade.
Teorema 7.2.4: Teorema da Unicidade. Se as variáveis aleatórias X e Y têm a mesma
função característica, então elas têm a mesma distribuição.
Prova: Por hipótese, X e Y têm a mesma função característica e, como conseqüência da
Fórmula da Inversão, temos que para quaisquer a, b reais e a < b,
F̃X (b) − F̃X (a) = F̃Y (b) − F̃Y (a).
Tomando o limite quando a → −∞, temos que F̃X (a) → 0 e F̃Y (a) → 0. Portanto,
F̃X (b) = F̃Y (b), ∀b ∈ IR. Seja c < b, pela monotonicidade de FX e FY e pela definição de F̃ ,
temos
FX (c) ≤ F̃X (b) ≤ FX (b) e FY (c) ≤ F̃Y (b) ≤ FY (b).
Então pela continuidade à direita da função de distribuição, temos que
lim F̃X (b) = FX (c) e lim F̃Y (b) = FY (c).
b↓c
b↓c
Logo, FX (c) = FY (c), ∀c ∈ IR como queríamos demonstrar.
Note que o Teorema da Unicidade junto com a definição de função característica implicam
que existe uma correspondência 1-1 entre funções características e funções de distribuições.
Autor: Leandro Chaves Rêgo
7.2. DEFINIÇÃO
110
1
Exemplo 7.2.5: Se φX (t) = 1+t
2 , calcule V arX.
Solução: Diferenciando φX , temos φ′X (t) =
−2(1+t2 )2 +2t(2(1+t2 )2t)
.
(1+t2 )4
2
2
φ′′X (t) =
Portanto, EX =
Logo, V arX = EX − (EX) = 2.
−2t
.
(1+t2 )2
φ′X (0)
i
Diferenciando mais uma vez,
= 0 e EX 2 =
φ′′
X (0)
i2
= −(−2) = 2.
Exemplo 7.2.6: Seja φ(t) = cos(at), onde a > 0. Mostraremos que φ é função característica, achando a distribuição correspondente. Já que assume valores reais, se φ fosse
função característica de alguma variável aleatória X, então por P6, X possuiria distribuição
simétrica em torno de zero. Com efeito teríamos cos(at) = φ(t) = E cos(tX), pois a parte
imaginária seria nula. Como cos(at) = cos(−at), é evidente que uma distribuição simétrica
concentrada nos dois pontos a e −a corresponderia a função característica φ. Portanto, φ é
função característica de X, se, e somente se, P (X = a) = 1/2 = P (X = −a).
Exemplo 7.2.7: Sejam X1 e X2 duas variáveis aleatórias i.i.d. e seja Y = X1 − X2 . Qual
a função característica de Y ?
Solução: Seja φ a função característica de X1 e X2 . Por P8 e P3, temos que φ−X2 (t) =
φ(−t) = φ(t). Então, como X1 e X2 são independentes, por P5, temos que
φY (t) = φ(t)φ−X2 (t) = |φ(t)|2 .
Teorema 7.2.8: Uma função contínua ψ : R → C com ψ(0) = 1 é função característica de
alguma variável aleatória se, e somente se, ela for positiva definida.
Prova: Conforme propriedades já demonstradas, se for função característica, é contínua,
positiva definida e aplicada em 0, resulta o valor 1. A prova da recíproca será omitida.
7.2.2
Exemplos de Funções Características
Bernoulli. Suponhamos que X ∼ Bernoulli(p), onde P (X = 1) = p = 1 − P (X = 0).
Então,
φX (t) = EeitX = peit + (1 − p).
Poisson. Suponhamos que X ∼ P oisson(λ). Então,
φX (t) = EeitX =
∞
∑
n=0
eitn e−λ
∞
∑
λn
(λeit )n
it
= e−λ
= eλ(e −1) .
n!
n!
n=0
1
Uniforme. Suponhamos que X ∼ U nif orme(−a, a). Então, fX (x) = 2a
para −a < x < a,
e fX (x) = 0 caso contrário. Logo, se t = 0, então φX (0) = 1, e para t ̸= 0,
∫ a itx
1 eita − e−ita
sen(ta)
e
itX
dx = (
)=
.
φX (t) = Ee =
2a
it
ta
−a 2a
Autor: Leandro Chaves Rêgo
7.3. TEOREMA DA CONTINUIDADE DE LEVY
111
Normal. Suponhamos que X ∼ N (0, 1). Então,
∫
∫
2
(x−it)2
−t2
−t2
1
1
itx −x
2
2
φX (t) = √
e e dx = e √
e− 2 dx = e 2 ,
2π
2π
onde esta última integral pode ser calculada utilizando o Teorema de Cauchy tendo em vista
−z 2
que e 2 é uma função analítica no plano complexo.
Exponencial. Suponhamos que X ∼ Exp(α). Então,
∫ ∞
∫ ∞
itx
−αx
φX (t) =
e αe dx = α
ex(−α+it) dx = [
0
0
α
α
ex(−α+it) ]∞
.
0 =
−α + it
α − it
Exemplo 7.2.9: Sejam X1 , X2 , . . . , Xn variáveis aleatórias independentes e identicamente
distribuídas, seguindo o modelo de Poisson com parâmetro λ. Queremos obter a distribuição
de X1 + X2 + . . . + Xn .
Solução: Temos
it(X1 +...+Xn )
φX1 +...+Xn (t) = E(e
)=
n
∏
E(eitXj ) = enλ(e
it −1)
.
j=1
Portanto, X1 + X2 + . . . + Xn tem uma distribuição Poisson com parâmetro nλ.
7.3
Teorema da Continuidade de Levy
Nosso objetivo nesta seção é provar que Xn →D X se, e somente se, φXn (t) → φX (t), ∀t ∈
R. Antes de provarmos a necessidade desta afirmação, considere a seguinte definição de
convergência de funções de distribuição.
Definição 7.3.1: Seja X, X1 , X2 , . . . uma seqüência de variáveis aleatórias com funções de
distribuição acumuladas dadas respectivamente por F, F1 , F2 , . . .. Diz-se que Fn converge
fracamente para F , se Xn →D X.
Teorema 7.3.2: Teorema de Helly-Bray. Sejam F, F1 , F2 , . . . funções de distribuição.
Se Fn converge fracamente para F , então
∫
∫
g(x)dFn (x) → g(x)dF (x)
para toda função g : R → R contínua e limitada.
Prova: Para −∞ < a < b < ∞, onde a e b são pontos de continuidade de F ,
∫
∫
∫
∫ b
∫ b
∫ b
∫ b
∫
| gdFn − gdF | ≤ | gdFn −
gdFn |+|
gdFn −
gdF |+|
gdF − gdF | = I+II+III.
a
a
a
a
Autor: Leandro Chaves Rêgo
7.3. TEOREMA DA CONTINUIDADE DE LEVY
112
Seja c = supx∈R |g(x)| < ∞ e seja ϵ > 0. Então,
∫ b
∫
∫ a
∫ ∞
∫ a
∫ ∞
III = |
gdF − gdF | = |
gdF +
gdF | ≤ |
gdF | + |
gdF |
a
−∞
b
−∞
b
∫ a
∫ ∞
∫ a
∫ ∞
≤
|g|dF +
|g|dF ≤
cdF +
cdF = c(F (a) + 1 − F (b))
−∞
−∞
b
b
Logo, para qualquer ϵ > 0, podemos escolher a suficientemente pequeno e b suficientemente grande tal que III < ϵ, pois limx→−∞ F (x) = 0 e limx→∞ F (x) = 1. Para esses valores
de a e b, e para n suficientemente grande, como a e b são pontos de continuidade de F , e
como Fn converge fracamente para F , temos que I ≤ c(Fn (a) + 1 − Fn (b)) < 2ϵ.
Consideremos agora II. Sejam a e b os pontos já escolhidos. Já que g é uniformemente
contínua em [a, b],1 podemos escolher x0 , x1 , . . . , xN tais que a = x0 < x1 < . . . < xN = b,
onde xi são pontos de continuidade de F e |g(x) − g(xi )| < ϵ para todo x ∈ [xi , xi+1 ],
i ∈ {0, . . . , N − 1}. Então,
∫ xi+1
g(x)dFn (x) ≤ (g(xi )+ϵ)(Fn (xi+1 )−Fn (xi )) = Mni
mni = (g(xi )−ϵ)(Fn (xi+1 )−Fn (xi )) ≤
xi
e
∫
mi = (g(xi ) − ϵ)(F (xi+1 ) − F (xi )) ≤
xi+1
g(x)dF (x) ≤ (g(xi ) + ϵ)(F (xi+1 ) − F (xi )) = Mi .
xi
Portanto,
∫
mni − Mi ≤
xi+1
∫
xi+1
g(x)dFn (x) −
xi
g(x)dF (x) ≤ Mni − mi ,
xi
para i ∈ {0, . . . , N − 1}. Somando, temos
N
−1
∑
∫
(mni − Mi ) ≤
∫
b
g(x)dFn (x) −
a
i=0
b
g(x)dF (x) ≤
a
N
−1
∑
(Mni − mi ).
i=0
Quando n → ∞, temos que mni → mi e Mni → Mi , logo,
N
−1
∑
(mni − Mi ) →
i=0
e
N
−1
∑
i=0
N
−1
∑
(mi − Mi ) = −2ϵ(F (b) − F (a)) ≥ −2ϵ
i=0
(Mni − mi ) →
N
−1
∑
(Mi − mi ) = 2ϵ(F (b) − F (a)) ≤ 2ϵ
i=0
∑N −1
∑ −1
(mi − Mi )| < ϵ
(mni − Mi ) − i=0
Como para n suficientemente grande temos que | N
∑N −1
∑i=0
∑N −1
∑N −1
N −1
(Mni −
e | i=0 (Mni −mi )− i=0 (Mi −mi )| < ϵ, segue que i=0 (mni −Mi ) ≥ −3ϵ e i=0
1
Uma função g é uniformemente contínua em [a, b] se para todo ϵ > 0, existe δ > 0 tal que para todo
x, y ∈ [a, b] se |x − y| < δ, então |g(x) − g(y)| < ϵ. É fácil provar que toda função contínua em um intervalo
fechado é uniformemente contínua neste intervalo.
Autor: Leandro Chaves Rêgo
7.3. TEOREMA DA CONTINUIDADE DE LEVY
113
m
∫ i ) ≤ 3ϵ. Então, para n suficientemente grande, temos que II ≤ 3ϵ. Portanto, |
gdF | ≤ 6ϵ para n grande o suficiente.
∫
gdFn −
Como cos(tx) e sen(tx) são funções contínuas e limitadas, tem-se que para t fixo
E(cos(tXn )) → E(cos(tX))
e
E(sen(tXn )) → E(sen(tX))
Logo, φXn (t) → φX (t).
É fácil definir a função característica φ dada uma função de distribuição F : φ(t) =
∫ itx
e dF (x), ∀t ∈ R. O próximo teorema implica a suficiência do nosso objetivo nesta seção,
ou seja, se φXn → φX , então Xn →D X.
Teorema 7.3.3: Sejam F1 , F2 , . . . funções de distribuições e φ1 , φ2 , . . . suas funções características. Se φn converge pontualmente para um limite φ e se φ é contínua no ponto zero,
então
(a) existe uma função de distribuição F tal que Fn → F fracamente; e
(b) φ é a função característica de F .
Prova: Note que o teorema anterior implica que, sob as hipóteses, (a) implica (b). Para
provar que Fn converge fracamente para alguma função de distribuição, vamos primeiro
provar que para toda seqüência de funções de distribuição satisfazendo as condições do
teorema, existem uma subseqüência Fn1 , Fn2 , . . . e uma função de distribuição F tais que
Fnj → F fracamente, quando j → ∞. Provaremos isso em duas etapas:
(i) existem uma subseqüência Fn1 , Fn2 , . . . e uma função F : R → [0, 1] tais que F é nãodecrescente e contínua à direita e Fnj (x) → F (x), quando j → ∞, para todo x ponto
de continuidade de F ; e
(ii) F (∞) = 1 e F (−∞) = 0.
Para provar (i), usaremos o método da diagonalização. Sejam r1 , r2 , . . ., uma enumeração
dos racionais da reta. Considere a seguinte matriz:
F1
F11
F12
F13
..
.
F2
F21
F22
F23
..
.
F3
F31
F32
F33
..
.
F4
F41
F42
F43
..
.
···
···
···
···
..
.
Nesta matriz temos que a seqüência (F1j , F2j , F3j , . . .) contida na (j + 1)-ésima linha da
matriz é uma subseqüência da seqüência contida na j-ésima linha que converge no racional
rj , para j ≥ 1. Note que como a seqüência (F1j−1 (rj ), F2j−1 (rj ), F3j−1 (rj ), . . .) é uma seqüência
limitada de números reais, ela possui uma subseqüência convergente; logo pode-se escolher a
Autor: Leandro Chaves Rêgo
7.3. TEOREMA DA CONTINUIDADE DE LEVY
114
seqüência (F1j , F2j , F3j , . . .) indutivamente conforme descrito acima. Seja Fnj = Fjj , para j ≥
1, então temos que a subseqüência (Fnj )j converge em todos os racionais da reta. Chamemos
o limite de F (rk ), de modo que Fnj (rk ) → F (rk ), ∀k. É óbvio que 0 ≤ F (rk ) ≤ 1 e que F é não
decrescente nos racionais. Definamos F em x irracional por F (x) = limr↓x,r rational F (r).
F assim definida é não-decrescente, mas não é necessariamente contínua à direita. Vamos
provar que Fnj (x) → F (x) para todo ponto x de continuidade de F . Suponha que x é um
ponto de continuidade de F e sejam r′ e r′′ racionais tais que r′ < x < r′′ e F (r′′ ) − ϵ <
F (x) < F (r′ ) + ϵ. Então,
F (x) − ϵ < F (r′ ) = lim Fnj (r′ ) ≤ lim inf Fnj (x) ≤
j→∞
′′
j→∞
′′
lim sup Fnj (x) ≤ lim Fnj (r ) = F (r ) < F (x) + ϵ
j→∞
j→∞
Como ϵ é arbitrário, temos Fnj (x) → F (x) quando j → ∞. Finalmente, podemos
redefinir F nos seus pontos de descontinuidade de modo que F seja contínua à direita.
Para provar (ii), note que
∫ t
∫ t∫ ∞
φnj (s)ds =
eisx dFnj (x)ds.
0
0
−∞
Mas como o integrando é limitado podemos trocar a ordem de integração, logo
∫ t
∫ ∞∫ t
∫ ∞ itx
e −1
isx
φnj (s)ds =
e dsdFnj (x) =
dFnj (x)
ix
0
−∞ 0
−∞
Considere a função, h(x) = e ix−1 para x ̸= 0 e h(0) = t. h é limitada e contínua e um
argumento similar ao utilizado na prova do teorema anterior, pode ser utilizado para provar
que quando j → ∞
∫ ∞ itx
∫ ∞
∫ ∞
e −1
dFnj (x) =
h(x)dFnj (x) →
h(x)dF (x) =
ix
−∞
−∞
−∞
∫ t∫ ∞
∫ ∞ itx
e −1
dF (x) =
eisx dF (x)ds
ix
−∞
0
−∞
itx
Como φnj (t) → φ(t), φ é contínua em zero, implica que φ é limitada e mensurável, então
pelo teorema da convergência dominada, tem-se que
∫ t
∫ t
φnj (s)ds →
φ(s)ds.
0
0
Igualando-se os limites iguais e dividindo-se por t, temos
∫
∫ ∫
1 t ∞ isx
1 t
e dF (x)ds, t ̸= 0.
φ(s)ds =
t 0
t 0 −∞
Fazendo t → 0 e usando a continuidade em s = 0 das duas funções φ(s) e
tem-se
∫ ∞
φ(0) =
1dF (x) = F (∞) − F (−∞).
∫∞
−∞
eisx dF (x),
−∞
Autor: Leandro Chaves Rêgo
7.4. SOMA DE UM NÚMERO ALEATÓRIO DE VARIÁVEIS ALEATÓRIAS
115
Como φ(0) = limn→∞ φn (0) = 1, temos que F (∞) − F (−∞) = 1, ou seja, o que implica
que F (∞) = 1 e F (−∞) = 0.
Para terminar a prova suponha por contradição que Fn não convirja fracamente para
F , onde Fnj → F fracamente. Então, existirão x, ponto de continuidade de F e uma
subseqüência F1′ , F2′ , . . . tais que Fn′ (x) → a ̸= F (x). Como essa subseqüência também
satisfaz as condições do teorema, (i) e (ii) implicam que existe uma subseqüência F1′′ , F2′′ , . . .
e uma função de distribuição G tais que Fn′′ → G fracamente. Como F e G possuem a
mesma função característica (φ), temos que F = G, ou seja Fn′′ (x) → a = G(x) = F (x),
uma contradição.
Exemplo 7.3.4: Suponha que Xn e Yn são independentes para cada n ≥ 0 e que Xn →D X0
e Yn →D Y0 . Prove que Xn + Yn →D X0 + Y0 .
Solução: Pelo Teorema da Continuidade sabemos que φXn (t) → φX0 (t) e que φYn (t) →
φY0 (t). Como Xn e Yn são independentes temos que φXn +Yn (t) = φXn (t)φYn (t). Portanto,
lim φXn +Yn (t) = lim(φXn (t)φYn (t)) = φX0 (t)φY0 (t) = φX0 +Y0 (t).
n
n
Logo, pelo Teorema da Continudade, temos que Xn + Yn →D X0 + Y0 .
Exemplo 7.3.5: Suponha que a variável aleatória Xn tenha distribuição Binomial, ou seja,
( )
n k
P (Xn = k) =
pn (1 − pn )n−k , k = 0, 1, 2, . . . , n.
k
Se pn → 0 quando n → ∞ de tal modo que npn → λ > 0, então
Xn →D Y,
onde Y ∼ P oisson(λ). Para verificar isto relembre que podemos representar uma variável
aleatória Binomial como a soma de variáveis aleatórias Bernoulli i.i.d., então
φXn (t) = EeitXn = (1 − pn + eit pn )n = (1 + pn (eit − 1))n = (1 +
npn (eit − 1) n
it
) → eλ(e −1) ,
n
onde a expressão final é a função característica de uma variável aleatória P oisson(λ). Portanto, pelo Teorema da Continuidade, Xn →D Y .
7.4
Soma de um Número Aleatório de Variáveis Aleatórias
Nesta seção, nós estudaremos somas de um número aleatório de variáveis aleatórias, ou seja,
S=
N
∑
Xi ,
i=0
Autor: Leandro Chaves Rêgo
7.4. SOMA DE UM NÚMERO ALEATÓRIO DE VARIÁVEIS ALEATÓRIAS
116
onde N é uma variável aleatória inteira e não negativa, e assume-se que ela é independente das
parcelas Xi . Por exemplo, N pode ser o número de clientes, pacotes ou trabalhos chegando
em uma fila em um dado intervalo de tempo e Xi pode ser o tempo necessário para finalizar o
i-ésimo trabalho. S então seria o tempo total do serviço. Em nossas aplicações assumiremos
que N = 0 significa que S = 0, ou seja, X0 = 0 com função característica φX0 (u) = 1.
Sabemos que ES = E[E(S|N )] e que
E(S|N = n) =
n
∑
E(Xi |N = n).
i=0
Como assumimos que N é independente de Xi , temos
E(S|N = n) =
n
∑
EXi .
i=0
Se as variáveis aleatórias {Xi , i > 0} têm esperança igual a m, então E(S|N = n) = nm e
ES = mEN .
Para informações mais detalhadas sobre S, vamos calcular sua função característica φS
assumindo que as variáveis aleatórias {N, X1 , X2 , . . .} são independentes:
φS (t) = EeitS = E(E(eitS |N )).
Por outro lado, utilizando a hipótese de independência, podemos calcular,
itS
E(e
n
n
∏
∏
itXi
|N = n) = E( e |N = n) =
φXi (t).
i=0
Logo,
φS (t) =
∞
∑
i=0
P (N = n)
n=0
n
∏
φXi (t).
i=0
Se as parcelas {X1 , X2 , . . .} forem também identicamente distribuídas com função característica φX , então
∞
∑
φS (t) =
P (N = n)φnX (t),
n=0
onde utilizamos o fato que
φ0X
φN (t) =
= 1 = φX0 (t). Note que a função característica de N é:
∞
∑
P (N = n)eitn =
n=0
∞
∑
P (N = n)[eit ]n .
n=0
Comparando as expressões de φS e φN , nós vemos que escolhendo t em φN (t) de forma que
eit = φX , nós podemos reescrever:
φS (t) = φN (−i log φX (t)).
Portanto, nós provamos o seguinte teorema:
Autor: Leandro Chaves Rêgo
7.5. FUNÇÃO CARACTERÍSTICA DE UM VETOR ALEATÓRIO
117
∑
Teorema 7.4.1: Se N é uma variável aleatória inteira não-negativa, S = N
i=0 Xi , X0 = 0,
onde {Xi , i ≥ 1} são i.i.d. com função característica comum φX , e elas são independentes
de N que é descrita pela função característica φN , então
φS (t) = φN (−i log φX (t)).
Exemplo 7.4.2 : Suponha que N ∼ P oisson(λ) representa o número de clientes que
são atendidos em um dado tempo T . Suponha ainda que com probabilidade p o i-ésimo
cliente fica satisfeito com o atendimento. Assuma que os clientes ficam satisfeitos com o
serviço de maneira independente e que N , é independente da probabilidade que clientes
ficam satisfeitos. Determine a distribuição de probabilidade de S o número total de clientes
satisfeitos no tempo T .
Solução: Seja Xi ∼ Bernoulli(p), i ≥ 1, a variável aleatória que descreve se o i-ésimo
cliente ficou ou não satisfeito com o atendimento. Então temos,
S=
N
∑
Xi ,
i=0
onde X0 = 0. Desta forma, sabemos que
φS (t) = φN (−i log φX (t)),
onde φX (t) = peit + (1 − p) e φN (t) = eλ(e
φS (t) = eλ(e
it −1)
i(−i log(peit +(1−p))) −1)
. Substituindo temos:
it +(1−p)−1)
= eλ(pe
= epλ(e
it −1)
.
Pela unicidade da função característica, temos que S ∼ P oisson(pλ).
7.5
Função Característica de um Vetor Aleatório
⃗ = (X1 , . . . , Xk ) um vetor aleatório k-dimensional. A função
Definição 7.5.1: Seja X
⃗ é a função φ ⃗ : IRk → C definida por
característica de X
X
⃗ ⃗
φX⃗ (⃗t) = Eeit·X = Eexp(i
k
∑
tj Xj ).
j=1
φX⃗ é também chamada de função característica conjunta de X1 , . . . , Xk .
A função característica multivariada tem propriedades análogas a todas as propriedades
enunciadas para a função característica de uma variável aleatória. As propriedades P1–P4 e
P6 são válidas com as óbvias modificações (a reta é substituída por IRk ). Para P5, supõe-se
⃗ e Y⃗ sejam vetores de mesma dimensão. Sob esta condição, a independência de X
⃗ e
que X
Y⃗ implica que
φX+
t) = φX⃗ (⃗t)φY⃗ (⃗t).
⃗ Y
⃗ (⃗
Quanto ao Teorema da Unicidade, também existe uma fórmula da inversão para a função característica multidimensional que pode ser usada para provar a unicidade da função
característica:
Autor: Leandro Chaves Rêgo
7.5. FUNÇÃO CARACTERÍSTICA DE UM VETOR ALEATÓRIO
118
⃗ e Y⃗ forem vetores aleatórios k-dimensionais
Teorema 7.5.2: Teorema da Unicidade. Se X
k
⃗ e Y⃗ têm a mesma distribuição. Em outras patais que φX⃗ (⃗t) = φY⃗ (⃗t), ∀⃗t ∈ IR , então X
lavras, a função característica determina a distribuição, e podemos escrever: φX⃗ = φY⃗ ⇔
FX⃗ = FY⃗ .
Analogamente a P7, correlações de ordem maiores podem ser facilmente calculadas
diferenciando-se
a função característica conjunta repetidamente. Formalmente, seja p =
∑n
k=1 pk para números naturais quaisquer pk , temos
E(
n
∏
Xkpk )
1
1 ∂ p φX⃗ (⃗t)
= p p1
|⃗ ⃗ .
i ∂t1 · · · ∂tpnn t=0
⃗ = (X1 , X2 ), temos que
No caso particular de X
EX1 X2 = −
∂ 2 φX1 ,X2 (t1 , t2 )
|t1 =t2 =0 .
∂t1 ∂t2
Também é fácil analisar o comportamento da função característica multivariada de transformações lineares de vetores aleatórios em analogia a propriedade P8. (Assumiremos que um
⃗ k-dimensional é uma matriz coluna com dimensão k ×1. Deste modo ⃗t· X
⃗ = (⃗t)T X.)
⃗
vetor X
⃗ + ⃗b, então
Por exemplo, seja Y⃗ = AX
⃗ ⃗
⃗T⃗
⃗T
φY⃗ (⃗t) = Eei(t) Y = Eei(t) (AX+b)
⃗ T⃗
= E(ei(t) b ei(A
T⃗
⃗
t)T X
⃗ T⃗
) = ei(t) b φX⃗ (AT ⃗t),
T⃗
onde utilizamos o fato que (AB)T = BT AT e que ei(⃗t) b não é aleatório e pode sair fora da
operação de esperança.
Assim como é fácil obter a distribuição marginal dada uma distribuição conjunta de
variáveis aleatórias, também é fácil obter a função característica de qualquer distribuição
marginal. Para isso basta fazer todos os termos “extras” iguais a zero na função característica
multivariada. Por exemplo, para as variáveis aleatórias X, Y, e Z, temos Eei(xX+yY ) =
Eei(xX+yY +0Z) , ou seja, φX,Y (x, y) = φX,Y,Z (x, y, 0), ∀(x, y) ∈ IR2 .
Como no caso unidimensional, temos convergência em distribuição se, e somente se, as
funções características convergem.
⃗ n →D X
⃗ se, e somente se, φ ⃗ (⃗t) → φ ⃗ (⃗t), ∀⃗t ∈ IRk .
Teorema 7.5.3: X
Xn
X
Prova: Omitida.
O próximo teorema mostra que convergência em distribuição de vetores aleatórios é
equivalente à convergência em distribuição de todas as combinações lineares das coordenadas.
⃗ n = (Xn1 , Xn2 , . . . , Xnk ) e X
⃗ = (X1 , . . . , Xn )
Teorema 7.5.4: Cramér-Wold. Sejam X
⃗n → X
⃗ se, e somente se, ∑k tj Xnj →D
vetores aleatórios k-dimensionais. Então, X
j=1
∑k
k
t
X
,
para
todo
(t
,
.
.
.
,
t
)
∈
I
R
.
1
k
j=1 j j
Autor: Leandro Chaves Rêgo
7.5. FUNÇÃO CARACTERÍSTICA DE UM VETOR ALEATÓRIO
Prova: Suponhamos primeiro que
∑k
j=1 tj Xnj
→D
119
∑k
j=1 tj Xj , ∀(t1 , . . . , tk ).
Então,
∑k
φX⃗ n (t1 , . . . , tk ) = Eei j=1 tj Xnj
= φ∑k tj Xnj (1) → φ∑k tj Xj (1) = φX⃗ (t1 , . . . , tk ),
j=1
j=1
onde utilizamos o Teorema da Continuidade de Levy. Também pelo Teorema da Continui⃗ n →D X.
⃗
dade de Levy no caso multidimensional, temos que como φX⃗ n → φX⃗ , X
∑
⃗ n →D X.
⃗ Para (t1 , . . . , tk ) ∈ IRk , queremos provar que k tj Xnj →D
Agora suponha que X
j=1
∑k
∑k
∑k
(t),
∀t
∈
IR. Mas,
(t)
→
φ
t
X
.
Para
tanto,
basta
provarmos
que
φ
j=1 j j
j=1 tj Xj
j=1 tj Xnj
utilizando novamente o Teorema da Continuidade de Levy, temos que
φ∑k
(t)
j=1 tj Xnj
= Eeit
∑k
j=1 tj Xnj
= Eei
∑k
j=1 (ttj )Xnj
φX⃗ n (tt1 , . . . , ttk ) → φX⃗ (tt1 , . . . , ttk ) = φ∑k
j=1 tj Xj
(t)
Terminaremos nossa discussão de funções características multidimensionais considerando
um critério para independência de vetores aleatórios.
⃗ = (X1 , . . . , Xm ) e Y⃗ = (Y1 , . . . , Yn ) vetores aleatórios, onde
Teorema 7.5.5 : Sejam X
⃗ e Y⃗ são independentes se, e somente se,
m ≥ 1, n ≥ 1. X
φX1 ,...,Xm ,Y1 ,...,Yn (x1 , . . . , xm , y1 , . . . , yn ) = φX⃗ (x1 , . . . , xm )φY⃗ (y1 , . . . , yn ),
para todo (x1 , . . . , xm ) ∈ IRm e (y1 , . . . , yn ) ∈ IRn .
⃗ e Y⃗ sejam variáveis aleatórias X e Y (m = 1, n = 1),
Prova: Suponhamos primeiro que X
com X e Y independentes. Então temos,
φX,Y (x, y) = Eei(xX+yY ) = EeixX eiyY = EeixX EeiyY = φX (x)φY (y), ∀(x, y) ∈ IR2 .
Reciprocamente, suponha que φX,Y (x, y) = φX (x)φY (y) para todo (x, y) ∈ IR2 . Então
a independência de X e Y é conseqüência do Teorema da Unicidade: se X e Y fossem
independentes, elas teriam função característica conjunta φX,Y (x, y) = φX (x)φY (y) pela
parte inicial desta demonstração. Se não fossem independentes, elas teriam uma função
característica diferente, o que contraria a hipótese. Logo, são independentes.
A prova no caso geral é análoga e omitida.
Um resultado semelhante vale para um número finito qualquer de vetores aleatórios.
Consideremos o caso mais simples em que X1 , . . . , Xn são variáveis aleatórias. Então, temos
X1 , . . . , Xn independentes se, e somente se,
φX1 ,...,Xn (t1 , . . . , tn ) =
n
∏
φXj (tj ), ∀(t1 , . . . , tn ) ∈ IRn .
j=1
Autor: Leandro Chaves Rêgo
7.6. FUNÇÕES GERATRIZES DE MOMENTO
7.6
120
Funções Geratrizes de Momento
Definição 7.6.1: Uma função geratriz de momento F̂X (t) de uma variável aleatória X com
função de distribuição FX existe se,
F̂X (t) := EetX < ∞, ∀t ∈ I,
onde I é um intervalo contendo 0 no seu interior.
O problema de utilizar funções geratrizes de momento é que elas nem sempre existem. Por
exemplo, a função geratriz de momento de uma variável aleatória com distribuição de Cauchy
não existe. Pode-se provar que a existência da função geratriz de momento é equivalente a
cauda da distribuição de X ser limitada exponencialmente, ou seja, P (|X| > x) ≤ Ke−cx ,
para algum K > 0 e c > 0. Se a função geratriz de momento existe, pode-se provar que ela
também determina a função de distribuição.
7.7
Teorema de Slutsky
Nesta seção, estudaremos o Teorema de Slutsky que trata do comportamento da soma e do
produto de variáveis aleatórias, uma convergindo em distribuição e outra em probabilidade.
Antes disso, iremos provar que funções contínuas preservam convergência.
Teorema 7.7.1: Sejam {Xn : n ≥ 1} e X variáveis aleatórias com funções de distribuição
{Fn : n ≥ 1} e F , respectivamente. Seja g : IR → IR uma função contínua. Então, se Xn
converge para X quase certamente, em probabilidade ou em distribuição, o mesmo ocorre
com g(Xn ) para g(X), no mesmo modo de convergência.
Prova: Suponha que Xn → X cp1. Então, existe um conjunto A ∈ F tal que P (A) = 0
e Xn (w) → X(w) para w ∈ Ac . Como g é contínua, g(Xn (w)) → g(X(w)) para w ∈ Ac e,
portanto, g(Xn ) → g(X) cp1.
Considere que Xn →P X e vamos verificar que g(Xn ) →P g(X). Dado ϵ > 0 arbitrário,
fixemos m grande o suficiente tal que P (|X| > m/2) < ϵ. A função g sendo contínua em IR,
será uniformemente contínua no intervalo fechado [−m, m], logo para ϵ′ > 0 arbitrário existe
δ tal que 0 < δ ≤ m/2 e se x, y ∈ [−m, m] e |x − y| < δ, então |g(x) − g(y)| < ϵ′ .
Observe que se P (An ) → 1, então P (An ∩ A) → P (A), pois P (An ) + P (A) − 1 ≤
P (An ∩ A) ≤ P (A) e P (An ) + P (A) − 1 → P (A). Portanto, como P (|Xn − X| < δ) → 1,
temos que P (|X| ≤ m/2, |Xn − X| < δ) → P (|X| ≤ m/2) > 1 − ϵ. Mas
[|X| ≤ m/2, |Xn − X| < δ] ⊆ [|X| ≤ m, |Xn | ≤ m, |Xn − X| < δ] ⊆ [|g(Xn ) − g(X)| < ϵ′ ],
logo P (|g(Xn ) − g(X)| < ϵ′ ) > 1 − 2ϵ para n suficientemente grande. Como ϵ é arbitrário,
temos que P (|g(Xn ) − g(X)| < ϵ′ ) → 1 quando n → ∞, ou seja g(Xn ) →P g(X).
Finalmente, considere que Xn →D X. Pelo Teorema da Continuidade de Levy, para que
g(Xn ) →D g(X), basta a convergência das respectivas funções características. Por definição,
φg(Xn ) (t) = Eeitg(Xn ) = E cos(tg(Xn )) + iE sen(tg(Xn )).
Autor: Leandro Chaves Rêgo
7.7. TEOREMA DE SLUTSKY
121
Como as funções cos(tg(x)) e sen(tg(x)) são contínuas e limitadas na reta, para t fixo,
decorre do Teorema de Helly-Bray que
φg(Xn ) (t) → E cos(tg(X)) + iE sen(tg(X)) = φg(X) (t), ∀t ∈ IR.
Teorema 7.7.2: Considere {Xn : n ≥ 1}, {Yn : n ≥ 1} e X variáveis aleatórias tais que
valem as convergências Xn →D X e Yn →P c, com c constante. Então,
(i) Xn + Yn →D X + c;
(ii) Xn Yn →D cX;
(iii) Se c ̸= 0,
Xn
Yn
→D
X
,
c
desde que P (Yn ̸= 0) = 1.
Prova: Prova de (i): Temos
φXn +Yn (t) = E(eit(Xn +Yn ) ) = E(eit(Xn +c) ) + E[(eitXn )(eitYn − eitc )].
Por hipótese temos,
lim E(eit(Xn +c) ) = lim eitc E(eitXn ) = eitc E(eitX ) = E(eit(X+c) ).
n
n
Observe que |eitXn | = 1 e, assim, vem
|E[(eitXn )(eitYn − eitc )]| ≤ E[|(eitXn )(eitYn − eitc )|] = E[|(eitYn − eitc )|].
Seja Zn = |(eitYn − eitc )|, temos 0 ≤ Zn ≤ 2. Logo, para ϵ > 0, temos
E[|(eitYn − eitc )|] = EZn = E(Zn IZn ≤ϵ ) + E(Zn IZn >ϵ )
≤ ϵ + 2E(IZn >ϵ ) ≤ ϵ + 2P (Zn > ϵ).
Como Zn é uma função contínua de Yn e lembrando que funções contínuas preservam convergência em probabilidade, temos que Zn →P 0, pois Yn →P c. Nessas condições, para n
grande o suficiente,
|E[(eitXn )(eitYn − eitc )]| ≤ E[|(eitYn − eitc )|] < 2ϵ.
Logo, tomando o limite de φXn +Yn (t) quando n → ∞, concluímos a demonstração da parte
(i).
Prova de (ii): Inicialmente consideramos c = 0 e vamos verificar que Xn Yn →P 0, e
conseqüentemente, Xn Yn →D 0. Sejam ϵ, δ > 0 e x < 0 < y pontos de continuidade de FX
tais que FX (y) − FX (x) = P (x < X ≤ y) > 1 − δ. Como Xn →D X, temos P (x < Xn ≤
y) = FXn (y) − FXn (x) > 1 − 2δ para n suficientemente grande. Definamos M = max(y, −x),
então a convergência em probabilidade de Yn para zero implica que P (|Yn | < Mϵ ) > 1 − δ
para n suficientemente grande. Logo para n suficientemente grande, temos
P (x < Xn ≤ y, |Yn | <
ϵ
) > 1 − 3δ.
M
Autor: Leandro Chaves Rêgo
7.7. TEOREMA DE SLUTSKY
122
Como x < Xn ≤ y e |Yn | < Mϵ implicam |Xn Yn | < ϵ, temos P (|Xn Yn | < ϵ) > 1 − 3δ para
n grande o suficiente. Portanto, para todo ϵ > 0, P (|Xn Yn | < ϵ) → 1, ou seja, Xn Yn →P 0.
Agora consideremos o caso c geral. Como Xn Yn = cXn + (Yn − c)Xn e Yn − c →P 0. Pelo
caso c = 0, temos que (Yn − c)Xn →P 0. Além disso como cx é uma função contínua, temos
cXn →D cX. Como Xn Yn é a soma de dois termos, o primeiro dos quais converge para
cX em distribuição, e o segundo para zero em probabilidade, o resultado é conseqüência da
parte (i).
Prova de (iii): Como 1/x é contínua para x ̸= 0, temos que 1/Yn →P 1/c. Agora, basta
aplicar o ítem (ii).
Autor: Leandro Chaves Rêgo
Capítulo 8
Lei dos Grandes Números
8.1
Motivação
Entre outras coisas, a Lei dos grandes Números nos permite formalizar a idéia que à medida
que o número de repetições de um experimento cresce, a freqüência relativa fA de algum
evento A converge (quase certamente) para a probabilidade teórica P (A). É este fato que nos
permite estimar o valor da probabilidade de um evento A, baseado na freqüência relativa de
A em um grande número de repetições de um experimento. É também este fato que justifica
a intuição que temos que eventos com probabilidade próximas de 1, quase sempre ocorrem;
e que eventos com probabilidade próximas de 0 quase sempre não ocorrem.
Por exemplo, se uma nova peça for produzida e não tivermos conhecimento anterior
sobre quão provável será que a peça seja defeituosa, poderemos proceder à inspeção de um
grande número dessas peças, digamos N , contarmos o número de peças defeituosas dentre
elas, por exemplo n, e depois empregarmos n/N com uma aproximação da probabilidade de
que uma peça seja defeituosa. O número n/N é uma variável aleatória, e seu valor depende
essencialmente de duas coisas. Primeira, o valor de n/N depende da probabilidade básica,
mas desconhecida, p de que uma peça seja defeituosa. Segunda, depende daquelas N peças
que tenham sido inspecionadas. O que a Lei dos Grandes Números mostra é que se a técnica
de selecionar as N peças for aleatória, então o quociente n/N convergirá quase certamente
para p. (Evidentemente, a seleção das N peças é importante. Se fôssemos escolher somente
aquelas peças que exibissem algum defeito físico externo, por exemplo, poderíamos prejudicar
seriamente nossos cálculos.)
Mais formalmente, considere um experimento básico, com a variável aleatória X representando o valor de um característico numérico do resultado (no caso anterior, temos que
X seria a função indicadora do evento A). Pensemos na realização deste experimento N
vezes (N grande), de tal maneira que as realizações sejam independentes. Suponhamos que
depois de cada realização do experimento registre-se o valor do característico numérico do
resultado; chamemos este um valor observado. A Lei dos Grandes Números afirma que a
média aritmética dos n valores observados converge, em certo sentido, para a média EX,
quando N → ∞.
Vamos agora construir um modelo para o experimento repetido que apresentamos acima.
Para experimentos dessa natureza, um resultado possível é uma seqüência de N resultados
123
8.1. MOTIVAÇÃO
124
possíveis do experimento básico. Como estamos interessados em analisar a convergência
para N grande, se Ω0 é o espaço amostral do experimento básico, o espaço amostral do
experimento global consiste nas seqüências infinitas de elementos de Ω0 , ou seja,
Ω = {(w1 , w2 , . . .) : wi ∈ Ω0 , i = 1, 2, . . .} = Ω0 × Ω0 × . . . = Ω∞ ,
onde wi é o resultado do i-ésimo ensaio do experimento básico. Podemos completar o modelo
utilizando a σ-álgebra produto para A e a probabilidade produto para P ,1 pois os ensaios
são independentes.
Já que vamos registrar um certo característico do i-ésimo resultado para todo i, estaremos
registrando os valores de uma seqüência de variáveis aleatórias. Intuitivamente, X(w0 ) representa o valor do característico numérico do experimento básico (w0 ∈ Ω0 ), então, quando
o resultado da seqüência de realizações for w = (w1 , w2 , . . .), os valores observados serão
X(w1 ), X(w2 ), . . . É conveniente representar por Xn o resultado observado na n-ésima realização. Assim, Xn é função do resultado w do experimento global, com Xn (w) = X(wn ),
e no decorrer serão registrados os valores das variáveis aleatórias X1 , X2 , . . . Notemos que
Xn tem a mesma distribuição de X, pois trata-se de uma seqüência de repetições do mesmo
experimento. Como as Xn dependem de realizações independentes, elas são independentes,
onde X1 , X2 , . . . são independentes se para todo n ≥ 2, X1 , . . . , Xn são independentes.
Uma versão da Lei dos Grandes Números diz que se X1 , X2 , . . . são i.i.d. e integráveis,
então
X1 + . . . + Xn
→ EX1 .
n
Quando o tipo de convergência é convergência em probabilidade, chamamos de Lei Fraca
dos Grandes Números, e quando temos convergência quase certa, chamamos de Lei Forte
dos Grandes Números. Como vimos em capítulo anterior, convergência quase-certa implica
convergência em probabilidade, portanto se uma seqüência de variáveis aleatórias satisfaz a
Lei Forte dos Grandes Números, então ela também satisfaz a Lei Fraca.
Para esclarecer as diferenças entre as Leis Fraca e Leis Fortes, considere o caso em que
Xi ∼ Bernoulli(p) é a função indicadora de certo evento A e nA é o número de vezes que o
evento A ocorre em n realizações do experimento. Então, a Lei Fraca afirma que nnA →P p,
o que é equivalente a dizer que para todo ϵ > 0 podemos encontrar um n suficientemente
grande tal que, a probabilidade de nnA estar entre p−ϵ e p+ϵ, é maior que 1−δ para qualquer
δ > 0 especificado. Em outras palavras, se realizarmos muitas seqüências Bernoulli(p) de
tamanho n, espera-se que apenas em uma fração delas menor que δ, temos que nnA está fora
do intervalo (p−ϵ, p+ϵ). Note que a Lei Fraca não dá nenhuma informação sobre a existência
ou o valor do limite de nnA . Em contraste, a Lei Forte garante que o conjunto de todas as
realizações do experimento, para as quais limn nnA = p, é um evento com probabilidade 1. Se
fixarmos ϵ > 0, o conjunto das realizações dos experimentos para os quais p − ϵ < nnA < p + ϵ,
para n suficientemente grande é um evento com probabilidade 1. A Lei Forte assegura que
dado ϵ > 0, com probabilidade 1, os termos da seqüência de freqüência relativas de uma
particular realização do experimento realmente estarão no intervalo (p − ϵ, p + ϵ).
Formalmente, dados uma seqüência de espaços de probabilidade (Ωi , Ai , Pi ), a σ-álgebra produto A em
×i Ωi é definida como sendo a menor σ-álgebra contendo eventos∏
da forma A1 × A2 × · · · , onde Ai ∈ Ai para
∞
todo i; e a probabilidade produto é tal que P (A1 × A2 × · · · ) = i=1 Pi (Ai ); pode-se provar que existe uma
única medida de probabilidade em A que satisfaz esta condição.
1
Autor: Leandro Chaves Rêgo
8.2. LEI FRACA DOS GRANDES NÚMEROS
8.2
125
Lei Fraca dos Grandes Números
Na seção anterior, motivamos o resultado da Leis dos Grandes Números para variáveis aleatórias independentes e identicamente distribuídas. Nesta seção, analisaremos duas versões
da Lei Fraca dos Grandes Números, na primeira delas não é necessário assumir que as variáveis aleatórias são identicamente distribuídas. Vamos usar a desigualdade de Chebyshev
para provar a Lei Fraca dos Grandes Números de Chebyshev.
Teorema 8.2.1: Lei Fraca de Chebyshev Sejam X1 , X2 , . . . variáveis aleatórias independentes 2 a 2 com variâncias finitas e uniformemente limitadas (ou seja, existe c finito
tal que para todo n, V arXn ≤ c). Então, X1 , X2 , . . . satisfazem a Lei Fraca dos Grandes
Números:
Sn − ESn P
→ 0.
n
Prova: Precisamos provar que para todo ϵ > 0,
P(
|Sn − ESn |
≥ ϵ) → 0 quando n → ∞.
n
Como as variáveis aleatórias são independentes 2 a 2, temos que
V ar(Sn ) =
n
∑
V ar(Xi ) ≤ nc.
i=1
Pela desigualdade de Chebyshev, temos que
P (|Sn − ESn | ≥ nϵ) ≤
V ar(Sn )
c
≤ 2 → 0.
2
2
ϵn
ϵn
Corolário 8.2.2: Lei Fraca dos Grandes Números de Bernoulli. Consideremos uma
seqüência de ensaios binomiais independentes, tendo a mesma probabilidade p de “sucesso”
em cada ensaio. Se Sn é o número de sucessos nos primeiros n ensaios, então
Sn P
→ p
n
Prova: Seja Xn = 1 se o n-ésimo ensaio é sucesso, Xn = 0 caso contrário. Então, X1 , X2 , . . .
são i.i.d. e integráveis com média µ = p. Como V arXn = p(1 − p), a Lei Fraca de Chebyshev
implica que Sn −np
→P 0, ou, equivalentemente, Snn →P p.
n
Podemos utilizar a Lei Fraca dos Grandes Números para responder a seguinte questão:
quantas repetições de um experimento devemos realizar a fim de termos uma probabilidade
ao menos 0, 95 para que a freqüência relativa difira de p = P (A) por menos do que, digamos,
Autor: Leandro Chaves Rêgo
8.2. LEI FRACA DOS GRANDES NÚMEROS
126
0,01? Utilizando a equação (8.1), onde Sn é o número de ocorrências do evento A em n
realizações do experimento temos que Sn /n = fA , ESn = np, V arSn = np(1 − p), e:
P (|fA − p| ≥ 0, 01) ≤
p(1 − p)
,
n(0, 01)2
p(1−p)
p(1−p)
ou seja, queremos que n(0,01)
2 ≤ 0, 05, o que é equivalente a n ≥ 0,05(0,01)2 . Substituindo os
valores específicos de 0, 05 e 0, 01 por δ e ϵ, respectivamente, teremos
P (|fA − p| < ϵ) ≥ 1 − δ sempre que n ≥
p(1 − p)
.
δ(ϵ)2
Em muitos problemas, não conhecemos o valor de p = P (A) e, por isso, não poderemos
empregar o limite acima. Nesse caso, poderemos empregar o fato de que p(1 − p) toma
seu valor máximo quando p = 1/2, e esse valor máximo é igual a 1/4. Conseqüentemente,
estamos certamente seguros se afirmamos que para n ≥ 4ϵ12 δ teremos
P (|fA − p| < ϵ) ≥ 1 − δ.
Exemplo 8.2.3: Peças são produzidas de tal maneira que a probabilidade de uma peça
ser defeituosa é p (admitida desconhecida). Um grande número de peças, digamos n, são
classificadas como defeituosas ou perfeitas. Que valor deverá ter n de maneira que possamos
estar 99% certos de que a freqüência relativa de defeituosas difere de p por menos de 0, 05?
Solução: Porque não conhecemos o valor de p, deveremos aplicar a última fórmula com
ϵ = 0, 05, δ = 0, 01. Deste modo encontraremos que se n ≥ 4(0,05)1 2 0,01 = 10.000, a condição
exigida será satisfeita.
A hipótese de variâncias finitas pode ser eliminada e o próximo teorema prova uma versão
da Lei Fraca dos Grandes Números para variáveis aleatórias i.i.d. e integráveis.
Teorema 8.2.4: Lei Fraca de Khintchin. Se X1 , X2 , . . . são i.i.d. e integráveis com
média comum µ, então
Sn P
→ µ.
n
Prova: É conseqüência da Lei Forte de Kolmogorov e do fato que convergência quase certa
implica convergência em probabilidade.
Exemplo 8.2.5: Sejam
i.i.d. com média µ e variância σ 2 , ambas
∑n {Xn : n 2≥ 1}P variáveis
1
finitas. Prove que n i=1 (Xi − X) → σ 2 .
Solução:
1∑ 2
1∑
2
(Xi − X)2 =
(Xi − 2Xi X + X )
n i=1
n i=1
n
n
1∑ 2
1∑
1∑ 2
X
Xi − 2X
Xi +
n i=1
n i=1
n i=1
n
=
n
n
1∑ 2
2
=
Xi − X
n i=1
n
Autor: Leandro Chaves Rêgo
8.3. LEI FORTE DOS GRANDES NÚMEROS
127
Pela Lei Fraca de Kintchin, temos que
1∑ 2 P
X → E(Xi2 ) = σ 2 + µ2
n i=1 i
n
e
X →P E(Xi ) = µ.
Como funções contínuas preservam convergência, temos que
2
X →P µ2 .
Logo, temos que
1∑ 2 2
(
X , X ) →P (σ 2 + µ2 , µ2 ).
n i=1 i
n
Finalmente, como funções contínuas preservam convergência
1∑ 2
2
Xi − X →P σ 2 .
n i=1
n
8.3
Lei Forte dos Grandes Números
Antes de iniciarmos a prova da Lei Forte dos Grandes Números, vamos provar uma extensão
da desigualdade de Chebyshev.
Lema 8.3.1: Sejam X1 , . . . , Xn variáveis aleatórias independentes tais que EXk = 0 e
V arXk < ∞, k = 1, . . . , n. Então, para todo λ > 0,
n
1
1 ∑
P ( max |Sk | ≥ λ) ≤ 2 V arSn = 2
V arXk ,
1≤k≤n
λ
λ k=1
onde Sk = X1 + . . . + Xk .
Prova: Queremos uma cota superior para P (max1≤k≤n Sk2 ≥ λ2 ). Para tanto, seja A =
[max1≤k≤n Sk2 ≥ λ2 ]. Vamos decompor A conforme a primeira vez que Sk2 ≥ λ2 , definamos:
A1 = [S12 ≥ λ2 ],
A2 = [S12 < λ2 , S22 ≥ λ2 ],
2
Ak = [S12 < λ2 , . . . , Sk−1
< λ2 , Sk2 ≥ λ2 ], para 2 ≤ k ≤ n.
∑
Então os Ak são disjuntos e A = ∪nk=1 Ak . Logo, IA = nk=1 IAk e
Sn2
≥
Sn2 IA
=
n
∑
k=1
Sn2 IAk
⇒
ESn2
≥
n
∑
ESn2 IAk .
k=1
Autor: Leandro Chaves Rêgo
8.3. LEI FORTE DOS GRANDES NÚMEROS
128
Queremos substituir Sn2 por Sk2 no somatório (pois Sk2 ≥ λ2 em Ak , e não vale necessariamente Sn2 ≥ λ2 ); o truque é escrever
Sn2 = (Sn − Sk )2 + Sk2 + 2(Sn − Sk )Sk ≥ Sk2 + 2(Sn − Sk )Sk .
Portanto,
ESn2 IAk ≥ ESk2 IAk + 2E((Sn − Sk )Sk IAk ).
Como Sn − Sk = Xk+1 + . . . + Xn e Sk IAk depende só de X1 , . . . , Xk , as duas são funções de
famílias disjuntas de variáveis independentes, logo são independentes e a esperança fatora:
E((Sn − Sk )Sk IAk ) = E(Sn − Sk )E(Sk IAk ).
Como E(Sn − Sk ) = 0, temos
ESn2 IAk ≥ ESk2 IAk ≥ Eλ2 IAk = λ2 P (Ak ).
Portanto,
ESn2
≥
n
∑
λ2 P (Ak ) = λ2 P (A),
k=1
logo
P (A) ≤
1
1
ESn2 = 2 V arSn .
2
λ
λ
O próximo teorema é conhecido como Primeira Lei Forte de Kolmogorov.
Teorema 8.3.2:
ponha que
Sejam X1 , X2 , . . . variáveis aleatórias independentes e integráveis, e su∞
∑
V arXn
n=1
n2
< ∞.
Então, as Xn satisfazem a Lei Forte dos Grandes Números, ou seja,
X1 + . . . + Xn (EX1 + . . . + EXn )
−
→ 0 quase certamente.
n
n
Prova: Suponhamos sem perda de generalidade que EXn = 0, ∀n. Queremos mostrar que
Sn
→ 0 cp1, onde Sn = X1 + . . . + Xn . Para tanto, basta mostrar que
n
Mn =
maxn+1
n
2 <k≤2
|Sk |
→ 0 cp1 quando n → ∞.
k
Provaremos isto em duas etapas:
∑∞
1
(i)
n=1 P (Mn ≥ m ) < ∞, ∀m = 1, 2, . . .; e
(ii) Mn → 0 cp1.
Autor: Leandro Chaves Rêgo
8.3. LEI FORTE DOS GRANDES NÚMEROS
129
Para (i), considere m fixo. Então, para todo n,
1
2n
) ≤ P ( n maxn+1 |Sk | ≥ ) ≤
2 <k≤2
m
m
n+1
2
2n
m2 ∑
≤ P ( maxn+1 |Sk | ≥ ) ≤ n
V ar(Xk ),
1<k≤2
m
4 k=1
P (Mn ≥
onde vale a última passagem pelo lema anterior. Seja An = [Mn ≥
∞
∑
2
∞
∞
∑
∑
1 ∑
2
P (An ) ≤ m
V ar(Xk )) = m
( n
4 k=1
n=1
n=1
k=1
= m2
∞
∑
∑
∑
V ar(Xk )
1
n:2n+1 ≥k ( 4n )
(
n:2n+1 ≥k
k=1
Como
∑
n+1
2
≤
16
,
3k2
n:2n+1 ≥k
1
],
m
(
então
1
V ar(Xk )) =
4n
1
).
4n
temos
∞
∑
∞
16m2 ∑ V ar(Xk )
P (An ) ≤
< ∞.
3 k=1
k2
n=1
Para (ii), note que por Borel-Cantelli, tem-se P (An infintas vezes) = 0. Logo, para todo
m, a probabilidade é 1 de que Mn assuma um valor ≥ m1 para somente um número finito
de n’s. Seja Bm o evento “Mn assuma um valor ≥ m1 para somente um número finito de
n’s”, então P (Bm ) = 1, ∀m, o que implica que P (∩∞
m=1 Bm ) = 1, e (ii) resulta da equivalência
∞
entre os eventos ∩m=1 Bm e [Mn → 0].
O próximo exemplo ilustra uma aplicação da Primeira Lei Forte de Kolmogorov.
Exemplo√8.3.3 :
Sejam X1 , X2 , . . . , Xn variáveis aleatórias independentes com Xn ∼
P oisson( n), para cada n ≥ 1.√Calcule o limite quase-certo de X.
Solução: Como V arXn = n, temos que
∞
∞ √
∑
V arXn ∑ n
=
< ∞.
n2
n2
n=1
n=1
Logo, a primeira Lei Forte de Kolmogorov implica que
EX1 + · · · + EXn
→ 0 cp1, ou seja
n
√
√
√
1 + 2 + ··· + n
→ 0 cp1.
X−
n
Pelo teste da integral, pode-se verificar que
X−
√
1+
√
√
2n3/2
2 + ··· + n ≥
.
3
Autor: Leandro Chaves Rêgo
8.3. LEI FORTE DOS GRANDES NÚMEROS
Portanto,
130
√
√
√
1 + 2 + ··· + n
2n1/2
≥
→ ∞.
n
3
Logo, X → ∞ cp1.
Antes de enunciarmos e provarmos a Segunda Lei Forte de Kolmogorov, considere o
seguinte lema:
Lema 8.3.4 :
Então,
Seja X uma variável aleatória integrável com função de distribuição F .
∫ n
∞
∑
1
( 2
x2 dF (x)) < ∞.
n −n
n=1
Prova: Vamos utilizar o seguinte fato:
∫
∑∞
2
j
∫
n
∑
n
2
x dF (x) =
−n
≤
1
n=j n2
para j = 1, 2, . . .. Como
j
x2 dF (x),
j−1
j=−n+1
temos
∫ n
∫ j
∞
∞
n
∑
∑
∑
1
1
2
( 2
x dF (x)) =
( 2
x2 dF (x)) =
n
n
−n
j−1
n=1
n=1 j=−n+1
∫ j
∫ j
∞ ∑
n
∞
0
∑
∑
∑
1
1
2
=
( 2
x dF (x)) +
( 2
x2 dF (x))
n j−1
n j−1
n=1 j=1
n=1 j=−n+1
∫ j
∫ j
∞ ∑
∞
0
∞
∑
∑
∑
1
1
2
=
( 2
( 2
x dF (x)) +
x2 dF (x)) ≤
n
n
j−1
j−1
j=1 n=j
j=−∞
≤2
∞ ∫ j
∑
j=1
Como
x2
j
j−1
0
∑
x2
dF (x) + 2
j
j=−∞
≤ x em (j − 1, j], para j ≥ 1, e
∫
n=|j|+1
j
j−1
x2
|j|+1
x2
dF (x).
|j| + 1
≤ |x| em (j − 1, j], para j ≤ 0, temos
∫ n
∫ j
∞
∞ ∫ j
0
∑
∑
∑
1
2
( 2
x dF (x)) ≤ 2
xdF (x) + 2
|x|dF (x) =
n
−n
j−1
j−1
n=1
j=1
j=−∞
∫ ∞
∞ ∫ j
∑
=2
|x|dF (x) = 2
|x|dF (x) = 2E|X| < ∞.
j=−∞
j−1
−∞
A seguir enunciamos e provamos a Segunda Lei Forte de Kolmogorov.
Autor: Leandro Chaves Rêgo
8.3. LEI FORTE DOS GRANDES NÚMEROS
131
Teorema 8.3.5: Sejam X1 , X2 , . . . variáveis aleatórias independentes, identicamente distribuídas e integráveis, com EXn = µ. Então,
X1 + . . . + Xn
→ µ quase certamente.
n
Prova: Suponhamos sem perda de generalidade que µ = 0. Vamos truncar as variáveis Xn ,
definamos Yn = Xn I[−n<Xn ≤n] . Seja Zn = Xn − Yn , de modo que
X1 + . . . + Xn
Y1 + . . . + Yn Z1 + . . . + Zn
=
+
.
n
n
n
A prova terá três partes:
(a)
(b)
(c)
Z1 +...+Zn
n
→ 0 quase certamente (usaremos Borel-Cantelli);
n
− EY1 +...+EY
→ 0 quase certamente (usaremos a Primeira Lei Forte e o
n
Lema 8.3.4); e
Y1 +...+Yn
n
EY1 +...+EYn
n
→ 0 (usaremos o Teorema da Convergência Dominada).
É fácil ver que (a), (b), e (c) implicam o teorema. Para provar (a), note que Zn ̸= 0 ⇔
Yn ̸= Xn ⇔ Xn ∈
/ (−n, n]. Logo,
P (Zn ̸= 0) = P (Xn ∈
/ (−n, n]) ≤ P (|Xn | ≥ n).
Mas os eventos An = [Zn ̸= 0] satisfazem
∞
∑
n=1
P (An ) ≤
∞
∑
n=1
P (|Xn | ≥ n) =
∞
∑
P (|X1 | ≥ n) ≤ E|X1 | < ∞.
n=1
Portanto, Borel-Cantelli implica que P (An infinitas vezes) = 0, ou seja
P (Zn ̸= 0 infinitas vezes) = 0.
Isso significa que
P (Zn = 0 para todo n suficientemente grande) = 1.
Mas se Zn = 0 para n suficientemente grande, então Zn → 0 e
Z1 + . . . + Zn
Z1 + . . . + Zn
→ 0, logo P (
→ 0) = 1.
n
n
Para provar (b), seja F a função de distribuição comum, F = FXn . Verifiquemos a
condição da primeira Lei Forte de Kolmogorov para as variáveis aleatórias Yn . Como Yn =
Xn I[−n<Xn ≤n] , temos
∫ n
2
2
x2 dF (x).
V ar(Yn ) ≤ E(Yn ) = E(Xn I[−n<Xn ≤n] ) =
−n
Autor: Leandro Chaves Rêgo
8.3. LEI FORTE DOS GRANDES NÚMEROS
Portanto,
∞
∑
V ar(Yn )
n=1
n2
132
∫ n
∞
∑
1
≤
x2 dF (x) < ∞,
2
n −n
n=1
onde a última desigualdade decorre do Lema 8.3.4. Portanto, (b) decorre da primeira Lei
Forte de Kolmogorov.
Para provar (c), é suficiente mostrar que EYn → 0. Mas,
EYn = E(Xn I[−n<Xn ≤n] ) = E(X1 I[−n<X1 ≤n] ) → EX1 = 0,
pelo teorema da convergência dominada que se aplica pois |X1 | domina X1 I[−n≤X1 ≤n] ’s e é
integrável.
Exemplo 8.3.6 : As variáveis Xn , n ≥ 1, são independentes e todas têm distribuição
Exponencial de parâmetro λ. Mostre que a seqüência {Xn2 : n ≥ 1} satisfaz a Lei Forte dos
Grandes Números.
Solução: De acordo com a Segunda Lei Forte de Kolmogorov, precisamos mostrar que
EXn2 é finita para todo n. Como EXn2 = V arXn + (EXn )2 = λ22 < ∞, temos que a seqüência
{Xn2 : n ≥ 1} satisfaz a Lei Forte dos Grandes Números.
i.i.d., seguindo o
Exemplo 8.3.7: Seja {Xn : n ≥ 1} uma seqüência de variáveis aleatórias∑
1
modelo Uniforme contínuo em (0, 1). Calcule o limite, quase certo, para n nk=1 (− log(Xk ))
quando n → ∞.
Solução: Vamos tentar usar a Lei Forte dos Grandes Números. Para isso, precisamos
calcular E(− log Xk ).
∫ 1
∫ 1
1
E(− log Xk ) =
− log xdx = −x log x|0 +
dx = 1.
0
Portanto, temos que
1
n
∑n
k=1 (− log(Xk ))
0
→ 1 cp1.
A seguir veremos uma importante conseqüência da Lei Forte dos Grandes Números para
a área de Estatística Aplicada. Sejam X1 , X2 , , . . . , Xn variáveis aleatórias em (Ω, A, P )
independentes e identicamente distribuídas com função de distribuição F . Essas variáveis
podem representar a amostra observada de uma certa quantidade de interesse. A função de
distribuição empírica ou amostral, denotada por Fne , é definida para todo x ∈ IR e w ∈ Ω
por:
1
Fne (x, w) = [número de i’s tais que Xi (w) ≤ x, i = 1, 2, . . . , n].
n
Para uma particular trajetória w0 ∈ Ω, obtemos o conjunto de valores fixados X1 (w0 ) =
x1 , . . . , Xn (w0 ) = xn . Se os xi ’s são todos diferentes, então Fne (x, w0 ) é uma função de
distribuição com saltos 1/n em cada um desses valores.
uma função
Considere um x0 ∈ IR fixo. Então Fne (x0 , w) é uma variável aleatória, pois é ∑
1
e
das variáveis X1 , X2 , . . . , Xn . Se Yi = IXi ≤x0 , i = 1, 2, . . . , n, então Fn (x0 , w) = n ni=1 Yi (w).
Como as variáveis aleatórias Yi são funções de famílias disjuntas de variáveis aleatórias
Autor: Leandro Chaves Rêgo
8.3. LEI FORTE DOS GRANDES NÚMEROS
133
independentes, elas também são independentes. Além disso, temos que Yi ∼ Bernoulli(p)
com
p = P (Yi = 1) = P (Xi ≤ x0 ) = F (x0 ).
Portanto, concluímos que pela Lei Forte de Kolmogorov, para cada valor x0 ∈ IR fixo, temos
Fne (x0 , w) → F (x0 ) cp1. O Teorema de Glivenko-Cantelli também conhecido como Teorema
Fundamental da Estatística afirma que a função de distribuição empírica converge para a
função de distribuição populacional, quase certamente em Ω e uniformemente em IR.
Teorema 8.3.8: Sejam X1 , X2 , . . . , Xn variáveis aleatórias em (Ω, A, P ), independentes e
identicamente distribuídas com função de distribuição F . Seja Fne a correspondente função
de distribuição empírica, então:
P (lim sup |Fne (x, w) − F (x)| = 0) = 1.
n
x∈IR
Prova: Para cada x fixo, os argumentos anteriores garantem convergência quase certa. A
prova de que este resultado pode ser estendido, usa técnicas de Análise Matemática e será
omitida.
Por fim nós enunciaremos e provaremos a Recíproca da Lei Forte de Kolmogorov.
A Lei Forte afirma que se as variáveis aleatórias Xn são integráveis, então Snn converge para
um limite finito (= EX1 ) com probabilidade 1. A recíproca diz que se as Xn não forem
integráveis, então com probabilidade 1, Snn não convergirá para um limite finito.
Teorema 8.3.9: Sejam X1 , X2 , . . . variáveis aleatórias independentes e identicamente distribuídas. Se E|X1 | = ∞, então, com probabilidade 1, a seqüência |Snn | não é limitada.
Prova: Se E|X1 | = ∞, então E( |Xk1 | ) = ∞, para k = 1, 2, . . .. De acordo com Lema 4.6.2,
temos que
∞
∑
|X1 |
P(
≥ n) = ∞, ∀k.
k
n=1
Como as variáveis Xn são identicamente distribuídas, temos
∞
∑
∑ |Xn |
∑ |Xn |
|X1 |
P(
≥ n) =
P(
≥ n) =
P(
≥ k).
k
k
n
n=1
n=1
n=1
∞
∞
Por independência dos Xn , os eventos An = [ |Xnn | ≥ k] são independentes, e Borel-Cantelli
implica
|Xn |
≥ k infinitas vezes) = 1, ∀k.
P(
n
Fazendo Bk = [ |Xnn | ≥ k infinitas vezes], temos P (∩∞
k=1 Bk ) = 1, pois a intersecção de um
número enumerável de eventos de probabilidade 1 também tem probabilidade 1. Mas o
|Xn |
evento ∩∞
k=1 Bk é o evento “ n > k para um número infinito de n, para todo k”, ou seja, é
Autor: Leandro Chaves Rêgo
8.4. UM EXEMPLO DE DIVERGÊNCIA DAS MÉDIAS
134
o evento “a seqüência |Xnn | é ilimitada.” Para terminar a prova, basta mostrar que se
ilimitada, então |Snn | também é ilimitada. Agora, com S0 = 0, temos
|Xn |
n
é
|Xn |
|Sn − Sn−1 |
|Sn | |Sn−1 |
=
≤
+
,
n
n
n
n
para n = 1, 2, . . .. Portanto, se
Mas,
então
8.4
|Sn−1 |
n
|Xn |
n
é ilimitada, então
|Sn |
n
é ilimitada ou
|Sn−1 |
n
é ilimitada.
|Sn−1 |
|Sn−1 | (n − 1)
=
·
,
n
(n − 1)
n
é ilimitada se, e somente se,
|Sn |
n
também for.
Um Exemplo de Divergência das Médias
Uma variável aleatória tem distribuição de Cauchy de parâmetro a se, para a > 0
fX (x) =
1
a
· 2
.
π a + x2
Assuma
∑n que Xn são i.i.d. segundo uma distribuição de Cauchy de parâmetro a. Seja Sn =
1
i=1 Xn . Utilizando a definição e as propriedades da função característica pode-se provar
n
que
φXn (u) = e−a|u| , e φSn (u) = e−a|u| .
Então, as médias Sn são distribuídas exatamente como uma das parcelas da soma. Para
n ≥ m, após alguma manipulação algébrica, temos que
m
)([Zn,m ] − [Yn,m ]),
n
∑n
∑m
1
1
onde Zn,m = n−m
i=m+1 Xi e Yn,m = m
i=1 Xi . Observe que como Zn,m e Yn,m são
médias de conjuntos disjuntos de variáveis aleatórias independentes, elas são independentes
uma da outra. Ainda mais, pelo resultado para φSn , é o caso que elas são identicamente
distribuídas com função característica igual a e−a|u| . Seja Wn,m = Zn,m − Yn,m , nós vemos
que Sn − Sm = (1 − m
)Wn,m . Contudo,
n
Sn − Sm = (1 −
φWn,m (u) = φZn,m (u)φYn,m (−u) = e−2a|u| .
Então, Wn,m tem uma distribuição fixa, não degenerada que é independente de n e m.
Fixando, n = 2m, temos que
φS2m −Sm (u) = e−a|u| .
Portanto, quando m → ∞, S2m − Sm não converge para zero, mas para todo m, tem uma
distribuição Cauchy de parâmetro a. Portanto, Sn não satisfaz o critério de convergência de
Cauchy e não é convergente.
Autor: Leandro Chaves Rêgo
8.4. UM EXEMPLO DE DIVERGÊNCIA DAS MÉDIAS
135
Observe que isto não é um contra-exemplo a Lei Forte de Kolmogorov, tendo em vista
que uma variável aleatória que tem distribuição de acordo com uma Cauchy não tem valor
esperado definido, ou seja
∫ 0
∫ ∞
1 a|x|
1 ax
EX = −
dx
+
dx,
2
2
π a2 + x2
−∞ π a + x
0
é indefinido, visto que ambas as integrais são infinitas. Este exemplo serve para ilustrar que
a suposição da existência de EX é necessária para a Lei Forte dos Grandes Números.
Autor: Leandro Chaves Rêgo
Capítulo 9
Teorema Central do Limite
9.1
Motivação
Consideremos uma seqüência de variáveis aleatórias independentes, X1 , X2 , . . ., definidas no
mesmo espaço de probabilidade (Ω, A, P ), e seja S1 , S2 , . . . a seqüência de somas parciais,
definidas por Sn = X1 + X2 + . . . + Xn . A Lei dos Grandes Números trata da convergência
de n1 (Sn − ESn ) para 0, quando n → ∞, supondo que as variáveis aleatórias Xi ’s sejam
integráveis. Quando a seqüência obedece à lei dos grandes números, existe uma tendência
da variável aleatória Snn , a média amostral no caso de variáveis aleatórias independentes e
identicamente distribuídas, para concentrar-se em torno de sua média. O Teorema Central do
Limite prova que sob certas hipóteses gerais, a distribuição da média amostral padronizada
tende à normal. O problema consiste em achar condições sob as quais
Sn − ESn D
√
→ N (0, 1).
V arSn
Resumidamente, estas condições exigem que cada parcela da soma contribua com um valor
sem importância para a variação da soma, ou seja é muito improvável que qualquer parcela
isolada dê uma contribuição muito grande para a soma.
O Teorema Central do Limite dá apoio ao uso da normal como distribuição de erros, pois
em muitas situações reais é possível interpretar o erro de uma observação como resultante de
muitos erros pequenos e independentes. Há também outras situações que o Teorema Central
do Limite pode justificar o uso da normal. Por exemplo, a distribuição de alturas de homens
adultos de certa idade pode ser considerada aproximadamente normal, pois a altura pode
ser pensada como soma de muitos efeitos pequenos e independentes.
9.2
Teoremas e provas
Existem vários Teoremas Centrais do Limite que variam de acordo com as hipóteses sobre
as distribuições das variáveis aleatórias Xi ’s na seqüência. Como teoremas centrais do limite
tratam de convergência em distribuição e como, pelo Teorema da Continuidade de Levy,
sabe-se que uma seqüência de variáveis aleatórias Yn →D Y se, e somente se, φYn → φY ,
136
9.2. TEOREMAS E PROVAS
137
−t2
n
a idéia será provar que a função característica de S√nV−ES
converge para e 2 que é a funarSn
ção característica da N (0, 1). Nós iremos agora enunciar e provar alguns desses teoremas,
começando pelo caso de variáveis aleatórias independentes e identicamente distribuídas.
Teorema 9.2.1: Sejam X1 , X2 , . . . variáveis aleatórias iid com E(Xn ) = µ e V ar(Xn ) =
σ 2 . Suponha que N é uma variável aleatória com distribuição N (0, 1). Se Sn = X1 + X2 +
. . . + Xn , então
Sn − nµ D
√
→ N.
σ n
Prova: Sem perda de generalidade, seja E(Xn ) = 0 e E(Xn2 ) = 1 (caso este não seja o caso,
pode-se provar o resultado para
Xi − µ
Xi∗ =
,
σ
já que E(Xi∗ ) = 0 e E(Xi∗ )2 = 1).
Sn
it √
Seja φn (t) = E(e n ) e φ(t) = E(eitX1 ). Como a função característica de uma soma de
variáveis aleatórias independentes é igual ao produto das funções características das variáveis
aleatórias, tem-se que
X
√
it √1
φn (t) = (E(e n ))n = φn (t/ n).
Como os dois primeiros momentos existem, φ possui duas derivadas contínuas. Então,
utilizando a expansão de Taylor de φ e o fato que φ(k) (0) = ik E(X1k ), temos que
t2 ′′
φ (θ(t)),
2
onde |θ(t)| ≤ |t|. Logo, como φ′′ é contínua em 0, temos que φ′′ (θ(t)) − φ′′ (0) → 0 quando
t → 0. Então, tem-se
t2 t2
φ(t) = 1 − + e(t),
2
2
onde e(t) = φ′′ (θ(t)) + 1 e limt→0 e(t) = 0. Então, para t fixo
φ(t) = 1 + tφ′ (0) +
−t2
t2
−t2
t
t2
t
t
φn ( √ ) = [1 −
+ e( √ )]n = [1 +
[1 − e( √ )]]n → e 2 ,
2n 2n
2n
n
n
n
quando n → ∞, pois [1 − e( √tn )] → 1 e para números complexos cn → c ⇒ (1 +
(Esse limite é conhecido como limite de Euler e sua prova será omitida).
cn n
)
n
→ ec
Um caso especial do Teorema Central do Limite para variáveis aleatórias independentes
e identicamente distribuídas é quando estas variáveis são distribuídas de acordo com a distribuição de Bernoulli, este caso é conhecido como Teorema Central do Limite de De Moivre
e Laplace.
Corolário 9.2.2: Seja X1 , X2 , . . . uma seqüência de variáveis aleatórias independentes e
distribuídas de acordo com a distribuição de Bernoulli com parâmetro p, ou seja, P (Xi =
1) = p = 1 − P (Xi = 0) para 0 < p < 1. Então, se Sn = X1 + . . . Xn ,
S − np
√ n
→D N (0, 1).
np(1 − p)
Autor: Leandro Chaves Rêgo
9.2. TEOREMAS E PROVAS
138
Prova: É imediata dado o teorema anterior, já que E(Xi ) = p e E(Xi2 ) = p.
Exemplo 9.2.3 : Suponha que temos algumas voltagens de ruídos independentes, por
exemplo Vi , i = 1, 2, . . . , n, as quais são recebidas naquilo que se denomina um “somador”.
Seja V a soma das voltagens recebidas. Suponha também que cada variável aleatória Vi
seja uniformemente distribuída sobre o intervalo [0,10]. Daí, EVi = 5 volts e V arVi = 100
.
12
De acordo com o Teorema Central do Limite, se n for suficientemente grande, a variável
aleatória
√
(V − 5n) 12
√
S=
10 n
terá aproximadamente a distribuição N (0, 1). Portanto, se n = 20, podemos calcular que a
probabilidade de que a voltagem total na entrada exceda 105 volts da seguinte maneira:
√
√
(V − 100) 12
(105 − 100) 12
√
√
P (V > 105) = P (
>
) w 1 − Φ(0, 388) = 0, 352.
10 20
10 20
Agora analisaremos um resultado mais forte que dá condições gerais que garantem convergência da média amostral padronizada para normal: o Teorema Central do Limite de
Lindeberg.
Teorema 9.2.4: Sejam X1 , X2 , . . . variáveis aleatórias independentes tais que E(Xn ) = µn
e V ar(Xn ) = √
σn2 < ∞, onde pelo menos um σi2 > 0. Sejam Sn = X1 + . . . + Xn e sn =
√
V ar(Sn ) = σ12 + . . . + σn2 . Considere a seguinte condição, conhecida como condição de
Lindeberg,
n ∫
1 ∑
(x − µk )2 dFk (x) = 0.
∀ϵ > 0, lim 2
n→∞ sn
k=1 |x−µk |>ϵsn
Então, se a condição de Lindeberg é satisfeita
Sn − ESn D
→ N (0, 1).
sn
Antes de provarmos este teorema, vamos primeiro dar alguma intuição sobre a condição
de Lindeberg. Esta condição diz que, para n grande, a parcela da variância devida às caudas
das Xk é desprezível.
A condição de Lindeberg implica que as parcelas Xk da soma têm variâncias uniformemente pequenas para n grande, em outras palavras nenhuma parcela tem muito peso na
σ2
soma. Formalmente, a condição de Lindeberg implica que max1≤k≤n s2k → 0 quando n → ∞.
n
Para ver isto, observe que para todo k,
∫
∫
1
1
σk2
2
= 2
(x − µk ) dFk (x) + 2
(x − µk )2 dFk (x) ≤
2
sn
sn |x−µk |≤ϵ′ sn
sn |x−µk |>ϵ′ sn
∫
∫
n
1
1 ∑
′
2
(ϵ
s
)
dF
(x)
+
(x − µj )2 dFj (x) ≤
n
k
2
2
sn |x−µk |≤ϵ′ sn
sn j=1 |x−µj |>ϵ′ sn
∫
n ∫
1 ∞ ′ 2
1 ∑
(ϵ sn ) dFk (x) + 2
(x − µj )2 dFj (x).
2
sn −∞
sn j=1 |x−µj |>ϵ′ sn
Autor: Leandro Chaves Rêgo
9.2. TEOREMAS E PROVAS
139
Este último termo não depende de k, pois a primeira parcela é igual a (ϵ′ )2 . Portanto,
temos
n ∫
σk2
1 ∑
′ 2
max
(x − µk )2 dFk (x),
≤ (ϵ ) + 2
1≤k≤n s2
sn k=1 |x−µk |>ϵ′ sn
n
que converge para (ϵ′ )2 , pela condição de Lindeberg. Como isto vale para todo ϵ′ , temos
σ2
max1≤k≤n s2k → 0.
n
Portanto, o Teorema Central do Limite de Lindeberg pode ser aplicado para justificar o
seguinte raciocínio: a soma de um grande número de pequenas quantidades independentes
tem aproximadamente uma distribuição normal.
Exemplo 9.2.5: Vamos verificar neste exemplo que uma seqüência X1 , X2 , . . . de variáveis
2
aleatórias
√ i.i.d. com
√ EXi = µ e V arXi = σ satisfaz a condição de Lindeberg. Note que
sn = V arSn = σ n. Então para ϵ > 0, e F a distribuição comum das variáveis aleatórias:
n ∫
n ∫
1 ∑
1 ∑
2
(x − µk ) dFk (x) =
(x − µ)2 dF (x)
2
2
√
sn k=1 |x−µk |>ϵsn
nσ k=1 |x−µ|>ϵσ n
∫
1
=
n
(x − µ)2 dF (x).
2
√
nσ
|x−µ|>ϵσ n
Então, finalmente,
1
lim 2
n σ
∫
√
|x−µ|>ϵσ n
(x − µ)2 dF (x) = 0.
Agora iremos provar o Teorema Central do Limite de Lindeberg.
Prova: Assim como no caso de variáveis aleatórias i.i.d., mostraremos que a função carac−t2
n
2 .
terística de Sn −ES
converge
para
e
sn
Para tanto, fixemos t ∈ R. Usaremos duas versões da fórmula de Taylor aplicada à função
g(x) = eitx :
t2 x2
eitx = 1 + itx + θ1 (x)
, onde |θ1 (x)| ≤ 1
2
e
t3 x 3
t2 x2
+ θ2 (x)
, onde |θ2 (x)| ≤ 1.
eitx = 1 + itx −
2
6
Seja ϵ > 0. Usando a primeira fórmula para |x| > ϵ e a segunda para |x| ≤ ϵ, podemos
escrever eitx da seguinte forma geral:
eitx = 1 + itx −
{
onde
rϵ (x) =
t2 x2
+ rϵ (x),
2
2 2
(1 + θ1 (x)) t 2x
3 3
θ2 (x) t 6x
se |x| > ϵ,
se |x| ≤ ϵ.
Portanto,
Autor: Leandro Chaves Rêgo
9.2. TEOREMAS E PROVAS
140
∫
∫
2 x−µ 2
x − µ k t ( sn k )
E(e
)= e
dFk (x) = (1 + it
+
−
sn
2
x − µk
Xk − µk
t2
Xk − µk 2
+rϵ (
))dFk (x) = 1 + itE(
) − E((
) )+
sn
sn
2
sn
∫
t2
x − µk x − µk 2
+
(1 + θ1 (
))(
) dFk (x) +
2 |x−µk |>ϵsn
sn
sn
∫
x − µk x − µk 3
t3
)(
) dFk (x).
θ2 (
6 |x−µk |≤ϵsn
sn
sn
it
Xk −µk
sn
it
x−µk
sn
Como EXk = µk e V ar(Xk ) = σk2 , temos
E(eit
Xk −µk
sn
)=1−
t2 σk2
+ en,k ,
2s2n
onde o resto en,k satisfaz
∫
2
|en,k | ≤ t
∫
x − µk 2
|t3 |
x − µk 2
(
) dFk (x) +
ϵ(
) dFk (x)
sn
6 |x−µk |≤ϵsn
sn
|x−µk |>ϵsn
∫
∫
ϵ|t3 | ∞
t2
2
(x − µk ) dFk (x) + 2
(x − µk )2 dFk (x).
≤ 2
sn |x−µk |>ϵsn
6sn −∞
Temos então,
n ∫
t2 ∑
ϵ|t3 |
|en,k | ≤ 2
(x − µk )2 dFk (x) +
.
s
6
|x−µ
|>ϵs
n
n
k
k=1
k=1
n
∑
Pela condição de Lindeberg, a primeira parcela do termo à direita tende a zero quando
n → ∞. Logo, para n suficientemente grande,
n
∑
k=1
|en,k | ≤
ϵ|t|3
.
3
Vamos então escolher uma seqüência de ϵ’s que converge para zero. Para ϵ =
nm tal que para n ≥ nm ,
n
∑
|t3 |
,
|en,k | ≤
3m
k=1
1
,
m
existe
(9.1)
onde os restos en,k são os determinados pela fórmula baseada em ϵ = m1 . Portanto, existe uma
seqüência de inteiros positivos n1 < n2 < . . . tal que (9.1) é satisfeita para nm ≤ n < nm+1 ,
onde para estes valores de n os restos são baseados em ϵ = m1 . É importante lembrar durante
o restante da prova que o valor de ϵ que determina o resto en,k depende da posição de n em
relação aos nm . Temos, então,
n
∑
|en,k | → 0 quando n → ∞.
k=1
Autor: Leandro Chaves Rêgo
9.2. TEOREMAS E PROVAS
141
Como Xi ’s são independentes,
φ Sn −ESn (t) =
sn
n
∏
it
E(e
k=1
Xk −µk
sn
n
∏
t2 σk2
)=
(1 − 2 + en,k ).
2sn
k=1
Para provar que o termo à direita converge para e
números complexos.
−t2
2
Lema 9.2.6: Sejam cn,k números complexos tais que
, usaremos o seguinte Lema sobre
∑n
k=1 cn,k
→ c quando n → ∞. Se
max |cn,k | → 0 quando n → ∞
1≤k≤n
e
n
∑
|cn,k | ≤ M < ∞,
k=1
onde M é uma constante que não depende de n, então
n
∏
(1 + cn,k ) → ec quando n → ∞.
k=1
Prova: Nós omitimos a prova deste lema que pode ser encontrada no livro do Chung seção
7.1.
t2 σ 2
Em nosso caso, sejam cn,k = − 2s2k + en,k e c =
n
n
∑
−t2
.
2
Temos que
t2 ∑
t2
|cn,k | ≤ +
|en,k | → ,
2
2
k=1
k=1
logo existe M < ∞ tal que ∀n,
condição sobre o máximo
n
∑n
k=1
|cn,k | < M . Para aplicar o lema resta verificar a
t2 σk2
t2 σk2
+
max
|e
|
≤
max
+ max |en,k |
n,k
1≤k≤n 2s2
1≤k≤n
1≤k≤n 2 s2
1≤k≤n
n
n
max |cn,k | ≤ max
1≤k≤n
Como já provamos que os dois termos acima tendem a zero, a prova está terminada.
Exemplo 9.2.7: Seja {Xn : n ≥ 1} uma sequência de variáveis i.i.d. com média 0 e variância
1. Também, seja {Yn : n ≥ 1} uma sequência de variáveis independentes com
1
1
e P (Yn = 0) = 1 − 2 , n ≥ 1.
2
2n
n
∑
D
Sendo Xn e Yn independentes para n ≥ 1, temos √1n nk=1 (Xk + Yk ) −
→ N (0, 1), mas a
condição de Lindeberg não está satisfeita.
P (Yn = ±n) =
Autor: Leandro Chaves Rêgo
9.2. TEOREMAS E PROVAS
142
∑
D
Solução: Pelo TCL para variáveis i.i.d., temos que √1n nk=1 Xk −
→ N (0, 1), vamos
∑
P
provar que √1n nk=1 Yk −
→ 0. Deste modo o resultado segue por Slutsky. Pela desigualdade
de Markov, temos
∑
∑n
∑n
n
E| nk=1 Yk |
1/k n→∞
1 ∑
k=1 E|Yk |
√
√
√
P (| √
Yk | > ϵ) ≤
≤
= k=1
−−−→ 0,
n k=1
ϵ n
ϵ n
ϵ n
(onde o último limite pode ser visto pelo fato de que usando o teste da integral para séries
∑
∑
n→∞
P
pode-se provar que log1 n nk=1 1/k −−−→ 1). Logo, √1n nk=1 Yk −
→ 0.
Como V ar(Xk + Yk ) = V ar(Xk ) + V ar(Yk ) = 2, temos que se a condição de Lindeberg
∑
D
fosse satisfeita, teríamos √1n nk=1 (Xk + Yk ) −
→ N (0, 2). Logo, a condição de Lindeberg não
é satisfeita, caso contrário teríamos uma contradição.
Corolário 9.2.8: Teorema Central do Limite de Liapunov. Sejam X1 , X2 , . . . variáveis
aleatórias independentes tais que EXn = µn e V arXn = σn2 < ∞ com pelo menos um σj2 > 0.
Seja Sn = X1 + . . . + Xn e s2n = V arSn . Se existir m > 0 tal que
então,
1
n
∑
s2+m
n
k=1
E(|Xk − µk |2+m ) → 0 quando n → ∞,
Sn − ESn D
→ N (0, 1).
sn
Prova: Para provar este teorema, é suficiente verificar que as condições do Teorema de Liapunov implicam as condições do Teorema de Lindeberg. A condição de Lindeberg estabelece
k|
uma integral na região |x − µk | > ϵsn , ϵ > 0. Nessa região, temos que |x−µ
> 1, o que por
ϵsn
|x−µk |m
sua vez implica ϵm sm > 1. Desse modo, temos que:
n
n ∫
n ∫
m
1 ∑
1 ∑
2
2 |x − µk |
(x
−
µ
)
dF
(x)
≤
(x
−
µ
)
dFk (x)
k
k
k
s2n k=1 |x−µk |>ϵsn
s2n k=1 |x−µk |>ϵsn
ϵm sm
n
n ∫
n ∫ ∞
∑
∑
1
1
2+m
|x − µk |
dFk (x) ≤ m 2+m
|x − µk |2+m dFk (x)
= m 2+m
ϵ sn k=1 |x−µk |>ϵsn
ϵ sn k=1 −∞
n
∑
1
= m 2+m
E|Xk − µk |2+m .
ϵ sn k=1
Mas a condição de Liapunov implica que o último termo tende a zero quando n → ∞.
Portanto, a condição de Lindeberg está satisfeita.
Antes de verficarmos um exemplo do Teorema Central do Limite de Liapunov, vamos
considerar o seguinte Lema.
Autor: Leandro Chaves Rêgo
9.2. TEOREMAS E PROVAS
143
Lema 9.2.9: Para λ > 0,
n
1 ∑
nλ+1
quando n → ∞, de maneira que
∑n
k=1
kλ →
k=1
1
,
λ+1
λ
k é da ordem de nλ+1 .
Prova: Como xλ ≤ k λ se k − 1 ≤ x ≤ k, e k λ ≤ xλ se k ≤ x ≤ k + 1, segue-se que
∫ k+1
∫ k+1
∫ k
∫ k
λ
λ
λ
λ
xλ dx,
k dx ≤
k dx = k =
x dx ≤
k
k
k−1
k−1
somando-se em k de 1 até n, temos
∫ n
∫
n
∑
λ
λ
x dx ≤
k ≤
0
n+1
xλ dx.
1
k=1
Logo,
∑
nλ+1
(n + 1)λ+1 − 1
(n + 1)λ+1
kλ ≤
≤
≤
,
λ+1
λ+1
λ+1
k=1
n
o que é eqüivalente a
n
1
1
1 ∑ λ
n + 1 λ+1
k ≤
≤ λ+1
·(
) .
λ+1
n
λ+1
n
k=1
)λ+1 → 1 quando n → ∞, o lema está provado.
Como ( n+1
n
n
Exemplo 9.2.10: Sejam X1 , X2 , . . . , independentes, Xn ∼ U [−n, n]. Prove que Sn −ES
→D
sn
N (0, 1).
Solução: Vamos verificar a condição de Liapunov para δ = 1. Temos
∫ k
∫
1 k 3
k3
1
3
3
3
|x| dx =
x dx = .
E|Xk − µk | = E|Xk | =
2k −k
k 0
4
∑
Logo, o Lema anterior implica que nk=1 E|Xk − µk |3 é da ordem de n4 . Vamos determinar
a ordem de s3n . Como µk = EXk = 0 e
∫ k
1
k2
2
2
σk = V ar(Xk ) = EXk =
x2 dx = , temos
2k −k
3
s2n =
n
∑
k2
k=1
3
.
Portanto, aplicando o resultado do Lema, temos:
1
s2n
→ .
3
n
9
Autor: Leandro Chaves Rêgo
9.2. TEOREMAS E PROVAS
144
Então,
∑n
n
3
n9/2
1
1 ∑
3
k=1 E|Xk − µk |
lim
E|Xk − µk | = lim ( 3 ·
· 1/2 )
4
n→∞
n→∞ s3
sn
n
n
n k=1
= 93/2 ·
1
1
· lim 1/2 = 0.
16 n→∞ n
Exemplo 9.2.11:
Sejam Xn , n ≥ 1, variáveis independentes com
1
P (Xn = ±2n ) = 2−n−1 e P (Xn = ±1) = (1 − 2−n ), n ≥ 1.
2
∑
D
→ N (0, 1).
Verifique que √1n ni=1 Xi −
Solução: Defina Yn = Xn I[|Xn |≤n] . Deste modo, P (Yn = ±1) = 21 (1 − 2−n ) e P (Yn =
0) = 2−n . Vamos verificar que Yn satisfaz a condição de Liapunov para m = 1. Temos
que EYn = 0, V ar(Yn ) = EYn2 = (1 − 2−n ), e E|Yn |3 = (1 − 2−n ) = V ar(Yn ). Logo,
1
∑
∑
−( 1 )n+1
s2n = nk=1 V ar(Yk ) = nk=1 (1 − 2−k ) = n − 2 21
. Portanto,
2
n
n
1 ∑
1
1 ∑
1
n→∞
3
E|Yk | = 3
V ar(Yk ) =
−−→ 0.
=
1
1 n+1 −
3
−(
)
sn k=1
sn k=1
sn
n − 2 21
2
O Teorema Central do Limite de Liapunov implica que,
√
n−
Portanto,
n−
√
√
n−
n
1 −( 1 )n+1
2
2
1
2
1
−( 21 )n+1
2
1
2
√
n
√
Como
n
∑
1
D
Yk −
→ N (0, 1).
k=1
1 ∑
D
√
Yk −
→ N (0, 1).
n k=1
n
1
−( 12 )n+1
2
1
2
n→∞
−−−→ 1, temos que
1 ∑
D
√
→ N (0, 1).
Yk −
n k=1
n
Seja Zn = Xn − Yn . Então,
1 ∑
1 ∑
1 ∑
√
Xk = √
Yk + √
Zk .
n k=1
n k=1
n k=1
n
n
n
Autor: Leandro Chaves Rêgo
9.3. TEOREMA CENTRAL DO LIMITE: CASO MULTIVARIADO
145
∑
P
Se conseguirmos provar que √1n nk=1 Zk −
→ 0, então o resultado segue por Slustky. Mas
P (Zn = ±2n ) = 2−n−1 e P (Zn = 0) = 1 − 2−n . Como P (|Zn | > k1 ) = P (|Zn | = 2n ) = 2−n ,
temos que
∞
∞
∑
∑
1
P (|Zn | > ) =
2−n < ∞, ∀k ≥ 1.
k
n=1
n=1
Portanto, Zn → 0 cp1, ou seja, P ({w ∈ Ω : limn→∞ Zn (w) = 0}) = 1. Como
lim Zn (w) = 0 ⇔ ∀ϵ > 0, ∃N tal que |Zn (w)| < ϵ, ∀n ≥ N
n→∞
⇒ ∃N tal que |Zn (w)| < 1, ∀n ≥ N
⇒ ∃N tal que |Zn (w)| = 0, ∀n ≥ N
∞
∑
⇒|
Zi (w)| < ∞
i=1
1 ∑
⇒ lim √
Zi (w) = 0,
n→∞
n i=1
n
∑
temos que {w ∈ Ω : limn→∞ Zn (w) = 0} ⊆ {w ∈ Ω : limn→∞ √1n ni=1 Zi (w) = 0}. Logo,
∑
∑
P
→
P ({w ∈ Ω : limn→∞ √1n ni=1 Zi (w) = 0}) = 1, o que por sua vez implica que, √1n nk=1 Zk −
0.
9.3
Teorema Central do Limite: Caso Multivariado
Concluímos dizendo que o Teorema Central do Limite também pode ser estendido ao caso
de vetores aleatórios. Neste caso, tem-se que a distribuição da média amostral centrada
converge para uma distriuição normal multivariada. A seguir, nós enunciamos formalmente
o teorema sem prová-lo.
⃗ 1, X
⃗ 2 , . . . uma seqüência de vetores aleatórios k-dimensionais,
Teorema 9.3.1 : Seja X
⃗ 1 tenha variância finita, e sejam
independentes e identicamente distribuídos. Suponha que X
⃗ 1 . Seja X n a média amostral, definida como a
⃗µ a média e Σ a matriz de covariância de X
⃗ 1, . . . , X
⃗ n . Então,
média aritmética dos vetores X
√
n(X n − ⃗µ) →D N (⃗0, Σ), quando n → ∞.
9.4
Método Delta
O método Delta é um resultado que aumenta significativamente a relevância do Teorema
Central do Limite. Antes de enunciarmos o teorema, vamos provar dois lemas. Dizemos que
uma seqüência de variáveis aleatórias {Yn } é limitada em probabilidade se para todo ϵ > 0,
existir K e n0 tal que P (|Yn | ≤ K) > 1 − ϵ para todo n > n0 .
Autor: Leandro Chaves Rêgo
9.4. MÉTODO DELTA
146
Lema 9.4.1: Se {Yn } converge em distribuição para uma variável aleatória com função de
distribuição H, então a seqüência é limitada em probabilidade.
Prova: Fixemos K1 e K2 pontos de continuidade de H tal que H(K1 ) > 1−ϵ/4 e H(−K2 ) <
ϵ/4. Escolhamos n0 tal que, ∀n > n0 ,
Hn (K1 ) > H(K1 ) − ϵ/4 > 1 − ϵ/2
e
Hn (−K2 ) < H(−K2 ) + ϵ/4 < ϵ/2.
Então,
P (−K2 ≤ Yn ≤ K1 ) ≥ Hn (K1 ) − Hn (K2 ) > 1 − ϵ.
O resultado está provado se escolhermos K = max(|K1 |, |K2 |).
Lema 9.4.2: Se {Yn } é limitada em probabilidade e Xn = o(Yn ), então Xn →P 0.
Prova: Dados quaisquer ϵ > 0 e δ > 0, precisamos mostrar que existe N tal que P (|Xn | >
ϵ) < δ para todo n ≥ N . Como {Yn } é limitada em probabilidade, existe K e n1 tal
que P (|Yn | ≤ K) > 1 − δ para todo n ≥ n1 . Como Xn = o(Yn ), sabemos que existe
n|
n2 tal que |X
< Kϵ para todo n ≥ n2 . Façamos N = max(n1 , n2 ), então para n ≥ N ,
|Yn |
|Xn | > ϵ ⇒ |Yn | > K. Logo
P (|Xn | > ϵ) ≤ P (|Yn | > K) < δ.
Teorema 9.4.3: Se
√
n(Tn − θ) →D N (0, τ 2 ), então
√
n[f (Tn ) − f (θ)] →D N (0, τ 2 [f ′ (θ)]2 ),
(9.2)
desde que f ′ (θ) exista e não seja zero.
Prova: Utilizaremos a versão da série de Taylor em torno de Tn = θ que diz que:
f (Tn ) = f (θ) + (Tn − θ)f ′ (θ) + o(Tn − θ),
e então
√
n[f (Tn ) − f (θ)] =
√
√
n(Tn − θ)f ′ (θ) + o( n(Tn − θ)).
O primeiro termo
do lado direito converge em distribuição para N (0, τ 2 [f ′ (θ)]2 ).√ Por outro
√
Lema 9.4.1, temos que n(Tn − θ)
lado, como n(Tn − θ) converge em distribuição, pelo √
é limitada em probabilidade. Então pelo Lema 9.4.2, o( n(Tn − θ)) converge para zero em
probabilidade. O resultado portanto é uma conseqüência do Teorema de Slutsky.
Este teorema pode parecer uma surpresa, já que se X é distribuído normalmente, a
distribuição de f (X), por exemplo, 1/X, log X, ou eX não será tipicamente normal. A
explicação para este paradoxo aparente pode ser encontrada na prova. Como o(Tn −θ) →P 0,
nós estamos quase certos que quando n for grande, Tn é aproximadamente linear, e uma
função linear de uma variável normal é também normal. O processo de aproximar a diferença
f (Tn ) − f (θ) pela função linear (Tn − θ)f ′ (θ) e o limite em (9.2) é chamado de método delta.
Autor: Leandro Chaves Rêgo
9.4. MÉTODO DELTA
147
Exemplo 9.4.4: Para estimar p2 , suponha que temos a escolha entre
(a) n ensaios binomiais com probabilidade p2 de sucesso; ou
(b) n ensaios binomiais com probabilidade p de sucesso.
Sejam X e Y o número de sucessos no primeiro e segundo tipo de ensaios, e suponha que
como estimadores de p2 nos dois casos, nós usaríamos X/n e (Y /n)2 , respectivamente. Então
nós temos:
√ X
n( − p2 ) →D N (0, p2 (1 − p2 ))
n
e
√ Y 2
n(( ) − p2 ) →D N (0, p(1 − p)4p2 ).
n
Então, pelo menos para n grande, X/n será mais acurado que (Y /n)2 , desde que
p2 (1 − p2 ) < p(1 − p)4p2 .
Dividindo ambos os lados por p2 (1 − p), podemos ver que
X
Y2
ou 2 é preferível se p > 1/3 ou p < 1/3, respectivamente.
n
n
O método delta proporciona a base para derivar transformações que estabilizam a variância, ou seja, transformações que levem a uma variância assintótica que é independente do
parâmetro. Suponha, por exemplo, que X1 , . . . , Xn são variáveis Poisson com parâmetro λ.
Segue do Teorema Central do Limite que
√
n(X − λ) → N (0, λ).
Para problemas de inferência que se referem a λ, é quase sempre inconveniente que λ
ocorre não somente na esperança mas também na
√ variância da distribuição limite. É portanto
de interesse achar uma função f para a qual n[f (Tn ) − f (θ)]√tende em distribuição para
N (0, c2 ), onde c2 não depende de λ. Em geral, suponha que n(Tn − θ) →D N (0, τ 2 (θ)).
Então, pelo método delta:
√
n[f (X) − f (λ)] →D N (0, τ 2 (θ)(f ′ )2 (θ)),
desde que a derivada de f exista em θ e seja diferente de 0. A distribuição limite do lado
c
direito terá portanto variância constante c2 se f ′ (θ) = τ (θ)
. A transformação resultante é
dita ser estabilizadora de variância.
√
Exemplo 9.4.5: Poisson. No caso de Poisson, temos θ = λ e τ (θ) = λ. Logo,
√
c
f ′ (λ) = √ ou f (λ) = 2c λ.
λ
Fazendo c = 1, temos que
√
√ √
2 n( X − λ) →D N (0, 1).
Autor: Leandro Chaves Rêgo
9.4. MÉTODO DELTA
148
Exemplo 9.4.6: Chi-Quadrado. Seja Yi = Xi2 , onde as Xi ’s são i.i.d. N (0, σ 2 ). Então,
EYi = σ 2 e V arYi = 2σ 4 e pelo Teorema Central do Limite, temos
√
n(Y − σ 2 ) →D N (0, 2σ 4 ),
ou seja, Tn = Y , θ = σ 2 , e τ 2 (θ) = 2θ2 . Logo,
c
c
f ′ (θ) = √ ou f (θ) = √ log θ.
2θ
2
Fazendo c = 1, vemos que
√
n
Y
log( 2 ) →D N (0, 1).
2
σ
Autor: Leandro Chaves Rêgo
Referências Bibliográficas
1. James, B. (1981), “Probabilidade: um curso em nível intermediário” - Projeto Euclides
2. Magalhães, Marcos M. (2006), "Probabilidade e Variáveis Aleatórias", 2a. edição,
edusp.
3. Lima, E. (1976), “Curso de Análise”, vol.1 - Projeto Euclides
4. Resnick, S. I., "A Probability Path", Birkhauser, 2005.
5. Halpern, Joseph Y. (2003), "Reasoning About Uncertainty", The MIT press.
6. Davenport Jr., W. (1970), "Probability and Random Processes", McGraw-Hill Book
Company Inc.
7. deFinetti, B. (1972), "Probability, Induction, and Statistics", New York: Willey.
8. Fine, T. (2006), “Probability and Probabilistic Reasoning for Electrical Engineering”,
Prentice Hall.
149
Download