Notas de Aula do Curso PGE950: Probabilidade Leandro Chaves Rêgo, Ph.D. 2013.1 Prefácio Estas notas de aula foram feitas para compilar o conteúdo de várias referências bibliográficas tendo em vista o conteúdo programático da disciplina PGE950-Probabilidade do curso de mestrado em Estatística da Universidade Federal de Pernambuco. Em particular, elas não contém nenhum material original e não substituem a consulta a livros textos. Seu principal objetivo é dispensar a necessidade dos alunos terem que copiar as aulas e, deste modo, poderem se concentrar em entender o conteúdo das mesmas. Recife, março de 2013. Leandro Chaves Rêgo, Ph.D. i Conteúdo Prefácio i 1 Introdução à Probabilidade 1.1 Experimento Aleatório . . . . . . . . . . . . . . . . . . . . . 1.2 Espaço Amostral . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Eventos e Coleção de Eventos . . . . . . . . . . . . . . . . . 1.3.1 Partição . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Álgebra de Eventos . . . . . . . . . . . . . . . . . . . 1.3.3 Função Indicadora . . . . . . . . . . . . . . . . . . . 1.4 Fundamentos de Probabilidade . . . . . . . . . . . . . . . . 1.4.1 Hierarquia de Conceitos Estruturais de Probabilidade 1.4.2 Interpretações de Probabilidade . . . . . . . . . . . . 1.5 Frequências Relativas . . . . . . . . . . . . . . . . . . . . . . 1.6 Axiomas de Kolmogorov . . . . . . . . . . . . . . . . . . . . 1.6.1 Exemplos de Medidas de Probabilidade . . . . . . . . 1.6.2 Propriedades de uma Medida de Probabilidade . . . . . . . . . . . . . . . . . 1 1 2 3 3 4 6 8 10 11 11 13 15 16 2 Probabilidade Condicional 2.1 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 22 29 3 Variável Aleatória 3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . 3.2 Função de Distribuição Acumulada . . . . . . . . . 3.3 Tipos de Variável Aleatória . . . . . . . . . . . . . 3.3.1 Variável Aleatória Discreta . . . . . . . . . . 3.3.2 Variável Aleatória Contínua . . . . . . . . . 3.3.3 Variável Aleatória Singular . . . . . . . . . . 3.3.4 Decomposição de uma Variável Aleatória . . 3.4 Principais Distribuições de Probabilidade . . . . . . 3.5 Variáveis Aleatórias Multidimensionais . . . . . . . 3.5.1 Função de Distribuição Acumulada Conjunta 3.5.2 Independência entre Variáveis Aleatórias. . . 3.5.3 Exemplos de Distribuições Multivariadas . . 33 33 35 37 37 38 38 39 40 47 48 49 51 ii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Funções de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . 4 Esperança e Momentos de Variáveis Aleatórias 4.1 O Conceito de Esperança . . . . . . . . . . . . . . . . . . 4.2 Definição da Esperança - Caso Discreto . . . . . . . . . . 4.3 As integrais de Riemman-Stieltjes e de Lebesgue-Stieltjes 4.3.1 Propriedades da Integral de Lebesgue-Stieltjes . . 4.4 Definição da Esperança - Caso Geral . . . . . . . . . . . 4.4.1 Interpretação Geométrica da Esperança . . . . . . 4.5 Esperança de Funções de Variáveis Aleatórias . . . . . . 4.5.1 Caso Discreto . . . . . . . . . . . . . . . . . . . . 4.5.2 Caso Geral . . . . . . . . . . . . . . . . . . . . . 4.6 Propriedades da Esperança . . . . . . . . . . . . . . . . . 4.7 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7.1 Momentos Centrais . . . . . . . . . . . . . . . . . 4.8 Momentos Conjuntos . . . . . . . . . . . . . . . . . . . . 51 . . . . . . . . . . . . . 56 56 56 59 61 62 64 66 66 67 67 70 71 74 5 Distribuição e Esperança Condicionais 5.1 Distribuição condicional de X dada Y discreta . . . . . . . . . . . . . . . . . 5.2 Distribuição condicional de X dada Y : caso geral . . . . . . . . . . . . . . . 5.3 Esperança Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 77 79 83 6 Convergência Estocástica 6.1 Seqüência de Eventos . . . . . . . . . . . . . . . 6.1.1 Borel-Canteli . . . . . . . . . . . . . . . 6.2 Covergência de Variáveis Aleatórias . . . . . . . 6.2.1 Tipos de Convergência . . . . . . . . . . 6.2.2 Relação Entre os Tipos de Convergência 6.3 Convergência de Vetores Aleatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 87 89 91 92 98 102 7 Funções Características 7.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Propriedades . . . . . . . . . . . . . . . . . . . 7.2.2 Exemplos de Funções Características . . . . . . 7.3 Teorema da Continuidade de Levy . . . . . . . . . . . . 7.4 Soma de um Número Aleatório de Variáveis Aleatórias 7.5 Função Característica de um Vetor Aleatório . . . . . . 7.6 Funções Geratrizes de Momento . . . . . . . . . . . . . 7.7 Teorema de Slutsky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 104 105 105 110 111 115 117 120 120 8 Lei 8.1 8.2 8.3 . . . . . . . . . . . . . . . . . . dos Grandes Números 123 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Lei Fraca dos Grandes Números . . . . . . . . . . . . . . . . . . . . . . . . . 125 Lei Forte dos Grandes Números . . . . . . . . . . . . . . . . . . . . . . . . . 127 iii 8.4 Um Exemplo de Divergência das Médias . . . . . . . . . . . . . . . . . . . . 134 9 Teorema Central do Limite 9.1 Motivação . . . . . . . . . . . . . . . . . . . . . 9.2 Teoremas e provas . . . . . . . . . . . . . . . . 9.3 Teorema Central do Limite: Caso Multivariado 9.4 Método Delta . . . . . . . . . . . . . . . . . . . Referências Bibliográficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 136 136 145 145 149 iv Capítulo 1 Introdução à Probabilidade 1.1 Experimento Aleatório Um dos maiores objetivos de um estatístico é chegar a conclusões sobre certa população de objetos através da realização de um experimento. Um experimento é qualquer processo de observação. Em muitos experimentos de interesse, existe um elemento de incerteza, ou chance, que não importa quanto nós sabemos sobre o passado de outras performances deste experimento, nós essencialmente não somos capazes de predizer seu comportamento em futuras realizações. As razões para nossa falta de habilidade para predizer são varias: nós podemos não saber de todas as causas envolvidas; nós podemos não ter dados suficientes sobre as condições iniciais do experimento; as causas podem ser tão complexas que o cálculo do seu efeito combinado não é possível; ou na verdade existe alguma aleatoriedade fundamental no experimento. Estamos interessados em uma classe particular de experimentos, chamados experimentos aleatórios. Os seguintes traços caracterizam um experimento aleatório: (a) Se for possível repetir as mesmas condições do experimento, os resultados do experimento em diferentes realizações podem ser diferentes. Por exemplo, jogar uma moeda diversas vezes com bastante cuidado para que cada jogada seja realizada da mesma maneira. (b) Muito embora não sejamos capazes de afirmar que resultado particular ocorrerá, seremos capazes de descrever o conjunto de todos os possíveis resultados do experimento.1 (c) Quando o experimento for executado repetidamente, os resultados individuais parecerão ocorrer de uma forma acidental. Contudo, quando o experimento for repetido um grande número de vezes, uma configuração definida ou regularidade surgirá. É esta regularidade que torna possível construir um modelo probabilístico. Por exemplo, 1 É importante ressaltar que frequentemente são encontradas situações práticas onde não se consegue descrever todos os possíveis resultados de um experimento. Uma maneira de contornar este problema é assumir que um resultado possível do experimento é a não ocorrência de qualquer dos resultados descritos, contudo, em problemas práticos, tal suposição pode acarretar em dificuldades quando se tenta elicitar ou deduzir probabilidades. 1 1.2. ESPAÇO AMOSTRAL 2 pense nas repetidas jogadas de uma moeda, muito embora caras e coroas apareçam sucessivamente, em uma maneira arbitrária, é fato empírico conhecido que, depois de um grande número de jogadas, a proporção de caras e de coroas serão aproximadamente iguais (assumindo que a moeda é simétrica). Os resultados de um experimento aleatório são caracterizados pelos seguintes componentes: 1. o conjunto de resultados possíveis Ω; 2. a coleção de conjuntos de resultados de interesse A; 3. um valor numérico P da verossimilhança ou probabilidade de ocorrência de cada um dos conjuntos de resultados de interesse. 1.2 Espaço Amostral O conjunto de possíveis resultados de um experimento aleatório é chamado de espaço amostral. Existem quatro pontos que são desejáveis da especificação de um espaço amostral: SS1. listar os possíveis resultados do experimento; SS2. fazê-lo sem duplicação; SS3. fazê-lo em um nível de detalhamento suficiente para os interesses desejados; SS4. especificar essa lista completamente em um sentido prático, embora usualmente não completa no que se refere a todos os resultados logicamente ou fisicamente possíveis. Por exemplo, uma única jogada de uma moeda pode ter o espaço amostral tradicional Ω = {cara, coroa}, ou podemos considerar que a moeda pode fisicamente ficar equilibrada na borda Ω = {cara, coroa, borda} (SS1). Uma outra possibilidade seria levar em consideração as coordenadas (x, y) do centro da moeda quando ela para após ser jogada no ar. Como vemos muito mais se sabe sobre o resultado de uma jogada de uma moeda que os simples resultados binários tradicionais cara e coroa. Nós ignoramos está informação adicional (SS3) usando uma hipótese não mencionada que existe uma aposta com pagamentos que dependem apenas de qual lado da moeda cai para cima e não em outras informações (SS4). Podemos classificar espaços amostrais em dois tipos de acordo com o número de elementos que eles contem. Espaços amostrais podem ser enumeráveis ou não enumeráveis; se os elementos do espaço amostral podem ser colocados em uma correspondência 1-1 com um subconjunto dos inteiros, o espaço amostral é enumerável. Em um nível filosófico, pode-se argumentar que só existem espaços amostrais enumeráveis, visto que medidas não podem ser feitas com infinita precisão. Enquanto na prática isto é verdadeiro, métodos estatísticos e probabilísticos associados com espaços amostrais não enumeráveis são, em geral, menos complicados que aqueles para espaços amostrais enumeráveis, e proporcionam uma boa aproximação para a situação (enumerável) real. Autor: Leandro Chaves Rêgo 1.3. EVENTOS E COLEÇÃO DE EVENTOS 1.3 3 Eventos e Coleção de Eventos Um evento é um subconjunto do espaço amostral, ou seja, é um conjunto de resultados possíveis do experimento aleatório. Se ao realizarmos um experimento aleatório, o resultado pertence a um dado evento A, dizemos que A ocorreu. Estaremos interessados no estudo da ocorrência de combinações de eventos. Para tanto, utilizaremos as operações Booleanas de conjuntos (complementar, união, intersecção, diferença) para expressar eventos combinados de interesse. Definição 1.3.1: Os eventos A e B são disjuntos ou mutuamente excludentes ou mutuamente exclusivos se não puderem ocorrer juntos, ou, em linguagem de conjuntos, A ∩ B = ∅. Exemplo 1.3.2: Sejam A, B, e C eventos em um mesmo espaço amostral Ω. Expresse os seguintes eventos em função de A, B, e C e operações Booleanas de conjuntos. (a) Pelo menos um deles ocorre: A ∪ B ∪ C. (b) Exatamente um deles ocorre: (A ∩ B c ∩ C c ) ∪ (Ac ∩ B ∩ C c ) ∪ (Ac ∩ B c ∩ C). (c) Apenas A ocorre: (A ∩ B c ∩ C c ). (d) Pelo menos dois ocorrem: (A ∩ B ∩ C c ) ∪ (A ∩ B c ∩ C) ∪ (Ac ∩ B ∩ C) ∪ (A ∩ B ∩ C). (e) No máximo dois deles ocorrem: (A ∩ B ∩ C)c . (f ) Nenhum deles ocorre: (Ac ∩ B c ∩ C c ). (g) Ambos A e B ocorrem, mas C não ocorre: (A ∩ B ∩ C c ). 1.3.1 Partição Definição 1.3.3: Dado um espaço amostral Ω, uma partição Π = {Aα , α ∈ I} de Ω é uma coleção de eventos (subconjuntos de Ω) (neste caso, indexados por α que toma valores no conjunto de índices I) e satisfaz: P1. Para todo α ̸= β, Aα ∩ Aβ = ∅; Autor: Leandro Chaves Rêgo 1.3. EVENTOS E COLEÇÃO DE EVENTOS 4 P2. ∪α∈I Aα = Ω. Deste modo os eventos de uma partição são mutuamente excludentes (ou disjuntos) e cobrem todo o espaço amostral. Portanto, cada elemento ω ∈ Ω pertence a um, e somente um, dos eventos Aα de uma partição. Exemplo 1.3.4: Se Ω = {1, 2, 3, 4}, então {A1 , A2 }, onde A1 = {1, 2, 3} e A2 = {4}, é uma partição de Ω. Exemplo 1.3.5: A coleção de intervalos {(n, n + 1] : n ∈ Z} é uma partição dos números reais IR. 1.3.2 Álgebra de Eventos Embora possa-se pensar que, dado um espaço amostral, necessariamente é de interesse analisar todos os seus subconjuntos (e isto eventualmente é verdadeiro), temos três razões para esperar que estejamos apenas interessados em alguns subconjuntos do espaço amostral. Primeiro, o espaço amostral pode conter um grau de detalhamento superior ao que estamos interessados no momento. Por exemplo, ele pode representar uma única jogada de um dado com 6 elementos, mas nós apenas estamos interessados em saber se o resultado é par ou ímpar. Segundo, nós vamos querer associar cada evento A com uma probabilidade numérica P (A). Como essas probabilidades estão baseadas em algum conhecimento sobre a tendência de ocorrer do evento, ou no grau de nossa crença que determinado evento ocorrerá, nosso conhecimento sobre P pode não estender para todos os subconjuntos de Ω. A terceira (e técnica) razão para limitar a coleção de eventos de interesse é que condições impostas em P pelos axiomas de Kolmogorov, que estudaremos adiante, podem não permitir que P seja definida em todos os subconjuntos de Ω, em particular isto pode ocorrer quando Ω for não enumerável, mas não iremos demonstrar este fato que está fora do escopo deste curso. Estaremos interessados em uma coleção especial A de subconjuntos do espaço amostral Ω (note que A é um conjunto cujos elementos também são conjuntos!) que são eventos de interesse no que se refere ao experimento aleatório E e os quais temos conhecimento sobre a sua verossimilhança de ocorrência. A é chamado de uma álgebra de eventos. Definição 1.3.6: Uma álgebra de eventos A é uma coleção de subconjuntos do espaço amostral Ω que satisfaz: 1. não é vazia; 2. fechada com respeito a complementos (se A ∈ A, então Ac ∈ A); 3. fechada com respeito a uniões finitas (se A, B ∈ A, então A ∪ B ∈ A). Pelas Leis de De Morgan, vemos que A é fechada com respeito a intersecções finitas também. Autor: Leandro Chaves Rêgo 1.3. EVENTOS E COLEÇÃO DE EVENTOS 5 Exemplo 1.3.7: 1. A menor álgebra de eventos é A = {∅, Ω}; 2. A maior álgebra de eventos é o conjunto das partes de Ω; 3. Um exemplo intermediário, temos: Ω = {1, 2, 3}, A = {Ω, ∅, {1}, {2, 3}}. 4. A álgebra de eventos finitos e co-finitos. Seja Ω = IR e A = {A ⊆ IR : A é finito} ∪ {A ⊆ IR : Ac é finito}, ou seja, A consiste dos subconjuntos de IR que ou são finitos ou têm complementos finitos. A é uma álgebra de eventos. Lema 1.3.8: Se A é uma álgebra, então Ω ∈ A Prova: Como A é não vazia, seja A um elemento qualquer seu. Pela segunda propriedade de álgebras, temos que Ac ∈ A, e pela terceira propriedade temos que Ω = A ∪ Ac ∈ A. Teorema 1.3.9: Sejam A1 e A2 álgebras de subconjuntos de Ω e seja A = A1 ∩A2 a coleção de subconjuntos comuns as duas álgebras. Então, A é uma álgebra. Prova: Como A1 e A2 são álgebras, ambos contém Ω. Então, Ω ∈ A. Se A ∈ A, então A está em ambos A1 e A2 . Logo, Ac está em ambos A1 e A2 , e portanto na sua intersecção A. Se A, B ∈ A, então eles estão em ambos A1 e A2 . Consequentemente, A ∪ B está em ambos A1 e A2 e, portanto, em A. Como A satisfaz as três condições da definição de álgebra de eventos, A é uma álgebra de eventos. É fácil ver que a prova do Teorema 1.3.9 pode ser estendida para o caso de uma intersecção de um número arbitrário de álgebras. O seguinte corolário usa este fato para provar que sempre existe uma menor álgebra contendo uma família qualquer de eventos. Corolário 1.3.10: Existe uma menor (no sentido de inclusão) álgebra contendo qualquer família dada de subconjuntos de Ω. Prova: Seja C uma coleção qualquer de subconjuntos de Ω, defina A(C) como sendo o conjunto que é igual a intercessão de todas as álgebras de eventos que contém C, isto é: ∩ A(C) = A. A⊇C:A é uma álgebra de eventos Pelo Teorema 1.3.9, A(C) é uma álgebra de eventos, e consequentemente é a menor álgebra de eventos contendo C. A(C) é conhecida como a álgebra de eventos gerada por C. Autor: Leandro Chaves Rêgo 1.3. EVENTOS E COLEÇÃO DE EVENTOS 6 Teorema 1.3.11: Se A é uma álgebra de eventos, então Ai ∈ A, i = 1, 2, . . . , n ⇒ ∪ni=1 Ai ∈ A Prova: Para n = 1, o resultado é óbvio. Para n = 2, o resultado segue diretamente da terceira propriedade na definição de álgebra de eventos. Vamos agora provar o passo indutivo, suponha que Ai ∈ A, i = 1, 2, . . . , k ⇒ ∪ki=1 Ai ∈ A. Vamos agora provar que o caso n = k + 1 é verdadeiro. Suponha que Ai , i = 1, 2, . . . , k + 1 ∈ A, então como k ∪k+1 i=1 Ai = (∪i=1 Ai ) ∪ Ak+1 , temos que utilizando o caso n = k, ∪ki=1 Ai ∈ A. Como ∪ki=1 Ai ∈ A e Ak+1 ∈ A, temos que utilizando o caso n = 2, (∪ki=1 Ai ) ∪ Ak+1 ∈ A. Observação 1.3.12: Uma maneira de construir uma álgebra de eventos, é primeiro particionar Ω em um número finito subconjuntos e depois considerar álgebra que consiste dos eventos que são uniões finitas dos subconjuntos da partição. Exemplo 1.3.13: Por exemplo, Ω = {a, b, c, d}. Considere a partição, {{a, c}, {b, d}}, então considere a coleção de eventos que consiste de uniões finitas dos eventos desta partição: A = {∅, Ω, {a, c}, {b, d}}. É fácil ver que A é uma álgebra de eventos. Dada uma coleção finita eventos C = {A1 , A2 , . . . , An }, define-se um átomo de C como sendo qualquer evento B da seguinte forma: B = B1 ∩ B2 ∩ . . . ∩ Bn , onde Bi = Ai ou Bi = Aci para i = 1, 2, . . . , n. Note que existem no máximo 2||C|| átomos diferentes e que eles formam uma partição de Ω (verifique!). Quando C for uma coleção finita de eventos, um evento pertencerá a A(C), se e somente se, for igual a uma união finita de átomos de C. ||C|| Note que A(C) terá no máximo 22 elementos (verifique!). Exemplo 1.3.14: Se Ω = {a, b, c, d, e, f }, encontre a álgebra gerada por C = {{a, b, d}, {b, d, f }}. Os átomos de C são {{a}, {f }, {c, e}, {b, d}}. Logo, A(C) = {∅, Ω, {a}, {f }, {c, e}, {b, d}, {a, f }, {a, c, e}, {a, b, d}, {c, e, f }, {b, d, f }, {b, c, d, e}, {a, f, c, e}, {a, f, b, d}, {a, b, c, d, e}, {b, c, e, d, f }}. 1.3.3 Função Indicadora É sempre conveniente representar um evento A por uma função IA tendo domínio (conjunto dos argumentos da função) Ω e contra-domínio (conjunto dos possíveis valores da função) binário {0, 1}. Autor: Leandro Chaves Rêgo 1.3. EVENTOS E COLEÇÃO DE EVENTOS 7 Definição 1.3.15 : Função Indicadora. A função indicadora IA : Ω → {0, 1} de um evento A é dada por { 1 se ω ∈ A, IA (ω) = 0 se ω ∈ / A. Note que podemos determinar A a partir de sua função indicadora: A = {ω : IA (ω) = 1}. Exemplo 1.3.16: Se IA (ω) for identicamente igual a 1, ou seja, IA (ω) = 1, ∀ω ∈ Ω, então A é igual ao espaço amostral Ω. Se IA (ω) for identicamente igual a 0, então A é igual ao conjunto vazio ∅. Se IA (ω) for igual a 1 somente quando ω = ω0 , então A é o evento {ω0 } que contém somente o elemento ω0 . Note que existe uma correspondência 1-1 entre eventos e suas funções indicadoras: A = B ⇔ (∀ω ∈ Ω)IA (ω) = IB (ω). O fato que eventos são iguais se, e somente se, suas funções indicadoras forem idênticas nos permitem explorar a aritmética de funções indicadoras: IAc = 1 − IA , A ⊆ B ⇔ IA ≤ IB , IA∩B = min(IA , IB ) = IA IB , IA∪B = max(IA , IB ) = IA + IB − IA∩B , IA−B = max(IA − IB , 0) = IA IB c , para construir argumentos rigorosos no que se refere a relação entre eventos. Ou seja, nós transformamos proposições sobre eventos em proposições sobre funções indicadoras e podemos então utilizar nossa familiaridade com álgebra para resolver perguntas menos familiares sobre eventos. Exemplo 1.3.17: Utilizando funções indicadoras, verifique que A ⊆ B ⇔ B c ⊆ Ac . Solução: Temos que A ⊆ B ⇔ IA ≤ IB ⇔ 1 − IA ≥ 1 − IB ⇔ IAc ≥ IB c ⇔ B c ⊆ Ac . Exemplo 1.3.18: As seguintes questões não estão relacionadas umas com as outras. a. Se IA IB for identicamente igual a zero, o que sabemos a respeito da relação entre A e B? b. Se A ∩ B c = B ∩ Ac , o que sabemos a respeito da relação entre A e B? c. Se IA2 + IB2 for identicamente igual a 1, o que podemos concluir sobre A e B? Autor: Leandro Chaves Rêgo 1.4. FUNDAMENTOS DE PROBABILIDADE 8 d. Se IA − IB for identicamente igual a 1, o que podemos concluir sobre A e B? e. Se A ∩ B = B ∪ A, o que podemos concluir sobre A e B? Solução: Exercício. Exemplo 1.3.19 : Utilizando funções indicadoras, determine se (A − C) ∪ (B − C) = (A ∩ B c ∩ C c ) ∪ (Ac ∩ B ∩ C c ). (Sugestão: Faça um Diagrama de Venn.) Solução: Seja ω ∈ A ∩ B ∩ C c . Então, IA (ω) = IB (ω) = IC c (ω) = 1. Portanto, temos I(A−C)∪(B−C) = IA−C + IB−C − IA−C IB−C = IA IC c + IB IC c − IA IC c IB IC c . De onde conclui-se que I(A−C)∪(B−C) (ω) = 1. Por outro lado, I(A∩B c ∩C c )∪(Ac ∩B∩C c ) = I(A∩B c ∩C c ) + I(Ac ∩B∩C c ) − I(A∩B c ∩C c ) I(Ac ∩B∩C c ) = IA IB c IC c + IAc IB IC c − IA IB c IC c IAc IB IC c De onde conclui-se que I(A∩B c ∩C c )∪(Ac ∩B∩C c ) (ω) = 0. Logo, I(A−C)∪(B−C) ̸= I(A∩B c ∩C c )∪(Ac ∩B∩C c ) , o que implica que (A − C) ∪ (B − C) ̸= (A ∩ B c ∩ C c ) ∪ (Ac ∩ B ∩ C c ). 1.4 Fundamentos de Probabilidade Raciocínio probabilístico aparece em uma ampla variedade de fenômenos de chance e incerteza, ele é lugar comum em nosso dia-a-dia. Nós expressamos julgamentos probabilísticos tanto através da linguagem como através de nossas ações. Ultrapassar um carro em uma estrada com outro carro vindo em direção oposta implica que calculamos as distâncias e velocidades, e calculamos os riscos de uma batida ocorrer e estamos conscientes das graves consequências de erros nos nossos julgamentos, mas os consideramos pequenos o suficiente. Raciocínio probabilístico no dia-a-dia enquanto não desenvolvido matematicamente precisa ser levado seriamente em conta se desejamos tomar decisões racionais. Nota-se que, em geral, precisamos incorporar conhecimento probabilístico que seja tanto qualitativo e expresso linguisticamente como também o conhecimento quantitativo que pode ser expresso numericamente. Antes de focarmos em uma teoria probabilística, vamos explorar o espaço de alternativas. Nós podemos classificar as formas de raciocínio probabilístico nas seguintes dimensões: • grau de precisão: o conceito estrutural • o significado, ou interpretação a ser dada a probabilidade • estrutura matemática formal de probabilidade dada por um conjunto de axiomas O conceito estrutural determina a precisão com que podemos esperar que probabilidade represente fenômenos aleatórios. A interpretação proporciona a base com a qual probabilidade deve ser determinada e indica o que podemos esperar aprender com ela, ou seja, o que uma afirmação probabilística significa. O conceito estrutural e a interpretação guiam a Autor: Leandro Chaves Rêgo 1.4. FUNDAMENTOS DE PROBABILIDADE 9 escolha dos axiomas. O conjunto de axiomas, contudo, pode somente capturar uma parte do que entendemos da interpretação. Compreensão de fundamentos de probabilidade é importante, pois aplicações de teoria da probabilidade dependem fortemente de seus fundamentos. Por exemplo, os fundamentos influem na escolha dos métodos estatísticos a serem utilizados (Frequentistas, Bayesianos, . . . ) e na interpretação dos resultados obtidos. Os próximos exemplos ajudam a motivar um pouco a importância do estudo de fundamentos de probabilidade. Exemplo 1.4.1: Suponha que Alice tenha uma moeda honesta e que ela e Bob saibam que a moeda é honesta. Alice joga a moeda e olha o resultado. Após a moeda ser jogada, qual a probabilidade de cara segundo Bob? Um argumento diria que a probabilidade ainda é 1/2, pois Bob não aprendeu nada sobre o resultado da jogada, então ele não deve alterar o valor de sua probabilidade. Um outro argumento, questiona se realmente faz sentido falar sobre probabilidade de cara depois que a moeda foi jogada. Segundo este argumento, a moeda ou caiu cara ou coroa, então o melhor que Bob pode afirmar é que a probabilidade de cara ou é 0 ou é 1, mas ele não sabe discernir entre esses valores. Exemplo 1.4.2 : Suponha agora que Alice tenha duas moedas, uma honesta e outra tendenciosa e é duas vezes mais provável dar cara que coroa com esta moeda. Alice escolhe uma das moedas (suponha que ela sabe distinguir as moedas) e está prestes a jogá-la. Bob sabe que uma moeda é honesta e que a outra é tendenciosa e que é duas vezes mais provável cair cara que coroa com a moeda tendenciosa, mas ele não sabe que moeda Alice escolheu nem lhe foi dada a probabilidade com que Alice escolhe a moeda honesta. Qual a probabilidade de cara segundo Bob? Exemplo 1.4.3: Paradoxo de Ellsbergue. Suponha que existam duas urnas cada uma com 60 bolas. A urna 1 contém 30 bolas azuis e 30 bolas verdes. Tudo que se sabe sobre a urna 2 é que ela contém bolas azuis e verdes, mas não sabe-se a distribuição das bolas. Considere que existem duas loteria com prêmios baseados no sorteio de bolas dessas urnas. Loteria L1 paga R$1.000,00 se uma bola azul for sorteada na urna 1, e R$0,00 caso contrário. Loteria L2 paga R$1.000,00 se uma bola azul for sorteada na urna 2, e R$0,00 caso contrário. A maioria das pessoas quando questionada se prefere um bilhete da Loteria L1 ou L2 prefere um bilhete da loteria L1 . Suponha agora que temos duas outras loterias L3 e L4 , onde a primeira paga R$1.000,00 somente se uma bola verde for sorteada da urna 1, e a segunda para R$1.000,00 somente se uma bola verde for sorteada da urna 2. Também, é verificado que a maioria das pessoas que preferiram a loteria L1 a loteria L2 preferem a loteria L3 a loteria L4 . Com estas preferências, não é possível que o decisor possua uma única distribuição de probabilidade subjetiva sobre as cores das bolas na urna 2, pois a primeira preferência (L1 sobre L2 ) indica que o decisor considera que existam mais bolas verdes que azuis na urna 2, e a segunda (L3 sobre L4 ) indica que o decisor considera que existam mais bolas azuis que verdes na urna 2. Esse fenômeno é conhecido na literatura como aversão a ambiguidade, e pode-se modelar a incerteza do decisor por um conjunto de medidas de probabilidade ao invés de uma única medida de probabilidade. Autor: Leandro Chaves Rêgo 1.4. FUNDAMENTOS DE PROBABILIDADE 10 Nós discutiremos uma variedade de conceitos estruturais e interpretações de probabilidade. Depois nós focaremos na probabilidade numérica tradicional que satisfaz os famosos axiomas de Kolmogorov e em uma interpretação baseada em frequências de ocorrência. 1.4.1 Hierarquia de Conceitos Estruturais de Probabilidade Os seguintes são exemplos de uma variedade de conceitos estruturais de probabilidade: Possivelmente. “Possivelmente A” é o conceito mais rudimentar e menos preciso, e o usado pelos antigos Gregos para distinguir entre o que era necessário e o que era contingente. Existe um número de conceitos de possibilidade que incluem os seguintes: possibilidade lógica, no sentido que não se contradiz logicamente; possibilidade epistêmica, segundo a qual ocorrência de A não contradiz nosso conhecimento, que inclui, mas estende mais que mera lógica; possibilidade física, a ocorrência de A é compatível com leis físicas, contudo ela pode ser extremamente improvável — por exemplo, uma moeda parando e ficando equilibrada na borda em uma superfície rígida; possibilidade prática, a noção do dia-a-dia segundo a qual A é praticamente possível se ele tem pelo menos uma verossimilhança não tão pequena de ocorrer. Provavelmente. Provavelmente A é um fortalecimento da noção de possibilidade que significa mais que provável que não. Enquanto ela pode corresponder ao caso que a probabilidade numérica de A seja maior que 1/2, este conceito não requer nenhum comprometimento com probabilidade numérica nem com o preciso estado de conhecimento que probabilidade numérica requer. Probabilidade Comparativa. “A é pelo menos tão provável quanto B”. A probabilidade comparativa inclui “provavelmente A” através de “A é pelo menos tão provável quanto Ac ”. Pode ser relacionada com probabilidade numérica através de P (A) ≥ P (B); embora como nos dois exemplos anteriores, probabilidade comparativa não requer nenhum comprometimento com probabilidade numérica. Probabilidade Intervalar. “A tem probabilidade intervalar, ou probabilidade inferior e superior (P (A), P (A))”. Isto permite um grau de indeterminação variável sem nenhum comprometimento com que exista um “verdadeiro” valor no intervalo. Probabilidade Numérica. “A probabilidade de A é o número real P (A).” Este é o conceito usual com o qual nos ocuparemos neste curso. Enquanto este conceito absorveu quase toda atenção de pessoas envolvidas com fenômenos de chance e incerteza e provou ser frutífero na prática científica, este não é o único conceito utilizado em linguagem ordinária e no raciocínio probabilístico do dia-a-dia. É duvidoso que probabilidade numérica seja adequada a todas as aplicações que ela é utilizada, e é provável que ela tenha inibido o desenvolvimento de teorias matemáticas apropriadas para outros fenômenos aleatórios. Autor: Leandro Chaves Rêgo 1.5. FREQUÊNCIAS RELATIVAS 11 De agora em diante focaremos no conceito estrutural mais utilizado e preciso que é a probabilidade numérica. 1.4.2 Interpretações de Probabilidade Parece não ser possível reduzir probabilidade a outros conceitos; ela é uma noção em si mesma. O melhor que podemos fazer é relacionar probabilidade a outros conceitos através de uma interpretação. Os cinco mais comuns grupos de interpretação são os seguintes: 1. Lógica: grau de confirmação da hipótese de uma proposição que “A ocorre” dada uma evidência através da proposição que “B ocorreu”. Esta interpretação está ligada a um sistema lógico formal e não, digamos, ao mundo físico. Ela é usada para tornar o raciocínio indutivo quantitativo. Quando as evidências ou premissas são insuficientes para deduzir logicamente a hipótese ou conclusão, podemos ainda medir quantitativamente o grau de suporte que uma evidência da a uma hipótese através de probabilidade lógica. 2. Subjetiva: se refere ao grau de crença pessoal na ocorrência do evento A e é medida através da interpretação comportamental de disposição a apostar ou agir. 3. Frequentista: se refere ao limite da frequência relativa de ocorrência do evento A em repetidas realizações não relacionadas do experimento aleatório E. Note que limites de frequência relativas são uma idealização, pois não se pode repetir infinitas vezes um experimento. 4. Propensidade: tendência, propensidade, ou disposição para um evento A ocorrer. Por exemplo, considerações de simetria, podem levar a conclusão que um dado tem a mesma propensão ou tendência a cair em qualquer uma de suas faces. 5. Clássica: baseada em uma enumeração de casos igualmente prováveis. 1.5 Frequências Relativas Resta-nos discutir o terceiro elemento para modelagem do raciocínio probabilístico, a associação de uma medida numérica a eventos que representam a verossimilhança com que eles ocorrem. As propriedades desta associação são motivadas em grande parte pelas propriedades de frequência relativas. Considere uma coleção de experimentos aleatórios Ei que possuem a mesma álgebra de eventos A e tem resultados individuais não necessariamente numéricos {ωi }. Seja X(ω) uma função real dos resultados, com Xi =∑ X(ωi ) sendo o valor 1 associado com o resultado ωi do i-ésimo experimento. Seja Avn X = n ni=1 Xi a média dos resultados dos n primeiros experimentos. Por simplicidade matemática, assumiremos que a função X é escolhida de uma família F de funções que podem assumir apenas um número finito de valores numéricos. Fixando uma dada sequência de resultados {ωi }, é fácil verificar as seguintes propriedades de Avn : Av0. Avn : F → IR. Autor: Leandro Chaves Rêgo 1.5. FREQUÊNCIAS RELATIVAS 12 Av1. Se para todo ω, X(ω) ≥ 0, então Avn ≥ 0. Av2. Se X é uma função constante, então Avn X = X. Av3. Para todo X, Y ∈ F, para todo α, β ∈ IR, Avn (αX + βY ) = αAvn X + βAvn Y. Em particular, se estamos interessados em um dado evento A e escolhemos X(ω) = IA (ω), uma função binária, então a média é conhecida como a frequência relativa de A. Definição 1.5.1: A frequência relativa de um evento A, determinada pelos resultados {ω1 , . . . , ωn } de n experimentos aleatórios, é 1∑ Nn (A) rn (A) = IA (ωi ) = . n i=1 n n Propriedades chaves da frequência relativa são: FR0. rn : A → IR. FR1. rn (A) ≥ 0. FR2. rn (Ω) = 1. FR3. Se A e B são disjuntos, então rn (A ∪ B) = rn (A) + rn (B). A1 , A2 , · · · An , · · · é uma sequência de eventos disjuntos dois a dois, então rn (∪∞ FR4. Se i=1 Ai ) = ∑∞ r (A ). i i=1 n Pode-se expressar Avn em termos de rn . Dada uma função X que assume valores no conjunto finito {x1 , x2 , . . . , xk }, considere os k eventos {Ai = {ω : X(ω) = xi }, i = 1, 2, . . . , k}. Podemos rearranjar os termos em Avn X e reescrevê-la da seguinte forma: Avn X = k ∑ xi rn (Ai ) = i=1 k ∑ xi rn (X = xi ). i=1 Em particular, se para cada i, temos convergência da sequência r1 (X = xi ), r2 (X = xi ), . . . , rn (X = xi ) para um limite pi , então também temos convergência da média Avn X, lim Avn X = n n ∑ xi pi . i=1 Este limite das médias, quando existe, serve como interpretação para o conceito essencial de esperança ou média de uma quantidade aleatória numérica X. Veremos mais sobre esperança neste curso. Nós prosseguiremos como se existisse alguma base empírica ou metafísica que garanta que rn (A) → P (A), embora que o sentido de convergência quando n cresce só será explicado pela Lei dos Grandes Números. Esta tendência da frequência relativa de estabilizar em um certo valor é conhecida como regularidade estatística. Deste modo, P herdará propriedades da frequência relativa rn . Autor: Leandro Chaves Rêgo 1.6. AXIOMAS DE KOLMOGOROV 1.6 13 Axiomas de Kolmogorov Primeiro por razões técnicas, fora do escopo deste curso, temos que o domínio da medida formal de probabilidade é uma álgebra de eventos que também é fechada com relação a um número enumerável de uniões. Definição 1.6.1: Uma σ-álgebra A é uma álgebra de eventos que também é fechada com relação a uma união enumerável de eventos, (∀i ∈ Z)Ai ∈ A ⇒ ∪i∈Z Ai ∈ A. Exemplo 1.6.2: A coleção de conjuntos de números reais finitos e co-finitos é uma álgebra que não é uma σ-álgebra. Exemplo 1.6.3: A σ-álgebra de Borel B de subconjuntos reais é, por definição, a menor σálgebra contendo todos os intervalos e é a σ-álgebra usual quando lidamos com quantidades reais ou vetoriais. Em particular, temos que uniões enumeráveis de intervalos (por exemplo, o conjunto dos números racionais), seus complementos (por exemplo, o conjunto dos números irracionais), e muito mais está em B. Os axiomas que descreveremos a seguir não descrevem um único modelo probabilístico, eles apenas determinam uma família de modelos probabilísticos, com os quais poderemos utilizar métodos matemáticos para descobrir propriedades que serão verdadeiras em qualquer modelo probabilístico. A escolha de um modelo específico satisfazendo os axiomas é feito pelo analista/estatístico familiar com o fenômeno aleatório sendo modelado. Motivados pelas propriedades de frequência relativa, impõe-se os primeiros quatro axiomas de Kolmogorov: K0. Inicial. O experimento aleatório é descrito pelo espaço de probabilidade (Ω, A, P ) que consiste do espaço amostral Ω, de uma σ-álgebra A, e de uma função de valores reais P : A → IR. K1. Não-negatividade. ∀A ∈ A, P (A) ≥ 0. K2. Normalização Unitária. P (Ω) = 1. K3. Aditividade Finita. Se A, B são disjuntos, então P (A ∪ B) = P (A) + P (B). É fácil provar (tente!) utilizando indução matemática que K3 é válida para qualquer coleção finita de eventos disjuntos par ∑ a par, ou seja, se Ai , i = 1, 2, . . . , n, são eventos disjuntos par a par, então P (∪ni=1 Ai ) = ni=1 P (Ai ). Um quinto axioma, embora não tenha significado em espaços amostrais finitos, foi proposto por Kolmogorov para garantir um certo grau de continuidade da medida de probabilidade. Autor: Leandro Chaves Rêgo 1.6. AXIOMAS DE KOLMOGOROV 14 K4. Continuidade Monotônica. Se para todo i > 0, Ai+1 ⊆ Ai e ∩i Ai = ∅, então lim P (Ai ) = 0.2 i→∞ Um forma equivalente de K4 é a seguinte: K4′ . σ-aditividade. Se {Ai } é uma coleção enumerável de eventos disjuntos dois a dois, então ∞ ∑ ∞ P (∪i=1 Ai ) = P (Ai ). i=1 Teorema 1.6.4: Se P satisfaz K0-K3, então P satisfaz K4′ se, e somente se, ela satisfaz K4. Prova: Primeiro, vamos provar que K0-K4 implicam o axioma da σ-aditividade K4′ . Seja {Ai } qualquer sequência enumerável de eventos disjuntos par a par, e defina para todo n Bn = ∪i>n Ai , n ∪∞ i=1 Ai = Bn ∪ (∪i=1 Ai ). Claramente, para todo i ≤ n, temos que Ai e Bn são disjuntos. Por K3, temos P (∪∞ i=1 Ai ) = P (Bn ) + n ∑ P (Ai ). i=1 Por definição de série numérica, lim n n ∑ i=1 P (Ai ) = ∞ ∑ P (Ai ). i=1 K4′ segue se conseguirmos mostrar que limn P (Bn ) = 0. Note que Bn+1 ⊆ Bn , e que ′ ∩∞ n=1 Bn = ∅. Então por K4, temos que o limite acima é zero e K4 é verdadeiro. ′ Agora, vamos provar que K0-K3, K4 implicam o axioma da continuidade monotônica K4. Seja {Bn } qualquer coleção enumerável de eventos satisfazendo as hipóteses do axioma K4: Bn+1 ⊆ Bn e ∩∞ n=1 Bn = ∅. Defina, An = Bn − Bn+1 e observe que {An } é uma coleção enumerável de eventos disjuntos par a par. Note que Bn = ∪j≥n Aj . K4 (ou equivalentemente K4′ ) é uma idealização que não é aceita por alguns tratamentos subjetivistas de probabilidade, em especial não é aceita por uma escola de estatísticos liderados por deFinetti (1972). Assumir apenas aditividade finita, embora pareça mais plausível, pode levar a complicações inesperadas em teoria estatística. Portanto, nós prosseguiremos sobre a suposição que o axioma da continuidade (K4) é válido. 2 Autor: Leandro Chaves Rêgo 1.6. AXIOMAS DE KOLMOGOROV 15 Então, por K4′ temos que P (Bn ) = P (∪j≥n Aj ) = ∑ P (Aj ). j≥n Como por K4′ , ∞ ∑ P (Aj ) = P (∪∞ j=1 Aj ) ≤ 1, j=1 temos que lim P (Bn ) = lim n n ∑ P (Aj ) = 0, j≥n logo K4 é verdadeiro. Definição 1.6.5: Uma função que satisfaz K0-K4 é chamada de uma medida de probabilidade. A terna (Ω, A, P ) é chamada de espaço de probabilidade. Intuitivamente quando se modela uma problema através de probabilidade, basicamente, o que se faz é especificar cada uma das componentes da terna acima. Eventos são os elementos de A, aos quais se pode atribuir probabilidade. Probabilidade é uma função cujo argumento é um conjunto. Portanto, não somente conjuntos, como também as operações sobre eles, têm uma importância fundamental em teoria da probabilidade. 1.6.1 Exemplos de Medidas de Probabilidade Exemplo 1.6.6: Se Ω for um conjunto finito, então temos que a probabilidade clássica que assume que todos os resultados são igualmente prováveis, é um exemplo de uma medida de probabilidade. Neste caso, temos que P (A) = ||A|| ||Ω|| definido para qualquer subconjunto A de Ω. O fato que 0 ≤ ||A|| ≤ ||Ω|| e que ||A ∪ B|| = ||A|| + ||B|| − ||A ∩ B||, permitem que verifiquemos que P satisfaz os axiomas de Kolmogorov. Exemplo 1.6.7: , ωn } um conjunto finito, e seja P ({ωi }) = pi , onde ∑n Se Ω = {ω1 , ω2 , . . . ∑ pi ≥ 0, i ≥ 1 e i=1 pi = 1, e P (A) = ωi ∈A P ({ωi }). Neste caso, também é fácil verificar que P é uma medida de probabilidade verificando os axiomas. Exemplo 1.6.8: Seja Ω = [0, 1] e B0 a σ-álgebra de Borel restrita a eventos contidos em [0, 1]. Pode-se provar que existe uma medida de probabilidade µ em (Ω, B0 ) tal que para todo intervalo I em [0, 1] µ(I) é igual ao comprimento de I. Esta medida de probabilidade µ é conhecida como medida de Lebesgue. Autor: Leandro Chaves Rêgo 1.6. AXIOMAS DE KOLMOGOROV 1.6.2 16 Propriedades de uma Medida de Probabilidade Teorema 1.6.9: Se P é uma medida de probabilidade, então 1. P (Ac ) = 1 − P (A). 2. P (∅) = 0. 3. P (A) ≤ 1. Prova: Parte 1, segue do fato que Ω = A ∪ Ac , K2, e K3, pois 1 = P (Ω) = P (A) + P (Ac ). Parte 2, segue da Parte 1, do fato que Ωc = ∅, e K2, K3, pois P (∅) = 1 − P (Ω) = 0. Parte 3, segue do fato que 1 = P (Ω) = P (A) + P (Ac ) ≥ P (A), já que P (Ac ) ≥ 0 por K1. Teorema 1.6.10: Monotonicidade. Se A ⊆ B, então P (A) ≤ P (B). Prova: Note que B = A ∪ (B − A), onde A e B − A são disjuntos. Então K3 implica que P (B) = P (A) + P (B − A). O resultado segue do fato que P (B − A) ≥ 0. Corolário 1.6.11: P (A ∪ B) ≥ max(P (A), P (B)) ≥ min(P (A), P (B)) ≥ P (A ∩ B). Teorema 1.6.12: Uma expressão exata para a probabilidade de uma união não-disjunta é dada por P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Prova: Como A ∪ B = A ∪ (B − A), e A e B − A são disjuntos, K3 implica que P (A ∪ B) = P (A) + P (B − A). E como B = (A ∩ B) ∪ (B − A), A ∩ B e B − A são disjuntos, K3 implica que P (B) = P (A ∩ B) + P (B − A). Logo, P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Teorema 1.6.13: Probabilidade de Partições. Se {Ai } é uma partição enumerável de Ω feita de conjuntos em A, então para todo B ∈ A ∑ P (B) = P (B ∩ Ai ). i Autor: Leandro Chaves Rêgo 1.6. AXIOMAS DE KOLMOGOROV 17 Prova: Como {Ai } é uma partição, segue que B = B ∩ Ω = B ∩ (∪i Ai ) = ∪i (B ∩ Ai ). O resultado segue então por K4′ . Teorema 1.6.14: Desigualdade de Boole. Para n eventos arbitrários {A1 , . . . , An }, a desigualdade de Boole é n ∑ n P (Ai ). P (∪i=1 Ai ) ≤ i=1 Prova: Provaremos por indução matemática em n. A desigualdade é trivialmente verdadeira para n = 1 e verdadeira para n = 2, pois é uma consequência imediata do Teorema 1.6.12. Assuma que a desigualdade é válida para n = k e vamos provar que ela é válida para n = k+1. k Para ver isto, escrevemos ∪k+1 i=1 Ai = Ak+1 ∪ ∪i=1 Ai . Pela desigualdade para n = 2, k P (∪k+1 i=1 Ai ) ≤ P (Ak+1 ) + P (∪i=1 Ai ). Pela hipótese do passo indutivo, para n = k, P (∪ki=1 Ai ) ≤ k ∑ P (Ai ), i=1 portanto, a desigualdade de Boole é verdadeira. Corolário 1.6.15: Para n eventos arbitrários {A1 , . . . , An }, P (∩Ai ) ≥ n ∑ P (Ai ) − (n − 1). i=1 Prova: Utilizando a Lei de De Morgan e a desigualdade de Boole para os eventos {Ac1 , . . . , Acn }, temos n n ∑ ∑ n c c P (∪i=1 Ai ) = 1 − P (∩Ai ) ≤ P (Ai ) = (1 − P (Ai )). i=1 Logo, P (∩Ai ) ≥ n ∑ i=1 P (Ai ) − (n − 1). i=1 O próximo teorema permite que possamos calcular de maneira exata a probabilidade P (∪ni=1 Ai ) para n eventos arbitrários. Autor: Leandro Chaves Rêgo 1.6. AXIOMAS DE KOLMOGOROV 18 Teorema 1.6.16 : Princípio da Inclusão-Exclusão. Seja I um conjunto genérico de índices que é um subconjunto não-vazio qualquer de {1, 2, . . . , n}. Para eventos arbitrários {A1 , . . . , An }, ∑ P (∪ni=1 Ai ) = (−1)||I||+1 P (∩i∈I Ai ), ∅̸=I⊆{1,...,n} onde o somatório é sobre todos os 2 − 1 conjuntos de índices excluindo apenas o conjunto vazio. n No caso particular de n = 3, o princípio de inclusão-exclusão afirma que P (A1 ∪A2 ∪A3 ) = P (A1 )+P (A2 )+P (A3 )−P (A1 ∩A2 )−P (A1 ∩A3 )−P (A2 ∩A3 )+P (A1 ∩A2 ∩A3 ). Prova: A prova é por indução matemática em n. O resultado é trivialmente verdadeiro para n = 1 e já foi provado para n = 2 no Teorema1.6.12. Assuma que o resultado vale para n = k e vamos provar que ele é verdadeiro para n = k + 1. Como na prova da desigualdade k de Boole, ∪k+1 i=1 Ai = Ak+1 ∪ ∪i=1 Ai . Usando o resultado para n = 2, temos k k P (∪k+1 i=1 Ai ) = P (Ak+1 ) + P (∪i=1 Ai ) − P (Ak+1 ∩ ∪i=1 A1 ). Reescrevendo o último termo como P (∪ki=1 (Ak+1 ∩ Ai )), nos dá uma expressão que contém uma união de exatamente k conjuntos. Então, usando a hipótese do passo indutivo para os dois últimos termos ∑ ∑ ||I||+1 P (∪k+1 A ) = P (A )+ (−1) P (∩ A )− (−1)||I||+1 P (∩i∈I (Ak+1 ∩Ai )). k+1 i∈I i i=1 i ∅̸=I⊆{1,...,k} ∅̸=I⊆{1,...,k} O resultado segue ao rearranjarmos os termos destes somatórios. Exemplo 1.6.17: Professor Leônidas está tentando calcular a probabilidade p = P (A) do evento A, e determinou que ela é uma raiz do seguinte polinômio de grau cinco: √ √ (p − 3)(p − 3 −1)(p + 3 −1)(p + 0.3)(p − 0.3) = 0. Baseado nesta fato, qual é o valor de p? Exemplo 1.6.18: Se Ω = {a, b, c}, e a álgebra A é o conjunto das partes de Ω, e a medida de probabilidade P é parcialmente definida por P ({a, b}) = 0.5, P ({b, c}) = 0.8, P ({a, c}) = 0.7, então complete a especificação de P para todos os eventos em A. Exemplo 1.6.19: Se {Ai } for uma partição enumerável de Ω e P (Ai ) = abi , i ≥ 1, então quais as condições que a e b devem satisfazer para que P seja uma medida de probabilidade? Autor: Leandro Chaves Rêgo 1.6. AXIOMAS DE KOLMOGOROV 19 Exemplo 1.6.20: Em um grupo de r pessoas qual a probabilidade de haver pelo menos duas pessoas que façam aniversário no mesmo dia, assumindo que a distribuição de aniversários é uniforme ao longo do ano e desprezando a existência de anos bissextos? Solução: Para determinar esta probabilidade, vamos utilizar a probabilidade clássica. O número de resultados possíveis para os aniversários de r pessoas é 365r . O número de casos possíveis onde todas as pessoas fazem aniversário em dias diferentes é dado por 365 × 364 × · · · × (365 − (r − 1)). Portanto, o número de casos possíveis onde pelo menos duas pessoas fazem aniversário no mesmo dia é a diferença entre o número total de aniversários possíveis e o número de casos onde as pessoas têm aniversários em datas diferentes, ou seja, é igual a 365r − 365 × 364 × · · · × (365 − (r − 1)). Logo, a probabilidade deste evento é: 1− 365 × 364 × · · · × (365 − (r − 1)) . 365r Para r = 23, temos que essa probabilidade é aproximadamente igual a 0, 51. E para r = 50, essa probabilidade é igual a 0, 97. Exemplo 1.6.21: Em uma loteria de N números há um só prêmio. Salvador compra n (1 < n < N ) bilhetes para uma só extração e Sílvio compra n bilhetes, um para cada uma de n extrações. Qual dos dois jogadores têm mais chances de ganhar algum prêmio? Solução: A probabilidade de Salvador ganhar algum prêmio é Nn . O número total de n extrações possíveis é N n . O número de casos onde Sílvio não ganha nenhum prêmio é (N − 1)n , logo o número de casos onde Sílvio ganha algum prêmio é igual a N n − (N − 1)n . n . Logo, a probabilidade de Sílvio ganhar algum prêmio é 1 − (NN−1) n Vamos provar por indução que Salvador tem mais chance de ganhar, ou seja, Nn > 1 − (N −1)n , que equivale a Nn (N − 1)n n >1− . n N N Para n = 2, temos: (N − 1)2 2 1 2 =1− + 2 >1− . 2 N N N N Suponha que para n = k, temos que k (N − 1)k >1− . k N N Multiplicando esta expressão por N −1 , N obtemos: (N − 1)k+1 N −1 k 1 k k k+1 >( )(1 − ) = 1 − − + 2 >1− . k+1 N N N N N N N Exemplo 1.6.22: Doze pessoas são divididas em três grupos de 4. Qual é a probabilidade de duas determinadas dessas pessoas ficarem no mesmo grupo? Autor: Leandro Chaves Rêgo 1.6. AXIOMAS DE KOLMOGOROV 20 Solução: O número total de divisões de doze pessoas em 3 grupos de 4 é igual a (12)( )( ) 8 4 . Vamos agora contar o número de casos favoráveis ao nosso evento. Existem 4 4 4 3 opções de escolhermos em qual grupo as duas pessoas determinadas podem ficar. Das 10 pessoas restantes, temos que escolher mais (duas ( ) )( )para estarem neste grupo, o que podemos 8 4 fazer de 10 maneiras diferentes. E temos maneiras diferentes de dividir as outras 8 2 4 4 pessoas nos dois grupos restantes. Portanto, a probabilidade de duas determinadas pessoas ficarem no mesmo grupo é: ( )(8)(4) 3 10 3 (122)(84)(44) = . 11 4 4 4 Exemplo 1.6.23 : Suponha que temos em uma sala n mães cada uma com um filho. Suponha formemos duplas aleatoriamente, onde cada dupla contém uma mãe e um filho, qual a probabilidade de que pelo menos uma mãe forme uma dupla com seu próprio filho? Solução: Seja Ai o evento que a i-ésima mãe forma dupla com seu filho. Queremos determinar P (∪ni=1 Ai ). Vamos calcular esta probabilidade utilizando a fórmula da inclusão exclusão. Note que: (n − 1)! 1 = para todo i ∈ {1, 2, . . . , n} n! n (n − 2)! 1 P (Ai ∩ Aj ) = = para i ̸= j n! n(n − 1) P (Ai ) = e em geral, para um grupo I ∈ {1, 2, . . . , n} de mães temos que P (∩i∈I Ai ) = Como existem ( ) n ||I|| (n − ||I||)! . n! grupos de mães com cardinalidade ||I||, temos que P (∪ni=1 Ai ) = n ∑ i=1 = n ∑ i=1 (−1)i+1 i+1 (−1) ( ) n (n − i)! i n! 1 i! Note que quando n → ∞, temos que esta probabilidade tende a 1 − 1e . Exemplo 1.6.24: Demonstre que se P (Ai ) = 1 para i = 1, 2, . . ., então P (∩∞ i=1 Ai ) = 1. c ) = 1−P (A ) = 0. Logo, pela desigualdade Solução: Como P (Ai ) = 1, temos que P (A i i ∑∞ c ∞ c c ∞ de Boole, temos P (∪i=1 Ai ) ≤ i=1 P (Ai ) = 0. Logo, P (∪i=1 Ai ) = 0. Portanto, como pela c ∞ ∞ c c ∞ Lei de De’Morgan, ∩∞ i=1 Ai = (∪i=1 Ai ) , temos que P (∩i=1 Ai ) = 1 − P (∪i=1 Ai ) = 1. Exemplo 1.6.25: Demonstre: se A1 , A2 , . . . e B1 , B2 , . . . são eventos aleatórios do mesmo espaço de probabilidade tais que P (An ) → 1 e P (Bn ) → p, então P (An ∩ Bn ) → p. Autor: Leandro Chaves Rêgo 1.6. AXIOMAS DE KOLMOGOROV 21 Solução: Note que P (An ∩ Bn ) = 1 − P ((An ∩ Bn )c ) = 1 − P (Acn ∪ Bnc ) ≥ 1 − P (Acn ) − P (Bnc ) = P (An ) + P (Bn ) − 1. (1.1) Como P (Bn ) ≤ P (An ∩ Bn ) ≤ P (An ) + P (Bn ) − 1, P (An ) + P (Bn ) − 1 → p e P (Bn ) → p, pelo teorema do confronto (ou sanduíche), temos que P (An ∩ Bn ) → p. Autor: Leandro Chaves Rêgo Capítulo 2 Probabilidade Condicional 2.1 Probabilidade Condicional Como vimos no capítulo anterior, existem várias possíveis interpretações de probabilidade. Por exemplo, pode-se interpretar probabilidade de um evento A como um limite das freqüências relativas de ocorrência do evento A em realizações independentes de um experimento. Por outro lado, a interpretação subjetiva de probabilidade associa a probabilidade de um evento A com o grau de crença pessoal que o evento A ocorrerá. Em ambos os casos, probabilidade é baseada em informação e conhecimento. Revisão desta base de informação ou conhecimento pode levar a revisão do valor da probabilidade. Em particular, conhecimento que determinado evento ocorreu pode influenciar na probabilidade dos demais eventos. Considerando-se a interpretação freqüentista de probabilidade, suponha que estejamos interessados em saber qual a probabilidade de um dado evento A, visto que sabe-se que um dado evento B ocorreu. Suponha que realizasse um experimento n vezes das quais o evento A (resp., B e A ∩ B) ocorre NA (resp., NB > 0 e NA∩B ) vezes. Seja rA = NA /n a freqüência relativa do evento A nestas n realizações do experimento. A probabilidade condicional de A dado que sabe-se que B ocorreu segundo esta interpretação freqüentista, sugere que ela deve ser igual ao limite das freqüências relativas condicionais do evento A dado o evento B, isto é, ela deve ser o limite da razão NA∩B /NB quando n tende ao infinito. É fácil provar que esta razão é igual a rA∩B /rB , que por sua vez segundo a interpretação freqüentista de probabilidade é aproximadamente igual a P (A ∩ B)/P (B) para valores grandes de n. Considerando-se uma interpretação mais subjetiva suponha que a incerteza de um agente é descrita por uma probabilidade P em (Ω, A) e que o agente observa ou fica sabendo que o evento B ocorreu. Como o agente deve atualizar sua probabilidade P (·|B) de modo a incorporar esta nova informação? Claramente, se o agente acredita que B é verdadeiro, então parece razoável requerer que P (B c |B) = 0 (2.1) Em relação aos eventos contidos em B, é razoável assumir que sua chance relativa permaneça inalterada se tudo que o agente descobriu foi que o evento B ocorreu, ou seja, se 22 2.1. PROBABILIDADE CONDICIONAL 23 A1 , A2 ⊆ B com P (A2 ) > 0, então P (A1 ) P (A1 |B) = P (A2 ) P (A2 |B) (2.2) Segue que (2.1) e (2.2) determinam completamente P (·|B) se P (B) > 0. Teorema 2.1.1: Se P (B > 0) e P (·|B) é uma medida de probabilidade em Ω que satisfaz (2.1) e (2.2), então P (A ∩ B) P (A|B) = . P (B) Prova: Como P (·|B) é uma medida de probabilidade e satisfaz P (B c |B) = 0, nós temos que P (B|B) = 1 − P (B c |B) = 1. Considerando A1 = A e A2 = B em (2.2), temos (A) então P (A|B) = PP (B) para A ⊆ B. Se A não é um subconjunto de B, temos que A = c (A ∩ B) ∪ (A ∩ B ). Como (A ∩ B) e (A ∩ B c ) são eventos disjuntos, temos P (A|B) = P (A ∩ B|B) + P (A ∩ B c |B). Como A ∩ B c ⊆ B c e P (B c |B) = 0, temos que P (A ∩ B c |B) = 0. Como A ∩ B ⊆ B, usando o caso anterior P (A ∩ B) P (A|B) = P (A ∩ B|B) = . P (B) Deste modo as interpretações freqüentista e subjetivista de probabilidade justificam a seguinte definição. Definição 2.1.2: Seja (Ω, A, P ) um espaço de probabilidade. Se A, B ∈ A e P (B) > 0 a probabilidade condicional de A dado B é definida por P (A|B) = P (A ∩ B) P (B) Vamos provar que para um evento fixo B que satisfaz P (B) > 0, P (·|B) satisfaz os axiomas K1-K4 acima e realmente é uma medida de probabilidade. Para provar K1, note que para todo A ∈ A, como P (A ∩ B) ≥ 0, nós temos P (A ∩ B) ≥ 0. P (B) Para provar K2, note que Ω ∩ B = B, então P (Ω ∩ B) P (B) P (Ω|B) = = = 1. P (B) P (B) P (A|B) = Finalmente, para provar K4′ (que implica K3), note que se A1 , A2 , . . . são mutuamente exclusivos A1 ∩ B, A2 ∩ B, . . . também o são, então P (∪i (Ai ∩ B)) P ((∪i Ai ) ∩ B) = P (∪i Ai |B) = P (B) P (B) ∑ ∑ P (Ai ∩ B) = i = P (Ai |B). P (B) i A probabilidade condicional também satisfaz as seguintes propriedades: Autor: Leandro Chaves Rêgo 2.1. PROBABILIDADE CONDICIONAL 24 1. P (B|B) = 1; 2. P (A|B) = P (A ∩ B|B); 3. se A ⊇ B, então P (A|B) = 1; 4. P (A ∩ B|C) = P (A|B ∩ C)P (B|C). Fazendo C = Ω na propriedade 4 acima, temos que: P (A ∩ B) = P (A|B)P (B). Utilizando indução matemática, pode-se facilmente provar que P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 )P (A2 |A1 ) . . . P (An |A1 ∩ . . . ∩ An−1 ). Um método de se obter uma probabilidade (incondicional) de uma probabilidade condicional é utilizando o Teorema da Probabilidade Total. Antes de enunciar este teorema precisamos relembrar o que é uma partição do espaço amostral. Uma seqüência de eventos A1 , A2 , A3 , . . . é uma partição do espaço amostral Ω se estes eventos são mutuamente exclusivos e contém todos os elementos de Ω (∪i Ai = Ω). Teorema 2.1.3: todo A ∈ A Seja a seqüência de eventos B1 , B2 , . . . uma partição de Ω, então para ∑ P (A|Bi )P (Bi ) P (A) = i:P (Bi )̸=0 Prova: Como B1 , B2 , . . . é uma partição de Ω, temos que A = A ∩ Ω = A ∩ (∪i Bi ) = ∪i (A ∩ Bi ). Como os eventos Bi ’s são mutuamente exclusivos, os eventos (A ∩ Bi )’s também são mutuamente exclusivos. Então axioma K3 implica que P (A) = P (∪i (A ∩ Bi )) = = ∑ i:P (Bi )̸=0 ∑ P (A ∩ Bi ) i P (A ∩ Bi ) = ∑ P (A|Bi )P (Bi ). i:P (Bi )̸=0 Se nós interpretarmos a partição B1 , B2 , . . . como possíveis causas e o evento A corresponda a um efeito particular associado a uma causa, P (A|Bi ) especifica a relação estocástica entre a causa Bi e o efeito A. Por exemplo, seja {D, Dc } uma partição do espaço amostral, onde o evento D significa que um dado indivíduo possui uma certa doença. Seja A o evento que determinado teste para Autor: Leandro Chaves Rêgo 2.1. PROBABILIDADE CONDICIONAL 25 o diagnóstico da doença deu positivo. Então, P (A|Dc ) descreve a probabilidade do exame dá positivo mesmo que o paciente esteja saudável, é a chamada probabilidade de falso positivo. P (Ac |D) é a probabilidade do exame dá negativo mesmo que o paciente esteja doente, é a chamada probabilidade de falso negativo. Estas probabilidades determinam a qualidade do teste, quanto menores as probabilidades de falso negativo e falso positivo melhor a qualidade do teste. Caso as probabilidades P (D), P (A|D), P (A|Dc ) sejam conhecidas pode-se usando o Teorema da Probabilidade Total obter a probabilidade incondicional de determinado exame dar positivo P (A). Porém geralmente, o que se busca é saber que dado que o resultado de um exame deu positivo qual a probabilidade de que o indivíduo esteja doente. Pode-se obter esta probabilidade utilizando a famosa fórmula de Bayes: P (D|A) = P (A ∩ D) P (A|D)P (D) = . c P (A ∩ D) + P (A ∩ D ) P (A|D)P (D) + P (A|Dc )P (Dc ) Para outro exemplo, suponha que os eventos B1 , B2 , . . . formam uma partição do espaço amostral, e os eventos Bi ťs descrevem diferentes mensagens emitidas em um sistema de comunicações e A descreve uma mensagem recebida pelo sistema. P (A|Bi ) determina a probabilidade que a mensagem Bi seja emitida e a mensagem A seja recebida por este sistema. Essas probabilidades condicionais especificam o modelo do canal de comunicações. Caso, as probabilidades P (Bi )’s de cada mensagem ser enviada e as probabilidades condicionais que descrevem o canal de comunicação sejam conhecidas pode-se usando o Teorema da Probabilidade Total obter a probabilidade incondicional que determinada mensagem A seja recebida. Porém geralmente, o que se busca é saber que dado uma certa mensagem foi recebida (efeito) A qual a probabilidade de cada uma das mensagens Bi terem sido as mensagens enviadas. Podem-se obter estas probabilidades utilizando a forma geral da famosa fórmula de Bayes: P (A ∩ Bi ) P (A ∩ Bi ) P (Bi |A) = ∑ =∑ j P (A ∩ Bj ) j:P (Bj )̸=0 P (A ∩ Bj ) =∑ P (A|Bi )P (Bi ) . j:P (Bj )̸=0 P (A|Bj )P (Bj ) É fácil de provar esta fórmula usando o Teorema da Probabilidade Total. As probabilidades P (Bi ) são usualmente chamadas de probabilidades a priori e as probabilidades condicionais P (Bi |A) são chamadas de probabilidades a posteriori. O seguinte exemplo ilustra uma aplicação da fórmula de Bayes. Exemplo 2.1.4: Considere uma imagem formada por n × m pixels com a k-ésima linha contendo dk (≤ m) pixels defeituosos. No primeiro estágio do experimento uma linha é escolhida ao acaso e nós não sabemos qual foi a escolha. Nós então examinamos um pixel selecionada ao acaso nesta linha e descobrimos que o pixel é defectivo (chamamos este evento de D). Qual a probabilidade de que este pixel defeituoso esteja na linha k? Seja R = k o evento que este pixel pertencia a k-ésima linha da imagem. A fórmula de Bayes nos permite determinar que dado que dk 1 e P (D|R = k) = , P (R = k) = n m Autor: Leandro Chaves Rêgo 2.1. PROBABILIDADE CONDICIONAL 26 nós temos que P (R = k|D) = 1 dk nm ∑n 1 d i i=1 n m dk = ∑n i=1 di . Então, mesmo que a linha tenha inicialmente sido escolhida ao acaso, dado o evento que encontramos ao acaso um pixel defectivo nesta linha, agora é mais provável que seja uma linha contendo um número grande de pixels defectivos dk . Exemplo 2.1.5: Uma urna contém 4 bolas brancas e 6 bolas pretas. Sacam-se, sucessivamente e sem reposição, duas bolas dessa urna. Determine a probabilidade da primeira bola ser branca sabendo que a segunda bola é branca. Solução: Sejam B1 e B2 os eventos a primeira bola é branca e a segunda bola é branca, respectivamente. Queremos calcular P (B1 |B2 ). Utilizando a fórmula de Bayes, temos P (B1 |B2 ) = P (B2 |B1 )P (B1 ) . P (B2 |B1 )P (B1 ) + P (B2 |B1c )P (B1c ) Mas P (B2 |B1 ) = 39 , P (B2 |B1c ) = 94 , P (B1 ) = P (B1 |B2 ) = 3 9 · 3 9 4 10 4 10 e P (B1c ) = 4 · 10 + 49 · 6 10 = 2 15 2 5 6 . 10 Logo, 1 = . 3 Exemplo 2.1.6: Se P (C|D) = 0, 4 e P (D|C) = 0, 5, que evento é mais provável C ou D? Solução: Exemplo 2.1.7: Se P (E) = 0, 4 e P (F ) = 0, 7, o que pode-se concluir sobre P (E|F )? Solução: Por definição, temos que: P (E|F ) = P (E ∩ F ) . P (F ) Porém, sabemos que max(P (E) + P (F ) − 1, 0) ≤ P (E ∩ F ) ≤ min(P (E), P (F )). Logo, 0, 1 ≤ P (E ∩ F ) ≤ 0, 4, portanto 0, 1 0, 4 ≤ P (E|F ) ≤ . 0, 7 0, 7 Exemplo 2.1.8: (Paradoxo de Monty Hall) Monty Hall foi um popular apresentador de programa de jogos em TV cujo jogo começava mostrando ao participante 3 portas fechadas d1 , d2 , d3 , e atrás de apenas uma delas havia um prêmio valioso. O participante selecionava uma porta, por exemplo, d1 , mas antes que a porta fosse aberta, Monty Hall, que sabia em que porta estava o prêmio, por exemplo, d2 , abria a porta restante d3 , que não continha o prêmio. O participante tinha então permissão para ficar com sua porta original, d1 , ou escolher a outra porta fechada. A pergunta é se é melhor ficar com a porta original ou trocar de porta. Vamos agora utilizar a fórmula de Bayes para analisar este problema. Seja G uma porta escolhida aleatoriamente para conter o prêmio; Y a porta que o participante escolhe primeiro; e M a porta que Monty Hall abre. O participante não tem nenhum conhecimento Autor: Leandro Chaves Rêgo 2.1. PROBABILIDADE CONDICIONAL 27 a priori sobre a localização do prêmio, ou seja ele considera todas as portas equiprováveis, e isto pode ser modelado por: 1 P (G = di |Y = dj ) = ; 3 todas as portas tem a mesma probabilidade de conter o prêmio não importa qual porta o participante escolhe. Se o participante escolher uma porta que não contém o prêmio, Monty Hall necessariamente terá de abrir a porta que não contém o prêmio, isto pode ser modelado por: P (M = di1 |Y = di2 , G = di3 ) = 1, onde i1 , i2 , i3 ∈ {1, 2, 3} e são distintos. Se o participante escolher corretamente, por exemplo, Y = G = di2 , então assumimos que Monty Hall escolhe aleatoriamente entre as outras duas outras portas: 1 P (M = di1 |Y = G = di2 ) = , para di1 ̸= di2 .1 2 Para determinar se o participante deve trocar de porta, devemos calcular P (G = d1 , Y = d2 , M = d3 ) P (G = d1 |Y = d2 , M = d3 ) = P (Y = d2 , M = d3 ) P (M = d3 |G = d1 , Y = d2 )P (G = d1 |Y = d2 )P (Y = d2 ) = P (M = d3 |Y = d2 )P (Y = d2 ) P (M = d3 |G = d1 , Y = d2 )P (G = d1 |Y = d2 ) = P (M = d3 |Y = d2 ) 1/3 = P (M = d3 |Y = d2 ) Para determinar o valor de P (M = d3 |Y = d2 ) utilizamos o Teorema da Probabilidade Total e a definição de probabilidade condicional: P (Y = d2 , M = d3 ) P (M = d3 |Y = d2 ) = P (Y = d2 ) P (Y = d2 , M = d3 , G = d1 ) + P (Y = d2 , M = d3 , G = d2 ) + P (Y = d2 , M = d3 , G = d3 ) = P (Y = d2 ) P (M = d3 |Y = d2 , G = d1 )P (G = d1 |Y = d2 )P (Y = d2 ) = P (Y = d2 ) P (M = d3 |Y = d2 , G = d2 )P (G = d2 |Y = d2 )P (Y = d2 ) + P (Y = d2 ) P (M = d3 |Y = d2 , G = d3 )P (G = d3 |Y = d2 )P (Y = d2 ) + P (Y = d2 ) = P (M = d3 |Y = d2 , G = d1 )P (G = d1 |Y = d2 ) +P (M = d3 |Y = d2 , G = d2 )P (G = d2 |Y = d2 ) +P (M = d3 |Y = d2 , G = d3 )P (G = d3 |Y = d2 ) 1 1 1 1 =1· + · +0= . 3 2 3 2 1 A solução depende como resolvemos este caso. Autor: Leandro Chaves Rêgo 2.1. PROBABILIDADE CONDICIONAL 28 Logo, P (G = d1 |Y = d2 , M = d3 ) = 23 , e o participante deve trocar de porta de sua escolha original d2 para d1 ! Exemplo 2.1.9: Seja D o evento que um indivíduo selecionado ao acaso de uma população tem uma doença particular, Dc seu complemento. A probabilidade que um indivíduo selecionado ao acaso nesta população tenha determinada dença é pd . Existe um teste para diagnóstico desta doença que sempre acusa presença da doença quando o indivíduo tem a doença. Contudo, quando o indivíduo não tem a doença, o teste reporta falsamente que o indivíduo tem a doença com probabilidade pt . Seja T P o evento que o teste reporta positivamente que o indivíduo tem a doença. Formalmente, temos: P (D) = pd , P (T P |D) = 1, P (T P |Dc ) = pt . Um indivíduo deve estar interessado em saber a probabilidade P (D|T P ) que ele tenha a doença dado que o teste deu positivo. Se, por exemplo, a doença for rara e pd = 0, 001, e o teste reportar falsamente com probabilidade pequena pt = 0, 05, veremos que apesar desta pequena probabilidade do teste da um resultado errado, a probabilidade do indivíduo ter a doença é pequena. Pela fórmula de Bayes P (D|T P ) = P (T P |D)P (D) pd = = 0, 02. c c P (T P |D)P (D) + P (T P |D )P (D ) pd + pt (1 − pd ) Embora probabilidade condicional seja bastante útil, ela sofre de alguns problemas, em particular quando se quer tratar de eventos de probabilidade zero. Tradicionalmente, se P (B) = 0, então P (A|B) não é definida. Isto leva a um número de dificuldades filosóficas em relação a eventos com probabilidade zero. São eles realmente impossíveis? Caso contrário, quão improvável um evento precisa ser antes de ele ser atribuído probabilidade zero? Deve um evento em algum caso ser atribuído probabilidade zero? Se existem eventos com probabilidade zero que não são realmente impossíveis, então o que significa condicionar em eventos de probabilidade zero? Por exemplo, considere o espaço de probabilidade ([0, 1], B, µ) onde B é a σ-álgebra de Borel restrita a eventos contidos em [0, 1] e µ é uma medida de probabilidade na qual todo intervalo em [0, 1] possui probabilidade igual ao seu comprimento. Seja B = {1/4, 3/4} e A = {1/4}. Como µ(B) = 0, µ(A|B) não é definida. Porém parece razoável assumir que neste caso µ(A|B) = 1/2 já que µ intuitivamente implica que todos os estados são equiprováveis, mas a definição formal de probabilidade condicional não nos permite obter esta conclusão. Uma maneira de contornar alguns destes problemas é utilizar probabilidades não-padrão, que envolve conceitos de análise matemática não-padrão, que utiliza noções de infinitesimais. Outro modo é considerar probabilidades condicionais (e não incondicionais) como a noção fundamental. Uma medida de probabilidade condicional tem pares de eventos A, B como argumentos. Formalmente, a medida de probabilidade condicional é definida em uma álgebra de Popper. Definição 2.1.10: Uma álgebra de Popper sobre Ω é um conjunto A × A′ de subconjuntos de Ω × Ω′ tal que (a) A é uma álgebra sobre Ω, (b) A′ é um subconjunto não-vazio de A, e (c) A′ é fechado em relação a superconjuntos em A, ou seja, se B ∈ A′ , B ⊆ B ′ , B ′ ∈ A, então B ′ ∈ A′ . Autor: Leandro Chaves Rêgo 2.2. INDEPENDÊNCIA 29 Pode-se então definir uma medida de probabilidade condicional da seguinte maneira: Definição 2.1.11: Uma espaço de probabilidade condicional é uma tupla (Ω, A, A′ , µ) tal que A × A′ é uma álgebra de Popper sobre Ω e µ : A × A′ → [0, 1] satisfaz as seguintes condições: CP1. µ(A|A) = 1 se A ∈ A′ . CP2. µ(A1 ∪ A2 |B) = µ(A1 |B) + µ(A2 |B) se A1 ∩ A2 = ∅, A1 , A2 ∈ A e B ∈ A′ . CP3. µ(A1 ∩ A2 |A3 ) = µ(A1 |A2 ∩ A3 ) × µ(A2 |A3 ) se A2 ∩ A3 ∈ A′ e A1 ∈ A. 2.2 Independência O que exatamente significa que dois eventos são independentes? Intuitivamente, isto significa que eles não têm nada haver um com o outro, eles são totalmente não relacionados; a ocorrência de um não tem nenhuma influência sobre o outro. Por exemplo, suponha que duas diferentes moedas são lançadas. A maioria das pessoas viria os resultados desses lançamentos como independentes. Portanto, a intuição por trás da frase “o evento A é independente do evento B” é que nosso conhecimento sobre a tendência para A ocorrer dado que sabemos que B ocorreu não é alterada quando ficamos sabendo que B ocorreu. Então, usando probabilidades condicionais podemos formalizar esta intuição da seguinte forma, A é independente de B se P (A|B) = P (A). Mas usando a definição de probabilidade condicional, chega-se a seguinte conclusão A é independente de B se P (A ∩ B) = P (A)P (B). Como esta última expressão é definida inclusive para o caso de P (B) = 0, ela é a expressão adotada como a definição de independência entre eventos. Definição 2.2.1: O evento A é independente do evento B se P (A ∩ B) = P (A)P (B). Note que esta definição de independência implica que independência é um conceito simétrico em teoria da probabilidade, isto é, A é independente de B se e somente se B é independente de A. Note que esta definição também implica que eventos A e B são independentes se P (A) = 0 ou P (B) = 0, o que pode gerar algumas conclusões não intuitivas se de fato P (A) = 0 ou P (B) = 0. Por exemplo, se P (A) = 0, então A é independente dele mesmo, porém A certamente não é não relacionado consigo mesmo. Similarmente, é fácil provar que se P (A) = 1, A é independente dele mesmo. O seguinte teorema prova que estes são os únicos casos em que um evento é independente dele mesmo. Teorema 2.2.2: A é independente dele mesmo se e somente se P (A) = 0 ou P (A) = 1. Prova: P (A ∩ A) = P (A) = P (A)P (A) ⇔ P (A) = 0 ou P (A) = 1. Intuitivamente, se A é independente de B o fato que B não ocorreu, ou seja que B c ocorreu, não deve alterar a probabilidade de A. Portanto, é de se esperar que se A e B são independentes, então A e B c também são. O seguinte teorema prova que esta intuição é verdadeira. Autor: Leandro Chaves Rêgo 2.2. INDEPENDÊNCIA Teorema 2.2.3: também o são. 30 Se A e B são eventos independentes, A e B c (resp., Ac e B, Ac e B c ) Prova: Note que A = A ∩ Ω = A ∩ (B ∪ B c ) = (A ∩ B) ∪ (A ∩ B c ). Então, como A ∩ B e A ∩ B c são mutuamente exclusivos, axioma K3 implica que P (A) = P (A ∩ B) + P (A ∩ B c ). Como A e B são independentes, nós temos P (A) = P (A)P (B) + P (A ∩ B c ). Rearrajando os termos e utilizando o fato que P (B c ) = 1 − P (B), temos P (A ∩ B c ) = P (A)P (B c ), como queríamos demonstrar. O conceito de independência também se aplica a uma coleção arbitrária de eventos {Ai }i∈I , onde I é um conjunto de índices. Neste caso, têm-se duas definições. Definição 2.2.4: Uma coleção de eventos {Ai }i∈I é independente par a par se para todo i ̸= j ∈ I, Ai e Aj são eventos independentes. Definição 2.2.5: Uma seqüência finita de eventos A1 , A2 , . . . , An , n ≥ 1, é mutuamente independente se para todo I ⊆ {1, . . . , n}, ∏ P (∩i∈I Ai ) = P (Ai ) i∈I E uma coleção de eventos {Ai }i∈I é mutuamente independente se para todo J ⊆ I finito, {Ai }i∈J é mutuamente independente. Considere os seguintes exemplos que ilustram o conceito de independência. Exemplo 2.2.6: Se Ω = {1, 2, 3, 4} e P ({w}) = 1/4, então A = {1, 2}, B = {1, 3}, e C = {2, 3} são eventos independentes par a par. Pode-se verificar isto pelo fato que P (A ∩ B) = P ({1}) = 1 11 = = P (A)P (B). 4 22 Similarmente, pode-se provar o mesmo resultado para os outros pares. Contudo, a probabilidade 1 P (A ∩ B ∩ C) = P (∅) = 0 ̸= P (A)P (B)P (C) = . 8 Então, A, B, e C não são mutuamente independentes. Exemplo 2.2.7: Certo experimento consiste em lançar um dado equilibrado duas vezes, independentemente. Dado que os dois números sejam diferentes, qual é a probabilidade condicional de Autor: Leandro Chaves Rêgo 2.2. INDEPENDÊNCIA 31 (a) pelo menos um dos números ser 6, (b) a soma dos números ser 8? Solução: Para parte (a), note que existem 30 resultados possíveis para os lançamentos do dado de modo que o mesmo número não se repita, dos quais 10 o número 6 ocorre. Portanto, esta probabilidade é igual a 1/3. Para parte (b), note que existem 4 resultados possíveis que somam 8 dado que os números são diferentes, logo esta probabilidade é igual a 4/30. Exemplo 2.2.8: Suponha que um determinado experimento é realizado repetidas vezes de forma independente e observa-se a ocorrência de determinado evento A que tem probabilidade p. Qual é a probabilidade que A occorra n vezes antes de Ac ocorrer m vezes? Solução: Note que o evento A ocorra n vezes antes de Ac ocorrer m vezes é equivalente ao evento A ocorrer pelo menos n vezes nas primeiras n + m − 1 repetições do experimento. Como a ordem de ocorrência do evento A nas repetições não é importante e as repetiç es são independentes, temos que o evento A ocorre k vezes em n + m − 1 repetições do experimento tem probabilidade igual a: ( ) n+m−1 k P (k ocorrências de A em n + m − 1 repetições) = p (1 − p)n+m−1−k . k e, então, c P (n ocorrências de A antes de m ocorrências de A ) = n+m−1 ∑ ( ) n+m−1 k p (1−p)n+m−1−k . k k=n Exemplo 2.2.9: Assuma que A1 , . . . , An são eventos mutuamente independentes e que P (Ai ) = pi . Nós calculamos as probabilidades dos seguintes eventos: • O evento A é o evento que todos estes eventos ocorrem, então P (A) = P (∩ni=1 Ai ) = n ∏ P (Ai ) = i=1 n ∏ pi i=1 • O evento B é o evento que nenhum desses eventos ocorre, então P (B) = P (∩ni=1 Aci ) = n ∏ P (Aci ) = i=1 n ∏ (1 − pi ) i=1 • O evento C é o evento que pelo menos um desses eventos ocorre, então C = B c P (C) = P (B ) = 1 − P (B) = 1 − c n ∏ (1 − pi ) i=1 Autor: Leandro Chaves Rêgo 2.2. INDEPENDÊNCIA 32 Exemplo 2.2.10 : João e José disputam um jogo com uma moeda equilibrada. Cada jogador lança a moeda duas vezes e vence o jogo aquele que primeiro obtiver dois resultados iguais. João começa jogando e se não vencer passa a moeda para José e continuam alternando jogadas. Qual a probabilidade de João vencer o Jogo? Solução: Seja Ak o evento dois resultados iguais são obtidos na k-ésima tentativa. Note que P (Ak ) = 12 . Seja Bk o evento João ganha na sua k-ésima jogada. Então, B1 = A1 ; B2 = Ac1 ∩ Ac2 ∩ A3 ; B3 = Ac1 ∩ Ac2 ∩ Ac3 ∩ Ac4 ∩ A5 , em geral, Bk = Ac1 ∩ Ac2 ∩ · · · ∩ Ac2k−2 ∩ A2k−1 . Portanto, 1 P (Bk ) = P (Ac1 ∩ Ac2 ∩ · · · ∩ Ac2k−2 ∩ A2k−1 ) = P (Ac1 )P (Ac2 ) · · · P (Ac2k−2 )P (A2k−1 ) = ( )2k−1 , 2 onde a penúltima igualdade se deve ao fato dos lançamentos serem independentes. Logo, P (João vencer) = P (∪∞ k=1 Bk ) ∞ ∑ 1 2 ( )2k−1 = . P (Bk ) = = 2 3 k=1 k=1 ∞ ∑ Autor: Leandro Chaves Rêgo Capítulo 3 Variável Aleatória 3.1 Introdução Suponha que uma moeda é lançada cinco vezes. Qual é o número de caras? Esta quantidade é o que tradicionalmente tem sido chamada de variável aleatória. Intuitivamente, é uma variável porque seus valores variam, dependendo da sequência de lançamentos da moeda realizada; o adjetivo “aleatória” é usado para enfatizar que o seu valor é de certo modo incerto. Formalmente, contudo, uma variável aleatória não é nem “aleatória” nem é uma variável. Definição 3.1.1: Seja (Ω, A, P ) um espaço de probabilidade. Uma função X : Ω → R é chamada de variável aleatória se para todo evento Boreliano B, X −1 (B) ∈ A. Por definição, temos que X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} é o conjunto de elementos do espaço amostral cuja imagem segundo X está em B. Nós recordamos que um evento Boreliano é qualquer evento pertencente à σ-álgebra de Borel, onde a σ-álgebra de Borel é a menor σ-álgebra contendo todos os intervalos. Para determinar se uma dada função X de Ω para os reais é uma variável aleatória usando a definição, precisa-se checar se para todo evento Boreliano B, a imagem inversa de B de acordo com X faz parte da σ-álgebra A. O próximo teorema prova que na verdade, só precisamos checar que a imagem inversa de intervalos da forma (−∞, x] pertence à σ-álgebra A. Teorema 3.1.2: Seja (Ω, A) um espaço mensurável. Uma função real X : Ω → R é uma variável aleatória se e somente se X −1 ((−∞, λ]) = {w : X(w) ≤ λ} ∈ A, ∀λ ∈ R. Prova: Para provar este teorema, nós precisamos de uma série de Lemas. Lema 3.1.3: Seja B a σ-álgebra de Borel, então X −1 (B) = {X −1 (B) : B ∈ B} é uma σ-álgebra de eventos de Ω. 33 3.1. INTRODUÇÃO 34 Prova: Nós verificamos os três postulados para uma σ-álgebra: (i) Ω ∈ X −1 (B). Como R ∈ B, nós temos X −1 (R) = Ω ∈ X −1 (B). (ii) Se A ∈ X −1 (B), então Ac ∈ X −1 (B). Suponha que A ∈ X −1 (B), então existe A′ ∈ B tal que A = X −1 (A′ ). Como B é uma σ-álgebra, temos que (A′ )c ∈ B. Logo, X −1 ((A′ )c ) ∈ X −1 (B). Como X −1 ((A′ )c ) = (X −1 (A′ ))c , temos que Ac ∈ X −1 (B). −1 (iii) Se A1 , A2 , . . . ∈ X −1 (B), então ∪∞ (B). i=1 Ai ∈ X Suponha que A1 , A2 , . . . ∈ X −1 (B), então existem A′1 , A′2 , . . . ∈ B tais que Ai = ′ X −1 (A′i ) para i ≥ 1. Como B é uma σ-álgebra, temos que ∪∞ i=1 Ai ∈ B. Logo, −1 ∞ ′ −1 X (∪i=1 Ai ) ∈ X (B). Como −1 ′ ∪∞ (A′i ) = X −1 (∪∞ i=1 X i=1 Ai ), −1 temos que ∪∞ (B). i=1 Ai ∈ X Dado qualquer classe de conjuntos C, denotamos por σ(C) a menor σ-álgebra contendo C. Desta forma se B ′ = {(−∞, λ] : λ ∈ R}, então B = σ(B ′ ). O próximo lema prova um resultado semelhante ao do lema anterior, porém mais forte. Lema 3.1.4: X −1 (B) = σ(X −1 (B ′ )), isto é, a imagem inversa de eventos Borelianos é igual a menor σ-álgebra contendo as imagens inversas dos eventos Borelianos. Prova: De acordo com Lema 3.1.3, X −1 (B) é uma σ-álgebra. Como B′ ⊆ B, temos que X −1 (B′ ) ⊆ X −1 (B). Então, por definição de menor σ-álgebra, temos que σ(X −1 (B′ )) ⊆ X −1 (B). Para provar igualdade, definimos F = {B ′ ⊆ R : X −1 (B ′ ) ∈ σ(X −1 (B′ ))}. É fácil provar que F é uma σ-álgebra; nós omitimos os detalhes. Por definição, temos que X −1 (F) ⊆ σ(X −1 (B ′ )) e B ′ ⊆ F . Como F é uma σ-álgebra, B = σ(B′ ) ⊆ F . Portanto, X −1 (B) ⊆ X −1 (F) ⊆ σ(X −1 (B ′ )). Autor: Leandro Chaves Rêgo 3.2. FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA 35 Agora nós podemos provar o teorema. Suponha que X −1 (B ′ ) ⊆ A. Por definição de menor σ-álgebra, σ(X −1 (B ′ )) ⊆ A. Então, pelo Lema 3.1.4, X −1 (B) ⊆ A, o que implica que X é uma variável aleatória. Dada uma variável aleatória X, pode-se definir uma probabilidade induzida PX no espaço mensurável (R, B) da seguinte maneira: para todo A ∈ B, definimos PX (A) = P (X −1 (A)). Por definição de variável aleatória, tem-se que X −1 (A) ∈ A, então PX está bem definida. Resta provar que PX satisfaz os axiomas K1, K2, e K4′ de probabilidade: K1. PX (A) = P (X −1 (A)) ≥ 0. K2. PX (R) = P (X −1 (R)) = P (Ω) = 1. K4′ . Suponha que A1 , A2 , . . . são eventos Borelianos disjuntos. Então, ∑ ∑ PX (∪i Ai ) = P (X −1 (∪i Ai )) = P (∪i X −1 (Ai )) = P (X −1 (Ai )) = PX (Ai ). i 3.2 i Função de Distribuição Acumulada Para uma variável aleatória X, uma maneira simples e básica de descrever a probabilidade induzida PX é utilizando sua função de distribuição acumulada. Definição 3.2.1: A função de distribuição acumulada de uma variável aleatória X, representada por FX , é definida por FX (x) = PX ((−∞, x]), ∀x ∈ R. A função de distribuição acumulada FX satisfaz as seguintes propriedades: F1. Se x ≤ y, então FX (x) ≤ FX (y). x ≤ y ⇒ (−∞, x] ⊆ (−∞, y] ⇒ PX ((−∞, x]) ≤ PX ((−∞, y]) ⇒ FX (x) ≤ FX (y). F2. Se xn ↓ x, então FX (xn ) ↓ FX (x). Se xn ↓ x, então os eventos (−∞, xn ] são decrescentes e ∩n (−∞, xn ] = (−∞, x]. Logo, pela continuidade da medida de probabilidade, tem-se que PX ((−∞, xn ]) ↓ P ((−∞, x]), ou seja, FX (xn ) ↓ FX (x). F3. Se xn ↓ −∞, então FX (xn ) ↓ 0, e se xn ↑ ∞, então FX (xn ) ↑ 1. Se xn ↓ −∞, então os eventos (−∞, xn ] são decrescentes e ∩n (−∞, xn ] = ∅. Logo, pela continuidade da medida de probabilidade, tem-se que PX ((−∞, xn ]) ↓ P (∅), ou seja, FX (xn ) ↓ 0. Similarmente, se xn ↑ ∞, então os eventos (−∞, xn ] são crescentes e ∪n (−∞, xn ] = IR. Logo, pela continuidade da medida de probabilidade, tem-se que PX ((−∞, xn ]) ↑ P (Ω), ou seja, FX (xn ) ↑ 1. Autor: Leandro Chaves Rêgo 3.2. FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA 36 Teorema 3.2.2: Uma função real G satisfaz F1–F3 se e somente se G é uma distribuição de probabilidade acumulada. Prova: A prova de que se G for uma distribuição de probabilidade acumulada, então G satisfaz F1-F3 foi dada acima. A prova de que toda função real que satisfaz F1-F3 é uma função de probabilidade acumulada é complexa envolvendo o Teorema da Extensão de Carathéodory. Nós apresentamos aqui um esquema de como a prova é feita. Primeiro define-se PX ((−∞, x]) = FX (x), PX ((x, ∞)) = 1 − FX (x), e PX ((a, b]) = FX (b) − FX (a). Com esta definição, considera-se a álgebra formada por união finita de intervalos e prova-se que PX é σ-aditiva nesta álgebra. Finalmente, aplica-se o Teorema da Extensão de Carathéodory para provar que PX pode ser estendida para todo evento Boreliano. Observação 3.2.3: Uma função de distribuição pode corresponder a várias variáveis aleatórias no mesmo espaço de probabilidade (Ω, A, P ). Por exemplo, se X tem uma distribuição normal com parâmetros 0 e 1, então por simetria é fácil ver que −X também distribuição normal com parâmetros 0 e 1. Consequentemente, FX = F−X . No entanto, P (X = −X) = P (X = 0) = 0. Condição F2 significa que toda função distribuição de probabilidade acumulada FX é continua à direita. Ainda mais, como FX é não-decrescente e possui valores entre 0 e 1, pode-se provar que ela tem um número enumerável de descontinuidades do tipo salto. Pela continuidade à direita , o salto no ponto x é igual a FX (x) − FX (x− ) = FX (x) − lim F (x − n→∞ = PX ((−∞, x]) − lim PX ((−∞, x − n→∞ 1 ) n 1 ]) n 1 = lim PX ((x − , x]). n→∞ n Como a sequência de eventos (x − n1 , x] é decrescente e ∩n (x − n1 , x] = {x}. Temos que {x} é Boreliano e PX (x) = FX (x) − FX (x− ). Ou seja, a probabilidade da variável aleatória X assumir o valor x é igual ao salto da função de distribuição acumulada FX no ponto x. O próximo teorema indica que o conjunto de pontos de descontinuidade de F é enumerável. Teorema 3.2.4: Seja D o conjunto de pontos de descontinuidade da função de distribuição F . Então, D é enumerável. Prova: Pela monotonicidade, temos que para todo x ∈ IR, F (x− ) ≤ F (x) ≤ F (x+ ). Logo, x ∈ D se, e somente se, F (x+ ) > F (x− ). Para n = 1, 2, 3, . . . seja An = {x : F (x+ ) − F (x− ) > 1 }. n Autor: Leandro Chaves Rêgo 3.3. TIPOS DE VARIÁVEL ALEATÓRIA 37 Então, D = ∪∞ n=1 An . Vamos verificar que todo An contém menos que n pontos e, portanto, é finito. Dessa forma, D será enumerável. Por absurdo, suponha que exista An que contém n pontos. Assim, An = {x1 , x2 , . . . , xn }, onde x1 < x2 < · · · xn e + − + − + 0 ≤ F (x− 1 ) ≤ F (x1 ) ≤ F (x2 ) ≤ F (x2 ) ≤ · · · ≤ F (xn ) ≤ F (xn ) ≤ 1. ∑ − Então, temos nk=1 [F (x+ definição do conjunto An , temos que k ) − F (xk )] ≤ 1. Mas por ∑ − + − 1 1 F (xi ) − F (xi ) > n para todo xi ∈ An . Portanto, nk=1 [F (x+ k ) − F (xk )] > n × n > 1, absurdo. Logo, An contém menos que n pontos. 3.3 Tipos de Variável Aleatória Definição 3.3.1: Existem três tipos de variáveis aleatórias: • Discreta. Uma variável aleatória X é discreta se assume um número enumerável de valores, ou seja, se existe um conjunto enumerável {x1 , x2 , . . .} ⊆ R tal que X(w) ∈ {x1 , x2 , . . .}, ∀w ∈ Ω. A função p(xi ) definida por p(xi ) = PX ({xi }), i = 1, 2, . . . e p(x) = 0 para x ∈ / {x1 , x2 , . . .}, é chamada de função probabilidade de X. Note que neste caso, temos ∑ FX (x) = p(xi ). i:xi ≤x • Contínua. Uma variável aleatória X é contínua se existe uma função fX (x) ≥ 0 tal que ∫ x FX (x) = fX (t)dt, ∀x ∈ R. −∞ Neste caso, a função fX é chamada de função densidade de probabilidade de X. • Singular. Uma variável aleatória X é singular se FX é uma função contínua cujos pontos de crescimento formam um conjunto de comprimento (medida de Lebesgue) nulo. Pode-se provar que toda função de distribuição de probabilidade acumulada FX pode ser decomposta na soma de no máximo três funções de distribuição de probabilidade acumuladas, sendo uma discreta, uma contínua e outra singular. Na próxima seção analisaremos as variáveis aleatórias discretas. 3.3.1 Variável Aleatória Discreta Vamos considerar agora o caso das variáveis aleatórias discretas. Nós vimos na seção anterior que se uma variável aleatória é discreta, então nós podemos definir uma função de probabilidade p de modo que p(xi ) = PX ({xi }), i = 1, 2, . . ., onde X ⊆ {x1 , x2 , . . .} e p(x) = 0 para x ∈ / {x1 , x2 , . . .}. Note que toda função de probabilidade é uma função dos reais R e Autor: Leandro Chaves Rêgo 3.3. TIPOS DE VARIÁVEL ALEATÓRIA 38 assume valores entre 0 e∑1, sendo positiva para um número enumerável de pontos e satisfaz a seguinte propriedade i p(xi ) = 1. Por outro lado, dada uma função p : R ∑→ [0, 1], onde p é positiva para um número enumerável de pontos {x1 , x2 , . . .} e satisfaz i p(xi ) = 1, uma função P definida nos eventos ∑ Borelianos de modo que P (A) = p(x i ), ∀A ∈ B é uma medida de probabilidade xi ∈A em (R, B) (é fácil verificar que P satisfaz os axiomas de Kolmogorov e portanto é uma medida de probabilidade). Logo, a distribuição de uma variável aleatória discreta X pode ser determinada tanto pela função de distribuição acumulada FX ou pela sua função de probabilidade p. 3.3.2 Variável Aleatória Contínua Vamos considerar agora o caso das variáveis aleatórias contínuas. Nós vimos na seção anterior que se uma variável ∫ xaleatória é (absolutamente) contínua, então existe uma ′função fX (x) ≥ 0 tal que FX (x) = −∞ fX (t)dt. Deste modo, FX é contínua e fX (x) = FX (x), exceto num conjunto de medida de Lebesgue ∫ ∞ nula. Uma função f (x) ≥ 0 é densidade de alguma variável aleatória se e somente se, −∞ f (x)dx = 1, já que neste caso é fácil provar que a função F ∫x definida por −∞ f (t)dt satisfaz as condições F1, F2, e F3. Portanto, pelo Teorema 3.2.2 F é uma função de distribuição acumulada. Logo, a distribuição de uma variável aleatória contínua X pode ser determinada tanto pela função de distribuição acumulada FX ou pela sua função de densidade fX . Uma variável aleatória X tem densidade se FX é a integral (de Lebesgue) de sua derivada; sendo neste caso a derivada de FX uma função densidade para X. Este fato pode ser provado utilizando argumentos de Teoria da Medida, mas omitimos os detalhes aqui. Sem recorrer a argumentos envolvendo Teoria da Medida, em quase todos os casos encontrados na prática, uma variável aleatória X tem densidade se FX é (i) contínua e (ii) derivável por partes, ou seja, se FX é derivável no interior de um número finito ou enumerável de intervalos fechados cuja união é a reta R. Por exemplo, considere 0 se x < 0, x se 0 ≤ x < 1, FX (x) = 1 se x ≥ 1. Então X tem densidade pois FX é contínua e derivável em todos os pontos da reta exceto em {0, 1}. 3.3.3 Variável Aleatória Singular Vamos nesta seção dar o exemplo de uma função de distribuição de uma variável aleatória singular conhecida como função de Cantor. Esta função é contínua, derivável em todo ponto exceto em um conjunto de medida de Lebesgue nula, mas não é absolutamente contínua. Seja F (x) = 0 se x < 0 e F (x) = 1 se x > 1. Continuemos por etapas: Etapa 1: Seja F (x) = 12 para x ∈ (1/3, 2/3). Então, o valor de F neste intervalo é igual a média dos valores de F nos intervalos vizinhos em que F já está definida: (−∞, 0) e Autor: Leandro Chaves Rêgo 3.3. TIPOS DE VARIÁVEL ALEATÓRIA 39 (1, ∞). F continua sem definição em dois intervalos: [0, 1/3] e [2/3, 1] de comprimento total 2/3. Etapa n + 1: No terço central de cada um dos 2n intervalos restantes após a etapa n, seja F (x) igual à média dos valores nos dois intervalos vizinhos onde F já está definida. Por exemplo, na etapa 2 defina F (x) = 1/4 para x ∈ (1/9, 2/9) e F (x) = 3/4 para x ∈ ∪(7/9, 8/9). Restarão então 2n+1 intervalos (o dobro do número restante após a etapa n), de comprimento total (2/3)n+1 , em que F ainda não estará definida. Então definimos F por indução em um número enumerável de intervalos abertos, cujo complementar (ou seja, o conjunto onde F ainda não está definida) é o conjunto de Cantor, um conjunto de comprimento 0. Podemos estender a definição de F até o conjunto de Cantor C por continuidade: se x ∈ C, a diferença entre os valores de F nos dois intervalos vizinhos após a etapa n é 1/2n . Note que F é monótona não decrescente em C c . Se an é o valor de F no intervalo vizinho esquerdo após a etapa n, e bn é o valor no intervalo vizinho direito após a etapa n, então, an ↑, bn ↓ e bn − an ↓ 0. Seja F (x) o limite comum de an e bn . Deste modo F está definida em toda reta e é de fato uma função de distribuição (verifique!). Seja X uma variável aleatória cuja função de distribuição é F , a função de Cantor. Então X não é discreta e nem contínua pois X não tem densidade F ′ (x) = 0 em C c e ∫x ′ F (t)dt = 0, ou seja, F não é a integral de sua derivada, ou melhor, não é absolutamente −∞ contínua. Como F é contínua e F ′ (x) = 0 para x ∈ C c e C tem comprimento nulo, temos que X é uma variável aleatória singular. 3.3.4 Decomposição de uma Variável Aleatória Vamos ver agora que toda variável aleatória é uma mistura dos três tipos: discreto, contínuo e singular. Seja X uma variável aleatória qualquer e seja F sua função de distribuição. Se J = {x1 , x2 , . . .} é o conjunto dos pontos de salto de F (se F for contínua J = ∅), indiquemos com pi o salto no ponto xi , ou seja, pi = F (xi ) − F (x− i ). ∑ Definimos Fd (x) = i:xi ≤x pi . Fd é uma função degrau não-decrescente: a parte discreta de F . Como uma função monótona possui derivada em quase toda parte, seja { ′ F (x) se F é diferenciável em x, f (x) = 0 se F não é diferenciável em x. ∫x Seja Fac (x) = −∞ f (t)dt. Fac é não-decrescente, pois a integral indefinida de uma função nao-negativa (f ≥ 0 porque F é não-decrescente). A sua derivada é igual a f em quase toda parte, de modo que Fac é absolutamente contínua: Fac é a parte absolutamente contínua de F. Seja Fs (x) = F (x) − Fd (x) − Fac (x). Fs é contínua pois é a diferença de duas funções contínuas. A derivada de Fs é igual a zero em quase toda parte, porque F e Fac têm a mesma derivada f , e Fd possui derivada zero em quase toda parte. Pode-se provar que Fs também é não-decrescente, mas está fora do escopo deste curso. Fs é a parte singular de F . Autor: Leandro Chaves Rêgo 3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE 40 Esta discussão nos dá um método de decompor F em suas partes discreta, absolutamente contínua e singular. Considere o seguinte exemplo: Exemplo 3.3.2: Suponha que X ∼ U [0, 1] 0 x FY (x) = 1 e Y = min(X, 1/2). Note que se x < 0, se 0 ≤ x < 1/2, se x ≥ 1/2. FY tem apenas um salto em x = 1/2 e p1 = 1/2. Logo, Fd (x) = 0 se x < 1/2 e Fd (x) = 1/2 se x ≥ 1/2. Diferenciando FY , temos { 0 se x < 0 ou x > 1/2, ′ FY (x) = 1 se 0 < x < 1/2. Logo, por definição, { f (x) = Portanto, 0 se x ≤ 0 ou x ≥ 1/2, 1 se 0 < x < 1/2. se x < 0, 0 x se 0 ≤ x ≤ 1/2, Fac (x) = f (t)dt = −∞ 1/2 se x > 1/2. ∫ x Como Fd + Fac = FY , temos que Fs (x) = 0, ∀x ∈ IR e não há parte singular. Uma variável aleatória que possui apenas partes discreta e absolutamente contínua é conhecida como uma variável aleatória mista. Na prática, é pouco provável que surja uma variável aleatória singular. Portanto, quase todas as variáveis aleatórias são discretas, contínuas ou mistas. A seguir veremos os principais tipos de distribuições. 3.4 Principais Distribuições de Probabilidade Vamos primeiro explorar alguns exemplos importantes de variáveis aleatórias discretas. Aleatória. Dizemos que X tem uma distribuição aleatória com parâmetro n, onde n é um número inteiro, se X(w) ∈ {x1 , x2 , . . . , xn } e p(xi ) = n1 , para i ∈ {1, . . . , n}. A função de probabilidade aleatória pode ser utilizada para modelar mecanismos de jogos (por exemplo, dados e moedas balanceados, cartas bem embaralhadas). Utilizando a propriedade de aditividade da probabilidade, é fácil ver que para qualquer evento A ⊆ . {x1 , x2 , . . . , xn }, temos que P (X ∈ A) = ||A|| n Autor: Leandro Chaves Rêgo 3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE 41 Bernoulli. Dizemos que X tem uma distribuição Bernoulli com parâmetro p, onde 0 ≤ p ≤ 1, se X(w) ∈ {x0 , x1 } e p(x1 ) = p = 1 − p(x0 ). A função de probabilidade Bernoulli pode ser utilizada para modelar a probabilidade de sucesso em uma única realização de um experimento. Em geral, qualquer variável aleatória dicotômica, ou seja que assume somente dois valores, pode ser modelada por uma distribuição Bernoulli. Binomial. Dizemos que X tem uma distribuição Binomial com parâmetros n e p, onde n é um número ( ) inteiro e 0 ≤ p ≤ 1, se X(w) ∈ {0, 1, . . . , n} e p(k) = nk pk (1 − p)1−k , para k ∈ {0, 1, . . . , n}. Note que utilizando o Teorema Binomial, temos que n n ( ) ∑ ∑ n k p(k) = p (1 − p)n−k = (p + 1 − p)n = 1. k k=0 k=0 Logo, esta é uma legítima função probabilidade de massa. A função de probabilidade Binomial pode ser utilizada para modelar a quantidade de erros em um texto de n símbolos quando os erros entre símbolos são assumidos independentes e a probabilidade de erro em um símbolo do texto é igual a p. Também pode ser utilizada para modelar o número de caras em n lançamentos de uma moeda que possui probabilidade p de cair cara em cada lançamento. Se p = 1/2, temos um modelo para o número de 1’s em uma sequência binária de comprimento n escolhida aleatoriamente ou o número de caras em n lançamentos de uma moeda justa. Geométrica. Dizemos que X tem uma distribuição Geométrica com parâmetro β, onde 0 ≤ β < 1, se X(w) ∈ {0, 1, . . .} e p(k) = (1 − β)β k , para k ∈ {0, 1, . . .}. Utilizando o resultado de uma soma infinita de uma Progressão Geométrica, temos que ∞ ∑ ∞ ∞ ∑ ∑ k p(k) = (1 − β)β = (1 − β) β k = 1. k=0 k=0 k=0 Logo, esta é uma legítima função probabilidade de massa. A função de probabilidade Geométrica pode ser utilizada para modelar o tempo de espera medido em unidades de tempo inteira até a chegada do próximo consumidor em uma fila, até a próxima emissão de um fóton, ou até a primeira ocorrência de cara numa sequência de lançamentos de uma moeda. Binomial Negativa ou Pascal. Esta distribuição é uma generalização óbvia da distribuição geométrica. Suponha que ao invés de estarmos interessados no tempo de espera até a primeira ocorrência de um evento, Autor: Leandro Chaves Rêgo 3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE 42 estejamos interessados em calcular o tempo de espera até a r-ésima ocorrência de um evento. Seja Y o tempo de espera necessário a fim de que um evento A possa ocorrer exatamente r vezes. Temos que Y = k se, e somente se, A ocorrer na (k + 1)-ésima repetição e A tiver ocorrido r − 1 vezes nas k repetições Assumindo independência entre os ( kanteriores. ) r−1 experimentos, esta probabilidade é igual p r−1 p (1 − p)k−r+1 . Portanto, ( ) k P (Y = k) = pr (1 − p)k−r+1 , onde k ≥ r − 1. r−1 Note que se r = 1, temos que Y tem uma distribuição geométrica com parâmetro β = 1 − p. No caso geral, dizemos que Y tem uma distribuição Binomial Negativa ou Pascal. Relação entre as Distribuições Binomial e Binomial Negativa. Suponhamos que X tenha distribuição binomial com parâmetros n e p, ou seja, X é igual ao número de sucessos em n ensaios repetidos de Bernoulli com probabilidade de sucesso p. Suponhamos que Y tenha uma distribuição Binomial Negativa com parâmetros r e p, ou seja, Y + 1 é o número de ensaios de Bernoulli necessários para se obter r sucessos com probabilidade de sucesso p. Então, temos que {X ≥ r} = Y + 1 ≤ n, ou seja, o número de sucessos em n ensaios é maior ou igual a r se, e somente se, o tempo de espera para o r-ésimo sucesso for menor ou igual a n − 1. Portanto, P (X ≥ r) = P (Y ≤ n − 1). Observe que estas duas distribuições tratam de ensaios de Bernoulli repetidos. A distribuição binomial surge quando lidamos com um número fixo de ensaios e estamos interessados no número de sucessos que venham a ocorrer. A distribuição binomial negativa é encontrada quando fixamos o número de sucessos e então registramos o tempo de espera necessário. Zeta ou Zipf. Dizemos que X tem uma distribuição Zeta ou Zipf com parâmetro α, onde α > 1, se X(w) ∈ {1, 2, . . .} e k −α , k = 1, 2, . . . , p(k) = ζ(α) ∑ −α onde ζ(α) = ∞ é conhecida como a função Zeta de Riemann. k=1 k A função de probabilidade Zeta ou Zipf é um exemplo de uma distribuição de cauda pesada cuja importância cresceu bastante desde meados dos anos 1990. As aplicações desta função de probabilidade incluem: número de consumidores afetados por um blackout, tamanhos de arquivos solicitados em transferência via Web e atraso de pacotes na internet. Hipergeométrica. A distribuição hipergeométrica descreve o número de sucessos em uma sequência de n amostras de uma população finita sem reposição. Por exemplo, considere que tem-se uma carga com N objetos dos quais D têm defeito. A distribuição hipergeométrica descreve a probabilidade de que em uma amostra de n objetos distintos escolhidos da carga aleatoriamente exatamente k objetos sejam defeituosos. Autor: Leandro Chaves Rêgo 3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE 43 Em geral, se uma variável aleatória X segue uma distribuição hipergeométrica com parâmetros N, D, e n, então a probabilidade de termos exatamente k sucessos é dada por (D)(N −D) (Nn−k ) . k p(k) = n Esta probabilidade é positiva se: N − D ≥ n − k, ou seja k ≥ max(0, D + n − N ), e k ≤ min(n, D). ( ) Esta fórmula pode ser entendida assim: existem Nn possíveis amostras sem reposição. ( ) ( −D) Existem Dk maneiras de escolher k objetos defeituosos e existem Nn−k maneiras de preencher o resto da amostra com objetos sem defeito. Quando a população é grande quando comparada ao tamanho da amostra (ou seja, N for muito maior que n) a distribuição hipergeométrica é aproximada razoavelmente bem por uma distribuição binomial com parâmetros n (tamanho da amostra) e p = D/N (probabilidade de sucesso em um único ensaio). Poisson. Dizemos que X tem uma distribuição Poisson com parâmetro λ, onde λ ≥ 0, se X(w) ∈ k {0, 1, . . .} e p(k) = e−λ λk! , para k ∈ {0, 1, . . .}. Por definição, temos que para todo x real, x e = ∞ ∑ xk k=0 k! . Utilizando este fato, temos que ∞ ∑ k=0 p(k) = ∞ ∑ e−λ λk k=0 k! −λ =e ∞ ∑ λk k=0 k! = e−λ eλ = 1. Logo, esta é uma legítima função probabilidade de massa. A função de probabilidade Poisson é utilizada para modelar a contagem do número de ocorrências de eventos aleatórios em um certo tempo T : número de fótons emitidos por uma fonte de luz de intensidade I fótons/seg em T segundos (λ = IT ), número de clientes chegando em uma fila no tempo T (λ = CT ), número de ocorrências de eventos raros no tempo T (λ = CT ). Poisson como um Limite de Eventos Raros de Binomial Suponhamos que chamadas telefônicas cheguem em uma grande central, e que em um período particular de três horas (180 minutos), um total de 270 chamadas tenham sido recebidas, ou seja, 1,5 chamadas por minuto. Suponhamos que queiramos calcular a probabilidade de serem recebidas k chamadas durante os próximos três minutos. Ao considerar o fenômeno da chegada de chamadas, poderemos chegar à conclusão de que, a qualquer instante, uma chamada telefônica é tão provável de ocorrer como em qualquer Autor: Leandro Chaves Rêgo 3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE 44 outro instante. Como em qualquer intervalo de tempo, temos um número infinito de pontos, vamos fazer uma série de aproximações para este cálculo. Para começar, pode-se dividir o intervalo de 3 minutos em nove intervalos de 20 segundos cada um. Poderemos então tratar cada um desses nove intervalos como um ensaio de Bernoulli, durante o qual observaremos uma chamada (sucesso) ou nenhuma chamada (fa20 = 0, 5. Desse poderemos lha), com probabilidade de sucesso igual a p = 1, 5 × 60 (9) modo, 9 9 ser tentados a afirmar que a probabilidade de 2 chamadas é igual a 2 (0, 5) = 128 . Porém, este cálculo ignora a possibilidade de que mais de uma chamada possa ocorrer em um único intervalo. Então, queremos aumentar o número n de subintervalos de tempo de modo que cada subintervalo corresponde a 180 segundos e então a probabilidade de ocorrência n 180 de uma chamada em um subintervalo é igual a p = 1, 5 × 60n . Desta maneira temos que np = 4, 5 permanece constante ao crescermos o número de subintervalos. Utilizando novamente binomial, temos que a probabilidade de ocorrerem k chamadas é dada por: (n) 4,5 ok modelo 4,5 n−k ( n ) (1 − n ) . Queremos saber então o que acontece com esta probabilidade quando k n → ∞. A resposta como veremos a seguir é que esta distribuição tende a distribuição de Poisson e este resultado é conhecido como limite de eventos raros. Consideremos a expressão geral da probabilidade binomial, ( ) n k n! n(n − 1) · · · (n − k + 1) k p(k) = p (1 − p)n−k = pk (1 − p)n−k = p (1 − p)n−k . k k!(n − k)! k! Como queremos estudar o caso em que np é constante, façamos np = α, ou seja, p = α/n . Então, e 1 − p = n−α n n(n − 1) · · · (n − k + 1) α k n − α n−k ( ) ( ) k! n n αk 1 k−1 α = [(1)(1 − ) · · · (1 − )][1 − ]n−k k! n n n p(k) = Fazendo n → ∞, temos que os termos da forma (1 − nj ), para 1 ≤ j ≤ k − 1, tendem para 1 e como existe um número fixo k deles, o seu produto também tende a 1. O mesmo ocorre com (1 − αn )−k . Finalmente, por definição do número e, temos que (1 − αn )n → e−α quando n → ∞. Portanto, αk lim p(k) = e−α , n k! ou seja obtemos a expressão de Poisson. Mais geralmente, pode-se provar o seguinte teorema: Teorema 3.4.1: Se limn→∞ npn = α > 0, então ( ) k n k n−k −α α . lim pn (1 − pn ) =e n→∞ k k! Prova: Nós utilizamos os seguintes fatos: ( ) k 1. limn→∞ nk = limn→∞ nk! . Autor: Leandro Chaves Rêgo 3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE 45 2. limn→∞ np2n = 0. 3. (1 − x)n ≤ e−nx , para x ≥ 0. 4. (1 − x)n ≥ e−nx−nx , para 0 ≤ x ≤ 12 . 2 Usando fatos 2, 3, e 4, nós obtemos limn→∞ (1 − pn )n−k = limn→∞ e−(n−k)pn . Logo, usando fato 1, ( ) (npn )k −(n−k)pn n k αk pn (1 − pn )n−k = lim lim e = e−α . n→∞ n→∞ k k! k! Vamos agora explorar alguns exemplos importantes de variáveis aleatórias contínuas. Uniforme. Dizemos que X tem uma distribuição uniforme com parâmetros a e b, onde a e b são números reais e a < b, se a função densidade de X é igual a fX (x) = 1 U (x − a)U (b − x). b−a Este modelo é frequentemente usado impropriamente para representar “completa ignorância” sobre valores de um parâmetro aleatório sobre o qual apenas sabe-se estar no intervalo finito [a, b]. Esta distribuição também é frequentemente utilizada a fase de osciladores e fase de sinais recebidos em comunicações incoerentes. Exponencial. Dizemos que X tem uma distribuição Exponencial com parâmetro λ, onde λ > 0 é um número real, se a função densidade de X é igual a fX (x) = λe−λx U (x). A densidade exponencial pode ser utilizada para modelar os seguintes fenômenos: tempo de vida de componentes que falham sem efeito de idade; tempo de espera entre sucessivas chegadas de fótons, emissões de elétrons de um cátodo, ou chegadas de consumidores; e duração de chamadas telefônicas. Qui-quadrado. Dizemos que X tem uma distribuição Qui-quadrado com parâmetro n, onde n é número natural, se a função densidade de X é igual a fX (x) = xn/2−1 e−x/2 U (x), 2n/2 Γ(n/2) Autor: Leandro Chaves Rêgo 3.4. PRINCIPAIS DISTRIBUIÇÕES DE PROBABILIDADE 46 ∫∞ onde Γ(p) = 0 xp−1 e−x dx para p > 0 é a função gama. n é conhecido como número de graus de liberdade da distribuição Qui-quadrado. Pode-se provar que a soma dos quadrados de n variáveis aleatórias independentes com distribuição normal padrão possui uma distribuição Qui-quadrado com n graus de liberdade. A distribuição Qui-quadrado tem inúmeras aplicações em inferência estatística. Por exemplo, em testes qui-quadrados e na estimação de variâncias. Gama. Dizemos que X tem uma distribuição Gama com parâmetros α e β, onde α > 0 e β > 0 são números reais, se a função densidade de X é igual a β α α−1 −βx fX (x) = x e U (x). Γ(α) Pode-se provar que a soma de α variáveis aleatórias exponenciais com média 1/β tem uma distribuição Gama. É fácil ver que se α = 1, temos uma distribuição exponencial com parâmetro β, e se α = n/2 e β = 1/2 temos uma distribuição Qui-quadrado com n graus de liberdade. Beta. Dizemos que X tem uma distribuição Beta com parâmetros α e β, onde α > 0 e β > 0 são números reais, se a função densidade de X é igual a fX (x) = ∫ 1 0 xα−1 (1 − x)β−1 uα−1 (1 − u)β−1 du U (x)U (1 − x) = 1 xα−1 (1 − x)β−1 U (x)U (1 − x), B(α, β) onde B(α, β), para α > 0, β > 0, é a função beta que é o fator de normalização que garante que fX é uma densidade. Distribuições Beta são usadas exaustivamente em Estatística Bayesiana, pois elas são uma família de distribuições a priori conjugadas para distribuições binomiais e geométricas. A distribuição beta pode ser utilizada para modelar eventos que tem restrição de estar em um intervalo finito. t de Student. Dizemos que X tem uma distribuição t de Student com parâmetro n, onde n é número natural, se a função densidade de X é igual a Γ[(n + 1)/2] x2 −(n+1) √ fX (x) = (1 + ) 2 , n Γ[n/2] πn onde n é conhecido como número de graus de liberdade da distribuição t de Student. Pode-se provar que se Z tem uma distribuição normal padrão, V tem uma distribuição qui-quadrado com n graus de liberdade e Z e V forem independentes, então √Z tem uma V /n distribuição t de Student com n graus de liberdade. A distribuição t de Student é bastante utilizada em inferência estatística. Por exemplo, pode-se utilizá-la para calcular intervalos de confiança para a média de uma amostra quando a variância da população não é conhecida. Autor: Leandro Chaves Rêgo 3.5. VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS 47 Pareto. Dizemos que X tem uma distribuição Pareto com parâmetros α e τ , onde α e τ são números reais positivos, se a função densidade de X é igual a fX (x) = ατ α x−α−1 U (x − τ ). A distribuição de Pareto é o exemplo mais fundamental de uma distribuição de cauda pesada. Ela pode ser utilizada para modelar distribuição de riquezas; atrasos em transmissão de pacotes; e duração sessões de Internet. Normal ou Gaussiana. Dizemos que X tem uma distribuição Normal (ou Gaussiana) com parâmetros m e σ, onde m e σ > 0 são números reais, se a função densidade de X é igual a −(x−m)2 1 fX (x) = √ e 2σ2 . σ 2π Historicamente, esta distribuição foi chamada de “normal” porque ela era amplamente aplicada em fenômenos biológicos e sociais que era sempre tida como a distribuição antecipada ou normal. Se m = 0 e σ = 1, diz-se que X tem uma distribuição normal padrão ou normal reduzida. Aplicações da distribuição normal incluem ruído térmico em resistores e em outros sistemas físicos que possuem um componente dissipativo; ruídos de baixa-frequência como os em encontrados em amplificadores de baixa frequência; e variabilidade em parâmetros de componentes manufaturados e de organismos biológicos (por exemplo, altura, peso, inteligência). Cauchy. Dizemos que X tem uma distribuição Cauchy com parâmetro a > 0, se a função densidade de X é igual a 1 a fX (x) = · 2 . π a + x2 A razão entre duas variáveis aleatórias com distribuição Normal padrão independentes tem uma distribuição Cauchy com parâmetro 1. 3.5 Variáveis Aleatórias Multidimensionais Muitas vezes estamos interessados na descrição probabilística de mais de um característico numérico de um experimento aleatório. Por exemplo, podemos estar interessados na distribuição de alturas e pesos de indivíduos de uma certa classe. Para tanto precisamos estender a definição de variável aleatória para o caso multidimensional. ⃗ : Ω → Rn é Definição 3.5.1: Seja (Ω, A, P ) um espaço de probabilidade. Uma função X ⃗ −1 (B) ∈ A. chamada de um vetor aleatório se para todo evento B Boreliano de IRn , X Autor: Leandro Chaves Rêgo 3.5. VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS 48 Onde um evento é Boreliano em IRn se pertence a menor σ-álgebra que contem todas regiões da seguinte forma: C⃗a = {(X1 , X2 , . . . , Xn ) : Xi ≤ ai , 1 ≤ i ≤ n}. ⃗ pode-se definir uma probabilidade induzida P ⃗ no esDado um vetor aleatório X, X n n paço mensurável (IR , B ) da seguinte maneira: para todo A ∈ B n , definimos PX⃗ (A) = ⃗ −1 (A)). Por definição de vetor aleatório, tem-se que X ⃗ −1 (A) ∈ A, então P ⃗ está bem P (X X definida. 3.5.1 Função de Distribuição Acumulada Conjunta ⃗ uma maneira simples e básica de descrever a probabilidade Para um vetor aleatório X, induzida PX⃗ é utilizando sua função de distribuição acumulada conjunta. ⃗ Definição 3.5.2: A função de distribuição acumulada conjunta de um vetor aleatório X, representada por FX⃗ ou simplesmente por F , é definida por FX⃗ (⃗x) = P (C⃗x ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ), ∀⃗x ∈ IRn . A função de distribuição acumulada FX⃗ satisfaz as seguintes propriedades: F1. Se xi ≤ yi , ∀i ≤ n, então FX⃗ (⃗x) ≤ FX⃗ (⃗y ). xi ≤ yi ∀i ≤ n ⇒ C⃗x ⊆ C⃗y ⇒ P (C⃗x ) ≤ P (C⃗y ) ⇒ FX⃗ (⃗x) ≤ FX⃗ (⃗y ). F2. F (x1 , x2 , . . . , xn ) é contínua a direita em cada uma das variáveis. Por exemplo, se ym ↓ x1 , então F (ym , x2 , . . . , xn ) ↓ F (x1 , x2 , . . . , xn ), quando m → ∞. F3a. Se para algum i ≤ n xi → −∞, então C⃗x decresce monotonicamente para o conjunto vazio ∅. Logo, pela continuidade monotônica de probabilidade, temos que lim FX⃗ (⃗x) = 0. xi →−∞ F3b. Se xi → ∞, então C⃗x cresce monotonicamente para o conjunto {X1 ≤ x1 , . . . Xi−1 ≤ xi−1 , Xi+1 ≤ xi+1 , . . . , Xn ≤ xn }, ou seja a restrição em Xi é removida. Então, podemos escrever lim FX⃗ (⃗x) = FX1 ,...,Xi−1 ,Xi+1 ,...,Xn (x1 , . . . , xi−1 , xi+1 , . . . , xn ). xi →∞ Portanto, a função de distribuição acumulada conjunta de X1 , . . . , Xn−1 pode ser facilmente determinada da função de distribuição acumulada conjunta de X1 , . . . , Xn fazendo xn → ∞. Observe que funções de distribuição acumuladas conjuntas de ordem maiores determinam as de ordem menores, mas o contrário não é verdadeiro. Em particular, temos que lim FX⃗ (⃗x) = 1. ⃗ x→∞ A função de distribuição acumulada de Xi que se obtém a partir da função acumulada conjunta de X1 , . . . , Xn fazendo xj → ∞ para j ̸= i é conhecida como função de distribuição marginal de Xi . Autor: Leandro Chaves Rêgo 3.5. VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS 49 O próximo exemplo mostra que para n ≥ 2 as propriedades F1, F2, e F3 não são suficientes para que F seja uma função de distribuição. Exemplo 3.5.3: Seja F0 : IR2 → IR uma função definida no plano tal que F0 (x, y) = 1 se x ≥ 0, y ≥ 0, e x + y ≥ 1, e F0 (x, y) = 0, caso contrário. É claro que F1, F2, e F3 são satisfeitas, mas F0 não é função de distribuição de nenhum vetor aleatório (X, Y ). Se fosse, teríamos uma contradição 0 ≤ P (0 < X ≤ 1, 0 < Y ≤ 1) = F0 (1, 1) − F0 (1, 0) − F0 (0, 1) + F0 (0, 0) = 1 − 1 − 1 + 0 = −1 Os tipos discretos e contínuos de variáveis aleatórias têm os seguintes análogos no caso ⃗ for um vetor aleatório discreto, ou seja assumir um número enumerámultivariado. (a) Se X vel de valores {⃗x1 , ⃗x2 . . . , }, podemos definir uma função de probabilidade de massa conjunta, p tal que • p(⃗xi ) ≥ 0. ∑∞ xi ) = 1. • i=1 p(⃗ Neste caso, pode-se definir a função probabilidade de massa marginal de Xi como sendo ∑ ∑∑ ∑ pXi (xi ) = ··· ··· p(x1 , . . . , xi−1 , xi+1 , . . . , xn ). x1 xi−1 xi+1 xn ⃗ = (X1 , . . . , Xn ) um vetor aleatório e F sua função de distribuição. Se existe (b) Seja X uma função f (x1 , . . . , xn ) ≥ 0 tal que ∫ xn ∫ x1 F (x1 , . . . , xn ) = ··· f (t1 , . . . , tn )dt1 . . . dtn , ∀(x1 , . . . , xn ) ∈ IRn , −∞ −∞ então f é chamada de densidade conjunta das variáveis aleatórias X1 , . . . , Xn , e neste caso, ⃗ é (absolutamente) contínuo. Neste caso, define-se a densidade marginal de dizemos que X Xi como sendo ∫ ∞ ∫ ∞ fXi (xi ) = ··· f (x1 , . . . , xi−1 , xi+1 , . . . , xn )dx1 . . . dxi−1 dxi+1 . . . dxn . −∞ 3.5.2 −∞ Independência entre Variáveis Aleatórias. Sejam X1 , X2 , . . . , Xn variáveis aleatórias definidas no mesmo espaço de probabilidade (Ω, A, P ). Informalmente, as variáveis aleatórias Xi ’s são independentes se, e somente se, quaisquer eventos determinados por qualquer grupo de variáveis aleatórias distintas são independentes. Por exemplo, [X1 < 5], [X2 > 9], e 0 < X5 ≤ 3 são independentes. Formalmente, Definição 3.5.4: Dizemos que um conjunto de variáveis aleatórias {X1 , . . . , Xn } é mutuamente independente se, e somente se, para quaisquer eventos borelianos A1 , . . . , An , P (X1 ∈ A1 , . . . , Xn ∈ An ) = n ∏ P (Xi ∈ Ai ). i=1 Autor: Leandro Chaves Rêgo 3.5. VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS 50 O próximo teorema estabelece três critérios para provar que um conjunto de variáveis aleatórias é mutuamente independente. Teorema 3.5.5 : As seguintes condições são necessárias e suficientes para testar se um conjunto {X1 , . . . , Xn } de variáveis aleatórias é mutuamente independente: ∏ (a) FX⃗ (⃗x) = ni=1 FXi (xi ). ⃗ for um vetor aleatório discreto, (b) Se X pX⃗ (⃗x) = n ∏ pXi (xi ). i=1 ⃗ for um vetor aleatório contínuo, (c) Se X fX⃗ (⃗x) = n ∏ fXi (xi ), ∀(x1 , . . . , xn ) ∈ IRn . i=1 Prova: Para parte (a), note que se {X1 , . . . , Xn } são variáveis aleatórias mutuamente independentes, então FX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn ) n n ∏ ∏ = P (Xi ≤ xi ) = FXi (xi ), ∀(x1 , . . . , xn ) i=1 i=1 A prova da suficiência da parte (a) será omitida pois envolve argumentos de teoria da medida. Para parte (b), se {X1 , . . . , Xn } são variáveis aleatórias mutuamente independentes, então pX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn ) n n ∏ ∏ = P (Xi = xi ) = pXi (xi ), ∀(x1 , . . . , xn ) i=1 i=1 Reciprocamente, se a função de probabilidade de massa conjunta fatora e se {xi1 , xi2 , . . . , xin , . . .} são os possiveis valores assumidos pela variável aleatória Xi , temos que ∑ ∑ P (X1 ∈ B1 , X2 ∈ B2 , . . . , Xn ∈ Bn ) = ··· P (X1 = x1i , . . . , Xn = xni ) = ∑ ··· i:x1i ∈B1 = ∑ i:x1i ∈B1 ∑ i:x1i ∈B1 i:xni ∈Bn pX1 ,...,Xn (x1i , . . . , xni ) i:xni ∈Bn ··· n ∑ ∏ i:xni ∈Bn j=1 pXj (xji ) = n ∏ P (Xj ∈ Bj ) j=1 Autor: Leandro Chaves Rêgo 3.6. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 51 A parte (c) é uma consequência direta da parte (a) e da definição de função de densidade. Omitimos os detalhes. É fácil observar que utilizando, a definição de probabilidade condicional que se X e Y são independentes, então para todo A e B boreliano tal que P (Y ∈ B) > 0: P (X ∈ A|Y ∈ B) = P (X ∈ A), ou seja, se X e Y são independentes o conhecimento do valor de Y não altera a descrição probabilística de X. 3.5.3 Exemplos de Distribuições Multivariadas A Distribuição Multinomial Vamos dar o exemplo de uma distribuição conjunta de variáveis aleatórias, que pode ser considerada como uma generalização da distribuição binomial. Considere um experimento aleatório qualquer e suponha que o espaço amostral deste experimento é particionado em k eventos {A1 , A2 , . . . , Ak }, onde o evento Ai tem probabilidade pi . Suponha que se repita este experimento n vezes de maneira independente e seja Xi o número de vezes que o evento Ai ocorreu nestas n repetições. Então, P (X1 = n1 , X2 = n2 , . . . , Xk = nk ) = n! pn1 1 pn2 2 · · · pnk k , n1 !n2 ! · · · nk ! ∑ onde ki=1 ni = n. (Relembre que o número de maneiras de arranjar n objetos, n1 dos quais é de uma espécie, n2 dos quais é de uma segunda espécie, . . ., nk dos quais são de uma k-ésima espécie é dado pelo coeficiente multinomial n1 !n2n!!···nk ! .) A Distribuição Normal Bivariada Dizemos que o vetor aleatório (X, Y ) possui distribuição normal bivariada quando tem densidade dada por f (x, y) = 2πσ1 σ2 1 √ 1 − ρ2 exp{− 1 x − µ1 2 x − µ1 y − µ2 y − µ2 2 [( ) − 2ρ( )( ) + ( ) ]}, 2(1 − ρ2 ) σ1 σ1 σ2 σ2 onde σ1 > 0, σ2 > 0, −1 < ρ < 1, µ1 ∈ IR, µ2 ∈ IR. Se ρ = 0, esta densidade fatora e temos que X e Y são independentes. Se ρ ̸= 0, esta densidade não fatora e X e Y não são independentes. 3.6 Funções de Variáveis Aleatórias Muitas vezes sabemos a distribuição de probabilidade que descreve o comportamento de uma variável aleatória X definida no espaço mensurável (Ω, A), mas estamos interessados na descrição de uma função Y = H(X). Por exemplo, X pode ser uma mensagem enviada em um canal de telecomunicações e Y ser a mensagem recebida. Nosso problema é Autor: Leandro Chaves Rêgo 3.6. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 52 determinar P (Y ∈ A), onde A é um evento Boreliano, dado PX . Para determinarmos esta probabilidade, estaremos interessados na imagem inversas a função H, ou seja, a probabilidade do evento {Y ∈ A} será por definição igual a probabilidade do evento {X ∈ H −1 (A)}, onde H −1 (A) = {x ∈ IR : H(x) ∈ A}. Para que esta probabilidade esteja bem definida, precisamos restringir H tal que H −1 (A) seja um evento boreliano para todo A boreliano, caso contrário não poderemos determinar P ({X ∈ H −1 (A)}); uma função que satisfaz esta condição é conhecida como mensurável com respeito a A e B. Note que Y também pode ser vista como uma função do espaço amostral Ω, Y (ω) = H(X(ω)) para todo ω ∈ Ω. Visto dessa maneira Y é uma variável aleatória definida em (Ω, A), pois para todo boreliano A Y −1 (A) = X −1 (H −1 (A)) e como por suposição H −1 (A) é boreliano e X é uma variável aleatória, temos que X −1 (H −1 (A)) ∈ A e portanto satisfaz a definição de uma variável aleatória. Nesses problemas é sempre útil fazer um esboço do gráfico da transformação H para determinarmos quais são as regiões inversas H −1 (A). Vamos primeiro tratar este problema no caso de variáveis aleatórias discretas. Neste caso para qualquer função H, temos que Y = H(X) é uma variável aleatória discreta. Suponha que X assuma os valores x1 , x2 , . . . e seja H uma função real tal que Y = H(X) assuma os valores y1 , y2 , . . .. Vamos agrupar os valores que X assume de acordo os valores de suas imagens quando se aplica a função H, ou seja, denotemos por xi1 , xi2 , xi3 , . . . os valores de X tal que H(xij ) = yi para todo j. Então, temos que P (Y = yi ) = P (X ∈ {xi1 , xi2 , xi3 , . . .}) = ∞ ∑ P (X = xij ) = j=1 ∞ ∑ pX (xij ), j=1 ou seja, para calcular a probabilidade do evento {Y = yi }, acha-se o evento equivalente em termos de X, isto é, todos os valores xij de X tal que H(xij ) = yi e somam-se as probabilidades de X assumir cada um desses valores. Exemplo 3.6.1: Admita-se que X tenha os valores possíveis 1, 2, 3, . . . e suponha que P (X = n) = (1/2)n . Seja Y = 1 se X for par e Y = −1 se X for ímpar. Então, temos que P (Y = 1) = ∞ ∑ n=1 (1/2)2n = ∞ ∑ (1/4)n = n=1 1/4 = 1/3. 1 − 1/4 Consequentemente, P (Y = −1) = 1 − P (Y = 1) = 2/3. ⃗ de forma Podemos estender este resultado para uma função de um vetor aleatório X ⃗ denotemos por ⃗xi1 , ⃗xi2 , ⃗xi3 , . . . os valores de X ⃗ tal que análoga. Neste caso se Y⃗ = H(X), H(⃗xij ) = ⃗yi para todo j. Então, temos que ⃗ ∈ {⃗xi1 , ⃗xi2 , ⃗xi3 , . . .}) = P (Y⃗ = ⃗yi ) = P (X ∞ ∑ j=1 ⃗ = ⃗xij ) = P (X ∞ ∑ pX⃗ (⃗xij ), j=1 ou seja, para calcular a probabilidade do evento {Y⃗ = ⃗yi }, acha-se o evento equivalente ⃗ isto é, todos os valores ⃗xij de X ⃗ tal que H(⃗xij ) = ⃗yi e somam-se as em termos de X, ⃗ assumir cada um desses valores. probabilidades de X ⃗ é contínuo. Vamos ver agora um exemplo no caso em que X Autor: Leandro Chaves Rêgo 3.6. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 53 Exemplo 3.6.2: Se X ∼ U [0, 1], qual a distribuição de Y = − log(X)? Como 0<Y <∞⇔0<X<1 e P (0 < X < 1) = 1, temos FY (y) = 0, y ≤ 0. Se y > 0, então P (Y ≤ y) = P (− log(X) ≤ y) = P (X ≥ e−y ) = 1 − e−y , ou seja, Y ∼ Exp(1). Antes de prosseguirmos ao caso geral, vamos abrir um parênteses relembrar o que é o Jacobiano de uma função. Jacobiano de uma Função Dado um conjunto de n equações em n variáveis x1 , . . . , xn , y1 = f1 (x1 , ..., xn ), . . . , yn = fn (x1 , ..., xn ), a matriz Jacobiana é definida por ··· .. . ··· ∂y1 ∂x1 J = ... ∂yn ∂x1 ∂y1 ∂xn .. . ∂yn ∂xn O determinante de J é chamado de Jacobiano. Pode-se provar que o módulo Jacobiano nos dá a razão entre volumes n-dimensionais em ⃗y e ⃗x quando a maior dimensão ∆xi tende a zero. Deste modo, temos que o módulo do Jacobiano aparece quando queremos mudar as variáves de integração em integrais múltiplas, ou seja, existe um teorema do cálculo que afirma que se f : G0 → G for uma bijeção entre G0 e G, f e as derivadas parcias que aparecem na matriz Jacobiana forem funções contínuas em G0 , e o Jacobiano for diferente de zero para todo x ∈ G0 ∫ ∫ ∫ ∫ · · · g(y1 , . . . , yn )dy1 · · · dyn = · · · g(f1 (x1 , ..., xn ), . . . , fn (x1 , ..., xn ))|J|dx1 · · · dxn , A f −1 (A) para qualquer função g integrável em A ⊆ G. Vamos agora utilizar mudança de variáveis para resolver o seguinte exemplo da soma de duas variáveis aleatórias. Exemplo 3.6.3: Suponha que (X, Y ) tenha densidade conjunta f (x, y) e seja Z = X + Y . Neste caso, FZ (z) = P (Z ≤ z) = P (X + Y ≤ z) = P ((X, Y ) ∈ Bz ), onde Bz = {(x, y) : x + y ≤ z}. Portanto, ∫ ∞∫ FZ (z) = −∞ z−y f (x, y)dxdy. −∞ Autor: Leandro Chaves Rêgo 3.6. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 54 Fazendo a mudança de variáveis s = x + y, t = y, que tem jacobiano igual a 1, temos ∫ ∞∫ z ∫ z ∫ ∞ FZ (z) = f (s − t, t)dsdt = f (s − t, t)dtds. Logo, ∫∞ −∞ −∞ −∞ −∞ −∞ f (s − t, t)dt é a densidade da soma Z = X + Y , ou seja, ∫ fZ (z) = ∞ −∞ ∫ f (z − t, t)dt = ∞ −∞ f (s, z − s)ds, onde fizemos a troca de variáveis s = z − t para obter a última expressão. Se X e Y forem variáveis aleatórias independentes com densidades fX e fY , temos que f (x, y) = fX (x)fY (y), então, ∫ ∞ ∫ ∞ fX (z − t)fY (t)dt = fX (t)fY (z − t)dt = fX ∗ fY , fZ (z) = −∞ −∞ onde fX ∗ fY é conhecida como a convolução das densidades fX e fY . Vamos agora descrever o método do Jacobiano para funções mais gerais H. Suponha que G0 ⊆ IRn , G ⊆ IRn sejam regiões abertas, e que H : G0 → G seja uma bijeção entre G0 e G. ⃗ = H −1 Y⃗ . Suponha ainda que f é Logo, existe a função inversa H −1 em G, de modo que X ⃗ e que P (X ⃗ ∈ G0 ) = 1. Se as derivadas parciais de H −1 existirem a densidade conjunta de X e o Jacobiano J de H −1 for diferente de zero para todo ⃗y ∈ G, podemos utilizar o teorema da mudança de variáveis e obter que para B ⊆ G, B boreliano, temos ∫ ∫ −1 ⃗ ⃗ P (Y ∈ B) = P (X ∈ H (B)) = · · · f (x1 , . . . , xn )dx1 · · · dxn ∫ = ∫ ··· H −1 (B) f (H1−1 (y1 , . . . , yn ), . . . , Hn−1 (y1 , . . . , yn ))|J|dy1 · · · dyn . B ⃗ ∈ H −1 (G)) = P (X ⃗ ∈ G0 ) = 1, temos que para todo boreliano Como P (Y⃗ ∈ G) = P (X n B no IR , ∫ ∫ P (Y⃗ ∈ B) = P (Y⃗ ∈ B ∩G) = · · · f (H1−1 (y1 , . . . , yn ), . . . , Hn−1 (y1 , . . . , yn ))|J|dy1 · · · dyn . B∩G Esta última integral é igual a integral sobre o conjunto B da função que toma o valor f (H1−1 (y1 , . . . , yn ), . . . , Hn−1 (y1 , . . . , yn ))|J| para ⃗y ∈ G, e zero no caso contrário. Portanto, pela definição de densidade temos que { f (H1−1 (y1 , . . . , yn ), . . . , Hn−1 (y1 , . . . , yn ))|J|, se ⃗y ∈ G, fY⃗ (y1 , . . . , yn ) = 0, caso contrário. Observação 3.6.4: Autor: Leandro Chaves Rêgo 3.6. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 55 (a) Note que J é o Jacobiano da função inversa H −1 , em alguns casos pode ser útil obter J a partir do Jacobiano J ′ da função H através da relação J = J1′ |⃗x=H −1 (⃗y) . ⃗ quando a dimensão de Y⃗ é menor que a (b) Para obter a distribuição de Y⃗ = H(X) ⃗ muitas vezes é possível definir outras variáveis aleatórias Y ′ , . . . , Y ′ , dimensão de X 1 m utilizar o método do Jacobiano para determinar a densidade conjunta de Y⃗ , Y1′ , . . . , Ym′ e, finalmente, obter a densidade marginal conjunta de Y⃗ . Considere o seguinte exemplo: Exemplo 3.6.5: Suponha que X1 , X2 tem densidade conjunta dada por f (x, y) e que estamos interessados na distribuição de Y1 = X12 + X2 . Como esta não é uma transformação 1-1, ela não possui inversa. Vamos definir uma nova variável Y2 = X1 de modo que a função (Y1 , Y2 ) = H(X1 , X2 ) = (X12 + X2 , X1 ) possua uma função inversa diferenciável, (X1 , X2 ) = H −1 (Y1 , Y2 ) = (Y2 , Y1 − Y22 ). Deste modo temos que ( ) ( ) ∂x1 ∂x1 0 1 ∂y1 ∂y2 J = det ∂x2 ∂x2 = = −1 1 −2y2 ∂y1 ∂y2 Então temos que, fY1 ,Y2 (y1 , y2 ) = f (y2 , y1 − y22 ). Finalmente, para encontrarmos fY1 integramos sobre todos os possíveis valores da variável Y2 que introduzimos: ∫ ∞ fY1 = f (y2 , y1 − y22 )dy2 . −∞ (c) Podemos utilizar o método do Jacobiano em outros casos em que a função H não é 1-1. Para tanto, suponha que G, G1 , . . . , Gk sejam subregiões abertas do IRn tais que ⃗ ∈ ∪ki=1 Gi ) = 1, tais que a função H|G , a restrição G1 , . . . , Gk sejam disjuntas e P (X l de H a Gl , seja um correspondência 1-1 entre Gl e G, para l = 1, . . . , k. Suponha que para todo l, a função inversa de H|Gl satisfça as hipóteses do caso anterior, e seja Jl o Jacobiano da inversa de H|Gl . Pode-se provar que { ∑k −1 y ∈ G, l=1 f (H|Gl (y1 , . . . , yn ))|Jl |, se ⃗ fY⃗ (y1 , . . . , yn ) = 0, caso contrário. Autor: Leandro Chaves Rêgo Capítulo 4 Esperança e Momentos de Variáveis Aleatórias 4.1 O Conceito de Esperança O conceito de Esperança ou Valor Esperado de uma variável aleatória X, ou a “média” é tão antigo quanto o próprio conceito de probabilidade. Na verdade, é até possível definir probabilidade em termos de esperança, mas esta não é uma maneira comum de se apresentar a teoria. Existem quatro tipos de interpretações da Esperança: 1. Parâmetro m de uma medida de probabilidade, função de distribuição, ou função probabilidade de massa, também conhecido como média. 2. Um operador linear em um conjunto de variáveis aleatórias que retorna um valor típico da variável aleatória interpretado como uma medida de localização da variável aleatória. 3. média do resultado de repetidos experimentos independentes no longo prazo. 4. preço justo de um jogo com pagamentos descritos por X. 4.2 Definição da Esperança - Caso Discreto Vamos motivar a definição de esperança considerando o cálculo do resultado médio de 1000 lançamentos de um dado. Uma maneira de calcular este resultado médio seria somar todos os resultados e dividir por 1000. Uma maneira alternativa seria calcular a fração p(k) de todos os lançamentos que tiveram resultado igual a k e calcular o resultado médio através da soma ponderada: 1p(1) + 2p(2) + 3p(3) + 4p(4) + 5p(5) + 6p(6). Quando o número de lançamentos se torna grande as frações de ocorrência dos resultados tendem a probabilidade de cada resultado. Portanto, em geral definimos a esperança de uma variável discreta como uma soma ponderada onde as probabilidades são os pesos de ponderação. 56 4.2. DEFINIÇÃO DA ESPERANÇA - CASO DISCRETO 57 Definição 4.2.1: Se X é uma variável aleatória discreta assumindo valores {x1 , x2 , x3 , . . .} com probabilidade {p1 , p2 , p3 , . . .}, respectivamente, então sua esperança é dada pela fórmula ∑ ∑ EX = xi pi + xi pi , i:xi <0 i:xi ≥0 desde que pelo menos um dos somatórios seja finito. Em caso os dois somatórios não sejam finitos, a esperança não existe. Exemplo 4.2.2: Considere uma variável aleatória X tal que: P (X = −1) = 0.25, P (X = 0) = 0.5 e P (X = 2) = 0.25. Então, EX = −1(0.25) + 0(0.5) + 2(0.25) = 0.25. Exemplo 4.2.3: Considere uma variável aleatória X tal que: P (X = −a) = P (X = a) = 1/2. Então, EX = −a(0.5) + a(0.5) = 0. Note então que muitas variáveis aleatórias diferentes podem ter o mesmo valor esperado ou esperança. (É só variar o valor de a no exemplo anterior.) Exemplo 4.2.4: Aleatória. Se X ∈ {1, 2, . . . , n} for uma variável aleatória com distribuição de probabilidade aleatória com parâmetro n, temos que sua esperança é dada por: EX = n ∑ k=1 kp(k) = n n ∑ 1 1 n(n + 1) 1∑ n+1 k = k= = . n n n 2 2 k k Onde utilizamos a fórmula da soma dos primeiros n termos de uma progressão aritmética. Exemplo 4.2.5: Bernoulli. Se X ∈ {0, 1} for uma variável aleatória com distribuição de probabilidade Bernoulli com parâmetro p, temos que sua esperança é dada por: EX = 0(1 − p) + 1(p) = p. Exemplo 4.2.6: Binomial. Se X for uma variável aleatória com distribuição de probabilidade Binomial com parâmetros n e p, temos que sua esperança é dada por: ( ) n n ∑ ∑ n k n! n−k pk (1 − p)n−k EX = k p (1 − p) = k k k!(n − k)! k=0 k=1 ) n n ( ∑ ∑ (n − 1)! n − 1 k−1 k n−k n p (1 − p) = np p (1 − p)n−k = np. k − 1 (k − 1)!(n − k)! k=1 k=1 Onde utilizamos o Teorema Binomial na última igualdade. Autor: Leandro Chaves Rêgo 4.2. DEFINIÇÃO DA ESPERANÇA - CASO DISCRETO 58 Exemplo 4.2.7 : Geométrica. Se X for uma variável aleatória com distribuição de probabilidade Geométrica com parâmetro β, temos que sua esperança é dada por: EX = ∞ ∑ k(1 − β)β k = k=0 = (1 − β) ∞ ∑ ∞ ∑ j=1 k=j βk = ∞ ∑ k=1 ∞ ∑ k(1 − β)β k = βj = j=1 ∞ ∑ k ∑ (1 − β)β k k=1 j=1 β 1−β Onde utilizamos a fórmula da soma infinita de uma progressão geométrica com razão β. Exemplo 4.2.8: Binomial Negativa. Se X for uma variável aleatória com distribuição de probabilidade Binomial Negativa com parâmetros r e p, temos que sua esperança é dada por: ( ) ( ) ∞ ∞ ∑ ∑ k k r k−r+1 EX = k p (1 − p) =( (k + 1) pr (1 − p)k−r+1 ) − 1 r − 1 r − 1 k=r−1 k=r−1 =( ∞ ∑ (k + 1)k! pr (1 − p)k−r+1 ) − 1 (r − 1)!(k − r + 1)! k=r−1 ∞ (k + 1)! r ∑ = ( pr+1 (1 − p)k+1−r ) − 1 p k=r−1 r!(k + 1 − r)! Substituindo j = k + 1 e s = r + 1 no somatório, temos ∞ (j)! r ∑ r EX = ( ps (1 − p)j−s+1 ) − 1 = − 1 p j=s−1 (s − 1)!(j − s + 1)! p Onde utilizamos o fato que o somatório é igual soma da função probabilidade de massa de uma variável aleatória Binomial Negativa para todos os valores que tem probabilidade positiva, e portanto, é igual a 1. Exemplo 4.2.9: Poisson. Se X for uma variável aleatória com distribuição de probabilidade Poisson com parâmetros λ, temos que sua esperança é dada por: ∞ ∞ ∞ ∑ ∑ e−λ λk ∑ e−λ λk e−λ λk−1 EX = k = k =λ = λ. k! k! (k − 1)! k=0 k=1 k=1 Exemplo 4.2.10: Zeta. Se X for uma variável aleatória com distribuição de probabilidade Zeta com parâmetro α > 2, temos que sua esperança é dada por: ∞ ∞ ∑ 1 ∑ −(α−1) ζ(α − 1) k −α = , k = EX = k ζ(α) ζ(α) ζ(α) k=1 k=1 onde ζ(α) = ∑∞ k=1 k −α . Autor: Leandro Chaves Rêgo 4.3. AS INTEGRAIS DE RIEMMAN-STIELTJES E DE LEBESGUE-STIELTJES 59 Exemplo 4.2.11: Hipergeométrica. Se X for uma variável aleatória com distribuição de probabilidade Hipergeométrica com parâmetro N, D, n, temos que sua esperança é dada por: (D)(N −D) n n ∑ ∑ D!(N − D)!(N − n)!n! k n−k EX = k (N ) = k!(D − k)!(n − k)!(N − D − n + k)!N ! n k=0 k=1 (D−1)(N −D) n n nD ∑ (D − 1)!(N − D)!(N − n)!(n − 1)! nD ∑ k−1 n−k (N −1) = = N k=1 (k − 1)!(D − k)!(n − k)!(N − D − n + k)!(N − 1)! N k=1 n−1 Substituindo no somatório D∗ = D − 1, k ∗ = k − 1, n∗ = n − 1 e N ∗ = N − 1, temos (D∗ )(N ∗ −D∗ ) n∗ nD ∑ k∗ n∗ −k∗ nD (N ∗ ) = EX = . N k∗ =0 N ∗ n Onde utilizamos o fato que o somatório é igual soma da função probabilidade de massa de uma variável aleatória Hipergeométrica para todos os valores que tem probabilidade positiva, e portanto, é igual a 1. Antes de introduzirmos a definição geral da Esperança de uma variável aleatória qualquer, vamos estudar um pouco sobre as integrais de Riemann-Stieltjes e de Lebesgue-Stieltjes. 4.3 As integrais de Riemman-Stieltjes e de LebesgueStieltjes Antes de darmos as definições das integrais de Riemman-Stieltjes e Lebesgue-Stieltjes, vamos relembrar a definição da integral de Riemann. Uma partição P do intervalo [a, b] é uma seqüência de pontos {x1 , . . . , xn } tal que a = x1 < x2 < · · · < xn = b; a norma da partição P é definida como sendo max1≤i≤n−1 xi+1 − xi . Suponha que φ seja uma função real qualquer definida no intervalo [a, b]. Diz-se que esta função é Riemann integrável se as somas de Riemann n−1 ∑ φ(yi )(xi+1 − xi ), i=1 onde yi ∈ [xi , xi+1 ], convergem quando a norma de P tende a zero e este limite é independente ∫b da escolha dos yi ’s e da partição P . Se esta integral existe denota-se o limite por a φ(x)dx. A integral de Riemann-Stieltjes é uma generalização de integral de Riemann. Se φ é uma função contínua definida no intervalo [a, b] e F é uma função de distribuição, define-se a integral de Riemann-Stieltjes de φ em [a, b], em relação a F , como o limite de somas de Riemann da forma n−1 ∑ φ(yi )[F (xi+1 ) − F (xi )], i=1 Autor: Leandro Chaves Rêgo 4.3. AS INTEGRAIS DE RIEMMAN-STIELTJES E DE LEBESGUE-STIELTJES 60 onde a = x1 < x2 < · · · < xn = b, yi é um ponto arbitrário de [xi , xi+1 ], e toma-se o limite quando a norma de partição P tende a zero. Tal limite existe e é finito sob as condições descritas, e é representado por ∫ b φ(x)dF (x). a A função φ é chamada de integrando e F de integrador. O limite acima existe mesmo que F não seja uma função de distribuição basta que ela seja de variação limitada. Definição 4.3.1: Define-se variação total de uma função f em [a, b] pelo funcional: V (f, [a, b]) = sup n ∑ |f (xi+1 ) − f (xi )|, i=1 onde o supremo é tomado sobre todas as possíveis partições do intervalo fechado [a, b]. Uma função é de variação limitada se V (f, [a, b]) < ∞. A integral de Rieman-Stieltjes sobre a reta é uma integral imprópria definida da mesma maneira que a integral imprópria de Riemann: ∫ ∞ ∫ b φ(x)dF (x) = lim φ(x)dF (x), −∞ a→−∞,b→∞ a se o limite existe. Esta definição da integral de Riemann-Stietjes pode ser∫ estendida a outras b funções φ além das contínuas. Para uma função qualquer φ, define-se a φ(x)dF (x) como sendo o limite das somas de Riemann descritas acima quando a norma da partição tende a zero, se este limite existe e é independente das escolhas dos yi ’s e da partição P . O problema é que mesmo para funções bem simples este limite pode não existir como mostra o próximo exemplo: Exemplo 4.3.2: Seja F0 (x) = 1 se x ≥ 0, e F0 (x) = 0, caso contrário. Consideremos a integral de Riemann-Stieltjes de F0 em [−1, 1] em relação a F0 . Note que se zero não é um dos pontos da partição, de modo que xi < 0 < xi+1 para algum i, com F0 (xi+1 ) − F0 (xi ) = 1, então o somatório assume como valor escolhido para yi ser maior que 0, ou não. Uma integral mais robusta que não sofre desta deficiência é a integral de LebesgueStieltjes. A idéia da integral de Lebesgue-Stieltjes é particionar a imagem da função φ ao invés de particionar o seu domínio. Diz-se que uma partição P ′ é um refinamento de P se P ⊆ P ′ , ou seja, quando os intervalos da partição P são particionados na partição P ′ . Suponha que φ seja não negativa e mensurável em relação a σ-álgebra de Borel. Seja µ for uma medida nos reais, ou seja, uma função cujo domínio é a σ-álgebra de Borel que tem como imagem do conjunto vazio zero, é não-negativa e σ-aditiva. Dada uma seqüência {P1 , P2 , . . .} de partições de [0, ∞) onde Pn = {y1 , y2 , . . . , yn }, yn → ∞, Pi+i é um refinamento de Pi , e a norma de Pn tende a zero quando n → ∞, define-se a soma de Lebesgue em relação a partição Pn como sendo, n−1 ∑ yi µ({x : yi ≤ φ(x) < yi+1 }) + yn µ({x : φ(x) ≥ yn }). i=1 Autor: Leandro Chaves Rêgo 4.3. AS INTEGRAIS DE RIEMMAN-STIELTJES E DE LEBESGUE-STIELTJES 61 A integral de Lebesgue-Stieltjes de φ em relação a µ é definida como sendo igual ao limite das somas de Lebesgue, quando n∫→ ∞. Dadas as condições acima este limite sempre existe (pode ser +∞) e é denotado por φdµ. Para uma função mensurável φ qualquer, podemos escrever φ = φ+ − φ− , onde φ+ = max(φ, 0), a parte positiva de φ, e φ− = − min(φ, 0), o módulo da parte negativa de φ, são funções não-negativas e portanto possuem integral de Lebesgue-Stieltjes. Se φ+ ou φ− possui integral de Lebesgue-Stieltjes finita em relação a µ, define-se a integral de Lebesgue-Stieltjes de φ em relação a µ como sendo ∫ ∫ ∫ + φdµ = φ dµ − φ− dµ. Se µ for uma medida de probabilidade em (IR, B) e F for a distribuição ∫de probabilidade acumulada associada a variável aleatória X(ω) = ω, então escreve-se ∫ φ(x)dF (x) ∫ ∫ (ou simplesmente, φdF ) para denotar φdµ. Em geral, usa-se a notação φ(x)dF (x) não somente para funções de distribuição, mas para qualquer função F que pode ser escrita como a diferença de duas funções monótonas não-decrescentes, limitadas e contínuas à direita. Se G for uma função monótona não-decrescente, limitada e contínua à direita, então dado ∫ um intervalo qualquer I = [x1 , x2∫], defina ν(I) = G(x2 ) − G(x1 ), então usa-se a notação φ(x)dG(x) para denotar a integral φ(x)dν, onde ν é a única medida que satisfaz ν(I) = G(x2 ) − G(x1 ) para todo intervalo I. Desta forma, se F = G1 − G2 , onde ∫ G1 e G2 são funções monótonas não-decrescentes, ∫ ∫limitadas e contínuas à direita, então φ(x)dF (x) é utilizado para denotar φ(x)dG1 (x) − φ(x)dG2 (x). Dada um intervalo qualquer [a, b], define-se a integral de Lebesgue-Stieltjes de φ em ∫ ∫b relação a µ no intervalo [a, b] como sendo φI[a,b] dµ e denota-se por a φdµ. 4.3.1 Propriedades da Integral de Lebesgue-Stieltjes P1. Quando o integrando é contínuo, a integral de Lebesgue-Stieltjes torna-se uma integral de Riemman-Stieltjes. ∫b ∫b P2. a dF = F (b) − F (a). Análoga ao teorema fundamental do cálculo: a φ′ (x)dx = φ(b) − φ(a), onde φ(x) é a derivada de φ. P3. Linearidade no integrando e no integrador. Se φ(x) = αf (x) + βg(x), temos ∫ ∫ ∫ φdF = α f dF + β gdF, e para H(x) = αF (x) + βG(x), temos ∫ ∫ ∫ φdH = α φdF + β φdG. P4. Aditividade. Se −∞ ≤ a < b < c ≤ ∞, então ∫ c ∫ b ∫ c φdF = φdF + φdF. a a b Autor: Leandro Chaves Rêgo 4.4. DEFINIÇÃO DA ESPERANÇA - CASO GERAL 62 P5. Se F for a função de distribuição de uma variável aleatória discreta, ou seja, se F (x) = ∞ ∑ pi U (x − xi ), i=1 onde P (X = xi ) = pi e ∑∞ i=1 pi = 1, então ∫ φdF = ∞ ∑ pi φ(xi ). i=1 P6. Se F for a função de distribuição de uma variável aleatória contínua, tendo densidade f , temos dFdx(x) = f (x) em quase toda parte, e conseqüentemente, ∫ ∫ φ(x)dF (x) = φ(x)f (x)dx. P7. No caso de uma distribuição geral F , vimos que F pode ser decomposta em suas partes discreta, contínua e singular da seguinte forma F = Fd +Fac +Fs , então por linearidade do integrador: ∫ ∫ ∫ ∫ φ(x)dF (x) = φ(x)dFd (x) + φ(x)dFac (x) + φ(x)dFs (x). Se a parte singular for nula, Fs (x) = 0, ∀x, então: ∫ ∫ ∑ φ(x)dF (x) = φ(xi )pi + φ(x)f (x)dx, i onde pi é o salto de F em xi e f é a derivada de F . 4.4 Definição da Esperança - Caso Geral Vamos agora motivar a definição da Esperança no caso geral. Consideremos uma seqüência {P1 , P2 , . . .} de partições de [0, ∞) onde Pn = {y1 , y2 , . . . , yn }, yn → ∞, Pi+i é um refinamento de Pi , e a norma de Pn tende a zero quando n → ∞. Dada uma variável aleatória não-negativa qualquer X e uma partição Pn desta seqüência, definamos uma outra variável aleatória Y discreta que aproxima X assumindo o valor yi quando yi ≤ X < yi+1 e Y = yn ∑ y I se X ≥ yn , ou seja, Y = n−1 i=1 i [yi ≤X<yi+1 ] + yn I[X≥yn ] . Como Y é discreta temos que sua esperança é dada por EY = n ∑ i=1 yi P (Y = yi ) = n−1 ∑ yi P (yi ≤ X < yi+1 ) + yn P (X ≥ yn ). i=1 Note que esta esperança é uma soma de Lebesgue em relação a partição Pn com integrando X e função integradora dada pela medida de probabilidade P . Note que a medida que pegamos Autor: Leandro Chaves Rêgo 4.4. DEFINIÇÃO DA ESPERANÇA - CASO GERAL 63 partições mais refinadas na seqüência, Y se torna cada vez uma melhor aproximação para X. Já que os valores de X e Y ficam cada vez mais próximos é intuitivo requerer que nossa definição de esperança (média) EX seja igual ao limite de EY quando n → ∞, ou seja EX = lim n→∞ n ∑ i=1 yi P (Y = yi ) = lim n→∞ n−1 ∑ ∫ yi P (yi ≤ X < yi+1 ) + yn P (X ≥ yn ) = XdP. i=1 Logo, EX é definida como sendo a integral de Lebesgue-Stieltjes de X em relação a medida ∫ de probabilidade P , ou similarmente, EX = XdF , onde F é a função de distribuição acumulada de X. No caso geral, temos a seguinte definição Definição 4.4.1: Se X é uma variável aleatória com função de distribuição F , então sua esperança é dada pela fórmula ∫ ∞ ∫ ∫ 0 XdF, XdF + EX = XdF = −∞ 0 desde que pelo menos uma das integrais seja finita. Em caso as duas integrais não sejam finitas, a esperança não existe. Caso EX seja finita, diz-se que X é integrável. Pela Propriedade P7 da integral de Lebesgue-Stieltjes, temos que se F = Fd + Fac + Fs , então ∫ ∫ ∫ ∑ EX = XdF = xi pi + xf (x)dx + xdFs (x), i onde pi é o salto de F em xi e f é a derivada de F . Como a parte singular costuma ser nula, na prática a esperança reduz-se a uma série e/ou uma integral imprópria, usualmente de Riemann se f for integrável a Riemann. Exemplo 4.4.2: Considere uma variável aleatória Y com função de distribuição F , tal que 0 , se x < 0 x , se 0 ≤ x < 1/2 F (x) = 1 , se x ≥ 1/2. Decompondo em parte discreta e contínua tem-se { 0 , se x < 1/2 Fd (x) = 1/2 , se x ≥ 1/2, e , se x < 0 0 x , se 0 ≤ x < 1/2 Fac (x) = 1/2 , se x ≥ 1/2. Portanto, 1 1 EY = P (Y = ) + 2 2 ∫ 1/2 ydy = 0 1 1 3 + = . 4 8 8 Autor: Leandro Chaves Rêgo 4.4. DEFINIÇÃO DA ESPERANÇA - CASO GERAL 64 Exemplo 4.4.3: Uniforme. Se X ∼ U (a, b), então X possui densidade igual a f (x) = se x ∈ (a, b), e f (x) = 0, caso contrário. Logo, temos que sua esperança é dada por: ∫ b x a+b EX = dx = . 2 a b−a 1 b−a Exemplo 4.4.4 : Exponencial. Se X ∼ Exp(λ), então X possui densidade igual a fX (x) = λe−λx U (x). Logo, temos que sua esperança é dada por: ∫ ∞ ∫ ∞ −e−λx ∞ 1 −λx −λx ∞ EX = xλe dx = −xe |0 + e−λx dx = | = . λ 0 λ 0 0 Normal. Se X ∼ N (m, σ), então X possui densidade igual a fX (x) = Exemplo 4.4.5: √1 e σ 2π −(x−m)2 2σ 2 . Logo, temos que sua esperança é dada por: ∫ EX = ∞ −(x−m)2 1 x √ e 2σ2 dx. −∞ σ 2π Fazendo a mudança de variável y = x−m , temos σ ∫ ∞ ∫ ∞ ∫ ∞ σy + m −y2 σy −y2 m −y2 2 2 √ √ e dy + √ e 2 dy = 0 + m = m. EX = e dy = 2π 2π 2π −∞ −∞ −∞ Exemplo 4.4.6: Cauchy. Se X ∼ Cauchy(a), então X possui densidade igual a fX (x) = 1 · a . Neste caso X não é integrável, ou seja EX não está definida, pois: π a2 +x2 ∫ 0 −∞ ∫ ∞ 0 4.4.1 x a · 2 dx = −∞, e π a + x2 x a · 2 dx = ∞. π a + x2 Interpretação Geométrica da Esperança ∫ Por definição, EX = xdF (x), ou seja, EX é a integral da diferencial xdF . Mas xdF é uma diferencial de área. Para x > 0, xdF é uma diferencial da área da região compreendida entre ∫ ∞ as curvas x = 0, y = 1, e y = F (x) no plano Euclideano, cuja área total é dada por (1 − F (x))dx. Para x < 0, −xdF é uma diferencial da área da região compreendida 0 entre (x) no plano Euclideano, cuja área total é dada por ∫ 0 as curvas x = 0, y = 0, e y = F ∫∞ ∫0 F (x)dx. Logo, temos que EX = 0 (1−F (x))dx− −∞ F (x)dx. Formalmente, podemos −∞ ∫∞ provar isso da seguinte maneira. A prova será dividida em duas etapas: (a) 0 xdF (x) = ∫∞ ∫0 ∫0 (1 − F (x))dx e (b) −∞ xdF (x) = − −∞ F (x)dx. Comecemos provando (b). Utilizando 0 integração por partes, temos que ∀a < 0, ∫ 0 ∫ 0 ∫ 0 xdF (x) = −aF (a) − F (x)dx = [F (a) − F (x)]dx. a a a Autor: Leandro Chaves Rêgo 4.4. DEFINIÇÃO DA ESPERANÇA - CASO GERAL Como F (a) ≥ 0 e a < 0, temos ∫ ∫ 0 0 xdF (x) ≥ − a 65 F (x)dx. a Como a desigualdade é válida para todo a < 0, temos que tomando o limite quando a → −∞ ∫ 0 ∫ 0 xdF (x) ≥ − F (x)dx. −∞ −∞ Por outro lado, seja λ < 0. Se a < λ, então ∫ ∫ 0 ∫ 0 [F (a) − F (x)]dx = F (a)(−λ) − [F (a) − F (x)]dx ≤ F (x)dx, λ λ a 0 e portanto, tomando o limite quando a → −∞, temos que ∫ 0 ∫ 0 xdF (x) ≤ − F (x)dx. −∞ λ Como isto é válido para todo λ < 0, tomando o limite quando λ → −∞, temos ∫ 0 ∫ 0 xdF (x) ≤ − F (x)dx, −∞ −∞ como queríamos demonstrar. Para parte (a), utilizando integração por partes, temos que ∀b > 0, ∫ b ∫ b ∫ b xdF (x) = bF (b) − F (x)dx = [F (b) − F (x)]dx. 0 0 0 Como F (b) ≤ 1 e 1 − F (x) ≥ 0, temos ∫ b ∫ b ∫ xdF (x) = [F (b) − F (x)]dx ≤ 0 0 ∞ [1 − F (x)]dx. 0 Como a desigualdade é válida para todo b > 0, temos que tomando o limite quando b → ∞ ∫ ∞ ∫ ∞ xdF (x) ≤ [1 − F (x)]dx. 0 0 Por outro lado, seja λ > 0. Se b > λ, então ∫ b ∫ λ ∫ λ ∫ λ [F (b) − F (x)]dx ≥ [F (b) − F (x)]dx = [F (b) − 1]dx + [1 − F (x)]dx 0 0 0 0 ∫ λ = λ[F (b) − 1] + [1 − F (x)]dx, 0 e portanto, tomando o limite quando b → ∞, temos que ∫ ∞ ∫ λ xdF (x) ≥ [1 − F (x)]dx. 0 0 Como isto é válido para todo λ > 0, tomando o limite quando λ → ∞, temos ∫ ∞ ∫ ∞ xdF (x) ≥ [1 − F (x)]dx, 0 0 como queríamos demonstrar. Autor: Leandro Chaves Rêgo 4.5. ESPERANÇA DE FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 4.5 66 Esperança de Funções de Variáveis Aleatórias Vamos iniciar considerando o caso discreto. 4.5.1 Caso Discreto Como vimos anteriormente, se X for uma variável aleatória discreta e se Y = H(X), então Y também será uma variável aleatória discreta. Conseqüentemente, pode-se calcular EY . Existem duas maneiras de calcular EY que são equivalentes. Definição 4.5.1: Seja X uma variável aleatória discreta e seja Y = H(X). Se Y assumir os seguintes valores y1 , y2 , . . . e se p(yi ) = P (Y = yi ), definimos: EY = ∞ ∑ yi p(yi ). i=1 Conforme vimos no capítulo anterior podemos determinar as probabilidades p(yi ) dado que sabemos a distribuição de X. No entanto, podemos encontrar EY sem preliminarmente encontrarmos a distribuição de probabilidade de Y , partindo-se apenas do conhecimento da distribuição de probabilidade de X, conforme mostra o seguinte teorema. Teorema 4.5.2: Seja X uma variável aleatória discreta assumindo os valores x1 , x2 , . . . e seja Y = H(X). Se p(xi ) = P (X = xi ), temos EY = E(H(X)) = ∞ ∑ H(xi )p(xi ). i=1 ∑∞ Prova: Vamos re-ordenar o somatório i=1 H(xi )p(xi ), agrupando os termos onde xi tem a mesma imagem de acordo com a função H, ou seja, sejam xi1 , xi2 , . . ., todos os valores xi tal que H(xij ) = yi para j ≥ 1, onde y1 , y2 , . . . são os possíveis valores de Y . Desse modo podemos reescrever ∞ ∑ ∞ ∑ ∞ ∑ H(xi )p(xi ) = i=1 H(xij )p(xij ) = i=1 j=1 ∞ ∑ yi i=1 ∞ ∑ p(xij ) = j=1 ∞ ∑ yi p(yi ) = EY. i=1 Exemplo 4.5.3: Suponha que X é uma variável aleatória Poisson com parâmetro λ. Seja Y = X 2 , vamos calcular EY . Utilizando o Teorema 4.5.2, temos EY = =λ ∞ ∑ k 2 −λ λ k e k=0 ∞ ∑ 2 −λ e k=2 k! = ∞ ∑ k=1 2 −λ λ k e k k! = ∞ ∑ k=1 k(k − 1)e −λ λ k k! + ∞ ∑ k=1 ke−λ λk k! k−2 λ + λ = λ2 + λ. (k − 2)! Também podemos estender este resultado para o caso de uma função real de um vetor ⃗ temos que EY = ∑ H(⃗ aleatório. Neste caso, se Y = H(X), xi )pX⃗ (⃗ xi ), onde os x⃗i são os i ⃗ valores assumidos pelo vetor aleatório X. Autor: Leandro Chaves Rêgo 4.6. PROPRIEDADES DA ESPERANÇA 4.5.2 67 Caso Geral No caso de uma variável aleatória qualquer X também podemos calcular a esperança de uma função Y = φ(X) de forma similar. Teorema 4.5.4: Seja X uma variável aleatória qualquer, Y = φ(X) uma outra variável aleatória, então ∫ ∫ EY = ydFY (y) = φ(x)dFX (x), desde que estas integrais existam. Prova: A prova no caso geral envolve Teoria da Medida e será omitida. Uma fórmula análoga também é válida quando consideramos funções de vetores aleatórios. ⃗ um vetor aleatório e Y = φ(X) ⃗ uma variável aleatória. Então, Teorema 4.5.5: Seja X ∫ ∫ EY = ydFY (y) = φdFX⃗ . 4.6 Propriedades da Esperança As seguintes propriedades são aplicações imediatas da definição de esperança: 1. P (X = c) = 1 ⇒ EX = c. 2. P (X ≥ 0) = 1 ⇒ EX ≥ 0. 3. E(aX) = aEX, onde a um número real qualquer. Esta propriedade segue facilmente da expressão da esperança de uma função de variável aleatória. 4. E(X + Y ) = EX + EY . No caso discreto, note que ∑∑ ∑ ∑ ∑∑ E(X + Y ) = (xi + yj )p(xi , yj ) = xi p(xi , yj ) + yj p(xi , yj ) = ∑ i i xi p(xi ) + j ∑ j yj ∑ i p(xi , yj ) = EX + i ∑ j i j yj p(yj ) = EX + EY. j No caso geral, temos que ∫ ∫ E(X + Y ) = E(φ(X, Y )) = (x + y)dFX,Y (x, y), e pela linearidade da integral obtemos ∫ ∫ ∫ ∫ E(X + Y ) = xdFX,Y (x, y) + ydFX,Y (x, y) = EX + EY. Autor: Leandro Chaves Rêgo 4.6. PROPRIEDADES DA ESPERANÇA Corolário 4.6.1: E( ∑n i ai Xi ) = ∑n i 68 ai EXi . Prova: Aplicação das duas propriedades anteriores e indução matemática. 5. P (X ≥ Y ) = 1 ⇒ EX ≥ EY . Propriedade 5 segue da propriedades 2 e do corolário anterior, pois P (X ≥ Y ) = P (X − Y ≥ 0), o que, pela propriedade 2, implica que E(X − Y ) ≥ 0. Pelo corolário, temos que E(X − Y ) = EX − EY , ou seja podemos concluir que EX − EY ≥ 0. ∏n 6. Se ∏n{X1 , . . . , Xn } são variáveis aleatórias mutuamente independentes, então E( i=1 Xi ) = i=1 EXi . Provaremos esta propriedade nos casos discreto e contínuo. No caso discreto, note que n ∏ ∑ ∑ E( Xi ) = ··· xi1 · · · xin p(xi1 , . . . , xin ) i=1 = ∑ i1 ··· ∑ i1 in xi1 · · · xin in n ∏ p(xij ) = j=1 ∑ xi1 p(Xi1 ) · · · i1 No caso contínuo, temos que fX⃗ (⃗x) = ∏n i=1 ∑ xin p(xin ) = in n ∏ EXi . i=1 fXi (xi ), logo ∫ ∫ n ∏ E( Xi ) = · · · x1 · · · xn fX⃗ (⃗x)dx1 · · · dxn i=1 ∫ = ··· ∫ ∏ n xi fXi (xi )dx1 · · · dxn = i=1 n ∫ ∏ xi fXi (xi )dxi = n ∏ EXi . i=1 i=1 De maneira análoga, pode-se provar a seguinte generalização deste se {X1 , . . . , Xn } ∏n resultado: ∏ são variáveis aleatórias mutuamente independentes, então E( i=1 G(Xi )) = ni=1 EG(Xi ). 7. Se Y for uma variável aleatória que assume valores inteiros não-negativos, temos que EY = ∞ ∑ kP (Y = k) = k=1 ∞ ∑ k ∑ P (Y = k), k=1 j=1 trocando a ordem dos somatórios: EY = ∞ ∑ ∞ ∑ j=1 k=j P (Y = k) = ∞ ∑ P (Y ≥ j). j=1 8. (Desigualdade de Jensen) Seja φ uma função mensurável e convexa definida na reta. Se X é integrável, então Eφ(X) ≥ φ(EX). Autor: Leandro Chaves Rêgo 4.6. PROPRIEDADES DA ESPERANÇA 69 Prova: Pela convexidade de φ, dado algum ponto (x0 , φ(x0 ) do gráfico de φ, existe uma reta que passa por esse ponto e fica sempre abaixo do gráfico de φ, ou seja, existe algum λ tal que φ(x) ≥ φ(x0 ) + λ(x − x0 ), ∀x. Logo, pela monotonicidade e linearidade da esperança, temos Eφ(X) ≥ φ(x0 ) + λ(EX − x0 ). Em particular, para x0 = EX, temos Eφ(X) ≥ φ(EX). O próximo Lema estabelece um critério para integrabilidade de variáveis aleatórias. Lema 4.6.2: Seja X uma variável aleatória qualquer. Então, ∞ ∑ P (|X| ≥ n) ≤ E|X| ≤ 1 + n=1 e, portanto, X é integrável se, e somente se, ∑∞ n=1 ∞ ∑ P (|X| ≥ n), n=1 P (|X| ≥ n) < ∞. Prova: Se x ≥ 0, seja ⌊x⌋ a parte inteira de x. Então, a variável aleatória ⌊|X|⌋ assume o valor k quando k ≤ |X| < k + 1 e 0 ≤ ⌊|X|⌋ ≤ |X| ≤ ⌊|X|⌋ + 1, então pela monotonicidade e linearidade da esperança temos: 0 ≤ E⌊|X|⌋ ≤ E|X| ≤ 1 + E⌊|X|⌋. Como ⌊|X|⌋ é uma variável aleatória que só assume valores inteiros não-negativos, temos E⌊|X|⌋ = ∞ ∑ P (⌊|X|⌋ ≥ n) = n=1 logo ∞ ∑ n=1 P (|X| ≥ n) ≤ E|X| ≤ 1 + ∞ ∑ P (|X| ≥ n), n=1 ∞ ∑ P (|X| ≥ n). n=1 Se X + = max(X, 0) e X − = − min(X, 0), temos que X = X + − X − e |X| = X + + X − . Por definição, temos que EX < ∞ se, e somente se, EX + < ∞ e EX − < ∞. Portanto, vemos que EX < ∞ se, e somente se, E|X| < ∞. De forma análoga, pode-se concluir que Eφ(X) < ∞ se, e somente se, E|φ(X)| < ∞ para qualquer função mensurável φ. O próximo teorema nos dá um outro critério para integrabilidade de uma variável aleatória. Teorema 4.6.3 : Sejam X e Y variáveis aleatórias tais que Y ≥ 0, Y é integrável, e |X| < Y . Então, X é integrável. Prova: Note que 0 ≤ |X| ≤ Y implica que 0 ≤ E|X| ≤ EY . Portanto, se EY < ∞, temos que E|X| < ∞, o que por sua vez implica que EX < ∞. Autor: Leandro Chaves Rêgo 4.7. MOMENTOS 4.7 70 Momentos Momentos dão informações parciais sobre a medida de probabilidade P , a função de distribuição acumulada, ou a função probabilidade de massa de uma variável aleatória X. Momentos de X são esperanças de potências de X. Definição 4.7.1: Para qualquer inteiro não-negativo n, o n-ésimo momento da variável aleatória X é EX n , se esta esperança existe. Na seção anterior, vimos que o segundo momento de uma variável aleatória Poisson com parâmetro λ é dado por: λ2 + λ. Vamos agora calcular o segundo momento de uma variável aleatória X Binomial com parâmetros n e p: ( ) n n ∑ ∑ n! 2 2 n k n−k EX = k p (1 − p) = k2 pk (1 − p)n−k = k k!(n − k)! k=0 k=1 n ∑ n ∑ n! n! pk (1 − p)n−k + k pk (1 − p)n−k k!(n − k)! k!(n − k)! k=1 k(k − 1) k=1 n(n − 1)p 2 n ∑ k=2 = n(n − 1)p 2 (n − 2)! pk−2 (1 − p)n−k + np (k − 2)!(n − k)! m ∑ j=0 (m)! pj (1 − p)m−j + np = n(n − 1)p2 + np. (j)!(m − j)! Teorema 4.7.2: Se o k-ésimo momento de uma variável aleatória existir, então todos os momentos de ordem menores do que k também existem. Prova: Por hipótese, temos que E|X k | < ∞, logo E(1 + |X k |) < ∞. Como para qualquer j tal que 0 < j < k, |X j | ≤ 1 + |X k |, e 1 + |X k | é integrável, temos que |X j | também é integrável. Vamos agora enunciar dois teoremas importantes que tratam da convergência de esperanças de variáveis aleatórias. Neste caso, estaremos tratando de convergência pontual de variáveis aleatórias, ou seja, Xn → X se, e somente se, Xn (w) → X(w) para todo w ∈ Ω. No próximo capítulo, veremos outras noções de convergência de variáveis aleatórias. Teorema 4.7.3: Teorema da Convergência Monótona. Sejam X, X1 , X2 , . . . variáveis aleatórias. Se 0 ≤ Xn ↑ X, então, EXn ↑ EX. Teorema 4.7.4: Teorema da Convergência Dominada. Sejam Y, X, X1 , X2 , . . . variáveis aleatórias. Considere que Y seja integrável, |Xn | ≤ Y e Xn → X. Assim X e Xn são integráveis e EXn → EX. O próximo exemplo mostra que nem sempre Xn → X ⇒ EXn → EX. Exemplo 4.7.5: Seja Y ∼ U (0, 1). Considere a seguinte seqüência {X1 , X2 , . . .} de variáveis aleatórias: Xn (ω) = n se Y (ω) ∈ (0, 1/n) e Xn (ω) = 0 em caso contrário. Então, temos que Xn (ω) → 0, ∀ω. Mas, EXn = 1 ̸= 0 = E0, ou seja, EXn 9 0. Autor: Leandro Chaves Rêgo 4.7. MOMENTOS 4.7.1 71 Momentos Centrais Definição 4.7.6: Se X é uma variável aleatória seu n-ésimo momento central é: E(X − EX)n , se esta esperança existir. Note que o primeiro momento central é zero, pois E(X − EX) = EX − EEX = EX − EX = 0. O segundo momento central é conhecido como variância e denota-se por V arX. A variância pode ser também calculada por: V arX = E(X − EX)2 = E(X 2 − 2XEX + (EX)2 ) = EX 2 − 2E(XEX) + E((EX)2 ) = EX 2 − 2(EX)2 + (EX)2 = EX 2 − (EX)2 . Do Teorema Binomial e da linearidade da esperança, temos n ( ) ∑ n E(X − EX) = (−EX)n−k EX k k k=0 n e EX = E(X − EX + EX) = n n n ( ) ∑ n k=0 k (EX)n−k E(X − EX)k . Como um corolário, temos que o n-ésimo momento central existe se, e somente se, o n-ésimo momento existe. Exemplo 4.7.7: Considere uma variável aleatória X tal que P (X = m − a) = P (X = m + a) = 1 1 ⇒ EX k = [(m − a)k + (m + a)k ]. 2 2 1 EX = m, EX 2 = [2m2 + 2a2 ] = m2 + a2 , V arX = a2 . 2 Este exemplo, mostra que podemos encontrar uma variável aleatória bem simples possuindo qualquer esperança e variância predeterminadas. O desvio-padrão√ σ de uma variável aleatória X é definido como a raiz quadrada da variância, σ(X) = V arX. Propriedades da Variância e de outros Momentos As seguintes propriedades da variância são conseqüências imediatas de sua definição. 1. V arX ≥ 0. 2. Se X = c, V ar(X) = 0. Prova: Temos que EX = c, logo V ar(X) = E(X − c)2 = E(0) = 0. Autor: Leandro Chaves Rêgo 4.7. MOMENTOS 72 3. V ar(X + a) = V arX, onde a é uma constante real. Prova: V ar(X + a) = E(X + a)2 − (E(X + a))2 = EX 2 + 2aEX + a2 − (EX)2 − 2aEX − a2 = EX 2 − (EX)2 = V arX. 4. V ar(aX) = a2 V arX Prova: V ar(aX) = E(aX)2 − (E(aX))2 = a2 EX 2 − a2 (EX)2 = a2 V arX. 5. Se X e Y forem variáveis aleatórias mutuamente independentes, então V ax(X + Y ) = V arX + V arY . Prova: V ar(X + Y ) = E(X + Y )2 − [E(X + Y )]2 = E(X 2 + 2XY + Y 2 ) − (EX)2 − 2EXEY − (EY )2 = EX 2 + EY 2 − (EX)2 − (EY )2 + 2E(XY ) − 2EXEY = V arX + V arY 6. Se X1 , . . . , Xn são variáveis aleatórias independentes, então V ar(X1 +· · · Xn ) = V arX1 + · · · + V arXn . Esta propriedade segue da propriedade anterior e de uma aplicação de indução matemática. 7. Desigualdade de Chebyshev Generalizada. Dado um conjunto A e uma função g(x) tal que ∀x g(x) ≥ IA (x), tem-se que P (X ∈ A) ≤ min(1, Eg(X)). Prova: Pela monotonicidade da Esperança, temos que Eg(X) ≥ EIA (X) = P (X ∈ A). Mas, como a cota superior pode exceder 1, temos que min(1, Eg(X)) ≥ P (X ∈ A). Corolário 4.7.8: Seja X uma variável aleatória, então para todo ϵ > 0, P (|X| ≥ ϵ) ≤ E|X| . ϵ Prova: Escolha A = {x : |x| ≥ ϵ} e g(x) = P (|X| ≥ ϵ) ≤ E|X| . ϵ |x| . ϵ Note que g(x) ≥ IA (x), então Corolário 4.7.9: Se Z ≥ 0 e EZ = 0, então P (Z = 0) = 1. Autor: Leandro Chaves Rêgo 4.7. MOMENTOS 73 Prova: P (Z ≥ n1 ) ≤ nEZ = 0. Como [Z > 0] = ∪n [Z ≥ n1 ], temos que P (Z > 0) = P (∪n [Z ≥ ∑ 1 1 ]) ≤ P (Z ≥ ) = 0. n n n Portanto, P (Z = 0) = 1 − P (Z > 0) = 1. Note que este último corolário implica que, quando V ar(X) = 0, ou seja E(X−EX)2 = 0, temos que P (X = EX) = 1, ou seja X é constante com probabilidade 1. Corolário 4.7.10: Desigualdade (Original) de Chebyshev. Seja X uma variável aleatória, então P (|X − EX| ≥ ϵ) ≤ V arX . ϵ2 2 Prova: Escolha A = {x : |x| ≥ ϵ} e g(x) = xϵ2 . Note que g(x) ≥ IA (x), então pelo 2 teorema anterior, P (X ∈ A) = P (|X| ≥ ϵ) ≤ EX . Substituindo X por X − EX, ϵ2 V arX temos P (|X − EX| ≥ ϵ) ≤ ϵ2 . Note que a desigualdade de Chebyshev converte conhecimento sobre um momento de segunda ordem ou uma variância numa cota superior para a probabilidade da cauda de uma variável aleatória. 8. Se X e Y são variáveis aleatórias em (Ω, A, P ) tais que E|X t | < ∞ e E|Y t | < ∞, então E|X + Y |t < ∞. Prova: |X + Y | ≤ |X| + |Y | ≤ 2 max(|X|, |Y |). Portanto, |X + Y |t ≤ 2t max(|X|t , |Y |t ) ≤ 2t (|X|t + |Y |t ). Logo, E|X + Y |t ≤ 2t (E|X|t + E|Y |t ) < ∞. Como E|X|t < ∞ obviamente implica E|aX|t < ∞, ∀a ∈ IR, esta propriedade diz que a classe de variáveis aleatórias em (Ω, A, P ) possuidoras do t-ésimo momento finito é um espaço vetorial ou espaço linear. 9. V arX = E(X − µ)2 = minc∈IR E(X − c)2 . Prova: (X − c)2 = (X − µ + µ − c)2 = (X − µ)2 + 2(µ − c)(X − µ) + (µ − c)2 , logo E(X − c)2 = E(X − µ)2 + 2(µ − c)(EX − µ) + (µ − c)2 = V arX + (µ − c)2 . Portanto, E(X − c)2 ≥ E(X − µ)2 , ∀c ∈ IR. Autor: Leandro Chaves Rêgo 4.8. MOMENTOS CONJUNTOS 4.8 74 Momentos Conjuntos Podemos definir a noção de momento quando lidamos com vetores aleatórios. ⃗ = (X1 , X2 , . . . , Xk ) um vetor aleatório k-dimensional. Então, os Definição 4.8.1: Seja X ⃗ são da forma E(∏k X ji ), onde ji ’s são inteiros positivos, se momentos conjuntos de X i i=1 esta esperança existir. De forma análoga ao caso unidimensional pode-se definir também momentos conjuntos centrais. No caso bidimensional, temos que a correlação e a covariância são momentos conjuntos que são medidas do grau de dependência linear entre duas variáveis. Definição 4.8.2: A correlação entre duas variáveis aleatórias X e Y é dada por EXY se esta esperança existe. A covariância entre elas é dada por Cov(X, Y ) = E[(X − EX)(Y − EY )] = EXY − (EX)(EY ). Note que Cov(X, X) = V arX. Pela prova da propriedade 5 de variância, vemos que a seguinte relação é válida: V ar(X + Y ) = V arX + V arY + 2Cov(X, Y ). Diz-se que duas varáveis são não-correlacionadas se Cov(X, Y ) = 0. Como já provamos que se X e Y são independentes, então EXY = EXEY . Temos que se X e Y são independentes, elas necessariamente são não-correlacionadas. O contrário nem sempre é verdadeiro como o próximo exemplo ilustra. Exemplo 4.8.3: Se X é uma variável aleatória tal que P (X = −a) = P (X = a) = 1/2 e Y = X 2 , temos que EXY = −a3 (1/2) + a3 (1/2) = 0 e EX = −a(1/2) + a(1/2) = 0. Logo, EXY = EXEY = 0, ou seja, Cov(X, Y ) = 0. Porém, X e Y não são independentes, pois Y é uma função de X. Vejamos agora uma expressão para a variância da soma de n variáveis aleatórias. Teorema 4.8.4: Sejam X1 , X2 , . . . , Xn variáveis aleatórias tais que V ar(Xi ) < ∞, então V ar(X1 + · · · + Xn ) = n ∑ V arXi + 2 i=1 ∑ Cov(Xi , Xj ). i<j Prova: V ar(X1 + · · · + Xn ) = E(X1 + · · · + Xn − E(X1 + · · · + Xn ))2 n n ∑ ∑ ∑ 2 = E( (Xi − EXi )) = E[ (Xi − EXi )2 + 2 (Xi − EXi )(Xj − EXj )] = i=1 n ∑ ∑ i=1 i<j V ar(Xi ) + 2 i=1 i<j Cov(Xi , Xj ). Autor: Leandro Chaves Rêgo 4.8. MOMENTOS CONJUNTOS 75 Corolário 4.8.5 : Sejam X1 , X2 , . . . , Xn variáveis aleatórias tais que V ar(Xi ) < ∞ e Cov(Xi , Xj ) = 0 para i ̸= j, então V ar(X1 + · · · + Xn ) = n ∑ V arXi . i=1 O próximo teorema trata de uma importante desigualdade em teoria da probabilidade: Teorema 4.8.6: (E(XY ))2 ≤ EX 2 EY 2 e (Cov(X, Y ))2 ≤ V arXV arY . Prova: (aX + Y )2 ≥ 0 ⇒ E(aX + Y )2 ≥ 0 ⇒ a2 EX 2 + 2aEXY + EY 2 ≥ 0. Observe que esta equação do segundo grau em a não pode ter duas raízes reais diferentes, pois caso contrário essa expressão seria negativa para os valores entre as raízes. Então, utilizando a regra do discriminante, temos que 4(EXY )2 − 4EX 2 EY 2 ≤ 0, e temos a primeira desigualdade. A segunda desigualdade segue da primeira trocando X por X − EX e Y por Y − EY na expressão da primeira desigualdade. O coeficiente de correlação entre duas variáveis aleatórias X e Y é dado por ρ(X, Y ) = √ Cov(X, Y ) V ar(X)V ar(Y ) . O teorema anterior provou que |ρ(X, Y )| ≤ 1. O próximo teorema mostra que o módulo do coefieciente de correlação entre duas variáveis é igual a 1 se, e somente se, as variáveis são linearmente dependentes. Teorema 4.8.7: Sejam X e Y variáveis aleatórias com variâncias finitas e positivas. Então, (a) ρ(X, Y ) = 1 se, e somente se, P (Y = aX + b) = 1 para algum a > 0 e b ∈ IR. (b) ρ(X, Y ) = −1 se, e somente se, P (Y = aX + b) = 1 para algum a < 0 e b ∈ IR. Prova: Parte (a). Como ( √X−EX − √Y −EY )2 ≥ 0, temos que V ar(X) V ar(Y ) X − EX Y − EY 2 0 ≤ E( √ −√ ) V ar(X) V ar(Y ) X − EX 2 Y − EY 2 2 = E( √ ) + E( √ ) −√ E((X − EX)(Y − EY )) V ar(X) V ar(Y ) V ar(X)V ar(Y ) V arX V arY 2Cov(X, Y ) = + −√ = 2 − 2ρ(X, Y ). V arX V arY V ar(X)var(Y ) Se ρ(X, Y ) = 1, então X − EX Y − EY 2 E( √ −√ ) = 0, V ar(X) V ar(Y ) Autor: Leandro Chaves Rêgo 4.8. MOMENTOS CONJUNTOS 76 o que por sua vez implica que X − EX Y − EY P (√ =√ ) = 1, V ar(X) V ar(Y ) em outras palavras, √ V arY P (Y = EY + √ (X − EX)) = 1. V arX A prova da parte (b) é análoga, substituindo o sinal “+” por “-” na expressão acima. Deixamos para o leitor verificar os detalhes. O próximo teorema apresenta uma nova relação entre momentos conjuntos de variáveis aleatórias. Ele é conhecido como Desigualdade de Hölder. Teorema 4.8.8: Suponha que p e q satisfazem: p > 1, q > 1, e E(|X|p ) < ∞ e E(|X|q ) < ∞, temos que 1 p + 1 q = 1. Então, se E(|XY |) ≤ (E|X|p )1/p (E|Y |q )1/q . Prova: A prova da desigualdade de Hölder utiliza um argumento de convexidade. Como |X|p ≥ 0 (resp., |X|q ≥ 0), já vimos que se E|X|p = 0, então P (X = 0) = 1. Portanto, em ambos os casos E(|XY |) = 0 e a desigualdade de Hölder é válida. Considere então o caso em que o lado direito da desigualdade de Hölder é estritamente positivo. Note que para a > 0 e b > 0, existe s, t ∈ IR tal que t s a = exp( ) e b = exp( ). p q Como a função exponencial é convexa e p−1 + q −1 = 1, temos por convexidade que s t exp( + ) ≤ p−1 exp(s) + q −1 exp(t), p q ou pela definição de s, t Agora substituindo a por ab ≤ p−1 ap + q −1 bq . |X| (E(|X|p ))1/p e b por |Y | , (E(|Y |q ))1/q temos |XY | |X| |Y | −1 p −1 ≤ p ( ) + q ( )q . p 1/p q 1/q p 1/p q 1/q (E(|X| )) (E(|Y | )) (E(|X| )) (E(|Y | )) Finalmente, tomando o valor esperado, temos E|XY | (E(|X|p ))1/p (E(|Y |q ))1/q E|X|p p E|Y |q q −1 ) + q ( ) (E(|X|p )) (E(|Y |q )) = p−1 + q −1 = 1. ≤ p−1 ( Autor: Leandro Chaves Rêgo Capítulo 5 Distribuição e Esperança Condicionais 5.1 Distribuição condicional de X dada Y discreta Seja X uma variável aleatória no espaço de probabilidade (Ω, A, P ), e seja A um evento aleatório tal que P (A) > 0. Usando o conceito de probabilidade condicional, podemos definir a distribuição condicional de X dado o evento A por P (X ∈ B|A) = P ([X ∈ B] ∩ A) , P (A) para B boreliano. Pode-se verificar facilmente que isto define uma probabilidade nos borelianos verificando-se os axiomas. Podemos interpretar a distribuição condicional de X dado A como a nova distribuição que se atribui a X quando sabe-se da ocorrência do evento A. A função de distribuição associada à distribuição condicional é chamada função distribuição condicional de X dado A: FX (x|A) = P (X ≤ x|A). A esperança condicional de X dado A é a esperança da distribuição condicional, definida por ∫ E(X|A) = xdFX (x|A), se esta esperança existe. Agora suponhamos que os eventos aleatórios A1 , A2 , . . . formem uma partição (finita ou enumerável) de Ω. Pelo Teorema da Probabilidade Total, temos ∑ P (X ∈ B) = P (An )P (X ∈ B|An ), ∀B ∈ B, n e FX (x) = P (X ≤ x) = = ∑ ∑ P (An )P (X ≤ x|An ) n P (An )FX (x|An ), ∀x, n 77 5.1. DISTRIBUIÇÃO CONDICIONAL DE X DADA Y DISCRETA 78 e se a esperança de X existe, ∫ ∫ ∑ EX = xdFX (x) = xd( P (An )FX (x|An )) = ∑ ∫ P (An ) n xdFX (x|An ) = ∑ n P (An )E(X|An ). n Em outras palavras, a distribuição de X (resp., função de distribuição, esperança de X) é uma média ponderada da distribuição condicional (resp., função de distribuição condicional, esperança condicional de X) dado An , onde os pesos são as probabilidades dos membros An da partição. Consideremos agora o caso em que a partição do espaço amostral é gerada por uma variável aleatória discreta. Para tanto, seja Y uma variável aleatória discreta em (Ω, A, P ), tomando somente os valores y1 , y2 , . . .. Então, os eventos An = [Y = yn ] formam uma partição de Ω. Neste caso, a distribuição P (X ∈ B|Y = yn ) = P (X ∈ B|An ), para B boreliano, é chamada de distribuição condicional de X dado que Y = yn , e valem as fórmulas ∑ P (X ∈ B) = P (Y = yn )P (X ∈ B|Y = yn ), B boreliano FX (x) = EX = ∑ ∑ n P (Y = yn )FX (x|Y = yn ) n P (Y = yn )E(X|Y = yn ), n onde vale a última fórmula se EX existe; em particular, se X é integrável. Notemos que para B fixo, P (X ∈ B|Y = yn ) é função de yn , digamos g(yn ). Se definirmos g(y) = P (X ∈ B|Y = y) arbitrariamente para y ∈ / {yn : n ≥ 1}, por exemplo, g(y) = P (X ∈ B), então teremos ∫ ∫ P (X ∈ B) = P (X ∈ B|Y = y)dFY (y) = g(y)dFY (y), pelas propriedades da integral de Lebesgue no caso de Y discreto. As outras fórmulas possuem interpretações análogas, logo teremos ∫ P (X ∈ B) = P (X ∈ B|Y = y)dFY (y), B boreliano ∫ FX (x) = FX (x|Y = y)dFY (y) ∫ EX = E(X|Y = y)dFY (y). Autor: Leandro Chaves Rêgo 5.2. DISTRIBUIÇÃO CONDICIONAL DE X DADA Y : CASO GERAL 79 Essas fórmulas valem também no caso geral, como veremos adiante. Salientamos que a esperança precisa existir para que a última fórmula valha. De fato, quando X for integrável, φ(y) = E(X|Y = y) será finito. Nesse caso, a variável aleatória φ(Y ) será chamada de esperança condicional de X dada Y e será indicada por φ(Y ) = E(X|Y ). Notemos que E(X|Y = y) é um valor particular da variável aleatória E(X|Y ): é o valor quando Y = y. Portanto, a última fórmula pode ser reescrita assim EX = Eφ(Y ) = E(E(X|Y )). Em outras palavras, a esperança de X é igual à esperança da esperança condicional de X dada Y . Exemplo 5.1.1: Consideremos o seguinte experimento em que participam dois jogadores, I e II. Suponhamos que o jogador I lance uma moeda honesta n vezes, obtendo k caras, onde 0 ≤ k ≤ n, e que depois disso o jogador II lance a mesma moeda k vezes. Seja X o número de caras obtidas pelo jogador II. Qual a esperança de X supondo independência de todos os lançamentos? Seja Y o número de caras nos n lançamentos do jogador I. Decorre das condições do experimento que Y ∼ b(n, 12 ) e que X|Y = k ∼ b(k, 21 ). Por isso, a esperança condicional de X dado que Y = k é a esperança da distribuição b(k, 21 ): E(X|Y = k) = k2 , ou seja, E(X|Y ) = Y2 . Utilizando a fórmula, temos Y n EX = E(E(X|Y )) = E( ) = . 2 4 Exemplo 5.1.2: Consideremos outro jogo que conta com a participação de dois jogadores I e II. Neste jogo, o jogador I vai fazer uma seqüência de lançamentos independentes de uma moeda que tem probabilidade p de dar cara, onde 0 < p < 1. Antes do jogador I começar, o jogador II observa uma variável aleatória N tendo distribuição P oisson(λ), onde λ > 0. Supomos que N seja independente da seqüência de lançamentos do jogador I. Se o jogador II observar N = n, ele vai parar o jogador I depois de ter feito n lançamentos (se N = 0, o jogador II não permite nenhum lançamento). Se S for o número de caras observadas até o jogador I parar, qual é a esperança de S? Solução: Como a seqüência de lançamentos é independente de N , a distribuição condicional de S dado que N = n é binomial(n, p). Portanto, E(S|N = n) = np, ou seja, E(S|N ) = N p. Logo, ES = E(N p) = pEN = pλ. 5.2 Distribuição condicional de X dada Y : caso geral Nosso objetivo nesta seção é definir a distribuição condicional de X dado que Y = y para todo y ∈ R e todo par de variáveis aleatórias X e Y definidas no mesmo espaço de probabilidade (Ω, A, P ). Na seção anterior definimos a distribuição condicional dado que Y = y quando P (Y = y) > 0; portanto nosso problema agora é como definir distribuição condicional quando P (Y = y) = 0. No caso discreto essa definição era arbitrária, pois o conjunto Autor: Leandro Chaves Rêgo 5.2. DISTRIBUIÇÃO CONDICIONAL DE X DADA Y : CASO GERAL 80 B0 = {yn : n = 1, 2, . . .}c também tinha probabilidade zero. Mas é evidente que essa solução não serve no caso geral, já que no caso continuo P (Y = y) = 0 para todo y ∈ R. Para termos uma intuição sobre a definição formal da distribuição condicional no caso geral, consideremos novamente o caso discreto. Pelas fórmulas obtidas na seção anterior a distribuição (resp., função de distribuição, esperança) de X é determinada pela distribuição Y e a distribuição (resp., função de distribuição, esperança) condicional de X dada Y . De fato, o Teorema da Probabilidade Total nos dá um resultado muito mais forte: a distribuição conjunta de X e Y é determinada pela distribuição de Y e a distribuição condicional de X dada Y . Para ver isto, basta notar que para todo x e y, ∑ FX,Y (x, y) = P (X ≤ x, Y ≤ y) = P (X ≤ x, Y = yn ) = n:yn ≤y ∑ P (Y = yn )P (X ≤ x|Y = yn ) = n:yn ≤y ∫ y = −∞ ∑ P (Y = yn )FX (x|Y = yn ) n:yn ≤y FX (x|Y = t)dFY (t). Vemos então que no caso discreto a função de distribuição conjunta é uma espécie de composta da função de distribuição marginal de Y com a função de distribuição condicional de X dada Y . E pode-se provar que para todo par de variáveis aleatórias X e Y , definidas no mesmo espaço de probabilidade, existe uma, e somente uma, família de funções de distribuição condicional satisfazendo a condição acima. Isto justifica a seguinte definição formal para a distribuição condicional de X dada Y : Definição 5.2.1: Sejam X e Y variáveis aleatórias definidas no mesmo espaço de probabilidade (Ω, A, P ). Uma função P (X ∈ B|Y = y), definida para B boreliano e y ∈ R, será chamada uma distribuição condicional (regular) para X dada Y se (i) para todo y ∈ R fixo, P (X ∈ B|Y = y) define uma probabilidade na σ-álgebra de Borel; e (ii) para todo B boreliano fixo, P (X ∈ B|Y = y) é função mensurável de y e para todo (x, y) ∈ R2 , ∫ y FX (x|Y = t)dFY (t) = FX,Y (x, y). −∞ O próximo teorema prova que esta definição determina uma única distribuição condicional quase certamente. Teorema 5.2.2: Sejam X e Y variáveis aleatórias em (Ω, A, P ). Então existe uma distribuição condicional regular para X dada Y . Existe apenas uma, no sentido de que duas distribuições condicionais são iguais quase certamente: se P1 (X ∈ B|Y = y) e P2 (X ∈ B|Y = y) são ambas distribuições condicionais para X dada Y , então existe um boreliano B0 tal que P (Y ∈ B0 ) = 1 e P1 (X ∈ B|Y = y) = P2 (X ∈ B|Y = y), para todo B boreliano e y ∈ B0 . Autor: Leandro Chaves Rêgo 5.2. DISTRIBUIÇÃO CONDICIONAL DE X DADA Y : CASO GERAL 81 Prova: Omitida. Existe uma outra alternativa para se calcular a distribuição condicional de X dada Y que utiliza uma aproximação da definição do caso discreto. Para tanto, seja I um intervalo pequeno de comprimento ∆y e que contém o ponto y. Tomemos como aproximação para a probabilidade condicional de X pertencer a B dado que Y = y, a probabilidade condicional do mesmo evento dado que Y ∈ I, ou seja, P (X ∈ B|Y = y) ≈ P (X ∈ B|Y ∈ I) = P (X ∈ B, Y ∈ I) . P (Y ∈ I) O seguinte teorema prova que esta maneira alternativa de calcular a distribuição condicional de X dado Y quase sempre coincide com a Definição 5.2.1. Teorema 5.2.3: Para cada B boreliano fixo, o limite na definição 4.2 existe quase certamente, i.e., P (Y ∈ {y : limite existe em y}) = 1. Além disso, para cada B fixo, o limite é igual a P (X ∈ B|Y = y) como definido na Definição 5.2.1, quase certamente, ou seja, o conjunto dos y’s para os quais o limite converge para P (X ∈ B|Y = y) conforme a Definição 5.2.1 tem probabilidade 1. Tanto a Definição 5.2.1 quanto o método da aproximação por limites não são úteis para encontrar a distribuição condicional. Para tanto deve-se tentar adivinhar um candidato. Consideremos alguns casos simples em que a solução vem de imediato: Caso I: Y discreta. Considere a solução que obtivemos quando analisamos o caso discreto. Portanto, se Y assume os valores y1 , y2 , . . . tais que P (Y = yn ) > 0, então P (X ∈ B|Y = yn ) = P (X ∈ B, Y = yn ) , ∀B ∈ B, P (Y = yn ) e P (X ∈ B|Y = y) = P (X ∈ B) se P (Y = y) = 0. Note que esta distribuição satisfaz as duas condições da Definição 5.2.1 e portanto é uma distribuição condicional de acordo com a definição do caso geral. Caso II: X e Y independentes. Intuitivamente, a distribuição condicional de X dado que Y = y não deveria depender de y. Portanto, nosso candidato é: P (X ∈ B|Y = y) = P (X ∈ B), ∀B ∈ B, ∀y ∈ IR. Portanto, a primeira condição da Definição 5.2.1 é satisfeita e nosso candidato para FX (x|Y = y) é FX (x), logo ∫ y ∫ y FX (x)dFY (t) = FX (x) dFY (t) = FX (x)FY (y) = FX,Y (x, y), −∞ −∞ ou seja, a segunda condição da definição também é satisfeita. Caso III: X e Y possuem densidade conjunta f (x, y). Neste caso nosso candidato será f (x, y) f (x|y) = , x ∈ R, f (y) Autor: Leandro Chaves Rêgo 5.2. DISTRIBUIÇÃO CONDICIONAL DE X DADA Y : CASO GERAL 82 se f (y) > 0, e f (x|y) = f (x) se f (y) = 0. Esta função é chamada de densidade condicional de X dado que Y = y. Note que f (x|y) preserva as chances relativas e realmente é uma densidade. Agora, vamos mostrar que ela satisfaz a Definição 5.2.1. Parte (i),∫ segue do fato que f (x|y) é uma densidade de probabilidade e portanto P (X ∈ B|Y = y) = X∈B f (x|y)dx é uma probabilidade para todo boreliano ∫ x B. Para verificar (ii), note que a função de distribuição condicional é FX (x|Y = t) = −∞ f (s|t)ds. Logo ∫ ∫ ( y −∞ ∫ y ∫ x −∞ ∫ f (s|t)ds)dFY (t) = x = −∞ −∞ y −∞ ∫ ( x −∞ f (s, t) ds)fY (t)dt fY (t) (5.1) f (s, t)dsdt = FX,Y (x, y). Caso IV: X discreta e Y com densidade fY . De acordo com a definição de distribuição condicional, ela deve satisfazer neste caso: ∫ y P (X = xi |Y = t)fY (t)dt = P (X = xi , Y ≤ y). −∞ Note que se definirmos 1 ∂P (X = xi , Y ≤ t) fY (t) ∂t 1 ∂P (Y ≤ t|X = xi )P (X = xi ) = fY (t) ∂t P (X = xi ) = fY |X (t|xi ), fY (t) P (X = xi |Y = t) = obtemos o resultado desejado. Em casos mais complexos, no processo de escolha da distribuição condicional, ajuda observar os seguintes princípios: • Princípio da preservação das chances relativas. Este princípio diz que condicionalmente, dada a ocorrência de um evento A, os resultados possíveis (ou seja, w ∈ A) mantêm as mesmas chances relativas que tinham antes da realização do experimento. • Princípio da substituição. Este princípio diz que condicionalmente, dado que Y = y, a variável aleatória Y pode ser substituída pelo valor y sempre que Y aparecer em uma probabilidade (ou esperança) condicional. Mais geralmente, diz que para obter a distribuição condicional de φ(X, Y ) dado que Y = y, basta substituir Y pelo valor y. Exemplo 5.2.4: Seja X uma variável aleatória simétrica em torno de zero, de modo que P (X ≤ x) = P (X ≥ −x), ∀x ∈ IR. Qual a distribuição condicional de X dado |X|? Utilizando o princípio da preservação das chances relativas e a simetria da variável X, temos que nosso candidato para distribuição condicional deve ser: P (X = y||X| = y) = P (X = −y||X| = y) = 1/2 se y > 0 e P (X = 0||X| = 0) = 1. Autor: Leandro Chaves Rêgo 5.3. ESPERANÇA CONDICIONAL Como ∫ 83 y P (X ≤ x||X| = t)dF|X| (t) ∫y 0dF|X| (t) , se x < −y 0 ∫y 1 ∫ |x|− 0dF|X| (t) + |x|− 2 dF|X| (t) , se −y ≤ x < 0 0∫ ∫y = x 1dF∫|X| (t) + x 12 dF|X| (t) , se 0 ≤ x < y 0− y 1dF|X| (t) , se x ≥ y ≥ 0 0− 0 , se x < −y − 1/2(F|X| (y) − F|X| (|x| )) , se −y ≤ x < 0 = 1/2(F|X| (y) + F|X| (x)) , se 0 ≤ x < y F|X| (y) , se x ≥ y ≥ 0 0 , se x < −y FX (x) − FX (−y − ) , se −y ≤ x < 0 = FX (x) − FX (−y − ) , se 0 ≤ x < y F|X| (y) , se x ≥ y ≥ 0 0 Mas esta última expressão é igual a FX,|X| (x, y). Portanto, nosso candidato satisfaz a definição de distribuição condicional. Exemplo 5.2.5 : Se fY |X (y|x) = |x + 1|e−|x+1|y U (y) e X ∼ Binomial(2, 1/2), qual a densidade de Y ? Dado que Y = y, qual a distribuição de X para y > 0? Solução: fY (y) = 2 ∑ −|i+1|y |i + 1|e i=0 ( ) 2 U (y) (1/2)2 i 1 = U (y)(e−y + 4e−2y + 3e−3y ) 4 Utilizando o resultado do Caso IV acima temos que P (X = i) P (X = i|Y = y) = fY |X (t|i) fY (y) (2) |i + 1|e−|i+1|y i , i = 0, 1, 2. = −y (e + 4e−2y + 3e−3y ) 5.3 Esperança Condicional Definição 5.3.1: Sejam X e Y variáveis aleatórias em (Ω, A, P ). A esperança condicional de X dado que Y = y, é a esperança da distribuição condicional de X dado que Y = y, se esta esperança existir. Ou seja, ∫ E(X|Y = y) = xdFX (x|Y = y). Autor: Leandro Chaves Rêgo 5.3. ESPERANÇA CONDICIONAL 84 Pode-se provar que: Teorema 5.3.2: Se X é integrável, então E(X|Y = y) existe e é finita quase certamente, i.e., existe um boreliano B0 tal que P (Y ∈ B0 ) = 1 e E(X|Y = y) é finita para todo y ∈ B0 . Se definirmos φ(y) = E(X|Y = y), a variável aleatória φ(Y ) = E(X|Y ) chama-se esperança condicional de X dada Y . A esperança condicional, sendo a esperança da distribuição condicional, possui todas as propriedades da esperança ordinária (por exemplo, linearidade, desigualdade de Jensen, convergência monótona, convergência dominada), mais a propriedade importante de que E(E(X|Y )) = EX, ou seja ∫ EX = E(X|Y = y)dFY (y). Já demonstramos esta equação no caso discreto, vamos verificá-las quando X e Y têm densidade conjunta f (x, y): ∫ ∫ ∞ ∫ ∞ f (x, y) E(X|Y = y) = xdFX (x|Y = y) = dx, xf (x|y)dx = x fY (y) −∞ −∞ se fY (y) > 0. Logo, quando X é integrável, ∫ ∫ ∞ ∫ ∞ f (x, y) E(E(X|Y )) = E(X|Y = y)dFY (y) = ( x dxfY (y)dy) fY (y) −∞ −∞ ∫ ∞∫ ∞ ∫ ∞ ∫ ∞ = xf (x, y)dxdy = ( f (x, y)dy)xdx −∞ −∞ −∞ −∞ ∫ ∞ = xfX (x)dx = EX. −∞ Como A = [IA = 1], temos E(IA |Y = y) = 1 · P (IA = 1|Y = y) + 0 · P (IA = 0|Y = y) = P (IA = 1|Y = y) = P (A|Y = y). De fato, como IA é integrável, nós temos P (A) = E(IA ) = E(E(IA |Y )) = E(P (A|Y )), ou seja, a probabilidade de um evento é a esperança de sua probabilidade condicional dada Y , para qualquer Y . A seguir enumeramos algumas propriedades da esperança condicional, que são generalizações de propriedades da esperança incondicional. EC1. E(E(X|Y )) = EX. EC2. Se X = c, para alguma constante c, então E(X|Y ) = c. Autor: Leandro Chaves Rêgo 5.3. ESPERANÇA CONDICIONAL 85 EC3. Se X1 ≤ X2 , então E(X1 |Y ) ≤ E(X2 |Y ). EC4. E(aX1 + bX2 |Y ) = aE(X1 |Y ) + bE(X2 |Y ). EC5. Seja φ uma função convexa. Então, φ(E(X|Y )) ≤ E(φ(X)|Y ). EC6. Se Xn ≥ 0 e Xn ↑ X, então E(Xn |Y ) ↑ E(X|Y ). EC7. Se Xn → X e se existe X0 integrável tal que |Xn | ≤ X0 , então limn E(Xn |Y ) = E(X|Y ). EC8. Se φ(X, Y ) é integrável, então ∫ E(φ(X, Y )|Y = y) = E(φ(X, y)|Y = y) = φ(x, y)dFX (x|Y = y). Assim como no caso incondicional podemos definir momentos condicionais de ordem mais elevada de maneira análoga. O k-ésimo momento de X dado Y é dado por E(X k |Y ). E o k-ésimo momento central é dado por E((X − E(X|Y ))k |Y ). Em particular, o segundo momento central é conhecido como variância condicional de X dado Y e pode ser reescrito como: V ar(X|Y ) = E((X − E(X|Y ))2 |Y ) = E(X 2 |Y ) − (E(X|Y ))2 . Exemplo 5.3.3: Sejam X e Y variáveis aleatórias independentes e identicamente distribuídas, com X ∼ U [0, 1], e sejam U = min(X, Y ) e V = max(X, Y ). Encontre E(U |V ). Solução: FU,V (x, y) = P (U ≤ x, V ≤ y) = P (V ≤ y) − P (U > x, V ≤ y) { P (X ≤ y, Y ≤ y) − P (x < X ≤ y, x < Y ≤ y) , se x < y = P (X ≤ y, Y ≤ y) , se x ≥ y. Portanto, como X e Y são independentes, temos 0 , se x ≤ 0 ou y ≤ 0 , se 0 < x < y < 1 y 2 − (y − x)2 2 y , se 0 < y ≤ x e y < 1 FU,V (x, y) = 2 1 − (1 − x) , se y ≥ 1 e 0 < x < 1 1 , se y ≥ 1 e x ≥ 1. Logo, { ∂ 2 FU,V (x, y) 2 , se 0 < x < y < 1 fU,V (x, y) = = 0 , caso contrário. ∂x∂y ∫ ∫y Como fV (y) = fU,V (x, y)dx = 0 2dx = 2y, se 0 < y < 1, e fV (y) = 0 caso contrário, temos que { 1 fU,V (x, y) , se 0 < x < y < 1 y = fU |V (x|y) = 0 , caso contrário. fV (y) Autor: Leandro Chaves Rêgo 5.3. ESPERANÇA CONDICIONAL Então, 86 ∫ E(U |V = y) = ∫ y xfU |V (x|y)dx = 0 x y dx = , y 2 se 0 < y < 1, e E(U |V = y) = 0, caso contrário. Portanto, { V , se 0 < V < 1 2 E(U |V ) = 0 , caso contrário. Exemplo 5.3.4: Sejam X1 , . . . , Xn independentes, identicamente distribuídas e integráveis, e seja S = X1 + · · · + Xn . Demonstre que E(Xi |S) = Sn , para i = 1, 2, . . . , n. Solução: Note que os vetores (X1 , . . . , Xn ) e (Xi , X2 , . . . , Xi−1 , X1 , Xi+1 , . . . , Xn ) têm a mesma distribuição. Isto implica que (X1 , S) e (Xi , S) possuem a mesma distribuição. Como a distribuição conjunta determina a distribuição condicional, temos que X1 e Xi têm a mesma distribuição condicional dado que S = s, e consequentemente tem a mesma esperança condicional dado S = s. Portanto, E(X1 |S = s) = E(X2 |S = s) = . . . = E(Xn |S = s). Utilizando a linearidade da esperança, temos nE(Xi |S = s) = n ∑ E(Xi |S = s) i=1 n ∑ = E( Xi |S = s) = E(S|S = s) = s. i=1 Então, podemos concluir que E(Xi |S = s) = ns , ou seja, E(Xi |S) = Sn . Exemplo 5.3.5: Sejam X e Y duas variáveis aleatórias. Calculemos a distribuição de Z = X + Y . Temos ∫ P (X + Y ≤ z) = E(P (X + Y ≤ z|Y )) = P (X + Y ≤ z|Y = y)dFY (y) ∫ ∫ P (X ≤ z − y|Y = y)dFY (y) = FX (z − y|Y = y)dFY (y). (5.2) Se X e Y são independentes, então FX (z − y|Y = y) = FX (z − y) e temos ∫ FZ (z) = P (X + Y ≤ z) = FX (z − y)dFY (y). (5.3) Esta distribuição é a convolução das distribuições de X e Y . Autor: Leandro Chaves Rêgo Capítulo 6 Convergência Estocástica 6.1 Seqüência de Eventos A definição de conceitos de convergência de variáveis aleatórias depende de manipulações de seqüências de eventos. Seja An ⊆ Ω, define-se: ∞ inf Ak = ∩∞ k=n Ak , sup Ak = ∪k=n Ak k≥n k≥n ∞ lim inf An = ∪∞ n=1 ∩k=n Ak n ∞ lim sup An = ∩∞ n=1 ∪k=n Ak . n O limite de uma seqüência de eventos é definido da seguinte maneira: se para alguma seqüência (Bn ) de eventos lim inf n Bn = lim supn Bn = B, então B é chamado de limite de (Bn ) e nós escrevemos limn Bn = B ou Bn → B. n n Exemplo 6.1.1: lim inf[0, n+1 ) = lim sup[0, n+1 ) = [0, 1) Teorema 6.1.2: Seja (An ) uma seqüência de eventos de Ω. (a) ω ∈ lim sup An se, e somente se, ω ∈ Ak para um número infinito de índices k. (b) ω ∈ lim inf An se, e somente se, ω ∈ / Ak para um número finito de índices k. Prova: Para parte (a), note que ω ∈ lim sup An , se, e somente se, para todo n, ω ∈ ∪∞ k=n Ak , ou seja, se, e somente se, para todo n existe n′ ≥ n tal que ω ∈ An′ . Como isto é válido para todo n, temos que isto é equivalente a existência de um número infinito de índices k tais que ω ∈ Ak . A prova da parte (b) é similar. A seguir descreveremos algumas propriedades do lim inf e lim sup de uma seqüência de eventos. 1. lim inf An ⊆ lim sup An Este fato é uma simples conseqüência do Teorema 6.1.2, pois se ω ∈ lim inf An , ω não pertence apenas a um número finito de eventos Ak ’s, e conseqüentemente pertence a um número infinito deles. Logo, ω ∈ lim sup An . 87 6.1. SEQÜÊNCIA DE EVENTOS 88 2. (lim inf An )c = lim sup Acn Este fato decorre aplicando a Lei de De Morgan duas vezes: ∞ c ∞ ∞ c ∞ ∞ c (∪∞ n=1 ∩k=n Ak ) = ∩n=1 (∩k=n Ak ) = ∩n=1 (∪k=n Ak ). Seqüências Monotônicas Uma seqüência de eventos (An ) é monotônica não-decrescente (resp., não-crescente) se A1 ⊆ A2 ⊆ . . . (resp, A1 ⊇ A2 ⊇ . . .). Denotaremos por An ↑ (resp., An ↓) uma seqüência não-decrescente (resp. não-crescente) de eventos. Teorema 6.1.3: Suponha que (An ) é uma seqüência monotônica de eventos. Então, 1. Se An ↑, então limn An = ∪∞ n=1 An . 2. Se An ↓, então limn An = ∩∞ n=1 An . Conseqüentemente, como para qualquer seqüência Bn , temos inf k≥n Bk ↑ e supk≥n Bk ↓, segue que: lim inf Bn = lim(inf Bk ), lim sup Bn = lim(sup Bk ) n k≥n n k≥n Prova: Para provar (1), precisamos mostrar que lim inf An = lim sup An = ∪∞ n=1 An . Como Aj ⊆ Aj+1 , temos ∩k≥n Ak = An , e portanto, ∞ lim inf An = ∪∞ n=1 (∩k≥n Ak ) = ∪n=1 An . Por outro lado, temos, ∞ lim sup An = ∩∞ n=1 (∪k≥n Ak ) ⊆ ∪k=1 Ak = lim inf An ⊆ lim sup An . Logo, temos igualdade acima, ou seja, lim sup An = ∪∞ k=1 Ak . A prova de (2) é similar. Exemplo 6.1.4: 1 1. limn [0, 1 − n1 ] = ∪∞ n=1 [0, 1 − n ] = [0, 1). 1 2. limn [0, 1 + n1 ) = ∩∞ n=1 [0, 1 + n ) = [0, 1]. n n n n 3. limn ( n+1 , n−1 ) = ∩∞ n=1 ( n+1 , n−1 ) = {1}. Exemplo 6.1.5: Sejam An , A, Bn , B eventos em Ω. Mostre que: 1. se limn An = A, então limn Acn = Ac . Solução: lim inf Acn = (lim sup An )c = Ac e lim sup Acn = (lim inf An )c = Ac . Autor: Leandro Chaves Rêgo 6.1. SEQÜÊNCIA DE EVENTOS 89 2. lim sup(An ∪ Bn ) = lim sup An ∪ lim sup Bn . Solução: Se ω ∈ lim sup(An ∪ Bn ), então ω ∈ (Ak ∪ Bk ) para infinitos índices k. Logo, temos que ω ∈ Ak para infinitos índices k, ou ω ∈ Bk para infinitos índices k. Portanto, temos ω ∈ lim sup An ou ω ∈ lim sup Bn , ou seja, ω ∈ lim sup An ∪ lim sup Bn . Reciprocamente, se ω ∈ lim sup An ∪lim sup Bn , então ω ∈ lim sup An ou ω ∈ lim sup Bn . Logo, temos que ω ∈ Ak para infinitos índices k, ou ω ∈ Bk para infinitos índices k, ou seja, ω ∈ (Ak ∪ Bk ) para infinitos índices k. Portanto, ω ∈ lim sup(An ∪ Bn ). 3. Não é verdade que lim inf(An ∪ Bn ) = lim inf An ∪ lim inf Bn . Solução: Vamos construir um contra-exemplo: Suponha que A ∩ B = ∅, An = A ̸= ∅ e Bn = B ̸= ∅ para n par; e An = B e Bn = A para n ímpar. Como An ∪ Bn = A ∪ B para todo n, é fácil ver que lim inf(An ∪ Bn ) = A ∪ B. Também é fácil ver que lim inf An = lim inf Bn = A ∩ B = ∅, pois somente os ω ′ s em A ∩ B não ocorrem para um número finito de índices n tanto na seqüência An quanto na seqüência Bn . Então, A ∪ B = lim inf(An ∪ Bn ) ̸= ∅ = lim inf An ∪ lim inf Bn . 4. se An → A e Bn → B, então An ∪ Bn → A ∪ B e An ∩ Bn → A ∩ B. Solução: Pela parte (2), temos que lim sup An ∪ Bn = lim sup An ∪ lim sup Bn = A ∪ B, e pela propriedade (1) de lim inf e lim sup, temos lim inf An ∪ Bn ⊆ lim sup An ∪ Bn = A ∪ B. Resta-nos provar que A ∪ B ⊆ lim inf An ∪ Bn . Suponha que ω ∈ A ∪ B, então ω ∈ lim inf An ou ω ∈ lim inf Bn , ou seja, ω não pertence a um número finito de Ak ’s, ou ω não pertence a um número finito de Bk ’s. Logo, ω não pertence a um número finito de Ak ∪ Bk ’s. Portanto, ω ∈ lim inf An ∪ Bn . Então, An ∪ Bn → A ∪ B. Utilizando os ítens anteriores e a Lei de De Morgan, temos: A ∩ B = (Ac ∪ B c )c = (lim Acn ∪ lim Bnc )c = = (lim Acn ∪ Bnc )c = lim(Acn ∪ Bnc )c = lim An ∩ Bn . 6.1.1 Borel-Canteli A seguir vamos enunciar e provar um importante Lema, conhecido como Lema de BorelCantelli, que trata da probabilidade da ocorrência de um número infinito de eventos. Lema 6.1.6: Sejam A1 , A2 , . . . eventos aleatórios em (Ω, A, P ), ou seja, An ∈ A, ∀n. ∑ (a) Se ∞ n=1 P (An ) < ∞, então P (An infinitas vezes ) = 0. ∑ (b) Se ∞ n=1 P (An ) = ∞ e os eventos An ’s são independentes, então P (An infinitas vezes ) = 1. Autor: Leandro Chaves Rêgo 6.1. SEQÜÊNCIA DE EVENTOS 90 Obervação: O ítem (b) não vale necessariamente sem independência. Por exemplo, ∑ seja An = A, ∀n, onde 0 < P (A) < 1. Então, P (An ) = ∞ mas o evento [An infinitas vezes] = A e P (An infinitas∑vezes) = P (A) < 1. ∑ Prova: Para parte (a), se P (An ) < ∞, então ∞ k=j P (Ak ) → 0 quando j → ∞. Mas [An infinitas vezes] ⊆ ∪∞ k=j Ak , ∀j, logo P (An infinitas vezes) ≤ P (∪∞ k=j Ak ) ≤ ∞ ∑ P (Ak ) → 0. k=j Portanto, P (An infinitas vezes) = 0. Para parte (b), basta provar que P (∪∞ k=n Ak ) = 1, ∀n ∞ (pois sendo [An infinitas vezes] = ∩∞ n=1 ∪k=n Ak a intersecção de um número enumerável de eventos de probabilidade 1, é também de probabilidade 1). Para tanto, seja Bn = ∪∞ k=n Ak . n+m Então Bn contém ∪k=n Ak para todo m, e n+m c c Bnc ⊆ (∪n+m k=n Ak ) = ∩k=n Ak . Logo para todo m, 1 − P (Bn ) = P (Bnc ) ≤ c P (∩n+m k=n Ak ) = n+m ∏ P (Ack ) = n+m ∏ (1 − P (Ak )). k=n k=n Como 1 − p ≤ e−p para 0 ≤ p ≤ 1, temos 1 − P (Bn ) ≤ n+m ∏ k=n quando m → ∞, pois ∑n+m k=n −P (Ak ) e = exp(− n+m ∑ P (Ak )) → 0 k=n P (Ak ) → ∞ quando m → ∞. Logo P (Bn ) = 1, ∀n. Exemplo 6.1.7: Se sabemos que para uma dada coleção de eventos {Ak }, as suas probabilidades individuais satisfazem P (Ak ) ≤ k12 , então podemos concluir que infitos desses vezes ocorrem com probabilidade zero ou, que apenas um número finito deles ocorrem com probabilidade 1. Podemos reesecrever isso da seguinte forma: existe um instante aleatório N tal que, com probabilidade 1, nenhum dos Ak ocorrem para k > N . É importante ressaltar que nós podemos chegar a essa conclusão sem saber nada sobre as interações entre esses eventos como as que são expressas por probabilidades de pares de eventos P (Ai ∩ Aj ). Contudo, se apenas sabemos que P (Ak ) > 1/k, então não podemos concluir nada baseados no Lema de Borel-Cantelli. Se soubermos que os eventos são mutuamente independentes, então sabendo que P (Ak ) > 1/k, podemos concluir que infinitos Ak ocorrem com probabilidade 1. Autor: Leandro Chaves Rêgo 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 91 Exemplo 6.1.8: Considere uma seqüência de variáveis aleatórias X1 , X2 , X3 , . . .. Podemos usar o Lema de Borel-Cantelli para determinar a probabilidade que Xk > bk infinitas vezes para qualquer seqüência de números reais {bk }. Note que P (Xk > bk ) = 1 − FXk (bk ). Logo, se ∞ ∞ ∑ ∑ P (Xk > bk ) = 1 − FXk (bk ) < ∞, k=1 k=1 então, não importa qual a distribuição conjunta das variáveis aleatórias {Xk }, temos que o evento {Xk > bk } só ocorrerá para um número finito de índices k. Por outro lado, se ∞ ∑ P (Xk > bk ) = k=1 ∞ ∑ 1 − FXk (bk ) = ∞, k=1 então precisaríamos de informação adicional sobre a distribuição conjunta das variáveis aleatórias {Xk } para determinar se os eventos {Xk > bk } ocorrem um número finito ou infinito de vezes. Exemplo 6.1.9: Considere uma moeda não necessariamente honesta com probabilidade de cara igual a p, onde 0 < p < 1. Se esta moeda for jogada um número infinito de vezes de maneira independente, qual a probabilidade da seqüência (cara, cara, coroa, coroa) aparecer um número infinito de vezes? Justifique sua resposta. Solução: Seja Xi o resultado do i-ésimo lançamento da moeda. Defina o evento Ai = {Xi = cara, Xi+1 = cara, Xi+2 = coroa, Xi+3 = coroa}, queremos calcular P (Ai infinitas vezes). Note que para todo i, temos P (Ai ) = p2 (1 − p)2 > 0. Não podemos aplicar diretamente o lema de Borel Cantelli, pois os eventos Ai ’s não são independentes, visto que, por exemplo, ambos A1 e A2 dependem de X2 , X3 , X4 . Considere a seguinte subseqüência da seqüência de eventos (Ai ) tal que Bi = A4i−3 . Como os eventos Bi ’s dependem de famílias disjuntas de variáveis aleatórias independentes, eles são independentes. Além disso temos que ∑ 2 2 P (Bi ) = p (1 − p) > 0. Logo, i P (Bi ) = ∞. Portanto, Borel-Cantelli implica que P (Bi infinitas vezes) = 1. Como (Bi ) é uma subseqüência de (Ai ), temos que [Bi infitas vezes] ⊆ [Ai infinitas vezes]. Portanto, P (Ai infinitas vezes) = 1. 6.2 Covergência de Variáveis Aleatórias Seguindo uma interpretação freqüentista, probabilidade está relacionada com a freqüência relativa de eventos no longo prazo. A matemática para estudar o longo prazo é a dos limites. Mas quando se trata de funções, existem vários tipos de limites (por exemplo, pontual, uniforme, em quase todo lugar). O mesmo ocorre quando consideramos limites de variáveis aleatórias definidas em um mesmo espaço de probabilidade (Ω, A, P ), visto que variáveis aleatórias são funções reais cujo domínio é Ω. Relembrando: Seja (Ω, A) um espaço mensurável. Uma função X : Ω → R é chamada de variável aleatória se para todo evento Boreliano B, X −1 (B) ∈ A. Nós recordamos que um evento Boreliano é qualquer evento pertencente à σ-álgebra de Borel, onde a σ-álgebra de Borel é a menor σ-álgebra contendo intervalos da forma (−∞, x] para todo x ∈ R. Autor: Leandro Chaves Rêgo 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 6.2.1 92 Tipos de Convergência Vamos a seguir descrever vários tipos de convergência estocástica, ilustrando com exemplos cada tipo de convergência, e depois provaremos algumas relações entre os vários tipos de convergência. Sejam Y, Y1 , Y2 , . . . variáveis aleatórias definidas em um mesmo espaço de probabilidade (Ω, A, P ). Convergência Quase Certa Definição 6.2.1: A seqüência de variáveis aleatórias Y1 , Y2 , . . . converge quase certamente (ou com probabilidade 1) para a variável aleatória Y se P ({w : lim Yn (w) = Y (w)}) = 1. n→∞ Notação: Yn → Y cp1. Então se uma seqüência de variáveis aleatórias Y1 , Y2 , . . . converge quase certamente para Y não significa que para todo w ∈ Ω, Yn (w) → Y (w), apenas o que se sabe é que a probabilidade do evento D = {w : Yn (w) 9 Y (w)} é nula. D é chamado de conjunto de exceção. Exemplo 6.2.2: Considere uma variável aleatória Z tal que P ({w : 0 ≤ |Z(w)| < 1}) = 1. Seja Xn (w) = Z n (w), então Xn (w) → 0 cp1; note que o conjunto de exceção é D = {w ∈ Ω : |Z(w)| ≥ 1} e que P (D) = 0. Podemos obter uma definição alternativa para convergência quase-certa, observando que, pela definição de limite de sequências de números reais, para um dado w ∈ Ω fixo, temos que limn Yn (w) = Y (w) se, e somente se, para todo k ∈ IN , existir N tal que para todo n ≥ N , temos |Yn (w) − Y (w)| < k1 . Portanto: ∞ ∞ {w : lim Yn (w) = Y (w)} = {w : ∩∞ k=1 ∪N =1 ∩n=N |Yn (w) − Y (w)| < n 1 }. k Então, Yn → Y cp1 se, e somente se, ∞ ∞ P ({w : ∩∞ k=1 ∪N =1 ∩n=N |Yn (w) − Y (w)| < 1 }) = 1. k ∞ ∞ P ({w : ∩∞ k=1 ∪N =1 ∩n=N |Yn (w) − Y (w)| ≥ 1 }) = 0. k Isto é equivalente a: Defina An,k = {w : |Yn (w) − Y (w)| ≥ k1 }. Então para cada k fixo, temos que ∞ lim sup An,k = ∪∞ N =1 ∩n=N An,k . n Logo, Yn → Y cp1 se, e somente se, para todo k ∈ IN , P (lim sup An,k ) = 0. n Autor: Leandro Chaves Rêgo 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 93 Exemplo 6.2.3: Seja {Xn }n≥3 uma seqüência de variáveis aleatórias independentes com distribuição de probabilidade dada por: P (Xn = 0) = 1 − 1 1 e P (Xn = n) = , ∀n ≥ 3. log n log n Mostre que Xn 9 0 cp1. Solução: Para qualquer ϵ tal que 0 < ϵ < 1, temos que P (|Xn | > ϵ) = P (Xn = n) = 1 . log n ∑ 1 ∑ Logo, n P (|Xn | > ϵ) = n log n = ∞. Então, o Lema de Borel-Cantelli implica que P (|Xn | > ϵ infinitas vezes) = 1, portanto com probabilidade 1, Xn 9 0. Exemplo 6.2.4 : Considere {Xn : n ≥ 1} uma seqüência de variáveis aleatórias i.i.d. com função de distribuição F. Suponha que F (x) < 1, para todo x < ∞. Defina Yn = max(X1 , X2 , . . . , Xn ). Vamos verificar que Yn → ∞ cp1. Inicialmente, observe que para cada ω ∈ Ω, as variáveis Yn formam uma seqüência nãodecrescente de números reais. Seja M um número real, temos P (Yn ≤ M : n = 1, 2, . . .) ≤ P (Yn ≤ M : n = 1, 2, . . . , k) = P (Yk ≤ M ) = P (max(X1 , X2 , . . . , Xk ) ≤ M ) = P (X1 ≤ M, X2 ≤ M, . . . Xk ≤ M ) k ∏ = P (Xn ≤ M ) = F k (M ), ∀k ≥ 1. n=1 Fazendo k → ∞, temos que para todo M finito, P (lim Yn ≤ M ) = P (Yn ≤ M : n = 1, 2, . . .) = 0; n pois F k (M ) tende a zero, quando k → ∞. Dessa forma, o conjunto dos w ∈ Ω, em que limn Yn (w) é finito, tem probabilidade zero e, portanto, Yn → ∞ cp1. Convergência na r-ésima Média Definição 6.2.5: A seqüência de variáveis aleatórias Y1 , Y2 , . . . converge na r-ésima Média, onde r > 0, para a variável aleatória Y se lim E|Yn − Y |r = 0. n→∞ Notação: Yn →r Y . Se r = 2 este tipo de convergência é freqüentemente chamado de convergência em média quadrática. Autor: Leandro Chaves Rêgo 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 94 Exemplo 6.2.6: Sejam Z, X1 , X2 , . . . variáveis aleatórias tais que Xn = n Z, n+1 então Xn →2 Z se EZ 2 < ∞, mas não em caso contrário. Exemplo 6.2.7: Considere a seqüência de variáveis aleatórias definidas no Exemplo 6.2.3. Mostre que Xn 9r 0, para todo r > 0. Solução: Temos que E|Xn |r = nr P (Xn = n) = nr → ∞. log n Logo, Xn 9r 0. O próximo teorema afirma que se Xn →r X, então Xn →s X para s < r. Teorema 6.2.8: Se Xn →r X, então Xn →s X para 0 < s < r Prova: Defina p = r s >1eq= r . r−s Então, 1 1 s r−s + = + = 1. p q r r Seja Z = |X|s e Y = 1. Com estas definições, a desigualdade de Hölder implica que E|ZY | ≤ (E|Z|p )1/p (E|Y |q )1/q , ou seja, E(|X|s ) ≤ (E|X|ps )1/p 1 = (E|X|r )s/r . Substituindo X por Xn − X, temos E(|Xn − X|s ) ≤ (E|Xn − X|r )s/r . Portanto, se limn E|Xn − X|r = 0, então limn E|Xn − X|s = 0. Convergência em Probabilidade Definição 6.2.9: A seqüência de variáveis aleatórias Y1 , Y2 , . . . converge em probabilidade para a variável aleatória Y se ∀ϵ > 0 lim P ({w : |Yn (w) − Y (w)| > ϵ}) = 0. n→∞ Notação: Yn →P Y . A intuição por trás desta definição é que para n muito grande a probabilidade de que Yn e Y sejam bem próximas é bastante alta. Autor: Leandro Chaves Rêgo 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 95 Exemplo 6.2.10: Considere a seqüência de variáveis aleatórias definidas no Exemplo 6.2.3. Mostre que Xn →P 0. Solução: Temos que para 0 < ϵ < 1, P (|Xn | > ϵ) = P (Xn = n) e para ϵ ≥ 1, P (|Xn | > ϵ) ≤ P (Xn = n). Como P (Xn = n) = log1 n → 0., temos que ∀ϵ > 0, lim P (|Xn | > ϵ) = 0. Portanto, Xn →P 0. Exemplo 6.2.11: Considere X, X1 , X2 , . . . onde as varáveis aleatórias têm distribuição normal conjunta, todas com média 0 e matriz de covariância parcialmente descrita por 1 . n Seja Yn = Xn −X, como Yn é uma combinação linear de variáveis aleatórias com distribuição normal, ela também possui distribuição normal. Precisamos determinar então sua média e sua variância. Mas EY = E(Xn − X) = EXn − EX = 0 e COV (X, X) = COV (Xn , Xn ) = 1, COV (X, Xn ) = 1 − V arY = EY 2 = E(Xn − X)2 = EXn2 − 2EXn X + EX 2 = 1 − 2(1 − Portanto, Yn ∼ N (0, n2 ). Então, ∫ ∞ P (|Xn − X| > ϵ) = P (|Yn | > ϵ) = 2P (Yn > ϵ) = 2 ϵ 1 2 )+1= . n n √ ∫ ∞ x2 n − ny2 1 √ e 4 dy = 2 √ √ e− 2 dx. 4π 2π ϵ n 2 Logo, ∀ϵ > 0, limn→∞ P (|Xn − X| > ϵ) = 0, ou seja, Xn →P X. Convergência em Distribuição O último tipo de convergência estocástico que mencionamos não é exatamente uma noção de convergência das variáveis aleatórias propriamente ditas, mas uma noção de convergência de suas respectivas funções de distribuição acumuladas. Definição 6.2.12: A seqüência de variáveis aleatórias Y1 , Y2 , . . ., converge em distribuição para a variável aleatória Y se para todo ponto x de continuidade de FY lim FYn (x) = FY (x). n→∞ Notação: Yn →D Y . Exemplo 6.2.13: Seja {Xn : n ≥ 1} uma seqüência de variáveis aleatórias independentes com distribuição Uniforme em (0, b), b > 0. Defina Yn = max(X1 , X2 , . . . , Xn ) e Y = b. Vamos verificar que Yn →D Y . Temos se y < 0, 0 y n n ( ) se 0 ≤ y < b, FYn (y) = P (max(X1 , X2 , . . . , Xn ) ≤ y) = FX1 (y) = b 1 se y ≥ b. Fazendo n tender ao infinito, temos que lim FYn (y) = n { 0 se y < b, 1 se y ≥ b, que corresponde à função de distribuição de Y e, portanto, Yn →D Y . Autor: Leandro Chaves Rêgo 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 96 Deve-se ficar atento que convergência em distribuição não implica nada em relação aos outros tipos de convergência. Uma seqüência convergindo em distribuição para uma variável aleatória X também converge em distribuição para qualquer outra variável aleatória Y tal que FY = FX . O próximo exemplo serve para ilustrar melhor este fato. Exemplo 6.2.14: Se uma seqüência de variáveis aleatórias Y1 , Y2 , . . . é independente e identicamente distribuída de acordo com F , então para todo n tem-se que FYn = F , logo a seqüência converge em distribuição para qualquer variável aleatória X tal que FX = F . Claro, como a seqüência é independente, os valores de termos sucessivos são independentes e não exibem nenhum comportamento usual de convergência. O requisito de continuidade, mencionado na definição acima, se justifica para evitar algumas anomalias. Por exemplo, para n ≥ 1 seja Xn = n1 e X = 0, para todo Ω. Parece aceitável que deveríamos ter convergência de Xn para X, qualquer que fosse o modo de convergência. Observe que { 0 se x < n1 , Fn (x) = 1 se x ≥ n1 , e { 0 se x < 0, F (x) = 1 se x ≥ 0. Portanto, como limn Fn (0) = 0 ̸= F (0) = 1, não temos limn Fn (x) = F (x) para todo x ∈ IR. Desse modo se houvesse a exigência de convergência em todos os pontos, não teríamos convergência em distribuição. Entretanto, note que para x ̸= 0, temos limn Fn (x) = F (x) e, como o ponto 0 não é de continuidade de F , concluímos que Xn →D X. Um exemplo mais complexo de convergência em distribuição pode ser visto na análise do limite de n 1 ∑ Sn = √ (Xi − EXi ), n i=1 onde Xi ’s são variáveis aleatórias independentes e identicamente distribuídas. Neste, o Teorema Central do Limite afirma que se V AR(Xi ) = σ 2 < ∞, então Sn converge em distribuição para qualquer variável aleatória com distribuição N (0, σ 2 ). O próximo teorema estabelece duas condições suficientes para que uma seqüência de variáveis aleatórias convirja em distribuição. Teorema 6.2.15: Seja X, X1 , X2 , . . . uma seqüência de variáveis aleatórias: (a) Se X, X1 , X2 , . . . são variáveis aleatórias discretas com P (Xn = xi ) = pn (i) e P (X = xi ) = p(i), onde pn (i) → p(i) quando n → ∞ para todo i = 0, 1, 2, 3, . . ., então Xn →D X. (b) Se X, X1 , X2 , . . . são variáveis aleatórias absolutamente contínuas com densidades dadas respectivamente por f, f1 , f2 , f3 , . . ., onde fn (x) → f (x) quando n → ∞ em quase todo lugar, então Xn →D X. Autor: Leandro Chaves Rêgo 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 97 Prova: Se pn (i) → p(i) para todo i, então ∑ ∑ FXn (x) = pn (i) → p(i) = FX (x). i:xi ≤x i:xi ≤x Onde a convergência acima segue do Teorema da Convergência Dominada, visto que FXn (x) ≤ 1, ∀x ∈ IR. A prova da parte (b) usa conceitos de Teoria da Medida e será omitida. O próximo exemplo mostra que se uma seqüência de variáveis aleatórias discretas converge em distribuição, não necessariamente sua função probabilidade de massa converge. Exemplo 6.2.16 : Sejam X, X1 , X2 , . . . variáveis aleatórias tais que P (X = 0) = 1 e P (Xn = 1/n) = 1. Então, temos FX (x) = 1 se x ≥ 0, e FX (x) = 0 caso contrário; e FXn (x) = 1 se x ≥ 1/n e FXn (x) = 0 caso contrário. Logo, FXn (x) → FX (x), ∀x ̸= 0, ou seja, Xn →D X. Porém, p(0) = 1 ̸= 0 = limn pn (0). O próximo exemplo mostra que se uma seqüência de variáveis aleatórias absolutamente contínuas converge em distribuição, não necessariamente sua função densidade de probabilidade converge. Exemplo 6.2.17 : Considere uma seqüência de variáveis aleatórias X, X1 , X2 , . . . com função de distribuição acumuladas dadas respectivamente por F, F1 , F2 , F3 , . . ., onde 0 , se x ≤ 0 sen 2nπx x(1 − 2nπx ) , se 0 < x ≤ 1 Fn (x) = 1 , se x > 1; e , se x ≤ 0 0 x , se 0 < x ≤ 1 F (x) = 1 , se x > 1. Então Fn e F são absolutamente contínuas com densidade dada por { 1 − cos 2nπx , se 0 ≤ x ≤ 1 fn (x) = 0 , caso contrário; { e f (x) = 1 , se 0 < x ≤ 1 0 , caso contrário. É fácil ver que Fn (x) → F (x), ∀x ∈ IR. Contudo, fn (x) 9 f (x). Autor: Leandro Chaves Rêgo 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 6.2.2 98 Relação Entre os Tipos de Convergência A primeira relação que iremos provar é que convergência quase certa implica convergência em probabilidade. Teorema 6.2.18: Xn → X cp1 ⇒ Xn →P X. Prova: Para provar que convergência quase certa implica em convergência em probabilidade, considere a seguinte família de eventos An,ϵ = {w : |Xn (w) − X(w)| ≤ ϵ}. Logo, pela interpretação de convergência pontual, C = {w : Xn (w) → X(w)} = ∩ϵ>0 ∪∞ N =1 ∩n≥N An,ϵ . Se Xn → X cp1, então P (C) = 1. Equivalentemente, pela Lei de De Morgan, c D = C c = ∪ϵ>0 Dϵ , onde Dϵ = ∩∞ N =1 ∪n≥N An,ϵ , e P (∪ϵ>0 Dϵ ) = 0. Portanto, convergência quase certa implica que ∀ϵ > 0, P (Dϵ ) = 0. Seja FN = ∪n≥N Bn . Note que FN ↓. Logo, limN FN = ∩∞ N =1 ∪n≥N Bn . Portanto, pelo axioma da continuidade monotônica da probabilidade, tem-se que P (∩∞ N =1 ∪n≥N Bn ) = lim P (∪n≥N Bn ). N →∞ Então, 0 = P (Dϵ ) = lim P (∪n≥N Acn,ϵ ) ≥ N →∞ lim P (AcN,ϵ ) = lim P (|XN (w) − X(w)| > ϵ). N →∞ N →∞ Portanto, Xn →P X. O próximo teorema prova que convergência na r-ésima média implica convergência em probabilidade. Teorema 6.2.19: Xn →r X ⇒ Xn →P X. Prova: Primeiro note que |Xn −X|r ϵr ≥ I{w:|Xn −X|>ϵ} . Logo, tem-se que |Xn − X|r E( ) ≥ E(I{w:|Xn −X|>ϵ} ), ϵr ou seja, E(|Xn − X|r ) ≥ P ({w : |Xn − X| > ϵ}). ϵr Autor: Leandro Chaves Rêgo 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 99 Se Xn →r X, tem-se que limn→∞ E(|Xn − x|r ) = 0. Então, para todo ϵ > 0 lim P ({w : |Xn − X| > ϵ}) = 0, n→∞ ou seja, Xn →P X. O próximo exemplo prova que nem convergência em probabilidade, nem convergência na r-ésima média implicam convergência quase certa. Exemplo 6.2.20: Seja X uma variável aleatória com distribuição uniforme no intervalo [0, 1], e considere a seqüência de intervalos definida por I2m +i = [ i i+1 , ], 2m 2m para m = 0, 1, 2, . . . e i = 0, 1, . . . , 2m − 1. Note que tem-se 2m intervalos de comprimento 2−m que cobrem todo o intervalo [0, 1], e o comprimento dos intervalos fica cada vez menor tendendo a 0. Definamos { 1 se X(w) ∈ In , Yn (w) = 0 se X(w) ∈ / In . A seqüência Y1 , Y2 , . . . converge em probabilidade para 0, pois para 0 < ϵ ≤ 1, P (|Yn | ≥ ϵ) = P (Yn = 1) = P (X ∈ In ), e esta probabilidade, que é igual ao comprimento de In , converge para zero quando n → ∞. Esta seqüência também converge na r-ésima média para todo r > 0, visto que E(|Yn |r ) = P (Yn = 1) → 0 quando n → ∞. Logo, Yn converge na r-ésima média para 0. Porém para todo w ∈ Ω, Yn (w) = 1 para um número infinito de n’s e Yn (w) = 0 para um número infinito de n’s. Portanto, Yn (w) não converge para todo w, o que implica que Yn não converge quase certamente. O próximo teorema estabelece mais uma relação entre convergência quase certa e convergência em probabilidade. Teorema 6.2.21: Xn →P X se, e somente se, toda subseqüência {Xnk } possui uma outra subseqüência {Xnk(i) } tal que Xnk(i) → X cp1 para i → ∞. Prova: Suponha que Xn →P X, então dada qualquer subseqüência {Xnk }, escolha uma outra subseqüência {Xnk(i) } tal que j ≥ k(i) implica que P (|Xnj − X| ≥ i−1 ) < 2−i . Em particular, temos que P (|Xnk(i) − X| ≥ i−1 ) < 2−i . Seja Ai = {|Xnk(i) − X| ≥ i−1 }, ∑∞ −i ∑ = 1 < ∞. Logo, pelo Lema de Borel-Cantelli, temos que então ∞ i=1 2 i=1 P (Ai ) < P (Ai infinitas vezes) = 0, ou seja, P (Ai finitas vezes) = 1. Portanto, |Xnk(i) − X| < i−1 exceto para um número finito de i’s com probabilidade 1. Portanto, Xnk(i) → X cp1. Se Xn não converge para X em probabilidade, existe um ϵ > 0 e uma subseqüência {Xnk } tal que P (|Xnk − X| > ϵ) > ϵ. Logo nenhuma subseqüência de {Xnk } pode convergir para X Autor: Leandro Chaves Rêgo 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 100 em probabilidade, logo pelo Teorema 6.2.18, nenhuma subseqüência converge para X quase certamente. O próximo exemplo mostra que convergência em probabilidade não implica convergência na r-ésima média Exemplo 6.2.22: Seja X uma variável aleatória com distribuição uniforme no intervalo [0, 1]. Considere a seguinte seqüência de varáveis aleatórias { n 2 se X(w) ∈ (0, n1 ), Yn (w) = 0 se X(w) ∈ / (0, n1 ). Então, P (|Yn | > ϵ) = P (X(w) ∈ (0, n1 )) = 1 n → 0, mas E(|Yn |r ) = 2nr n1 → ∞. O próximo exemplo mostra que convergência quase-certa não implica convergência na r-ésima média. Exemplo 6.2.23: Seja {Yn , n ≥ 1} uma seqüência de variáveis aleatórias onde P (Yn = 0) = 1 − n−2 e P (Yn = en ) = n−2 . Portanto, para todo ϵ > 0, P (|Yn | > ϵ) = P (Yn > ϵ) ≤ P (Yn = en ) = n−2 . Logo, ∞ ∑ P (|Yn | > ϵ) ≤ n=1 ∞ ∑ n−2 < ∞. n=1 Então, Borel-Cantelli implica que |Yn | > ϵ infinitas vezes com probabilidade 0, o que por sua vez implica que Yn → 0 com probabilidade 1, ou seja, Yn → 0 cp1. Porém, enr E|Yn | = 2 → ∞, n r para todo r > 0. Portanto, Yn → 0 cp1, mas Yn 9r 0 para todo r > 0. O próximo teorema trata da relação entre convergência em distribuição e convergência em probabilidade. Teorema 6.2.24: As seguintes relações entre os tipos de convergência são válidas: (a) Xn →P X ⇒ Xn →D X (b) Se Xn →D c, onde c é uma constante, então Xn →P c. Autor: Leandro Chaves Rêgo 6.2. COVERGÊNCIA DE VARIÁVEIS ALEATÓRIAS 101 Prova: Para parte (a), suponha que Xn →P X e seja x um ponto de continuidade de FX . Queremos provar que FXn (x) → FX (x) quando n → ∞. Como para ϵ > 0, Xn ≤ x ⇒ X ≤ x + ϵ ou |X − Xn | > ϵ, temos {w : Xn (w) ≤ x} ⊆ {w : X(w) ≤ x + ϵ} ∪ {w : |Xn (w) − X(w)| > ϵ}. Logo, FXn (x) = P (Xn ≤ x) ≤ FX (x + ϵ) + P (|Xn − X| > ϵ). Por outro lado, X ≤ x − ϵ ⇒ Xn ≤ x ou |Xn − X| > ϵ de modo que FX (x − ϵ) ≤ FXn (x) + P (|Xn − X| > ϵ). Juntando as duas desigualdades, temos que ∀ϵ > 0, and ∀n, FX (x − ϵ) − P (|Xn − X| > ϵ) ≤ FXn (x) ≤ FX (x + ϵ) + P (|Xn − X| > ϵ). Como Xn →P X, para qualquer δ > 0, existe N tal que para n ≥ N , temos que FX (x − ϵ) − δ ≤ FXn (x) ≤ FX (x + ϵ) + δ. Finalmente, como x é ponto de continuidade de FX , para ϵ suficientemente pequeno, temos que FX (x) − 2δ ≤ FX (x − ϵ) − δ ≤ FXn (x) ≤ FX (x + ϵ) + δ ≤ FX (x) + 2δ. Ou seja, limn→∞ FXn (x) = FX (x). Para parte (b), suponha que Xn →D c. Note que a função de distribuição de uma variável aleatória constante c é: { 1 se x ≥ c, Fc (x) = 0 se x < c. Pela convergência em distribuição, tem-se que limn→∞ FXn (x) = 0, se x < c e limn→∞ FXn (x) = 1, se x > c. Logo, para ϵ > 0, P (|Xn − c| ≤ ϵ) = P (c − ϵ ≤ Xn ≤ c + ϵ) ≥ P (c − ϵ < Xn ≤ c + ϵ) = FXn (c + ϵ) − FXn (c − ϵ) → 1 quando n → ∞. Ou seja, ∀ϵ > 0, limn→∞ P (|Xn − c| > ϵ) = 0. A Figura 6.1 resume a relação entre os tipos de convergência. Exemplo 6.2.25: Para n ≥ 1, Xn ∼ U (0, 1) são variáveis aleatórias i.i.d. Defina Yn = min(X1 , X2 , . . . , Xn ) e Un = nYn . Mostre que (a) Yn →P 0, (b) Un →D U , sendo U ∼ Exp(1). Autor: Leandro Chaves Rêgo 6.3. CONVERGÊNCIA DE VETORES ALEATÓRIOS 102 Figura 6.1: Relação entre os tipos de convergência. Solução: Para parte (a), note que P (|Yn | > ϵ) = P (Yn > ϵ) = P (X1 > ϵ, X2 > ϵ, . . . , Xn > ϵ). Como os Xn são independentes temos que a última expressão é igual a (P (X1 > ϵ))n = (1 − ϵ)n . Como (1 − ϵ)n → 0 quando n → ∞, temos que Yn →P 0. Para parte (b), note que FUn (x) = P (Un ≤ x) = 1 − P (Un > x) = 1 − P (nYn > x) = 1 − P (Yn > x/n) De acordo com a parte (a), esta expressão é igual a 1 − (1 − x/n)n , que por sua vez converge para 1 − e−x quando n → ∞, que é igual a FU (x). 6.3 Convergência de Vetores Aleatórios Para o caso vetorial as definições de convergência sofrem algumas adaptações. Para as convergências quase certa e em probabilidade, precisamos avaliar a proximidade entre os vetores aleatórios Xn e X pelo comportamento ∑ da norma da diferença entre eles. Em geral, essa norma é calculada por ||Xn − X|| = ( kj=1 (Xnj − Xj )2 )1/2 , onde k é a dimensão dos vetores e Xnj a coordenada j do vetor Xn . Pode-se verificar que a convergência do vetor aleatório, quase certamente ou em probabilidade, ocorre se, e somente se, existir a mesma Autor: Leandro Chaves Rêgo 6.3. CONVERGÊNCIA DE VETORES ALEATÓRIOS 103 convergência em cada uma das variáveis que compõe o vetor aleatório. Dessa forma, o caso multidimensional pode ser estudado a partir de repetidas aplicações do caso univariado. Para convergência em distribuição de vetores aleatórios, requeremos que a função de distribuição conjunta Fn (x) convirja para F (x), em todos os pontos de continuidade da função F . Entretanto, lembremos que da função de distribuição conjunta podemos obter as marginais, mas o caminho inverso nem sempre é possível. Por essa razão, diferentemente das convergências quase certa e em probabilidade, não podemos reduzir o estudo da convergência em distribuição de vetores aleatórios, ao comportamento das suas respectivas coordenadas. Não temos equivalência, mas apenas implicação, em uma das direções. Ou seja, se o vetor converge em distribuição então cada componente também converge em distribuição, para a correspondente marginal da função de distribuição limite. Entretanto a recíproca não é em geral, verdadeira. Autor: Leandro Chaves Rêgo Capítulo 7 Funções Características 7.1 Motivação Em matemática e suas aplicações, é sempre valioso ter maneiras alternativas de representar o mesmo objeto matemático. Uma analogia pode ser que um conjunto de vetores pode ser representado em vários sistemas de coordenadas. No nosso caso de probabilidade, o conceito básico é o de uma medida de probabilidade P que dá um valor real numérico a um conjunto de eventos em uma σ-álgebra. Para X uma variável aleatória, sabe-se que existem outras maneiras de representar a probabilidade P , como por exemplo através de sua função de distribuição acumulada FX . Se X for uma variável aleatória discreta, pode-se equivalentemente representar P pela função de probabilidade de X, pX . Se X for absolutamente contínua, então P pode ser representada pela função densidade de probabilidade de X, fX . Uma função característica φX de uma variável aleatória X é uma outra maneira de representar P . Algumas vantagens do uso da função característica são: pode-se calcular os momentos de uma variável aleatória X diferenciando-se a função característica (o que geralmente é mais simples que usar diretamente as definições de momento que envolvem integrais), podese calcular mais facilmente a distribuição de soma de variáveis aleatórias independentes, e finalmente o uso de funções características ajuda na prova de uma família de Teoremas Centrais do Limite que ajudam a explicar a prevalência de distribuições normal ou Gaussianas na Natureza. Uma função geratriz de momento é uma outra representação alternativa da distribuição de uma variável aleatória. As vantagens desta representação são as mesmas da função característica, mas como a função característica é mais robusta (no sentido que ela sempre existe), nós focaremos no uso da mesma, e apenas no final deste capítulo mencionaremos a definição de uma função geratriz de momento. Até aqui, só tratamos com variáveis reais, mas o caso complexo é similar. Sem aprofundar o assunto, diremos que√uma variável aleatória X é complexa, se pode ser escrita como X = X1 + iX2 , onde i = −1, e X1 e X2 são variáveis aleatórias reais. Logo, para verificar que uma função complexa é variável aleatória, precisamos verificar propriedades da imagem inversa nas suas duas partes. Para o valor esperado de X, exige-se que as duas partes sejam finitas. Assim, temos: EX = EX1 + iEX2 , onde EX1 e EX2 são ambas finitas. Para efeitos práticos, quando realizando integração de funções complexas, podemos operar como 104 7.2. DEFINIÇÃO 105 se estivéssemos com funções reais (trata-se i como se fosse uma constante real). 7.2 Definição Definição 7.2.1: A função característica φX de uma variável aleatória X é dada por: . √ φX (t) = EeitX = E cos(tX) + iE sen(tX), onde i = −1. Note que como cos(tX) e sen(tX) são variáveis aleatórias limitadas, a esperança na definição acima é finita e, conseqüentemente, a função característica de qualquer variável aleatória é bem definida. Note também que de acordo com esta definição, a função de distribuição acumulada determina a função característica de uma variável aleatória. No caso particular de uma variável aleatória discreta, temos: ∑ φX (t) = eitxk p(xk ), k onde p(xk ) é a função probabilidade de X. Analogamente, se X for uma variável aleatória contínua, temos: ∫ ∞ φX (t) = eitx fX (x)dx, −∞ onde fX (x) é a função densidade de probabilidade de X. Observação 7.2.2: A função característica de uma variável aleatória contínua é a transformada de Fourier da densidade de probabilidade de X. 7.2.1 Propriedades A seguir listamos algumas propriedades da função característica. P1. A função característica é limitada por 1: |φX (t)| ≤ 1, ∀t ∈ R. Prova: Como pela desigualdade de Jensen, E 2 cos(tx) ≤ E cos2 (tx) e E 2 sen(tx) ≤ E sen2 (tx), temos √ √ |φX (t)| = E 2 cos(tX) + E 2 sen(tX) ≤ E(cos2 (tX) + sen2 (tX)) = E1 = 1. P2. A função característica assume o valor 1 no ponto 0: φX (0) = 1. Prova: φX (0) = Eei0X = E1 = 1. Autor: Leandro Chaves Rêgo 7.2. DEFINIÇÃO 106 P3. φX (t) = φX (−t), onde c é o complexo conjugado de c. (Se c = x + iy, o seu complexo conjugado é c = x − iy.) Prova: φX (−t) = E cos(−tX) + iE sen(−tX) = E cos(tX) − iE sen(tX) = φX (t). P4. φX é uniformemente contínua na reta. Prova: Uma função φ é uniformemente contínua, se para todo ϵ > 0 existe δ > 0 tal que para todo t, s ∈ R |φ(t) − φ(s)| < ϵ quando |t − s| < δ. Logo, |φ(t) − φ(s)| = |E(eitx − eisx )| ≤ E|eisx (ei(t−s)x − 1)| = E|ei(t−s)x − 1|. Seja h(u) = |eiux − 1|. Como 0 ≤ |eiux − 1| ≤ 2, 2 é integrável, e limu→0 h(u) = 0, pelo teorema da convergência dominada, temos que limu→0 Eh(u) = 0. Então, para todo ϵ > 0 existe δ > 0 tal que |u| < δ implica que Eh(u) < ϵ, ou seja, para todo ϵ > 0 existe δ > 0 tal que |t − s| < δ implica que |φ(t) − φ(s)| ≤ E|ei(t−s)x − 1| < ϵ. P5. Se X e Y são independentes, então φX+Y (t) = φX (t) · φY (t), ∀t ∈ R. Prova: φX+Y (t) = Eeit(X+Y ) = E(eitX eitY ) = E(eitX )E(eitY ) = φX (t) · φY (t). É fácil provar por indução ∏n que se X1 , . . . , Xn são variáveis aleatórias independentes, então φX1 +...+Xn (t) = k=1 φXk (t), ∀t ∈ R. P6. A variável aleatória X tem distribuição simétrica em torno de 0 se, e somente se, φX (t) é real para todo t ∈ R. Prova: X é simétrica em torno de 0 se e somente se P (X ≤ x) = P (X ≥ −x), ∀x ∈ R. Como X ≥ −x ⇔ −X ≤ x, nós temos que FX = F−X , ou seja, φX = φ−X . Como φ−X (t) = Eeit(−X) = Eei(−t)X = φX (−t) = φX (t). Então, X é simétrica em torno de 0 se e somente se φX (t) = φX (t), ou seja, se φX (t) é real para todo t ∈ R. (k) P7. Se E|X|n < ∞, então φX (0) = ik EX k para k ∈ {1, . . . , n}, de modo que a função característica é uma espécie de função geradora de momentos. Prova: Suponhamos que X seja integrável; queremos provar que φ′X (t) = E(iXeitX ). X (t) Note que para h ̸= 0, temos φX (t+h)−φ = E(eitX (e h −1) ). Como (e h−1) → ix h quando h → 0 (regra de L’Hopital), ∀x ∈ R, temos que o resultado decorre se pudermos trocar a ordem do limite e da esperança. Mas como para todo x, ∫h ∫ h isx isx ixe ds e ds eihx − 1 |=| 0 | = |x| · | 0 | ≤ |x|. | h h h ihX ihx Portanto, como |eitX | = 1, temos |eitX (eihX − 1) | ≤ |X|. h Autor: Leandro Chaves Rêgo 7.2. DEFINIÇÃO 107 Como X é integrável, o Teorema da Convergência Dominada implica que φX (t + h) − φX (t) h→0 h ihX (e − 1) (eihX − 1) = lim E(eitX ) = E(lim eitX ) = E(iXeitX ). h→0 h→0 h h φ′X (t) = lim Logo, φ′X (0) = iEX. O restante da prova segue por indução em n. P8. Se Y = aX + b, onde a e b são números reais constantes, φY (t) = eitb φX (at). Prova: φY (t) = EeitY = Eeit(aX+b) = Eeitb eitaX = eitb Eei(at)X = eitb φX (at). P9. φX (t) é positiva definida. Isto é, para todo n = 1, 2, . . ., tem-se n ∑ n ∑ φX (tj − tk )zj zk ≥ 0, j=1 k=1 para quaisquer números reais t1 , t2 , . . . , tn e complexos z1 , z2 , . . . , zn . Prova: n ∑ n ∑ φX (tj − tk )zj zk j=1 k=1 n ∑ n ∑ = = j=1 k=1 n n ∑ ∑ E(eiX(tj −tk ) )zj zk E(zj eiX(tj ) zk e−iXtk ) j=1 k=1 n ∑ n ∑ zj eiX(tj ) zk eiXtk ) = E( j=1 k=1 n ∑ = E[( iX(tj ) zj e j=1 n ∑ zk eiXtk )] )( k=1 n n ∑ ∑ iX(tj ) zk eiXtk )] = E[( zj e )( = E(| j=1 n ∑ k=1 zj eiX(tj ) |2 ) ≥ 0 j=1 Portanto, φX é positiva definida. Os resultados a seguir conhecidos como Fórmula de Inversão e Teorema da Unicidade garantem que a função característica determina a função de distribuição de uma variável aleatória. Autor: Leandro Chaves Rêgo 7.2. DEFINIÇÃO 108 Teorema 7.2.3: Seja X uma variável aleatória qualquer, então sua função característica φX (t) determina a função de distribuição de X, através da seguinte Fórmula de Inversão: ∫ c −iat 1 e − e−ibt F̃ (b) − F̃ (a) = lim φX (t)dt; c→∞ 2π −c it onde F̃ (w) = 12 (F (w+ ) + F (w− )), ∀w ∈ IR e a, b, c são números reais tais que c > 0 e a < b. −iat −ibt Prova: Note que se F for contínua em w, então F̃ (w) = F (w). A função e it−e é definida para ser igual a b − a, quando t = 0, coincidindo com seu limite quando t → 0. Logo, ela será contínua para todo t real e limitada, pois: i(a+b)t e−iat − e−ibt e−iat − e−ibt | = |e 2 | × | | it it 1 1 2 sen[ (b−a)t ] e 2 i(b−a)t − e 2 i(a−b)t 2 |=| | ≤ b − a, =| it t | onde a última desigualdade decorre do fato que | senw| ≤ w, ∀w ∈ IR. Denotando por Int(c) a integral da fórmula da inversão, temos ∫ c −iat e − e−ibt 1 Int(c) = φX (t)dt 2π −c it ∫ c −iat 1 e − e−ibt = E(eiXt )dt 2π −c it ∫ c 1 e−i(a−X)t − e−i(b−X)t = E( )dt 2π −c it ∫ c −i(a−X)t 1 e − e−i(b−X)t = E[ dt], 2π −c it onde a última igualdade decorre da troca da ordem de integração que é justificada tendo em vista que o integrando é limitado conforme provamos acima. Portanto, trabalhando o termo entre colchetes, temos ∫ e−i(a−X)t − e−i(b−X)t dt it −c ∫ c 1 1 = [cos((X − a)t) + i sen((X − a)t) − cos((X − b)t) − i sen((X − b)t)]dt 2π −c it ∫ 1 c sen((X − a)t) − sen((X − b)t) ( )dt = π 0 t ∫ ∫ 1 c sen((X − a)t) 1 c sen((X − b)t) = dt − dt π 0 t π 0 t ∫ ∫ 1 c(X−b) sen(u) 1 c(X−a) sen(u) du − du = π 0 u π 0 u = g(c(X − a)) − g(c(X − b)), 1 2π c Autor: Leandro Chaves Rêgo 7.2. DEFINIÇÃO 109 onde g é a função dada por g(w) = 1 π ∫ w sen(u) du, w ∈ IR. Logo, temos u 0 Int(c) = E[g(c(X − a)) − g(c(X − b))]. Como vamos passar ao limite para c → ∞, precisamos verificar se será possível trocar a ordem entre limite e esperança. Como g é contínua e limw→±∞ g(w) = ± 21 , temos que g é limitada. Então a troca de ordem do limite e da esperança é justificada pelo Teorema da Convergência Dominada. Seja Y = 21 Ia≤X<b + 12 Ia<X≤b . Temos que lim g(c(X − a)) − g(c(X − b)) = Y. c→∞ Então, lim Int(c) = E[ lim g(c(X − a)) − g(c(X − b))] = EY. c→∞ c→∞ Mas o valor esperado de Y é dado por: 1 1 EY = P (X = a) + P (X = b) + P (a < X < b) 2 2 1 1 = (F (a) − F (a− )) + (F (b) − F (b− )) + (F (b− ) − F (a)) 2 2 1 1 = (F (b) + F (b− )) − (F (a) + F (a− )) = F̃ (b) − F̃ (a). 2 2 Portanto, limc→∞ Int(c) = F̃ (b) − F̃ (a), como queríamos demonstrar. Agora podemos utilizar a fórmula da inversão para provar o Teorema da Unicidade. Teorema 7.2.4: Teorema da Unicidade. Se as variáveis aleatórias X e Y têm a mesma função característica, então elas têm a mesma distribuição. Prova: Por hipótese, X e Y têm a mesma função característica e, como conseqüência da Fórmula da Inversão, temos que para quaisquer a, b reais e a < b, F̃X (b) − F̃X (a) = F̃Y (b) − F̃Y (a). Tomando o limite quando a → −∞, temos que F̃X (a) → 0 e F̃Y (a) → 0. Portanto, F̃X (b) = F̃Y (b), ∀b ∈ IR. Seja c < b, pela monotonicidade de FX e FY e pela definição de F̃ , temos FX (c) ≤ F̃X (b) ≤ FX (b) e FY (c) ≤ F̃Y (b) ≤ FY (b). Então pela continuidade à direita da função de distribuição, temos que lim F̃X (b) = FX (c) e lim F̃Y (b) = FY (c). b↓c b↓c Logo, FX (c) = FY (c), ∀c ∈ IR como queríamos demonstrar. Note que o Teorema da Unicidade junto com a definição de função característica implicam que existe uma correspondência 1-1 entre funções características e funções de distribuições. Autor: Leandro Chaves Rêgo 7.2. DEFINIÇÃO 110 1 Exemplo 7.2.5: Se φX (t) = 1+t 2 , calcule V arX. Solução: Diferenciando φX , temos φ′X (t) = −2(1+t2 )2 +2t(2(1+t2 )2t) . (1+t2 )4 2 2 φ′′X (t) = Portanto, EX = Logo, V arX = EX − (EX) = 2. −2t . (1+t2 )2 φ′X (0) i Diferenciando mais uma vez, = 0 e EX 2 = φ′′ X (0) i2 = −(−2) = 2. Exemplo 7.2.6: Seja φ(t) = cos(at), onde a > 0. Mostraremos que φ é função característica, achando a distribuição correspondente. Já que assume valores reais, se φ fosse função característica de alguma variável aleatória X, então por P6, X possuiria distribuição simétrica em torno de zero. Com efeito teríamos cos(at) = φ(t) = E cos(tX), pois a parte imaginária seria nula. Como cos(at) = cos(−at), é evidente que uma distribuição simétrica concentrada nos dois pontos a e −a corresponderia a função característica φ. Portanto, φ é função característica de X, se, e somente se, P (X = a) = 1/2 = P (X = −a). Exemplo 7.2.7: Sejam X1 e X2 duas variáveis aleatórias i.i.d. e seja Y = X1 − X2 . Qual a função característica de Y ? Solução: Seja φ a função característica de X1 e X2 . Por P8 e P3, temos que φ−X2 (t) = φ(−t) = φ(t). Então, como X1 e X2 são independentes, por P5, temos que φY (t) = φ(t)φ−X2 (t) = |φ(t)|2 . Teorema 7.2.8: Uma função contínua ψ : R → C com ψ(0) = 1 é função característica de alguma variável aleatória se, e somente se, ela for positiva definida. Prova: Conforme propriedades já demonstradas, se for função característica, é contínua, positiva definida e aplicada em 0, resulta o valor 1. A prova da recíproca será omitida. 7.2.2 Exemplos de Funções Características Bernoulli. Suponhamos que X ∼ Bernoulli(p), onde P (X = 1) = p = 1 − P (X = 0). Então, φX (t) = EeitX = peit + (1 − p). Poisson. Suponhamos que X ∼ P oisson(λ). Então, φX (t) = EeitX = ∞ ∑ n=0 eitn e−λ ∞ ∑ λn (λeit )n it = e−λ = eλ(e −1) . n! n! n=0 1 Uniforme. Suponhamos que X ∼ U nif orme(−a, a). Então, fX (x) = 2a para −a < x < a, e fX (x) = 0 caso contrário. Logo, se t = 0, então φX (0) = 1, e para t ̸= 0, ∫ a itx 1 eita − e−ita sen(ta) e itX dx = ( )= . φX (t) = Ee = 2a it ta −a 2a Autor: Leandro Chaves Rêgo 7.3. TEOREMA DA CONTINUIDADE DE LEVY 111 Normal. Suponhamos que X ∼ N (0, 1). Então, ∫ ∫ 2 (x−it)2 −t2 −t2 1 1 itx −x 2 2 φX (t) = √ e e dx = e √ e− 2 dx = e 2 , 2π 2π onde esta última integral pode ser calculada utilizando o Teorema de Cauchy tendo em vista −z 2 que e 2 é uma função analítica no plano complexo. Exponencial. Suponhamos que X ∼ Exp(α). Então, ∫ ∞ ∫ ∞ itx −αx φX (t) = e αe dx = α ex(−α+it) dx = [ 0 0 α α ex(−α+it) ]∞ . 0 = −α + it α − it Exemplo 7.2.9: Sejam X1 , X2 , . . . , Xn variáveis aleatórias independentes e identicamente distribuídas, seguindo o modelo de Poisson com parâmetro λ. Queremos obter a distribuição de X1 + X2 + . . . + Xn . Solução: Temos it(X1 +...+Xn ) φX1 +...+Xn (t) = E(e )= n ∏ E(eitXj ) = enλ(e it −1) . j=1 Portanto, X1 + X2 + . . . + Xn tem uma distribuição Poisson com parâmetro nλ. 7.3 Teorema da Continuidade de Levy Nosso objetivo nesta seção é provar que Xn →D X se, e somente se, φXn (t) → φX (t), ∀t ∈ R. Antes de provarmos a necessidade desta afirmação, considere a seguinte definição de convergência de funções de distribuição. Definição 7.3.1: Seja X, X1 , X2 , . . . uma seqüência de variáveis aleatórias com funções de distribuição acumuladas dadas respectivamente por F, F1 , F2 , . . .. Diz-se que Fn converge fracamente para F , se Xn →D X. Teorema 7.3.2: Teorema de Helly-Bray. Sejam F, F1 , F2 , . . . funções de distribuição. Se Fn converge fracamente para F , então ∫ ∫ g(x)dFn (x) → g(x)dF (x) para toda função g : R → R contínua e limitada. Prova: Para −∞ < a < b < ∞, onde a e b são pontos de continuidade de F , ∫ ∫ ∫ ∫ b ∫ b ∫ b ∫ b ∫ | gdFn − gdF | ≤ | gdFn − gdFn |+| gdFn − gdF |+| gdF − gdF | = I+II+III. a a a a Autor: Leandro Chaves Rêgo 7.3. TEOREMA DA CONTINUIDADE DE LEVY 112 Seja c = supx∈R |g(x)| < ∞ e seja ϵ > 0. Então, ∫ b ∫ ∫ a ∫ ∞ ∫ a ∫ ∞ III = | gdF − gdF | = | gdF + gdF | ≤ | gdF | + | gdF | a −∞ b −∞ b ∫ a ∫ ∞ ∫ a ∫ ∞ ≤ |g|dF + |g|dF ≤ cdF + cdF = c(F (a) + 1 − F (b)) −∞ −∞ b b Logo, para qualquer ϵ > 0, podemos escolher a suficientemente pequeno e b suficientemente grande tal que III < ϵ, pois limx→−∞ F (x) = 0 e limx→∞ F (x) = 1. Para esses valores de a e b, e para n suficientemente grande, como a e b são pontos de continuidade de F , e como Fn converge fracamente para F , temos que I ≤ c(Fn (a) + 1 − Fn (b)) < 2ϵ. Consideremos agora II. Sejam a e b os pontos já escolhidos. Já que g é uniformemente contínua em [a, b],1 podemos escolher x0 , x1 , . . . , xN tais que a = x0 < x1 < . . . < xN = b, onde xi são pontos de continuidade de F e |g(x) − g(xi )| < ϵ para todo x ∈ [xi , xi+1 ], i ∈ {0, . . . , N − 1}. Então, ∫ xi+1 g(x)dFn (x) ≤ (g(xi )+ϵ)(Fn (xi+1 )−Fn (xi )) = Mni mni = (g(xi )−ϵ)(Fn (xi+1 )−Fn (xi )) ≤ xi e ∫ mi = (g(xi ) − ϵ)(F (xi+1 ) − F (xi )) ≤ xi+1 g(x)dF (x) ≤ (g(xi ) + ϵ)(F (xi+1 ) − F (xi )) = Mi . xi Portanto, ∫ mni − Mi ≤ xi+1 ∫ xi+1 g(x)dFn (x) − xi g(x)dF (x) ≤ Mni − mi , xi para i ∈ {0, . . . , N − 1}. Somando, temos N −1 ∑ ∫ (mni − Mi ) ≤ ∫ b g(x)dFn (x) − a i=0 b g(x)dF (x) ≤ a N −1 ∑ (Mni − mi ). i=0 Quando n → ∞, temos que mni → mi e Mni → Mi , logo, N −1 ∑ (mni − Mi ) → i=0 e N −1 ∑ i=0 N −1 ∑ (mi − Mi ) = −2ϵ(F (b) − F (a)) ≥ −2ϵ i=0 (Mni − mi ) → N −1 ∑ (Mi − mi ) = 2ϵ(F (b) − F (a)) ≤ 2ϵ i=0 ∑N −1 ∑ −1 (mi − Mi )| < ϵ (mni − Mi ) − i=0 Como para n suficientemente grande temos que | N ∑N −1 ∑i=0 ∑N −1 ∑N −1 N −1 (Mni − e | i=0 (Mni −mi )− i=0 (Mi −mi )| < ϵ, segue que i=0 (mni −Mi ) ≥ −3ϵ e i=0 1 Uma função g é uniformemente contínua em [a, b] se para todo ϵ > 0, existe δ > 0 tal que para todo x, y ∈ [a, b] se |x − y| < δ, então |g(x) − g(y)| < ϵ. É fácil provar que toda função contínua em um intervalo fechado é uniformemente contínua neste intervalo. Autor: Leandro Chaves Rêgo 7.3. TEOREMA DA CONTINUIDADE DE LEVY 113 m ∫ i ) ≤ 3ϵ. Então, para n suficientemente grande, temos que II ≤ 3ϵ. Portanto, | gdF | ≤ 6ϵ para n grande o suficiente. ∫ gdFn − Como cos(tx) e sen(tx) são funções contínuas e limitadas, tem-se que para t fixo E(cos(tXn )) → E(cos(tX)) e E(sen(tXn )) → E(sen(tX)) Logo, φXn (t) → φX (t). É fácil definir a função característica φ dada uma função de distribuição F : φ(t) = ∫ itx e dF (x), ∀t ∈ R. O próximo teorema implica a suficiência do nosso objetivo nesta seção, ou seja, se φXn → φX , então Xn →D X. Teorema 7.3.3: Sejam F1 , F2 , . . . funções de distribuições e φ1 , φ2 , . . . suas funções características. Se φn converge pontualmente para um limite φ e se φ é contínua no ponto zero, então (a) existe uma função de distribuição F tal que Fn → F fracamente; e (b) φ é a função característica de F . Prova: Note que o teorema anterior implica que, sob as hipóteses, (a) implica (b). Para provar que Fn converge fracamente para alguma função de distribuição, vamos primeiro provar que para toda seqüência de funções de distribuição satisfazendo as condições do teorema, existem uma subseqüência Fn1 , Fn2 , . . . e uma função de distribuição F tais que Fnj → F fracamente, quando j → ∞. Provaremos isso em duas etapas: (i) existem uma subseqüência Fn1 , Fn2 , . . . e uma função F : R → [0, 1] tais que F é nãodecrescente e contínua à direita e Fnj (x) → F (x), quando j → ∞, para todo x ponto de continuidade de F ; e (ii) F (∞) = 1 e F (−∞) = 0. Para provar (i), usaremos o método da diagonalização. Sejam r1 , r2 , . . ., uma enumeração dos racionais da reta. Considere a seguinte matriz: F1 F11 F12 F13 .. . F2 F21 F22 F23 .. . F3 F31 F32 F33 .. . F4 F41 F42 F43 .. . ··· ··· ··· ··· .. . Nesta matriz temos que a seqüência (F1j , F2j , F3j , . . .) contida na (j + 1)-ésima linha da matriz é uma subseqüência da seqüência contida na j-ésima linha que converge no racional rj , para j ≥ 1. Note que como a seqüência (F1j−1 (rj ), F2j−1 (rj ), F3j−1 (rj ), . . .) é uma seqüência limitada de números reais, ela possui uma subseqüência convergente; logo pode-se escolher a Autor: Leandro Chaves Rêgo 7.3. TEOREMA DA CONTINUIDADE DE LEVY 114 seqüência (F1j , F2j , F3j , . . .) indutivamente conforme descrito acima. Seja Fnj = Fjj , para j ≥ 1, então temos que a subseqüência (Fnj )j converge em todos os racionais da reta. Chamemos o limite de F (rk ), de modo que Fnj (rk ) → F (rk ), ∀k. É óbvio que 0 ≤ F (rk ) ≤ 1 e que F é não decrescente nos racionais. Definamos F em x irracional por F (x) = limr↓x,r rational F (r). F assim definida é não-decrescente, mas não é necessariamente contínua à direita. Vamos provar que Fnj (x) → F (x) para todo ponto x de continuidade de F . Suponha que x é um ponto de continuidade de F e sejam r′ e r′′ racionais tais que r′ < x < r′′ e F (r′′ ) − ϵ < F (x) < F (r′ ) + ϵ. Então, F (x) − ϵ < F (r′ ) = lim Fnj (r′ ) ≤ lim inf Fnj (x) ≤ j→∞ ′′ j→∞ ′′ lim sup Fnj (x) ≤ lim Fnj (r ) = F (r ) < F (x) + ϵ j→∞ j→∞ Como ϵ é arbitrário, temos Fnj (x) → F (x) quando j → ∞. Finalmente, podemos redefinir F nos seus pontos de descontinuidade de modo que F seja contínua à direita. Para provar (ii), note que ∫ t ∫ t∫ ∞ φnj (s)ds = eisx dFnj (x)ds. 0 0 −∞ Mas como o integrando é limitado podemos trocar a ordem de integração, logo ∫ t ∫ ∞∫ t ∫ ∞ itx e −1 isx φnj (s)ds = e dsdFnj (x) = dFnj (x) ix 0 −∞ 0 −∞ Considere a função, h(x) = e ix−1 para x ̸= 0 e h(0) = t. h é limitada e contínua e um argumento similar ao utilizado na prova do teorema anterior, pode ser utilizado para provar que quando j → ∞ ∫ ∞ itx ∫ ∞ ∫ ∞ e −1 dFnj (x) = h(x)dFnj (x) → h(x)dF (x) = ix −∞ −∞ −∞ ∫ t∫ ∞ ∫ ∞ itx e −1 dF (x) = eisx dF (x)ds ix −∞ 0 −∞ itx Como φnj (t) → φ(t), φ é contínua em zero, implica que φ é limitada e mensurável, então pelo teorema da convergência dominada, tem-se que ∫ t ∫ t φnj (s)ds → φ(s)ds. 0 0 Igualando-se os limites iguais e dividindo-se por t, temos ∫ ∫ ∫ 1 t ∞ isx 1 t e dF (x)ds, t ̸= 0. φ(s)ds = t 0 t 0 −∞ Fazendo t → 0 e usando a continuidade em s = 0 das duas funções φ(s) e tem-se ∫ ∞ φ(0) = 1dF (x) = F (∞) − F (−∞). ∫∞ −∞ eisx dF (x), −∞ Autor: Leandro Chaves Rêgo 7.4. SOMA DE UM NÚMERO ALEATÓRIO DE VARIÁVEIS ALEATÓRIAS 115 Como φ(0) = limn→∞ φn (0) = 1, temos que F (∞) − F (−∞) = 1, ou seja, o que implica que F (∞) = 1 e F (−∞) = 0. Para terminar a prova suponha por contradição que Fn não convirja fracamente para F , onde Fnj → F fracamente. Então, existirão x, ponto de continuidade de F e uma subseqüência F1′ , F2′ , . . . tais que Fn′ (x) → a ̸= F (x). Como essa subseqüência também satisfaz as condições do teorema, (i) e (ii) implicam que existe uma subseqüência F1′′ , F2′′ , . . . e uma função de distribuição G tais que Fn′′ → G fracamente. Como F e G possuem a mesma função característica (φ), temos que F = G, ou seja Fn′′ (x) → a = G(x) = F (x), uma contradição. Exemplo 7.3.4: Suponha que Xn e Yn são independentes para cada n ≥ 0 e que Xn →D X0 e Yn →D Y0 . Prove que Xn + Yn →D X0 + Y0 . Solução: Pelo Teorema da Continuidade sabemos que φXn (t) → φX0 (t) e que φYn (t) → φY0 (t). Como Xn e Yn são independentes temos que φXn +Yn (t) = φXn (t)φYn (t). Portanto, lim φXn +Yn (t) = lim(φXn (t)φYn (t)) = φX0 (t)φY0 (t) = φX0 +Y0 (t). n n Logo, pelo Teorema da Continudade, temos que Xn + Yn →D X0 + Y0 . Exemplo 7.3.5: Suponha que a variável aleatória Xn tenha distribuição Binomial, ou seja, ( ) n k P (Xn = k) = pn (1 − pn )n−k , k = 0, 1, 2, . . . , n. k Se pn → 0 quando n → ∞ de tal modo que npn → λ > 0, então Xn →D Y, onde Y ∼ P oisson(λ). Para verificar isto relembre que podemos representar uma variável aleatória Binomial como a soma de variáveis aleatórias Bernoulli i.i.d., então φXn (t) = EeitXn = (1 − pn + eit pn )n = (1 + pn (eit − 1))n = (1 + npn (eit − 1) n it ) → eλ(e −1) , n onde a expressão final é a função característica de uma variável aleatória P oisson(λ). Portanto, pelo Teorema da Continuidade, Xn →D Y . 7.4 Soma de um Número Aleatório de Variáveis Aleatórias Nesta seção, nós estudaremos somas de um número aleatório de variáveis aleatórias, ou seja, S= N ∑ Xi , i=0 Autor: Leandro Chaves Rêgo 7.4. SOMA DE UM NÚMERO ALEATÓRIO DE VARIÁVEIS ALEATÓRIAS 116 onde N é uma variável aleatória inteira e não negativa, e assume-se que ela é independente das parcelas Xi . Por exemplo, N pode ser o número de clientes, pacotes ou trabalhos chegando em uma fila em um dado intervalo de tempo e Xi pode ser o tempo necessário para finalizar o i-ésimo trabalho. S então seria o tempo total do serviço. Em nossas aplicações assumiremos que N = 0 significa que S = 0, ou seja, X0 = 0 com função característica φX0 (u) = 1. Sabemos que ES = E[E(S|N )] e que E(S|N = n) = n ∑ E(Xi |N = n). i=0 Como assumimos que N é independente de Xi , temos E(S|N = n) = n ∑ EXi . i=0 Se as variáveis aleatórias {Xi , i > 0} têm esperança igual a m, então E(S|N = n) = nm e ES = mEN . Para informações mais detalhadas sobre S, vamos calcular sua função característica φS assumindo que as variáveis aleatórias {N, X1 , X2 , . . .} são independentes: φS (t) = EeitS = E(E(eitS |N )). Por outro lado, utilizando a hipótese de independência, podemos calcular, itS E(e n n ∏ ∏ itXi |N = n) = E( e |N = n) = φXi (t). i=0 Logo, φS (t) = ∞ ∑ i=0 P (N = n) n=0 n ∏ φXi (t). i=0 Se as parcelas {X1 , X2 , . . .} forem também identicamente distribuídas com função característica φX , então ∞ ∑ φS (t) = P (N = n)φnX (t), n=0 onde utilizamos o fato que φ0X φN (t) = = 1 = φX0 (t). Note que a função característica de N é: ∞ ∑ P (N = n)eitn = n=0 ∞ ∑ P (N = n)[eit ]n . n=0 Comparando as expressões de φS e φN , nós vemos que escolhendo t em φN (t) de forma que eit = φX , nós podemos reescrever: φS (t) = φN (−i log φX (t)). Portanto, nós provamos o seguinte teorema: Autor: Leandro Chaves Rêgo 7.5. FUNÇÃO CARACTERÍSTICA DE UM VETOR ALEATÓRIO 117 ∑ Teorema 7.4.1: Se N é uma variável aleatória inteira não-negativa, S = N i=0 Xi , X0 = 0, onde {Xi , i ≥ 1} são i.i.d. com função característica comum φX , e elas são independentes de N que é descrita pela função característica φN , então φS (t) = φN (−i log φX (t)). Exemplo 7.4.2 : Suponha que N ∼ P oisson(λ) representa o número de clientes que são atendidos em um dado tempo T . Suponha ainda que com probabilidade p o i-ésimo cliente fica satisfeito com o atendimento. Assuma que os clientes ficam satisfeitos com o serviço de maneira independente e que N , é independente da probabilidade que clientes ficam satisfeitos. Determine a distribuição de probabilidade de S o número total de clientes satisfeitos no tempo T . Solução: Seja Xi ∼ Bernoulli(p), i ≥ 1, a variável aleatória que descreve se o i-ésimo cliente ficou ou não satisfeito com o atendimento. Então temos, S= N ∑ Xi , i=0 onde X0 = 0. Desta forma, sabemos que φS (t) = φN (−i log φX (t)), onde φX (t) = peit + (1 − p) e φN (t) = eλ(e φS (t) = eλ(e it −1) i(−i log(peit +(1−p))) −1) . Substituindo temos: it +(1−p)−1) = eλ(pe = epλ(e it −1) . Pela unicidade da função característica, temos que S ∼ P oisson(pλ). 7.5 Função Característica de um Vetor Aleatório ⃗ = (X1 , . . . , Xk ) um vetor aleatório k-dimensional. A função Definição 7.5.1: Seja X ⃗ é a função φ ⃗ : IRk → C definida por característica de X X ⃗ ⃗ φX⃗ (⃗t) = Eeit·X = Eexp(i k ∑ tj Xj ). j=1 φX⃗ é também chamada de função característica conjunta de X1 , . . . , Xk . A função característica multivariada tem propriedades análogas a todas as propriedades enunciadas para a função característica de uma variável aleatória. As propriedades P1–P4 e P6 são válidas com as óbvias modificações (a reta é substituída por IRk ). Para P5, supõe-se ⃗ e Y⃗ sejam vetores de mesma dimensão. Sob esta condição, a independência de X ⃗ e que X Y⃗ implica que φX+ t) = φX⃗ (⃗t)φY⃗ (⃗t). ⃗ Y ⃗ (⃗ Quanto ao Teorema da Unicidade, também existe uma fórmula da inversão para a função característica multidimensional que pode ser usada para provar a unicidade da função característica: Autor: Leandro Chaves Rêgo 7.5. FUNÇÃO CARACTERÍSTICA DE UM VETOR ALEATÓRIO 118 ⃗ e Y⃗ forem vetores aleatórios k-dimensionais Teorema 7.5.2: Teorema da Unicidade. Se X k ⃗ e Y⃗ têm a mesma distribuição. Em outras patais que φX⃗ (⃗t) = φY⃗ (⃗t), ∀⃗t ∈ IR , então X lavras, a função característica determina a distribuição, e podemos escrever: φX⃗ = φY⃗ ⇔ FX⃗ = FY⃗ . Analogamente a P7, correlações de ordem maiores podem ser facilmente calculadas diferenciando-se a função característica conjunta repetidamente. Formalmente, seja p = ∑n k=1 pk para números naturais quaisquer pk , temos E( n ∏ Xkpk ) 1 1 ∂ p φX⃗ (⃗t) = p p1 |⃗ ⃗ . i ∂t1 · · · ∂tpnn t=0 ⃗ = (X1 , X2 ), temos que No caso particular de X EX1 X2 = − ∂ 2 φX1 ,X2 (t1 , t2 ) |t1 =t2 =0 . ∂t1 ∂t2 Também é fácil analisar o comportamento da função característica multivariada de transformações lineares de vetores aleatórios em analogia a propriedade P8. (Assumiremos que um ⃗ k-dimensional é uma matriz coluna com dimensão k ×1. Deste modo ⃗t· X ⃗ = (⃗t)T X.) ⃗ vetor X ⃗ + ⃗b, então Por exemplo, seja Y⃗ = AX ⃗ ⃗ ⃗T⃗ ⃗T φY⃗ (⃗t) = Eei(t) Y = Eei(t) (AX+b) ⃗ T⃗ = E(ei(t) b ei(A T⃗ ⃗ t)T X ⃗ T⃗ ) = ei(t) b φX⃗ (AT ⃗t), T⃗ onde utilizamos o fato que (AB)T = BT AT e que ei(⃗t) b não é aleatório e pode sair fora da operação de esperança. Assim como é fácil obter a distribuição marginal dada uma distribuição conjunta de variáveis aleatórias, também é fácil obter a função característica de qualquer distribuição marginal. Para isso basta fazer todos os termos “extras” iguais a zero na função característica multivariada. Por exemplo, para as variáveis aleatórias X, Y, e Z, temos Eei(xX+yY ) = Eei(xX+yY +0Z) , ou seja, φX,Y (x, y) = φX,Y,Z (x, y, 0), ∀(x, y) ∈ IR2 . Como no caso unidimensional, temos convergência em distribuição se, e somente se, as funções características convergem. ⃗ n →D X ⃗ se, e somente se, φ ⃗ (⃗t) → φ ⃗ (⃗t), ∀⃗t ∈ IRk . Teorema 7.5.3: X Xn X Prova: Omitida. O próximo teorema mostra que convergência em distribuição de vetores aleatórios é equivalente à convergência em distribuição de todas as combinações lineares das coordenadas. ⃗ n = (Xn1 , Xn2 , . . . , Xnk ) e X ⃗ = (X1 , . . . , Xn ) Teorema 7.5.4: Cramér-Wold. Sejam X ⃗n → X ⃗ se, e somente se, ∑k tj Xnj →D vetores aleatórios k-dimensionais. Então, X j=1 ∑k k t X , para todo (t , . . . , t ) ∈ I R . 1 k j=1 j j Autor: Leandro Chaves Rêgo 7.5. FUNÇÃO CARACTERÍSTICA DE UM VETOR ALEATÓRIO Prova: Suponhamos primeiro que ∑k j=1 tj Xnj →D 119 ∑k j=1 tj Xj , ∀(t1 , . . . , tk ). Então, ∑k φX⃗ n (t1 , . . . , tk ) = Eei j=1 tj Xnj = φ∑k tj Xnj (1) → φ∑k tj Xj (1) = φX⃗ (t1 , . . . , tk ), j=1 j=1 onde utilizamos o Teorema da Continuidade de Levy. Também pelo Teorema da Continui⃗ n →D X. ⃗ dade de Levy no caso multidimensional, temos que como φX⃗ n → φX⃗ , X ∑ ⃗ n →D X. ⃗ Para (t1 , . . . , tk ) ∈ IRk , queremos provar que k tj Xnj →D Agora suponha que X j=1 ∑k ∑k ∑k (t), ∀t ∈ IR. Mas, (t) → φ t X . Para tanto, basta provarmos que φ j=1 j j j=1 tj Xj j=1 tj Xnj utilizando novamente o Teorema da Continuidade de Levy, temos que φ∑k (t) j=1 tj Xnj = Eeit ∑k j=1 tj Xnj = Eei ∑k j=1 (ttj )Xnj φX⃗ n (tt1 , . . . , ttk ) → φX⃗ (tt1 , . . . , ttk ) = φ∑k j=1 tj Xj (t) Terminaremos nossa discussão de funções características multidimensionais considerando um critério para independência de vetores aleatórios. ⃗ = (X1 , . . . , Xm ) e Y⃗ = (Y1 , . . . , Yn ) vetores aleatórios, onde Teorema 7.5.5 : Sejam X ⃗ e Y⃗ são independentes se, e somente se, m ≥ 1, n ≥ 1. X φX1 ,...,Xm ,Y1 ,...,Yn (x1 , . . . , xm , y1 , . . . , yn ) = φX⃗ (x1 , . . . , xm )φY⃗ (y1 , . . . , yn ), para todo (x1 , . . . , xm ) ∈ IRm e (y1 , . . . , yn ) ∈ IRn . ⃗ e Y⃗ sejam variáveis aleatórias X e Y (m = 1, n = 1), Prova: Suponhamos primeiro que X com X e Y independentes. Então temos, φX,Y (x, y) = Eei(xX+yY ) = EeixX eiyY = EeixX EeiyY = φX (x)φY (y), ∀(x, y) ∈ IR2 . Reciprocamente, suponha que φX,Y (x, y) = φX (x)φY (y) para todo (x, y) ∈ IR2 . Então a independência de X e Y é conseqüência do Teorema da Unicidade: se X e Y fossem independentes, elas teriam função característica conjunta φX,Y (x, y) = φX (x)φY (y) pela parte inicial desta demonstração. Se não fossem independentes, elas teriam uma função característica diferente, o que contraria a hipótese. Logo, são independentes. A prova no caso geral é análoga e omitida. Um resultado semelhante vale para um número finito qualquer de vetores aleatórios. Consideremos o caso mais simples em que X1 , . . . , Xn são variáveis aleatórias. Então, temos X1 , . . . , Xn independentes se, e somente se, φX1 ,...,Xn (t1 , . . . , tn ) = n ∏ φXj (tj ), ∀(t1 , . . . , tn ) ∈ IRn . j=1 Autor: Leandro Chaves Rêgo 7.6. FUNÇÕES GERATRIZES DE MOMENTO 7.6 120 Funções Geratrizes de Momento Definição 7.6.1: Uma função geratriz de momento F̂X (t) de uma variável aleatória X com função de distribuição FX existe se, F̂X (t) := EetX < ∞, ∀t ∈ I, onde I é um intervalo contendo 0 no seu interior. O problema de utilizar funções geratrizes de momento é que elas nem sempre existem. Por exemplo, a função geratriz de momento de uma variável aleatória com distribuição de Cauchy não existe. Pode-se provar que a existência da função geratriz de momento é equivalente a cauda da distribuição de X ser limitada exponencialmente, ou seja, P (|X| > x) ≤ Ke−cx , para algum K > 0 e c > 0. Se a função geratriz de momento existe, pode-se provar que ela também determina a função de distribuição. 7.7 Teorema de Slutsky Nesta seção, estudaremos o Teorema de Slutsky que trata do comportamento da soma e do produto de variáveis aleatórias, uma convergindo em distribuição e outra em probabilidade. Antes disso, iremos provar que funções contínuas preservam convergência. Teorema 7.7.1: Sejam {Xn : n ≥ 1} e X variáveis aleatórias com funções de distribuição {Fn : n ≥ 1} e F , respectivamente. Seja g : IR → IR uma função contínua. Então, se Xn converge para X quase certamente, em probabilidade ou em distribuição, o mesmo ocorre com g(Xn ) para g(X), no mesmo modo de convergência. Prova: Suponha que Xn → X cp1. Então, existe um conjunto A ∈ F tal que P (A) = 0 e Xn (w) → X(w) para w ∈ Ac . Como g é contínua, g(Xn (w)) → g(X(w)) para w ∈ Ac e, portanto, g(Xn ) → g(X) cp1. Considere que Xn →P X e vamos verificar que g(Xn ) →P g(X). Dado ϵ > 0 arbitrário, fixemos m grande o suficiente tal que P (|X| > m/2) < ϵ. A função g sendo contínua em IR, será uniformemente contínua no intervalo fechado [−m, m], logo para ϵ′ > 0 arbitrário existe δ tal que 0 < δ ≤ m/2 e se x, y ∈ [−m, m] e |x − y| < δ, então |g(x) − g(y)| < ϵ′ . Observe que se P (An ) → 1, então P (An ∩ A) → P (A), pois P (An ) + P (A) − 1 ≤ P (An ∩ A) ≤ P (A) e P (An ) + P (A) − 1 → P (A). Portanto, como P (|Xn − X| < δ) → 1, temos que P (|X| ≤ m/2, |Xn − X| < δ) → P (|X| ≤ m/2) > 1 − ϵ. Mas [|X| ≤ m/2, |Xn − X| < δ] ⊆ [|X| ≤ m, |Xn | ≤ m, |Xn − X| < δ] ⊆ [|g(Xn ) − g(X)| < ϵ′ ], logo P (|g(Xn ) − g(X)| < ϵ′ ) > 1 − 2ϵ para n suficientemente grande. Como ϵ é arbitrário, temos que P (|g(Xn ) − g(X)| < ϵ′ ) → 1 quando n → ∞, ou seja g(Xn ) →P g(X). Finalmente, considere que Xn →D X. Pelo Teorema da Continuidade de Levy, para que g(Xn ) →D g(X), basta a convergência das respectivas funções características. Por definição, φg(Xn ) (t) = Eeitg(Xn ) = E cos(tg(Xn )) + iE sen(tg(Xn )). Autor: Leandro Chaves Rêgo 7.7. TEOREMA DE SLUTSKY 121 Como as funções cos(tg(x)) e sen(tg(x)) são contínuas e limitadas na reta, para t fixo, decorre do Teorema de Helly-Bray que φg(Xn ) (t) → E cos(tg(X)) + iE sen(tg(X)) = φg(X) (t), ∀t ∈ IR. Teorema 7.7.2: Considere {Xn : n ≥ 1}, {Yn : n ≥ 1} e X variáveis aleatórias tais que valem as convergências Xn →D X e Yn →P c, com c constante. Então, (i) Xn + Yn →D X + c; (ii) Xn Yn →D cX; (iii) Se c ̸= 0, Xn Yn →D X , c desde que P (Yn ̸= 0) = 1. Prova: Prova de (i): Temos φXn +Yn (t) = E(eit(Xn +Yn ) ) = E(eit(Xn +c) ) + E[(eitXn )(eitYn − eitc )]. Por hipótese temos, lim E(eit(Xn +c) ) = lim eitc E(eitXn ) = eitc E(eitX ) = E(eit(X+c) ). n n Observe que |eitXn | = 1 e, assim, vem |E[(eitXn )(eitYn − eitc )]| ≤ E[|(eitXn )(eitYn − eitc )|] = E[|(eitYn − eitc )|]. Seja Zn = |(eitYn − eitc )|, temos 0 ≤ Zn ≤ 2. Logo, para ϵ > 0, temos E[|(eitYn − eitc )|] = EZn = E(Zn IZn ≤ϵ ) + E(Zn IZn >ϵ ) ≤ ϵ + 2E(IZn >ϵ ) ≤ ϵ + 2P (Zn > ϵ). Como Zn é uma função contínua de Yn e lembrando que funções contínuas preservam convergência em probabilidade, temos que Zn →P 0, pois Yn →P c. Nessas condições, para n grande o suficiente, |E[(eitXn )(eitYn − eitc )]| ≤ E[|(eitYn − eitc )|] < 2ϵ. Logo, tomando o limite de φXn +Yn (t) quando n → ∞, concluímos a demonstração da parte (i). Prova de (ii): Inicialmente consideramos c = 0 e vamos verificar que Xn Yn →P 0, e conseqüentemente, Xn Yn →D 0. Sejam ϵ, δ > 0 e x < 0 < y pontos de continuidade de FX tais que FX (y) − FX (x) = P (x < X ≤ y) > 1 − δ. Como Xn →D X, temos P (x < Xn ≤ y) = FXn (y) − FXn (x) > 1 − 2δ para n suficientemente grande. Definamos M = max(y, −x), então a convergência em probabilidade de Yn para zero implica que P (|Yn | < Mϵ ) > 1 − δ para n suficientemente grande. Logo para n suficientemente grande, temos P (x < Xn ≤ y, |Yn | < ϵ ) > 1 − 3δ. M Autor: Leandro Chaves Rêgo 7.7. TEOREMA DE SLUTSKY 122 Como x < Xn ≤ y e |Yn | < Mϵ implicam |Xn Yn | < ϵ, temos P (|Xn Yn | < ϵ) > 1 − 3δ para n grande o suficiente. Portanto, para todo ϵ > 0, P (|Xn Yn | < ϵ) → 1, ou seja, Xn Yn →P 0. Agora consideremos o caso c geral. Como Xn Yn = cXn + (Yn − c)Xn e Yn − c →P 0. Pelo caso c = 0, temos que (Yn − c)Xn →P 0. Além disso como cx é uma função contínua, temos cXn →D cX. Como Xn Yn é a soma de dois termos, o primeiro dos quais converge para cX em distribuição, e o segundo para zero em probabilidade, o resultado é conseqüência da parte (i). Prova de (iii): Como 1/x é contínua para x ̸= 0, temos que 1/Yn →P 1/c. Agora, basta aplicar o ítem (ii). Autor: Leandro Chaves Rêgo Capítulo 8 Lei dos Grandes Números 8.1 Motivação Entre outras coisas, a Lei dos grandes Números nos permite formalizar a idéia que à medida que o número de repetições de um experimento cresce, a freqüência relativa fA de algum evento A converge (quase certamente) para a probabilidade teórica P (A). É este fato que nos permite estimar o valor da probabilidade de um evento A, baseado na freqüência relativa de A em um grande número de repetições de um experimento. É também este fato que justifica a intuição que temos que eventos com probabilidade próximas de 1, quase sempre ocorrem; e que eventos com probabilidade próximas de 0 quase sempre não ocorrem. Por exemplo, se uma nova peça for produzida e não tivermos conhecimento anterior sobre quão provável será que a peça seja defeituosa, poderemos proceder à inspeção de um grande número dessas peças, digamos N , contarmos o número de peças defeituosas dentre elas, por exemplo n, e depois empregarmos n/N com uma aproximação da probabilidade de que uma peça seja defeituosa. O número n/N é uma variável aleatória, e seu valor depende essencialmente de duas coisas. Primeira, o valor de n/N depende da probabilidade básica, mas desconhecida, p de que uma peça seja defeituosa. Segunda, depende daquelas N peças que tenham sido inspecionadas. O que a Lei dos Grandes Números mostra é que se a técnica de selecionar as N peças for aleatória, então o quociente n/N convergirá quase certamente para p. (Evidentemente, a seleção das N peças é importante. Se fôssemos escolher somente aquelas peças que exibissem algum defeito físico externo, por exemplo, poderíamos prejudicar seriamente nossos cálculos.) Mais formalmente, considere um experimento básico, com a variável aleatória X representando o valor de um característico numérico do resultado (no caso anterior, temos que X seria a função indicadora do evento A). Pensemos na realização deste experimento N vezes (N grande), de tal maneira que as realizações sejam independentes. Suponhamos que depois de cada realização do experimento registre-se o valor do característico numérico do resultado; chamemos este um valor observado. A Lei dos Grandes Números afirma que a média aritmética dos n valores observados converge, em certo sentido, para a média EX, quando N → ∞. Vamos agora construir um modelo para o experimento repetido que apresentamos acima. Para experimentos dessa natureza, um resultado possível é uma seqüência de N resultados 123 8.1. MOTIVAÇÃO 124 possíveis do experimento básico. Como estamos interessados em analisar a convergência para N grande, se Ω0 é o espaço amostral do experimento básico, o espaço amostral do experimento global consiste nas seqüências infinitas de elementos de Ω0 , ou seja, Ω = {(w1 , w2 , . . .) : wi ∈ Ω0 , i = 1, 2, . . .} = Ω0 × Ω0 × . . . = Ω∞ , onde wi é o resultado do i-ésimo ensaio do experimento básico. Podemos completar o modelo utilizando a σ-álgebra produto para A e a probabilidade produto para P ,1 pois os ensaios são independentes. Já que vamos registrar um certo característico do i-ésimo resultado para todo i, estaremos registrando os valores de uma seqüência de variáveis aleatórias. Intuitivamente, X(w0 ) representa o valor do característico numérico do experimento básico (w0 ∈ Ω0 ), então, quando o resultado da seqüência de realizações for w = (w1 , w2 , . . .), os valores observados serão X(w1 ), X(w2 ), . . . É conveniente representar por Xn o resultado observado na n-ésima realização. Assim, Xn é função do resultado w do experimento global, com Xn (w) = X(wn ), e no decorrer serão registrados os valores das variáveis aleatórias X1 , X2 , . . . Notemos que Xn tem a mesma distribuição de X, pois trata-se de uma seqüência de repetições do mesmo experimento. Como as Xn dependem de realizações independentes, elas são independentes, onde X1 , X2 , . . . são independentes se para todo n ≥ 2, X1 , . . . , Xn são independentes. Uma versão da Lei dos Grandes Números diz que se X1 , X2 , . . . são i.i.d. e integráveis, então X1 + . . . + Xn → EX1 . n Quando o tipo de convergência é convergência em probabilidade, chamamos de Lei Fraca dos Grandes Números, e quando temos convergência quase certa, chamamos de Lei Forte dos Grandes Números. Como vimos em capítulo anterior, convergência quase-certa implica convergência em probabilidade, portanto se uma seqüência de variáveis aleatórias satisfaz a Lei Forte dos Grandes Números, então ela também satisfaz a Lei Fraca. Para esclarecer as diferenças entre as Leis Fraca e Leis Fortes, considere o caso em que Xi ∼ Bernoulli(p) é a função indicadora de certo evento A e nA é o número de vezes que o evento A ocorre em n realizações do experimento. Então, a Lei Fraca afirma que nnA →P p, o que é equivalente a dizer que para todo ϵ > 0 podemos encontrar um n suficientemente grande tal que, a probabilidade de nnA estar entre p−ϵ e p+ϵ, é maior que 1−δ para qualquer δ > 0 especificado. Em outras palavras, se realizarmos muitas seqüências Bernoulli(p) de tamanho n, espera-se que apenas em uma fração delas menor que δ, temos que nnA está fora do intervalo (p−ϵ, p+ϵ). Note que a Lei Fraca não dá nenhuma informação sobre a existência ou o valor do limite de nnA . Em contraste, a Lei Forte garante que o conjunto de todas as realizações do experimento, para as quais limn nnA = p, é um evento com probabilidade 1. Se fixarmos ϵ > 0, o conjunto das realizações dos experimentos para os quais p − ϵ < nnA < p + ϵ, para n suficientemente grande é um evento com probabilidade 1. A Lei Forte assegura que dado ϵ > 0, com probabilidade 1, os termos da seqüência de freqüência relativas de uma particular realização do experimento realmente estarão no intervalo (p − ϵ, p + ϵ). Formalmente, dados uma seqüência de espaços de probabilidade (Ωi , Ai , Pi ), a σ-álgebra produto A em ×i Ωi é definida como sendo a menor σ-álgebra contendo eventos∏ da forma A1 × A2 × · · · , onde Ai ∈ Ai para ∞ todo i; e a probabilidade produto é tal que P (A1 × A2 × · · · ) = i=1 Pi (Ai ); pode-se provar que existe uma única medida de probabilidade em A que satisfaz esta condição. 1 Autor: Leandro Chaves Rêgo 8.2. LEI FRACA DOS GRANDES NÚMEROS 8.2 125 Lei Fraca dos Grandes Números Na seção anterior, motivamos o resultado da Leis dos Grandes Números para variáveis aleatórias independentes e identicamente distribuídas. Nesta seção, analisaremos duas versões da Lei Fraca dos Grandes Números, na primeira delas não é necessário assumir que as variáveis aleatórias são identicamente distribuídas. Vamos usar a desigualdade de Chebyshev para provar a Lei Fraca dos Grandes Números de Chebyshev. Teorema 8.2.1: Lei Fraca de Chebyshev Sejam X1 , X2 , . . . variáveis aleatórias independentes 2 a 2 com variâncias finitas e uniformemente limitadas (ou seja, existe c finito tal que para todo n, V arXn ≤ c). Então, X1 , X2 , . . . satisfazem a Lei Fraca dos Grandes Números: Sn − ESn P → 0. n Prova: Precisamos provar que para todo ϵ > 0, P( |Sn − ESn | ≥ ϵ) → 0 quando n → ∞. n Como as variáveis aleatórias são independentes 2 a 2, temos que V ar(Sn ) = n ∑ V ar(Xi ) ≤ nc. i=1 Pela desigualdade de Chebyshev, temos que P (|Sn − ESn | ≥ nϵ) ≤ V ar(Sn ) c ≤ 2 → 0. 2 2 ϵn ϵn Corolário 8.2.2: Lei Fraca dos Grandes Números de Bernoulli. Consideremos uma seqüência de ensaios binomiais independentes, tendo a mesma probabilidade p de “sucesso” em cada ensaio. Se Sn é o número de sucessos nos primeiros n ensaios, então Sn P → p n Prova: Seja Xn = 1 se o n-ésimo ensaio é sucesso, Xn = 0 caso contrário. Então, X1 , X2 , . . . são i.i.d. e integráveis com média µ = p. Como V arXn = p(1 − p), a Lei Fraca de Chebyshev implica que Sn −np →P 0, ou, equivalentemente, Snn →P p. n Podemos utilizar a Lei Fraca dos Grandes Números para responder a seguinte questão: quantas repetições de um experimento devemos realizar a fim de termos uma probabilidade ao menos 0, 95 para que a freqüência relativa difira de p = P (A) por menos do que, digamos, Autor: Leandro Chaves Rêgo 8.2. LEI FRACA DOS GRANDES NÚMEROS 126 0,01? Utilizando a equação (8.1), onde Sn é o número de ocorrências do evento A em n realizações do experimento temos que Sn /n = fA , ESn = np, V arSn = np(1 − p), e: P (|fA − p| ≥ 0, 01) ≤ p(1 − p) , n(0, 01)2 p(1−p) p(1−p) ou seja, queremos que n(0,01) 2 ≤ 0, 05, o que é equivalente a n ≥ 0,05(0,01)2 . Substituindo os valores específicos de 0, 05 e 0, 01 por δ e ϵ, respectivamente, teremos P (|fA − p| < ϵ) ≥ 1 − δ sempre que n ≥ p(1 − p) . δ(ϵ)2 Em muitos problemas, não conhecemos o valor de p = P (A) e, por isso, não poderemos empregar o limite acima. Nesse caso, poderemos empregar o fato de que p(1 − p) toma seu valor máximo quando p = 1/2, e esse valor máximo é igual a 1/4. Conseqüentemente, estamos certamente seguros se afirmamos que para n ≥ 4ϵ12 δ teremos P (|fA − p| < ϵ) ≥ 1 − δ. Exemplo 8.2.3: Peças são produzidas de tal maneira que a probabilidade de uma peça ser defeituosa é p (admitida desconhecida). Um grande número de peças, digamos n, são classificadas como defeituosas ou perfeitas. Que valor deverá ter n de maneira que possamos estar 99% certos de que a freqüência relativa de defeituosas difere de p por menos de 0, 05? Solução: Porque não conhecemos o valor de p, deveremos aplicar a última fórmula com ϵ = 0, 05, δ = 0, 01. Deste modo encontraremos que se n ≥ 4(0,05)1 2 0,01 = 10.000, a condição exigida será satisfeita. A hipótese de variâncias finitas pode ser eliminada e o próximo teorema prova uma versão da Lei Fraca dos Grandes Números para variáveis aleatórias i.i.d. e integráveis. Teorema 8.2.4: Lei Fraca de Khintchin. Se X1 , X2 , . . . são i.i.d. e integráveis com média comum µ, então Sn P → µ. n Prova: É conseqüência da Lei Forte de Kolmogorov e do fato que convergência quase certa implica convergência em probabilidade. Exemplo 8.2.5: Sejam i.i.d. com média µ e variância σ 2 , ambas ∑n {Xn : n 2≥ 1}P variáveis 1 finitas. Prove que n i=1 (Xi − X) → σ 2 . Solução: 1∑ 2 1∑ 2 (Xi − X)2 = (Xi − 2Xi X + X ) n i=1 n i=1 n n 1∑ 2 1∑ 1∑ 2 X Xi − 2X Xi + n i=1 n i=1 n i=1 n = n n 1∑ 2 2 = Xi − X n i=1 n Autor: Leandro Chaves Rêgo 8.3. LEI FORTE DOS GRANDES NÚMEROS 127 Pela Lei Fraca de Kintchin, temos que 1∑ 2 P X → E(Xi2 ) = σ 2 + µ2 n i=1 i n e X →P E(Xi ) = µ. Como funções contínuas preservam convergência, temos que 2 X →P µ2 . Logo, temos que 1∑ 2 2 ( X , X ) →P (σ 2 + µ2 , µ2 ). n i=1 i n Finalmente, como funções contínuas preservam convergência 1∑ 2 2 Xi − X →P σ 2 . n i=1 n 8.3 Lei Forte dos Grandes Números Antes de iniciarmos a prova da Lei Forte dos Grandes Números, vamos provar uma extensão da desigualdade de Chebyshev. Lema 8.3.1: Sejam X1 , . . . , Xn variáveis aleatórias independentes tais que EXk = 0 e V arXk < ∞, k = 1, . . . , n. Então, para todo λ > 0, n 1 1 ∑ P ( max |Sk | ≥ λ) ≤ 2 V arSn = 2 V arXk , 1≤k≤n λ λ k=1 onde Sk = X1 + . . . + Xk . Prova: Queremos uma cota superior para P (max1≤k≤n Sk2 ≥ λ2 ). Para tanto, seja A = [max1≤k≤n Sk2 ≥ λ2 ]. Vamos decompor A conforme a primeira vez que Sk2 ≥ λ2 , definamos: A1 = [S12 ≥ λ2 ], A2 = [S12 < λ2 , S22 ≥ λ2 ], 2 Ak = [S12 < λ2 , . . . , Sk−1 < λ2 , Sk2 ≥ λ2 ], para 2 ≤ k ≤ n. ∑ Então os Ak são disjuntos e A = ∪nk=1 Ak . Logo, IA = nk=1 IAk e Sn2 ≥ Sn2 IA = n ∑ k=1 Sn2 IAk ⇒ ESn2 ≥ n ∑ ESn2 IAk . k=1 Autor: Leandro Chaves Rêgo 8.3. LEI FORTE DOS GRANDES NÚMEROS 128 Queremos substituir Sn2 por Sk2 no somatório (pois Sk2 ≥ λ2 em Ak , e não vale necessariamente Sn2 ≥ λ2 ); o truque é escrever Sn2 = (Sn − Sk )2 + Sk2 + 2(Sn − Sk )Sk ≥ Sk2 + 2(Sn − Sk )Sk . Portanto, ESn2 IAk ≥ ESk2 IAk + 2E((Sn − Sk )Sk IAk ). Como Sn − Sk = Xk+1 + . . . + Xn e Sk IAk depende só de X1 , . . . , Xk , as duas são funções de famílias disjuntas de variáveis independentes, logo são independentes e a esperança fatora: E((Sn − Sk )Sk IAk ) = E(Sn − Sk )E(Sk IAk ). Como E(Sn − Sk ) = 0, temos ESn2 IAk ≥ ESk2 IAk ≥ Eλ2 IAk = λ2 P (Ak ). Portanto, ESn2 ≥ n ∑ λ2 P (Ak ) = λ2 P (A), k=1 logo P (A) ≤ 1 1 ESn2 = 2 V arSn . 2 λ λ O próximo teorema é conhecido como Primeira Lei Forte de Kolmogorov. Teorema 8.3.2: ponha que Sejam X1 , X2 , . . . variáveis aleatórias independentes e integráveis, e su∞ ∑ V arXn n=1 n2 < ∞. Então, as Xn satisfazem a Lei Forte dos Grandes Números, ou seja, X1 + . . . + Xn (EX1 + . . . + EXn ) − → 0 quase certamente. n n Prova: Suponhamos sem perda de generalidade que EXn = 0, ∀n. Queremos mostrar que Sn → 0 cp1, onde Sn = X1 + . . . + Xn . Para tanto, basta mostrar que n Mn = maxn+1 n 2 <k≤2 |Sk | → 0 cp1 quando n → ∞. k Provaremos isto em duas etapas: ∑∞ 1 (i) n=1 P (Mn ≥ m ) < ∞, ∀m = 1, 2, . . .; e (ii) Mn → 0 cp1. Autor: Leandro Chaves Rêgo 8.3. LEI FORTE DOS GRANDES NÚMEROS 129 Para (i), considere m fixo. Então, para todo n, 1 2n ) ≤ P ( n maxn+1 |Sk | ≥ ) ≤ 2 <k≤2 m m n+1 2 2n m2 ∑ ≤ P ( maxn+1 |Sk | ≥ ) ≤ n V ar(Xk ), 1<k≤2 m 4 k=1 P (Mn ≥ onde vale a última passagem pelo lema anterior. Seja An = [Mn ≥ ∞ ∑ 2 ∞ ∞ ∑ ∑ 1 ∑ 2 P (An ) ≤ m V ar(Xk )) = m ( n 4 k=1 n=1 n=1 k=1 = m2 ∞ ∑ ∑ ∑ V ar(Xk ) 1 n:2n+1 ≥k ( 4n ) ( n:2n+1 ≥k k=1 Como ∑ n+1 2 ≤ 16 , 3k2 n:2n+1 ≥k 1 ], m ( então 1 V ar(Xk )) = 4n 1 ). 4n temos ∞ ∑ ∞ 16m2 ∑ V ar(Xk ) P (An ) ≤ < ∞. 3 k=1 k2 n=1 Para (ii), note que por Borel-Cantelli, tem-se P (An infintas vezes) = 0. Logo, para todo m, a probabilidade é 1 de que Mn assuma um valor ≥ m1 para somente um número finito de n’s. Seja Bm o evento “Mn assuma um valor ≥ m1 para somente um número finito de n’s”, então P (Bm ) = 1, ∀m, o que implica que P (∩∞ m=1 Bm ) = 1, e (ii) resulta da equivalência ∞ entre os eventos ∩m=1 Bm e [Mn → 0]. O próximo exemplo ilustra uma aplicação da Primeira Lei Forte de Kolmogorov. Exemplo√8.3.3 : Sejam X1 , X2 , . . . , Xn variáveis aleatórias independentes com Xn ∼ P oisson( n), para cada n ≥ 1.√Calcule o limite quase-certo de X. Solução: Como V arXn = n, temos que ∞ ∞ √ ∑ V arXn ∑ n = < ∞. n2 n2 n=1 n=1 Logo, a primeira Lei Forte de Kolmogorov implica que EX1 + · · · + EXn → 0 cp1, ou seja n √ √ √ 1 + 2 + ··· + n → 0 cp1. X− n Pelo teste da integral, pode-se verificar que X− √ 1+ √ √ 2n3/2 2 + ··· + n ≥ . 3 Autor: Leandro Chaves Rêgo 8.3. LEI FORTE DOS GRANDES NÚMEROS Portanto, 130 √ √ √ 1 + 2 + ··· + n 2n1/2 ≥ → ∞. n 3 Logo, X → ∞ cp1. Antes de enunciarmos e provarmos a Segunda Lei Forte de Kolmogorov, considere o seguinte lema: Lema 8.3.4 : Então, Seja X uma variável aleatória integrável com função de distribuição F . ∫ n ∞ ∑ 1 ( 2 x2 dF (x)) < ∞. n −n n=1 Prova: Vamos utilizar o seguinte fato: ∫ ∑∞ 2 j ∫ n ∑ n 2 x dF (x) = −n ≤ 1 n=j n2 para j = 1, 2, . . .. Como j x2 dF (x), j−1 j=−n+1 temos ∫ n ∫ j ∞ ∞ n ∑ ∑ ∑ 1 1 2 ( 2 x dF (x)) = ( 2 x2 dF (x)) = n n −n j−1 n=1 n=1 j=−n+1 ∫ j ∫ j ∞ ∑ n ∞ 0 ∑ ∑ ∑ 1 1 2 = ( 2 x dF (x)) + ( 2 x2 dF (x)) n j−1 n j−1 n=1 j=1 n=1 j=−n+1 ∫ j ∫ j ∞ ∑ ∞ 0 ∞ ∑ ∑ ∑ 1 1 2 = ( 2 ( 2 x dF (x)) + x2 dF (x)) ≤ n n j−1 j−1 j=1 n=j j=−∞ ≤2 ∞ ∫ j ∑ j=1 Como x2 j j−1 0 ∑ x2 dF (x) + 2 j j=−∞ ≤ x em (j − 1, j], para j ≥ 1, e ∫ n=|j|+1 j j−1 x2 |j|+1 x2 dF (x). |j| + 1 ≤ |x| em (j − 1, j], para j ≤ 0, temos ∫ n ∫ j ∞ ∞ ∫ j 0 ∑ ∑ ∑ 1 2 ( 2 x dF (x)) ≤ 2 xdF (x) + 2 |x|dF (x) = n −n j−1 j−1 n=1 j=1 j=−∞ ∫ ∞ ∞ ∫ j ∑ =2 |x|dF (x) = 2 |x|dF (x) = 2E|X| < ∞. j=−∞ j−1 −∞ A seguir enunciamos e provamos a Segunda Lei Forte de Kolmogorov. Autor: Leandro Chaves Rêgo 8.3. LEI FORTE DOS GRANDES NÚMEROS 131 Teorema 8.3.5: Sejam X1 , X2 , . . . variáveis aleatórias independentes, identicamente distribuídas e integráveis, com EXn = µ. Então, X1 + . . . + Xn → µ quase certamente. n Prova: Suponhamos sem perda de generalidade que µ = 0. Vamos truncar as variáveis Xn , definamos Yn = Xn I[−n<Xn ≤n] . Seja Zn = Xn − Yn , de modo que X1 + . . . + Xn Y1 + . . . + Yn Z1 + . . . + Zn = + . n n n A prova terá três partes: (a) (b) (c) Z1 +...+Zn n → 0 quase certamente (usaremos Borel-Cantelli); n − EY1 +...+EY → 0 quase certamente (usaremos a Primeira Lei Forte e o n Lema 8.3.4); e Y1 +...+Yn n EY1 +...+EYn n → 0 (usaremos o Teorema da Convergência Dominada). É fácil ver que (a), (b), e (c) implicam o teorema. Para provar (a), note que Zn ̸= 0 ⇔ Yn ̸= Xn ⇔ Xn ∈ / (−n, n]. Logo, P (Zn ̸= 0) = P (Xn ∈ / (−n, n]) ≤ P (|Xn | ≥ n). Mas os eventos An = [Zn ̸= 0] satisfazem ∞ ∑ n=1 P (An ) ≤ ∞ ∑ n=1 P (|Xn | ≥ n) = ∞ ∑ P (|X1 | ≥ n) ≤ E|X1 | < ∞. n=1 Portanto, Borel-Cantelli implica que P (An infinitas vezes) = 0, ou seja P (Zn ̸= 0 infinitas vezes) = 0. Isso significa que P (Zn = 0 para todo n suficientemente grande) = 1. Mas se Zn = 0 para n suficientemente grande, então Zn → 0 e Z1 + . . . + Zn Z1 + . . . + Zn → 0, logo P ( → 0) = 1. n n Para provar (b), seja F a função de distribuição comum, F = FXn . Verifiquemos a condição da primeira Lei Forte de Kolmogorov para as variáveis aleatórias Yn . Como Yn = Xn I[−n<Xn ≤n] , temos ∫ n 2 2 x2 dF (x). V ar(Yn ) ≤ E(Yn ) = E(Xn I[−n<Xn ≤n] ) = −n Autor: Leandro Chaves Rêgo 8.3. LEI FORTE DOS GRANDES NÚMEROS Portanto, ∞ ∑ V ar(Yn ) n=1 n2 132 ∫ n ∞ ∑ 1 ≤ x2 dF (x) < ∞, 2 n −n n=1 onde a última desigualdade decorre do Lema 8.3.4. Portanto, (b) decorre da primeira Lei Forte de Kolmogorov. Para provar (c), é suficiente mostrar que EYn → 0. Mas, EYn = E(Xn I[−n<Xn ≤n] ) = E(X1 I[−n<X1 ≤n] ) → EX1 = 0, pelo teorema da convergência dominada que se aplica pois |X1 | domina X1 I[−n≤X1 ≤n] ’s e é integrável. Exemplo 8.3.6 : As variáveis Xn , n ≥ 1, são independentes e todas têm distribuição Exponencial de parâmetro λ. Mostre que a seqüência {Xn2 : n ≥ 1} satisfaz a Lei Forte dos Grandes Números. Solução: De acordo com a Segunda Lei Forte de Kolmogorov, precisamos mostrar que EXn2 é finita para todo n. Como EXn2 = V arXn + (EXn )2 = λ22 < ∞, temos que a seqüência {Xn2 : n ≥ 1} satisfaz a Lei Forte dos Grandes Números. i.i.d., seguindo o Exemplo 8.3.7: Seja {Xn : n ≥ 1} uma seqüência de variáveis aleatórias∑ 1 modelo Uniforme contínuo em (0, 1). Calcule o limite, quase certo, para n nk=1 (− log(Xk )) quando n → ∞. Solução: Vamos tentar usar a Lei Forte dos Grandes Números. Para isso, precisamos calcular E(− log Xk ). ∫ 1 ∫ 1 1 E(− log Xk ) = − log xdx = −x log x|0 + dx = 1. 0 Portanto, temos que 1 n ∑n k=1 (− log(Xk )) 0 → 1 cp1. A seguir veremos uma importante conseqüência da Lei Forte dos Grandes Números para a área de Estatística Aplicada. Sejam X1 , X2 , , . . . , Xn variáveis aleatórias em (Ω, A, P ) independentes e identicamente distribuídas com função de distribuição F . Essas variáveis podem representar a amostra observada de uma certa quantidade de interesse. A função de distribuição empírica ou amostral, denotada por Fne , é definida para todo x ∈ IR e w ∈ Ω por: 1 Fne (x, w) = [número de i’s tais que Xi (w) ≤ x, i = 1, 2, . . . , n]. n Para uma particular trajetória w0 ∈ Ω, obtemos o conjunto de valores fixados X1 (w0 ) = x1 , . . . , Xn (w0 ) = xn . Se os xi ’s são todos diferentes, então Fne (x, w0 ) é uma função de distribuição com saltos 1/n em cada um desses valores. uma função Considere um x0 ∈ IR fixo. Então Fne (x0 , w) é uma variável aleatória, pois é ∑ 1 e das variáveis X1 , X2 , . . . , Xn . Se Yi = IXi ≤x0 , i = 1, 2, . . . , n, então Fn (x0 , w) = n ni=1 Yi (w). Como as variáveis aleatórias Yi são funções de famílias disjuntas de variáveis aleatórias Autor: Leandro Chaves Rêgo 8.3. LEI FORTE DOS GRANDES NÚMEROS 133 independentes, elas também são independentes. Além disso, temos que Yi ∼ Bernoulli(p) com p = P (Yi = 1) = P (Xi ≤ x0 ) = F (x0 ). Portanto, concluímos que pela Lei Forte de Kolmogorov, para cada valor x0 ∈ IR fixo, temos Fne (x0 , w) → F (x0 ) cp1. O Teorema de Glivenko-Cantelli também conhecido como Teorema Fundamental da Estatística afirma que a função de distribuição empírica converge para a função de distribuição populacional, quase certamente em Ω e uniformemente em IR. Teorema 8.3.8: Sejam X1 , X2 , . . . , Xn variáveis aleatórias em (Ω, A, P ), independentes e identicamente distribuídas com função de distribuição F . Seja Fne a correspondente função de distribuição empírica, então: P (lim sup |Fne (x, w) − F (x)| = 0) = 1. n x∈IR Prova: Para cada x fixo, os argumentos anteriores garantem convergência quase certa. A prova de que este resultado pode ser estendido, usa técnicas de Análise Matemática e será omitida. Por fim nós enunciaremos e provaremos a Recíproca da Lei Forte de Kolmogorov. A Lei Forte afirma que se as variáveis aleatórias Xn são integráveis, então Snn converge para um limite finito (= EX1 ) com probabilidade 1. A recíproca diz que se as Xn não forem integráveis, então com probabilidade 1, Snn não convergirá para um limite finito. Teorema 8.3.9: Sejam X1 , X2 , . . . variáveis aleatórias independentes e identicamente distribuídas. Se E|X1 | = ∞, então, com probabilidade 1, a seqüência |Snn | não é limitada. Prova: Se E|X1 | = ∞, então E( |Xk1 | ) = ∞, para k = 1, 2, . . .. De acordo com Lema 4.6.2, temos que ∞ ∑ |X1 | P( ≥ n) = ∞, ∀k. k n=1 Como as variáveis Xn são identicamente distribuídas, temos ∞ ∑ ∑ |Xn | ∑ |Xn | |X1 | P( ≥ n) = P( ≥ n) = P( ≥ k). k k n n=1 n=1 n=1 ∞ ∞ Por independência dos Xn , os eventos An = [ |Xnn | ≥ k] são independentes, e Borel-Cantelli implica |Xn | ≥ k infinitas vezes) = 1, ∀k. P( n Fazendo Bk = [ |Xnn | ≥ k infinitas vezes], temos P (∩∞ k=1 Bk ) = 1, pois a intersecção de um número enumerável de eventos de probabilidade 1 também tem probabilidade 1. Mas o |Xn | evento ∩∞ k=1 Bk é o evento “ n > k para um número infinito de n, para todo k”, ou seja, é Autor: Leandro Chaves Rêgo 8.4. UM EXEMPLO DE DIVERGÊNCIA DAS MÉDIAS 134 o evento “a seqüência |Xnn | é ilimitada.” Para terminar a prova, basta mostrar que se ilimitada, então |Snn | também é ilimitada. Agora, com S0 = 0, temos |Xn | n é |Xn | |Sn − Sn−1 | |Sn | |Sn−1 | = ≤ + , n n n n para n = 1, 2, . . .. Portanto, se Mas, então 8.4 |Sn−1 | n |Xn | n é ilimitada, então |Sn | n é ilimitada ou |Sn−1 | n é ilimitada. |Sn−1 | |Sn−1 | (n − 1) = · , n (n − 1) n é ilimitada se, e somente se, |Sn | n também for. Um Exemplo de Divergência das Médias Uma variável aleatória tem distribuição de Cauchy de parâmetro a se, para a > 0 fX (x) = 1 a · 2 . π a + x2 Assuma ∑n que Xn são i.i.d. segundo uma distribuição de Cauchy de parâmetro a. Seja Sn = 1 i=1 Xn . Utilizando a definição e as propriedades da função característica pode-se provar n que φXn (u) = e−a|u| , e φSn (u) = e−a|u| . Então, as médias Sn são distribuídas exatamente como uma das parcelas da soma. Para n ≥ m, após alguma manipulação algébrica, temos que m )([Zn,m ] − [Yn,m ]), n ∑n ∑m 1 1 onde Zn,m = n−m i=m+1 Xi e Yn,m = m i=1 Xi . Observe que como Zn,m e Yn,m são médias de conjuntos disjuntos de variáveis aleatórias independentes, elas são independentes uma da outra. Ainda mais, pelo resultado para φSn , é o caso que elas são identicamente distribuídas com função característica igual a e−a|u| . Seja Wn,m = Zn,m − Yn,m , nós vemos que Sn − Sm = (1 − m )Wn,m . Contudo, n Sn − Sm = (1 − φWn,m (u) = φZn,m (u)φYn,m (−u) = e−2a|u| . Então, Wn,m tem uma distribuição fixa, não degenerada que é independente de n e m. Fixando, n = 2m, temos que φS2m −Sm (u) = e−a|u| . Portanto, quando m → ∞, S2m − Sm não converge para zero, mas para todo m, tem uma distribuição Cauchy de parâmetro a. Portanto, Sn não satisfaz o critério de convergência de Cauchy e não é convergente. Autor: Leandro Chaves Rêgo 8.4. UM EXEMPLO DE DIVERGÊNCIA DAS MÉDIAS 135 Observe que isto não é um contra-exemplo a Lei Forte de Kolmogorov, tendo em vista que uma variável aleatória que tem distribuição de acordo com uma Cauchy não tem valor esperado definido, ou seja ∫ 0 ∫ ∞ 1 a|x| 1 ax EX = − dx + dx, 2 2 π a2 + x2 −∞ π a + x 0 é indefinido, visto que ambas as integrais são infinitas. Este exemplo serve para ilustrar que a suposição da existência de EX é necessária para a Lei Forte dos Grandes Números. Autor: Leandro Chaves Rêgo Capítulo 9 Teorema Central do Limite 9.1 Motivação Consideremos uma seqüência de variáveis aleatórias independentes, X1 , X2 , . . ., definidas no mesmo espaço de probabilidade (Ω, A, P ), e seja S1 , S2 , . . . a seqüência de somas parciais, definidas por Sn = X1 + X2 + . . . + Xn . A Lei dos Grandes Números trata da convergência de n1 (Sn − ESn ) para 0, quando n → ∞, supondo que as variáveis aleatórias Xi ’s sejam integráveis. Quando a seqüência obedece à lei dos grandes números, existe uma tendência da variável aleatória Snn , a média amostral no caso de variáveis aleatórias independentes e identicamente distribuídas, para concentrar-se em torno de sua média. O Teorema Central do Limite prova que sob certas hipóteses gerais, a distribuição da média amostral padronizada tende à normal. O problema consiste em achar condições sob as quais Sn − ESn D √ → N (0, 1). V arSn Resumidamente, estas condições exigem que cada parcela da soma contribua com um valor sem importância para a variação da soma, ou seja é muito improvável que qualquer parcela isolada dê uma contribuição muito grande para a soma. O Teorema Central do Limite dá apoio ao uso da normal como distribuição de erros, pois em muitas situações reais é possível interpretar o erro de uma observação como resultante de muitos erros pequenos e independentes. Há também outras situações que o Teorema Central do Limite pode justificar o uso da normal. Por exemplo, a distribuição de alturas de homens adultos de certa idade pode ser considerada aproximadamente normal, pois a altura pode ser pensada como soma de muitos efeitos pequenos e independentes. 9.2 Teoremas e provas Existem vários Teoremas Centrais do Limite que variam de acordo com as hipóteses sobre as distribuições das variáveis aleatórias Xi ’s na seqüência. Como teoremas centrais do limite tratam de convergência em distribuição e como, pelo Teorema da Continuidade de Levy, sabe-se que uma seqüência de variáveis aleatórias Yn →D Y se, e somente se, φYn → φY , 136 9.2. TEOREMAS E PROVAS 137 −t2 n a idéia será provar que a função característica de S√nV−ES converge para e 2 que é a funarSn ção característica da N (0, 1). Nós iremos agora enunciar e provar alguns desses teoremas, começando pelo caso de variáveis aleatórias independentes e identicamente distribuídas. Teorema 9.2.1: Sejam X1 , X2 , . . . variáveis aleatórias iid com E(Xn ) = µ e V ar(Xn ) = σ 2 . Suponha que N é uma variável aleatória com distribuição N (0, 1). Se Sn = X1 + X2 + . . . + Xn , então Sn − nµ D √ → N. σ n Prova: Sem perda de generalidade, seja E(Xn ) = 0 e E(Xn2 ) = 1 (caso este não seja o caso, pode-se provar o resultado para Xi − µ Xi∗ = , σ já que E(Xi∗ ) = 0 e E(Xi∗ )2 = 1). Sn it √ Seja φn (t) = E(e n ) e φ(t) = E(eitX1 ). Como a função característica de uma soma de variáveis aleatórias independentes é igual ao produto das funções características das variáveis aleatórias, tem-se que X √ it √1 φn (t) = (E(e n ))n = φn (t/ n). Como os dois primeiros momentos existem, φ possui duas derivadas contínuas. Então, utilizando a expansão de Taylor de φ e o fato que φ(k) (0) = ik E(X1k ), temos que t2 ′′ φ (θ(t)), 2 onde |θ(t)| ≤ |t|. Logo, como φ′′ é contínua em 0, temos que φ′′ (θ(t)) − φ′′ (0) → 0 quando t → 0. Então, tem-se t2 t2 φ(t) = 1 − + e(t), 2 2 onde e(t) = φ′′ (θ(t)) + 1 e limt→0 e(t) = 0. Então, para t fixo φ(t) = 1 + tφ′ (0) + −t2 t2 −t2 t t2 t t φn ( √ ) = [1 − + e( √ )]n = [1 + [1 − e( √ )]]n → e 2 , 2n 2n 2n n n n quando n → ∞, pois [1 − e( √tn )] → 1 e para números complexos cn → c ⇒ (1 + (Esse limite é conhecido como limite de Euler e sua prova será omitida). cn n ) n → ec Um caso especial do Teorema Central do Limite para variáveis aleatórias independentes e identicamente distribuídas é quando estas variáveis são distribuídas de acordo com a distribuição de Bernoulli, este caso é conhecido como Teorema Central do Limite de De Moivre e Laplace. Corolário 9.2.2: Seja X1 , X2 , . . . uma seqüência de variáveis aleatórias independentes e distribuídas de acordo com a distribuição de Bernoulli com parâmetro p, ou seja, P (Xi = 1) = p = 1 − P (Xi = 0) para 0 < p < 1. Então, se Sn = X1 + . . . Xn , S − np √ n →D N (0, 1). np(1 − p) Autor: Leandro Chaves Rêgo 9.2. TEOREMAS E PROVAS 138 Prova: É imediata dado o teorema anterior, já que E(Xi ) = p e E(Xi2 ) = p. Exemplo 9.2.3 : Suponha que temos algumas voltagens de ruídos independentes, por exemplo Vi , i = 1, 2, . . . , n, as quais são recebidas naquilo que se denomina um “somador”. Seja V a soma das voltagens recebidas. Suponha também que cada variável aleatória Vi seja uniformemente distribuída sobre o intervalo [0,10]. Daí, EVi = 5 volts e V arVi = 100 . 12 De acordo com o Teorema Central do Limite, se n for suficientemente grande, a variável aleatória √ (V − 5n) 12 √ S= 10 n terá aproximadamente a distribuição N (0, 1). Portanto, se n = 20, podemos calcular que a probabilidade de que a voltagem total na entrada exceda 105 volts da seguinte maneira: √ √ (V − 100) 12 (105 − 100) 12 √ √ P (V > 105) = P ( > ) w 1 − Φ(0, 388) = 0, 352. 10 20 10 20 Agora analisaremos um resultado mais forte que dá condições gerais que garantem convergência da média amostral padronizada para normal: o Teorema Central do Limite de Lindeberg. Teorema 9.2.4: Sejam X1 , X2 , . . . variáveis aleatórias independentes tais que E(Xn ) = µn e V ar(Xn ) = √ σn2 < ∞, onde pelo menos um σi2 > 0. Sejam Sn = X1 + . . . + Xn e sn = √ V ar(Sn ) = σ12 + . . . + σn2 . Considere a seguinte condição, conhecida como condição de Lindeberg, n ∫ 1 ∑ (x − µk )2 dFk (x) = 0. ∀ϵ > 0, lim 2 n→∞ sn k=1 |x−µk |>ϵsn Então, se a condição de Lindeberg é satisfeita Sn − ESn D → N (0, 1). sn Antes de provarmos este teorema, vamos primeiro dar alguma intuição sobre a condição de Lindeberg. Esta condição diz que, para n grande, a parcela da variância devida às caudas das Xk é desprezível. A condição de Lindeberg implica que as parcelas Xk da soma têm variâncias uniformemente pequenas para n grande, em outras palavras nenhuma parcela tem muito peso na σ2 soma. Formalmente, a condição de Lindeberg implica que max1≤k≤n s2k → 0 quando n → ∞. n Para ver isto, observe que para todo k, ∫ ∫ 1 1 σk2 2 = 2 (x − µk ) dFk (x) + 2 (x − µk )2 dFk (x) ≤ 2 sn sn |x−µk |≤ϵ′ sn sn |x−µk |>ϵ′ sn ∫ ∫ n 1 1 ∑ ′ 2 (ϵ s ) dF (x) + (x − µj )2 dFj (x) ≤ n k 2 2 sn |x−µk |≤ϵ′ sn sn j=1 |x−µj |>ϵ′ sn ∫ n ∫ 1 ∞ ′ 2 1 ∑ (ϵ sn ) dFk (x) + 2 (x − µj )2 dFj (x). 2 sn −∞ sn j=1 |x−µj |>ϵ′ sn Autor: Leandro Chaves Rêgo 9.2. TEOREMAS E PROVAS 139 Este último termo não depende de k, pois a primeira parcela é igual a (ϵ′ )2 . Portanto, temos n ∫ σk2 1 ∑ ′ 2 max (x − µk )2 dFk (x), ≤ (ϵ ) + 2 1≤k≤n s2 sn k=1 |x−µk |>ϵ′ sn n que converge para (ϵ′ )2 , pela condição de Lindeberg. Como isto vale para todo ϵ′ , temos σ2 max1≤k≤n s2k → 0. n Portanto, o Teorema Central do Limite de Lindeberg pode ser aplicado para justificar o seguinte raciocínio: a soma de um grande número de pequenas quantidades independentes tem aproximadamente uma distribuição normal. Exemplo 9.2.5: Vamos verificar neste exemplo que uma seqüência X1 , X2 , . . . de variáveis 2 aleatórias √ i.i.d. com √ EXi = µ e V arXi = σ satisfaz a condição de Lindeberg. Note que sn = V arSn = σ n. Então para ϵ > 0, e F a distribuição comum das variáveis aleatórias: n ∫ n ∫ 1 ∑ 1 ∑ 2 (x − µk ) dFk (x) = (x − µ)2 dF (x) 2 2 √ sn k=1 |x−µk |>ϵsn nσ k=1 |x−µ|>ϵσ n ∫ 1 = n (x − µ)2 dF (x). 2 √ nσ |x−µ|>ϵσ n Então, finalmente, 1 lim 2 n σ ∫ √ |x−µ|>ϵσ n (x − µ)2 dF (x) = 0. Agora iremos provar o Teorema Central do Limite de Lindeberg. Prova: Assim como no caso de variáveis aleatórias i.i.d., mostraremos que a função carac−t2 n 2 . terística de Sn −ES converge para e sn Para tanto, fixemos t ∈ R. Usaremos duas versões da fórmula de Taylor aplicada à função g(x) = eitx : t2 x2 eitx = 1 + itx + θ1 (x) , onde |θ1 (x)| ≤ 1 2 e t3 x 3 t2 x2 + θ2 (x) , onde |θ2 (x)| ≤ 1. eitx = 1 + itx − 2 6 Seja ϵ > 0. Usando a primeira fórmula para |x| > ϵ e a segunda para |x| ≤ ϵ, podemos escrever eitx da seguinte forma geral: eitx = 1 + itx − { onde rϵ (x) = t2 x2 + rϵ (x), 2 2 2 (1 + θ1 (x)) t 2x 3 3 θ2 (x) t 6x se |x| > ϵ, se |x| ≤ ϵ. Portanto, Autor: Leandro Chaves Rêgo 9.2. TEOREMAS E PROVAS 140 ∫ ∫ 2 x−µ 2 x − µ k t ( sn k ) E(e )= e dFk (x) = (1 + it + − sn 2 x − µk Xk − µk t2 Xk − µk 2 +rϵ ( ))dFk (x) = 1 + itE( ) − E(( ) )+ sn sn 2 sn ∫ t2 x − µk x − µk 2 + (1 + θ1 ( ))( ) dFk (x) + 2 |x−µk |>ϵsn sn sn ∫ x − µk x − µk 3 t3 )( ) dFk (x). θ2 ( 6 |x−µk |≤ϵsn sn sn it Xk −µk sn it x−µk sn Como EXk = µk e V ar(Xk ) = σk2 , temos E(eit Xk −µk sn )=1− t2 σk2 + en,k , 2s2n onde o resto en,k satisfaz ∫ 2 |en,k | ≤ t ∫ x − µk 2 |t3 | x − µk 2 ( ) dFk (x) + ϵ( ) dFk (x) sn 6 |x−µk |≤ϵsn sn |x−µk |>ϵsn ∫ ∫ ϵ|t3 | ∞ t2 2 (x − µk ) dFk (x) + 2 (x − µk )2 dFk (x). ≤ 2 sn |x−µk |>ϵsn 6sn −∞ Temos então, n ∫ t2 ∑ ϵ|t3 | |en,k | ≤ 2 (x − µk )2 dFk (x) + . s 6 |x−µ |>ϵs n n k k=1 k=1 n ∑ Pela condição de Lindeberg, a primeira parcela do termo à direita tende a zero quando n → ∞. Logo, para n suficientemente grande, n ∑ k=1 |en,k | ≤ ϵ|t|3 . 3 Vamos então escolher uma seqüência de ϵ’s que converge para zero. Para ϵ = nm tal que para n ≥ nm , n ∑ |t3 | , |en,k | ≤ 3m k=1 1 , m existe (9.1) onde os restos en,k são os determinados pela fórmula baseada em ϵ = m1 . Portanto, existe uma seqüência de inteiros positivos n1 < n2 < . . . tal que (9.1) é satisfeita para nm ≤ n < nm+1 , onde para estes valores de n os restos são baseados em ϵ = m1 . É importante lembrar durante o restante da prova que o valor de ϵ que determina o resto en,k depende da posição de n em relação aos nm . Temos, então, n ∑ |en,k | → 0 quando n → ∞. k=1 Autor: Leandro Chaves Rêgo 9.2. TEOREMAS E PROVAS 141 Como Xi ’s são independentes, φ Sn −ESn (t) = sn n ∏ it E(e k=1 Xk −µk sn n ∏ t2 σk2 )= (1 − 2 + en,k ). 2sn k=1 Para provar que o termo à direita converge para e números complexos. −t2 2 Lema 9.2.6: Sejam cn,k números complexos tais que , usaremos o seguinte Lema sobre ∑n k=1 cn,k → c quando n → ∞. Se max |cn,k | → 0 quando n → ∞ 1≤k≤n e n ∑ |cn,k | ≤ M < ∞, k=1 onde M é uma constante que não depende de n, então n ∏ (1 + cn,k ) → ec quando n → ∞. k=1 Prova: Nós omitimos a prova deste lema que pode ser encontrada no livro do Chung seção 7.1. t2 σ 2 Em nosso caso, sejam cn,k = − 2s2k + en,k e c = n n ∑ −t2 . 2 Temos que t2 ∑ t2 |cn,k | ≤ + |en,k | → , 2 2 k=1 k=1 logo existe M < ∞ tal que ∀n, condição sobre o máximo n ∑n k=1 |cn,k | < M . Para aplicar o lema resta verificar a t2 σk2 t2 σk2 + max |e | ≤ max + max |en,k | n,k 1≤k≤n 2s2 1≤k≤n 1≤k≤n 2 s2 1≤k≤n n n max |cn,k | ≤ max 1≤k≤n Como já provamos que os dois termos acima tendem a zero, a prova está terminada. Exemplo 9.2.7: Seja {Xn : n ≥ 1} uma sequência de variáveis i.i.d. com média 0 e variância 1. Também, seja {Yn : n ≥ 1} uma sequência de variáveis independentes com 1 1 e P (Yn = 0) = 1 − 2 , n ≥ 1. 2 2n n ∑ D Sendo Xn e Yn independentes para n ≥ 1, temos √1n nk=1 (Xk + Yk ) − → N (0, 1), mas a condição de Lindeberg não está satisfeita. P (Yn = ±n) = Autor: Leandro Chaves Rêgo 9.2. TEOREMAS E PROVAS 142 ∑ D Solução: Pelo TCL para variáveis i.i.d., temos que √1n nk=1 Xk − → N (0, 1), vamos ∑ P provar que √1n nk=1 Yk − → 0. Deste modo o resultado segue por Slutsky. Pela desigualdade de Markov, temos ∑ ∑n ∑n n E| nk=1 Yk | 1/k n→∞ 1 ∑ k=1 E|Yk | √ √ √ P (| √ Yk | > ϵ) ≤ ≤ = k=1 −−−→ 0, n k=1 ϵ n ϵ n ϵ n (onde o último limite pode ser visto pelo fato de que usando o teste da integral para séries ∑ ∑ n→∞ P pode-se provar que log1 n nk=1 1/k −−−→ 1). Logo, √1n nk=1 Yk − → 0. Como V ar(Xk + Yk ) = V ar(Xk ) + V ar(Yk ) = 2, temos que se a condição de Lindeberg ∑ D fosse satisfeita, teríamos √1n nk=1 (Xk + Yk ) − → N (0, 2). Logo, a condição de Lindeberg não é satisfeita, caso contrário teríamos uma contradição. Corolário 9.2.8: Teorema Central do Limite de Liapunov. Sejam X1 , X2 , . . . variáveis aleatórias independentes tais que EXn = µn e V arXn = σn2 < ∞ com pelo menos um σj2 > 0. Seja Sn = X1 + . . . + Xn e s2n = V arSn . Se existir m > 0 tal que então, 1 n ∑ s2+m n k=1 E(|Xk − µk |2+m ) → 0 quando n → ∞, Sn − ESn D → N (0, 1). sn Prova: Para provar este teorema, é suficiente verificar que as condições do Teorema de Liapunov implicam as condições do Teorema de Lindeberg. A condição de Lindeberg estabelece k| uma integral na região |x − µk | > ϵsn , ϵ > 0. Nessa região, temos que |x−µ > 1, o que por ϵsn |x−µk |m sua vez implica ϵm sm > 1. Desse modo, temos que: n n ∫ n ∫ m 1 ∑ 1 ∑ 2 2 |x − µk | (x − µ ) dF (x) ≤ (x − µ ) dFk (x) k k k s2n k=1 |x−µk |>ϵsn s2n k=1 |x−µk |>ϵsn ϵm sm n n ∫ n ∫ ∞ ∑ ∑ 1 1 2+m |x − µk | dFk (x) ≤ m 2+m |x − µk |2+m dFk (x) = m 2+m ϵ sn k=1 |x−µk |>ϵsn ϵ sn k=1 −∞ n ∑ 1 = m 2+m E|Xk − µk |2+m . ϵ sn k=1 Mas a condição de Liapunov implica que o último termo tende a zero quando n → ∞. Portanto, a condição de Lindeberg está satisfeita. Antes de verficarmos um exemplo do Teorema Central do Limite de Liapunov, vamos considerar o seguinte Lema. Autor: Leandro Chaves Rêgo 9.2. TEOREMAS E PROVAS 143 Lema 9.2.9: Para λ > 0, n 1 ∑ nλ+1 quando n → ∞, de maneira que ∑n k=1 kλ → k=1 1 , λ+1 λ k é da ordem de nλ+1 . Prova: Como xλ ≤ k λ se k − 1 ≤ x ≤ k, e k λ ≤ xλ se k ≤ x ≤ k + 1, segue-se que ∫ k+1 ∫ k+1 ∫ k ∫ k λ λ λ λ xλ dx, k dx ≤ k dx = k = x dx ≤ k k k−1 k−1 somando-se em k de 1 até n, temos ∫ n ∫ n ∑ λ λ x dx ≤ k ≤ 0 n+1 xλ dx. 1 k=1 Logo, ∑ nλ+1 (n + 1)λ+1 − 1 (n + 1)λ+1 kλ ≤ ≤ ≤ , λ+1 λ+1 λ+1 k=1 n o que é eqüivalente a n 1 1 1 ∑ λ n + 1 λ+1 k ≤ ≤ λ+1 ·( ) . λ+1 n λ+1 n k=1 )λ+1 → 1 quando n → ∞, o lema está provado. Como ( n+1 n n Exemplo 9.2.10: Sejam X1 , X2 , . . . , independentes, Xn ∼ U [−n, n]. Prove que Sn −ES →D sn N (0, 1). Solução: Vamos verificar a condição de Liapunov para δ = 1. Temos ∫ k ∫ 1 k 3 k3 1 3 3 3 |x| dx = x dx = . E|Xk − µk | = E|Xk | = 2k −k k 0 4 ∑ Logo, o Lema anterior implica que nk=1 E|Xk − µk |3 é da ordem de n4 . Vamos determinar a ordem de s3n . Como µk = EXk = 0 e ∫ k 1 k2 2 2 σk = V ar(Xk ) = EXk = x2 dx = , temos 2k −k 3 s2n = n ∑ k2 k=1 3 . Portanto, aplicando o resultado do Lema, temos: 1 s2n → . 3 n 9 Autor: Leandro Chaves Rêgo 9.2. TEOREMAS E PROVAS 144 Então, ∑n n 3 n9/2 1 1 ∑ 3 k=1 E|Xk − µk | lim E|Xk − µk | = lim ( 3 · · 1/2 ) 4 n→∞ n→∞ s3 sn n n n k=1 = 93/2 · 1 1 · lim 1/2 = 0. 16 n→∞ n Exemplo 9.2.11: Sejam Xn , n ≥ 1, variáveis independentes com 1 P (Xn = ±2n ) = 2−n−1 e P (Xn = ±1) = (1 − 2−n ), n ≥ 1. 2 ∑ D → N (0, 1). Verifique que √1n ni=1 Xi − Solução: Defina Yn = Xn I[|Xn |≤n] . Deste modo, P (Yn = ±1) = 21 (1 − 2−n ) e P (Yn = 0) = 2−n . Vamos verificar que Yn satisfaz a condição de Liapunov para m = 1. Temos que EYn = 0, V ar(Yn ) = EYn2 = (1 − 2−n ), e E|Yn |3 = (1 − 2−n ) = V ar(Yn ). Logo, 1 ∑ ∑ −( 1 )n+1 s2n = nk=1 V ar(Yk ) = nk=1 (1 − 2−k ) = n − 2 21 . Portanto, 2 n n 1 ∑ 1 1 ∑ 1 n→∞ 3 E|Yk | = 3 V ar(Yk ) = −−→ 0. = 1 1 n+1 − 3 −( ) sn k=1 sn k=1 sn n − 2 21 2 O Teorema Central do Limite de Liapunov implica que, √ n− Portanto, n− √ √ n− n 1 −( 1 )n+1 2 2 1 2 1 −( 21 )n+1 2 1 2 √ n √ Como n ∑ 1 D Yk − → N (0, 1). k=1 1 ∑ D √ Yk − → N (0, 1). n k=1 n 1 −( 12 )n+1 2 1 2 n→∞ −−−→ 1, temos que 1 ∑ D √ → N (0, 1). Yk − n k=1 n Seja Zn = Xn − Yn . Então, 1 ∑ 1 ∑ 1 ∑ √ Xk = √ Yk + √ Zk . n k=1 n k=1 n k=1 n n n Autor: Leandro Chaves Rêgo 9.3. TEOREMA CENTRAL DO LIMITE: CASO MULTIVARIADO 145 ∑ P Se conseguirmos provar que √1n nk=1 Zk − → 0, então o resultado segue por Slustky. Mas P (Zn = ±2n ) = 2−n−1 e P (Zn = 0) = 1 − 2−n . Como P (|Zn | > k1 ) = P (|Zn | = 2n ) = 2−n , temos que ∞ ∞ ∑ ∑ 1 P (|Zn | > ) = 2−n < ∞, ∀k ≥ 1. k n=1 n=1 Portanto, Zn → 0 cp1, ou seja, P ({w ∈ Ω : limn→∞ Zn (w) = 0}) = 1. Como lim Zn (w) = 0 ⇔ ∀ϵ > 0, ∃N tal que |Zn (w)| < ϵ, ∀n ≥ N n→∞ ⇒ ∃N tal que |Zn (w)| < 1, ∀n ≥ N ⇒ ∃N tal que |Zn (w)| = 0, ∀n ≥ N ∞ ∑ ⇒| Zi (w)| < ∞ i=1 1 ∑ ⇒ lim √ Zi (w) = 0, n→∞ n i=1 n ∑ temos que {w ∈ Ω : limn→∞ Zn (w) = 0} ⊆ {w ∈ Ω : limn→∞ √1n ni=1 Zi (w) = 0}. Logo, ∑ ∑ P → P ({w ∈ Ω : limn→∞ √1n ni=1 Zi (w) = 0}) = 1, o que por sua vez implica que, √1n nk=1 Zk − 0. 9.3 Teorema Central do Limite: Caso Multivariado Concluímos dizendo que o Teorema Central do Limite também pode ser estendido ao caso de vetores aleatórios. Neste caso, tem-se que a distribuição da média amostral centrada converge para uma distriuição normal multivariada. A seguir, nós enunciamos formalmente o teorema sem prová-lo. ⃗ 1, X ⃗ 2 , . . . uma seqüência de vetores aleatórios k-dimensionais, Teorema 9.3.1 : Seja X ⃗ 1 tenha variância finita, e sejam independentes e identicamente distribuídos. Suponha que X ⃗ 1 . Seja X n a média amostral, definida como a ⃗µ a média e Σ a matriz de covariância de X ⃗ 1, . . . , X ⃗ n . Então, média aritmética dos vetores X √ n(X n − ⃗µ) →D N (⃗0, Σ), quando n → ∞. 9.4 Método Delta O método Delta é um resultado que aumenta significativamente a relevância do Teorema Central do Limite. Antes de enunciarmos o teorema, vamos provar dois lemas. Dizemos que uma seqüência de variáveis aleatórias {Yn } é limitada em probabilidade se para todo ϵ > 0, existir K e n0 tal que P (|Yn | ≤ K) > 1 − ϵ para todo n > n0 . Autor: Leandro Chaves Rêgo 9.4. MÉTODO DELTA 146 Lema 9.4.1: Se {Yn } converge em distribuição para uma variável aleatória com função de distribuição H, então a seqüência é limitada em probabilidade. Prova: Fixemos K1 e K2 pontos de continuidade de H tal que H(K1 ) > 1−ϵ/4 e H(−K2 ) < ϵ/4. Escolhamos n0 tal que, ∀n > n0 , Hn (K1 ) > H(K1 ) − ϵ/4 > 1 − ϵ/2 e Hn (−K2 ) < H(−K2 ) + ϵ/4 < ϵ/2. Então, P (−K2 ≤ Yn ≤ K1 ) ≥ Hn (K1 ) − Hn (K2 ) > 1 − ϵ. O resultado está provado se escolhermos K = max(|K1 |, |K2 |). Lema 9.4.2: Se {Yn } é limitada em probabilidade e Xn = o(Yn ), então Xn →P 0. Prova: Dados quaisquer ϵ > 0 e δ > 0, precisamos mostrar que existe N tal que P (|Xn | > ϵ) < δ para todo n ≥ N . Como {Yn } é limitada em probabilidade, existe K e n1 tal que P (|Yn | ≤ K) > 1 − δ para todo n ≥ n1 . Como Xn = o(Yn ), sabemos que existe n| n2 tal que |X < Kϵ para todo n ≥ n2 . Façamos N = max(n1 , n2 ), então para n ≥ N , |Yn | |Xn | > ϵ ⇒ |Yn | > K. Logo P (|Xn | > ϵ) ≤ P (|Yn | > K) < δ. Teorema 9.4.3: Se √ n(Tn − θ) →D N (0, τ 2 ), então √ n[f (Tn ) − f (θ)] →D N (0, τ 2 [f ′ (θ)]2 ), (9.2) desde que f ′ (θ) exista e não seja zero. Prova: Utilizaremos a versão da série de Taylor em torno de Tn = θ que diz que: f (Tn ) = f (θ) + (Tn − θ)f ′ (θ) + o(Tn − θ), e então √ n[f (Tn ) − f (θ)] = √ √ n(Tn − θ)f ′ (θ) + o( n(Tn − θ)). O primeiro termo do lado direito converge em distribuição para N (0, τ 2 [f ′ (θ)]2 ).√ Por outro √ Lema 9.4.1, temos que n(Tn − θ) lado, como n(Tn − θ) converge em distribuição, pelo √ é limitada em probabilidade. Então pelo Lema 9.4.2, o( n(Tn − θ)) converge para zero em probabilidade. O resultado portanto é uma conseqüência do Teorema de Slutsky. Este teorema pode parecer uma surpresa, já que se X é distribuído normalmente, a distribuição de f (X), por exemplo, 1/X, log X, ou eX não será tipicamente normal. A explicação para este paradoxo aparente pode ser encontrada na prova. Como o(Tn −θ) →P 0, nós estamos quase certos que quando n for grande, Tn é aproximadamente linear, e uma função linear de uma variável normal é também normal. O processo de aproximar a diferença f (Tn ) − f (θ) pela função linear (Tn − θ)f ′ (θ) e o limite em (9.2) é chamado de método delta. Autor: Leandro Chaves Rêgo 9.4. MÉTODO DELTA 147 Exemplo 9.4.4: Para estimar p2 , suponha que temos a escolha entre (a) n ensaios binomiais com probabilidade p2 de sucesso; ou (b) n ensaios binomiais com probabilidade p de sucesso. Sejam X e Y o número de sucessos no primeiro e segundo tipo de ensaios, e suponha que como estimadores de p2 nos dois casos, nós usaríamos X/n e (Y /n)2 , respectivamente. Então nós temos: √ X n( − p2 ) →D N (0, p2 (1 − p2 )) n e √ Y 2 n(( ) − p2 ) →D N (0, p(1 − p)4p2 ). n Então, pelo menos para n grande, X/n será mais acurado que (Y /n)2 , desde que p2 (1 − p2 ) < p(1 − p)4p2 . Dividindo ambos os lados por p2 (1 − p), podemos ver que X Y2 ou 2 é preferível se p > 1/3 ou p < 1/3, respectivamente. n n O método delta proporciona a base para derivar transformações que estabilizam a variância, ou seja, transformações que levem a uma variância assintótica que é independente do parâmetro. Suponha, por exemplo, que X1 , . . . , Xn são variáveis Poisson com parâmetro λ. Segue do Teorema Central do Limite que √ n(X − λ) → N (0, λ). Para problemas de inferência que se referem a λ, é quase sempre inconveniente que λ ocorre não somente na esperança mas também na √ variância da distribuição limite. É portanto de interesse achar uma função f para a qual n[f (Tn ) − f (θ)]√tende em distribuição para N (0, c2 ), onde c2 não depende de λ. Em geral, suponha que n(Tn − θ) →D N (0, τ 2 (θ)). Então, pelo método delta: √ n[f (X) − f (λ)] →D N (0, τ 2 (θ)(f ′ )2 (θ)), desde que a derivada de f exista em θ e seja diferente de 0. A distribuição limite do lado c direito terá portanto variância constante c2 se f ′ (θ) = τ (θ) . A transformação resultante é dita ser estabilizadora de variância. √ Exemplo 9.4.5: Poisson. No caso de Poisson, temos θ = λ e τ (θ) = λ. Logo, √ c f ′ (λ) = √ ou f (λ) = 2c λ. λ Fazendo c = 1, temos que √ √ √ 2 n( X − λ) →D N (0, 1). Autor: Leandro Chaves Rêgo 9.4. MÉTODO DELTA 148 Exemplo 9.4.6: Chi-Quadrado. Seja Yi = Xi2 , onde as Xi ’s são i.i.d. N (0, σ 2 ). Então, EYi = σ 2 e V arYi = 2σ 4 e pelo Teorema Central do Limite, temos √ n(Y − σ 2 ) →D N (0, 2σ 4 ), ou seja, Tn = Y , θ = σ 2 , e τ 2 (θ) = 2θ2 . Logo, c c f ′ (θ) = √ ou f (θ) = √ log θ. 2θ 2 Fazendo c = 1, vemos que √ n Y log( 2 ) →D N (0, 1). 2 σ Autor: Leandro Chaves Rêgo Referências Bibliográficas 1. James, B. (1981), “Probabilidade: um curso em nível intermediário” - Projeto Euclides 2. Magalhães, Marcos M. (2006), "Probabilidade e Variáveis Aleatórias", 2a. edição, edusp. 3. Lima, E. (1976), “Curso de Análise”, vol.1 - Projeto Euclides 4. Resnick, S. I., "A Probability Path", Birkhauser, 2005. 5. Halpern, Joseph Y. (2003), "Reasoning About Uncertainty", The MIT press. 6. Davenport Jr., W. (1970), "Probability and Random Processes", McGraw-Hill Book Company Inc. 7. deFinetti, B. (1972), "Probability, Induction, and Statistics", New York: Willey. 8. Fine, T. (2006), “Probability and Probabilistic Reasoning for Electrical Engineering”, Prentice Hall. 149