Cálculo de Probabilidades Ivan de Queiroz Barros 1960 (Revisão em 2008) Conteúdo 1 Cálculo de Freqüências 1.1 Álgebra de Subconjuntos . . . . . . . . . . . . . . . . . 1.1.1 Dualidade . . . . . . . . . . . . . . . . . . . . . 1.2 Freqüências . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Universo e Amostras . . . . . . . . . . . . . . . . . . . 1.3.1 Lei da Regularidade Estatística . . . . . . . . . 1.3.2 Técnica de Amostragem Ocasional . . . . . . . 1.3.3 Amostragem ocasional estratificada . . . . . . . 1.3.4 Amostragem ocasional estratificada proporcional 1.4 Leitura . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Cálculo de Probabilidades I 2.1 Conjuntos Enumeráveis . . . . . . . . . 2.2 Axiomas . . . . . . . . . . . . . . . . . 2.3 Conseqüências dos axiomas . . . . . . . 2.4 O Conceito de Independência . . . . . 2.5 Probabilidade e Amostragem ocasional 2.6 Considerações Práticas . . . . . . . . . 2.7 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 4 6 8 8 9 9 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 12 13 18 21 23 23 3 Variáveis Aleatórias 3.1 Esperança Matemática . . . . . . . . . . . . . . . . . . . . 3.1.1 Interpretação Estatística da Esperança Matemática 3.1.2 Propriedades da Esperança Matemática . . . . . . 3.2 Variança . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Interpretação Estatística da Variança . . . . . . . . 3.2.2 Propriedades da Variança . . . . . . . . . . . . . . 3.3 Desigualdade de Chebichev . . . . . . . . . . . . . . . . . . 3.4 Distribuições de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 32 33 33 35 36 36 39 40 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . CONTEÚDO i 3.5 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4 Distribuições Binomial e de Poisson 4.1 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Esperança e variança da distribuição de Poisson . . . . . 4.2.2 Distribuição de Poisson como aproximação da distribuição binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Distribuição de Poisson como distribuição correta . . . . 44 44 47 48 5 Probabilidade II - Extensão da Teoria 5.1 Necessidade de uma extensão . . . . . . . . . . . . . . . . . . . 5.2 Sigma álgebra de subconjuntos . . . . . . . . . . . . . . . . . . . 5.2.1 Sigma álgebra de Borel na reta . . . . . . . . . . . . . . 5.3 Reformulação dos axiomas de probabilidades . . . . . . . . . . . 5.4 Funções de Distribuição . . . . . . . . . . . . . . . . . . . . . . 5.5 Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . 5.6 Esperança Matemática . . . . . . . . . . . . . . . . . . . . . . . 5.6.1 Esperança matemática de variáveis aleatórias discretas positivas . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.2 Esperança matemática de variáveis aleatórias positivas . 5.6.3 Esperança matemática de uma variável aleatória qualquer 5.7 A Desigualdade de Chebichev . . . . . . . . . . . . . . . . . . . 52 52 54 55 56 57 57 59 6 Densidade de Probabilidade 6.1 Definições e Propriedades . . . . . . . . . . . . 6.2 Distribuição Retangular e Distribuição Normal 6.2.1 Distribuição Retangular . . . . . . . . 6.2.2 Distribuição Normal . . . . . . . . . . 6.2.3 Cálculo das áreas sob a curva normal . 6.3 Exemplos . . . . . . . . . . . . . . . . . . . . 66 66 71 71 71 73 73 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 49 60 61 63 65 7 Anexos 81 7.1 Anexo1 - Distribuição de Poisson . . . . . . . . . . . . . . . . . 81 7.2 Anexo 2 - Teoremas do Limite Central . . . . . . . . . . . . . . 85 Capítulo 1 Cálculo de Freqüências 1.1 Álgebra de Subconjuntos Seja E um conjunto. O conjunto das partes (ou subconjuntos) de E será indicado por PE. Definição 1.1 Dados dois subconjuntos A, B de E, dizemos que A está contido em B (notação A ⊂ B) se x∈A ⇒ x ∈ B. Dizemos que B contém A (notação B ⊃ A) se A está contido em B. Entre as partes de E vamos introduzir as operações: união, interseção e complementação. Definição 1.2 A união de dois subconjuntos A, B ⊂ E, que denotaremos por A + B, é o subconjunto de E definido por A + B = {x ∈ E : x ∈ A ou x ∈ B}. Definição 1.3 A interseção de dois subconjuntos A, B ⊂ E, que denotaremos por AB, é o subconjunto de E definido por AB = {x ∈ E : x ∈ A e x ∈ B}. Definição 1.4 O complemento de um subconjunto A ⊂ E, que denotaremos por A, é o subconjunto de E definido por A = {x ∈ E : x ∈ / A}. 1 2 CAPÍTULO 1. CÁLCULO DE FREQÜÊNCIAS Observações 1.5 1. A parte vazia (sem elementos) de E, é denotada por ∅. 2. Indicaremos por card(A) (lê-se: cardinal de A), o número de elementos de um subconjunto finito A ⊂ E. 3. A união também é denotada por A ∪ B, e a interseção por A ∩ B. Propriedades 1.6 As seguintes propriedades decorrem das definições. 1 E=∅ ∅=E 2 X +X =X XX = X 3 X +X =E XX = ∅ 4 X +∅=X XE = X 5 X +E =E X∅ = ∅ 6 X +Y =Y +X XY = Y X 7 X + (Y + Z) = (X + Y ) + Z X (Y Z) = (XY ) Z 8 X + (Y Z) = (X + Y ) (X + Z) X (Y + Z) = (XY ) + (XZ) 9 X +Y =XY XY = X + Y 10 X=X 11 X=Y ⇔X=Y 12 X ⊂Y ⇔X ⊃Y X ⊃Y ⇔X ⊂Y 13 X ⊂X +Y X ⊃ XY Observação 1.7 As propriedades 2 e 10 são de idempotência, a propriedade 6 chama-se comutatividade, a propriedade 7 chama-se associatividade e a propriedade 8 distributividade. 1.1.1 Dualidade Da propriedade 9 (Leis de Morgan) resulta o seguinte. Se uma parte A de E se deduz de outras partes X, Y , Z de E pela aplicação, não importa em que ordem, das operações de união, interseção e complementação, obter-se-á o complementar A, substituindo-se as partes X, Y , Z pelos seus complementares, e as operações de união e interseção, pelas de interseção e união respectivamente, respeitada a ordem das operações. É a regra de dualidade. Tem esse nome porquê uma nova aplicação da regra restaura a expressão anterior. 1.1. ÁLGEBRA DE SUBCONJUNTOS 3 Exemplo 1.8 Calculemos o complementar de A = X + Y Z XZ + Y usando a regra de dualidade. Podemos escrever imediatamente A = X Y + Z + X + Z Y. Pela distributividade da interseção em relação à união, temos Mas A = X Y + XZ + XY + ZY = = X Y + Y + XZ + ZY = X + XZ + ZY. pois que XZ ⊂ X. Logo X + XZ + ZY = X + ZY, A = X + ZY. Obtenhamos o mesmo resultado, primeiro desenvolvendo a expressão original e depois complementando. A = XXZ + XY + Y ZXZ + Y Z Y = = XZ + XY = X Z + Y pois que XX = X, ZZ = ∅ e Y Y = ∅. Complementando, temos A =X Z +Y =X + Z +Y =X +ZY = = X + ZY . Exemplo 1.9 Dos 50 pacientes do terceiro andar de um hospital, 12 tem mais de 70 anos. Entre êstes 8 são mulheres. Quantos pacientes são mulheres ou não tem mais de 70 anos? Solução Seja M o subconjunto das mulheres e V o subconjunto dos idosos. Desejamos calcular card M + V . Ora, M + V = M V + V + V = MV + MV + V = M V + V . Então, como MV e V são disjuntos, card M + V = card MV + V = card (MV )+card V = 8+(50 − 12) = 46. 4 1.2 CAPÍTULO 1. CÁLCULO DE FREQÜÊNCIAS Freqüências Seja E um conjunto finito com n elementos, isto é, card (E) = n. Definimos f : PE → R por f (A) = card (A) , card (E) ∀A ⊂ E, e chamamos f (A) freqüência de A. Propriedades 1.10 Básicas 1) f (E) = 1 2) f (A) ≥ 0, ∀A ⊂ E 3) A ∩ B = ∅ ⇒ f (A + B) = f (A) + f (B) Prova. 1) f (E) = card(E) card(E) =1 2) f (A) ≥ 0, pois card (A) ≥ 0 e card (E) ≥ 0 3) f (A + B) = card(A+B) card(E) = card(A) card(E) + card(B) card(E) = f (A) + f (B) As propriedades seguintes são conseqüências simples das propriedades básicas. Propriedades 1.11 4) f (∅) = 0 5) f (A) + f A = 1 6) Se A1 , A2 , . . . Am são disjuntos, isto é, i = j ⇒ Ai Aj = ∅, então f (A1 + A2 + · · · + Am ) = f (A1 ) + f (A2 ) + · · · + f (Am ) 7) A ⊂ B ⇒ f (A) ≤ f (B) 8) f (A + B) = f (A) + f (B) − f (AB) , ∀A, B ⊂ E 1.2. FREQÜÊNCIAS 5 Definição 1.12 Seja A ⊂ E com f (A) = 0. Definimos a aplicação fA : PE → R por fA (B) = f (AB) , f (A) ∀B ⊂ E. O valor fA (B) é chamado freqüência de B condicionada a A. Proposição 1.13 A função fA satisfaz as mesmas propriedades 1 a 8 de f. Prova. Basta verificar as propriedades básicas 1, 2 e 3, pois as restantes são conseqüências. Verificação de 1) fA (E) = f (AE) f (A) = = 1. f (A) f (A) Verificação de 2) fA (B) = f (AB) ≥ 0. f (A) Verificação de 3) Seja BC = ∅. Então fA (B + C) = f (A (B + C)) f (AB + AC) = . f (A) f (A) Como (AB) (AC) = A (BC) = ∅, resulta fA (B + C) = f (AB) + f (AC) = fA (B) + fA (C) . f (A) Podemos então interpretar fA (B) como a freqüência em A dos elementos de B. Proposição 1.14 Seja A1 , A2 , · · · An ⊂ E, onde n > 1. Se f (A1 A2 · · · An−1 ) = 0 então f (A1 A2 · · · An ) = 0. Se f (A1 A2 · · · An−1 ) = 0 então f (A1 A2 · · · An ) = f (A1 ) fA1 (A2 ) fA1 A2 (A3 ) · · · fA1 A2 ···An−1 (An ) . 6 CAPÍTULO 1. CÁLCULO DE FREQÜÊNCIAS Prova. 1) Suponhamos que f(A1A2 · · · An−1 ) = 0. Em geral, se A ⊂ B e f (B) = 0, resulta f (A) = 0. Como A1 A2 · · · An ⊂ A1 A2 · · · An−1 temos então f (A1A2 · · · An ) = 0. 2) Suponhamos que f(A1A2 · · · An−1 ) = 0. Em geral, se A ⊂ B e f (A) = 0, resulta f (B) = 0. Como A1 ⊃ A1 A2 ⊃ · · · A1 A2 · · · An−1, temos f (A1 ) = 0, f (A1A2 ) = 0, ··· f (A1 A2 · · · An−2 ) = 0. Podemos então escrever: f (A1 A2 · · · An ) = f (A1 ) f (A1 A2 ) f(A1 A2 A3 ) f (A1A2 · · · An ) ··· , f (A1 ) f (A1 A2 ) f (A1 A2 · · · An−1 ) isto é, f (A1 A2 · · · An ) = f (A1 ) fA1 (A2 ) fA1 A2 (A3 ) · · · fA1 A2 ···An−1 (An ) . 1.3 Universo e Amostras Seja U um conjunto sobre o qual desejamos obter informações. Este conjunto é chamado Universo pelos estatísticos (também População ou Espaço Amostral). Se U é finito e o número de elementos não muito grande, podemos ”recenseálo”. Se, porém, U é infinito ou de cardinal muito elevado, essa operação é inviável. Procura-se, então, obter uma amostra por meio de um número finito n de provas. Em cada prova, obtemos um elemento da amostra por extração de um elemento do universo. A técnica utilizada para obtenção de um elemento da amostra é chamada técnica de amostragem e esta pode ser bastante complexa. 1.3. UNIVERSO E AMOSTRAS 7 O importante é que em cada prova a extração seja feita com a mesma técnica, e sempre do mesmo universo. Isso implica que a técnica de amostragem em cada prova seja realizada com reposição, caso contrário o universo já não seria mais o mesmo na prova seguinte, e por maior razão, a técnica de amostragem já seria outra! Seja A uma propriedade atribuível aos elementos do Universo. Cada elemento dêste pode ter ou não essa propriedade, também chamada atributo. Ao atributo A fica associado um subconjunto de U definido por {x ∈ U : x possui o atributo A}. Indicaremos esse subconjunto pelo mesmo símbolo A. Reciprocamente, dado um subconjunto A de U , seus elementos possuem o atributo “x ∈ A”, que indicaremos por A, e que por sua vez determina o subconjunto. Estabelecemos, então, uma correspondência biunívoca entre atributos e subconjuntos. Da mesma forma temos uma correspondência biunívoca entre atributos dos elementos de uma amostra E e subconjuntos de E. Seja A ⊂ E. Podemos então falar na freqüência f (A) do “subconjunto A” ou “atributo A”, calculada na amostra. Seja A ⊂ U . Se o Universo é infinito, não podemos calcular a freqüência de A no Universo pois não está definida (vide definição de freqüência). Se, porém, U é finito, indicaremos por f u (A) a freqüência de A no Universo. Observações 1.15 1) Como uma amostra é obtida sempre com reposição, o número de elementos da amostra pode ser menor, igual ou maior que o número de elementos do Universo. 2) Mesmo quando a amostra tem menor número de elementos, não pode ser identificada com um subconjunto do Universo, pois podem existir elementos distintos da amostra que provem do mesmo elemento do Universo. 8 CAPÍTULO 1. CÁLCULO DE FREQÜÊNCIAS 3) Consideremos um Universo finito. Conforme a técnica de amostragem, a freqüência de um atributo na amostra pode ser completamente diferente da freqüência no Universo do atributo correspondente. 1.3.1 Lei da Regularidade Estatística Esta lei também chamada “lei da estabilidade das freqüências” é uma lei empírica, isto é, verificada pela experiência. Por isso é chamada “lei” e não “teorema” ou “axioma”, pois pertence ao domínio das ciências experimentais e não da matemática. O enunciado envolve por natureza uma certa imprecisão. A seguir apresentamos a formulação contida em [CRAMER, Section 13.3 ] adaptada as nossas notações e terminologia. Dados um Universo U, uma técnica de amostragem, se nos observarmos a freqüência f (A) de um atributo A ⊂ U em amostras com um número crescente n de elementos, nos observaremos em geral que f (A) mostra uma acentuada tendência de se tornar mais ou menos constante para grandes valores n. A “impressão” que se tem é a da existência de uma freqüência ideal para a qual convergiria a freqüencia, observada numa amostra com n elementos, quando n tendesse ao infinito. Os ganhos dos cassinos em todo o mundo estão baseados na verificação diária da validade da lei da regularidade estatística em seus “jogos de azar”. É esta lei que motiva a introdução da noção matemática de Probabilidade e que garante a sua aplicabilidade prática. 1.3.2 Técnica de Amostragem Ocasional Consideremos um Universo finito e uma técnica de amostragem. Diremos que essa técnica é ocasional se para todo atributo A, tivermos f (A) ≈ f u (A) , em grandes amostras. 1.3. UNIVERSO E AMOSTRAS 9 A lei da regularidade estatística garante a estabilidade da freqüência f (A) calculada em amostras grandes. A técnica de amostragem será ocasional se essa estabilidade se der em torno da freqüência do atributo A no Universo f u (A). A verificação, se uma dada técnica de amostragem é ou não ocasional, se faz, em última análise, experimentalmente. É imediato verificar que uma técnica de amostragem é ocasional se, e só se, a freqüência de cada elemento do Universo em grandes amostras é aproxi1 madamente igual a card(U . ) 1.3.3 Amostragem ocasional estratificada Consideremos um universo finito U , particionado em N partes, isto é, U = A1 + A2 + · · · + AN onde Ai Aj = ∅, para i = j, e suponhamos conhecidas as freqüências f u (Ai ) , i = 1, 2, . . . N. Formemos uma amostra E obtendo a partir de cada Ai uma amostra parcial Ei com uma técnica de amostragem ocasional. Teremos E = E1 + E2 + · · · + EN onde Ei Ej = ∅, para i = j. Seja F ⊂ U um atributo qualquer. Teremos fEi (F ) ≈ fAui (F ) , porque a amostragem em cada Ai foi ocasional. Podemos agora estimar a freqüência de F no universo U. Temos u f (F ) = N f u (Ai ) fAui (F ) ≈ i=1 1.3.4 N f u (Ai ) fEi (F ) . i=1 Amostragem ocasional estratificada proporcional Nas mesmas condições da subseção anterior, suponhamos agora que o número de elementos em cada amostra parcial Ei ⊂ E foi escolhido proporcional ao número de elementos de Ai ⊂ U. Então f u (Ai ) = f (Ei ) , i = 1, 2, . . . N, 10 CAPÍTULO 1. CÁLCULO DE FREQÜÊNCIAS e portanto u f (F ) ≈ N u f (Ai ) fEi (F ) = i=1 1.4 Leitura • [CRAMER, Section 13.3] N i=1 f (Ei ) fEi (F ) = f (F ) . Capítulo 2 Cálculo de Probabilidades I No Capítulo 1 vimos que a freqüência de um atributo A aplicável aos elementos do universo U , calculada em amostras grandes, é praticamente estável. Do ponto de vista prático é como se a cada atributo do universo, ou o que dá no mesmo, a cada subconjunto do universo, estivesse associado o valor de uma “freqüência ideal” que estaria sendo estimada em cada amostra. Para podermos trabalhar matematicamente com êsse conceito, vamos batizálo de probabilidade, e sujeitá-lo a alguns axiomas calcados nas propriedades básicas das freqüências vistas no Capítulo 1. Para mantermos um tratamento elementar, vamos nos restringir neste capítulo a Universos enumeráveis, conceito êste que definiremos a seguir. Mais tarde mostraremos como estender a teoria para o caso em que o Universo é não enumerável como, por exemplo, a reta real R, ou o espaço m-dimensional Rm . 2.1 Conjuntos Enumeráveis Definição 2.1 Diremos que um conjunto U é enumerável se ele é finito, ou se existe uma correspondência biunívoca entre U e o conjunto dos números naturais N = {1, 2, 3, . . .}. Em palavras mais simples, um conjunto é enumerável se seus elementos podem ser enumerados. Exemplo 2.2 São exemplos de conjuntos enumeráveis: a) O conjunto {e1 , e2 , e3, e4}. b) O conjunto dos números naturais N. 11 12 CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I c) O conjunto Q dos números racionais, isto é, dos números da forma n e m são inteiros. n , m onde d) O conjunto dos pares (n, m) onde n e m são inteiros positivos. e) O conjunto dos pares (p, q) onde p e q são números racionais. Exercício 2.3 Exibir uma enumeração dos elementos dos conjuntos do exemplo anterior. 2.2 Axiomas Seja U um universo enumerável, e seja P : PU → R. A aplicação P leva partes de U em R, isto é, associa a cada subconjunto A (atributo A) de U um número real P (A). Se P satisfizer os axiomas: 1) P (A) ≥ 0, ∀A ∈ PU 2) P (U) = 1 ∞ 3) Se i=1 Ai é uma união de subconjuntos disjuntos Ai ⊂ U, então ∞ ∞ P Ai = P (Ai ) , i=1 i=1 diremos que P é uma função probabilidade. Se A ⊂ U, chamaremos P (A) probabilidade de A. Observações 2.4 1. O axioma 3) é calcado na propriedade 3) das freqüências, mas é estendido para o caso de uma união enumerável de subconjuntos disjuntos. 2. Nos problemas práticos a função probabilidade ou é dada, ou é calculada a partir de funções probabilidade conhecidas ou é escolhida de forma a se ajustar às freqüências calculadas em amostras grandes. 3. As proposições que serão enunciadas a seguir, são decorrências lógicas dos axiomas e definições. São válidas, independentemente de qualquer interpretação estatística da probabilidade P . 2.3. CONSEQÜÊNCIAS DOS AXIOMAS 2.3 13 Conseqüências dos axiomas Proposição 2.5 P (∅) = 0. Prova. Podemos escrever ∅= ∞ i=1 ∅i onde os ∅i são vazios, e portanto disjuntos entre si. Pelo axioma 3) temos ∞ ∞ P (∅) = P ∅i = P (∅i ) = i=1 = lim n→∞ n i=1 i=1 P (∅i ) = lim (P (∅) + P (∅) + · · · + P (∅)) = n→∞ = lim nP (∅) . n→∞ O único valor possível para P (∅) é zero. Proposição 2.6 Se A, B ⊂ U são disjuntos, isto é, se AB = ∅, então P (A + B) = P (A) + P (B) . Prova. De fato, pelo terceiro axioma e pela proposição 2.5, temos p (A + B) = P (A + B + ∅ + ∅ + ∅ + · · ·) = = P (A) + P (B) + P (∅) + P (∅) + P (∅) + · · · = P (A) + P (B) . Corolário 2.7 P (A) + P A = 1. Corolário 2.8 Se A1 , A2 , . . . An ⊂ U são disjuntos, então P (A1 + A2 + · · · + An ) = P (A1 ) + P (A2 ) + · · · + P (An ) . Proposição 2.9 Se A ⊂ B, então P (A) ≤ P (B). 14 CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I Prova. Como B = A + BA e A · BA = ∅. podemos aplicar a proposição 2.6 e escrever P (B) = P A + BA = P (A) + P BA . Pelo axioma 1 P BA ≥ 0, e portanto P (A) ≤ P (B) . Proposição 2.10 Sejam A, B ⊂ U. Em geral vale: P (A + B) = P (A) + P (B) − P (AB) . Prova. Das igualdades A + B = AB + AB + AB, AB + AB = A, AB + AB = B, teremos, por serem AB, AB e AB disjuntos, P (A + B) P (AB) + P AB P (AB) + P AB = P (AB) + P AB + P AB , = P (A) , = P (B) . Somando-se membro a membro resulta P (A + B) + P (AB) = P (A) + P (B) . Proposição 2.11 Sejam A1 , A2 , . . . An ⊂ U tais que 1. Ai Aj = ∅ para i = j, 2. A1 + A2 + · · · + An = U, 3. P (Ai ) = P (Aj ) para i = j. 2.3. CONSEQÜÊNCIAS DOS AXIOMAS 15 Então, se B = A1 + A2 + · · · + Am com m ≤ n, teremos P (B) = m , n isto é, P (B) será igual ao quociente do número de casos favoráveis sôbre o número de casos possíveis, igualmente prováveis. Prova. Com efeito, pelo corolário 2.8 temos P (B) = P (A1) + P (A2 ) + · · · + P (Am ) , donde P (U) = P (A1 ) + P (A2) + · · · + P (An ) , P (B) m = . P (U) n Mas pelo axioma 2, P (U) = 1, e portanto P (B) = m . n Observação 2.12 A função P : PU → R fica completamente conhecida se forem conhecidos os valores P ({ei }) para os subconjuntos {ei } ⊂ U que possuem um único elemento. Para aliviar a notação, indicaremos P ({ei }) por P (ei ). Para um subconjunto finito qualquer A = {e1 , e2 , . . . en } ⊂ U, teremos P (A) = n P (ei ) , i=1 e para um subconjunto infinito A = {e1 , e2 , e3 , . . .} ⊂ U, teremos P (A) = ∞ i=1 P (ei ) . 16 CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I Em particular para A = U teremos P (U) = ∞ P (ei ) = 1. i=1 Reciprocamente, se tivermos um universo U com n elementos, poderemos construir uma funcão de probabilidade, tomando números pi ≥ 0 tais que n pi = 1, i=1 e fazendo P (ei ) = pi , i = 1, 2, . . . n. Se o universo U for infinito enumerável, podemos tomar uma seqüência p1 , p2 , p3 , . . . , de números reais não negativos, tais que ∞ pi = 1, i=1 e analogamente fazer P (ei ) = pi , i = 1, 2, 3, . . . Definição 2.13 Seja A ⊂ U e P (A) = 0. Definiremos PA : PU → R por PA (B) = P (AB) . P (A) O valor PA (B) é chamado probabilidade de B condicionada a A. Observação 2.14 Nos problemas práticos, PA (B) pode ser estimado numa grande amostra por fA (B) (freqüência de B condicionada a A). Reciprocamente o conhecimento de PA (B) constitui-se numa previsão de fA (B) . 2.3. CONSEQÜÊNCIAS DOS AXIOMAS 17 Proposição 2.15 A função PA é uma função probabilidade definida sôbre U. Prova. Basta verificar que os tres axiomas estão satisfeitos. 1. Como P (AB) ≥ 0 e P (A) > 0, resulta da definição de PA que PA (B) ≥ 0, ∀B ⊂ U . 2. Verifiquemos que PA (U) = 1. De fato, PA (U ) = 3. Seja P (A) P (AU) = = 1. P (A) P (A) Bi uma união enumerável de subconjuntos disjuntos de U. Teremos, PA = Bi P (A Bi ) PA ( ABi ) = = = P (A) P (A) P (ABi ) P (ABi ) = = PA (Bi ) . P (A) P (A) Portanto o terceiro axioma está verificado. Corolário 2.16 Todas as propriedades de P serão automaticamente propriedades de PA . Proposição 2.17 Sejam B, C ⊂ U tais que P (BC) = 0. Então [PB ]C (A) = PBC (A). Prova. Como BC ⊂ B e P (BC) > 0, resulta P (B) > 0. Podemos então escrever [PB ]C (A) = PB (CA) P (BCA) P (B) = · = PB (C) P (B) P (BC) = P (BCA) = PBC (A) . P (BC) 18 CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I Observação 2.18 A proposição 2.17 diz que o condicionamento de probabilidades condicionadas não conduz a novos entes. Proposição 2.19 Seja A1 , A2 , · · · An ⊂ U, onde n > 1. Se P (A1 A2 · · · An−1 ) = 0 então P (A1A2 · · · An ) = 0. Se P (A1 A2 · · · An−1 ) = 0 então P (A1A2 · · · An ) = P (A1 ) PA1 (A2 ) PA1 A2 (A3 ) · · · PA1 A2 ···An−1 (An ) . Prova. A demonstração desta proposição é igual à da proposição 1.14. Basta substituir a letra f por P . 2.4 O Conceito de Independência Definição 2.20 Seja P uma função probabilidade definida sôbre um universo U. Sejam B e A subconjuntos de U . Diremos que B é independente de A se PA (B) = P (B) ou PA (B) = P (B) . Observação 2.21 Num problema prático, a função de probabilidade P é escolhida de forma a prever as freqüências em grandes amostras. Se B é independente de A segundo a definição 2.20, teremos numa grande amostra fA (B) ≈ f (B) ou fA (B) ≈ f (B) . Então com boa aproximação, a ocorrência ou a não ocorrência de A não afeta a ocorrência de B. Esta é a noção intuitiva de independência, traduzida em termos matemáticos pela definição. Proposição 2.22 Condição necessária e suficiente para que B seja independente de A é que P (AB) = P (A) P (B) . 2.4. O CONCEITO DE INDEPENDÊNCIA 19 Prova. a) A condição é necessária Seja B independente de A. Então PA (B) = P (B) ou PA (B) = P (B) . Se for aplicável a primeira alternativa, teremos P (AB) = P (B) P (A) donde P (AB) = P (A) P (B) . Se for aplicável a segunda, obtemos P AB = P (B) P A donde P AB = P A P (B) . Substituindo P AB = P (B) − P (AB) e P A = 1 − P (A), temos P (B) − P (AB) = (1 − P (A)) P (B) = P (B) − P (A) P (B) . Portanto P (AB) = P (A) P (B) . b) A condição é suficiente Suponhamos que P (AB) = P (A) P (B). Se P (A) = 0, podemos escrever P (AB) = P (B) , P (A) isto é, PA (B) = P (B) . 20 CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I Se for P (A) = 0, substituimos P (A) = 1 − P A e P (AB) = P (B) − P AB , em P (AB) = P (A) P (B) obtendo P (B) − P AB = 1 − P A P (B) , isto é, P AB = P A P (B) . Temos agora P A = 0, e analogamente ao caso P (A) = 0, obtemos PA (B) = P (B) . Corolário 2.23 Se B é independente de A, então A é independente de B, pela simetria da igualdade P (AB) = P (A) P (B). Diremos daqui por diante que A e B são independentes entre si. Definição 2.24 Seja Ak , k = 1, 2, 3, . . ., uma sequência finita ou infinita de subconjuntos de U. Dizemos que os Ak são independentes entre si, se para todo inteiro n positivo e para toda n-pla Ak1 , Ak2 , . . . Akn de elementos distintos da sequência, vale P (Ak1 Ak2 · · · Akn ) = P (Ak1 ) P (Ak2 ) . . . P (Akn ) . Exercício 2.25 Sejam A1 , A2 , . . . An B1B2 . . . Bm P (B1B2 · · · Bm ) = 0. Prove que independentes entre si, e PB1 B2 ...Bm (A1A2 · · · An ) = P (A1 A2 · · · An ) . Exercício 2.26 Sejam A1, A2, . . . An B1 B2 . . . Bm independentes entre si. Prove por indução sobre n que P A1 A2 · · · An B 1 B 2 · · · B m = P (A1 ) P (A2 ) · · · P (An ) P B 1 P B 2 · · · P B m . Observação 2.27 Nos problemas de probabilidades, em face da expressão P (A1 A2 · · · An ) procederemos da seguinte maneira: 1. Se A1, A2, . . . An ⊂ U são independentes entre si, escreveremos P (A1A2 · · · An ) = P (A1 ) P (A2 ) · · · P (An ) . 2.5. PROBABILIDADE E AMOSTRAGEM OCASIONAL 21 2. Se A1 , A2, . . . An ⊂ U não forem independentes entre si, tentaremos a decomposição P (A1A2 · · · An ) = P (A1 ) PA1 (A2 ) PA1 A2 (A3 ) · · · PA1 A2 ···An−1 (An ) . Se conseguirmos, será correta a decomposição. 3. Se não for possível a decomposição, será porquê P (A1 A2 · · · Ai ) = 0 para algum i, 1 ≤ i < n, o que implica P (A1 A2 · · · An ) = 0. 2.5 Probabilidade e Amostragem ocasional Seja U um universo finito com n elementos, e formemos uma grande amostra com uma técnica de amostragem ocasional. Seja A um atributo que define um subconjunto A do universo. Seja m o cardinal de A. Pela definição de amostragem ocasional temos f (A) ≈ fu (A) , isto é, a freqüência f (A) de A, calculada na amostra, é aproximadamente igual à freqüência fu (A) de A, calculada no universo U. Então, uma escolha conveniente, nestas circunstâncias, para a função probabilidade P : PU → R, é a função fu : PU → R. Definimos então: P (A) = fu (A) = m . n Se a técnica de amostragem não for ocasional, uma boa escolha de P : PU → R será aquela em que definimos P por P (A) = f (A) , ∀A ⊂ U, onde f (A) é a freqüência de A calculada numa amostra bastante grande. Neste caso P (A) pode ser muito diferente de fu (A). A amostragem ocasional só é possível para universos finitos. A segunda alternativa para escolha de P pode ser aplicada para universos não finitos, pois uma amostra é sempre finita. 22 CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I Exemplo 2.28 Para exemplificarmos o que acabamos de explicar, consideremos uma urna contendo 5 bolas brancas b1, b2 , b3 , b4, b5 e 5 bolas vermelhas v1, v2, v3 , v4 , v5 . Retiremos ao acaso uma bola da urna, isto é, empreguemos uma técnica de amostragem ocasional. O que resulta de uma prova será um elemento do universo. Portanto este poderá ser considerado como sendo constituído pelas 10 bolas. Indiquemos por B o atributo “branco” e por V o atributo “vermelho”. A probabilidade de branco será P (B) = 5 1 = . 10 2 Alteremos agora a técnica de amostragem. A nova técnica será a seguinte. Retiramos ao acaso uma bola. Se não for branca, devolvemos à urna e repetimos a operação até que saia uma bola branca. Temos agora um elemento da amostra. Repetimos a técnica de amostragem até ter uma grande amostra com 100 elementos. Qual será a freqüência na amostra dos atributos “branco” e “vermelho”? Obviamente teremos f (B) = 1 e f (V ) = 0, bem diferentes das freqüências respectivas no universo que são fu (B) = 0.5 e fu (V ) = 0.5. Portanto esta nova técnica de amostragem não é ocasional. Qual a função de probabilidade P apropriada neste caso? A freqüencia de uma particular bola branca bi na amostra será aproximadamente f (bi ) ≈ 1 5 e a freqüência de uma bola vermelha vj será f (vj ) = 0. Portanto uma boa escolha de P será aquela determinada por 1 P (bi ) = , 5 i = 1, 2, 3, 4, 5, e P (vj ) = 0, j = 1, 2, 3, 4, 5. 5 i=1 P (bi ) + j=1 P (vj ) = 1, os axiomas de probabilidades ficam 5 Como satisfeitos. 2.6. CONSIDERAÇÕES PRÁTICAS 23 Exercício 2.29 Explique porquê, na segunda técnica de amostragem do exemplo anterior, temos 1 f (bi ) ≈ . 5 2.6 Considerações Práticas Como devemos atacar um problema sôbre probabilidades? É claro que para podermos usar os resultados teóricos precisamos conhecer o universo U e a função probabilidade P . Pelo enunciado do problema nem sempre é óbvio qual é o universo que devemos adotar, principalmente quando a técnica de amostragem é de alguma complexidade. Conheceremos o universo se soubermos reconhecer seus elementos. O que é que se obtém numa prova, isto é, numa aplicação da técnica de amostragem? Ora, é exatamente um elemento do universo. Então olhamos para o que temos em mãos após a execução da técnica de amostragem. O universo U será o conjunto dos elementos dêsse tipo. Quando termina a descrição da técnica de amostragem? Como a técnica de amostragem determina a probabilidade P que é apropriada para o problema, logo que alguma pergunta é feita referente a probabilidades, a técnica de amostragem já deverá ter sido descrita. Estas considerações serão ilustradas nos exemplos que serão apresentados. 2.7 Exemplos Exemplo 2.30 Sabendo-se que a probabilidade de ruptura de um elo, de uma corrente com tres elos, vale 1/3, qual a probabilidade de ruptura da corrente? Solução a) Fixemos, inicialmente, para melhor compreensão do problema uma possível técnica de amostragem compatível com o enuciado acima. Consideremos, por exemplo, que uma corrente de tres elos seja separada da produção segundo um critério determinado e ensaiada da seguinte maneira: suspende-se a corrente e aplica-se no elo inferior uma carga P durante um certo tempo t. 24 CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I b) Ao aplicarmos a técnica de amostragem, efetuamos uma prova, isto é, retiramos um elemento do Universo. Ora, que resulta da nossa técnica de amostragem que nos interesse? A resposta é simples: uma combinação de elos rompidos e não rompidos. Portanto o conjunto das possíveis combinações de rupturas e não rupturas dos elos da corrente, em número de 23 = 8, associado à ténica de amostragem descrita no item a) constituirá o Universo a ser considerado. c) O passo seguinte será exprimir o evento X cuja probabilidade nos interessa (ruptura da corrente) em função dos eventos Ri de probabilidades conhecidas (rupturas dos elos). Teremos X = R1 + R2 + R3 pois rompe-se a corrente quando se rompe algum elo: P (X) = P (R1 + R2 + R3 ) = P (R1 ) + P (R2) + P (R3 ) − P (R1 R2 ) − P (R2 R3 ) − P (R1 R3 ) + P (R1R2 R3 ). Supondo-se que as rupturas dos diversos elos ocorrem independentemente entre si, teremos P (X) = P (R1 ) + P (R2 ) + P (R3 ) − −P (R1 ) P (R2 ) − P (R2 ) P (R3) − P (R1 ) P (R3) + P (R1 ) P (R2 ) P (R3 ) = = 1/3 + 1/3 + 1/3 − 1/9 − 1/9 − 1/9 + 1/27 = 19/27. Uma solução mais simples seria P (X) = 1 − P X = 1 − P R1 + R2 + R3 = 1 − P R1 R2R3 = 1 − P R1 P R2 P R3 = 1 − 2/3 · 2/3 · 2/3 = 19/27. Observação 2.31 Como poderia ser obtida a informação sôbre a probabilidade de ruptura de um elo, caso não fosse este dado fornecido pelo enunciado? O caminho a seguir seria constituir-se uma amostra pela realização de n ensaios utilizando-se n correntes de tres elos, segundo a técnica de amostragem escolhida, e calcular-se as frequências de ruptura dos elos superior, médio e inferior. Essas frequências seriam então as probabilidades a serem adotadas. Se correta a informação contida no enunciado, obteriamos para esses tres valores, aproximadamente 1/3. A hipótese de independência utilisada na 2.7. EXEMPLOS 25 solução, poderia também ser testada nessa amostra calculando-se as frequências condicionadas fR1 (R2 ) , fR1 (R3) , fR2 (R3) , fR1 R2 (R3) , e verificando se fR1 (R2 ) ≈ f (R2 ) , fR1 (R3 ) ≈ f (R3 ), fR2 (R3 ) ≈ f (R3 ) , fR1 R2 (R3 ) ≈ f (R3 ) . Quanto maior a amostra, tanto maior a confiança com que concluiremos sobre os diversos quesitos. O valor obtido na solução do problema, P (X) = 19/27, será considerado na prática, como uma frequência ideal de ruptura, isto é, como uma antecipação da frequência de ruptura numa amostra qualquer. Exemplo 2.32 A probabilidade de um canhão à uma distância d do alvo acertar um tiro é 50%. À que distância deve ser colocada uma bateria de 4 canhões para que a probabilidade de cairem duas balas no alvo ao atirarem os 4 canhões seja 3/32. Sabe-se que a probabilidade de um tiro atingir o alvo é inversamente proporcional ao quadrado da distância. Solução O resultado da aplicação da técnica de amostragem (atirarem os quatro canhões) será uma possível combinação de acertos e erros (elemento do Universo). Indicando por Ai o evento “canhão i acertar o alvo” ”, o evento “acertar duas balas no alvo” que indicaremos por X, será expresso por A = A1A2 A3 A4+A1 A2 A3 A4+A1 A2 A3 A4+A1 A2 A3 A4+A1 A2 A3A4 +A1 A2 A3A4 . Considerando agora os símbolos X e Ai como representações dos subconjuntos do Universo determinados pelos eventos correspondentes, podemos escrever P (X) = P A1A2 A3 A4 + P A1 A2 A3A4 + P A1A2 A3 A4 + +P A1A2 A3 A4 + P A1 A2 A3A4 + P A1 A2A3 A4 . Supondo-se independência entre os tiros teremos P (X) = 6P (A1) P (A2) P A3 P A4 . 26 CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I Chamando P (Ai ) = p e substituindo P (X) = 3/32 ficamos com 3 = 6p2 (1 − p)2 32 ou p2 − p ± cujas soluções são p1 p2 p3 p4 = = = = Calculemos a distância x. Para p = p3 temos e para p = p4 √ 2+ 6 4√ 2− 6 4√ 2+ 2 4√ 2− 2 4 1 =0 8 > 1 não serve, < 0 não serve, aceitável, aceitável. p d2 = 2. 0, 5 x √ 2d x= √ 2+ 2 √ 2d √ . 2− 2 x= Exemplo 2.33 Numa fábrica, tres máquinas produzem lâmpadas segundo a tabela: % de defeituosos na produção de cada máquina Máquina % da produção total A B C 20 55 25 3 5 4 Qual a probabilidade de uma lâmpada tomada ao acaso e verificada defeituosa ter sido fabricada pela máquina B? Solução Indiquemos por A o evento “ocorrência de uma lâmpada fabricada pela máquina A”. Analogamente para B e C. Indiquemos por D o evento “ocorrência de uma lâmpada defeituosa”. 2.7. EXEMPLOS 27 O enunciado pede PD (B). Pela definição de probabilidade condicionada PD (B) = P (BD) P (B) PB (D) = . P (D) P (D) P (D) não é conhecida, mas pode ser determinada efetuando-se a decomposição D = (A + B + C) D = AD + BD + CD. Como AD, BD, CD, são incompatíveis, P (D) = P (A) PA (D) + P (B) PB (D) + P (C) PC (D) donde P (B) PB (D) . P (A) PA (D) + P (B) PB (D) + P (C) PC (D) Tomando-se as frequências tabeladas como estimativas das probabilidades respectivas, teremos uma estimativa de PD (B) PD (B) = PD (B) ≈ ou 0, 55 × 0, 05 = 0, 1264 0, 20 × 0, 03 + 0, 55 × 0, 05 + 0, 25 × 0, 04 PD (B) ≈ 12, 64 % Exemplo 2.34 Numa linha de produção uma unidade bruta é processada em série por tres máquinas e entra numa linha de inspecção onde um operário separa os defeituosos. A segunda e terceira máquinas possuem dispositivos automáticos que rejeitam unidades semiacabadas defeituosas. Sabendo-se que a probabilidade de não rejeição pelos dispositivos automáticos é 2p quando a unidade ja foi processada defeituosamente uma vez e p quando duas vezes e ainda que as probabilidades de processamento defeituoso valem respectivamente q, 2q, 3q, conforme ja tiver havido 0, 1, 2, processamentos defeituosos, pergunta-se qual a probabilidade de uma unidade que chega à linha de inspecção ser rejeitada. Mostrar que no caso particular em que os mecanismos de rejeição funcionem perfeitamente (p = 0), a solução será como era de se esperar igual a q. Solução Numerando-se as operações segundo a ordem em que são realizadas, o Universo a ser considerado será constituido pelas possíveis combinações de processamentos defeituosos ou não defeituosos nas operações 1, 3 e 5, com rejeições ou não rejeições nas operações 2 e 4. 28 CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I Indiquemos por Di , (i = 1, 3, 5), os eventos “ocorrência de processamento defeituoso na operação i ” e por Fj , (j = 2, 4), os eventos “ocorrência de não rejeição na operação j ”. A probabilidade pedida é a probabilidade associada à ocorrência de algum processamento defeituoso, condicionada à não rejeição nas operações 2 e 4, isto é, P ((D1 + D3 + D5 ) F2F4 ) PF2 F4 (D1 + D3 + D5 ) = . P (F2 F4) Calculemos o numerador. Podemos escrever D1 + D3 + D5 = D1 D3 D5 + D1 D3 D5 + D1 D3 D5+ +D1 D3D5 + D1D3 D5 + D1 D3 D5 + D1 D3 D5 . Portanto P ((D1 + D3 + D5) F2 F4 ) = P (D1F2 D3 F4 D5) + +P D1F2 D3 F4 D5 + P D1 F2 D3 F4 D5 + P D1 F2 D3 F4D5 + +P D1F2 D3 F4D5 + P D1F2 D3 F4D5 + P D1F2 D3 F4D5 . Exemplo do cálculo de uma das parcelas P (D1 F2D3 F4 D5 ) = P (D1) PD1 (F2 ) PD1 F2 (D3 ) PD1 F2 D3 (F4) PD1 F2 D3 F4 (D5) = = q × 2p × 2q × p × 3q = 12p2 q3 . Efetuando todos os cálculos e simplificando obtemos P ((D1 + D3 + D5 ) F2F4 ) = 4q (1 − q) p2 + 2q (1 − q) p + q (1 − q)2 Calculemos o denominador F2 F4 = (D1 + D3 + D5) F2 F4 + (D1 + D3 + D5 )F2 F4 = = (D1 + D3 + D5 ) F2F4 + D1D3 D5 F2 F4 P (F2F4 ) = P ((D1 + D3 + D5 ) F2 F4) + P D1F2 D3 F4 D5 A primeira parcela ja foi calculada. A segunda vale P D1 F2 D3 F4 D5 = P D1 PD1 (F2) PD1 F2 D3 PD1 F2 D3 (F4 ) PD1 F2 D3 F4 P D5 = 2.7. EXEMPLOS 29 = (1 − q) × 1 × (1 − q) × 1 × (1 − q) = (1 − q)3 . Finalmente 4q (1 − q) p2 + 2q (1 − q) p + q (1 − q)2 PF2 F4 (D1 + D3 + D5) = 2 3. 4q (1 − q) p2 + 2q (1 − q) p + q (1 − q) + (1 − q) Simplificando PF2 F4 (D1 + D3 + D5 ) = 4qp2 + 2qp + q (1 − q) . 4qp2 + 2qp + (1 − q) Fazendo p = 0 obtemos como era de se esperar PF2 F4 (D1 + D3 + D5) = q. Exemplo 2.35 Duas urnas contém bolas brancas e pretas. A primeira contém a bolas brancas e b bolas pretas. A segunda contém a bolas pretas e b brancas. Uma série de extrações ao acaso são feitas de acordo com as seguintes regras: • Em cada extração apenas uma bola é retirada e imediatamente devolvida à mesma urna. • Se a bola retirada resultar branca a extração seguinte é feita da primeira urna. Se preta, da segunda. • A primeira extração é feita da primeira urna. Qual a probabilidade que a bola retirada na extração n seja branca? Solução Como a probabilidade de se retirar uma bola branca numa extração depende do que possa ter ocorrido na anterior, chamando Bi o evento “ocorrência de bola branca na extração i ” consideremos a relação Bn+1 = Bn + B n Bn+1 = Bn Bn+1 + B n Bn+1 donde P (Bn+1 ) = P Bn Bn+1 + B n Bn+1 = P (Bn Bn+1 ) + P B n Bn+1 = 30 CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I = P (Bn ) PBn (Bn+1 ) + P B n PB n (Bn+1) . Pelas hipóteses P (Bn+1) = P (Bn ) b a + P Bn = a+b a+b a b + (1 − P (Bn )) . a+b a+b Chamando P (Bi ) = pi temos P (Bn ) pn+1 = b a−b pn + . a+b a+b Esta é uma equação de diferenças com condição inicial p1 = a . a+b A solução da equação é 1 pn = 2 a−b a+b n + 1 2 como se pode verificar por substituição na equação de diferenças. Logo 1 a−b n 1 P (Bn ) = + . 2 a+b 2 Capítulo 3 Variáveis Aleatórias Neste capítulo consideraremos apenas universos U enumeráveis, dotados de uma função de probabilidade P . Uma variável aleatória, neste contexto, nada mais é que uma função real x : U → R, definida sôbre U. Quando formos estudar o caso de universos não enumeráveis, teremos que restringir essa definição. Por meio da variável aleatória x, podemos caracterizar atributos de U de forma quantitativa, como, por exemplo, A = {e ∈ U : x (e) = 5} , ou B = {e ∈ U : 2, 3 ≤ x (e) < 5, 1} . Como U é enumerável, o conjunto dos valores possíveis que x (e) pode assumir, isto é, a imagem x (U), de U por x, é também enumerável. Usaremos as notações x (U) = {x1, x2 , . . .} ⊂ R, Xi = {e ∈ U : x (e) = xi }. Pela definição dos Xi é claro que Xi = U, e que Xi Xj = ∅, para i = j, isto é, os subconjuntos Xi formam uma partição de U . Denotaremos o valor x (e) também por xe . 31 32 3.1 CAPÍTULO 3. VARIÁVEIS ALEATÓRIAS Esperança Matemática Definição 3.1 Enumeremos os elementos de U: e1, e2, . . . es , . . . Definimos esperança matemática da variável aleatória x, que denotaremos por µ (x), por µ (x) = n x (es ) P (es ) , se U é finito, (3.1) s=1 e caso contrário, por meio da série µ (x) = ∞ x (es ) P (es ) , (3.2) s=1 desde que a série seja absolutamente convergente. Caso a série não seja absolutamente convergente, x não admite esperança matemática. Observação 3.2 Uma série é dita absolutamente convergente, se a série dos valores absolutos dos termos, converge. A convergência absoluta implica a existência de µ (x), isto é, do limite µ (x) = lim n→∞ n x (es ) P (es ) , s=1 finito e independente da particular enumeração de U. Observação 3.3 Agrupando-se nas expressões em 3.1 e 3.2, os termos x (es ) P (es ) para os quais x (es ) = xi , e evidenciando-se os valores xi obtemos m µ (x) = xi P (Xi ) , se x (U) é finito, i=1 ou caso contrário, µ (x) = ∞ i=1 xi P (Xi ) . 3.1. ESPERANÇA MATEMÁTICA 3.1.1 33 Interpretação Estatística da Esperança Matemática Seja U um universo enumerável, E uma amostra obtida com uma particular técnica de amostragem, P uma função probabilidade adaptada a esta técnica de amostragem e x : U → R uma variável aleatória que admite esperança matemática. Sabemos que se a amostra E é suficientemente grande, temos P (Xi ) ≈ f (Xi ) , onde f (Xi ) é a freqüência de Xi calculada na amostra. Teremos então, xi P (Xi ) ≈ xi f (Xi ) = x, µ (x) = i i onde x ∈ R é a média dos valores de x obtidos na amostra. Como a amostra é finita, teremos f (Xi ) = 0 apenas para um número finito de índices. Concluindo, a média dos valores de x numa amostra grande é uma estimativa de µ (x) e, pela estabilidade das freqüências, µ (x) pode ser considerada uma previsão da média em amostras grandes. Seja n o número de elementos da amostra e z1 , z2, . . . zn os valores, distintos ou não, da variável aleatória x, obtidos na amostra. Então a média x se exprime como: n j=1 zj x= n 3.1.2 Propriedades da Esperança Matemática Definição 3.4 Sejam x : U → R, e y : U → R, variáveis aleatórias, e k ∈ R uma constante. Indicaremos por k + x, x + y, kx e xy, novas variáveis aleatórias definidas por (k + x) (e) = k + x (e) , (x + y) (e) = x (e) + y (e) (kx) (e) = kx (e) , (xy) (e) = x (e) y (e) Proposição 3.5 Sejam x, y, variáveis aleatórias que admitem esperança matemática, e k1 , k2 ∈ R, constantes. Então µ (k1 x + k2 y) = k1 µ (x) + k2µ (y) . 34 CAPÍTULO 3. VARIÁVEIS ALEATÓRIAS Prova. Suponhamos o universo finito com n elementos, U = {e1 , e2 , . . . en }. µ (k1x + k2 y) = n (k1 x + k2 y) (es ) P (es ) = s=1 = n [k1x (es ) + k2y (es )] P (es ) = k1 s=1 n x (es ) P (es ) + k2 s=1 n y (es ) P (es ) = s=1 = k1 µ (x) + k2µ (y) . ∞Se U for infinito enumerável, basta substituir na demonstração . n por Definição 3.6 Dizemos que duas variáveis aleatórias x e y são independentes, se as partiçoes {Xi } e {Yj } de U determinadas por x e y forem independentes, isto é, se Xi e Yj forem independentes para ∀i, j. Proposição 3.7 Se x, y são variáveis aleatórias independentes que admitem esperança matemática, então µ (xy) = µ (x) µ (y) . Prova. Suponhamos o universo finito com n elementos, U = {e1 , e2 , . . . en }. µ (xy) = n (xy) (es ) P (es ) = s=1 n x (es ) y (es ) P (es ) . s=1 Agrupando-se os valores x (es ) y (es ) P (es ) para os quais e y (es ) = yj , x (es ) = xi e evidenciando-se os produtos xi yj obtemos µ (xy) = xi yj P (Xi Yj ) . i,j Devido à independência P (Xi Yj ) = P (Xi ) P (Yj ) , 3.2. VARIANÇA 35 donde µ (xy) = xi P (Xi ) i yj P (Yj ) = µ (x) µ (y) . j ∞Se U for infinito enumerável, basta substituir na demonstração . 3.2 n por Variança Definição 3.8 Definimos variança da variável aleatória x, que denotaremos por σ 2 (x), por σ2 (x) = µ [x − µ (x)]2 , se existir. Chamando x − µ (x) de desvio a expressão acima é lida: a variança é a esperança matemática do quadrado do desvio. O valor σ (x) ≥ 0 é chamado desvio padrão. Observação 3.9 Enumeremos os elementos de U: e1 , e2 , . . . es , . . . Da definição obtemos as seguintes expressões para σ2 (x), 2 σ (x) = n s=1 e 2 σ (x) = ∞ s=1 [x (es ) − µ (x)]2 P (es ) , [x (es ) − µ (x)]2 P (es ) , se U é finito, (3.3) se U é infinito. (3.4) Agrupando-se nas expressões em 3.3 e 3.4, os termos [x (es ) − µ (x)]2 P (es ) para os quais x (es ) = xi , e evidenciando-se os valores [xi − µ (x)]2 obtemos 2 σ (x) = m i=1 [xi − µ (x)]2 P (Xi ) , se x (U ) é finito, ou caso contrário, σ 2 (x) = ∞ i=1 [xi − µ (x)]2 P (Xi ) . 36 CAPÍTULO 3. VARIÁVEIS ALEATÓRIAS 3.2.1 Interpretação Estatística da Variança Seja U um universo enumerável, E uma amostra obtida com uma particular técnica de amostragem, P uma função probabilidade adaptada a esta técnica de amostragem e x : U → R uma variável aleatória que admite esperança matemática e variança. Sabemos que se a amostra E é suficientemente grande, temos P (Xi ) ≈ f (Xi ) , onde f (Xi ) é a freqüência de Xi calculada na amostra. Teremos então, σ 2 (x) = [xi − µ (x)]2 P (Xi ) ≈ [xi − µ (x)]2 f (Xi ) = s20, i i onde s20 ∈ R é uma medida da dispersão dos valores de x obtidos na amostra. Como a amostra é finita, teremos f (Xi ) = 0 apenas para um número finito de índices. Um inconveniente de s20 é que seu emprego exige o conhecimento de µ (x). Mais adiante introduziremos a estimativa s2 para σ2 (x), que usa a média x em lugar da esperança matemática µ (x). Seja n o número de elementos da amostra e z1 , z2, . . . zn os valores, distintos ou não, da variável aleatória x, obtidos na amostra. Então s20 se exprime como: s20 = n j=1 2 [zj − µ (x)] n A notação s20 foi empregada em [VAN DER WAERDEN, parágrafo 18]. 3.2.2 Propriedades da Variança Proposição 3.10 Sejam x, y, variáveis aleatórias independentes que admitem esperança matemática e variança, e sejam k1 , k2 ∈ R, constantes. Então σ2 (k1 x ± k2 y) = k12σ 2 (x) + k22σ 2 (y) . Prova. Indiquemos, para aliviar a escritura, µ (x) por µ1 , e µ (y) por µ2 . Calculemos: σ2 (k1x ± k2 y) = µ [k1 x ± k2y−µ (k1 x ± k2 y)]2 = 3.2. VARIANÇA 37 = µ [k1x ± k2 y− (k1µ1 ± k2µ2)]2 = = µ [k1 (x−µ1 ) ± k2 (y−µ2)]2 = = µ k12 (x−µ1 )2 + k22 (y−µ2 )2 ± 2k1 k2 (x−µ1) (y−µ2 ) = = k12µ [x−µ1 ]2 + k22 µ [y−µ2 ]2 ± 2k1k2 µ ([x−µ1 ] [y−µ2 ]) . Porém µ ([x−µ1 ] [y−µ2 ]) = µ (xy − µ1y−µ2 x+µ1 µ2 ) = = µ (xy) − µ1µ2 − µ2µ1 + µ1 µ2 = = µ (xy) − µ (x) µ (y) . Como x e y são independentes, resulta µ (xy) − µ (x) µ (y) = 0. Portanto σ2 (k1 x ± k2 y) = k12σ 2 (x) + k22σ 2 (y) . Proposição 3.11 Seja x uma variável aleatória com µ (x) = µ e σ2 (x) = σ 2. 2 Então µ (x) = µ, µ (s20 ) = σ 2 e σ2 (x) = σn . Prova. n n 1 1 j=1 zj = µ (zj ) = n µ = µ. µ (x) = µ n n j=1 n µ s20 = µ n j=1 (zj − µ (x))2 n Como os zj são independentes n 2 σ (x) = σ 2 j=1 n zj n 1 1 = µ (zj − µ (x))2 = nσ 2 = σ 2. n j=1 n n 1 2 1 σ2 2 = 2 σ (zj ) = 2 n σ = . n j=1 n n Observação 3.12 Os resultados µ (x) = µ e µ (s20 ) = σ2 dizem que as estimativas x da esperança matematica µ e s2 da variança são justas. Uma estimativa é justa quando a esperança matemática da estimativa é igual ao parâmetro estimado. 38 CAPÍTULO 3. VARIÁVEIS ALEATÓRIAS Proposição 3.13 Seja x uma variável aleatória e z1, z2 , . . . , zn os valores obtidos numa amostra de n elementos. Então s2 definido por n 2 j=1 (zj − x) 2 s = n−1 é uma estimativa justa da variança σ 2 (x) = σ2 , isto é, µ (s2 ) = σ 2. Prova. n j=1 = n j=1 = n j=1 Mas n j=1 Portanto (zj − x) = j=1 2 (zj − µ + µ − x)2 = (zj − µ) − 2 (x − µ) (zj − µ) = n n j=1 n j=1 (zj − µ) + n (x − µ)2 . (zj ) − nµ = nx − nµ = n (x − µ) . (zj − x)2 = µ s2 = = n (zj − µ)2 + 2 (zj − µ) (µ − x) + (µ − x)2 = j=1 Finalmente 2 n j=1 (zj − µ)2 − n (x − µ)2 . n 1 µ (zj − µ)2 − n (x − µ)2 = n−1 j=1 1 1 2 n µ s20 − n µ (x − µ (x))2 = nσ − n σ 2 (x) = n−1 n−1 1 σ2 = nσ2 − n = σ2 . n−1 n Observação 3.14 1, 2, . . . , m, temos Em termos dos valores distintos na amostra xi i = m n s = (xi − x)2 f (Xi ) n − 1 i=1 2 onde Xi é o evento ocorrência do valor xi na amostra. 3.3. DESIGUALDADE DE CHEBICHEV 3.3 39 Desigualdade de Chebichev Seja x uma variável aleatória com esperança matemática µ (x) = µ e variança σ 2 (x) = σ2 . Introduzamos a nova variável aleatória x−µ t= . σ Caculemos a esperança matemática e a variança da nova variável. x−µ µ (x) − µ = 0, µ (t) = µ = σ σ x−µ σ 2 (x) 2 2 σ (t) = σ = 1. = σ σ2 A variável t pode assumir os valores ti = xi − µ . σ Indiquemos por Ti ⊂ U o subconjunto Ti = {e ∈ U : t (e) = ti } , e por ξ um número real ξ ≥ 1. Podemos agora esvrever 2 1 = σ 2 (t) = µ t2 = ti P (Ti ) ≥ t2i P (Ti ) ≥ i ≥ isto é, |ti |≥ξ ξ 2 P (Ti ) = ξ 2 |ti |≥ξ |ti |≥ξ P (Ti ) = ξ 2P {e ∈ U : |t (e)| ≥ ξ} , 1 . ξ2 P {e ∈ U : |t (e)| ≥ ξ} ≤ Retornando à variável original, temos |x (e) − µ| 1 P e∈U : ≥ ξ ≤ 2. σ ξ Temos então a desigualdade de Chebichev P {|x (e) − µ| ≥ ξσ} ≤ 1 , ξ2 40 CAPÍTULO 3. VARIÁVEIS ALEATÓRIAS que diz: a probabilidade de ocorrer um valor de x que dista da esperança matemática µ não menos que ξ vezes o desvio padrão σ, é menor ou igual a 1/ξ 2 . Observação 3.15 A desigualdade de Chebichev extrai dos parâmetros µ e σ, informações neles contidas sôbre P . 3.4 Distribuições de Probabilidade Seja U um universo enumerável, P : PU → R uma função probabilidade e x : U → R uma variável aleatória. Seja x (U) = {x1 , x2, . . .} e Xi = {e ∈ U : x (e) = xi } , i = 1, 2, . . . A função p : x (U) → R definida por p (xi ) = P (Xi ) , i = 1, 2, . . . é chamada distribuição de probabilidade da variável alatória x. Pela definição é evidente que p satisfaz as propriedades p (xi ) ≥ 0, ∀i e p (xi ) = 1. i A esperança matemática e a variança de x se escrevem em termos de p como µ (x) = xi p (xi ) e σ2 = (xi − µ (x))2 p (xi ) . i i Observação 3.16 Uma distribuição de probabilidade p costuma ser representada num gráfico cartesiano, marcando-se no eixo dos x as abcissas xi e levantando-se segmentos verticais por essas marcas, cujos comprimentos valem p (xi ). 3.5 Exemplos Exemplo 3.17 Qual a porcentagem esperada de ganho, de um banqueiro, sôbre as apostas na roleta? Solução 3.5. EXEMPLOS 41 Os números na roleta variam de 0 a 36 e o zero está excluído das apostas. O nosso Universo será U = {e ∈ N : 0 ≤ e ≤ 36} . Consideremos a aposta de uma ficha. Para cada modalidade de jogo (aposta num número, no vermelho ou no preto, no grande ou no pequeno, na primeira, segunda ou terceira duzia, etc) o ganho do banqueiro numa aposta de uma ficha será uma função x do número sorteado x:U →R Supondo-se uma roleta não viciada (amostragem ocasional), as probabilidades de cada número serão iguais a 1/37. Portanto a função x será uma variável aleatória. Para cada modalidade de jogo, essa função é definida pelo cassino de forma a garantir o seu lucro. Por exemplo, na aposta no número e = 10, a função x é definida por x (e) = 1 se e = 10 e x (e) = −35 se e = 10. Calculemos a esperança matemática de x. µ (x) = x (e) P ({e}) = 36 e=0 e∈U x (e) 1 1 1 = (36 × 1 + 1 × (−35)) = . 37 37 37 Pela interpretação da esperança matemática, podemos dizer que o banqueiro ganhará em media, num grande número de apostas de uma ficha, 37 avos de ficha por aposta. Como ja vimos o cálculo da esperança matemática pode ser feito de uma maneira alternativa. O conjunto dos valores que a função x pode assumir é x (U) = {x1 , x2} = {1, −35} . As probabilidades de X1 = {e : x (e) = 1} e X2 = {e : x (e) = −35} valem respectivamente P (X1) = 36/37 e P (X2 ) = 1/37. Então µ (x) = 2 i=1 xi P (Xi ) = 1 × 1 1 36 − 35 × = . 37 37 37 O resultado seria o mesmo para aposta em qualquer outro número no intervalo 1 ≤ e ≤ 36. 42 CAPÍTULO 3. VARIÁVEIS ALEATÓRIAS Para todas as modalidades de jogo, a definição de x é tal que o resultado é sempre 1/37. Por exemplo, no jogo na primeira dúzia, a definição de x é x (e) = 1 se 13 ≤ e ≤ 36 ou e = 0 Resulta x (e) = −2 se 1 ≤ e ≤ 12. 25 12 1 −2× = . 37 37 37 Como pode-se mostrar, o resultado se mantém com qualquer número de jogadores, jogando em quaisquer das modalidades, quantias quaisquer. Portanto a porcentagem esperada de ganho do banqueiro é de 100 = 2, 7027% . . .. 37 µ (x) = 1 × Exemplo 3.18 Conhecidas as probabilidades pi , i = 0, 1, 3, . . ., de realizar i vendas de um certo artigo num certo período de tempo, quer-se calcular o número de unidades n que se deve ter em estoque para uma operação o mais económica possível, sabendo-se que • ganho por unidade vendida no período = G, • prejuizo por unidade não vendida no período = L. Solução Consideremos o Universo U = {0, 1, 2, 3, . . .} cujos elementos são os números de venda no período e a função de probabilidade P : PU→R conhecida através das informações P ({i}) = pi . O lucro y(n) (i) apurado num período para i vendas é calculado por y(n) (i) = Gi − L (n − i) , se i < n, e Introduzamos a nova variável aleatória x(n) x(n) (i) = i, se i < n, e y(n) (i) = Gn, se i ≥ n. definida por x(n) (i) = n, se i ≥ n. Podemos então exprimir a variável aleatória y(n) em funcão de x(n) y(n) = Gx(n) − L n − x(n) . A esperança matematica do ganho com n unidades em estoque será µ y(n) = Gµ x(n) − L n − µ x(n) = 3.5. EXEMPLOS 43 = (G + L) µ x(n) − Ln. Para descobrirmos o valor de n que maximiza µ y(n) , uma estratégia é procurar o primeiro valor de n tal que ∆µ y(n) = µ y(n+1) − µ y(n) ≤ 0. Calculemos ∆µ y(n) ∆µ y(n) = (G + L) ∆µ x(n) − L = = (G + L) µ ∆x(n) − L. De ∆x(n) (i) = x(n+1) (i) − x(n) (i) obtemos ∆x(n) (i) = 0, Então se i ≤ n, ∆x(n) (i) = 1, e ∞ n µ ∆x(n) = pi = 1 − pi i=n+1 Por substituição ∆µ y ou (n) = (G + L) i=0 1− n pi i=0 −L n (n) ∆µ y = G − (G + L) pi . i=0 Agora fica fácil determinar o valor ótimo de n. se i > n. Capítulo 4 Distribuições Binomial e de Poisson 4.1 Distribuição Binomial Seja p ∈ R, tal que 0 ≤ p ≤ 1, e q = 1 − p. Seja n ∈ N. Desenvolvendo (p + q)n obtemos n n x n−x n 1 = (p + q) = p q . x x=0 (4.1) Seja U = {0, 1, 2, . . . n} ⊂ R, e definamos pn : U → R por n x n−x pn (x) = p q . x De nx px qn−x ≥ 0, e de 4.1, vemos que pn pode ser considerada uma distribuição de probabilidade de uma variável aleatória x : U → R, definida por x (x) = x, x = 0, 1, . . . n. É chamada distribuição binomial ou distribuição de Bernoulli. A função de probabilidade P : PU → R será então calculada por P (X) = pn (x) , ∀X ⊂ U. x∈X A esperança matemática e a variança da distribuição, valem µ = np, 44 4.1. DISTRIBUIÇÃO BINOMIAL 45 e σ 2 = npq. No exemplo a seguir, veremos como a distribuição binomial aparece naturalmente num importante problema, e aproveitaremos para calcular µ e σ2 . Exemplo 4.1 Enunciemos o problema. Aplicamos uma determinada técnica de amostragem n vezes, e de cada vez classificamos o resultado como sucesso que indicaremos com a letra a ou fracasso que indicaremos com a letra b. A pergunta é: qual a probabilidade de x sucessos nas n provas? Solução Sigamos os conselhos emitidos em 2.6. A técnica de amostragem deve estar totalmente descrita quando a pergunta é feita. O que temos nesse momento? A resposta é: uma seqüência de sucessos e fracassos, ou sinteticamente uma seqüencia de a’s e b’s num total de n. Portanto o universo U será o conjunto das seqüências e1 e2 . . . en onde cada ei pode ser a ou b. É um conjunto finito com 2n elementos. O evento cuja probabilidade se pede é a ocorrência do atributo número x de a’s, isto é, do subconjunto Bx = {e1 e2 . . . en ∈ U : número de a’s = x} . Seja Ai ⊂ U definido por Ai = {e1 e2 . . . en ∈ U : ei = a} , isto é, definido pelo atributo sucesso na prova i. Podemos exprimir Bx em termos dos Ai e dos Ai , Bx = A1A2 · · · Ax Ax+1 Ax+2 · · · An + · · · , onde no segundo membro devemos incluir como termos da soma todas as combinações que contenham x fatores Ai e n − 1 fatores Aj . Como os termos são disjuntos entre si, teremos P (Bx ) = P A1 A2 · · · AxAx+1 Ax+2 · · · An + · · · , isto é, P (Bx ) é igual a soma das probabilidades dos termos. 46 CAPÍTULO 4. DISTRIBUIÇÕES BINOMIAL E DE POISSON Pela técnica de amostragem sabemos que os Ai , i = 1, 2, . . . n, são independentes entre si, e tem igual probabilidade que chamaremos de p. Portanto a n−x probabilidade de cada parcela será px (1 − p) . Como o número de parcelas n é igual ao número de combinações dos A1, A2 , . . .,An tomados x a x, que vale x , teremos n x P (Bx ) = p (1 − p)n−x . x Chamando 1 − p = q, temos finalmente, n x n−x Pn (x) = P (Bx ) = p q . x Calculemos a esperança matemática e a variança da variável aleatória x : U → R, definida por x (e1e2 . . . en ) = x = número de a’s entre os ei . Indiquemos por zi : U → R, a variável aleatória definida por 1 se ei = a, zi (e1 e2 . . . en ) = 0 se ei = a. Temos então x = z1 +z2 + · · · + zn . Como as variáveis aleatórias zi são independentes entre si, podemos escrever e µ (x) = µ (z1 ) + µ (z2) + · · · + µ (zn ) , σ 2 (x) = σ2 (z1 ) + σ 2 (z2) + · · · + σ2 (zn ) . Como os zi assumem os valores 1 ou 0 com probabilidades respectivamente p e q obtemos µ (zi ) = 1 × p + 0 × q = p, e σ 2 (zi ) = (1 − p)2 p + (0 − p)2 q = = q2 p + p2 q = pq (q + p) = pq. 4.2. DISTRIBUIÇÃO DE POISSON 47 Portanto µ (x) = np e σ2 (x) = npq. Mas µ (x) = n xP (Bx ) = x=0 e σ2 (x) = n x=0 n xpn (x) = µ, x=0 [x − µ (x)]2 P (Bx ) = n x=0 [x − µ]2 pn (x) = σ 2. Portanto, a esperança matemática e a variança da distribuição binomial valem µ = np e σ2 = npq. 4.2 Distribuição de Poisson Desenvolvendo eµ em série temos µ2 µ3 + + ··· 2! 3! Seja U = {0, 1, 2, 3, . . .} ⊂ R, e µ > 0. Definamos p∞ : U → R por eµ = 1 + µ + p∞ (x) = (4.2) e−µ µx . x! −µ x De e x!µ ≥ 0, e de 4.2, vemos que p∞ pode ser considerada uma distribuição de probabilidade de uma variável aleatória x : U → R, definida por x (x) = x, x = 0, 1, 2, . . . É chamada distribuição de Poisson. A função de probabilidade P : PU → R será então calculada por P (X) = p∞ (x) , ∀X ⊂ U. x∈X A esperança matemática e a variança da distribuição, valem µ = µ, e σ2 = µ. Observemos que o parâmetro µ que comparece na definição da distribuição é a própria esperança matemática desta, e que o valor da variança coincide com o da esperança matemática. 48 CAPÍTULO 4. DISTRIBUIÇÕES BINOMIAL E DE POISSON 4.2.1 Esperança e variança da distribuição de Poisson Calculemos a esperança matemática. ∞ ∞ ∞ e−µ µx e−µ µx e−µ µx x = x = = x! x! (x − 1)! x=1 x=1 x=0 ∞ µ2 µ3 µ(x−1) −µ = µe 1+µ+ + + ··· = (x − 1)! 2! 3! x=1 −µ = µe = µe−µ eµ = µ. Calculemos a variança. σ2 = ∞ x=0 = [x − µ]2 ∞ x=0 ∞ e−µ µx e−µ µx 2 = x − 2µx + µ2 = x! x! x=0 x (x − 1) + (1 − 2µ) x + µ2 ∞ ∞ e−µ µx = x! ∞ e−µ µx e−µ µx 2 e−µ µx + (1 − 2µ) x + µ = = x (x − 1) x! x! x! x=0 x=0 x=0 = ∞ x=2 x (x − 1) ∞ ∞ e−µ µx e−µ µx µx + (1 − 2µ) x + µ2 e−µ = x! x! x! x=0 x=0 ∞ e−µ µx = + (1 − 2µ) µ + µ2e−µ eµ = (x − 2)! x=2 2 −µ =µ e 2 −µ =µ e ∞ µ(x−2) + µ − 2µ2 + µ2 = (x − 2)! x=2 µ2 µ3 1+µ+ + + · · · + µ − µ2 = 2! 3! = µ2 e−µ eµ + µ − µ2 = µ2 + µ − µ2 = µ. 4.2. DISTRIBUIÇÃO DE POISSON 4.2.2 49 Distribuição de Poisson como aproximação da distribuição binomial Quando numa distribuição binomial n é muito grande e p muito pequeno, podemos substituí-la aproximadamente pela distribuição de Poisson que tem µ igual ao µ da distribuiçào binomial, isto é, µ = np. Isso se justifica pelo seguinte limite lim Pn (x) = P∞ (x) , n→∞ np=µ isto é, a distribuição binomial converge para a distribuição de Poisson, quando n tende ao infinito, mantendo-se constante o valor de µ. Como µ = np, o valor p = nµ tende a zero. Calculemos o limite n! lim Pn (x) = lim px q(n−x) = n→∞ n→∞ x! (n − x)! np=µ np=µ µ x n! µ n−x 1− = n→∞ x! (n − x)! n n n! µx µ n µ −x = lim · 1 − 1 − . n→∞ (n − x)!nx x! n n = lim Como n! → 1, (n − x)!nx quando n → ∞, resulta 1− µ −x → 1, n lim Pn (x) = n→∞ np=µ 4.2.3 e 1− µ n → e−µ , n e−µ µx = P∞ (x) . x! Distribuição de Poisson como distribuição correta Seja U={0, 1, 2, . . .} e pθ : U → R, uma distribuição de probabilidade que depende de um parâmetro θ. Denotaremos pθ (x) por p (x, θ). Proposição 4.2 Uma condição necessária e suficiente para que e−λθ (λθ)x p (x, θ) = , x! é que x = 0, 1, 2, . . . , (4.3) 50 CAPÍTULO 4. DISTRIBUIÇÕES BINOMIAL E DE POISSON 1) p (x, θ1 + θ2 ) = x k=0 p (x − k, θ1) p (k, θ2 ) , x = 1, 2, 3, . . . , 2) p (1, θ) = λθ + o (θ) , 3) p (x > 1, θ) = o (θ) . Observações 4.3 i) A distribuição definida pela expressão 4.3 é a distribuição de Poisson de esperança matemática λθ. ii) Por abuso de notação, estamos indicando por p (x > 1, θ) a probabilidade ∞ P ({2, 3, 4, . . .}) = x=2 p (x, θ). iii) A notação o (θ) indica uma função de θ que tende a zero quando θ → 0, mais rapidamente que θ, isto é, o (θ) = 0. θ→0 θ lim iv) A prova da proposição encontra-se no Anexo 1. Exemplo 4.4 Consideremos a seguinte técnica de amostragem. Observamos o intervalo de tempo [t1 , t2) e registramos o número x de chamadas telefônicas recebidas. Analisando uma série de amostras percebemos que a freqüência do número x de chamadas depende de T = t2 − t1 , e não de t1 ou t2. Então uma distribuição apropriada para o universo U = {0, 1, 2, . . .} com a técnica de amostragem descrita será da forma p (x, T ). Dividamos o intervalo [t1 , t2) em dois subintervalos da mesma natureza, de larguras respectivamente T1 e T2 . As distribuições de probabilidade correspondentes a êsses subintervalos serão dadas por p (x, T1 ) e p (x, T2). Alteremos agora a técnica de amostragem inicial. Primeiro observemos o número y1 de chamadas no intervalo de largura T1 e em seguida o número y2 de chamadas no intervalo de largura T2. será agora formado pelos pares O novo universo U = (y1 , y2 ) ∈ {0, 1, 2, . . .} × {0, 1, 2, . . .} = U × U. U 4.2. DISTRIBUIÇÃO DE POISSON 51 Podemos exprimir o atributo {(y1 , y2) : y1 + y2 = x}, como {(y1 , y2) : y1 + y2 = x} = = x k=0 {(y1 , y2 ) : y1 = x − k} {(y1 , y2 ) : y2 = k} . Como os termos da união são disjuntos, e os atributos {y1 = k} e {y2 = x − k} podem ser supostos independentes, devido à técnica de amostragem, teremos P ({(y1, y2 ) : y1 + y2 = x}) = = x k=0 P ({(y1 , y2 ) : y1 = x − k}) P ({(y1 , y2 ) : y2 = k}) . Pela maneira como a técnica de amostragem se relaciona com as técnicas originais nos intervalos de larguras T , T1 , T2 , podemos escrever p (x, T1 + T2 ) = x k=0 p (x − k, T1 ) p (k, T2) , x = 1, 2, 3, . . . Portanto a condição 1) fica satisfeita. Pelo exame de várias amostras percebemos que a freqüência de uma única chamada no intervalo, é aproximadamente proporcional a T se T é muito pequeno. Traduzimos isso pela condição 2) p (1, T ) = λT + o (T ) . Da mesma maneira verificamos que a freqüência de mais de uma chamada no intervalo, se T é muito pequeno, é desprezível. Traduzimos isso pela condição 3) p (x > 1, T ) = o (T ) . Portanto pela proposição 4.2, p (x, T ) é dado pela distribuição de Poisson de esperança matemática λT . Capítulo 5 Probabilidade II - Extensão da Teoria 5.1 Necessidade de uma extensão Consideremos a seguinte técnica de amostragem. Tomamos uma roleta, graduada de 0 a 1 em sua circunferência. Giramos a roleta, e após sua parada lemos o valor apontado por uma seta fixa. O resultado da aplicação da técnica de amostragem é um número real no intervalo (0, 1]. Portanto o universo será esse intervalo, que é um conjunto não enumerável. Constituindo uma grande amostra, por repetição da técnica de amostragem, podemos observar que a freqüência de um sub intervalo (a, b] resulta aproximadamente igual a b − a. Gostariamos então de definir uma função P sôbre todas as partes de (0, 1], satisfazendo os tres axiomas de probabilidades, e tal que P ((a, b]) = b − a, ∀ (a, b] ⊂ (0, 1] . Infelizmente, demonstra-se na Teoria da Medida, que não existe uma tal função. A solução, encontrada pelos matemáticos, é não exigir que uma função probabilidade seja definida necessariamente sôbre todos os subconjuntos do universo. No caso acima descrito, é possível porém obter a função P definida sôbre uma conveniente coleção A de subconjuntos de (0, 1]. Esta coleção deverá obviamente conter os subintervalos (a, b]. Além disso, a coleção A deverá satisfazer as seguintes propriedades para que possamos impor os axiomas de 52 5.1. NECESSIDADE DE UMA EXTENSÃO 53 probabilidades: Ai ∈ A, i = 1, 2, 3, . . . A∈A ⇒ ⇒ ∞ i Ai ∈ A, A ∈ A. Estudaremos as coleções de subconjuntos que satisfazem essas propriedades na seção seguinte. O fato de o universo ser não enumerável, não impede que existam funções probabilidade definidas sôbre todos os suconjuntos, como mostra o exemplo a seguir. Exemplo 5.1 Seja U um universo enumerável dotado de uma função de probabilidade P : PU → R e seja x : U → R uma variável aleatória. Por meio de x, podemos construir um função probabilidade P (x) sobre todos os subconjuntos de R (que não é enumerável), definindo P (x) (A) = P x−1 (A) , ∀A ⊂ R, onde x−1 (A) é a imagem inversa de A por x, isto é, x−1 (A) = {e ∈ U : x (e) ∈ A}. Os tres axiomas das probabilidades ficam satisfeitos. De fato a) P (x) (A) = P (x−1 (A)) ≥ 0 b) P (x) (R) = P (x−1 (R)) = P (U ) = 1 c) Se Ai ⊂ R, i = 1, 2, . . . , são disjuntos, então os x−1 (Ai ) também são, donde (x) −1 −1 P Ai = P x Ai =P x (Ai ) = = (x) P x−1 (Ai ) = P (Ai ) . O conjunto R, faz aqui o papel de universo (não enumerável). 54 CAPÍTULO 5. PROBABILIDADE II - EXTENSÃO DA TEORIA Observação 5.2 Neste capítulo estenderemos, de forma rigorosa, as definições introduzidas no caso de Universos enumeráveis e justificaremos a definição estendida de esperança matemática por sua relação com a média numa amostra. A maior parte das proposições não será demonstrada porquê os prerequisitos excedem o nível deste texto. No próximo capítulo serão analisados casos particulares que podem ser tratados no nível de um curso de Cálculo I 5.2 Sigma álgebra de subconjuntos Definição 5.3 Dizemos que uma coleção A, não vazia, de subconjuntos de U , constitue uma σ-álgebra se satisfaz as propriedades: a) Se um subconjunto de U pertence à A, seu complementar pertence à A. b) Toda união enumerável1 de subconjuntos de U que pertencem à A, pertence à A. Corolário 5.4 São conseqüências imediatas i) ∅ ∈ A e U ∈ A pois, sendo B um elemento de A, temos U = B + B e ∅ = U. ii) Toda interseção enumerável de subconjuntos de Ai ⊂ U que pertencem à A, pertence à A, pois que n i=1 Ai = n i=1 Ai e ∞ Ai = i=1 ∞ Ai . i=1 iii) Se A ∈ A e B ∈ A, então A − B ∈ A, pois que A − B = AB. 1 Neste texto estamos considerando os conjuntos finitos como enumeráveis. 5.2. SIGMA ÁLGEBRA DE SUBCONJUNTOS 55 Exemplo 5.5 1) A coleção PU de todos os subconjuntos de U é uma σ-álgebra. 2) A coleção {∅, U } de subconjuntos de U é uma σ-álgebra. 3) Sejam A, B, C, subconjuntos não vazios de U, disjuntos, e tais que A + B + C = U. Então a coleção {∅, A, B, C, A + B, B + C, A + C, U} é uma σ-álgebra. Proposição 5.6 Seja C uma coleção qualquer de subconjuntos de U. Então existe e é única uma σ-álgebra β que satifaz i) β ⊃ C. ii) Se A é uma σ-álgebra e A ⊃ C então A ⊃ β. A σ-álgebra β é dita σ-álgebra gerada por C. É a menor σ-álgebra que contém C. 5.2.1 Sigma álgebra de Borel na reta Consideremos o caso extremamente importante em que U = R. A σ-álgebra β gerada pelos intervalos da forma {x ∈ R : x ≤ c} é chamada σ-álgebra de Borel e os elementos de β, borelianos. São borelianos todos os tipos de intervalo. Comecemos com os intervalos do tipo {x ∈ R : x < c}. Pela segunda propriedade da definição de σ-álgebra temos ∞ 1 {x ∈ R : x < c} = x∈R:x≤c− ∈ β. n n=1 Por complementação, temos pela primeira propriedade da definição de σ-álgebra, {x ∈ R : x > c} ∈ β, e {x ∈ R : x ≥ c} ∈ β. 56 CAPÍTULO 5. PROBABILIDADE II - EXTENSÃO DA TEORIA Como interseções de elementos de β pertencem à β, podemos escrever (a, b] [a, b) (a, b) [a, b] = = = = {x ∈ R : x > a} ∩ {x ∈ R : x ≤ b} ∈ β, {x ∈ R : x ≥ a} ∩ {x ∈ R : x < b} ∈ β, {x ∈ R : x > a} ∩ {x ∈ R : x < b} ∈ β, {x ∈ R : x ≥ a} ∩ {x ∈ R : x ≤ b} ∈ β. Os subconjuntos unitários pertencem à β, pois {a} = [a, a] ∈ β. Os subconjuntos enumeráveis {x1 , x2 , x3 , . . .} pertencem à β, pois {x1 , x2 , x3 , . . .} = 5.3 ∞ i=1 {xi } ∈ β. Reformulação dos axiomas de probabilidades Enunciemos a nova versão dos axiomas de probabilidades Seja U um universo, A uma σ-álgebra de subconjuntos de U, e P a aplicação P : A → R. Axioma 5.7 Se P satisfizer os axiomas: 1) P (A) ≥ 0, ∀A ∈ A, 2) P (U) = 1 ∞ 3) Se i=1 Ai é uma união de subconjuntos disjuntos Ai ∈ A, então ∞ ∞ P Ai = P (Ai ) , i=1 i=1 diremos que P é uma função probabilidade. Se A ∈ A, chamaremos P (A) probabilidade de A. Exemplo 5.8 Retomemos o caso, analisado inicialmente, do intervalo (0, 1]. Seja β a σ-álgebra gerada pelos subintervalos (a, b] ⊂ (0, 1]. Demonstra-se que existe e é única a função probabilidade P : β → R tal que P ((a, b]) = b − a. Vemos que a nova formulação resolve o impasse que existia com a antiga. 5.4. FUNÇÕES DE DISTRIBUIÇÃO 57 Observações 5.9 1) Todas as definições e proposições do Capítulo 2 continuam validas desde que sejam considerados exclusivamente subconjuntos pertencentes à σ-álgebra. 2) Como a coleção de todos os subconjuntos do universo U é uma σ-álgebra, a teoria no caso de universo enumerável resulta um caso particular da nova formulação. 3) As definições que serão introduzidas, o serão de tal maneira, que constituirão extensões dos conceitos correspondentes no caso de universos enumeráveis. 5.4 Funções de Distribuição Definição 5.10 Dizemos que a função F : R → R é uma função de distribuição (a uma variável) se satisfaz as seguintes propriedades a) lim F (x) = 1 x→∞ b) lim F (x) = 0 x→−∞ F (x + h) − F (x) ≥ 0, ∀h ≥ 0 F (x) é contínua pela direita. c) d) Dizemos que a função G : R2 → R é uma função de distribuição (a duas variáveis) se satisfaz as seguintes propriedades a) b) c) d) 5.5 lim G (x, y) = 1 x→∞ y→∞ lim G (x, y) = lim G (x, y) = 0 x→−∞ y→−∞ G (x + h, y + k) − G (x + h, y) − G (x, y + k) + G (x, y) ≥ 0, G (x, y) é contínua pela direita em relação a x e a y. ∀h ≥ 0, ∀k ≥ 0 Variáveis Aleatórias Seja U um Universo (enumerável ou não), A uma σ-álgebra em U, e P : A →R uma função probabilidade. Como no caso de universo enumerável, uma variável aleatória será uma uma função real x : U → R, definida sôbre o universo U. Imporemos contudo uma condição que x deve satisfazer 58 CAPÍTULO 5. PROBABILIDADE II - EXTENSÃO DA TEORIA {e ∈ U : x (e) ≤ c} ∈ A, ∀c ∈ R. (5.1) Esta condição é imposta para que possamos escrever P ({x ∈ U : x (x) ≤ c}). A importância dessa condição ficará mais evidente a seguir. Observação 5.11 Como, no caso anteriormente estudado para universos enumeráveis, a σ-álgebra A era a coleção de todos os subconjuntos de U, a condição 5.1 estava trivialmente satisfeita. Portanto a nova definição é extensão da anterior. Proposição 5.12 Seja U um universo munido de uma σ-álgebra A, e de uma função probabilidade P : A →R e sejam x :U → R e y : U → R variáveis aleatórias. Então as funções x + y, e xy, são variáveis aleatórias, isto é, satisfazem a condição 5.1. Observação 5.13 A função constante k : U → R definida por k (e) = k, ∀e ∈ U, é uma variável aleatória, pois U se k ≤ c {e ∈ U : k (e) ≤ c} = ∅ se k > c. Em conseqüência, as funções x+k e kx, são variáveis aleatórias. Proposição 5.14 Seja x : U → R uma variável aleatória. A função F : R → R definida por F (x) = P ({e ∈ U : x (e) ≤ x}) , ∀x ∈ R. é uma função de distribuição, dita função de distribuição da variável aleatória x. Proposição 5.15 Sejam x : U → R e y : U → R variáveis aleatórias. A função G : R2 → R definida por G (x, y) = P ({e ∈ U : x (e) ≤ x} {e ∈ U : y (e) ≤ y}) é uma função de distribuição, dita função de distribuição do par de variáveis aleatórias x e y. 5.6. ESPERANÇA MATEMÁTICA 59 Definição 5.16 Dizemos que duas variáveis aleatórias x e y são independentes se P ({x (e) ≤ a} {y (e) ≤ b}) = P ({x (e) ≤ a}) P ({y (e) ≤ b}) quaisquer que sejam a, b ∈ R. Proposição 5.17 Condição necessária e suficiente para que duas variáveis aleatórias x e y sejam independentes é que G (x, y) = F1 (x) F2 (y) , ∀ (x, y) ∈ R2 , onde F1 , F2 e G, são as funções de distribuição de x, y e do par (x, y) respectivamente. Podemos estender a noção de independência para um conjunto qualquer de variáveis aleatórias. Definição 5.18 Seja C um conjunto de variáveis aleatórias definidas sôbre o Universo U. Diremos que essas variáveis aleatórias são independentes se para todo subconjunto finito {x1 , x2, . . . xn } ⊂ C as variáveis aleatórias x1 , x2 , . . . , xn forem independentes, isto é, se para quaisquer (a1 , a2 , . . . an ) ∈ Rn P ({x1 (e) ≤ a1 } {x2 (e) ≤ a2 } · · · {xn (e) ≤ an }) = = P ({x1 (e) ≤ a1 }) P ({x2 (e) ≤ a2 }) · · · P ({xn (e) ≤ an }) . 5.6 Esperança Matemática Vamos generalizar a noçao de esperança matemática em tres etapas, do caso mais simples ao mais geral. Mas antes mostremos como decompor uma variável aleatória em suas partes positiva e negativa. Definição 5.19 Seja x : U → R uma variável aleatória. Definimos a parte positiva de x como a variável aleatória x+ : U → R definida por x+ (e) = x (e) x+ (e) = 0 se x (e) ≥ 0, se x (e) < 0. 60 CAPÍTULO 5. PROBABILIDADE II - EXTENSÃO DA TEORIA Analogamente definimos a parte negativa x− por x− (e) = −x (e) x− (e) = 0 se se x (e) ≤ 0, x (e) > 0. Das definições é claro que x+ ≥ 0, x− ≥ 0, e que x = x + − x− . e |x| = x+ + x− . Exemplo 5.20 Seja U = R e x definida por x (x) = x. Então, x+ (x) = x se x ≥ 0, x+ (x) = 0 se x < 0. e x− (x) = −x x− (x) = 0 5.6.1 se x ≤ 0, se x > 0. Esperança matemática de variáveis aleatórias discretas positivas Definição 5.21 Diremos que uma variável aleatória x : U → R é discreta positiva se x (U) = {x0, x1 , x2, . . . xn . . .}, isto é, se o conjunto dos valores de x (e) é um subconjunto enumerável de R, e xi ≥ 0, ∀i. Definição 5.22 Seja x variável aleatória discreta. Sejam Xi ∈ A, i = 1, 2, . . ., definidos por Xi = {e ∈ U : x (e) = xi } . Definimos µ (x) por µ (x) = ∞ xi P (Xi ) . i=0 Se µ (x) < ∞ dizemos que x admite esperança matemática µ (x). Observação 5.23 Se P : A →R foi escolhida convenientemente, relativamente à técnica de amostragem, sabemos que P (Xi ) é uma aproximação da freqüência f (Xi ) calculada numa amostra grande. 5.6. ESPERANÇA MATEMÁTICA 61 Seja µ (x) < ∞. Então µ (x) = ∞ xi P (Xi ) ≈ i=0 ∞ xi f (Xi ) . i=0 Se a amostra tem N elementos, a freqüência é calculada por f (Xi ) = ki N onde ki é o número de ocorrências do evento Xi na amostra. ∞ Como i=0 ki = N , é claro que ki = 0 apenas para um número finito de índices. Então ∞ ∞ ki µ (x) ≈ xi f (Xi ) = xi = x. N i=0 i=0 onde x é a média de x na amostra. 5.6.2 Esperança matemática de variáveis aleatórias positivas Vamos definir a esperança matemática de uma variável aleatória positiva x ≥ 0 como limite de esperanças matemáticas de variáveis aleatórias discretas positivas. Proposição 5.24 Seja xn , n = 1, 2, . . ., uma seqüência de variáveis aleatórias discretas positivas, tal que xn (e) é não decrescente quando n → ∞, para ∀e ∈ U. Então a seqüência µ (xn ) é não decrescente e portanto existe o limite lim µ (xn ) n→∞ finito ou +∞ (infinito). Definição 5.25 Seja x uma variável aleatória positiva e seja xn uma seqüência de variáveis aleatórias discretas positivas tal que xn ↑ x, isto é, tal que i) ii) xn (e) ≤ x (e) , ∀e ∈ U, lim xn (e) = x (e) , n→∞ ∀e ∈ U. 62 CAPÍTULO 5. PROBABILIDADE II - EXTENSÃO DA TEORIA Definimos µ (x) por µ (x) = lim µ (xn ) . n→∞ Se µ (x) < ∞ dizemos que x admite esperança matemática µ (x). Observações 5.26 a) Existem seqüências xn com as propriedades exigidas. Por exemplo, a seqüência onde cada xn é definida por j j j+1 n xn (e) = n se e ∈ Xj = e ∈ U : n ≤ x (e) < n , 2 2 2 onde j = 0, 1, 2, . . .. b) Demonstra-se que µ (x) independe da particular seqüência xn usada para calculá-la. c) Suponhamos P : A →R escolhida convenientemente, relativamente à técnica de amostragem utilizada, e seja x uma variável aleatória positiva que admite esperança matemática. Sejam xn as variáveis aleatórias discretas positivas definidas na observação a). Como µ (xn ) ↑ µ (x), dado ε > 0 arbitrariamente pequeno, existe m0 tal que ε para ∀n ≥ m0 . |µ (x) − µ (xn )| < 2 Formemos uma amostra com N elementos {e1 , e2 , . . . eN }. Teremos x= e xn = x (e1 ) + x (e2) + · · · + x (eN ) N xn (e1) + xn (e2 ) + · · · + xn (eN ) . N Vale a desigualdade xn ≤ x pois que xn (ej ) ≤ x (ej ), j = 1, 2, . . . N . Vale também x < xn + 21n pois que x (ej ) < xn (ej ) + 21n , j = 1, 2, . . . N. Logo dado ε > 0 existe m1 tal que |xn − x| < ε 2 para ∀n ≥ m1 e ∀N 5.6. ESPERANÇA MATEMÁTICA 63 Podemos escrever |µ (x) − x| = |µ (x) − µ (xn ) + µ (xn ) − xn + xn − x| ≤ ≤ |µ (x) − µ (xn )| + |µ (xn ) − xn | + |xn − x| . Seja m = max (m0 , m1 ) . Então |µ (x) − x| < |µ (xn ) − xn | + ε para ∀n > m e ∀N. Para uma amostra com N grande, teremos pelo caso anterior µ (xn ) ≈ xn donde µ (x) ≈ x Novamente, neste caso, a média x numa amostra grande é estimativa da esperança matemática µ (x). 5.6.3 Esperança matemática de uma variável aleatória qualquer Definição 5.27 Seja x : U → R uma variável aleatória. Diremos que x admite esperança matemática se x+ e x− admitem esperança matemática2 , e nesse caso definimos esperança matemática µ (x) de x por µ (x) = µ x+ − µ x− . Observação 5.28 Suponhamos P : A →R escolhida convenientemente, relativamente à técnica de amostragem utilizada, e seja x uma variável aleatória que admite esperança matemática. 2 A ferramenta matemática apropriada para o desnvolvimento da Teoria aas Probabilidades é a Teoria da Medida e Integração. Aqueles familiarizados com ela terão identificado a função de Probabilidade P como uma medida, uma variável aleatoria como uma função mensurável e a esperança matemática como a integral µ (x) = xdP. U No Capítulo 6 examinaremos casos particulares em que podemos efetuar os cáculos usando a integral de Rieman. 64 CAPÍTULO 5. PROBABILIDADE II - EXTENSÃO DA TEORIA Calculemos x+ e x− numa grande amostra e observemos que x+ − x− = x. Como vimos no caso anterior, µ (x+ ) ≈ x+ , µ (x− ) ≈ x− . Portanto µ (x) = µ x+ − µ x− ≈ x+ − x− = x. Podemos dizer então, em geral, que a esperança matemática é uma previsão da média ou reciprocamente que a média é uma estimativa da esperança matemática. Definição 5.29 Definimos variança da variável aleatória x, se existir, por σ 2 (x) = µ (x − µ (x))2 Numa amostra pode ser estimada por 2 s = N j=1 (zj − x)2 N −1 Propriedades 5.30 De µ e σ 2 Sejam x, x1 , x2 , . . . xn , variáveis aleatórias e k constante. Suporemos que admitem esperança matemática e variança. 1. Se x é limitada, existe µ (x). 2. |µ (x)| ≤ µ (|x|) 3. µ (kx) = kµ (x), σ2 (kx) = k 2 σ 2 (x). 4. µ (x1 + x2 + · · · + xn ) = µ (x1 ) + µ (x2 ) + · · · + µ (xn ). 5. µ (x1 x2 · · · xn ) = µ (x1) µ (x2 ) · · · µ (xn ) pendentes. se x1 , x2 , . . . xn , são inde- 6. σ2 (x1 + x2 + · · · + xn ) = σ 2 (x1) + σ2 (x2 ) + · · · + σ 2 (xn ) se x1 , x2 , . . . xn , são independentes. 5.7. A DESIGUALDADE DE CHEBICHEV 5.7 65 A Desigualdade de Chebichev Pode ser demonstrado que admitindo-se apenas a existência de µ (x) e σ 2 (x) vale sempre a desigualdade P {|x − µ (x)| ≥ ξσ (x)} ≤ onde ξ ≥ 1. 1 ξ2 Capítulo 6 Densidade de Probabilidade Neste capítulo U indicará um Universo, A uma σ-ágebra em U, e P : A →R uma função probabilidade. As integrais consideradas serão integrais de Riemann 6.1 Definições e Propriedades Definição 6.1 Seja x : U → R uma variável aleatória com função de distribuição F. Se existe ϕ : R → R, tal que ϕ ≥ 0 e x F (x) = ϕ (t) dt, ∀x ∈ R, −∞ dizemos que ϕ é densidade de probabilidade da variável aleatória x. Nesse caso, F é uma função contínua. Propriedades 6.2 Seja ϕ : R → R densidade de probabilidade da variável aleatória x, com função de distribuição F . 1) Seja I ⊂ R um intervalo com extremos a e b onde a ≤ b e tal que a pode ser −∞ e b pode ser +∞. Convencionemos que F (−∞) = 0 e F (+∞) = 1. Então P ({e ∈ U : x (e) ∈ I}) = F (b) − F (a) = 66 b ϕ (t) dt. a 6.1. DEFINIÇÕES E PROPRIEDADES 67 2) Se ϕ é contínua numa vizinhança do ponto x0 ∈ R, então ϕ (x0) = F (x0 ) . 3) Seja h : R → R uma função contínua. Então z : U → R por z = h (x) é uma variável aleatória, isto é, satisfaz definida P ({e ∈ U : z (e) ≤ a}) ∈ A, ∀a ∈ R. 4) Seja h : R → R z = h (x). uma função contínua. e z : U → R definida por Se a Esperança Matemática de z existe, vale +∞ µ (z) = h (t) ϕ (t) dt. −∞ Fazendo h (t) = t, ∀t ∈ R, temos +∞ µ (x) = tϕ (t) dt. −∞ 5) A Variança da variável aleatória x, quando existe vale +∞ 2 σ (x) = (t − µ (x))2 ϕ (t) dt, ou alternativamente Prova. −∞ σ 2 (x) = µ x2 − (µ (x))2 . 1) Consequência imediata das definições de F e de ϕ. 2) Consequência do Teorema Fundamental do Cálculo. 3) e 4) Demonstração excede o nível deste texto. 5) Pela definição de σ2 (x) temos σ 2 (x) = µ [x − µ (x)]2 . A função h : R → R definida por h (x) = [x − µ (x)]2 tínua. Pelo item 4) +∞ 2 σ (x) = (t − µ (x))2 ϕ (t) dt. −∞ é con- 68 CAPÍTULO 6. DENSIDADE DE PROBABILIDADE Alternativamente, σ2 (x) = µ [x − µ (x)]2 = µ x2 − 2µ (x) x + (µ (x))2 = = µ x2 − 2 (µ (x))2 + (µ (x))2 = µ x2 − (µ (x))2 . Observação 6.3 Determinação empírica de F. Suponhanos fixada a técnica de amostragem. Por meio de uma grande amostra podemos construir a função escada F0 : R → R por F0 (x) = f (“t ≤ x”) , onde f (“t ≤ x”) é a freqüência do subconjunto {t ∈ R : t ≤ x} na amostra. É fácil verificar que F0 é uma função de distribuição. Podemos adotar F0 ou aproximá-la, se for o caso, por outra função de distribuição F mais conveniente do ponto de vista da manipulação matemática. Por exemplo, uma função F contínua, com derivadas contínuas. Observação 6.4 Deterninação empírica de ϕ. Suponhanos fixada a técnica de amostragem. No caso em que a função de distribuição F admite uma densidade de probabilidade ϕ contínua, podemos aproximar ϕ a partir de uma grande amostra, construindo um histograma. Dividimos a reta num número finito de intervalos. Calculamos a freqüência de cada intervalo na amostra e construimos sôbre cada intervalo um retângulo com área igual à freqüência. Obtemos assim o gráfico de uma função degrau ϕ0 que podemos em seguida aproximar por uma função contínua ϕ. Definição 6.5 Seja (x, y) : U → R2 um par de variáveis aleatórias com função de distribuição G : R2 → R. Se existe ϕ : R2 → R, tal que ϕ ≥ 0 e x y G (x, y) = ϕ (u, v) dudv, ∀ (x, y) ∈ R2 , −∞ −∞ dizemos que ϕ é densidade de probabilidade do par de variáveis aleatórias (x, y). Nesse caso, G é uma função contínua. 6.1. DEFINIÇÕES E PROPRIEDADES 69 Propriedades 6.6 Seja ϕ : R2 → R densidade de probabilidade do par de variáveis aleatórias (x, y), com função de distribuição G. Sejam ainda, F1 função de distribuição de x, e F2 função de distribuição de y. 1) Seja S ⊂ R2 um subconjunto tal que exista ϕ (u, v) dudv. S Então P ({e ∈ U : (x (e) , y (e)) ∈ S}) = ϕ (u, v) dudv. S 2) Se ϕ é contínua numa vizinhança do ponto (u0 , v0 ) ∈ R2 , então ϕ (u0 , v0) = ∂2G (u0 , v0 ) . ∂u∂v Este resultado é obtido pela aplicação repetida do Teorema Fundamental do Cálculo. 3) Seja h : R2 → R uma função contínua. Então z : U → R por z = h (x, y) é uma variável aleatória, isto é, satisfaz definida P ({e ∈ U : z (e) ≤ a}) ∈ A, ∀a ∈ R. 4) Seja h : R2 → R z = h (x, y). uma função contínua. e z : U → R definida por Se a Esperança Matemática de z existe, vale +∞ +∞ µ (z) = h (u, v) ϕ (u, v) dudv. −∞ −∞ Fazendo h (u, v) = u, ∀ (u, v) ∈ R2 , temos +∞ +∞ +∞ µ (x) = uϕ (u, v) dudv = u −∞ −∞ = −∞ +∞ −∞ uϕ1 (u) du +∞ −∞ ϕ (u, v) dv du = 70 CAPÍTULO 6. DENSIDADE DE PROBABILIDADE onde ϕ1 (u) = +∞ ∀u ∈ R ϕ (u, v) dv, −∞ A função ϕ1 é a densidade de probabilidade da variável aleatória x, e é dita densidade de probabilidade marginal do par (x, y). Temos analogamente +∞ +∞ µ (y) = vϕ2 (v) dv, ϕ2 (v) = ϕ (u, v) du, ∀v ∈ R −∞ −∞ 5) Seja (x, y) um par de variáveis aleatórias. Se x e y são independentes e admitem densidades de probabilidade ϕ1 e ϕ2 , então o par (x, y) admite densidade de probabilidade ϕ e ∀ (x, y) ∈ R2 . ϕ (x, y) = ϕ1 (x) ϕ2 (y) , De fato, pela independência de x e y temos G (x, y) = F1 (x) F2 (y) , ∀ (x, y) ∈ R2, donde G (x, y) = x ϕ1 (u) du −∞ y ϕ2 (v) dv = −∞ x −∞ y ϕ1 (u) ϕ2 (v) dudv. −∞ Portanto G (x, y) = x −∞ y ϕ (u, v) dudv −∞ onde ϕ (u, v) = ϕ1 (u) ϕ2 (v) , ∀ (u, v) ∈ R2 6.2. DISTRIBUIÇÃO RETANGULAR E DISTRIBUIÇÃO NORMAL 6.2 6.2.1 71 Distribuição Retangular e Distribuição Normal Distribuição Retangular Seja x : U → R uma variável aleatória que admite a densidade de probabilidade ϕ : R → R definida por se x < a 0 −1 ϕ (x) = (b − a) se a ≤ x ≤ b 0 se x > b. onde −∞ < a < b < +∞. Dizemos que a distribuição de probabilidade de x é retangular. Calculemos µ (x) e σ2 (x). µ (x) = 2 σ (x) = +∞ −∞ 6.2.2 +∞ xϕ (x) dx = −∞ b a a+b x dx = . b−a 2 b a+b 2 a+b 2 1 (b − a)2 x− dx = . ϕ (x) dx = x− 2 2 b−a 12 a Distribuição Normal Seja x : U → R uma variável aleatória que admite a densidade de probabilidade ϕ : R → R definida por ϕ (x) = √ (x−µ)2 1 e− 2σ2 2πσ onde µ e σ2 > 0 são duas constantes. Dizemos que a distribuição de probabilidade de x é uma distribuição normal. Calculemos µ (x). +∞ (x−µ)2 1 µ (x) = √ xe− 2σ2 dx. 2πσ −∞ 72 CAPÍTULO 6. DENSIDADE DE PROBABILIDADE Fazendo x−µ σ = t obtemos 1 µ (x) = √ 2πσ µ =√ 2π Mas +∞ +∞ −∞ √ 2 e dt = t2 (µ + σt) e− 2 σdt = −∞ 2 − t2 e − t2 +∞ e 2π −∞ e portanto σ dt + √ 2π +∞ t2 te− 2 dt. −∞ +∞ t2 te− 2 dt = 0 −∞ µ (x) = µ. Calculemos σ 2 (x). 1 σ (x) = √ 2πσ 2 1 =√ 2πσ +∞ +∞ −∞ 2 2 2 − t2 σ te −∞ (x − µ)2 e− σ2 √ σdt = 2π (x−µ)2 2σ 2 dx = +∞ t2 t2e− 2 dt −∞ Por integração por partes +∞ 2 2 − t2 t e −∞ 2 = −te donde − t2 dt = − t −∞ +∞ + −∞ +∞ d − t2 e 2 dt = dt +∞ t2 e− 2 dt = √ 2π −∞ σ 2 (x) = σ2 . Portanto os parâmetros µ e σ 2 que comparecem na expressão (x−µ)2 1 √ e− 2σ2 2πσ são a esperança matemática e a variança de x o que justifica a notação. 6.3. EXEMPLOS 6.2.3 73 Cálculo das áreas sob a curva normal Seja I ⊂ R um intervalo de natureza qualquer de extremos a e b com a ≤ b e x uma variável aleatória com distribuição normal. A probabilidade de {e ∈ U : x (e) ∈ I} é dada por b a 1 ϕ (x) dx = √ 2πσ b e− (x−µ)2 2σ 2 dx. a Com a mudança de variável t= x−u σ o problema se reduz ao calculo da integral 1 √ 2π t2 t2 e− 2 dt onde t1 = t1 a−µ σ e t2 = b−µ . σ Como a curva normal é simétrica em torno de 0 e como a área total é conhecida (vale 1), basta saber calcular a integral 1 √ 2π t0 0 t2 e− 2 dt para t0 ≥ 0 que encontramos tabelada em função de t0 . 6.3 Exemplos Exemplo 6.7 Admitindo-se que o erro x cometido ao fazermos arredondamentos para um certo número de casas decimais, com os valores expressos em unidades da última casa conservada, é uma variável aleatória com densidade de probabilidade retangular dada por 0 se t < −0, 5 1 se −0, 5 ≤ t ≤ 0, 5 , ψ (t) = 0 se t > 0, 5 qual será a densidade de probabilidade ζ do erro resultante da soma de dois números assim arredondados? 74 CAPÍTULO 6. DENSIDADE DE PROBABILIDADE Solução Indiquemos por z1 e z2 os números antes do arredondamento e por c1 e c2 após o arredondamento. Teremos z1 + z2 = (c1 + c2) + (x1 + x2) . Portanto o erro da soma x será a soma dos erros de arredondamento. Podemos considerar como Universo o conjunto R2 cujos elementos e = (x1 , x2 ) serão interpretados como pares de erros de arredondamento. As variáveis aleatórias x1 , x2 , e x serão definidas por x1 (x1 , x2) = x1, x2 (x1 , x2) = x2 e x = x1 + x2. A densidade de probabilidade, tanto de x1 como de x2 é por hipótese ψ, e como x1 e x2 são variáveis aleatórias independentes, existe a densidade de probabilidade ϕ do par (x1 , x2 ) dada por ϕ (u, v) = ψ (u) ψ (v) . Seja C o quadrado C = {(u, v) : −0, 5 ≤ u ≤ 0, 5 Temos 1 se (u, v) ∈ C ϕ (u, v) = 0 se (u, v) ∈ / C. e − 0, 5 ≤ v ≤ 0, 5} . Para calcularmos a densidade de probabilidade ζ da variável aleatória x = x1 + x2 , obtenhamos primeiro a função de distribuição F de x. F (x) = P ({e ∈ U : x (e) ≤ x}) = = P (x1 , x2) ∈ R2 : x (x1 , x2) ≤ x = = P (x1 , x2) ∈ R2 : x1 (x1 , x2 ) + x2 (x1 , x2) ≤ x = = P (x1 , x2 ) ∈ R2 : x1 + x2 ≤ x = = ϕ (u, v) du dv = {(x1 ,x2 )∈R2 :x1 +x2 ≤x} = = Área dudv = {(x1 ,x2 )∈R2 :x1 +x2 ≤x}∩C (x1 , x2 ) ∈ R2 : x1 + x2 ≤ x ∩ C Calculando a área da interseção do quadrado C com {x1 + x2 ≤ x} para os valores de x entre −∞ e +∞ obtemos 0 0, 5 (1 + 2x + x2 ) F (x) = 0, 5 (1 + 2x − x2 ) 1 se se se se x < −1 −1 ≤ x ≤ 0 . 0≤x≤1 x>1 6.3. EXEMPLOS 75 Calculando ζ (x) = F (x) temos a densidade de probabilidade da variável aleatória x = x1 + x2 . 0 1+x ζ (x) = 1−x 1 se se se se x < −1 −1 ≤ x ≤ 0 0≤x≤1 x > 1. Exemplo 6.8 Um fabricante de sapatos deseja saber quantos pares de sapato deve fabricar de cada tamanho numa partida de 10.000 pares, sabendo que numa amostra suficientemente grande do Universo dos consumidores, obtida com uma técnica de amostragem adequada, a média x dos tamanhos de pé resultou 40, 3 e a dispersão foi de n 2 2 i=1 (xi − x) = 1, 69. s = n−1 A distribuição de probabilidade dos tamanhos de pé será admitida normal. Solução Calculemos para exemplificar o número de calçados a serem fabricados de número 39, uma vez que para os demais a solução é análoga. Na realidade o calçado tamanho 39 calça todos os indivíduos com pé entre 38, 5 e 39, 5. Seja x : U → R a variável aleatória que associa a cada indivíduo e ∈ U, seu tamanho de pé x (e). O número pedido será 10.000 × P ({e ∈ U : 38, 5 ≤ x (e) ≤ 39, 5}) pois que P ({e ∈ U : 38, 5 ≤ x (e) ≤ 39, 5}) constitui uma previsão da frequência correspondente. Adotando-se para µ (x) e σ2 (x) os valores de suas estimativas x = 40, 3 e s2 = 1, 69 podemos calcular P = P ({e ∈ U : 38, 5 ≤ x (e) ≤ 39, 5}) pela integral 39,5 (x−µ)2 1 P =√ e− 2σ2 dx. 2πσ 38,5 Fazendo x−µ x − 40, 3 t= = σ 1, 3 teremos −0,62 1 t2 P =√ e− 2 dt. 2π −1,38 76 CAPÍTULO 6. DENSIDADE DE PROBABILIDADE Pela simetria da curva normal 1,38 1,38 0,62 2 2 1 1 1 t2 − t2 − t2 P =√ e dt = √ e dt − √ e− 2 dt. 2π 0,62 2π 0 2π 0 Da tabela da distribuição normal obtemos P {38, 5 < x < 39, 5} = 0, 4162 − 0, 2324 = 0, 1838 donde o número de pares tamanho 39 a ser fabricado será 10.000 × 0, 1838 = 1.838 De forma análoga completamos a tabela abaixo Calçado 37 ou menor 38 39 40 41 42 43 44 ou maior Quantidade 158 680 1838 2920 2616 1333 386 69 Exemplo 6.9 Um fabricante de baterias para automóveis sabe que a vida média x de uma bateria é de 20 meses, com s = 3 meses. Desejando oferecer aos consumidores uma garantia de 12 meses para as baterias de sua fabricação, quer saber qual a porcentagem de sua produção que não está em condições de satisfazer esse prazo. Desconhece-se a distribuição de probabilidade da variável aleatória x, vida de uma bateria. Solução Na falta de mais informações, recorramos à desigualdade de Tchebycheff P ({e ∈ U : |x (e) − µ (x)| ≥ ξσ (x)}) ≤ 1 . ξ2 Adotando para µ (x) e σ (x) os valores de suas estimativas x = 20 e s = 3, temos 1 P ({e ∈ U : |x − 20| ≥ 3ξ}) ≤ 2 ξ 6.3. EXEMPLOS 77 Como estamos interessados em valores de x menores ou iguais a 12, consideraremos os valores de x tais que |x − 20| ≥ 8. Isso inclui também valores de x maiores ou iguais a 28. Na falta de informações sobre uma possível simetria na distribuição de probabilidade, não temos alternativa sinão incluir essa faixa de valores de x. Fica então determinado o valor de ξ 3ξ = 8 isto é, ξ = 8/3. Portanto P ({e ∈ U : x ≤ 12}) ≤ P 8 e ∈ U : |x − 20| ≥ 3 · 3 1 ≤ 2 = 0, 14 8 3 Exemplo 6.10 Um industrial precisa fabricar barras de 1 metro de comprimento com tolerância para mais ou para menos de 0, 1 mm. A máquina a ser utilizada é capaz de fabricar peças cujos comprimentos variam com desvio padrão de 0, 08 mm. Após a fabricação as peças excessivamente compridas deverão ser cortadas e as excessivamente curtas refundidas. Sabendo-se que o prejuizo é de 1, 00 real por peça que necessite ser cortada e de 10, 00 reais por peça que necessite ser refundida, e que a máquina pode ser ajustada para cortar 1.000, 01 ou 1.000, 02 mm, pergunta-se qual desses ajustamentos conduz à operação mais económica. Supor distribuição normal para o comprimento cortado. Solução Seja y a variável aleatória discreta custo adicional por peça. Pode assumir os valores y0 = 0, y1 = 1, y2 = 10. A esperança matemática dos custos adicionais por peça será: µ (y) = 2 yi p (yi ) = p (y1 ) + 10 p (y2 ) . i=0 Calculemos p (y1 ), probabilidade da ocorrência de comprimento excessivo além da tolerância e p (y2 ), probabilidade da ocorrência de comprimento deficiente aquém da tolerância. Admitindo-se que x, comprimento cortado, é uma variável aleatória com densidade de probabilidade normal, teremos ∞ (x−µ)2 1 − 2 √ p (y1 ) = e × 0,082 dx 2π0, 08 1000,1 78 CAPÍTULO 6. DENSIDADE DE PROBABILIDADE 1 p (y2 ) = √ 2π0, 08 999,9 − e (x−µ)2 2 × 0,082 dx. −∞ Cálculo de p (y1 ) e p (y2 ) a) Supondo µ = 1000, 01 (primeiro ajustamento) e fazendo x−µ x − 1000, 01 = σ 0, 08 t= teremos 1 p (y1 ) = √ 2π 1 p (y2) = √ 2π ∞ 2 − t2 e 1,125 −1,375 1 dt = 0, 5 − √ 2π 2 − t2 e −∞ 1,125 t2 e− 2 dt 0 1 dt = 0, 5 − √ 2π 1,375 t2 e− 2 dt 0 Da tabela da curva normal obtemos p (y1 ) = 0, 5 − 0, 370 = 0, 130 p (y2) = 0, 5 − 0, 415 = 0, 085. b) Supondo µ = 1000, 02 (segundo ajustamento) e fazendo x−µ x − 1000, 02 = σ 0, 08 t= teremos 1 p (y1 ) = √ 2π 1 p (y2) = √ 2π ∞ 2 − t2 e 1 −1,5 −∞ 2 − t2 e 1 dt = 0, 5 − √ 2π 1 dt = 0, 5 − √ 2π Da tabela da curva normal obtemos p (y1 ) = 0, 5 − 0, 341 = 0, 159 p (y2) = 0, 5 − 0, 433 = 0, 067. 1 t2 e− 2 dt 0 0 1,5 t2 e− 2 dt 6.3. EXEMPLOS 79 Cálculo de µ (y) Para µ (x) = 1000, 01 µ (y) = 0, 130 + 10 × 0, 085 = 0, 980 Para µ (x) = 1000, 02 µ (y) = 0, 159 + 10 × 0, 067 = 0, 829. Portanto o industrial deve preferir a segunda alternativa, na qual resulta menor a esperança matemática do custo adicional por peça, isto é, na qual se prevê um custo adicional médio menor. Exemplo 6.11 Ao somarmos 10 parcelas, todas arredondadas até a mesma casa decimal, qual a probabilidade que o erro na soma oriundo dos arredondamentos ultrapassem uma unidade da última casa conservada? Solução Neste problema podemos adotar como universo U = R10 . Um elemento de U, é e = (x1 , x2, . . . x10 ) onde xi é o erro de arredondamento da i-ésima parcela. Seja xi : U → R a variável aleatória definida por xi (e) = xi . Estamos interessados na variável aleatória x = x1 + x2 + · · · + x10 . Admitindo que as variáveis aleatórias xi , i = 1, 2, . . . 10 tem densidade de probabilidade retangular, poderiamos, seguindo a linha de solução do exemplo (1), procurar calcular a densidade de probabilidade de x. Descobririamos sem demora, que esse cálculo seria extremamente laborioso e demorado. Podemos encontrar uma restrição superior para a probabilidade pedida p = P (e ∈ U : |x (e)| ≥ 1) por meio da desigualdade de Tchebycheff. Calculemos µ (x) e σ2 (x). Temos µ (x) = µ (x1 ) + µ (x2 ) + · · · + µ (x10) e por serem os xi independentes σ2 (x) = σ 2 (x1 ) + σ 2 (x2 ) + +σ2 (x10 ) . Mas µ (xi ) = 0,5 2 xdx = 0 e σ (xi ) = −0,5 0,5 x2dx = −0,5 1 . 12 80 CAPÍTULO 6. DENSIDADE DE PROBABILIDADE Portanto µ (x) = 0 e σ 2 (x) = Pela desigualdade de Tchebycheff P Fazendo ξ = √ |x (e)| ≥ ξ 10 12 10 . 12 ≤ 1 . ξ2 1, 2 obtemos p ≤ P ({|x (e)| ≥ 1}) ≤ 1 = 0, 833 1, 2 Pelo Teorema 7.5 (Teorema do Limite Central) que é aplicável neste caso, podemos aproximar a distribuição de probabilidade da variável aleatória x pela distribuição normal de mesma esperança matemática e variança. Então, como melhor alternativa, vamos usar a aproximação P ({|x (e)| ≥ 1}) = 1 − P ({|x (e)| < 1}) ≈ 1 2 1 1 − x2 ≈ 1− √ e 2 σ dx onde σ = = 0, 833 = 0, 913. 12 2πσ −1 Fazendo t= x−µ x = σ 0, 913 temos 1,095 1 t2 P ({|x (e)| ≥ 1}) ≈ 1 − √ e− 2 dt = 2π −1,095 1,095 t2 1 = 1 − 2√ e− 2 dt. 2π 0 Da tabela da curva normal obtemos P ({|x (e)| ≥ 1}) ≈ 1 − 2 × 0, 3632 = 1 − 0, 7264 = 0, 2736. A probabilidade é de 27, 4%. Capítulo 7 Anexos 7.1 Anexo1 - Distribuição de Poisson Seja U={0, 1, 2, . . .} e pθ : U → R, uma distribuição de probabilidade que depende de um parâmetro θ. Denotaremos pθ (x) por p (x, θ). Proposição 7.1 Uma condição necessária e suficiente para que p (x, θ) = e−λθ (λθ)x , x! x = 0, 1, 2, . . . , (7.1) é que 1) p (x, θ1 + θ2 ) = x k=0 p (x − k, θ1) p (k, θ2 ) , ∀x, 2) p (1, θ) = λθ + o (θ) , 3) p (x > 1, θ) = o (θ) . Observações 7.2 i) A distribuição definida pela expressão 7.1 é a distribuição de Poisson de esperança matemática λθ. ii) Por abuso de notação, estamos indicando por p (x > 1, θ) a probabilidade ∞ P ({2, 3, 4, . . .}) = x=2 p (x, θ). Prova. 81 82 CAPÍTULO 7. ANEXOS a) A condição é necessária. Suponhamos que e−λθ (λθ)x p (x, θ) = , x! x = 0, 1, 2, . . . , e mostremos que 1), 2), e 3) ficam satisfeitas. Verifiquemos a condição 1). e−λ(θ 1 +θ 2 ) (λ (θ1 + θ2 ))x = p (x, θ1 + θ 2) = x! λx (θ1 + θ2)x = x! x x x! −λθ 1 −λθ2 λ =e e θx−k θk2 = 1 x! k=0 k! (x − k)! = e−λθ1 e−λθ 2 = x e−λθ1 (λθ1 )x−k e−λθ 2 (λθ2)k (x − k)! k=0 = x k=0 k! = p (x − k, θ1 ) p (k, θ2 ) . verifiquemos a condição 2). Como resulta p (1, θ) = e−λθ λθ = λθ + λθ e−λθ − 1 . λθ e−λθ − 1 = λ e−λθ − 1 → 0, quando θ → 0, θ p (1, θ) = λθ + o (θ) . Verifiquemos a condição 3). p (x > 1, θ) = ∞ x=2 p (x, θ) = ∞ e−λθ (λθ)x x=2 x! = 7.1. ANEXO1 - DISTRIBUIÇÃO DE POISSON = ∞ e−λθ (λθ)x+2 x=0 (x + 2)! 2 ≤e −λθ (λθ) 2 ∞ x=0 = ∞ x=0 e−λθ 83 (λθ)2 (λθ)x ≤ (x + 2) (x + 1) x! 2 (λθ)x (λθ)2 −λθ (λθ) λθ =e e = . x! 2 2 Logo p (x > 1, θ) = o (θ) . b) A condição é suficiente. Vamos supor agora que valem as condições 1), 2), e 3), e vamos provar que p (x, θ) é dada pela expressão 7.1. Por comodidade vamos convencionar que p (x, θ) = 0 para valores negativos de x. Pela condição 1) podemos escrever p (x, θ + ∆θ) = x k=0 p (x − k, θ) p (k, ∆θ) = = p (x, θ) p (0, ∆θ) + p (x − 1, θ) p (1, ∆θ) + x k=2 p (x − k, θ) p (k, ∆θ) . Pelas condições 2) e 3), temos p (0, ∆θ) = 1 − p (1, ∆θ) − p (x > 1, ∆θ) = = 1 − λ∆θ + o (∆θ) + o (∆θ) = 1 − λ∆θ + o (∆θ) , e p (1, ∆θ) = λ∆θ + o (∆θ) . Portanto p (x, θ + ∆θ) = p (x, θ) (1 − λ∆θ + o (∆θ))+p (x − 1, θ) (λ∆θ + o (∆θ)) + + x k=2 p (x − k, θ) p (k, ∆θ) . Mas x k=2 p (x − k, θ) p (k, ∆θ) ≤ x k=2 p (k, ∆θ) = p (x > 1, ∆θ) = o (∆θ) . 84 CAPÍTULO 7. ANEXOS Podemos então escrever p (x, θ + ∆θ)−p (x, θ) = (λ∆θ + o (∆θ)) (p (x − 1, θ) − p (x, θ))+o (∆θ) . Divindo por ∆θ temos p (x, θ + ∆θ) − p (x, θ) = ∆θ o (∆θ) o (∆θ) λ+ (p (x − 1, θ) − p (x, θ))+ . ∆θ ∆θ Passando ao limite para ∆θ → 0, obtemos ∂p (x, θ) = λ (p (x − 1, θ) − p (x, θ)) , ∂θ x = 0, 1, 2, . . . Considerando x = 0, 1, 2, . . ., como um parâmetro temos uma seqüência de equações diferenciais ordinárias. As condições 2) e 3) fornecem condições iniciais. De fato passando ao limite p (1, θ) = λθ + o (θ) , e ∞ p (x, θ) = p (x > 1, θ) = o (θ) , x=2 e lembrando que p (x, θ) ≥ 0 para todo x obtemos p (x, 0) = 0, x = 1, 2, 3, . . . e portanto p (0, 0) = 1 − ∞ p (x, 0) = 1 x=1 Como p (−1, θ) ≡ 0, temos para x = 0, dp(0,θ) dθ + λp (0, θ) = 0, p (0, 0) = 1. Para x = 1, 2, 3, . . ., teremos dp(x,θ) dθ + λp (x, θ) p (x, 0) = λp (x − 1, θ) , = 0. 7.2. ANEXO 2 - TEOREMAS DO LIMITE CENTRAL 85 O segundo membro da equação para x > 0 é obtido como solução da equação anterior com parâmetro x − 1. As soluções existem e são únicas. Ora, é facil verificar por substituição que p (x, θ) = e−λθ (λθ)x x! é a solução do sistema de equações. 7.2 Anexo 2 - Teoremas do Limite Central Definição 7.3 Seja U um universo, A uma σ-álgebra e P : A → R uma função probabilidade. Sejam xk : U → R, k = 1, 2, 3, . . ., variáveis aleatórias independentes que admitem esperança matemática µ (xk ) e variança σ 2 (xk ). Sejam zn , n = 1, 2, 3, . . . as variáveis aleatórias definidas por zn = x1 + x2 · · · + xn Diremos que a sequência (xk ) possui a Propriedade do Limite Central se β zn − µ (zn ) 1 t2 <β → √ e− 2 dt para n → ∞, P α< σ (zn ) 2π α para todo α e β, tais que α < β. Observações 7.4 1. Indicando por Φ a função de distribuição normal, correspondente à µ = 0 e σ = 1, podemos escrever β t2 1 √ e− 2 dt = Φ (β) − Φ (α) . 2π α 2. Os teoremas que fornecem condições suficientes para que (xk ) tenha a Propriedade do Limite Central são chamados Teoremas do Limite Central. 86 CAPÍTULO 7. ANEXOS Teorema 7.5 (do Limite Central (1)) Nas condições da definição (7.3), se as variáveis aleatórias xk tem a mesma função de distribuição, então (xk ) possui a Propriedade do Limite Central. Teorema 7.6 (do Limite Central (2)) Nas condições da definição (7.3), se as variáveis aleatórias xk satisfazem as condições: a) σ (zn ) → ∞ para n → ∞. b) |xk − µ (xk )| ≤ Mk decrescente. k = 1, 2, 3 . . . , onde (Mk ) é uma sequência não c) Mn → 0 para n → ∞ σ (zn ) então (xk ) possui a Propriedade do Limite Central. Observações 7.7 1. Se |xk − µ (xk )| ≤ M, ficam satisfeitas. ∀k, as condições b) e c) do Teorema (7.5) 2. Os Teoremas (7.5) e (7.6) são casos particulares do Teorema do Limite Central de Lindeberg e Feller ([TUCKER]), mas um não é caso particular do outro. Bibliografia [BARROS] I. Q. BARROS. Cálculo de Probalidades. Apostila do Departamento de Matemática da Escola Politécnica da USP, São Paulo, 1960 [BERQUO] E. S. BERQUÓ, J. M. P. de SOUZA, S. L. D. GOTLIEB. Bioestatística. EPU Editora Pedagógica Universitária Ltda, São Paulo, 1980 [CRAMER] H. CRAMÉR. Mathematical Methods of Statistics. Princeton University Press, Princeton, 1946 [KOLMOGOROV] A. N. Kolmogorov. Foundations of the Theory of Probability. Chelsea Publishing Company, New York, 1956 [LEME] R. A. S. LEME. Curso de Estatística. Ao Livro Técnico S. A., Rio de Janeiro, 1963 [TUCKER] H. G. Tucker. A Graduate Course in Probability. Academic Press, New York and London, 1967 [VAN DER WAERDEN] B. L. van der WAERDEN. Mathematical Statistics. Springer-Verlag, New York, 1969 87