Cálculo de Probabilidades

Cálculo de Probabilidades
Ivan de Queiroz Barros
1960 (Revisão em 2008)
Conteúdo
1 Cálculo de Freqüências
1.1 Álgebra de Subconjuntos . . . . . . . . . . . . . . . . .
1.1.1 Dualidade . . . . . . . . . . . . . . . . . . . . .
1.2 Freqüências . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Universo e Amostras . . . . . . . . . . . . . . . . . . .
1.3.1 Lei da Regularidade Estatística . . . . . . . . .
1.3.2 Técnica de Amostragem Ocasional . . . . . . .
1.3.3 Amostragem ocasional estratificada . . . . . . .
1.3.4 Amostragem ocasional estratificada proporcional
1.4 Leitura . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Cálculo de Probabilidades I
2.1 Conjuntos Enumeráveis . . . . . . . . .
2.2 Axiomas . . . . . . . . . . . . . . . . .
2.3 Conseqüências dos axiomas . . . . . . .
2.4 O Conceito de Independência . . . . .
2.5 Probabilidade e Amostragem ocasional
2.6 Considerações Práticas . . . . . . . . .
2.7 Exemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
4
6
8
8
9
9
10
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
12
13
18
21
23
23
3 Variáveis Aleatórias
3.1 Esperança Matemática . . . . . . . . . . . . . . . . . . . .
3.1.1 Interpretação Estatística da Esperança Matemática
3.1.2 Propriedades da Esperança Matemática . . . . . .
3.2 Variança . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Interpretação Estatística da Variança . . . . . . . .
3.2.2 Propriedades da Variança . . . . . . . . . . . . . .
3.3 Desigualdade de Chebichev . . . . . . . . . . . . . . . . . .
3.4 Distribuições de Probabilidade . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
31
32
33
33
35
36
36
39
40
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
CONTEÚDO
i
3.5 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Distribuições Binomial e de Poisson
4.1 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Esperança e variança da distribuição de Poisson . . . . .
4.2.2 Distribuição de Poisson como aproximação da distribuição
binomial . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.3 Distribuição de Poisson como distribuição correta . . . .
44
44
47
48
5 Probabilidade II - Extensão da Teoria
5.1 Necessidade de uma extensão . . . . . . . . . . . . . . . . . . .
5.2 Sigma álgebra de subconjuntos . . . . . . . . . . . . . . . . . . .
5.2.1 Sigma álgebra de Borel na reta . . . . . . . . . . . . . .
5.3 Reformulação dos axiomas de probabilidades . . . . . . . . . . .
5.4 Funções de Distribuição . . . . . . . . . . . . . . . . . . . . . .
5.5 Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . .
5.6 Esperança Matemática . . . . . . . . . . . . . . . . . . . . . . .
5.6.1 Esperança matemática de variáveis aleatórias discretas
positivas . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.2 Esperança matemática de variáveis aleatórias positivas .
5.6.3 Esperança matemática de uma variável aleatória qualquer
5.7 A Desigualdade de Chebichev . . . . . . . . . . . . . . . . . . .
52
52
54
55
56
57
57
59
6 Densidade de Probabilidade
6.1 Definições e Propriedades . . . . . . . . . . . .
6.2 Distribuição Retangular e Distribuição Normal
6.2.1 Distribuição Retangular . . . . . . . .
6.2.2 Distribuição Normal . . . . . . . . . .
6.2.3 Cálculo das áreas sob a curva normal .
6.3 Exemplos . . . . . . . . . . . . . . . . . . . .
66
66
71
71
71
73
73
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
49
49
60
61
63
65
7 Anexos
81
7.1 Anexo1 - Distribuição de Poisson . . . . . . . . . . . . . . . . . 81
7.2 Anexo 2 - Teoremas do Limite Central . . . . . . . . . . . . . . 85
Capítulo 1
Cálculo de Freqüências
1.1
Álgebra de Subconjuntos
Seja E um conjunto.
O conjunto das partes (ou subconjuntos) de E será indicado por PE.
Definição 1.1 Dados dois subconjuntos A, B de E, dizemos que A está contido em B (notação A ⊂ B) se
x∈A
⇒
x ∈ B.
Dizemos que B contém A (notação B ⊃ A) se A está contido em B.
Entre as partes de E vamos introduzir as operações: união, interseção e
complementação.
Definição 1.2 A união de dois subconjuntos A, B ⊂ E, que denotaremos por
A + B, é o subconjunto de E definido por
A + B = {x ∈ E : x ∈ A ou x ∈ B}.
Definição 1.3 A interseção de dois subconjuntos A, B ⊂ E, que denotaremos por AB, é o subconjunto de E definido por
AB = {x ∈ E : x ∈ A e
x ∈ B}.
Definição 1.4 O complemento de um subconjunto A ⊂ E, que denotaremos
por A, é o subconjunto de E definido por
A = {x ∈ E : x ∈
/ A}.
1
2
CAPÍTULO 1. CÁLCULO DE FREQÜÊNCIAS
Observações 1.5
1. A parte vazia (sem elementos) de E, é denotada por ∅.
2. Indicaremos por card(A) (lê-se: cardinal de A), o número de elementos
de um subconjunto finito A ⊂ E.
3. A união também é denotada por A ∪ B, e a interseção por A ∩ B.
Propriedades 1.6 As seguintes propriedades decorrem das definições.
1
E=∅
∅=E
2
X +X =X
XX = X
3
X +X =E
XX = ∅
4
X +∅=X
XE = X
5
X +E =E
X∅ = ∅
6
X +Y =Y +X
XY = Y X
7
X + (Y + Z) = (X + Y ) + Z
X (Y Z) = (XY ) Z
8 X + (Y Z) = (X + Y ) (X + Z)
X (Y + Z) = (XY ) + (XZ)
9
X +Y =XY
XY = X + Y
10
X=X
11
X=Y ⇔X=Y
12
X ⊂Y ⇔X ⊃Y
X ⊃Y ⇔X ⊂Y
13
X ⊂X +Y
X ⊃ XY
Observação 1.7 As propriedades 2 e 10 são de idempotência, a propriedade
6 chama-se comutatividade, a propriedade 7 chama-se associatividade e a propriedade 8 distributividade.
1.1.1
Dualidade
Da propriedade 9 (Leis de Morgan) resulta o seguinte.
Se uma parte A de E se deduz de outras partes X, Y , Z de E pela aplicação,
não importa em que ordem, das operações de união, interseção e complementação, obter-se-á o complementar A, substituindo-se as partes X, Y , Z pelos
seus complementares, e as operações de união e interseção, pelas de interseção
e união respectivamente, respeitada a ordem das operações. É a regra de
dualidade. Tem esse nome porquê uma nova aplicação da regra restaura a
expressão anterior.
1.1. ÁLGEBRA DE SUBCONJUNTOS
3
Exemplo 1.8 Calculemos o complementar de
A = X + Y Z XZ + Y
usando a regra de dualidade.
Podemos escrever imediatamente
A = X Y + Z + X + Z Y.
Pela distributividade da interseção em relação à união, temos
Mas
A = X Y + XZ + XY + ZY =
= X Y + Y + XZ + ZY = X + XZ + ZY.
pois que XZ ⊂ X. Logo
X + XZ + ZY = X + ZY,
A = X + ZY.
Obtenhamos o mesmo resultado, primeiro desenvolvendo a expressão original e depois complementando.
A = XXZ + XY + Y ZXZ + Y Z Y =
= XZ + XY = X Z + Y
pois que XX = X, ZZ = ∅ e Y Y = ∅.
Complementando, temos
A =X Z +Y =X + Z +Y =X +ZY =
= X + ZY .
Exemplo 1.9 Dos 50 pacientes do terceiro andar de um hospital, 12 tem
mais de 70 anos. Entre êstes 8 são mulheres. Quantos pacientes são mulheres
ou não tem mais de 70 anos?
Solução
Seja M o subconjunto
das
mulheres e V o subconjunto dos idosos. Desejamos calcular card M + V .
Ora,
M + V = M V + V + V = MV + MV + V = M V + V .
Então, como MV e V são disjuntos,
card M + V = card MV + V = card (MV )+card V = 8+(50 − 12) = 46.
4
1.2
CAPÍTULO 1. CÁLCULO DE FREQÜÊNCIAS
Freqüências
Seja E um conjunto finito com n elementos, isto é, card (E) = n.
Definimos f : PE → R por
f (A) =
card (A)
,
card (E)
∀A ⊂ E,
e chamamos f (A) freqüência de A.
Propriedades 1.10 Básicas
1) f (E) = 1
2) f (A) ≥ 0,
∀A ⊂ E
3) A ∩ B = ∅
⇒
f (A + B) = f (A) + f (B)
Prova.
1) f (E) =
card(E)
card(E)
=1
2) f (A) ≥ 0, pois card (A) ≥ 0 e card (E) ≥ 0
3) f (A + B) =
card(A+B)
card(E)
=
card(A)
card(E)
+
card(B)
card(E)
= f (A) + f (B)
As propriedades seguintes são conseqüências simples das propriedades básicas.
Propriedades 1.11
4) f (∅) = 0
5) f (A) + f A = 1
6) Se A1 , A2 , . . . Am são disjuntos, isto é, i = j
⇒ Ai Aj = ∅, então
f (A1 + A2 + · · · + Am ) = f (A1 ) + f (A2 ) + · · · + f (Am )
7) A ⊂ B
⇒
f (A) ≤ f (B)
8) f (A + B) = f (A) + f (B) − f (AB) ,
∀A, B ⊂ E
1.2. FREQÜÊNCIAS
5
Definição 1.12 Seja A ⊂ E com f (A) = 0.
Definimos a aplicação
fA : PE → R
por
fA (B) =
f (AB)
,
f (A)
∀B ⊂ E.
O valor fA (B) é chamado freqüência de B condicionada a A.
Proposição 1.13 A função fA satisfaz as mesmas propriedades 1 a 8 de f.
Prova.
Basta verificar as propriedades básicas 1, 2 e 3, pois as restantes são conseqüências.
Verificação de 1)
fA (E) =
f (AE)
f (A)
=
= 1.
f (A)
f (A)
Verificação de 2)
fA (B) =
f (AB)
≥ 0.
f (A)
Verificação de 3)
Seja BC = ∅. Então
fA (B + C) =
f (A (B + C))
f (AB + AC)
=
.
f (A)
f (A)
Como (AB) (AC) = A (BC) = ∅, resulta
fA (B + C) =
f (AB) + f (AC)
= fA (B) + fA (C) .
f (A)
Podemos então interpretar fA (B) como a freqüência em A dos elementos
de B.
Proposição 1.14 Seja A1 , A2 , · · · An ⊂ E, onde n > 1.
Se f (A1 A2 · · · An−1 ) = 0 então f (A1 A2 · · · An ) = 0.
Se f (A1 A2 · · · An−1 ) = 0 então
f (A1 A2 · · · An ) = f (A1 ) fA1 (A2 ) fA1 A2 (A3 ) · · · fA1 A2 ···An−1 (An ) .
6
CAPÍTULO 1. CÁLCULO DE FREQÜÊNCIAS
Prova.
1) Suponhamos que f(A1A2 · · · An−1 ) = 0.
Em geral, se A ⊂ B e f (B) = 0, resulta f (A) = 0.
Como A1 A2 · · · An ⊂ A1 A2 · · · An−1 temos então
f (A1A2 · · · An ) = 0.
2) Suponhamos que f(A1A2 · · · An−1 ) = 0.
Em geral, se A ⊂ B e f (A) = 0, resulta f (B) = 0.
Como A1 ⊃ A1 A2 ⊃ · · · A1 A2 · · · An−1, temos
f (A1 ) = 0,
f (A1A2 ) = 0,
···
f (A1 A2 · · · An−2 ) = 0.
Podemos então escrever:
f (A1 A2 · · · An ) = f (A1 )
f (A1 A2 ) f(A1 A2 A3 )
f (A1A2 · · · An )
···
,
f (A1 ) f (A1 A2 )
f (A1 A2 · · · An−1 )
isto é,
f (A1 A2 · · · An ) = f (A1 ) fA1 (A2 ) fA1 A2 (A3 ) · · · fA1 A2 ···An−1 (An ) .
1.3
Universo e Amostras
Seja U um conjunto sobre o qual desejamos obter informações. Este conjunto é chamado Universo pelos estatísticos (também População ou Espaço
Amostral).
Se U é finito e o número de elementos não muito grande, podemos ”recenseálo”. Se, porém, U é infinito ou de cardinal muito elevado, essa operação é
inviável.
Procura-se, então, obter uma amostra por meio de um número finito n de
provas. Em cada prova, obtemos um elemento da amostra por extração de
um elemento do universo.
A técnica utilizada para obtenção de um elemento da amostra é chamada
técnica de amostragem e esta pode ser bastante complexa.
1.3. UNIVERSO E AMOSTRAS
7
O importante é que em cada prova a extração seja feita com a mesma técnica, e sempre do mesmo universo. Isso implica que a técnica de amostragem
em cada prova seja realizada com reposição, caso contrário o universo já
não seria mais o mesmo na prova seguinte, e por maior razão, a técnica de
amostragem já seria outra!
Seja A uma propriedade atribuível aos elementos do Universo. Cada elemento dêste pode ter ou não essa propriedade, também chamada atributo.
Ao atributo A fica associado um subconjunto de U definido por
{x ∈ U : x possui o atributo A}.
Indicaremos esse subconjunto pelo mesmo símbolo A.
Reciprocamente, dado um subconjunto A de U , seus elementos possuem o
atributo
“x ∈ A”,
que indicaremos por A, e que por sua vez determina o subconjunto.
Estabelecemos, então, uma correspondência biunívoca entre atributos e
subconjuntos.
Da mesma forma temos uma correspondência biunívoca entre atributos dos
elementos de uma amostra E e subconjuntos de E.
Seja A ⊂ E. Podemos então falar na freqüência f (A) do “subconjunto A”
ou “atributo A”, calculada na amostra.
Seja A ⊂ U . Se o Universo é infinito, não podemos calcular a freqüência
de A no Universo pois não está definida (vide definição de freqüência). Se,
porém, U é finito, indicaremos por f u (A) a freqüência de A no Universo.
Observações 1.15
1) Como uma amostra é obtida sempre com reposição, o número de elementos da amostra pode ser menor, igual ou maior que o número de
elementos do Universo.
2) Mesmo quando a amostra tem menor número de elementos, não pode
ser identificada com um subconjunto do Universo, pois podem existir
elementos distintos da amostra que provem do mesmo elemento do Universo.
8
CAPÍTULO 1. CÁLCULO DE FREQÜÊNCIAS
3) Consideremos um Universo finito. Conforme a técnica de amostragem, a
freqüência de um atributo na amostra pode ser completamente diferente
da freqüência no Universo do atributo correspondente.
1.3.1
Lei da Regularidade Estatística
Esta lei também chamada “lei da estabilidade das freqüências” é uma lei empírica, isto é, verificada pela experiência. Por isso é chamada “lei” e não
“teorema” ou “axioma”, pois pertence ao domínio das ciências experimentais
e não da matemática.
O enunciado envolve por natureza uma certa imprecisão. A seguir apresentamos a formulação contida em [CRAMER, Section 13.3 ] adaptada as nossas
notações e terminologia.
Dados um Universo U, uma técnica de amostragem, se nos observarmos a
freqüência f (A) de um atributo A ⊂ U em amostras com um número crescente
n de elementos, nos observaremos em geral que f (A) mostra uma acentuada
tendência de se tornar mais ou menos constante para grandes valores n.
A “impressão” que se tem é a da existência de uma freqüência ideal para
a qual convergiria a freqüencia, observada numa amostra com n elementos,
quando n tendesse ao infinito.
Os ganhos dos cassinos em todo o mundo estão baseados na verificação
diária da validade da lei da regularidade estatística em seus “jogos de azar”.
É esta lei que motiva a introdução da noção matemática de Probabilidade
e que garante a sua aplicabilidade prática.
1.3.2
Técnica de Amostragem Ocasional
Consideremos um Universo finito e uma técnica de amostragem.
Diremos que essa técnica é ocasional se para todo atributo A, tivermos
f (A) ≈ f u (A) ,
em grandes amostras.
1.3. UNIVERSO E AMOSTRAS
9
A lei da regularidade estatística garante a estabilidade da freqüência f (A)
calculada em amostras grandes.
A técnica de amostragem será ocasional se essa estabilidade se der em torno
da freqüência do atributo A no Universo f u (A).
A verificação, se uma dada técnica de amostragem é ou não ocasional, se
faz, em última análise, experimentalmente.
É imediato verificar que uma técnica de amostragem é ocasional se, e só
se, a freqüência de cada elemento do Universo em grandes amostras é aproxi1
madamente igual a card(U
.
)
1.3.3
Amostragem ocasional estratificada
Consideremos um universo finito U , particionado em N partes, isto é,
U = A1 + A2 + · · · + AN
onde Ai Aj = ∅,
para i = j,
e suponhamos conhecidas as freqüências
f u (Ai ) ,
i = 1, 2, . . . N.
Formemos uma amostra E obtendo a partir de cada Ai uma amostra parcial
Ei com uma técnica de amostragem ocasional. Teremos
E = E1 + E2 + · · · + EN
onde Ei Ej = ∅,
para i = j.
Seja F ⊂ U um atributo qualquer. Teremos
fEi (F ) ≈ fAui (F ) ,
porque a amostragem em cada Ai foi ocasional.
Podemos agora estimar a freqüência de F no universo U. Temos
u
f (F ) =
N
f
u
(Ai ) fAui
(F ) ≈
i=1
1.3.4
N
f u (Ai ) fEi (F ) .
i=1
Amostragem ocasional estratificada proporcional
Nas mesmas condições da subseção anterior, suponhamos agora que o número
de elementos em cada amostra parcial Ei ⊂ E foi escolhido proporcional ao
número de elementos de Ai ⊂ U. Então
f u (Ai ) = f (Ei ) ,
i
= 1, 2, . . . N,
10
CAPÍTULO 1. CÁLCULO DE FREQÜÊNCIAS
e portanto
u
f (F ) ≈
N
u
f (Ai ) fEi (F ) =
i=1
1.4
Leitura
• [CRAMER, Section 13.3]
N
i=1
f (Ei ) fEi (F ) = f (F ) .
Capítulo 2
Cálculo de Probabilidades I
No Capítulo 1 vimos que a freqüência de um atributo A aplicável aos elementos
do universo U , calculada em amostras grandes, é praticamente estável.
Do ponto de vista prático é como se a cada atributo do universo, ou o que
dá no mesmo, a cada subconjunto do universo, estivesse associado o valor de
uma “freqüência ideal” que estaria sendo estimada em cada amostra.
Para podermos trabalhar matematicamente com êsse conceito, vamos batizálo de probabilidade, e sujeitá-lo a alguns axiomas calcados nas propriedades
básicas das freqüências vistas no Capítulo 1.
Para mantermos um tratamento elementar, vamos nos restringir neste capítulo a Universos enumeráveis, conceito êste que definiremos a seguir. Mais
tarde mostraremos como estender a teoria para o caso em que o Universo é não
enumerável como, por exemplo, a reta real R, ou o espaço m-dimensional
Rm .
2.1
Conjuntos Enumeráveis
Definição 2.1 Diremos que um conjunto U é enumerável se ele é finito, ou
se existe uma correspondência biunívoca entre U e o conjunto dos números naturais N = {1, 2, 3, . . .}. Em palavras mais simples, um conjunto é enumerável
se seus elementos podem ser enumerados.
Exemplo 2.2 São exemplos de conjuntos enumeráveis:
a) O conjunto {e1 , e2 , e3, e4}.
b) O conjunto dos números naturais N.
11
12
CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I
c) O conjunto Q dos números racionais, isto é, dos números da forma
n e m são inteiros.
n
,
m
onde
d) O conjunto dos pares (n, m) onde n e m são inteiros positivos.
e) O conjunto dos pares (p, q) onde p e q são números racionais.
Exercício 2.3 Exibir uma enumeração dos elementos dos conjuntos do exemplo anterior.
2.2
Axiomas
Seja U um universo enumerável, e seja P : PU → R. A aplicação P leva
partes de U em R, isto é, associa a cada subconjunto A (atributo A) de U um
número real P (A).
Se P satisfizer os axiomas:
1) P (A) ≥ 0,
∀A ∈ PU
2) P (U) = 1
∞
3) Se
i=1 Ai é uma união de subconjuntos disjuntos Ai ⊂ U, então
∞
∞
P
Ai =
P (Ai ) ,
i=1
i=1
diremos que P é uma função probabilidade.
Se A ⊂ U, chamaremos P (A) probabilidade de A.
Observações 2.4
1. O axioma 3) é calcado na propriedade 3) das freqüências, mas é estendido
para o caso de uma união enumerável de subconjuntos disjuntos.
2. Nos problemas práticos a função probabilidade ou é dada, ou é calculada
a partir de funções probabilidade conhecidas ou é escolhida de forma a
se ajustar às freqüências calculadas em amostras grandes.
3. As proposições que serão enunciadas a seguir, são decorrências lógicas
dos axiomas e definições. São válidas, independentemente de qualquer
interpretação estatística da probabilidade P .
2.3. CONSEQÜÊNCIAS DOS AXIOMAS
2.3
13
Conseqüências dos axiomas
Proposição 2.5 P (∅) = 0.
Prova.
Podemos escrever
∅=
∞
i=1
∅i
onde os ∅i são vazios, e portanto disjuntos entre si.
Pelo axioma 3) temos
∞ ∞
P (∅) = P
∅i =
P (∅i ) =
i=1
= lim
n→∞
n
i=1
i=1
P (∅i ) = lim (P (∅) + P (∅) + · · · + P (∅)) =
n→∞
= lim nP (∅) .
n→∞
O único valor possível para P (∅) é zero.
Proposição 2.6 Se A, B ⊂ U são disjuntos, isto é, se AB = ∅, então
P (A + B) = P (A) + P (B) .
Prova.
De fato, pelo terceiro axioma e pela proposição 2.5, temos
p (A + B) = P (A + B + ∅ + ∅ + ∅ + · · ·) =
= P (A) + P (B) + P (∅) + P (∅) + P (∅) + · · · = P (A) + P (B) .
Corolário 2.7 P (A) + P A = 1.
Corolário 2.8 Se A1 , A2 , . . . An ⊂ U são disjuntos, então
P (A1 + A2 + · · · + An ) = P (A1 ) + P (A2 ) + · · · + P (An ) .
Proposição 2.9 Se A ⊂ B, então P (A) ≤ P (B).
14
CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I
Prova.
Como B = A + BA e A · BA = ∅. podemos aplicar a proposição 2.6 e
escrever
P (B) = P A + BA = P (A) + P BA .
Pelo axioma 1 P BA ≥ 0, e portanto
P (A) ≤ P (B) .
Proposição 2.10 Sejam A, B ⊂ U. Em geral vale:
P (A + B) = P (A) + P (B) − P (AB) .
Prova.
Das igualdades
A + B = AB + AB + AB,
AB + AB = A,
AB + AB = B,
teremos, por serem AB, AB e AB disjuntos,
P (A + B) P (AB) + P AB P (AB) + P AB
= P (AB) + P AB + P AB ,
= P (A) ,
= P (B) .
Somando-se membro a membro resulta
P (A + B) + P (AB) = P (A) + P (B) .
Proposição 2.11 Sejam A1 , A2 , . . . An ⊂ U tais que
1.
Ai Aj = ∅
para i = j,
2.
A1 + A2 + · · · + An = U,
3.
P (Ai ) = P (Aj )
para i = j.
2.3. CONSEQÜÊNCIAS DOS AXIOMAS
15
Então, se B = A1 + A2 + · · · + Am com m ≤ n, teremos
P (B) =
m
,
n
isto é, P (B) será igual ao quociente do número de casos favoráveis sôbre o
número de casos possíveis, igualmente prováveis.
Prova.
Com efeito, pelo corolário 2.8 temos
P (B) = P (A1) + P (A2 ) + · · · + P (Am ) ,
donde
P (U) = P (A1 ) + P (A2) + · · · + P (An ) ,
P (B) m
= .
P (U)
n
Mas pelo axioma 2, P (U) = 1, e portanto
P (B) =
m
.
n
Observação 2.12 A função P : PU → R fica completamente conhecida
se forem conhecidos os valores P ({ei }) para os subconjuntos {ei } ⊂ U que
possuem um único elemento. Para aliviar a notação, indicaremos P ({ei }) por
P (ei ).
Para um subconjunto finito qualquer
A = {e1 , e2 , . . . en } ⊂ U,
teremos
P (A) =
n
P (ei ) ,
i=1
e para um subconjunto infinito
A = {e1 , e2 , e3 , . . .} ⊂ U,
teremos
P (A) =
∞
i=1
P (ei ) .
16
CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I
Em particular para A = U teremos
P (U) =
∞
P (ei ) = 1.
i=1
Reciprocamente, se tivermos um universo U com n elementos, poderemos
construir uma funcão de probabilidade, tomando números pi ≥ 0 tais que
n
pi = 1,
i=1
e fazendo
P (ei ) = pi ,
i = 1, 2, . . . n.
Se o universo U for infinito enumerável, podemos tomar uma seqüência
p1 , p2 , p3 , . . . ,
de números reais não negativos, tais que
∞
pi = 1,
i=1
e analogamente fazer
P (ei ) = pi ,
i = 1, 2, 3, . . .
Definição 2.13 Seja A ⊂ U e P (A) = 0.
Definiremos PA : PU → R por
PA (B) =
P (AB)
.
P (A)
O valor PA (B) é chamado probabilidade de B condicionada a A.
Observação 2.14 Nos problemas práticos, PA (B) pode ser estimado numa
grande amostra por fA (B) (freqüência de B condicionada a A).
Reciprocamente o conhecimento de PA (B) constitui-se numa previsão de
fA (B) .
2.3. CONSEQÜÊNCIAS DOS AXIOMAS
17
Proposição 2.15 A função PA é uma função probabilidade definida
sôbre U.
Prova.
Basta verificar que os tres axiomas estão satisfeitos.
1. Como P (AB) ≥ 0 e P (A) > 0, resulta da definição de PA que
PA (B) ≥ 0, ∀B ⊂ U .
2. Verifiquemos que PA (U) = 1. De fato,
PA (U ) =
3. Seja
P (A)
P (AU)
=
= 1.
P (A)
P (A)
Bi uma união enumerável de subconjuntos disjuntos de U.
Teremos,
PA
=
Bi
P (A Bi )
PA ( ABi )
=
=
=
P (A)
P (A)
P (ABi ) P (ABi ) =
=
PA (Bi ) .
P (A)
P (A)
Portanto o terceiro axioma está verificado.
Corolário 2.16 Todas as propriedades de P serão automaticamente propriedades
de PA .
Proposição 2.17 Sejam B, C ⊂ U tais que P (BC) = 0.
Então [PB ]C (A) = PBC (A).
Prova.
Como BC ⊂ B e P (BC) > 0, resulta P (B) > 0.
Podemos então escrever
[PB ]C (A) =
PB (CA)
P (BCA) P (B)
=
·
=
PB (C)
P (B)
P (BC)
=
P (BCA)
= PBC (A) .
P (BC)
18
CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I
Observação 2.18 A proposição 2.17 diz que o condicionamento de probabilidades condicionadas não conduz a novos entes.
Proposição 2.19 Seja A1 , A2 , · · · An ⊂ U, onde n > 1.
Se P (A1 A2 · · · An−1 ) = 0 então P (A1A2 · · · An ) = 0.
Se P (A1 A2 · · · An−1 ) = 0 então
P (A1A2 · · · An ) = P (A1 ) PA1 (A2 ) PA1 A2 (A3 ) · · · PA1 A2 ···An−1 (An ) .
Prova.
A demonstração desta proposição é igual à da proposição 1.14. Basta
substituir a letra f por P .
2.4
O Conceito de Independência
Definição 2.20 Seja P uma função probabilidade definida sôbre um universo
U. Sejam B e A subconjuntos de U .
Diremos que B é independente de A se
PA (B) = P (B)
ou PA (B) = P (B) .
Observação 2.21 Num problema prático, a função de probabilidade P
é escolhida de forma a prever as freqüências em grandes amostras. Se B é
independente de A segundo a definição 2.20, teremos numa grande amostra
fA (B) ≈ f (B)
ou fA (B) ≈ f (B) .
Então com boa aproximação, a ocorrência ou a não ocorrência de A
não afeta a ocorrência de B.
Esta é a noção intuitiva de independência, traduzida em termos matemáticos pela definição.
Proposição 2.22 Condição necessária e suficiente para que B seja independente de A é que
P (AB) = P (A) P (B) .
2.4. O CONCEITO DE INDEPENDÊNCIA
19
Prova.
a) A condição é necessária
Seja B independente de A. Então
PA (B) = P (B)
ou PA (B) = P (B) .
Se for aplicável a primeira alternativa, teremos
P (AB)
= P (B)
P (A)
donde
P (AB) = P (A) P (B) .
Se for aplicável a segunda, obtemos
P AB
= P (B)
P A
donde
P AB = P A P (B) .
Substituindo P AB = P (B) − P (AB) e P A = 1 − P (A), temos
P (B) − P (AB) = (1 − P (A)) P (B) = P (B) − P (A) P (B) .
Portanto
P (AB) = P (A) P (B) .
b) A condição é suficiente
Suponhamos que P (AB) = P (A) P (B).
Se P (A) = 0, podemos escrever
P (AB)
= P (B) ,
P (A)
isto é,
PA (B) = P (B) .
20
CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I
Se for P (A) = 0, substituimos P (A) = 1 − P A
e P (AB) = P (B) − P AB , em P (AB) = P (A) P (B) obtendo
P (B) − P AB = 1 − P A P (B) ,
isto é,
P AB = P A P (B) .
Temos agora P A = 0, e analogamente ao caso P (A) = 0, obtemos
PA (B) = P (B) .
Corolário 2.23 Se B é independente de A, então A é independente de B,
pela simetria da igualdade P (AB) = P (A) P (B). Diremos daqui por diante
que A e B são independentes entre si.
Definição 2.24 Seja Ak , k = 1, 2, 3, . . ., uma sequência finita ou infinita
de subconjuntos de U.
Dizemos que os Ak são independentes entre si, se para todo inteiro n
positivo e para toda n-pla Ak1 , Ak2 , . . . Akn de elementos distintos da sequência, vale
P (Ak1 Ak2 · · · Akn ) = P (Ak1 ) P (Ak2 ) . . . P (Akn ) .
Exercício 2.25 Sejam A1 , A2 , . . . An B1B2 . . . Bm
P (B1B2 · · · Bm ) = 0. Prove que
independentes entre si, e
PB1 B2 ...Bm (A1A2 · · · An ) = P (A1 A2 · · · An ) .
Exercício 2.26 Sejam A1, A2, . . . An B1 B2 . . . Bm independentes entre si. Prove
por indução sobre n que
P A1 A2 · · · An B 1 B 2 · · · B m = P (A1 ) P (A2 ) · · · P (An ) P B 1 P B 2 · · · P B m .
Observação 2.27 Nos problemas de probabilidades, em face da expressão
P (A1 A2 · · · An ) procederemos da seguinte maneira:
1. Se A1, A2, . . . An ⊂ U são independentes entre si, escreveremos
P (A1A2 · · · An ) = P (A1 ) P (A2 ) · · · P (An ) .
2.5. PROBABILIDADE E AMOSTRAGEM OCASIONAL
21
2. Se A1 , A2, . . . An ⊂ U não forem independentes entre si, tentaremos a
decomposição
P (A1A2 · · · An ) = P (A1 ) PA1 (A2 ) PA1 A2 (A3 ) · · · PA1 A2 ···An−1 (An ) .
Se conseguirmos, será correta a decomposição.
3. Se não for possível a decomposição, será porquê P (A1 A2 · · · Ai ) = 0 para
algum i, 1 ≤ i < n, o que implica
P (A1 A2 · · · An ) = 0.
2.5
Probabilidade e Amostragem ocasional
Seja U um universo finito com n elementos, e formemos uma grande amostra
com uma técnica de amostragem ocasional.
Seja A um atributo que define um subconjunto A do universo. Seja m o
cardinal de A. Pela definição de amostragem ocasional temos
f (A) ≈ fu (A) ,
isto é, a freqüência f (A) de A, calculada na amostra, é aproximadamente igual
à freqüência fu (A) de A, calculada no universo U.
Então, uma escolha conveniente, nestas circunstâncias, para a função probabilidade P : PU → R, é a função fu : PU → R. Definimos então:
P (A) = fu (A) =
m
.
n
Se a técnica de amostragem não for ocasional, uma boa escolha de
P : PU → R será aquela em que definimos P por
P (A) = f (A) ,
∀A ⊂ U,
onde f (A) é a freqüência de A calculada numa amostra bastante grande.
Neste caso P (A) pode ser muito diferente de fu (A).
A amostragem ocasional só é possível para universos finitos. A segunda
alternativa para escolha de P pode ser aplicada para universos não finitos,
pois uma amostra é sempre finita.
22
CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I
Exemplo 2.28 Para exemplificarmos o que acabamos de explicar, consideremos uma urna contendo 5 bolas brancas b1, b2 , b3 , b4, b5 e 5 bolas vermelhas
v1, v2, v3 , v4 , v5 .
Retiremos ao acaso uma bola da urna, isto é, empreguemos uma técnica de
amostragem ocasional.
O que resulta de uma prova será um elemento do universo. Portanto este
poderá ser considerado como sendo constituído pelas 10 bolas.
Indiquemos por B o atributo “branco” e por V o atributo “vermelho”. A
probabilidade de branco será
P (B) =
5
1
= .
10
2
Alteremos agora a técnica de amostragem. A nova técnica será a seguinte.
Retiramos ao acaso uma bola. Se não for branca, devolvemos à urna e repetimos a operação até que saia uma bola branca. Temos agora um elemento da
amostra.
Repetimos a técnica de amostragem até ter uma grande amostra com 100
elementos.
Qual será a freqüência na amostra dos atributos “branco” e “vermelho”?
Obviamente teremos f (B) = 1 e f (V ) = 0, bem diferentes das freqüências
respectivas no universo que são fu (B) = 0.5 e fu (V ) = 0.5.
Portanto esta nova técnica de amostragem não é ocasional.
Qual a função de probabilidade P apropriada neste caso? A freqüencia de
uma particular bola branca bi na amostra será aproximadamente
f (bi ) ≈
1
5
e a freqüência de uma bola vermelha vj será
f (vj ) = 0.
Portanto uma boa escolha de P será aquela determinada por
1
P (bi ) = ,
5
i = 1, 2, 3, 4, 5,
e
P (vj ) = 0, j = 1, 2, 3, 4, 5.
5
i=1 P (bi ) +
j=1 P (vj ) = 1, os axiomas de probabilidades ficam
5
Como
satisfeitos.
2.6. CONSIDERAÇÕES PRÁTICAS
23
Exercício 2.29 Explique porquê, na segunda técnica de amostragem do exemplo anterior, temos
1
f (bi ) ≈ .
5
2.6
Considerações Práticas
Como devemos atacar um problema sôbre probabilidades?
É claro que para podermos usar os resultados teóricos precisamos conhecer
o universo U e a função probabilidade P .
Pelo enunciado do problema nem sempre é óbvio qual é o universo que
devemos adotar, principalmente quando a técnica de amostragem é de alguma
complexidade.
Conheceremos o universo se soubermos reconhecer seus elementos. O que
é que se obtém numa prova, isto é, numa aplicação da técnica de amostragem?
Ora, é exatamente um elemento do universo.
Então olhamos para o que temos em mãos após a execução da técnica de
amostragem. O universo U será o conjunto dos elementos dêsse tipo.
Quando termina a descrição da técnica de amostragem? Como a técnica
de amostragem determina a probabilidade P que é apropriada para o problema, logo que alguma pergunta é feita referente a probabilidades, a técnica de
amostragem já deverá ter sido descrita.
Estas considerações serão ilustradas nos exemplos que serão apresentados.
2.7
Exemplos
Exemplo 2.30 Sabendo-se que a probabilidade de ruptura de um elo, de uma
corrente com tres elos, vale 1/3, qual a probabilidade de ruptura da corrente?
Solução
a) Fixemos, inicialmente, para melhor compreensão do problema uma possível
técnica de amostragem compatível com o enuciado acima. Consideremos, por exemplo, que uma corrente de tres elos seja separada da produção segundo um critério determinado e ensaiada da seguinte maneira:
suspende-se a corrente e aplica-se no elo inferior uma carga P durante
um certo tempo t.
24
CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I
b) Ao aplicarmos a técnica de amostragem, efetuamos uma prova, isto é, retiramos um elemento do Universo. Ora, que resulta da nossa técnica de
amostragem que nos interesse? A resposta é simples: uma combinação
de elos rompidos e não rompidos. Portanto o conjunto das possíveis combinações de rupturas e não rupturas dos elos da corrente, em número de
23 = 8, associado à ténica de amostragem descrita no item a) constituirá
o Universo a ser considerado.
c) O passo seguinte será exprimir o evento X cuja probabilidade nos interessa (ruptura da corrente) em função dos eventos Ri de probabilidades
conhecidas (rupturas dos elos).
Teremos
X = R1 + R2 + R3
pois rompe-se a corrente quando se rompe algum elo:
P (X) = P (R1 + R2 + R3 ) =
P (R1 ) + P (R2) + P (R3 ) − P (R1 R2 ) − P (R2 R3 ) − P (R1 R3 ) + P (R1R2 R3 ).
Supondo-se que as rupturas dos diversos elos ocorrem independentemente
entre si, teremos
P (X) = P (R1 ) + P (R2 ) + P (R3 ) −
−P (R1 ) P (R2 ) − P (R2 ) P (R3) − P (R1 ) P (R3) + P (R1 ) P (R2 ) P (R3 ) =
= 1/3 + 1/3 + 1/3 − 1/9 − 1/9 − 1/9 + 1/27 = 19/27.
Uma solução mais simples seria
P (X) = 1 − P X = 1 − P R1 + R2 + R3 = 1 − P R1 R2R3 =
1 − P R1 P R2 P R3 = 1 − 2/3 · 2/3 · 2/3 = 19/27.
Observação 2.31 Como poderia ser obtida a informação sôbre a probabilidade de ruptura de um elo, caso não fosse este dado fornecido pelo enunciado?
O caminho a seguir seria constituir-se uma amostra pela realização de n ensaios utilizando-se n correntes de tres elos, segundo a técnica de amostragem
escolhida, e calcular-se as frequências de ruptura dos elos superior, médio e
inferior. Essas frequências seriam então as probabilidades a serem adotadas.
Se correta a informação contida no enunciado, obteriamos para esses tres
valores, aproximadamente 1/3. A hipótese de independência utilisada na
2.7. EXEMPLOS
25
solução, poderia também ser testada nessa amostra calculando-se as frequências condicionadas
fR1 (R2 ) ,
fR1 (R3) ,
fR2 (R3) ,
fR1 R2 (R3) ,
e verificando se
fR1 (R2 ) ≈ f (R2 ) ,
fR1 (R3 ) ≈ f (R3 ),
fR2 (R3 ) ≈ f (R3 ) ,
fR1 R2 (R3 ) ≈ f (R3 ) .
Quanto maior a amostra, tanto maior a confiança com que concluiremos
sobre os diversos quesitos.
O valor obtido na solução do problema, P (X) = 19/27, será considerado na
prática, como uma frequência ideal de ruptura, isto é, como uma antecipação
da frequência de ruptura numa amostra qualquer.
Exemplo 2.32 A probabilidade de um canhão à uma distância d do alvo
acertar um tiro é 50%.
À que distância deve ser colocada uma bateria de 4 canhões para que a
probabilidade de cairem duas balas no alvo ao atirarem os 4 canhões seja
3/32. Sabe-se que a probabilidade de um tiro atingir o alvo é inversamente
proporcional ao quadrado da distância.
Solução
O resultado da aplicação da técnica de amostragem (atirarem os quatro
canhões) será uma possível combinação de acertos e erros (elemento do Universo).
Indicando por Ai o evento “canhão i acertar o alvo” ”, o evento “acertar
duas balas no alvo” que indicaremos por X, será expresso por
A = A1A2 A3 A4+A1 A2 A3 A4+A1 A2 A3 A4+A1 A2 A3 A4+A1 A2 A3A4 +A1 A2 A3A4 .
Considerando agora os símbolos X e Ai como representações dos subconjuntos do Universo determinados pelos eventos correspondentes, podemos escrever
P (X) = P A1A2 A3 A4 + P A1 A2 A3A4 + P A1A2 A3 A4 +
+P A1A2 A3 A4 + P A1 A2 A3A4 + P A1 A2A3 A4 .
Supondo-se independência entre os tiros teremos
P (X) = 6P (A1) P (A2) P A3 P A4 .
26
CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I
Chamando P (Ai ) = p e substituindo P (X) = 3/32 ficamos com
3
= 6p2 (1 − p)2
32
ou
p2 − p ±
cujas soluções são
p1
p2
p3
p4
=
=
=
=
Calculemos a distância x.
Para p = p3 temos
e para p = p4
√
2+ 6
4√
2− 6
4√
2+ 2
4√
2− 2
4
1
=0
8
> 1 não serve,
< 0 não serve,
aceitável,
aceitável.
p
d2
= 2.
0, 5
x
√
2d
x=
√
2+ 2
√
2d
√ .
2− 2
x= Exemplo 2.33 Numa fábrica, tres máquinas produzem lâmpadas segundo a
tabela:
% de defeituosos na produção
de cada máquina
Máquina % da produção total
A
B
C
20
55
25
3
5
4
Qual a probabilidade de uma lâmpada tomada ao acaso e verificada defeituosa
ter sido fabricada pela máquina B?
Solução
Indiquemos por A o evento “ocorrência de uma lâmpada fabricada pela
máquina A”. Analogamente para B e C.
Indiquemos por D o evento “ocorrência de uma lâmpada defeituosa”.
2.7. EXEMPLOS
27
O enunciado pede PD (B). Pela definição de probabilidade condicionada
PD (B) =
P (BD) P (B) PB (D)
=
.
P (D)
P (D)
P (D) não é conhecida, mas pode ser determinada efetuando-se a decomposição
D = (A + B + C) D = AD + BD + CD.
Como AD, BD, CD, são incompatíveis,
P (D) = P (A) PA (D) + P (B) PB (D) + P (C) PC (D)
donde
P (B) PB (D)
.
P (A) PA (D) + P (B) PB (D) + P (C) PC (D)
Tomando-se as frequências tabeladas como estimativas das probabilidades
respectivas, teremos uma estimativa de PD (B)
PD (B) =
PD (B) ≈
ou
0, 55 × 0, 05
= 0, 1264
0, 20 × 0, 03 + 0, 55 × 0, 05 + 0, 25 × 0, 04
PD (B) ≈ 12, 64 %
Exemplo 2.34 Numa linha de produção uma unidade bruta é processada
em série por tres máquinas e entra numa linha de inspecção onde um operário
separa os defeituosos. A segunda e terceira máquinas possuem dispositivos
automáticos que rejeitam unidades semiacabadas defeituosas. Sabendo-se que
a probabilidade de não rejeição pelos dispositivos automáticos é 2p quando
a unidade ja foi processada defeituosamente uma vez e p quando duas vezes
e ainda que as probabilidades de processamento defeituoso valem respectivamente q, 2q, 3q, conforme ja tiver havido 0, 1, 2, processamentos defeituosos,
pergunta-se qual a probabilidade de uma unidade que chega à linha de inspecção ser rejeitada.
Mostrar que no caso particular em que os mecanismos de rejeição funcionem
perfeitamente (p = 0), a solução será como era de se esperar igual a q.
Solução
Numerando-se as operações segundo a ordem em que são realizadas, o Universo a ser considerado será constituido pelas possíveis combinações de processamentos defeituosos ou não defeituosos nas operações 1, 3 e 5, com rejeições
ou não rejeições nas operações 2 e 4.
28
CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I
Indiquemos por Di , (i = 1, 3, 5), os eventos “ocorrência de processamento
defeituoso na operação i ” e por Fj , (j = 2, 4), os eventos “ocorrência de não
rejeição na operação j ”.
A probabilidade pedida é a probabilidade associada à ocorrência de algum
processamento defeituoso, condicionada à não rejeição nas operações 2 e 4, isto
é,
P ((D1 + D3 + D5 ) F2F4 )
PF2 F4 (D1 + D3 + D5 ) =
.
P (F2 F4)
Calculemos o numerador.
Podemos escrever
D1 + D3 + D5 = D1 D3 D5 + D1 D3 D5 + D1 D3 D5+
+D1 D3D5 + D1D3 D5 + D1 D3 D5 + D1 D3 D5 .
Portanto
P ((D1 + D3 + D5) F2 F4 ) = P (D1F2 D3 F4 D5) +
+P D1F2 D3 F4 D5 + P D1 F2 D3 F4 D5 + P D1 F2 D3 F4D5 +
+P D1F2 D3 F4D5 + P D1F2 D3 F4D5 + P D1F2 D3 F4D5 .
Exemplo do cálculo de uma das parcelas
P (D1 F2D3 F4 D5 ) = P (D1) PD1 (F2 ) PD1 F2 (D3 ) PD1 F2 D3 (F4) PD1 F2 D3 F4 (D5) =
= q × 2p × 2q × p × 3q = 12p2 q3 .
Efetuando todos os cálculos e simplificando obtemos
P ((D1 + D3 + D5 ) F2F4 ) = 4q (1 − q) p2 + 2q (1 − q) p + q (1 − q)2
Calculemos o denominador
F2 F4 = (D1 + D3 + D5) F2 F4 + (D1 + D3 + D5 )F2 F4 =
= (D1 + D3 + D5 ) F2F4 + D1D3 D5 F2 F4
P (F2F4 ) = P ((D1 + D3 + D5 ) F2 F4) + P D1F2 D3 F4 D5
A primeira parcela ja foi calculada. A segunda vale
P D1 F2 D3 F4 D5 = P D1 PD1 (F2) PD1 F2 D3 PD1 F2 D3 (F4 ) PD1 F2 D3 F4 P D5 =
2.7. EXEMPLOS
29
= (1 − q) × 1 × (1 − q) × 1 × (1 − q) = (1 − q)3 .
Finalmente
4q (1 − q) p2 + 2q (1 − q) p + q (1 − q)2
PF2 F4 (D1 + D3 + D5) =
2
3.
4q (1 − q) p2 + 2q (1 − q) p + q (1 − q) + (1 − q)
Simplificando
PF2 F4 (D1 + D3 + D5 ) =
4qp2 + 2qp + q (1 − q)
.
4qp2 + 2qp + (1 − q)
Fazendo p = 0 obtemos como era de se esperar
PF2 F4 (D1 + D3 + D5) = q.
Exemplo 2.35 Duas urnas contém bolas brancas e pretas. A primeira
contém a bolas brancas e b bolas pretas. A segunda contém a bolas pretas e b
brancas.
Uma série de extrações ao acaso são feitas de acordo com as seguintes
regras:
• Em cada extração apenas uma bola é retirada e imediatamente devolvida
à mesma urna.
• Se a bola retirada resultar branca a extração seguinte é feita da primeira
urna. Se preta, da segunda.
• A primeira extração é feita da primeira urna.
Qual a probabilidade que a bola retirada na extração n seja branca?
Solução
Como a probabilidade de se retirar uma bola branca numa extração depende do que possa ter ocorrido na anterior, chamando Bi o evento “ocorrência
de bola branca na extração i ” consideremos a relação
Bn+1 = Bn + B n Bn+1 = Bn Bn+1 + B n Bn+1
donde
P (Bn+1 ) = P Bn Bn+1 + B n Bn+1 = P (Bn Bn+1 ) + P B n Bn+1 =
30
CAPÍTULO 2. CÁLCULO DE PROBABILIDADES I
= P (Bn ) PBn (Bn+1 ) + P B n PB n (Bn+1) .
Pelas hipóteses
P (Bn+1) = P (Bn )
b
a
+ P Bn
=
a+b
a+b
a
b
+ (1 − P (Bn ))
.
a+b
a+b
Chamando P (Bi ) = pi temos
P (Bn )
pn+1 =
b
a−b
pn +
.
a+b
a+b
Esta é uma equação de diferenças com condição inicial
p1 =
a
.
a+b
A solução da equação é
1
pn =
2
a−b
a+b
n
+
1
2
como se pode verificar por substituição na equação de diferenças.
Logo
1 a−b n 1
P (Bn ) =
+ .
2 a+b
2
Capítulo 3
Variáveis Aleatórias
Neste capítulo consideraremos apenas universos U enumeráveis, dotados de
uma função de probabilidade P .
Uma variável aleatória, neste contexto, nada mais é que uma função real
x : U → R, definida sôbre U. Quando formos estudar o caso de universos não
enumeráveis, teremos que restringir essa definição.
Por meio da variável aleatória x, podemos caracterizar atributos de U de
forma quantitativa, como, por exemplo,
A = {e ∈ U : x (e) = 5} ,
ou
B = {e ∈ U : 2, 3 ≤ x (e) < 5, 1} .
Como U é enumerável, o conjunto dos valores possíveis que x (e) pode
assumir, isto é, a imagem x (U), de U por x, é também enumerável.
Usaremos as notações
x (U) = {x1, x2 , . . .} ⊂ R,
Xi = {e ∈ U : x (e) = xi }.
Pela definição dos Xi é claro que
Xi = U, e que Xi Xj = ∅, para i = j,
isto é, os subconjuntos Xi formam uma partição de U .
Denotaremos o valor x (e) também por xe .
31
32
3.1
CAPÍTULO 3. VARIÁVEIS ALEATÓRIAS
Esperança Matemática
Definição 3.1 Enumeremos os elementos de U: e1, e2, . . . es , . . .
Definimos esperança matemática da variável aleatória x, que denotaremos por µ (x), por
µ (x) =
n
x (es ) P (es ) ,
se U é finito,
(3.1)
s=1
e caso contrário, por meio da série
µ (x) =
∞
x (es ) P (es ) ,
(3.2)
s=1
desde que a série seja absolutamente convergente.
Caso a série não seja absolutamente convergente, x não admite esperança
matemática.
Observação 3.2 Uma série é dita absolutamente convergente, se a série
dos valores absolutos dos termos, converge. A convergência absoluta implica
a existência de µ (x), isto é, do limite
µ (x) = lim
n→∞
n
x (es ) P (es ) ,
s=1
finito e independente da particular enumeração de U.
Observação 3.3
Agrupando-se nas expressões em 3.1 e 3.2, os termos
x (es ) P (es ) para os quais x (es ) = xi , e evidenciando-se os valores xi obtemos
m
µ (x) =
xi P (Xi ) , se x (U) é finito,
i=1
ou caso contrário,
µ (x) =
∞
i=1
xi P (Xi ) .
3.1. ESPERANÇA MATEMÁTICA
3.1.1
33
Interpretação Estatística da Esperança Matemática
Seja U um universo enumerável, E uma amostra obtida com uma particular
técnica de amostragem, P uma função probabilidade adaptada a esta técnica
de amostragem e x : U → R uma variável aleatória que admite esperança
matemática.
Sabemos que se a amostra E é suficientemente grande, temos
P (Xi ) ≈ f (Xi ) ,
onde f (Xi ) é a freqüência de Xi calculada na amostra.
Teremos então,
xi P (Xi ) ≈
xi f (Xi ) = x,
µ (x) =
i
i
onde x ∈ R é a média dos valores de x obtidos na amostra.
Como a amostra é finita, teremos f (Xi ) = 0 apenas para um número finito
de índices.
Concluindo, a média dos valores de x numa amostra grande é uma estimativa de µ (x) e, pela estabilidade das freqüências, µ (x) pode ser considerada
uma previsão da média em amostras grandes.
Seja n o número de elementos da amostra e z1 , z2, . . . zn os valores, distintos
ou não, da variável aleatória x, obtidos na amostra. Então a média x se exprime
como:
n
j=1 zj
x=
n
3.1.2
Propriedades da Esperança Matemática
Definição 3.4 Sejam x : U → R, e y : U → R, variáveis aleatórias, e
k ∈ R uma constante. Indicaremos por k + x, x + y, kx e xy, novas variáveis
aleatórias definidas por
(k + x) (e) = k + x (e)
, (x + y) (e) = x (e) + y (e)
(kx) (e) = kx (e)
, (xy) (e) = x (e) y (e)
Proposição 3.5 Sejam x, y, variáveis aleatórias que admitem esperança matemática,
e k1 , k2 ∈ R, constantes. Então
µ (k1 x + k2 y) = k1 µ (x) + k2µ (y) .
34
CAPÍTULO 3. VARIÁVEIS ALEATÓRIAS
Prova.
Suponhamos o universo finito com n elementos, U = {e1 , e2 , . . . en }.
µ (k1x + k2 y) =
n
(k1 x + k2 y) (es ) P (es ) =
s=1
=
n
[k1x (es ) + k2y (es )] P (es ) = k1
s=1
n
x (es ) P (es ) + k2
s=1
n
y (es ) P (es ) =
s=1
= k1 µ (x) + k2µ (y) .
∞Se U for infinito enumerável, basta substituir na demonstração
.
n
por
Definição 3.6 Dizemos que duas variáveis aleatórias x e y são independentes,
se as partiçoes {Xi } e {Yj } de U determinadas por x e y forem independentes,
isto é, se Xi e Yj forem independentes para ∀i, j.
Proposição 3.7 Se x, y são variáveis aleatórias independentes que admitem
esperança matemática, então
µ (xy) = µ (x) µ (y) .
Prova.
Suponhamos o universo finito com n elementos, U = {e1 , e2 , . . . en }.
µ (xy) =
n
(xy) (es ) P (es ) =
s=1
n
x (es ) y (es ) P (es ) .
s=1
Agrupando-se os valores x (es ) y (es ) P (es ) para os quais
e y (es ) = yj ,
x (es ) = xi
e evidenciando-se os produtos xi yj obtemos
µ (xy) =
xi yj P (Xi Yj ) .
i,j
Devido à independência
P (Xi Yj ) = P (Xi ) P (Yj ) ,
3.2. VARIANÇA
35
donde
µ (xy) =
xi P (Xi )
i
yj P (Yj ) = µ (x) µ (y) .
j
∞Se U for infinito enumerável, basta substituir na demonstração
.
3.2
n
por
Variança
Definição 3.8 Definimos variança da variável aleatória x, que denotaremos
por σ 2 (x), por
σ2 (x) = µ [x − µ (x)]2 ,
se existir.
Chamando x − µ (x) de desvio a expressão acima é lida: a variança é a
esperança matemática do quadrado do desvio. O valor σ (x) ≥ 0 é chamado
desvio padrão.
Observação 3.9 Enumeremos os elementos de U: e1 , e2 , . . . es , . . .
Da definição obtemos as seguintes expressões para σ2 (x),
2
σ (x) =
n
s=1
e
2
σ (x) =
∞
s=1
[x (es ) − µ (x)]2 P (es ) ,
[x (es ) − µ (x)]2 P (es ) ,
se U é finito,
(3.3)
se U é infinito.
(3.4)
Agrupando-se nas expressões em 3.3 e 3.4, os termos [x (es ) − µ (x)]2 P (es )
para os quais x (es ) = xi , e evidenciando-se os valores [xi − µ (x)]2 obtemos
2
σ (x) =
m
i=1
[xi − µ (x)]2 P (Xi ) ,
se x (U ) é finito,
ou caso contrário,
σ 2 (x) =
∞
i=1
[xi − µ (x)]2 P (Xi ) .
36
CAPÍTULO 3. VARIÁVEIS ALEATÓRIAS
3.2.1
Interpretação Estatística da Variança
Seja U um universo enumerável, E uma amostra obtida com uma particular
técnica de amostragem, P uma função probabilidade adaptada a esta técnica
de amostragem e x : U → R uma variável aleatória que admite esperança
matemática e variança.
Sabemos que se a amostra E é suficientemente grande, temos
P (Xi ) ≈ f (Xi ) ,
onde f (Xi ) é a freqüência de Xi calculada na amostra.
Teremos então,
σ 2 (x) =
[xi − µ (x)]2 P (Xi ) ≈
[xi − µ (x)]2 f (Xi ) = s20,
i
i
onde s20 ∈ R é uma medida da dispersão dos valores de x obtidos na amostra.
Como a amostra é finita, teremos f (Xi ) = 0 apenas para um número finito
de índices. Um inconveniente de s20 é que seu emprego exige o conhecimento
de µ (x). Mais adiante introduziremos a estimativa s2 para σ2 (x), que usa a
média x em lugar da esperança matemática µ (x).
Seja n o número de elementos da amostra e z1 , z2, . . . zn os valores, distintos
ou não, da variável aleatória x, obtidos na amostra. Então s20 se exprime como:
s20
=
n
j=1
2
[zj − µ (x)]
n
A notação s20 foi empregada em [VAN DER WAERDEN, parágrafo 18].
3.2.2
Propriedades da Variança
Proposição 3.10 Sejam x, y, variáveis aleatórias independentes que admitem
esperança matemática e variança, e sejam k1 , k2 ∈ R, constantes. Então
σ2 (k1 x ± k2 y) = k12σ 2 (x) + k22σ 2 (y) .
Prova.
Indiquemos, para aliviar a escritura, µ (x) por µ1 , e µ (y) por µ2 .
Calculemos:
σ2 (k1x ± k2 y) = µ [k1 x ± k2y−µ (k1 x ± k2 y)]2 =
3.2. VARIANÇA
37
= µ [k1x ± k2 y− (k1µ1 ± k2µ2)]2 =
= µ [k1 (x−µ1 ) ± k2 (y−µ2)]2 =
= µ k12 (x−µ1 )2 + k22 (y−µ2 )2 ± 2k1 k2 (x−µ1) (y−µ2 ) =
= k12µ [x−µ1 ]2 + k22 µ [y−µ2 ]2 ± 2k1k2 µ ([x−µ1 ] [y−µ2 ]) .
Porém
µ ([x−µ1 ] [y−µ2 ]) = µ (xy − µ1y−µ2 x+µ1 µ2 ) =
= µ (xy) − µ1µ2 − µ2µ1 + µ1 µ2 =
= µ (xy) − µ (x) µ (y) .
Como x e y são independentes, resulta µ (xy) − µ (x) µ (y) = 0.
Portanto
σ2 (k1 x ± k2 y) = k12σ 2 (x) + k22σ 2 (y) .
Proposição 3.11 Seja x uma variável aleatória com µ (x) = µ e σ2 (x) =
σ 2.
2
Então µ (x) = µ, µ (s20 ) = σ 2 e σ2 (x) = σn .
Prova.
n
n
1
1
j=1
zj =
µ (zj ) = n µ = µ.
µ (x) = µ
n
n j=1
n
µ s20 = µ
n
j=1
(zj − µ (x))2
n
Como os zj são independentes
n
2
σ (x) = σ
2
j=1
n
zj
n
1
1
=
µ (zj − µ (x))2 = nσ 2 = σ 2.
n j=1
n
n
1 2
1
σ2
2
= 2
σ (zj ) = 2 n σ = .
n j=1
n
n
Observação 3.12 Os resultados µ (x) = µ e µ (s20 ) = σ2 dizem que as
estimativas x da esperança matematica µ e s2 da variança são justas. Uma
estimativa é justa quando a esperança matemática da estimativa é igual ao
parâmetro estimado.
38
CAPÍTULO 3. VARIÁVEIS ALEATÓRIAS
Proposição 3.13 Seja x uma variável aleatória e z1, z2 , . . . , zn os valores obtidos numa amostra de n elementos. Então s2 definido por
n
2
j=1 (zj − x)
2
s =
n−1
é uma estimativa justa da variança σ 2 (x) = σ2 , isto é, µ (s2 ) = σ 2.
Prova.
n
j=1
=
n
j=1
=
n
j=1
Mas
n
j=1
Portanto
(zj − x) =
j=1
2
(zj − µ + µ − x)2 =
(zj − µ) − 2 (x − µ)
(zj − µ) =
n
n
j=1
n
j=1
(zj − µ) + n (x − µ)2 .
(zj ) − nµ = nx − nµ = n (x − µ) .
(zj − x)2 =
µ s2 =
=
n
(zj − µ)2 + 2 (zj − µ) (µ − x) + (µ − x)2 =
j=1
Finalmente
2
n
j=1
(zj − µ)2 − n (x − µ)2 .
n
1
µ
(zj − µ)2 − n (x − µ)2 =
n−1
j=1
1 1 2
n µ s20 − n µ (x − µ (x))2 =
nσ − n σ 2 (x) =
n−1
n−1
1
σ2
=
nσ2 − n
= σ2 .
n−1
n
Observação 3.14
1, 2, . . . , m, temos
Em termos dos valores distintos na amostra xi i =
m
n s =
(xi − x)2 f (Xi )
n − 1 i=1
2
onde Xi é o evento ocorrência do valor xi na amostra.
3.3. DESIGUALDADE DE CHEBICHEV
3.3
39
Desigualdade de Chebichev
Seja x uma variável aleatória com esperança matemática µ (x) = µ e variança
σ 2 (x) = σ2 .
Introduzamos a nova variável aleatória
x−µ
t=
.
σ
Caculemos a esperança matemática e a variança da nova variável.
x−µ
µ (x) − µ
= 0,
µ (t) = µ
=
σ
σ
x−µ
σ 2 (x)
2
2
σ (t) = σ
= 1.
=
σ
σ2
A variável t pode assumir os valores
ti =
xi − µ
.
σ
Indiquemos por Ti ⊂ U o subconjunto
Ti = {e ∈ U : t (e) = ti } ,
e por ξ um número real ξ ≥ 1.
Podemos agora esvrever
2
1 = σ 2 (t) = µ t2 =
ti P (Ti ) ≥
t2i P (Ti ) ≥
i
≥
isto é,
|ti |≥ξ
ξ 2 P (Ti ) = ξ 2
|ti |≥ξ
|ti |≥ξ
P (Ti ) = ξ 2P {e ∈ U : |t (e)| ≥ ξ} ,
1
.
ξ2
P {e ∈ U : |t (e)| ≥ ξ} ≤
Retornando à variável original, temos
|x (e) − µ|
1
P e∈U :
≥ ξ ≤ 2.
σ
ξ
Temos então a desigualdade de Chebichev
P {|x (e) − µ| ≥ ξσ} ≤
1
,
ξ2
40
CAPÍTULO 3. VARIÁVEIS ALEATÓRIAS
que diz: a probabilidade de ocorrer um valor de x que dista da esperança
matemática µ não menos que ξ vezes o desvio padrão σ, é menor ou igual a
1/ξ 2 .
Observação 3.15 A desigualdade de Chebichev extrai dos parâmetros µ e
σ, informações neles contidas sôbre P .
3.4
Distribuições de Probabilidade
Seja U um universo enumerável, P : PU → R uma função probabilidade
e x : U → R uma variável aleatória.
Seja x (U) = {x1 , x2, . . .} e Xi = {e ∈ U : x (e) = xi } , i = 1, 2, . . .
A função p : x (U) → R definida por
p (xi ) = P (Xi ) ,
i = 1, 2, . . .
é chamada distribuição de probabilidade da variável alatória x.
Pela definição é evidente que p satisfaz as propriedades
p (xi ) ≥ 0, ∀i e
p (xi ) = 1.
i
A esperança matemática e a variança de x se escrevem em termos de p
como
µ (x) =
xi p (xi ) e σ2 =
(xi − µ (x))2 p (xi ) .
i
i
Observação 3.16
Uma distribuição de probabilidade p costuma ser
representada num gráfico cartesiano, marcando-se no eixo dos x as abcissas
xi e levantando-se segmentos verticais por essas marcas, cujos comprimentos
valem p (xi ).
3.5
Exemplos
Exemplo 3.17 Qual a porcentagem esperada de ganho, de um banqueiro,
sôbre as apostas na roleta?
Solução
3.5. EXEMPLOS
41
Os números na roleta variam de 0 a 36 e o zero está excluído das apostas.
O nosso Universo será
U = {e ∈ N : 0 ≤ e ≤ 36} .
Consideremos a aposta de uma ficha. Para cada modalidade de jogo (aposta
num número, no vermelho ou no preto, no grande ou no pequeno, na primeira,
segunda ou terceira duzia, etc) o ganho do banqueiro numa aposta de uma
ficha será uma função x do número sorteado
x:U →R
Supondo-se uma roleta não viciada (amostragem ocasional), as probabilidades de cada número serão iguais a 1/37.
Portanto a função x será uma variável aleatória.
Para cada modalidade de jogo, essa função é definida pelo cassino de forma
a garantir o seu lucro.
Por exemplo, na aposta no número e = 10, a função x é definida por
x (e) = 1 se e = 10
e
x (e) = −35 se e = 10.
Calculemos a esperança matemática de x.
µ (x) =
x (e) P ({e}) =
36
e=0
e∈U
x (e)
1
1
1
= (36 × 1 + 1 × (−35))
= .
37
37
37
Pela interpretação da esperança matemática, podemos dizer que o banqueiro ganhará em media, num grande número de apostas de uma ficha, 37
avos de ficha por aposta.
Como ja vimos o cálculo da esperança matemática pode ser feito de uma
maneira alternativa. O conjunto dos valores que a função x pode assumir é
x (U) = {x1 , x2} = {1, −35} .
As probabilidades de X1 = {e : x (e) = 1} e X2 = {e : x (e) = −35}
valem respectivamente P (X1) = 36/37 e P (X2 ) = 1/37. Então
µ (x) =
2
i=1
xi P (Xi ) = 1 ×
1
1
36
− 35 ×
= .
37
37
37
O resultado seria o mesmo para aposta em qualquer outro número no intervalo 1 ≤ e ≤ 36.
42
CAPÍTULO 3. VARIÁVEIS ALEATÓRIAS
Para todas as modalidades de jogo, a definição de x é tal que o resultado
é sempre 1/37.
Por exemplo, no jogo na primeira dúzia, a definição de x é
x (e) = 1 se 13 ≤ e ≤ 36 ou e = 0
Resulta
x (e) = −2 se 1 ≤ e ≤ 12.
25
12
1
−2×
= .
37
37
37
Como pode-se mostrar, o resultado se mantém com qualquer número de
jogadores, jogando em quaisquer das modalidades, quantias quaisquer.
Portanto a porcentagem esperada de ganho do banqueiro é de 100
= 2, 7027% . . ..
37
µ (x) = 1 ×
Exemplo 3.18 Conhecidas as probabilidades pi , i = 0, 1, 3, . . ., de realizar i vendas de um certo artigo num certo período de tempo, quer-se calcular o número de unidades n que se deve ter em estoque para uma operação
o mais económica possível, sabendo-se que
• ganho por unidade vendida no período = G,
• prejuizo por unidade não vendida no período = L.
Solução
Consideremos o Universo U = {0, 1, 2, 3, . . .} cujos elementos são os
números de venda no período e a função de probabilidade P : PU→R conhecida
através das informações P ({i}) = pi .
O lucro y(n) (i) apurado num período para i vendas é calculado por
y(n) (i) = Gi − L (n − i) ,
se i < n,
e
Introduzamos a nova variável aleatória x(n)
x(n) (i) = i,
se i < n,
e
y(n) (i) = Gn,
se i ≥ n.
definida por
x(n) (i) = n,
se i ≥ n.
Podemos então exprimir a variável aleatória y(n) em funcão de x(n)
y(n) = Gx(n) − L n − x(n) .
A esperança matematica do ganho com n unidades em estoque será
µ y(n) = Gµ x(n) − L n − µ x(n) =
3.5. EXEMPLOS
43
= (G + L) µ x(n) − Ln.
Para descobrirmos o valor de n que maximiza µ y(n) , uma estratégia é
procurar o primeiro valor de n tal que
∆µ y(n) = µ y(n+1) − µ y(n) ≤ 0.
Calculemos ∆µ y(n)
∆µ y(n) = (G + L) ∆µ x(n) − L =
= (G + L) µ ∆x(n) − L.
De
∆x(n) (i) = x(n+1) (i) − x(n) (i)
obtemos
∆x(n) (i) = 0,
Então
se i ≤ n,
∆x(n) (i) = 1,
e
∞
n
µ ∆x(n) =
pi = 1 −
pi
i=n+1
Por substituição
∆µ y
ou
(n)
= (G + L)
i=0
1−
n
pi
i=0
−L
n
(n) ∆µ y
= G − (G + L)
pi .
i=0
Agora fica fácil determinar o valor ótimo de n.
se i > n.
Capítulo 4
Distribuições Binomial e de
Poisson
4.1
Distribuição Binomial
Seja p ∈ R, tal que 0 ≤ p ≤ 1, e q = 1 − p.
Seja n ∈ N.
Desenvolvendo (p + q)n obtemos
n n x n−x
n
1 = (p + q) =
p q .
x
x=0
(4.1)
Seja U = {0, 1, 2, . . . n} ⊂ R, e definamos pn : U → R por
n x n−x
pn (x) =
p q .
x
De nx px qn−x ≥ 0, e de 4.1, vemos que pn pode ser considerada uma distribuição de probabilidade de uma variável aleatória x : U → R, definida
por
x (x) = x, x = 0, 1, . . . n.
É chamada distribuição binomial ou distribuição de Bernoulli.
A função de probabilidade P : PU → R será então calculada por
P (X) =
pn (x) , ∀X ⊂ U.
x∈X
A esperança matemática e a variança da distribuição, valem
µ = np,
44
4.1. DISTRIBUIÇÃO BINOMIAL
45
e
σ 2 = npq.
No exemplo a seguir, veremos como a distribuição binomial aparece naturalmente num importante problema, e aproveitaremos para calcular µ e σ2 .
Exemplo 4.1 Enunciemos o problema.
Aplicamos uma determinada técnica de amostragem n vezes, e de cada
vez classificamos o resultado como sucesso que indicaremos com a letra a ou
fracasso que indicaremos com a letra b. A pergunta é: qual a probabilidade
de x sucessos nas n provas?
Solução
Sigamos os conselhos emitidos em 2.6.
A técnica de amostragem deve estar totalmente descrita quando a pergunta
é feita. O que temos nesse momento? A resposta é: uma seqüência de sucessos
e fracassos, ou sinteticamente uma seqüencia de a’s e b’s num total de n.
Portanto o universo U será o conjunto das seqüências e1 e2 . . . en onde cada ei
pode ser a ou b. É um conjunto finito com 2n elementos.
O evento cuja probabilidade se pede é a ocorrência do atributo número x
de a’s, isto é, do subconjunto
Bx = {e1 e2 . . . en ∈ U : número de a’s = x} .
Seja Ai ⊂ U definido por
Ai = {e1 e2 . . . en ∈ U : ei = a} ,
isto é, definido pelo atributo sucesso na prova i.
Podemos exprimir Bx em termos dos Ai e dos Ai ,
Bx = A1A2 · · · Ax Ax+1 Ax+2 · · · An + · · · ,
onde no segundo membro devemos incluir como termos da soma todas as combinações que contenham x fatores Ai e n − 1 fatores Aj .
Como os termos são disjuntos entre si, teremos
P (Bx ) = P A1 A2 · · · AxAx+1 Ax+2 · · · An + · · · ,
isto é, P (Bx ) é igual a soma das probabilidades dos termos.
46
CAPÍTULO 4. DISTRIBUIÇÕES BINOMIAL E DE POISSON
Pela técnica de amostragem sabemos que os Ai , i = 1, 2, . . . n, são independentes entre si, e tem igual probabilidade que chamaremos de p. Portanto a
n−x
probabilidade de cada parcela será px (1 − p) .
Como o número de parcelas
n é igual ao número de combinações dos A1, A2 , . . .,An
tomados x a x, que vale x , teremos
n x
P (Bx ) =
p (1 − p)n−x .
x
Chamando 1 − p = q, temos finalmente,
n x n−x
Pn (x) = P (Bx ) =
p q .
x
Calculemos a esperança matemática e a variança da variável aleatória x :
U → R, definida por
x (e1e2 . . . en ) = x = número de a’s entre os ei .
Indiquemos por zi : U → R, a variável aleatória definida por

 1 se ei = a,
zi (e1 e2 . . . en ) =

0 se ei = a.
Temos então
x = z1 +z2 + · · · + zn .
Como as variáveis aleatórias zi são independentes entre si, podemos escrever
e
µ (x) = µ (z1 ) + µ (z2) + · · · + µ (zn ) ,
σ 2 (x) = σ2 (z1 ) + σ 2 (z2) + · · · + σ2 (zn ) .
Como os zi assumem os valores 1 ou 0 com probabilidades respectivamente
p e q obtemos
µ (zi ) = 1 × p + 0 × q = p,
e
σ 2 (zi ) = (1 − p)2 p + (0 − p)2 q =
= q2 p + p2 q = pq (q + p) = pq.
4.2. DISTRIBUIÇÃO DE POISSON
47
Portanto
µ (x) = np e σ2 (x) = npq.
Mas
µ (x) =
n
xP (Bx ) =
x=0
e
σ2 (x) =
n
x=0
n
xpn (x) = µ,
x=0
[x − µ (x)]2 P (Bx ) =
n
x=0
[x − µ]2 pn (x) = σ 2.
Portanto, a esperança matemática e a variança da distribuição binomial
valem
µ = np e σ2 = npq.
4.2
Distribuição de Poisson
Desenvolvendo eµ em série temos
µ2 µ3
+
+ ···
2!
3!
Seja U = {0, 1, 2, 3, . . .} ⊂ R, e µ > 0. Definamos p∞ : U → R por
eµ = 1 + µ +
p∞ (x) =
(4.2)
e−µ µx
.
x!
−µ x
De e x!µ ≥ 0, e de 4.2, vemos que p∞ pode ser considerada uma distribuição
de probabilidade de uma variável aleatória x : U → R, definida por
x (x) = x,
x = 0, 1, 2, . . .
É chamada distribuição de Poisson.
A função de probabilidade P : PU → R será então calculada por
P (X) =
p∞ (x) , ∀X ⊂ U.
x∈X
A esperança matemática e a variança da distribuição, valem
µ = µ,
e
σ2 = µ.
Observemos que o parâmetro µ que comparece na definição da distribuição
é a própria esperança matemática desta, e que o valor da variança coincide
com o da esperança matemática.
48
CAPÍTULO 4. DISTRIBUIÇÕES BINOMIAL E DE POISSON
4.2.1
Esperança e variança da distribuição de Poisson
Calculemos a esperança matemática.
∞
∞
∞
e−µ µx e−µ µx e−µ µx
x
=
x
=
=
x!
x!
(x − 1)!
x=1
x=1
x=0
∞
µ2 µ3
µ(x−1)
−µ
= µe
1+µ+
+
+ ··· =
(x − 1)!
2!
3!
x=1
−µ
= µe
= µe−µ eµ = µ.
Calculemos a variança.
σ2 =
∞
x=0
=
[x − µ]2
∞
x=0
∞
e−µ µx
e−µ µx 2
=
x − 2µx + µ2
=
x!
x!
x=0
x (x − 1) + (1 − 2µ) x + µ2
∞
∞
e−µ µx
=
x!
∞
e−µ µx e−µ µx 2 e−µ µx
+
(1 − 2µ) x
+
µ
=
=
x (x − 1)
x!
x!
x!
x=0
x=0
x=0
=
∞
x=2
x (x − 1)
∞
∞
e−µ µx
e−µ µx
µx
+ (1 − 2µ)
x
+ µ2 e−µ
=
x!
x!
x!
x=0
x=0
∞
e−µ µx
=
+ (1 − 2µ) µ + µ2e−µ eµ =
(x − 2)!
x=2
2 −µ
=µ e
2 −µ
=µ e
∞
µ(x−2)
+ µ − 2µ2 + µ2 =
(x
−
2)!
x=2
µ2 µ3
1+µ+
+
+ · · · + µ − µ2 =
2!
3!
= µ2 e−µ eµ + µ − µ2 = µ2 + µ − µ2 = µ.
4.2. DISTRIBUIÇÃO DE POISSON
4.2.2
49
Distribuição de Poisson como aproximação da distribuição binomial
Quando numa distribuição binomial n é muito grande e p muito pequeno,
podemos substituí-la aproximadamente pela distribuição de Poisson que tem
µ igual ao µ da distribuiçào binomial, isto é, µ = np.
Isso se justifica pelo seguinte limite
lim Pn (x) = P∞ (x) ,
n→∞
np=µ
isto é, a distribuição binomial converge para a distribuição de Poisson, quando
n tende ao infinito, mantendo-se constante o valor de µ. Como µ = np, o valor
p = nµ tende a zero.
Calculemos o limite
n!
lim Pn (x) = lim
px q(n−x) =
n→∞
n→∞ x! (n − x)!
np=µ
np=µ
µ x n!
µ n−x
1−
=
n→∞ x! (n − x)! n
n
n!
µx µ n µ −x
= lim
·
1
−
1
−
.
n→∞ (n − x)!nx
x!
n
n
= lim
Como
n!
→ 1,
(n − x)!nx
quando n → ∞, resulta
1−
µ −x
→ 1,
n
lim Pn (x) =
n→∞
np=µ
4.2.3
e
1−
µ n
→ e−µ ,
n
e−µ µx
= P∞ (x) .
x!
Distribuição de Poisson como distribuição correta
Seja U={0, 1, 2, . . .} e pθ : U → R, uma distribuição de probabilidade que
depende de um parâmetro θ. Denotaremos pθ (x) por p (x, θ).
Proposição 4.2 Uma condição necessária e suficiente para que
e−λθ (λθ)x
p (x, θ) =
,
x!
é que
x = 0, 1, 2, . . . ,
(4.3)
50
CAPÍTULO 4. DISTRIBUIÇÕES BINOMIAL E DE POISSON
1) p (x, θ1 + θ2 ) =
x
k=0
p (x − k, θ1) p (k, θ2 ) ,
x = 1, 2, 3, . . . ,
2) p (1, θ) = λθ + o (θ) ,
3) p (x > 1, θ) = o (θ) .
Observações 4.3
i) A distribuição definida pela expressão 4.3 é a distribuição de Poisson de
esperança matemática λθ.
ii) Por abuso de notação,
estamos indicando por p (x > 1, θ) a probabilidade
∞
P ({2, 3, 4, . . .}) = x=2 p (x, θ).
iii) A notação o (θ) indica uma função de θ que tende a zero quando θ → 0,
mais rapidamente que θ, isto é,
o (θ)
= 0.
θ→0 θ
lim
iv) A prova da proposição encontra-se no Anexo 1.
Exemplo 4.4 Consideremos a seguinte técnica de amostragem. Observamos
o intervalo de tempo [t1 , t2) e registramos o número x de chamadas telefônicas
recebidas. Analisando uma série de amostras percebemos que a freqüência do
número x de chamadas depende de T = t2 − t1 , e não de t1 ou t2. Então
uma distribuição apropriada para o universo U = {0, 1, 2, . . .} com a técnica
de amostragem descrita será da forma p (x, T ).
Dividamos o intervalo [t1 , t2) em dois subintervalos da mesma natureza, de
larguras respectivamente T1 e T2 . As distribuições de probabilidade correspondentes a êsses subintervalos serão dadas por p (x, T1 ) e p (x, T2).
Alteremos agora a técnica de amostragem inicial. Primeiro observemos o
número y1 de chamadas no intervalo de largura T1 e em seguida o número y2
de chamadas no intervalo de largura T2.
será agora formado pelos pares
O novo universo U
= (y1 , y2 ) ∈ {0, 1, 2, . . .} × {0, 1, 2, . . .} = U × U.
U
4.2. DISTRIBUIÇÃO DE POISSON
51
Podemos exprimir o atributo {(y1 , y2) : y1 + y2 = x}, como
{(y1 , y2) : y1 + y2 = x} =
=
x
k=0
{(y1 , y2 ) : y1 = x − k} {(y1 , y2 ) : y2 = k} .
Como os termos da união são disjuntos, e os atributos {y1 = k} e {y2 = x − k}
podem ser supostos independentes, devido à técnica de amostragem, teremos
P ({(y1, y2 ) : y1 + y2 = x}) =
=
x
k=0
P ({(y1 , y2 ) : y1 = x − k}) P ({(y1 , y2 ) : y2 = k}) .
Pela maneira como a técnica de amostragem se relaciona com as técnicas
originais nos intervalos de larguras T , T1 , T2 , podemos escrever
p (x, T1 + T2 ) =
x
k=0
p (x − k, T1 ) p (k, T2) ,
x = 1, 2, 3, . . .
Portanto a condição 1) fica satisfeita.
Pelo exame de várias amostras percebemos que a freqüência de uma única
chamada no intervalo, é aproximadamente proporcional a T se T é muito
pequeno. Traduzimos isso pela condição 2)
p (1, T ) = λT + o (T ) .
Da mesma maneira verificamos que a freqüência de mais de uma chamada
no intervalo, se T é muito pequeno, é desprezível. Traduzimos isso pela
condição 3)
p (x > 1, T ) = o (T ) .
Portanto pela proposição 4.2, p (x, T ) é dado pela distribuição de Poisson
de esperança matemática λT .
Capítulo 5
Probabilidade II - Extensão da
Teoria
5.1
Necessidade de uma extensão
Consideremos a seguinte técnica de amostragem. Tomamos uma roleta, graduada de 0 a 1 em sua circunferência. Giramos a roleta, e após sua parada
lemos o valor apontado por uma seta fixa. O resultado da aplicação da técnica
de amostragem é um número real no intervalo (0, 1]. Portanto o universo será
esse intervalo, que é um conjunto não enumerável.
Constituindo uma grande amostra, por repetição da técnica de amostragem,
podemos observar que a freqüência de um sub intervalo (a, b] resulta aproximadamente igual a b − a.
Gostariamos então de definir uma função P sôbre todas as partes de (0, 1],
satisfazendo os tres axiomas de probabilidades, e tal que
P ((a, b]) = b − a,
∀ (a, b] ⊂ (0, 1] .
Infelizmente, demonstra-se na Teoria da Medida, que não existe uma tal
função.
A solução, encontrada pelos matemáticos, é não exigir que uma função
probabilidade seja definida necessariamente sôbre todos os subconjuntos do
universo.
No caso acima descrito, é possível porém obter a função P definida sôbre
uma conveniente coleção A de subconjuntos de (0, 1]. Esta coleção deverá
obviamente conter os subintervalos (a, b]. Além disso, a coleção A deverá
satisfazer as seguintes propriedades para que possamos impor os axiomas de
52
5.1. NECESSIDADE DE UMA EXTENSÃO
53
probabilidades:
Ai ∈ A,
i = 1, 2, 3, . . .
A∈A
⇒
⇒
∞
i
Ai ∈ A,
A ∈ A.
Estudaremos as coleções de subconjuntos que satisfazem essas propriedades
na seção seguinte.
O fato de o universo ser não enumerável, não impede que existam funções
probabilidade definidas sôbre todos os suconjuntos, como mostra o exemplo
a seguir.
Exemplo 5.1 Seja U um universo enumerável dotado de uma função de
probabilidade P : PU → R e seja x : U → R uma variável aleatória. Por
meio de x, podemos construir um função probabilidade P (x) sobre todos os
subconjuntos de R (que não é enumerável), definindo
P (x) (A) = P x−1 (A) , ∀A ⊂ R,
onde x−1 (A) é a imagem inversa de A por x, isto é,
x−1 (A) = {e ∈ U : x (e) ∈ A}.
Os tres axiomas das probabilidades ficam satisfeitos. De fato
a) P (x) (A) = P (x−1 (A)) ≥ 0
b) P (x) (R) = P (x−1 (R)) = P (U ) = 1
c) Se Ai ⊂ R, i = 1, 2, . . . , são disjuntos, então os x−1 (Ai ) também são,
donde
(x)
−1
−1
P
Ai = P x
Ai
=P
x (Ai ) =
=
(x)
P x−1 (Ai ) =
P (Ai ) .
O conjunto R, faz aqui o papel de universo (não enumerável).
54
CAPÍTULO 5. PROBABILIDADE II - EXTENSÃO DA TEORIA
Observação 5.2 Neste capítulo estenderemos, de forma rigorosa, as definições
introduzidas no caso de Universos enumeráveis e justificaremos a definição estendida de esperança matemática por sua relação com a média numa amostra.
A maior parte das proposições não será demonstrada porquê os prerequisitos
excedem o nível deste texto.
No próximo capítulo serão analisados casos particulares que podem ser
tratados no nível de um curso de Cálculo I
5.2
Sigma álgebra de subconjuntos
Definição 5.3 Dizemos que uma coleção A, não vazia, de subconjuntos de U ,
constitue uma σ-álgebra se satisfaz as propriedades:
a) Se um subconjunto de U pertence à A, seu complementar pertence à A.
b) Toda união enumerável1 de subconjuntos de U que pertencem à A, pertence
à A.
Corolário 5.4 São conseqüências imediatas
i) ∅ ∈ A e U ∈ A pois, sendo B um elemento de A, temos U = B + B e
∅ = U.
ii) Toda interseção enumerável de subconjuntos de Ai ⊂ U que pertencem à
A, pertence à A, pois que
n
i=1
Ai =
n
i=1
Ai
e
∞
Ai =
i=1
∞
Ai .
i=1
iii) Se A ∈ A e B ∈ A, então A − B ∈ A, pois que
A − B = AB.
1
Neste texto estamos considerando os conjuntos finitos como enumeráveis.
5.2. SIGMA ÁLGEBRA DE SUBCONJUNTOS
55
Exemplo 5.5
1) A coleção PU de todos os subconjuntos de U é uma σ-álgebra.
2) A coleção {∅, U } de subconjuntos de U é uma σ-álgebra.
3) Sejam A, B, C, subconjuntos não vazios de U, disjuntos, e tais que
A + B + C = U.
Então a coleção {∅, A, B, C, A + B, B + C, A + C, U} é uma σ-álgebra.
Proposição 5.6 Seja C uma coleção qualquer de subconjuntos de U. Então
existe e é única uma σ-álgebra β que satifaz
i) β ⊃ C.
ii) Se A é uma σ-álgebra e A ⊃ C então A ⊃ β.
A σ-álgebra β é dita σ-álgebra gerada por C. É a menor σ-álgebra que
contém C.
5.2.1
Sigma álgebra de Borel na reta
Consideremos o caso extremamente importante em que U = R.
A σ-álgebra β gerada pelos intervalos da forma {x ∈ R : x ≤ c} é chamada
σ-álgebra de Borel e os elementos de β, borelianos.
São borelianos todos os tipos de intervalo. Comecemos com os intervalos
do tipo {x ∈ R : x < c}. Pela segunda propriedade da definição de σ-álgebra
temos
∞ 1
{x ∈ R : x < c} =
x∈R:x≤c−
∈ β.
n
n=1
Por complementação, temos pela primeira propriedade da definição de
σ-álgebra,
{x ∈ R : x > c} ∈ β,
e
{x ∈ R : x ≥ c} ∈ β.
56
CAPÍTULO 5. PROBABILIDADE II - EXTENSÃO DA TEORIA
Como interseções de elementos de β pertencem à β, podemos escrever
(a, b]
[a, b)
(a, b)
[a, b]
=
=
=
=
{x ∈ R : x > a} ∩ {x ∈ R : x ≤ b} ∈ β,
{x ∈ R : x ≥ a} ∩ {x ∈ R : x < b} ∈ β,
{x ∈ R : x > a} ∩ {x ∈ R : x < b} ∈ β,
{x ∈ R : x ≥ a} ∩ {x ∈ R : x ≤ b} ∈ β.
Os subconjuntos unitários pertencem à β, pois {a} = [a, a] ∈ β.
Os subconjuntos enumeráveis {x1 , x2 , x3 , . . .} pertencem à β, pois
{x1 , x2 , x3 , . . .} =
5.3
∞
i=1
{xi } ∈ β.
Reformulação dos axiomas de probabilidades
Enunciemos a nova versão dos axiomas de probabilidades
Seja U um universo, A uma σ-álgebra de subconjuntos de U, e P a aplicação P : A → R.
Axioma 5.7 Se P satisfizer os axiomas:
1) P (A) ≥ 0,
∀A ∈ A,
2) P (U) = 1
∞
3) Se
i=1 Ai é uma união de subconjuntos disjuntos Ai ∈ A, então
∞
∞
P
Ai =
P (Ai ) ,
i=1
i=1
diremos que P é uma função probabilidade.
Se A ∈ A, chamaremos P (A) probabilidade de A.
Exemplo 5.8 Retomemos o caso, analisado inicialmente, do intervalo (0, 1].
Seja β a σ-álgebra gerada pelos subintervalos (a, b] ⊂ (0, 1]. Demonstra-se que
existe e é única a função probabilidade P : β → R tal que
P ((a, b]) = b − a.
Vemos que a nova formulação resolve o impasse que existia com a antiga.
5.4. FUNÇÕES DE DISTRIBUIÇÃO
57
Observações 5.9
1) Todas as definições e proposições do Capítulo 2 continuam validas desde
que sejam considerados exclusivamente subconjuntos pertencentes à
σ-álgebra.
2) Como a coleção de todos os subconjuntos do universo U é uma σ-álgebra,
a teoria no caso de universo enumerável resulta um caso particular da
nova formulação.
3) As definições que serão introduzidas, o serão de tal maneira, que constituirão extensões dos conceitos correspondentes no caso de universos
enumeráveis.
5.4
Funções de Distribuição
Definição 5.10 Dizemos que a função F : R → R é uma função de distribuição (a uma variável) se satisfaz as seguintes propriedades
a)
lim F (x) = 1
x→∞
b)
lim F (x) = 0
x→−∞
F (x + h) − F (x) ≥ 0, ∀h ≥ 0
F (x) é contínua pela direita.
c)
d)
Dizemos que a função G : R2 → R é uma função de distribuição (a duas
variáveis) se satisfaz as seguintes propriedades
a)
b)
c)
d)
5.5
lim G (x, y) = 1
x→∞
y→∞
lim G (x, y) = lim G (x, y) = 0
x→−∞
y→−∞
G (x + h, y + k) − G (x + h, y) − G (x, y + k) + G (x, y) ≥ 0,
G (x, y) é contínua pela direita em relação a x e a y.
∀h ≥ 0, ∀k ≥ 0
Variáveis Aleatórias
Seja U um Universo (enumerável ou não), A uma σ-álgebra em U, e P : A →R
uma função probabilidade.
Como no caso de universo enumerável, uma variável aleatória será uma
uma função real x : U → R, definida sôbre o universo U. Imporemos contudo
uma condição que x deve satisfazer
58
CAPÍTULO 5. PROBABILIDADE II - EXTENSÃO DA TEORIA
{e ∈ U : x (e) ≤ c} ∈ A, ∀c ∈ R.
(5.1)
Esta condição é imposta para que possamos escrever P ({x ∈ U : x (x) ≤ c}).
A importância dessa condição ficará mais evidente a seguir.
Observação 5.11 Como, no caso anteriormente estudado para universos
enumeráveis, a σ-álgebra A era a coleção de todos os subconjuntos de U, a
condição 5.1 estava trivialmente satisfeita. Portanto a nova definição é extensão da anterior.
Proposição 5.12 Seja U um universo munido de uma σ-álgebra A, e de uma
função probabilidade P : A →R e sejam x :U → R e y : U → R variáveis
aleatórias.
Então as funções x + y, e xy, são variáveis aleatórias, isto é, satisfazem
a condição 5.1.
Observação 5.13 A função constante k : U → R definida por k (e) = k,
∀e ∈ U, é uma variável aleatória, pois

 U se k ≤ c
{e ∈ U : k (e) ≤ c} =

∅ se k > c.
Em conseqüência, as funções x+k e kx, são variáveis aleatórias.
Proposição 5.14 Seja x : U → R uma variável aleatória.
A função F : R → R definida por
F (x) = P ({e ∈ U : x (e) ≤ x}) ,
∀x ∈ R.
é uma função de distribuição, dita função de distribuição da variável aleatória
x.
Proposição 5.15 Sejam x : U → R e y : U → R variáveis aleatórias.
A função G : R2 → R definida por
G (x, y) = P ({e ∈ U : x (e) ≤ x} {e ∈ U : y (e) ≤ y})
é uma função de distribuição, dita função de distribuição do par de variáveis
aleatórias x e y.
5.6. ESPERANÇA MATEMÁTICA
59
Definição 5.16 Dizemos que duas variáveis aleatórias x e y são independentes se
P ({x (e) ≤ a} {y (e) ≤ b}) = P ({x (e) ≤ a}) P ({y (e) ≤ b})
quaisquer que sejam a, b ∈ R.
Proposição 5.17 Condição necessária e suficiente para que duas variáveis
aleatórias x e y sejam independentes é que
G (x, y) = F1 (x) F2 (y) ,
∀ (x, y) ∈ R2 ,
onde F1 , F2 e G, são as funções de distribuição de x, y e do par (x, y) respectivamente.
Podemos estender a noção de independência para um conjunto qualquer de
variáveis aleatórias.
Definição 5.18 Seja C um conjunto de variáveis aleatórias definidas sôbre o
Universo U. Diremos que essas variáveis aleatórias são independentes se para
todo subconjunto finito
{x1 , x2, . . . xn } ⊂ C
as variáveis aleatórias x1 , x2 , . . . , xn forem independentes, isto é, se para
quaisquer (a1 , a2 , . . . an ) ∈ Rn
P ({x1 (e) ≤ a1 } {x2 (e) ≤ a2 } · · · {xn (e) ≤ an }) =
= P ({x1 (e) ≤ a1 }) P ({x2 (e) ≤ a2 }) · · · P ({xn (e) ≤ an }) .
5.6
Esperança Matemática
Vamos generalizar a noçao de esperança matemática em tres etapas, do caso
mais simples ao mais geral. Mas antes mostremos como decompor uma variável
aleatória em suas partes positiva e negativa.
Definição 5.19 Seja x : U → R uma variável aleatória. Definimos a parte
positiva de x como a variável aleatória x+ : U → R definida por
x+ (e) = x (e)
x+ (e) = 0
se x (e) ≥ 0,
se x (e) < 0.
60
CAPÍTULO 5. PROBABILIDADE II - EXTENSÃO DA TEORIA
Analogamente definimos a parte negativa x− por
x− (e) = −x (e)
x− (e) = 0
se
se
x (e) ≤ 0,
x (e) > 0.
Das definições é claro que x+ ≥ 0, x− ≥ 0, e que
x = x + − x− .
e
|x| = x+ + x− .
Exemplo 5.20 Seja U = R e x definida por x (x) = x. Então,
x+ (x) = x se x ≥ 0,
x+ (x) = 0 se x < 0.
e
x− (x) = −x
x− (x) = 0
5.6.1
se x ≤ 0,
se x > 0.
Esperança matemática de variáveis aleatórias discretas positivas
Definição 5.21 Diremos que uma variável aleatória x : U → R é discreta
positiva se x (U) = {x0, x1 , x2, . . . xn . . .}, isto é, se o conjunto dos valores de
x (e) é um subconjunto enumerável de R, e xi ≥ 0, ∀i.
Definição 5.22 Seja x variável aleatória discreta.
Sejam Xi ∈ A, i = 1, 2, . . ., definidos por
Xi = {e ∈ U : x (e) = xi } .
Definimos µ (x) por
µ (x) =
∞
xi P (Xi ) .
i=0
Se µ (x) < ∞ dizemos que x admite esperança matemática µ (x).
Observação 5.23 Se P : A →R foi escolhida convenientemente, relativamente à técnica de amostragem, sabemos que P (Xi ) é uma aproximação da
freqüência f (Xi ) calculada numa amostra grande.
5.6. ESPERANÇA MATEMÁTICA
61
Seja µ (x) < ∞. Então
µ (x) =
∞
xi P (Xi ) ≈
i=0
∞
xi f (Xi ) .
i=0
Se a amostra tem N elementos, a freqüência é calculada por
f (Xi ) =
ki
N
onde ki
é o número de ocorrências do evento Xi na amostra.
∞
Como
i=0 ki = N , é claro que ki = 0 apenas para um número finito de
índices.
Então
∞
∞
ki
µ (x) ≈
xi f (Xi ) =
xi = x.
N
i=0
i=0
onde x é a média de x na amostra.
5.6.2
Esperança matemática de variáveis aleatórias positivas
Vamos definir a esperança matemática de uma variável aleatória positiva x ≥ 0
como limite de esperanças matemáticas de variáveis aleatórias discretas positivas.
Proposição 5.24 Seja xn , n = 1, 2, . . ., uma seqüência de variáveis aleatórias discretas positivas, tal que xn (e) é não decrescente quando n → ∞,
para ∀e ∈ U.
Então a seqüência µ (xn ) é não decrescente e portanto existe o limite
lim µ (xn )
n→∞
finito ou +∞ (infinito).
Definição 5.25 Seja x uma variável aleatória positiva e seja xn uma seqüência de variáveis aleatórias discretas positivas tal que xn ↑ x, isto é, tal que
i)
ii)
xn (e) ≤ x (e) ,
∀e ∈ U,
lim xn (e) = x (e) ,
n→∞
∀e ∈ U.
62
CAPÍTULO 5. PROBABILIDADE II - EXTENSÃO DA TEORIA
Definimos µ (x) por
µ (x) = lim µ (xn ) .
n→∞
Se µ (x) < ∞ dizemos que x admite esperança matemática µ (x).
Observações 5.26
a) Existem seqüências xn com as propriedades exigidas. Por exemplo, a
seqüência onde cada xn é definida por
j
j
j+1
n
xn (e) = n se e ∈ Xj = e ∈ U : n ≤ x (e) < n
,
2
2
2
onde j = 0, 1, 2, . . ..
b) Demonstra-se que µ (x) independe da particular seqüência xn usada para
calculá-la.
c) Suponhamos P : A →R escolhida convenientemente, relativamente à técnica de amostragem utilizada, e seja x uma variável aleatória positiva
que admite esperança matemática.
Sejam xn as variáveis aleatórias discretas positivas definidas na observação a).
Como µ (xn ) ↑ µ (x), dado ε > 0 arbitrariamente pequeno, existe m0 tal
que
ε
para ∀n ≥ m0 .
|µ (x) − µ (xn )| <
2
Formemos uma amostra com N elementos {e1 , e2 , . . . eN }. Teremos
x=
e
xn =
x (e1 ) + x (e2) + · · · + x (eN )
N
xn (e1) + xn (e2 ) + · · · + xn (eN )
.
N
Vale a desigualdade xn ≤ x pois que xn (ej ) ≤ x (ej ), j = 1, 2, . . . N .
Vale também x < xn + 21n pois que x (ej ) < xn (ej ) + 21n , j = 1, 2, . . . N.
Logo dado ε > 0 existe m1 tal que
|xn − x| <
ε
2
para ∀n ≥ m1
e ∀N
5.6. ESPERANÇA MATEMÁTICA
63
Podemos escrever
|µ (x) − x| = |µ (x) − µ (xn ) + µ (xn ) − xn + xn − x| ≤
≤ |µ (x) − µ (xn )| + |µ (xn ) − xn | + |xn − x| .
Seja
m = max (m0 , m1 ) . Então
|µ (x) − x| < |µ (xn ) − xn | + ε para ∀n > m e ∀N.
Para uma amostra com N grande, teremos pelo caso anterior
µ (xn ) ≈ xn
donde
µ (x) ≈ x
Novamente, neste caso, a média x numa amostra grande é estimativa da
esperança matemática µ (x).
5.6.3
Esperança matemática de uma variável aleatória
qualquer
Definição 5.27 Seja x : U → R uma variável aleatória. Diremos que x
admite esperança matemática se x+ e x− admitem esperança matemática2 , e
nesse caso definimos esperança matemática µ (x) de x por
µ (x) = µ x+ − µ x− .
Observação 5.28 Suponhamos P : A →R escolhida convenientemente, relativamente à técnica de amostragem utilizada, e seja x uma variável aleatória
que admite esperança matemática.
2
A ferramenta matemática apropriada para o desnvolvimento da Teoria aas Probabilidades é a Teoria da Medida e Integração. Aqueles familiarizados com ela terão identificado
a função de Probabilidade P como uma medida, uma variável aleatoria como uma função
mensurável e a esperança matemática como a integral
µ (x) =
xdP.
U
No Capítulo 6 examinaremos casos particulares em que podemos efetuar os cáculos usando
a integral de Rieman.
64
CAPÍTULO 5. PROBABILIDADE II - EXTENSÃO DA TEORIA
Calculemos x+ e x− numa grande amostra e observemos que x+ − x− = x.
Como vimos no caso anterior,
µ (x+ ) ≈ x+ ,
µ (x− ) ≈ x− .
Portanto
µ (x) = µ x+ − µ x− ≈ x+ − x− = x.
Podemos dizer então, em geral, que a esperança matemática é uma previsão da média ou reciprocamente que a média é uma estimativa da esperança
matemática.
Definição 5.29 Definimos variança da variável aleatória x, se existir, por
σ 2 (x) = µ (x − µ (x))2
Numa amostra pode ser estimada por
2
s =
N
j=1
(zj − x)2
N −1
Propriedades 5.30 De µ e σ 2
Sejam x, x1 , x2 , . . . xn , variáveis aleatórias e k constante. Suporemos que
admitem esperança matemática e variança.
1. Se x é limitada, existe µ (x).
2. |µ (x)| ≤ µ (|x|)
3. µ (kx) = kµ (x), σ2 (kx) = k 2 σ 2 (x).
4. µ (x1 + x2 + · · · + xn ) = µ (x1 ) + µ (x2 ) + · · · + µ (xn ).
5. µ (x1 x2 · · · xn ) = µ (x1) µ (x2 ) · · · µ (xn )
pendentes.
se
x1 , x2 , . . . xn ,
são inde-
6. σ2 (x1 + x2 + · · · + xn ) = σ 2 (x1) + σ2 (x2 ) + · · · + σ 2 (xn ) se x1 , x2 ,
. . . xn , são independentes.
5.7. A DESIGUALDADE DE CHEBICHEV
5.7
65
A Desigualdade de Chebichev
Pode ser demonstrado que admitindo-se apenas a existência de µ (x) e σ 2 (x)
vale sempre a desigualdade
P {|x − µ (x)| ≥ ξσ (x)} ≤
onde ξ ≥ 1.
1
ξ2
Capítulo 6
Densidade de Probabilidade
Neste capítulo U indicará um Universo, A uma σ-ágebra em U, e P : A →R
uma função probabilidade. As integrais consideradas serão integrais de Riemann
6.1
Definições e Propriedades
Definição 6.1 Seja x : U → R uma variável aleatória com função de distribuição F.
Se existe ϕ : R → R, tal que ϕ ≥ 0 e
x
F (x) =
ϕ (t) dt, ∀x ∈ R,
−∞
dizemos que ϕ é densidade de probabilidade da variável aleatória x.
Nesse caso, F é uma função contínua.
Propriedades 6.2 Seja ϕ : R → R densidade de probabilidade da variável
aleatória x, com função de distribuição F .
1) Seja I ⊂ R um intervalo com extremos a e b onde a ≤ b e tal que a
pode ser −∞ e b pode ser +∞. Convencionemos que F (−∞) = 0 e
F (+∞) = 1.
Então
P ({e ∈ U : x (e) ∈ I}) = F (b) − F (a) =
66
b
ϕ (t) dt.
a
6.1. DEFINIÇÕES E PROPRIEDADES
67
2) Se ϕ é contínua numa vizinhança do ponto x0 ∈ R, então
ϕ (x0) = F (x0 ) .
3) Seja h : R → R uma função contínua. Então z : U → R
por z = h (x) é uma variável aleatória, isto é, satisfaz
definida
P ({e ∈ U : z (e) ≤ a}) ∈ A, ∀a ∈ R.
4) Seja h : R → R
z = h (x).
uma função contínua. e z : U → R definida por
Se a Esperança Matemática de z existe, vale
+∞
µ (z) =
h (t) ϕ (t) dt.
−∞
Fazendo h (t) = t, ∀t ∈ R, temos
+∞
µ (x) =
tϕ (t) dt.
−∞
5) A Variança da variável aleatória x, quando existe vale
+∞
2
σ (x) =
(t − µ (x))2 ϕ (t) dt,
ou alternativamente
Prova.
−∞
σ 2 (x) = µ x2 − (µ (x))2 .
1) Consequência imediata das definições de F e de ϕ.
2) Consequência do Teorema Fundamental do Cálculo.
3) e 4) Demonstração excede o nível deste texto.
5) Pela definição de σ2 (x) temos
σ 2 (x) = µ [x − µ (x)]2 .
A função h : R → R definida por h (x) = [x − µ (x)]2
tínua. Pelo item 4)
+∞
2
σ (x) =
(t − µ (x))2 ϕ (t) dt.
−∞
é con-
68
CAPÍTULO 6. DENSIDADE DE PROBABILIDADE
Alternativamente,
σ2 (x) = µ [x − µ (x)]2 = µ x2 − 2µ (x) x + (µ (x))2 =
= µ x2 − 2 (µ (x))2 + (µ (x))2 = µ x2 − (µ (x))2 .
Observação 6.3 Determinação empírica de F.
Suponhanos fixada a técnica de amostragem. Por meio de uma grande
amostra podemos construir a função escada F0 : R → R por
F0 (x) = f (“t ≤ x”) ,
onde f (“t ≤ x”) é a freqüência do subconjunto {t ∈ R : t ≤ x} na amostra.
É fácil verificar que F0 é uma função de distribuição. Podemos adotar F0 ou
aproximá-la, se for o caso, por outra função de distribuição F mais conveniente
do ponto de vista da manipulação matemática. Por exemplo, uma função F
contínua, com derivadas contínuas.
Observação 6.4 Deterninação empírica de ϕ.
Suponhanos fixada a técnica de amostragem.
No caso em que a função de distribuição F admite uma densidade de probabilidade ϕ contínua, podemos aproximar ϕ a partir de uma grande amostra,
construindo um histograma.
Dividimos a reta num número finito de intervalos. Calculamos a freqüência
de cada intervalo na amostra e construimos sôbre cada intervalo um retângulo
com área igual à freqüência. Obtemos assim o gráfico de uma função degrau
ϕ0 que podemos em seguida aproximar por uma função contínua ϕ.
Definição 6.5 Seja (x, y) : U → R2 um par de variáveis aleatórias com
função de distribuição G : R2 → R.
Se existe ϕ : R2 → R, tal que ϕ ≥ 0 e
x y
G (x, y) =
ϕ (u, v) dudv, ∀ (x, y) ∈ R2 ,
−∞
−∞
dizemos que ϕ é densidade de probabilidade do par de variáveis aleatórias
(x, y).
Nesse caso, G é uma função contínua.
6.1. DEFINIÇÕES E PROPRIEDADES
69
Propriedades 6.6 Seja ϕ : R2 → R densidade de probabilidade do par de
variáveis aleatórias (x, y), com função de distribuição G. Sejam ainda, F1
função de distribuição de x, e F2 função de distribuição de y.
1) Seja S ⊂ R2 um subconjunto tal que exista
ϕ (u, v) dudv.
S
Então
P ({e ∈ U : (x (e) , y (e)) ∈ S}) =
ϕ (u, v) dudv.
S
2) Se ϕ é contínua numa vizinhança do ponto (u0 , v0 ) ∈ R2 , então
ϕ (u0 , v0) =
∂2G
(u0 , v0 ) .
∂u∂v
Este resultado é obtido pela aplicação repetida do Teorema Fundamental
do Cálculo.
3) Seja h : R2 → R uma função contínua. Então z : U → R
por z = h (x, y) é uma variável aleatória, isto é, satisfaz
definida
P ({e ∈ U : z (e) ≤ a}) ∈ A, ∀a ∈ R.
4) Seja h : R2 → R
z = h (x, y).
uma função contínua. e z : U → R definida por
Se a Esperança Matemática de z existe, vale
+∞ +∞
µ (z) =
h (u, v) ϕ (u, v) dudv.
−∞
−∞
Fazendo h (u, v) = u, ∀ (u, v) ∈ R2 , temos
+∞ +∞
+∞ µ (x) =
uϕ (u, v) dudv =
u
−∞
−∞
=
−∞
+∞
−∞
uϕ1 (u) du
+∞
−∞
ϕ (u, v) dv du =
70
CAPÍTULO 6. DENSIDADE DE PROBABILIDADE
onde
ϕ1 (u) =
+∞
∀u ∈ R
ϕ (u, v) dv,
−∞
A função ϕ1 é a densidade de probabilidade da variável aleatória x, e
é dita densidade de probabilidade marginal do par (x, y). Temos
analogamente
+∞
+∞
µ (y) =
vϕ2 (v) dv,
ϕ2 (v) =
ϕ (u, v) du, ∀v ∈ R
−∞
−∞
5) Seja (x, y) um par de variáveis aleatórias. Se x e y são independentes e
admitem densidades de probabilidade ϕ1 e ϕ2 , então o par (x, y) admite
densidade de probabilidade ϕ e
∀ (x, y) ∈ R2 .
ϕ (x, y) = ϕ1 (x) ϕ2 (y) ,
De fato, pela independência de x e y temos
G (x, y) = F1 (x) F2 (y) ,
∀ (x, y) ∈ R2,
donde
G (x, y) =
x
ϕ1 (u) du
−∞
y
ϕ2 (v) dv =
−∞
x
−∞
y
ϕ1 (u) ϕ2 (v) dudv.
−∞
Portanto
G (x, y) =
x
−∞
y
ϕ (u, v) dudv
−∞
onde ϕ (u, v) = ϕ1 (u) ϕ2 (v) ,
∀ (u, v) ∈ R2
6.2. DISTRIBUIÇÃO RETANGULAR E DISTRIBUIÇÃO NORMAL
6.2
6.2.1
71
Distribuição Retangular e Distribuição Normal
Distribuição Retangular
Seja x : U → R uma variável aleatória que admite a densidade de probabilidade ϕ : R → R definida por

se x < a
 0
−1
ϕ (x) =
(b − a)
se a ≤ x ≤ b

0
se x > b.
onde −∞ < a < b < +∞.
Dizemos que a distribuição de probabilidade de x é retangular.
Calculemos µ (x) e σ2 (x).
µ (x) =
2
σ (x) =
+∞
−∞
6.2.2
+∞
xϕ (x) dx =
−∞
b
a
a+b
x
dx =
.
b−a
2
b
a+b 2
a+b 2 1
(b − a)2
x−
dx =
.
ϕ (x) dx =
x−
2
2
b−a
12
a
Distribuição Normal
Seja x : U → R uma variável aleatória que admite a densidade de probabilidade ϕ : R → R definida por
ϕ (x) = √
(x−µ)2
1
e− 2σ2
2πσ
onde µ e σ2 > 0 são duas constantes.
Dizemos que a distribuição de probabilidade de x é uma distribuição
normal.
Calculemos µ (x).
+∞
(x−µ)2
1
µ (x) = √
xe− 2σ2 dx.
2πσ −∞
72
CAPÍTULO 6. DENSIDADE DE PROBABILIDADE
Fazendo
x−µ
σ
= t obtemos
1
µ (x) = √
2πσ
µ
=√
2π
Mas
+∞
+∞
−∞
√
2
e
dt =
t2
(µ + σt) e− 2 σdt =
−∞
2
− t2
e
− t2
+∞
e
2π
−∞
e portanto
σ
dt + √
2π
+∞
t2
te− 2 dt.
−∞
+∞
t2
te− 2 dt = 0
−∞
µ (x) = µ.
Calculemos σ 2 (x).
1
σ (x) = √
2πσ
2
1
=√
2πσ
+∞
+∞
−∞
2
2 2 − t2
σ te
−∞
(x − µ)2 e−
σ2
√
σdt =
2π
(x−µ)2
2σ 2
dx =
+∞
t2
t2e− 2 dt
−∞
Por integração por partes
+∞
2
2 − t2
t e
−∞
2
= −te
donde
− t2
dt = −
t
−∞
+∞ +
−∞
+∞
d − t2 e 2 dt =
dt
+∞
t2
e− 2 dt =
√
2π
−∞
σ 2 (x) = σ2 .
Portanto os parâmetros µ e σ 2 que comparecem na expressão
(x−µ)2
1
√
e− 2σ2
2πσ
são a esperança matemática e a variança de x o que justifica a notação.
6.3. EXEMPLOS
6.2.3
73
Cálculo das áreas sob a curva normal
Seja I ⊂ R um intervalo de natureza qualquer de extremos a e b com
a ≤ b e x uma variável aleatória com distribuição normal. A probabilidade de
{e ∈ U : x (e) ∈ I} é dada por
b
a
1
ϕ (x) dx = √
2πσ
b
e−
(x−µ)2
2σ 2
dx.
a
Com a mudança de variável
t=
x−u
σ
o problema se reduz ao calculo da integral
1
√
2π
t2
t2
e− 2 dt onde t1 =
t1
a−µ
σ
e t2 =
b−µ
.
σ
Como a curva normal é simétrica em torno de 0 e como a área total é conhecida
(vale 1), basta saber calcular a integral
1
√
2π
t0
0
t2
e− 2 dt para t0 ≥ 0
que encontramos tabelada em função de t0 .
6.3
Exemplos
Exemplo 6.7 Admitindo-se que o erro x cometido ao fazermos arredondamentos para um certo número de casas decimais, com os valores expressos em
unidades da última casa conservada, é uma variável aleatória com densidade
de probabilidade retangular dada por

 0 se t < −0, 5
1 se −0, 5 ≤ t ≤ 0, 5 ,
ψ (t) =

0 se t > 0, 5
qual será a densidade de probabilidade ζ do erro resultante da soma de dois
números assim arredondados?
74
CAPÍTULO 6. DENSIDADE DE PROBABILIDADE
Solução
Indiquemos por z1 e z2 os números antes do arredondamento e por c1 e c2
após o arredondamento. Teremos
z1 + z2 = (c1 + c2) + (x1 + x2) .
Portanto o erro da soma x será a soma dos erros de arredondamento.
Podemos considerar como Universo o conjunto R2 cujos elementos
e = (x1 , x2 ) serão interpretados como pares de erros de arredondamento.
As variáveis aleatórias x1 , x2 , e x serão definidas por x1 (x1 , x2) = x1,
x2 (x1 , x2) = x2 e x = x1 + x2.
A densidade de probabilidade, tanto de x1 como de x2 é por hipótese ψ,
e como x1 e x2 são variáveis aleatórias independentes, existe a densidade de
probabilidade ϕ do par (x1 , x2 ) dada por
ϕ (u, v) = ψ (u) ψ (v) .
Seja C o quadrado C = {(u, v) : −0, 5 ≤ u ≤ 0, 5
Temos
1 se (u, v) ∈ C
ϕ (u, v) =
0 se (u, v) ∈
/ C.
e
− 0, 5 ≤ v ≤ 0, 5} .
Para calcularmos a densidade de probabilidade ζ da variável aleatória
x = x1 + x2 , obtenhamos primeiro a função de distribuição F de x.
F (x) = P ({e ∈ U : x (e) ≤ x}) =
= P (x1 , x2) ∈ R2 : x (x1 , x2) ≤ x =
= P (x1 , x2) ∈ R2 : x1 (x1 , x2 ) + x2 (x1 , x2) ≤ x =
= P (x1 , x2 ) ∈ R2 : x1 + x2 ≤ x =
=
ϕ (u, v) du dv =
{(x1 ,x2 )∈R2 :x1 +x2 ≤x}
=
= Área
dudv =
{(x1 ,x2 )∈R2 :x1 +x2 ≤x}∩C
(x1 , x2 ) ∈ R2 : x1 + x2 ≤ x ∩ C
Calculando a área da interseção do quadrado C com {x1 + x2 ≤ x} para os
valores de x entre −∞ e +∞ obtemos
0
0, 5 (1 + 2x + x2 )
F (x) =
0, 5 (1 + 2x − x2 )
1
se
se
se
se
x < −1
−1 ≤ x ≤ 0
.
0≤x≤1
x>1
6.3. EXEMPLOS
75
Calculando ζ (x) = F (x) temos a densidade de probabilidade da variável aleatória x = x1 + x2 .
0
1+x
ζ (x) =
1−x
1
se
se
se
se
x < −1
−1 ≤ x ≤ 0
0≤x≤1
x > 1.
Exemplo 6.8 Um fabricante de sapatos deseja saber quantos pares de sapato
deve fabricar de cada tamanho numa partida de 10.000 pares, sabendo que
numa amostra suficientemente grande do Universo dos consumidores, obtida
com uma técnica de amostragem adequada, a média x dos tamanhos de pé
resultou 40, 3 e a dispersão foi de
n
2
2
i=1 (xi − x)
= 1, 69.
s =
n−1
A distribuição de probabilidade dos tamanhos de pé será admitida normal.
Solução
Calculemos para exemplificar o número de calçados a serem fabricados de
número 39, uma vez que para os demais a solução é análoga. Na realidade o
calçado tamanho 39 calça todos os indivíduos com pé entre 38, 5 e 39, 5.
Seja x : U → R a variável aleatória que associa a cada indivíduo e ∈ U,
seu tamanho de pé x (e).
O número pedido será
10.000 × P ({e ∈ U : 38, 5 ≤ x (e) ≤ 39, 5})
pois que P ({e ∈ U : 38, 5 ≤ x (e) ≤ 39, 5}) constitui uma previsão da frequência correspondente.
Adotando-se para µ (x) e σ2 (x) os valores de suas estimativas x = 40, 3
e s2 = 1, 69 podemos calcular P = P ({e ∈ U : 38, 5 ≤ x (e) ≤ 39, 5}) pela
integral
39,5
(x−µ)2
1
P =√
e− 2σ2 dx.
2πσ 38,5
Fazendo
x−µ
x − 40, 3
t=
=
σ
1, 3
teremos
−0,62
1
t2
P =√
e− 2 dt.
2π −1,38
76
CAPÍTULO 6. DENSIDADE DE PROBABILIDADE
Pela simetria da curva normal
1,38
1,38
0,62
2
2
1
1
1
t2
− t2
− t2
P =√
e dt = √
e dt − √
e− 2 dt.
2π 0,62
2π 0
2π 0
Da tabela da distribuição normal obtemos
P {38, 5 < x < 39, 5} = 0, 4162 − 0, 2324 = 0, 1838
donde o número de pares tamanho 39 a ser fabricado será
10.000 × 0, 1838 = 1.838
De forma análoga completamos a tabela abaixo
Calçado
37 ou menor
38
39
40
41
42
43
44 ou maior
Quantidade
158
680
1838
2920
2616
1333
386
69
Exemplo 6.9 Um fabricante de baterias para automóveis sabe que a vida
média x de uma bateria é de 20 meses, com s = 3 meses. Desejando oferecer
aos consumidores uma garantia de 12 meses para as baterias de sua fabricação,
quer saber qual a porcentagem de sua produção que não está em condições de
satisfazer esse prazo. Desconhece-se a distribuição de probabilidade da variável
aleatória x, vida de uma bateria.
Solução
Na falta de mais informações, recorramos à desigualdade de Tchebycheff
P ({e ∈ U : |x (e) − µ (x)| ≥ ξσ (x)}) ≤
1
.
ξ2
Adotando para µ (x) e σ (x) os valores de suas estimativas x = 20 e
s = 3, temos
1
P ({e ∈ U : |x − 20| ≥ 3ξ}) ≤ 2
ξ
6.3. EXEMPLOS
77
Como estamos interessados em valores de x menores ou iguais a 12, consideraremos os valores de x tais que |x − 20| ≥ 8. Isso inclui também valores
de x maiores ou iguais a 28.
Na falta de informações sobre uma possível simetria na distribuição de
probabilidade, não temos alternativa sinão incluir essa faixa de valores de x.
Fica então determinado o valor de ξ
3ξ = 8
isto é, ξ = 8/3. Portanto
P ({e ∈ U : x ≤ 12}) ≤ P
8
e ∈ U : |x − 20| ≥ 3 ·
3
1
≤ 2 = 0, 14
8
3
Exemplo 6.10 Um industrial precisa fabricar barras de 1 metro de comprimento com tolerância para mais ou para menos de 0, 1 mm. A máquina a
ser utilizada é capaz de fabricar peças cujos comprimentos variam com desvio
padrão de 0, 08 mm. Após a fabricação as peças excessivamente compridas
deverão ser cortadas e as excessivamente curtas refundidas. Sabendo-se que
o prejuizo é de 1, 00 real por peça que necessite ser cortada e de 10, 00 reais
por peça que necessite ser refundida, e que a máquina pode ser ajustada para
cortar 1.000, 01 ou 1.000, 02 mm, pergunta-se qual desses ajustamentos conduz
à operação mais económica.
Supor distribuição normal para o comprimento cortado.
Solução
Seja y a variável aleatória discreta custo adicional por peça. Pode assumir
os valores
y0 = 0, y1 = 1, y2 = 10.
A esperança matemática dos custos adicionais por peça será:
µ (y) =
2
yi p (yi ) = p (y1 ) + 10 p (y2 ) .
i=0
Calculemos p (y1 ), probabilidade da ocorrência de comprimento excessivo
além da tolerância e p (y2 ), probabilidade da ocorrência de comprimento deficiente aquém da tolerância.
Admitindo-se que x, comprimento cortado, é uma variável aleatória com
densidade de probabilidade normal, teremos
∞
(x−µ)2
1
−
2
√
p (y1 ) =
e × 0,082 dx
2π0, 08 1000,1
78
CAPÍTULO 6. DENSIDADE DE PROBABILIDADE
1
p (y2 ) = √
2π0, 08
999,9
−
e
(x−µ)2
2 × 0,082
dx.
−∞
Cálculo de p (y1 ) e p (y2 )
a) Supondo µ = 1000, 01 (primeiro ajustamento) e fazendo
x−µ
x − 1000, 01
=
σ
0, 08
t=
teremos
1
p (y1 ) = √
2π
1
p (y2) = √
2π
∞
2
− t2
e
1,125
−1,375
1
dt = 0, 5 − √
2π
2
− t2
e
−∞
1,125
t2
e− 2 dt
0
1
dt = 0, 5 − √
2π
1,375
t2
e− 2 dt
0
Da tabela da curva normal obtemos
p (y1 ) = 0, 5 − 0, 370 = 0, 130
p (y2) = 0, 5 − 0, 415 = 0, 085.
b) Supondo µ = 1000, 02 (segundo ajustamento) e fazendo
x−µ
x − 1000, 02
=
σ
0, 08
t=
teremos
1
p (y1 ) = √
2π
1
p (y2) = √
2π
∞
2
− t2
e
1
−1,5
−∞
2
− t2
e
1
dt = 0, 5 − √
2π
1
dt = 0, 5 − √
2π
Da tabela da curva normal obtemos
p (y1 ) = 0, 5 − 0, 341 = 0, 159
p (y2) = 0, 5 − 0, 433 = 0, 067.
1
t2
e− 2 dt
0
0
1,5
t2
e− 2 dt
6.3. EXEMPLOS
79
Cálculo de µ (y)
Para µ (x) = 1000, 01
µ (y) = 0, 130 + 10 × 0, 085 = 0, 980
Para µ (x) = 1000, 02
µ (y) = 0, 159 + 10 × 0, 067 = 0, 829.
Portanto o industrial deve preferir a segunda alternativa, na qual resulta
menor a esperança matemática do custo adicional por peça, isto é, na qual se
prevê um custo adicional médio menor.
Exemplo 6.11 Ao somarmos 10 parcelas, todas arredondadas até a mesma
casa decimal, qual a probabilidade que o erro na soma oriundo dos arredondamentos ultrapassem uma unidade da última casa conservada?
Solução
Neste problema podemos adotar como universo U = R10 .
Um elemento de U, é e = (x1 , x2, . . . x10 ) onde xi é o erro de arredondamento da i-ésima parcela. Seja xi : U → R a variável aleatória definida
por xi (e) = xi .
Estamos interessados na variável aleatória x = x1 + x2 + · · · + x10 .
Admitindo que as variáveis aleatórias xi , i = 1, 2, . . . 10 tem densidade
de probabilidade retangular, poderiamos, seguindo a linha de solução do exemplo (1), procurar calcular a densidade de probabilidade de x. Descobririamos
sem demora, que esse cálculo seria extremamente laborioso e demorado.
Podemos encontrar uma restrição superior para a probabilidade pedida
p = P (e ∈ U : |x (e)| ≥ 1)
por meio da desigualdade de Tchebycheff.
Calculemos µ (x) e σ2 (x). Temos
µ (x) = µ (x1 ) + µ (x2 ) + · · · + µ (x10)
e por serem os xi independentes
σ2 (x) = σ 2 (x1 ) + σ 2 (x2 ) + +σ2 (x10 ) .
Mas
µ (xi ) =
0,5
2
xdx = 0 e σ (xi ) =
−0,5
0,5
x2dx =
−0,5
1
.
12
80
CAPÍTULO 6. DENSIDADE DE PROBABILIDADE
Portanto
µ (x) = 0 e σ 2 (x) =
Pela desigualdade de Tchebycheff
P
Fazendo ξ =
√
|x (e)| ≥ ξ
10
12
10
.
12
≤
1
.
ξ2
1, 2 obtemos
p ≤ P ({|x (e)| ≥ 1}) ≤
1
= 0, 833
1, 2
Pelo Teorema 7.5 (Teorema do Limite Central) que é aplicável neste caso,
podemos aproximar a distribuição de probabilidade da variável aleatória x pela
distribuição normal de mesma esperança matemática e variança.
Então, como melhor alternativa, vamos usar a aproximação
P ({|x (e)| ≥ 1}) = 1 − P ({|x (e)| < 1}) ≈
1
2
1
1
− x2
≈ 1− √
e 2 σ dx onde σ =
= 0, 833 = 0, 913.
12
2πσ −1
Fazendo
t=
x−µ
x
=
σ
0, 913
temos
1,095
1
t2
P ({|x (e)| ≥ 1}) ≈ 1 − √
e− 2 dt =
2π −1,095
1,095
t2
1
= 1 − 2√
e− 2 dt.
2π 0
Da tabela da curva normal obtemos
P ({|x (e)| ≥ 1}) ≈ 1 − 2 × 0, 3632 = 1 − 0, 7264 = 0, 2736.
A probabilidade é de 27, 4%.
Capítulo 7
Anexos
7.1
Anexo1 - Distribuição de Poisson
Seja U={0, 1, 2, . . .} e pθ : U → R, uma distribuição de probabilidade que
depende de um parâmetro θ. Denotaremos pθ (x) por p (x, θ).
Proposição 7.1 Uma condição necessária e suficiente para que
p (x, θ) =
e−λθ (λθ)x
,
x!
x = 0, 1, 2, . . . ,
(7.1)
é que
1) p (x, θ1 + θ2 ) =
x
k=0
p (x − k, θ1) p (k, θ2 ) ,
∀x,
2) p (1, θ) = λθ + o (θ) ,
3) p (x > 1, θ) = o (θ) .
Observações 7.2
i) A distribuição definida pela expressão 7.1 é a distribuição de Poisson de
esperança matemática λθ.
ii) Por abuso de notação,
estamos indicando por p (x > 1, θ) a probabilidade
∞
P ({2, 3, 4, . . .}) = x=2 p (x, θ).
Prova.
81
82
CAPÍTULO 7. ANEXOS
a) A condição é necessária.
Suponhamos que
e−λθ (λθ)x
p (x, θ) =
,
x!
x = 0, 1, 2, . . . ,
e mostremos que 1), 2), e 3) ficam satisfeitas.
Verifiquemos a condição 1).
e−λ(θ 1 +θ 2 ) (λ (θ1 + θ2 ))x
=
p (x, θ1 + θ 2) =
x!
λx
(θ1 + θ2)x =
x!
x
x x!
−λθ 1 −λθ2 λ
=e
e
θx−k
θk2 =
1
x! k=0 k! (x − k)!
= e−λθ1 e−λθ 2
=
x
e−λθ1 (λθ1 )x−k e−λθ 2 (λθ2)k
(x − k)!
k=0
=
x
k=0
k!
=
p (x − k, θ1 ) p (k, θ2 ) .
verifiquemos a condição 2).
Como
resulta
p (1, θ) = e−λθ λθ = λθ + λθ e−λθ − 1 .
λθ e−λθ − 1
= λ e−λθ − 1 → 0, quando θ → 0,
θ
p (1, θ) = λθ + o (θ) .
Verifiquemos a condição 3).
p (x > 1, θ) =
∞
x=2
p (x, θ) =
∞
e−λθ (λθ)x
x=2
x!
=
7.1. ANEXO1 - DISTRIBUIÇÃO DE POISSON
=
∞
e−λθ (λθ)x+2
x=0
(x + 2)!
2
≤e
−λθ (λθ)
2
∞
x=0
=
∞
x=0
e−λθ
83
(λθ)2
(λθ)x
≤
(x + 2) (x + 1) x!
2
(λθ)x
(λθ)2
−λθ (λθ) λθ
=e
e =
.
x!
2
2
Logo
p (x > 1, θ) = o (θ) .
b) A condição é suficiente.
Vamos supor agora que valem as condições 1), 2), e 3), e vamos provar que
p (x, θ) é dada pela expressão 7.1. Por comodidade vamos convencionar
que p (x, θ) = 0 para valores negativos de x.
Pela condição 1) podemos escrever
p (x, θ + ∆θ) =
x
k=0
p (x − k, θ) p (k, ∆θ) =
= p (x, θ) p (0, ∆θ) + p (x − 1, θ) p (1, ∆θ) +
x
k=2
p (x − k, θ) p (k, ∆θ) .
Pelas condições 2) e 3), temos
p (0, ∆θ) = 1 − p (1, ∆θ) − p (x > 1, ∆θ) =
= 1 − λ∆θ + o (∆θ) + o (∆θ) = 1 − λ∆θ + o (∆θ) ,
e
p (1, ∆θ) = λ∆θ + o (∆θ) .
Portanto
p (x, θ + ∆θ) = p (x, θ) (1 − λ∆θ + o (∆θ))+p (x − 1, θ) (λ∆θ + o (∆θ)) +
+
x
k=2
p (x − k, θ) p (k, ∆θ) .
Mas
x
k=2
p (x − k, θ) p (k, ∆θ) ≤
x
k=2
p (k, ∆θ) = p (x > 1, ∆θ) = o (∆θ) .
84
CAPÍTULO 7. ANEXOS
Podemos então escrever
p (x, θ + ∆θ)−p (x, θ) = (λ∆θ + o (∆θ)) (p (x − 1, θ) − p (x, θ))+o (∆θ) .
Divindo por ∆θ temos
p (x, θ + ∆θ) − p (x, θ)
=
∆θ
o (∆θ)
o (∆θ)
λ+
(p (x − 1, θ) − p (x, θ))+
.
∆θ
∆θ
Passando ao limite para ∆θ → 0, obtemos
∂p (x, θ)
= λ (p (x − 1, θ) − p (x, θ)) ,
∂θ
x = 0, 1, 2, . . .
Considerando x = 0, 1, 2, . . ., como um parâmetro temos uma seqüência de equações diferenciais ordinárias. As condições 2) e 3) fornecem
condições iniciais. De fato passando ao limite
p (1, θ) = λθ + o (θ) ,
e
∞
p (x, θ) = p (x > 1, θ) = o (θ) ,
x=2
e lembrando que p (x, θ) ≥ 0 para todo x obtemos
p (x, 0) = 0,
x = 1, 2, 3, . . .
e portanto
p (0, 0) = 1 −
∞
p (x, 0) = 1
x=1
Como p (−1, θ) ≡ 0, temos para x = 0,
 dp(0,θ)
 dθ + λp (0, θ) = 0,

p (0, 0) = 1.
Para x = 1, 2, 3, . . ., teremos
 dp(x,θ)
 dθ + λp (x, θ)

p (x, 0)
= λp (x − 1, θ) ,
= 0.
7.2. ANEXO 2 - TEOREMAS DO LIMITE CENTRAL
85
O segundo membro da equação para x > 0 é obtido como solução da
equação anterior com parâmetro x − 1.
As soluções existem e são únicas.
Ora, é facil verificar por substituição que
p (x, θ) =
e−λθ (λθ)x
x!
é a solução do sistema de equações.
7.2
Anexo 2 - Teoremas do Limite Central
Definição 7.3 Seja U um universo, A uma σ-álgebra e P : A → R uma
função probabilidade.
Sejam xk : U → R, k = 1, 2, 3, . . ., variáveis aleatórias independentes
que admitem esperança matemática µ (xk ) e variança σ 2 (xk ).
Sejam zn , n = 1, 2, 3, . . . as variáveis aleatórias definidas por
zn = x1 + x2 · · · + xn
Diremos que a sequência (xk ) possui a Propriedade do Limite Central
se
β
zn − µ (zn )
1
t2
<β → √
e− 2 dt para n → ∞,
P α<
σ (zn )
2π α
para todo α e β, tais que α < β.
Observações 7.4
1. Indicando por Φ a função de distribuição normal, correspondente à µ = 0
e σ = 1, podemos escrever
β
t2
1
√
e− 2 dt = Φ (β) − Φ (α) .
2π α
2. Os teoremas que fornecem condições suficientes para que (xk ) tenha a
Propriedade do Limite Central são chamados Teoremas do Limite Central.
86
CAPÍTULO 7. ANEXOS
Teorema 7.5 (do Limite Central (1))
Nas condições da definição (7.3), se as variáveis aleatórias xk tem a mesma
função de distribuição, então (xk ) possui a Propriedade do Limite Central.
Teorema 7.6 (do Limite Central (2))
Nas condições da definição (7.3), se as variáveis aleatórias xk satisfazem
as condições:
a) σ (zn ) → ∞ para n → ∞.
b) |xk − µ (xk )| ≤ Mk
decrescente.
k = 1, 2, 3 . . . ,
onde (Mk ) é uma sequência não
c)
Mn
→ 0 para n → ∞
σ (zn )
então (xk ) possui a Propriedade do Limite Central.
Observações 7.7
1. Se |xk − µ (xk )| ≤ M,
ficam satisfeitas.
∀k, as condições b) e c) do Teorema (7.5)
2. Os Teoremas (7.5) e (7.6) são casos particulares do Teorema do Limite
Central de Lindeberg e Feller ([TUCKER]), mas um não é caso particular
do outro.
Bibliografia
[BARROS]
I. Q. BARROS. Cálculo de Probalidades. Apostila
do Departamento de Matemática da Escola Politécnica da USP, São Paulo, 1960
[BERQUO]
E. S. BERQUÓ, J. M. P. de SOUZA, S. L. D.
GOTLIEB. Bioestatística. EPU Editora Pedagógica
Universitária Ltda, São Paulo, 1980
[CRAMER]
H. CRAMÉR. Mathematical Methods of Statistics.
Princeton University Press, Princeton, 1946
[KOLMOGOROV]
A. N. Kolmogorov. Foundations of the Theory
of Probability. Chelsea Publishing Company, New
York, 1956
[LEME]
R. A. S. LEME. Curso de Estatística. Ao Livro Técnico S. A., Rio de Janeiro, 1963
[TUCKER]
H. G. Tucker. A Graduate Course in Probability.
Academic Press, New York and London, 1967
[VAN DER WAERDEN] B. L. van der WAERDEN. Mathematical Statistics.
Springer-Verlag, New York, 1969
87