Probabilidade A

Propaganda
Probabilidade 1
José Carlos Fogo
Junho 2014
Teoria da Probabilidade
Sumário
Sumário
1 Conceitos Básicos e Definições
3
1.1 Relações entre conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.2 Algumas definições em probabilidade: . . . . . . . . . . . . . . . . . . . . .
6
1.3 Medidas de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.3.1 Axiomas de Kolmogorov e espaço de probabilidade . . . . . . . . .
9
1.4 Propriedades das probabilidades . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5 Probabilidade condicional e teorema de Bayes . . . . . . . . . . . . . . . . 15
1.5.1 Probabilidade condicional . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.2 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.3 Independência de eventos . . . . . . . . . . . . . . . . . . . . . . . . 24
1.6 Contagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.6.1 Amostras ordenadas
. . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.6.2 Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.6.3 Amostras Desordenadas . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.6.4 Partições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2 Variáveis Aleatórias
42
2.1 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.2 Principais modelos de discretos . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.2.1 Variável Aleatória Constante . . . . . . . . . . . . . . . . . . . . . . . 48
2.2.2 Distribuição uniforme discreta . . . . . . . . . . . . . . . . . . . . . . 49
2.2.3 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.2.4 Distribuição binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.2.5 Distribuição geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.2.6 Distribuição binomial negativa . . . . . . . . . . . . . . . . . . . . . . 60
2.2.7 Distribuição hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . 62
2.2.8 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.2.9 Distribuições discretas no R . . . . . . . . . . . . . . . . . . . . . . . 73
3 Valor esperado e momentos de uma v.a. discreta
76
3.1 Valor esperado de uma v.a. discreta . . . . . . . . . . . . . . . . . . . . . . . 76
3.2 Propriedades de Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.3 Variância de uma v.a. discreta . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.3.1 Propriedades de Variância . . . . . . . . . . . . . . . . . . . . . . . . 83
3.3.2 Covariância e coeficiente de corelação . . . . . . . . . . . . . . . . . 85
2
Teoria da Probabilidade
1
Conceitos Básicos e Definições
Conceitos Básicos e Definições
Estudos de fenômenos ou experimentos aleatórios
⇓
Busca-se avaliar a probabilidade
de ocorrência desses fenômenos.
APLICAÇÕES:
• teoria dos jogos
• evolução de doenças
• controle de defeitos • evolução do crescimento populacional
• teoria da decisão
• indústria bélica
1.1
Relações entre conjuntos
i) UNIÃO: Notação A ∪ B ,
sejam A e B eventos quaisquer, a união entre A e B é dada pelos elementos que
pertencem a A ou a B ;
ii) INTERSECCÃO: Notação A ∩ B ou AB ,
sejam A e B conjuntos quaisquer, a intersecção entre A e B é dada pelos elementos
que pertencem simultaneamente a A e a B ;
iii) COMPLENTAR: Notação Ac ;
sejam A e B conjuntos tais que A ⊂ B , então, o evento complementar Ac de A, em
relação à B , é dado pelos elementos de B que não pertencem a A, ou seja, A∪Ac = B ;
iv) DIFERENÇA: Notação B − A;
sejam A e B conjuntos quaisquer, então, a diferença B − A é dada pelos elementos de
B que não pertencem a A, ou seja, B − A = B ∩ Ac = BAc ;
Nota: Se B ⊃ A, então, B − A = Ac ;
v) DIFERENÇA SIMÉTRICA: Notação A M B ;
é dada pelos elementos que pertencem exclusivamente a A ou a B , ou seja,
A M B = (A ∩ B c ) ∪ (Ac ∩ B)
= (A − B) ∪ (B − A);
3
Teoria da Probabilidade
Conceitos Básicos e Definições
vi) CONJUNTOS DISJUNTOS: dois conjuntos A e B são disjuntos, ou mutuamente exclusivos, se a intersecção entre eles é vazia, ou seja, A ∩ B = ∅;
vi) PARTIÇÃO: os conjuntos A1 , A2 , . . . , Ak ⊂ Ω formam um partição de Ω se são disjuntos
dois-a-dois e se a união entre eles é igual a Ω, ou seja
– Ai ∩ Aj = ∅,
–
k
[
∀ i 6= j ;
Ai = Ω.
i=1
vi) LEIS DE MORGAN: considere uma sequência qualquer de eventos A1 , A2 , . . ., então,
segundo as leis de Morgan, valem as relações
∞
[
!c
Ai
=
i=1
∞
\
∞
\
Aci ;
i=1
!c
Ai
=
i=1
∞
[
Aci .
i=1
DEMONSTRAÇÃO VISUAL DAS LEIS DE MORGAN:
Ω
A
B
AUBUC
C
(AUBUC)c
Figura 1.1: Diagrama de Venn para a união ( A ∪ B ∪ C )c
Ω
Ω
Ω
A
Cc
B
Ac
Bc
C
Figura 1.2: Eventos complementares Ac , B c e C c , respectivamente
4
Teoria da Probabilidade
Conceitos Básicos e Definições
Ω
A
B
C
Figura 1.3: Diagrama de Venn para a intersecção Ac ∩ B c ∩ C c
DEMONSTRAÇÃO FORMAL DAS LEIS DE MORGAN: 1a parte (Magalhães ou Hoel)
IDEIA: mostrar que
i)
∞
[
!c
⊂
Ai
i=1
ii)
∞
[
∞
\
Aci ;
i=1
!c
⊃
Ai
i=1
∞
\
Aci .
i=1
RESULTADO: Sejam A e B conjuntos quaisquer, então, se A ⊂ B e A ⊃ B =⇒ A = B .
Prova da parte (i):
Seja w ∈ (
∞
[
Ai )c =⇒ w ∈
/
i=1
Desta forma, w ∈
∞
[
Ai =⇒ w ∈
/ Ai , ∀ i = 1, 2, . . .
i=1
Aci , ∀i
= 1, 2, . . . =⇒ w ∈
∞
\
Aci ,
i=1
o que prova a parte (i).
Prova da parte (ii):
Seja w ∈
∞
\
Aci =⇒ w ∈ Aci =⇒ w ∈
/ Ai , ∀ i = 1, 2, . . .
i=1
Desta forma, w ∈
/
∞
[
Ai , ∀ i = 1, 2, . . . =⇒ w ∈ (
i=1
∞
[
i=1
5
Ai )c ,
Teoria da Probabilidade
Conceitos Básicos e Definições
o que prova completa a prova.
1.2
Algumas definições em probabilidade:
a) EXPERIMENTO ALEATÓRIO: é um experimento no qual
– todos os resultados possíveis são conhecidos antecipadamente;
– uma realização do experimento resulta num dos possíveis resultados;
– pode ser repetido em condições idênticas.
Exemplo: Considere uma caixa com b bolas numeradas de 1 a b. Uma bola é retirada e
seu número é anotado.
b) ESPAÇO AMOSTRAL: é o conjunto dos resultados possíveis para um experimento aleatório. É denotado por Ω.
Pode ser:

Finito: formado por um conjunto finito de pontos;
i) Discreto
Infinito: conjunto infinito e enumerável de pontos;
ii) Contínuo: formado por um conjunto não enumerável de pontos.
Exemplo: No experimento da retirada de uma bola de uma da caixa, Ω é um espaço
amostral finito dado pelo conjunto com b pontos, no caso Ω = { 1, 2, . . . , b }.
c) EVENTO: um evento é qualquer subconjunto do espaço amostral Ω, associado a um
experimento.
Notas:
1) Os eventos serão identificados por letras de fôrma e maiúsculas do algarismo arábico, por exemplo A, B, C, . . ..
2) Aos eventos é que serão associadas probabilidades;
Exemplo: Na retirada de uma bola da caixa seja o evento A definido por:
A = {o resultado é um número par}.
Casos Especiais:
6
Teoria da Probabilidade
Conceitos Básicos e Definições
i) Evento Complementar: Seja um evento qualquer A ⊂ Ω, então, seu evento complementar Ac será definido pelos elementos de Ω que não estão em A.
Um evento A e seu complementar Ac são tais que A ∪ Ac = Ω.
ii) Eventos Disjuntos: Dois eventos quaisquer A e B são disjuntos, ou mutuamente
exclusivos se A ∩ B = ∅.
iii) Eventos Elementares: Seja um espaço amostral finito Ω = {ω1 , ω2 , . . . , ωN }, em
que ωi , i = 1, 2, . . . , N são resultados elementares.
Um evento formado por um resultado elementar é chamado evento elementar.
Neste caso,
Ai = {ωi }, i = 1, 2, . . . , N ,
são eventos elementares.
Notas:
1) Sejam dois eventos elementares Ai e Aj , i 6= j , então, Ai ∩ Aj = ∅;
2) Qualquer evento pode ser escrito como uniões de eventos elementares.
Particularmente, Ω = A1 ∪ A2 ∪ . . . ∪ AN .
Como o espaço amostral é finito, será associada uma probabilidade pi = 1/N para
cada ωi , i = 1, 2, . . . , N .
É intuitivo que 0 ≤ pi ≤ 1 e que p1 + p2 + . . . + pN = 1.
Se, além disso, o espaço amostral for equiprovável (ou homogêneo), então,
pi =
1
N
∀ ωi ∈ Ω, i = 1, 2, . . . , N .
d) σ -ÁLGEBRA:
Seja uma coleção não vazia A de subconjuntos de Ω aos quais desejamos associar
probabilidades. Então A deve ser tal que, se A e B ∈ A , faz sentido calcular probabilidades de que
i) A ou B ocorra, ou seja, (A ∪ B);
ii) A e B ocorram, ou seja, (A ∩ B);
iii) não ocorra A, ou seja, Ac .
Portanto, para A e B ∈ A , se A atender às propriedades:
7
Teoria da Probabilidade
Conceitos Básicos e Definições
i) Ω ∈ A ;
ii) se A ∈ A =⇒ Ac ∈ A ;
iii) se A ∈ A e B ∈ A =⇒ (A ∪ B) ∈ A .
então A é dita ser uma álgebra de subconjuntos (eventos) de Ω.
Além disso, deseja-se que A seja fechada também para um número infinito e enumerável
de operações (uniões e intersecções).
Definição: A é uma σ -álgebra de subconjuntos (eventos) de Ω se, e só se
i) Ω ∈ A ;
ii) se A ∈ A =⇒ Ac ∈ A ;
iii) se A1 , A2 , . . . ∈ A =⇒
∞
[
Ai ∈ A .
i=1
Notas:
1) toda σ -álgebra é uma álgebra, porém, nem toda álgebra é uma σ -álgebra;
2) Seja A uma σ -álgebra de Ω, então, se A1 , A2 , . . . ∈ A =⇒
∞
\
Ai ∈ A .
i=1
Exemplo: 1) Considere o lançamento de uma moeda, então Ω = { cara, coroa }
• A1 = { ∅, Ω } → menor σ -álgebra;
• A2 = { ∅, {cara}, {coroa}, Ω } → σ -álgebra, classe de todos os subconjuntos de Ω.
Exemplo: 2) Considere o espaço amostral Ω = { 1, 2, 3 }
• A1 = { ∅, Ω, {1}, {2, 3} } → é uma σ -álgebra
(todos os complementares e uniões estão presentes).
• A2 = { ∅, Ω, {1}, {2}, {1, 3}, {2, 3} } → não é σ -álgebra pois: {1} ∪ {2} ∈
/ A2
(todos os complementares estão presentes, mas não todas as uniões).
8
Teoria da Probabilidade
1.3
Conceitos Básicos e Definições
Medidas de probabilidade
a) EM ESPAÇOS FINITOS: número de resultados favoráveis a um evento, dividido pelo
número de resultados possíveis, assumindo que todos os resultados seja equiprováveis
P (A) =
card(A)
card(Ω)
em que Ω é o conjunto de resultados possíveis (espaço amostral).
b) GENERALIZAÇÃO PARA ESPAÇOS INFINITOS: se Ω é uma região com uma medida
bem definida, então
P (A) =
medida de A
medida de Ω
Exemplo: Um indivíduo realiza um tiro ao acaso num alvo circular de raio R. Qual a probabilidade de que acerte o círculo central de raio r (r < R)?
R
P (A) =
Ω
área central (A)
área do alvo (Ω)
r
A
P (A) =
1.3.1
r 2
πr2
=
πR2
R
Axiomas de Kolmogorov e espaço de probabilidade
A definição a seguir é conhecida como Axiomas de Kolmogorov (Kolmogorov, 1933) e
define uma medida de probabilidade.
MEDIDA DE PROBABILIDADE: Seja Ω um espaço amostral e A uma σ -álbegra de eventos de Ω. P (.) é uma medida de probabilidade em (Ω, A ) se satisfaz
i) P (A) ≥ 0, ∀ A ∈ A ;
ii) P (Ω) = 1;
9
Teoria da Probabilidade
Conceitos Básicos e Definições
iii) se A1 , A2 , . . . formam uma seqüência disjunta, então P
∞
[
i=1
!
Ai
=
∞
X
P (Ai ).
i=1
A trinca formada por (Ω, A , P ) é chamada de ESPAÇO DE PROBABILIDADE.
Um espaço de probabilidade é formado por um espaço amostral Ω, uma σ -álgebra de
eventos de Ω e uma medida de probabilidade P (A) ∀ A ∈ A .
Exemplo: 1) Número de ocorrências de um fenômeno.
Espaço amostral: Ω = { 1, 2, 3, . . . };
σ -álbegra: A = classe dos subconjuntos de Ω;
Medida de probabilidade: P (k) =
1
, k = 1, 2, . . .
2k
Checar os axiomas:
i) P (A) é dada pela soma de probabilidades de eventos elementares ωi ∈ A, i = 1, 2, . . .
=⇒ P (A) ≥ 0,
ii)
∞
X
P (k) =
i=1
∀ A;
1/2
= 1 =⇒ P (Ω) = 1;
1 − 1/2
iii) A união de eventos disjuntos, forma um conjunto ao se aplica o resultado (i), que equivale à soma das suas probabilidades individuais.
Exemplo: 2) Tempo de vida de pacientes.
Espaço amostral: Ω = { T ∈ R | 0 ≤ T < ∞ };
σ -álbegra: A = σ -álbegra de Borel;
Z
Medida de probabilidade: P (A) =
dos reais.
e−x dx, em que A ⊆ Ω são intervalos no conjunto
A
10
Teoria da Probabilidade
1.4
Conceitos Básicos e Definições
Propriedades das probabilidades
Considere que os conjuntos abaixo seja, eventos no espaço de probabilidade (Ω, A , P ).
Então, tem-se que
a) P (A) = 1 − P (Ac );
Nota: caso especial P (∅) = 1 − P (Ω) = 0.
b) Sejam A e B eventos quaisquer, então P (B) = P (B ∩ A) + P (B ∩ Ac ).
PROVA: i) para todo conjunto A tem-se que A ∪ Ac = Ω.
ii) Como B = B ∩ Ω = B ∩ (A ∪ Ac ) = (B ∩ A) ∪ (B ∩ Ac )
iii) e como (B ∩ A) e (B ∩ Ac ) são disjuntos, segue-se que
P (B) = P (B ∩ A) + P (B ∩ Ac ).
Nota: Se A ⊂ B , então A ∩ B = A e P (B) = P (A) + P (B ∩ Ac ).
c) Se A ⊂ B , então P (A) ≤ P (B).
PROVA: Sai direto da relação anterior e dos axiomas.
d) Se A e B são eventos quaisquer, então P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
A
A ∩ Bc
B
A∩ B
Ac ∩ B
Ω
Figura 1.4: (A ∪ B ) como união de conjuntos disjuntos
11
Teoria da Probabilidade
Conceitos Básicos e Definições
PROVA:
i) Os conjuntos (A ∩ B c ), (A ∩ B) e (Ac ∩ B) são disjuntos, logo.
→ A ∪ B = (A ∩ B c ) ∪ (A ∩ B) ∪ (Ac ∩ B),
→ P (A ∪ B) = P (A ∩ B c ) + P (A ∩ B) + P (Ac ∩ B).
ii) Tem-se, ainda, que
→ P (A) = P (A ∩ B c ) + P (A ∩ B) e
→ P (B) = P (Ac ∩ B) + P (A ∩ B).
iii) Somando-se as probabilidades em (ii) obtem-se
P (A) + P (B) = P (A ∩ B c ) + P (Ac ∩ B) + P (A ∩ B) + P (A ∩ B), e, de (i) tem-se que
P (A) + P (B) = P (A ∪ B) + P (A ∩ B), de onde se conclui que
=⇒ P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Notas: 1) Da relação (d) segue-se que P (B ∪ A) ≤ P (A) + P (B);
2) Se A e B são disjuntos, então P (B ∪ A) = P (A) + P (B).
e) Das propriedades (c) e (d) tem-se P (
n
[
Ai ) ≤
i=1
n
X
P (Ai ).
i=1
PROVA: Por indução.
g) Das leis de Morgan tem-se que
P
n
[
!
Ai
=1−P
i=1
g) PARTE 1: Se A1 ⊂ A2 ⊂ . . . e A =
i=1
∞
[
Ai ou
i=1
PARTE 2: Se A1 ⊃ A2 ⊃ . . . e A =
n
\
∞
\
Ai ,
i=1
então segue-se que lim P (An ) = P (A).
n→∞
PROVA: (PARTE 1)
→ seja B1 = A1 ;
12
!
Aci .
Teoria da Probabilidade
Conceitos Básicos e Definições
→ para n ≥ 2, seja Bn o conjunto de pontos que estão em An mas não estão em An−1 ,
ou seja Bn = An ∩ Acn−1 ;
→ os conjuntos Bn , n = 1, 2, . . . são todos mutuamente exclusivos e, ainda
n
∞
[
[
An =
Bi e A =
Bi ;
i=1
i=1
→ conseqüentemente:
n
X
a) P (An ) =
P (Bi ) ,
i=1
b) P (A) =
∞
X
P (Bi ) .
i=1
Desta forma, aplicando-se o limite para n → ∞ em (a), tem-se
lim P (An ) =
n→∞
=
lim
n
X
n→∞
∞
X
P (Bi )
i=1
de (b)
P (Bi ) = P (A) ,
i=1
o que completa a prova.
PROVA: (PARTE 2) Exercício.
→ observar que A1 ⊃ A2 ⊃ . . . ⇒ Ac1 ⊂ Ac2 ⊂ . . ..
Exemplo: 1) Um dado equilibrado é lançado k = 2 vezes e os resultados anotados.
O espaço amostral para o experimento é:
Ω = ω = (i, j) ∈ R2 | i = 1, . . . 6 e j = 1, . . . , 6
Sejam:
A = classe de todos os subconjuntos de Ω e
P = probabilidade uniforme para todos os pontos de Ω, ou seja, P ({ω}) =
1
.
card(Ω)
O número de eventos elementares w’s é dado por card(Ω) = nk , em que
→ n total de resultados possíveis em uma realização do experimento, no caso n = 6,
→ k é o número de realizações do experimento, no caso k = 2.
Nesse caso, tem-se: card(Ω) = 36
⇒
P ({ω}) =
Considere os eventos:
A = a soma dos resultados é um número ímpar;
13
1
, ∀ ω ∈ Ω.
36
Teoria da Probabilidade
Conceitos Básicos e Definições
B = o resaultado do primeiro lançamento é um número ímpar;
C = o produto é um número ímpar.
Encontrar P (A ∪ B) e P (A ∪ B ∪ C).
Pontos favoráveis a cada um dos eventos:
A = { (1,2), (1,4), (1,6), (3,2), (3,4), (3,6), (5,2), (5,4), (5,6),
(2,1), (4,1), (6,1), (2,3), (4,3), (6,3), (2,5), (4,5), (6,5) };
B = { (1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (3,1), (3,2), (3,3),
(3,4), (3,5), (3,6), (5,1), (5,2), (5,3), (5,4), (5,5), (5,6) };
C = { (1,1), (1,3), (1,5), (3,1), (3,3), (3,5), (5,1), (5,3), (5,5) }.
Resultados:
I card(A) = 18 =⇒ P (A) =
1
18
= ;
36
2
I card(B) = 18 =⇒ P (B) =
1
18
= ;
36
2
I card(C) = 9 =⇒ P (C) =
9
1
= .
36
4
Intersecções:
i) A ∩ B = { (1,2), (1,4), (1,6), (3,2), (3,4), (3,6), (5,2), (5,4), (5,6) } ⇒ P (A ∩ B) =
1
;
4
ii) A ∩ C = { ∅ } ⇒ P (A ∩ C) = 0;
iii) como C ⊂ B , segue-se que B ∩ C = C, ⇒ P (B ∩ C) = P (C) =
1
;
4
iv) de (ii), tem-se que A ∩ B ∩ C = { ∅ } ⇒ P (A ∩ B ∩ C) = 0;
Da propriedade (d), tem-se que:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) =
1 1 1
3
+ − =
2 2 4
4
Para encontrar P (A ∪ B ∪ C) utiliza-se, ainda, a propriedade (d) fazendo:
P (A ∪ B ∪ C)
= P [(A ∪ B) ∪ C] = P (A ∪ B) + P (C) − P [(A ∪ B) ∩ C]
= P (A) + P (B) − P (A ∩ B) + P (C) − P [(A ∩ B) ∪ (B ∩ C)]
= P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C)
1 1 1 1 1
3
+ + − − =
=
2 2 4 4 4
4
14
Teoria da Probabilidade
Conceitos Básicos e Definições
Esse problema pode ser resolvido escolhendo-se um outro espaço amostral.
O lançamento de um dado pode ser representado por p se o resultado for par e por i se o
resultado for ímpar. Assim sendo, o novo espaço amostral pode ser escrito por:
Ω1 = { (p, p), (p, i), (i, p), (i, i) }
Como o espaço amostral original Ω é um espaço equiprovável, é fácil verificar que:
1
P [(p, p)] = P [(p, i)] = P [(i, p)] = P [(i, i)] = .
4
Pontos favoráveis a cada um dos eventos:
A = {(p, i), (i, p)} =⇒ P (A) =
2
1
= ;
4
2
B = {(p, i), (i, i)} =⇒ P (B) =
2
1
= ;
4
2
1
C = {(i, i)} =⇒ P (C) = .
4
1.5
Probabilidade condicional e teorema de Bayes
Em muitas situações, conhecimentos passados podem influenciar as probabilidades dos
eventos.
Por exemplo, a probabilidade de chuva num determinado dia pode ser influenciada se
choveu no dia anterior.
Sejam A e B eventos quaisquer associados ao espaço de probabilidade (Ω, A , P ), então,
para todo ω ∈ Ω,
→ se ω ∈ B , então ω ∈ A ⇐⇒ ω ∈ (A ∩ B).
Em outras palavras, sabendo que o evento B ocorreu, então, o evento A ocorre se, e só
se, ocorre a intersecção A ∩ B .
Nesse caso, tem-se um novo espaço amostral dado pelo evento B , uma nova σ -álgebra
AB e uma nova medida de probabilidade PB , aplicada em subconjuntos de AB , satisfazendo
os axiomas de Kolmogorov
PB =
P (A ∩ B)
.
P (B)
Portanto, (B , AB e PB ) formam um novo espaço de probabilidade.
Prova: A prova fica como exercício para o leitor.
15
Teoria da Probabilidade
Conceitos Básicos e Definições
Esquematicamente:
A
A∩ B
B
Ω
Figura 1.5: Evento condicional.
1.5.1
Probabilidade condicional
Sejam os eventos A e B tais que P (B) > 0, então, define-se a probabilidade condicional
de B dado que ocorreu A por
P (A|B) =
P (A ∩ B)
.
P (B)
Notas: 1) Se P (B) = 0 =⇒ P (A|B) = P (A) (Magalhães, 2004);
2) Da definição de probabilidade condicional tem-se a relação P (A∩B) = P (A|B)P (B),
conhecida como regra do produto das probabilidades.
Exemplo 1) Uma caixa comtém r bolas vermelhas numeradas de 1 a r e b bolas brancas,
numeradas de 1 a b. Uma bola é extraída, sua cor observada. Sabendo que a bola é vermelha,
qual a probabilidade de que seja a de número 1?
A caixa contém (r + b) bolas logo, a probabilidade de uma bola qualquer é
Censidere os eventos:
A = { a bola extraída é vermelha }, logo, P (A) =
r
(r + b)
B = { a bola extraída é a de número 1 }, logo, P (B) =
16
2
(r + b)
1
.
(r + b)
Teoria da Probabilidade
Como P (B ∩ A) =
Conceitos Básicos e Definições
1
, então,
(r + b)
P (B|A) =
1/(r + b)
1
P (B ∩ A)
=
= .
P (A)
r/(r + b)
r
Exemplo 2) Duas moedas idênticas são lançadas. Determine:
a) A probabilidade de se obter 2 caras sabendo que se obteve cara na primeira moeda.
Espaço amostral
=⇒
Ω = {(c, c); (c, c̄); (c̄, c); (c̄, c̄)}, em que c = cara e c̄ = coroa.
Sejam os eventos:
C1 = { cara na 1a moeda }
2
P (C1 ) = P [(c, c); (c, c̄)] = ;
4
2
P (C2 ) = P [(c, c); (c̄, c)] = .
4
=⇒
C2 = { cara na 2a moeda } =⇒
Como P (C2 ∩ C1 ) = P [(c, c)] =
1
,
4
logo,
P (C2 |C1 ) =
P (C2 ∩ C1 )
P [(c, c)]
1/4
1
=
=
= .
P (C1 )
P [(c, c); (c, c̄)]
2/4
2
b) A probabilidade de se obter 2 caras sabendo que se obteve pelo menos uma cara.
Neste caso os eventos são definidos por:
=⇒
{sair duas caras} = C1 ∩ C2 ;
=⇒
{sair ao menos um cara} = C1 ∪ C2 ;
Desta forma:
P (C1 ∩ C2 |C1 ∪ C2 ) =
P (C1 ∩ C2 )
P [(c, c)]
1/4
1
=
=
= .
P (C1 ∪ C2 )
P [(c, c); (c, c̄); (c̄, c)]
3/4
3
Exemplo 3) (Urna de Polya) Uma caixa comtém r bolas vermelhas e b bolas brancas. Uma
bola é extraída, sua cor observada e, a seguir, a bola é recolocada na caixa com mais c > 0
bolas da mesma cor. Esse procedimento é repetido m vezes.
O interesse aqui consiste em saber qual a probabilidade de se extrair uma bola vermelha
(ou branca) em cada uma das m retiradas.
17
Teoria da Probabilidade
Conceitos Básicos e Definições
Sejam:
i) Rj : a j -ésima bola retirada é vermelha;
ii) Bj : a j -ésima bola retirada é branca, 1 ≤ j ≤ m.
Então:
⇒ Rj e Bj são disjuntos e
⇒ na j -ésima extração tem-se [b + r + (j − 1) c] bolas na urna.
Para j = 1:
i) P (R1 ) =
r
,
b+r
ii) P (B1 ) =
b
.
b+r
Para j = 2:
i) P (R2 |R1 ) =
(r + c)
;
(b + r + c)
ii) P (R1 R2 ) = P (R1 )P (R2 |R1 );
⇒ P (R1 R2 ) =
(r + c)
r
.
(b + r) (b + r + c)
De maneira análoga,
⇒ P (B1 R2 ) =
b
r
.
(b + r) (b + r + c)
Logo, a probabilidade de que se extraia uma bola vermelha na segunda retirada é:
P (R2 ) = P (R1 R2 ) + P (B1 R2 )
r
r+c
b
r
=
+
b+r
b+r+c
b+r
b+r+c
r
r+c
b
=
+
b+r
b+r+c b+r+c
r
r+c+b
=
b+r
b+r+c
r
=
b+r
Portanto:
18
Teoria da Probabilidade
Conceitos Básicos e Definições
i) P (R2 ) = P (R1 ) =
r
,
b+r
ii) P (B2 ) = P (B1 ) =
b
.
b+r
Para j = 3:
Qual a probabilidade de vermelha na 3a extração?
Possibilidades:
i) R1 R2 R3 ⇒ P (R1 R2 R3 ) = P (R3 |R1 R2 )P (R2 |R1 )P (R1 );
ii) R1 B2 R3 ⇒ P (R1 B2 R3 ) = P (R3 |R1 B2 )P (B2 |R1 )P (R1 );
iii) B1 R2 R3 ⇒ P (B1 R2 R3 ) = P (R3 |B1 R2 )P (R2 |B1 )P (B1 );
iv) B1 B2 R3 ⇒ P (B1 B2 R3 ) = P (R3 |B1 B2 )P (B2 |B1 )P (B1 ).
Com um pouco de esforço algébrico obtêm-se:
i) P (R3 ) = P (R1 ) =
r
,
b+r
ii) P (B3 ) = P (B1 ) =
b
.
b+r
Enfim, pode-se provar por indução que, P (Rj ) = P (R1 ) e P (Bj ) = P (B1 ), ∀ 1 ≤ j ≤ m.
1.5.2
Teorema de Bayes
Sejam os eventos E1 , E2 , . . . , Em em (Ω, A , P ) formando uma partição em Ω tal que todos
têm probabilidades positivas, ou seja, P (Ei ) > 0, ∀ i = 1, 2, . . . , m. Considere, ainda, um
evento A qualquer, P (A) > 0, ocorrendo sobre a partição de Ω.
O objetivo, nesta situação, consiste em determinar a probabilidade de ocorrência de uma
das partes de Ω dado que ocorreu o evento A, ou seja, P (Ek |A), k = 1, 2, . . . , m.
Cmo pode-se observar pela Figura (1.6), o evento A pode ser escrito como união de partes
disjuntas, formadas pela intersecção de A com as partes de Ω, ou seja
A = (A ∩ E1 ) ∪ (A ∩ E2 ) ∪ (A ∩ E3 ) ∪ (A ∩ E4 ) ∪ (A ∩ E5 ) ∪ (A ∩ E6 ) =
6
[
(A ∩ Ei )
i=1
19
Teoria da Probabilidade
Conceitos Básicos e Definições
Figura 1.6: Ocorrência de um evento A sobre uma partição de Ω com m = 6.
Para um m qualquer,
A = (A ∩ E1 ) ∪ (A ∩ E2 ) ∪ . . . ∪ (A ∩ Em ) =
m
[
(A ∩ Ei ),
i=1
logo, a probabilidade do evento A é dada por
P (A) = P
"m
[
#
(A ∩ Ei ) =
i=1
m
X
P (A ∩ Ei ).
i=1
Pela regra do produto, tem-se que
P (A) = P
"m
[
#
(A ∩ Ei ) =
i=1
m
X
P (A|Ei )P (Ei ).
i=1
O resultado acima é conhecido como lei da probabilidade total.
Para um Ek qualquer, k = 1, 2, . . . , m, pode-se escrever P (A ∩ Ek ) = P (A|Ek )P (Ek ),
logo, a probabilidade de ocorrência de Ek dado que ocorreu A, é dada por:
P (Ek |A) =
P (Ek |A) =
P (Ek ∩ A)
P (A)
P (A|Ek )P (Ek )
m
X
,
k = 1, 2, . . . , m,
(1.1)
P (A|Ei )P (Ei )
i=1
o resultado em (1.1) é conhecido como teorema de Bayes. Foi obtido pelo Reverendo Thomas
Bayes e publicado em 1763, sendo um dos teoremas mais importantes da teoria estatística.
Exemplo 1) Numa população adulta 40% são homens e 60% mulheres. Sabe-se, ainda,
que 50% dos homens e 30% das mulheres são fumantes. Determine:
20
Teoria da Probabilidade
Conceitos Básicos e Definições
a) A probabilidade de que uma pessoa escolhida ao acaso nesta população seja fumante.
Partição do espaço amostral
=⇒
sexo = {H, M }.
Sejam os eventos:
H = { a pessoa escolhida é do sexo masculino (homem) }
M = { a pessoa escolhida é do sexo feminino (mulher) }
=⇒
=⇒
P (H) = 0.40;
P (M ) = 0.60;
F = { a pessoa escolhida é fumante };
F c = { a pessoa escolhida não é fumante }.
Como P (F |H) = 0.50 e P (F |M ) = 0.30, então, pela regra da probabilidade total:
P (F ) = P (F ∩ H) + P (F ∩ M )
P (F ) = P (F |H)P (H) + P (F |M )P (M )
P (F ) = 0.50 · 0.40 + 0.30 · 0.60
P (F ) = 0.38
b) A probabilidade de que seja um homem sabendo que é um fumante.
Pelo teorema de Bayes, tem-se a relação:
P (H|F ) =
P (H ∩ F )
P (F )
P (H|F ) =
P (F |H)P (H)
P (F )
P (H|F ) =
0.20
0.38
P (H|F ) = 0.5263,
portanto, a probabilidade de ser um homem dado que é fumante é de 0.5263.
Uma forma conveniente para se representar as probabilidades acima é através da ”arvore
de probabilidades”, nas quais representamos as probabilidades das partes e probabilidades
condicionais em ramos, conforme Figura (1.7). Nesse esquema, as probabilidades conjuntas
(das intersecções) são obtidas percorrendo-se os ramos e multiplicando-se as probabilidades.
21
Teoria da Probabilidade
Conceitos Básicos e Definições
Figura 1.7: Diagrama de árvore para o exemplo (1).
Exemplo 2) Sabe-se que numa população 8% das pessoas são infectadas por um vírus
causador de uma doença muito grave. Um teste para detecção do vírus é eficiente em 99%
dos casos nos quais os indivíduos são infectados, mas resulta em 2% de resultados positivos
para os não infectados (falsos positivos).
Se o teste de uma pessoa dessa população der resultado positivo, qual a probabilidade
de que ela seja da fato infectada?
Defindo-se: I ⇒ grupo das pessoas infectadas;
I c ⇒ grupo dos não infectados;
T + ⇒ o resultado do teste é positivo;
T − ⇒ o resultado do teste é negativo;
tem-se as probabilidades: P (I) = 0.08; P (I c ) = 0.92; P (T + |I) = 0.99 e P (T + |I c ) = 0.02.
Porém, deseja-se calcular a probabilidade: P (I|T + )
que pela regra da probabilidade condicional é dada por P (I|T + ) =
P (I ∩ T + )
.
P (T + )
As probabilidades podem ser representadas na seguinte tabela:
Tabela 1.1: Probabilidades
Resultado do teste
−
+
T
T
+
I
P (I ∩ T ) P (I ∩ T − )
Ic
P (I c ∩ T + ) P (I c ∩ T − )
Totais das colunas
P (T + )
P (T − )
Grupo
22
Totais das
linhas
0.08
0.92
1.00
Teoria da Probabilidade
Conceitos Básicos e Definições
Pela regra do produto e pela lei da probabilidade total, encontra-se P (T + ) de:
P (T + ) = P (I ∩ T + ) + P (I c ∩ T + )
= P (T + |I)P (I) + P (T + |I c )P (I c )
= 0.99 · 0.08 + 0.02 · 0.92
= 0.0792 + 0.0184
= 0.0976
e, pelo teorema de Bayes, tem-se
P (I|T + ) =
P (T + |I)P (I)
0.0792
=
= 0.8115.
+
P (T )
0.0976
Qual seria a confiança no teste se o resultado fosse negativo, ou seja, qual a probabilidade
de o teste sendo negativo a pessoa de fato não seja infectada?
Deseja-se: P (I c |T − ) =
P (I c ∩ T − )
.
P (T − )
Como:
P (T − ) = P (I ∩ T − ) + P (I c ∩ T − ) = 0.01 · 0.08 + 0.98 · 0.92 = 0.9024,
então,
P (I c |T − ) =
P (T − |I c )P (I c )
0.9016
=
= 0.9991,
−
P (T )
0.9024
portanto, se o teste for negativo a pessoa pode se sentir segura.
Na Figura (1.8) é apresentada o diagrama de árvore para o resultado acima.
Figura 1.8: Diagrama de árvore para o exemplo (2).
23
Teoria da Probabilidade
1.5.3
Conceitos Básicos e Definições
Independência de eventos
Sejam o espaço de probabilidade (Ω, A , P ) e sejam os eventos A e B ∈ A , tal que
P (B) > 0. Pela regra da multiplicação pode-se escrever
P (A ∩ B) = P (A|B) P (B).
Em alguns casos, no entanto, informações prévias a respeito do evento B não afetam a
probabilidade de ocorrência de A, isto é, a probabilidade concicional de A dado B é igual à
P (A), ou seja
P (A|B) = P (A).
Definição: Sejam dois eventos A e B , com probabilidades maiores do que zero, tais que
a ocorrência de um deles não altera a probabilidade de ocorrência do segundo, então, esses
eventos são ditos indepententes.
Da regra da multiplicação das probabilidades, portanto, se dois eventos A e B são independentes então a probabilidade de ocorrência conjunta dos dois é dada pelo produto das
probabilidades individuais, ou seja,
P (A ∩ B) = P (A) P (B).
Seja A1 , A2 , . . . , Ak , k eventos independentes, então, de (1.2)
P (A1 ∩ A2 ∩ . . . ∩ Ak ) = P (A1 ) · P (A2 ) · . . . · P (Ak )
Exemplo 1) Duas moedas idênticas são lançadas separadamente.
Ω = {(c, c); (c, c̄); (c̄, c); (c̄, c̄)}, em que c = cara e c̄ = coroa.
Sejam os eventos:
=⇒
1
P (A) = P [(c, c); (c̄, c)] = ;
2
B = { cara no 1º lançamento } =⇒
1
P (B) = P [(c, c); (c, c̄)] = .
2
A = { cara no 2º lançamento }
Determine P (A|B).
P (A|B) =
P (A ∩ B)
1/4
1
=
= = P (A).
P (B)
1/2
2
24
(1.2)
Teoria da Probabilidade
Conceitos Básicos e Definições
Portanto, conclui-se que A e B são independentes, ou seja, a ocorrência de cara no
primeiro lançamento não altera a probabilidade de que saia cara no segundo lançamento.
Propriedades de independência:
a) Seja um evento A tal que P (A) = 0, então A é independente de todo evento E ∈ A ,
em que P (E) > 0;
Prova: Se P (A) = 0
=⇒
P (E ∩ A) = P (E|A)P (A) = 0 = P (E) · P (A),
∀ E∈A
b) Se A ∈ A é um evento qualquer tal que P (A) > 0, então A é independente de ∅ e Ω;
Prova:
i) A prova de que A e ∅ são independentes sai direto de (a), já que P (∅) = 0;
ii) Para a prova de que A e Ω são independentes, considere que A = A ∩ Ω, logo
=⇒
P (Ω ∩ A) = P (A) = P (A) · (1) = P (A)P (Ω)
c) Se os eventos de A e B forem independentes, então A e B c ; Ac e B ; Ac e B c também
o são;
Prova: A seguir será apresentada apenas a prova de que A e B c também são independentes. As demais ficam como exerício para o leitor.
O evento A pode ser escrito por A = (A ∩ B) ∪ (A ∩ B c ), (A ∩ B) e (A ∩ B c ) disjuntos,
logo
P (A) = P (A ∩ B) + P (A ∩ B c )
P (A) = P (A)P (B) + P (A ∩ B c )
P (A) − P (A)P (B) = P (A ∩ B c )
P (A)[1 − P (B)] = P (A ∩ B c )
P (A)P (B c ) = P (A ∩ B c )
Definição: Seja A1 , A2 , . . . , Ak , k eventos independentes. Se, para qualquer subconjunto
A1 , A2 , . . . , Ar , tal que r ≤ k , os eventos forem independentes, ou seja,
P (A1 ∩ A2 ∩ . . . ∩ Ar ) = P (A1 ) · P (A2 ) · . . . · P (Ar ),
então A1 , A2 , . . . , Ak são chamados mutuamente independentes.
25
Teoria da Probabilidade
Conceitos Básicos e Definições
Em outras palavras, os eventos A1 , A2 , . . . , Ak são mutuamente independentes se forem
independentes dois-a-dois, três-a-três, e assim por diante . . .
Exemplo 2) A probabilidade de que um homem esteja vivo daqui a 10 anos é de 3/4 e de
sua esposa, é de 5/6. Qual é a probabilidade de que, daqui a 10 anos:
a) Ambos estejam vivos?
Considere os eventos:
H = { homem vivo daqui a 10 anos }
=⇒
P (H) = 3/4
logo
P (H c ) = 1/4;
M = { mulher viva daqui a 10 anos }
=⇒
P (M ) = 5/6
logo
P (M c ) = 1/6.
Espaço amostral Ω = {HM, HM c , H c M, H c M c }
Assumindo independência entre os eventos H e M , a probabilidade de que ambos
estejam vivos daqui a 10 anos é dada por
P (HM ) = P (H)P (M ) =
5
3 5
· =
4 6
8
b) Ao menos um esteja vivo?
Ainda assumindo independência entre H e M , a probabilidade de ao menos um esteja
vivo daqui a 10 anos é dada por
P (HM, HM c , H c M ) = P (H)P (M ) + P (H)P (M c ) + P (H c )P (M )
P (HM, HM c , H c M ) =
3 5 1 5 3 1
· + · + ·
4 6 4 6 4 6
P (HM, HM c , H c M ) =
15
5
3
23
+
+
=
24 24 24
24
A solução acima é simplificada com a aplicação do evento complementar
P (HM ) = 1 − P (H c M c ) = 1 −
Exemplo 3) Aplicação em confiabilidade de sistemas.
26
1 1
23
· =
4 6
24
Teoria da Probabilidade
Conceitos Básicos e Definições
Um sistema de componentes é determinado por um conjunto de itens associados numa
dada configuração. As configrações mais simples são os sistemas em série e em paralelo. A
associação de ambas as configurações são chamadas de sistemas série-paralelo.
Neste sentido, a confiabilidade de um sistema num dado instante t é dada pela probabilidade de que este esteja funcionando normalmente.
Considere um componente tal que a probabilidade de que esteja funcionando num instante t dada por p, 0 ≤ p ≤ 1. Dois destes componentes são colocados em funcionamento
segundo as configurações abaixo. Assumindo que os componentes funcionem de maneira
independente, determine a confiabilidade do sistema em cada um dos casos.
Sejam os eventos:
S = { o sistema funciona no tempo t } =⇒
Ci = { o componente i funciona no tempo t }
confiabilidade do sistema = P (S)
=⇒
P (Ci ) = p
a) Sistema em série: na configuração em série, o sistema funciona se os dois componentes funcionarem simultaneamente, desta forma
P (S) = P (C1 ∩ C2 ) = p2
Figura 1.9: Sistema em série
b) Sistema em paralelo: o sistema funciona se pelo menos um dos componentes estiver
funcionando, logo
P (S) = P (C1 ∪ C2 ) = p + p − p2 = 2p − p2
Figura 1.10: Sistema em paralelo
27
Teoria da Probabilidade
Conceitos Básicos e Definições
c) Sistema série-paralelo: o sistema série-paralelo, com a configuração dada pela Figura
1.11, funciona se C1 funcionar e, (C2 ou C3 funcionar).
Obd: Fica para o leitor mostrar que a confiabilidade deste sistema é dada por
P (S) = 2p2 − p3
Figura 1.11: Sistema série-paralelo
Exemplo 4) Uma moeda equilibrada é lançada tês vezes. Dê o espaço amostral:
i) Ω = {(c, c, c); (c, c, c̄); (c, c̄, c); (c̄, c, c); (c, c̄, c̄); (c̄, c, c̄); (c̄, c̄, c); (c̄, c̄, c̄)},
em que c = cara e c̄ = coroa.
ii) Verifique se os eventos {ocorrem pelo menos duas caras} e {ocorre coroa no 1º lançamento} são independentes.
A = { ocorrem pelo menos duas caras } =⇒ A = {(c, c, c); (c, c, c̄); (c, c̄, c); (c̄, c, c)}
B = { ocorre coroa no 1º lançamento } =⇒ A = {(c̄, c, c); (c̄, c, c̄); (c̄, c̄, c); (c̄, c̄, c̄)}
No lançamento de uma moeda P (c) = P (c̄) = 1/2, logo, os eventos elementares de Ω
têm todos probabilidade 1/8. Desta forma, verifica-se facilmente que
1
P (A) = P (B) = .
2
Ainda, A ∩ B = {(c̄, c, c̄); (c̄, c̄, c); (c̄, c̄, c̄)}
=⇒
3
P (A ∩ B) = ,
8
portanto,
P (A|B) =
3/8
3
= 6= P (A)P (B).
1/2
4
Logo, os eventos A e B não são independentes.
28
Teoria da Probabilidade
1.6
Conceitos Básicos e Definições
Contagem
Considere um espaço amostral finito e equiprovável Ω, no qual cada evento elementar tem
probabilidade
P ({ωi }) =
1
,
card(Ω)
i = 1, 2, . . . , card(Ω).
Considere um evento A pertencente ao espaço de probabilidade (Ω, A , P ), então, a probabilidade do evento A é definida por
P (A) =
card(A)
card(Ω)
Assim sendo, a determinação de P (A) resume-se num problema de contagem do número
de elementos de A e de Ω, o que é um procedimento simples quando tanto Ω tem poucos
pontos, mas pode ser, trabalhoso, ou até mesmo impraticável, quando o número de pontos é
grande (ou mesmo moderado).
1.6.1
Amostras ordenadas
Considere dois conjuntos S e U , com m e n elementos, respectivamente. Ao serem selecionados um elemento de cada conjunto, podem-se formar (m × n) duplas do tipo (xi , yj ), i =
1, 2, . . . , m; j = 1, 2, . . . , n, conforme mostra a Figura 1.12.
Figura 1.12: Seleção alatória em dois conjuntos finitos.
Considere, agora, n conjuntos distintos S1 , S2 , . . . , Sn , de tamanhos s1 , s2 , . . . , sn , respectivamente. Se selecionarmos um elemento de cada conjunto teremos (s1 × s2 × . . . × sn )
n−uplas do tipo (x1 , x2 , . . . , xn ).
29
Teoria da Probabilidade
Conceitos Básicos e Definições
Se, no entanto, os n conjuntos forem o mesmo conjunto S , com s pontos, então existirão
n
s n−uplas do tipo (x1 , x2 , . . . , xn ) para as quais xi , i = 1, 2, . . . , n, é um ponto de S .
Esta situação, em que o número de elementos de S permanece constante, caracteriza
uma ”amostra aleatória com reposição”. Com a condição inicial de que o espaço amostral é
equiprovável, todas as sn n−uplas têm igual probabilidade de serem selecionadas, sendo
essa probabilidade igual a
1
.
sn
(1.3)
Exemplo 1) Uma moeda equilibrada é lançada n vezes. Determine a probabilidade de se
obter ao menos uma cara nos n lançamentos.
Nessa situação, o conjunto S é dado por: S = {c, c̄}, sendo que P ({c}) = P ({c̄}) = 1/2.
Como s = 2, então, o número de n−uplas possíveis é igual a 2n .
Seja o evento de interesse A = { ao menos uma cara nos n lançamentos }.
Definindo Ai = { o evento cara no i−ésimo lançamento }, então,
A=
n
[
Ai ,
i=1
cuja probabilidade é dada por:
P (A) = 1 − P (Ac )
"
P (A) = 1 − P
n
[
!c #
Ai
i=1
Das leis de Morgan, tem-se que
P (A) = 1 − P
n
\
!
Aci
i=1
P (A) = 1 −
n
Y
P (Aci )
i=1
Portanto, a probabilidade desejada é dada por:
n
1
.
P (A) = 1 −
2
30
Teoria da Probabilidade
Conceitos Básicos e Definições
Se, por exemplo, n = 10, P (A) = 1 −
1
1023
=
.
1024
1024
Considere, agora, o conjunto S , contendo s elementos distintos, sendo que o elemento
escolhido não é recolocado no conjunto após a seleção. Neste caso, a amostra alatória é do
tipo ”sem reposição”.
Repetindo o procedimento n vezes, o número de n−uplas possíveis, sem que nenhum xi ,
i = 1, 2, . . . , n, seja repetido, é dado por:
As,n = s × (s − 1) × . . . × (s − n + 1),
(1.4)
sendo que a quantidade As,n representa um arranjo de s elementos tomados n-a-n.
Exemplo 2) Seja um conjunto S com s elementos distintos. Considerendo uma amostragem aleatória com reposição, qual a probabilidade de que nenhum elemento de S apareça
repetido na amostra.
Seja o evento E = { nenhum elemento repetido na amostra }, então
P (A) =
total de amostras para as quais nenhum elemento apareça repetido
.
total de amostras possíveis
Desta forma, de (1.3) e (1.4), temos que a probabilidade acima é dada por
P (E) =
As,n
s(s − 1) . . . (s − n + 1)
=
n
s
sn
(s − n + 1)
s (s − 1)
...
s s
s
1
2
n−1
P (E) =
1−
1−
... 1 −
s
s
s
P (E) =
P (E) =
n−1
Y
k=1
k
1−
s
.
(1.5)
Como na maioria das situações práticas o número de elementos do conjunto S (ou ”população”) é muito grande, calculando o limite em (1.5), tem-se
"n−1 #
Y
k
1−
lim P (E) = lim
= 1,
s→∞
s→∞
s
k=1
ou seja, quando as populações são muito grandes, as amostras aleatórias “com” e “sem”
31
Teoria da Probabilidade
Conceitos Básicos e Definições
reposição se equivalem.
Exemplo 3) Qual a probabilidade de que, num grupo com n pessoas, não existam duas
com aniversário na mesma data?
(este problema é muito popular, sendo conhecido como “problema dos aniversários”)
Seja: S = {1, 2, 3, . . . , 365}, então S é definido como sendo os dias do ano e, s = 365.
Considerando que uma data de nascimento é uma seleção aleatória de um elemento de
S , então, para E = { nenhuma coincidência de datas de aniversário no grupo }:
P (E) =
n−1
Y
k=1
k
1−
365
.
Por exemplo, para um grupo de n = 4 pessoas
P (E) =
1
1−
365
2
3
1−
1−
= 0.9836.
365
365
Desta forma, a probabilidade de que, num grupo de quatro pessoas, pelo duas delas
façam aniversário na mesma data, é de 1 − 0.9836 = 0.0164.
1.6.2
Permutações
Considere n caixas e n bolas distintas, numeradas de 1 a n. De quantas meneiras diferentes podem-se colocar as n bolas nas n caixas, de modo que cada caixa contenha exatamente
1 bola?
O número de bolas possíveis para se colocar na primeira caixa é n, na segunda caixa é
(n − 1), na terceira (n − 2), e assim por diante, sendo que, para a n−ésima caixa, só restará
uma bola. O número de possibilidade, assim definido, é dado pela permutação das n bolas
Pn = n (n − 1) (n − 2) . . . 1 = n!
Na permutação, uma número n de objetos ou items são reorganizados em n posições
distintas, tal que, cada posição seja ocupada por apenas um item.
Assim sendo, uma compsição específica de bolas nas caixas tem probabilidade de ocorrência
1
1
=
Pn
n!
32
Teoria da Probabilidade
Conceitos Básicos e Definições
Qual é a probabilidade de que a bola i seja colocada na caixa j , i, j = 1, 2, ...n?
Fixando uma bola e uma caixa restam (n − 1) bolas para serem permutadas nas (n − 1)
caixas, logo, o número de possibilidade tal que a bola i esteja na caixa j é dado por Pn−1 =
(n − 1)!. Desta forma, a probabilidade do evento A = { a bola i seja colocada na caixa j } é
P (A) =
(n − 1)!
1
Pn−1
=
= .
Pn
n!
n
Por sua vez, a probabilidade de que, permutando-se n bolas em n caixas, exatamente k
bolas caiam em k caixa específicas é dada por:
Pn−k
(n − k)!
1
=
=
.
Pn
n!
An,k
Exemplo 4) Numa festa de final de ano, n = 8 casais concordam em participar de uma
brincadeira na qual, todos os casais participantes são separados e novos pares são formados
por sorteio para dançarem pelo menos uma música. Qual é a probabilidade de que exatamento 4 casais sejam mantidos, ou seja, 4 garotas fiquem com seus respectivos namorados?
Defindo o evento A = { 4 casais sejam mantidos }, então, n = 8 e k = 4, logo
P (A) =
1.6.3
(8 − 4)!
1
=
= 0.000595.
8!
A8,4
Amostras Desordenadas
Considere o conjunto S , com s elementos, logo existem As,n amostras distintas de tamanho n, n < s, extraídas sem reposição. Nesta situação, considera-se a ordem das observações na amostra, ou seja, amostras com os elementos em diferentes ordenações são
consideradas distintas.
Em muitas situações, no entanto, o interesse recai nos elementos da amostras, independente da ordem em que são selecionados. É o caso de amostras desordenadas. Neste
sentido, uma amostra sem reposição {x1 , x2 , . . . , xn } pode ser reordenada de n! maneiras diferentes (todas com os mesmos elementos), fato este, que deve ser considerado no momento
da contagem.
Portanto, dividindo o número de amostras sem reposição pelo total de reordenações,
obtem-se o número de amostras possíveis, sem reposição e sem considerar a ordem dos
33
Teoria da Probabilidade
Conceitos Básicos e Definições
elementos, ou seja,
As,n
n!
Multiplicando-se o numerador e denominador por (s − n)!, tem-se
As,n
s(s − 1) · · · (s − n + 1) (s − n)!
s!
=
=
n!
n! (s − n)!
n! (s − n)!
O termo As,n /n! é conhecido
! como coeficiente binomial ou combinação, podendo ser re-
s
n
presentado por Cs,n ou
. Logo, a combinação de s elementos, tomados n-a-n é dada
por
s
n
!
=
s!
,
n! (s − n)!
n < s.
Exemplo Considere a amostra {3, 1, 7}. como n = 3, o número de reordenações dos seus
elementos é 3! = 6:
{3, 1, 7},
{3, 7, 1},
{1, 3, 7},
{1, 7, 3},
{7, 3, 1} {7, 1, 3}
Notas:
a) O coeficiente
a
x
!
é bem definido para a ∈ R e x ∈ N, por exemplo, se a = −π e
x = 3, então
−π
3
!
=
−π(−π − 1)(−π − 2)
π(π − 1)(π − 2)
=−
= −11.1497.
3!
6
b) Por definição, 0! = 1 e Aa,0 = 1.
c) Para a inteiro positivo, se x > a ou x < 0
p.def.
=⇒
a
x
!
= 0;
Exemplo 5) Considere S = {1, 2, . . . , s}, um conjunto finito. Qual a probabilidade de se
extrair k < s elementos de S tal que os valores estejam em ordem crescente, ou seja, tal que
1 ≤ x1 < x2 < . . . < xk ≤ s?
34
Teoria da Probabilidade
Conceitos Básicos e Definições
O número de amostras de tamanho k < n que podem ser retiradas de S tal que não hajam
repetições é An,k = n(n − 1) . . . (n − k + 1).
Dessas As,k existem k! reordenações, das quais apenas uma contém os valores em
sequência.
Portanto, a probabilidade desejada é:
P (A) =
1
k!
=
As,k
Cs,k
Assumindo S = {1, 2, 3, 4, 5}, então s = 5 e k = 3 (amostras de tamamho 3 de um
conjunto com 5 elementos).
A seguir são apresentadas todas as amostras possíveis, com destaque em negrito para
as amostras nas quais os valores estão em ordem crescente.
1
1
2
2
3
3
2
3
1
3
1
2
3
2
3
1
2
1
1
1
2
2
4
4
2
4
1
4
1
2
4
2
4
1
2
1
1
1
2
2
5
5
2
5
1
5
1
2
5
2
5
1
2
1
1
1
3
3
4
4
3
4
1
4
1
3
4
3
4
1
3
1
1
1
3
3
5
5
3
5
1
5
1
3
5
3
5
1
3
1
1
1
4
4
5
5
4
5
1
5
1
4
5
4
5
1
4
1
2
2
3
3
4
4
3
4
2
4
2
3
4
3
4
2
3
2
2
2
3
3
5
5
3
5
2
5
2
3
5
3
5
2
3
2
2
2
4
4
5
5
4
5
2
5
2
4
5
4
5
2
4
2
3
3
4
4
5
5
4
5
3
5
3
4
5
4
5
3
4
3
. Amostras possíveis A5,3 = 60
. Reordenações 3! = 6
. Probabilidade do evento A = { extrair uma amostra de tamanho 3 com os valores em
ordem crescente }:
P (A) =
6
1
=
= 0.10
60
10
Exemplo 6) Qual é a probabilidade de se obter um royal straight flush numa mão de pôquer,
antes da troca de cartas?
Um royal straight flush é uma sequência com as maiores cartas (A, K, Q, J, 10), sendo
todas do mesmo naipe.
35
Teoria da Probabilidade
Conceitos Básicos e Definições
. Antes da troca de cartas tem-se A52,5 mãos possíveis.
. Reordenações: 5! = 120 possibilidades de se obter a mesma mão.
. Probabilidade do evento A = { obter a mão (A, K, Q, J, 10) com todas as cartas do
mesmo naipe }
P (A) =
4 ∼
4 × 5!
=
= 1.54 × 10−6
A52,5
C5,5
Fica como exercício para o leitor calcular as probabilidades de se obter as demais mãos
no jogo no pôquer (antes da troca das cartas).
. Straight flush (cinco cartas do mesmo naipe, em sequência);
. Quadra (quatro cartas do mesmo valor);
. Full house (uma trinca e um par);
. Flush (as cinco cartas do mesmo naipe);
. Straight (cinco cartas em sequência, sem consideração de naipes);
. Trinca (três cartas do mesmo valor);
. Dois pares (pares com cartas de valores distintos);
. Par (duas cartas do mesmo valor).
Exemplo 7) No jogo da megasena o que mais vantajoso:
A = { escolher d = 10 dezenas e jogar todas as combinações possiveis de 6 dezenas } ou
B = { fazer 210 jogos distintos de 6 dezenas }?
Espaço amostral Ω = {1, 2, 3, . . . , 60}
Total de possibilidades com jogos de 6 dezenas: C60,6 =
60!
.
54! 6!
Total de jogos possíveis de 6 dezenas dentre as d = 10 escolhidas: C10,6 =
10!
= 210.
4! 6!
Portanto, as chances de se ganhar na megasena são iguais para os dois casos visto que:
P (A) = P (B) =
1.6.4
210
≈ 4.2 × 10−6
C60,6
Partições
Seja uma população S , de tamanho s, dividida em k subpopulações S1 , S2 , . . . , Sk com
s1 , s2 , . . . , sk elementos, respectivamente.
Considerando o caso de amostras desordenadas e sem reposição, a probabilidade de
que, numa amostra de tamanho n sejam selecionados exatamente n1 , n2 , . . . , nk elementos
36
Teoria da Probabilidade
Conceitos Básicos e Definições
de S1 , S2 , . . . , Sk , tal que ni < si , i = 1, 2, . . . , k , é dada por
P (n1 , n2 , . . . , nk ) =
em que
k
X
si = s e
i=1
k
X
s1
n1
!
s2
n2
!
···
s
n
sk
nk
!
!
,
ni = n.
i=1
Exemplo 7) Num grupo de com 12 professores e 5 alunos do curso de Estatística, devem
ser escolhidas n = 5 pessoas para formar uma comissão para falar com o Reitor. Quantas
comissões podem ser formadas de tal forma que, dos escolhidos, 3 sejam professores e 2
sejam alunos?
O grupo tem um total de N = 12 + 5 = 17, desta forma, o total de comissões é dado por
17
5
!
=
17!
= 6188 comissões.
12! 5!
O número de copmissões com exatamente 3 professores e 2 alunos é dado por
12
3
!
5
2
!
= 2200 comissões com 3 prof. e 2 alunos.
Desta forma:
P (comissão com 3 professores e 2 alunos) =
12
3
!
17
5
5
2
!
!
=
2200
= 0.355,
6188
Exemplo 8 - Captura e recaptura) Num lago há uma população de peixes de tamanho N .
Uma rede é lançada, m peixes são capturados e marcados, após o que, são devolvidos à
água.
A rede é lançada uma 2ª vez e um total de n peixes são capturados. Qual é a probabilidade
do evento:
A = { exatamente x, dentre os n peixes capturados no 2º lançamento, são marcados }
37
Teoria da Probabilidade
Conceitos Básicos e Definições
Após a primeira captura tem-se N peixes no lago, dos quais m são marcados.
Da partição da população desejamos que no segundo lançamento da rede sejam capturados x peixes marcados e (n − x) não marcados, logo
P (A) =
m
x
!
N −m
n−x
!
N
n
!
(1.6)
Uma situação prática envolvendo o problema da captura e recaptura refere-se à estimação
do tamanho da população N .
Conhecendo m da primeira captura e tendo observado n e x do segundo lançamento da
rede, como podemos estimar o tamanho da população de peixes N ?
Da inferência estatística tem-se que uma estimativa para o tamanho da população é dada
pelo valor de N que maximiza a probabilidade em (1.6).
Assumindo, por exemplo, m = 50 e n = 30, qual é a probabilidade de que exatamente x
peixes do segundo lançamento da rede sejam marcados?
P (A) =
50
x
!
N − 50
30 − x
!
N
30
!
.
(1.7)
Portanto, dado o número de peixes marcados na segunda captura, ou seja, dado x, o
tamanho da população de peixes no lago é estimado pelo valor de N que maximiza (1.7).
Simplificando ainda mais, considere m = 10 e n = 5. A probabilidade de que x = 1 peixe
do segundo lançamento da rede seja marcado é
P (A) =
10
1
!
38
N − 10
4
!
N
5
!
.
Teoria da Probabilidade
Conceitos Básicos e Definições
Com um pouco de álgebra, obtem-se
P (A) =
50(N − 10)(N − 11)(N − 12)(N − 13)
,
N (N − 1)(N − 2)(N − 3)(N − 4)
N > 13.
A seguir são apresentados a tabela com os cálculos para a obtenção de N e a curva com
o valor de P (A) versus N . Pelos valores apresentados, verifica-se que valor de N pode ser
estimatido em N = 49 ou N = 50.
N
P (A)
14
0.0050
20
0.1354
30
0.3400
40
0.4165
48
0.4311
49
0.4313
50
0.4313
51
0.4311
60
0.4217
80
0.3814
100
0.3394
120
0.3029
Exemplo 9 - Jogo da Megasena) Retomando o problema da megasena, considere que
o apostador escolha um número d de dezenas e aposte todos os jogos possíveis com 6
dezenas. Se o apostador conseguir acertar as 6 dezenas sorteadas, além de ganhar na
sena, de quebra, ele consegue algumas quinas e quadras.
Quantas quinas e quadras o apostador consegue ao acertar as seis dezenas sorteadas?
De maneira geral, apostando nos Cd,6 jogos possíveis e acertando as 6 dezenas sorteadas, tem-se
39
Teoria da Probabilidade
Conceitos Básicos e Definições
. ou seja, são 6 dezenas sorteadas, dentre as d escolhidas e (d − 6) não sorteadas;
. Q acertos dentre as 6 dezenas sorteadas e (6 − Q) erros, dentre as dezenas não
sorteadas;
!
6
Q
d−6
6−Q
!
(1.8)
. se o apostador acertar as 6 dezenas, então Q = 6 e o número de senas é igual a
6
6
!
d−6
6−6
!
=
6
6
!
d−6
0
!
=1
Este resultado é óbvio, uma vez que o procedimento de escolha implica a inexistência de
repetições, logo, haverá apenas um jogo de seis dezenas coincidindo com as dezenas sorteadas. Mas, acertando a sena, quantas quinas e quadras são, também, obtidas?
O raciocínio é o mesmo que no caso anterior, isto é, tendo feito a sena, sendo Q acertos
dentre as 6 dezenas sorteadas e (6 − Q) erros dentre as não sorteadas, então
. fazendo Q = 5, o número de quinas obtidas é dado por
6
5
!
d−6
6−5
!
6
5
=
!
d−6
1
!
= 6(d − 6), d > 6
. da mesma forma, para Q = 4, o número de quadras é
6
4
!
d−6
6−4
!
=
6
4
!
d−6
2
!
=
15 (d − 6)(d − 7)
, d > 6.
2
. Se d = 10, como no exercício anterior, então, além de ganhar na megasena, o apostador
conseguirá
6
5
!
6
4
!
4
1
!
4
2
!
= 24 quinas e
= 90 quadras
Pode-se generalizar o resultado em (1.8) para os casos em que o apostador acerte 5
dezenas (faz a quina) ou apenas 4 dezenas (faz a quadra). Desta forma, substituindo-se os
40
Teoria da Probabilidade
Conceitos Básicos e Definições
valores 6 na primeira linha de (1.8) por 5 e 4, respectivamente, pode-se calcular o número de
quinas e quadras, possíveis, para as duas situações.
i) Se o apostador acertar 5 das dezenas sorteadas:
5
Q
!
d−5
6−Q
!
. com Q = 5, serão (d − 5) quinas, d > 6,
. com Q = 4, o número de quadras é igual a
5(d − 5)(d − 6)
, d > 6.
2
ii) Acertando-se 4 dezenas:
4
Q
. com Q = 4, consegue-se
!
d−4
6−Q
!
(d − 4)(d − 5)
, quadras d > 6.
2
Na Tabela 1.2 são apresentados os números de senas, quinas e quadras se acertar 6, 5
ou 4 dezenas, dentre as d escolhidas, com todas as Cd,6 apostas possíveis.
Tabela 1.2: Número de senas, quinas e quadras na megasena nos jogos com d dezenas
escolhidas e combinadas.
Dezenas
Acertos
número
apostadas
6
5
4
de
d
senas quinas quadras quinas quadras quadras
jogos
6
1
0
0
1
0
1
1
7
1
6
0
2
5
3
7
1
12
15
3
15
6
28
8
9
1
18
45
4
30
10
84
10
1
24
90
5
50
15
210
11
1
30
150
6
75
21
462
12
1
36
225
7
105
28
924
13
1
42
315
8
140
36
1716
14
1
48
420
9
180
45
3003
15
1
54
540
10
225
55
5005
41
Teoria da Probabilidade
2
Variáveis Aleatórias
Variáveis Aleatórias
Dado um fenômeno aleatório, definido num espaço de probabilidade (Ω, A , P ), tem-se o
interesse em conhecer a estrutura probabilística de quantidades associadas a esse fenômeno.
Para isso, se faz necessário a introdução do conceito de variável aleatória e a especificação
de modelos para tais variáveis.
Definição 2.1. Seja o espaço de probabilidade (Ω, A , P ), então, define-se por variável aleatória, ou simplesmente v.a., qualquer função X : Ω → R tal que:
X
−1
n
o
(Ω) = ω ∈ Ω : X(ω) ∈ I ∈ A ,
para todo intervalo I ⊂ R.
Uma variável aleatória é uma função que leva os elementos do espaço amostral Ω a um
subconjunto dos reais R (Figura 2.1).
Figura 2.1: Variável aleatória X : Ω → R.
Exemplo 2.1. As variáveis aleatórias são classificadas em dois tipos:
i) VA discreta: é aquela para a qual o conjunto I é um conjunto finito ou infinito enumerável,
por exemplo:
n
o
a) I = 1, 2, 3, 4, 5, 6 ;
42
Teoria da Probabilidade
Variáveis Aleatórias
n
o
b) I = N = 0, 1, 2, 3, 4, ... .
ii) VA contínua: é aquela para a qual o conjunto I é um conjunto infinito não enumerável,
ou seja, é uma v.a. que assume valores em intervalos de números reais, por exemplo:
a) I = R = (−∞, ∞);
b) I = [0, 1] ⊂ R.
Notas:
a) Para v.a.’s contínuas, a função que normalmente associa pontos de Ω ao conjunto I ⊆
R, é a função identidade;
b) Para v.a.’s discretas, a função que normalmente associa pontos de Ω ao conjunto I ⊆ R,
é uma contagem ou soma.
2.1
Variáveis Aleatórias Discretas
X é uma v.a. discreta, num espaço de probabilidade (Ω, A , P ), é uma n
função com doo
mínio em Ω e cujo contradomínio é um conjunto finito ou infinito enumerável x1 , x2 , x3 , . . .
n
o
dos números reais R, tal que, ω ∈ Ω : X(ω) = xi é um evento para todo i e, portanto,
pode-se calcular a sua probabilidade de ocorrência
h
i
P {ω ∈ Ω : X(ω) = xi } ,
i = 1, 2, 3, . . . .
Notas:
n
o
n
o
a) Por simplicidade, representamos o evento ω ∈ Ω : X(ω) = xi por X = xi e as
probabilidades são simplificadas por:
h
i
P {ω ∈ Ω : X(ω) = xi } = P (X = xi )
n
o
∗
b) Se x ∈
/ I, então ω ∈ Ω : X(ω) = x = ∅, que também é um evento. Nesse caso,
∗
P
h
ω ∈ Ω : X(ω) = x
43
∗
i
= P (X = x∗ ) = 0
Teoria da Probabilidade
Variáveis Aleatórias
c) Se o conjunto I de possíveis valores de uma v.a. discreta X é formado por valores
inteiros, ou inteiros não negativos, então, X é uma v.a. inteira, ou uma v.a. interia não
negativa. A maioria das v.a.’s discretas são inteiras não negativas.
Definição 2.2. Função de probabilidade de uma v.a. discreta X é uma função p(x) que
atribui probabilidade a cada um dosnpossíveis valores
o de X .
Seja X assumindo valores I = x1 , x2 , x3 , . . . , então, para todo x ∈ I
p(x) = P (X = x).
Propriedades: A função p(x) de X em (Ω, A , P ) satisfaz:
a) 0 ≤ p(xi ) ≤ 1, ∀ xi ∈ I;
b)
X
p(xi ) = 1.
i
Prova:
a) Como p(x) é uma medida de probabilidade, por definição, 0 ≤ p(x) ≤ 1;
o
n
b) Como, por definição, os eventos w ∈ Ω : X(ω) = xi , i = 1, 2, . . . são disjuntos, então
X
i
p(xi ) =
X
P (X = xi )
i
=P
"
[n
w ∈ Ω : X(ω) = xi
#
o
i
= P (Ω) = 1.
Definição 2.3. Função de distribuição, também chamada de função de distribuição acumulada (fda) de uma v.a. discreta X é uma função F (x) que retorna a probabilidade de X
assumir valores até o ponto x.
n
o
Seja X assumindo valores I = x1 , x2 , x3 , . . . , então, para todo x ∈ I
F (x) = P (X ≤ x).
Propriedades: F (x) apresenta as propriedades:
44
Teoria da Probabilidade
Variáveis Aleatórias
a) F (x) é uma função do tipo escada, ou seja, para os pontos xi , xi+1 ∈ I e x tal que
xi ≤ x < xi+1 ,
F (x) = F (xi ),
isto é, F (x) é constante no intervalo [xi , xi+1 ) (ver Figura 2.2).
b) Dada F (x), para xa e xb ∈ I, tal que xa < xb ,
P (xa < X ≤ xb ) = F (xb ) − F (xa ).
Desta forma, para um valor qualquer xi ∈ I, tem-se
p(xi ) = F (xi ) − F (xi−1 ),
ou seja, a probabilidade num ponto xi é dada pela altura do “degrau” em F (xi ).
Exemplo 2.2. Seja a v.a. X discreta, com distribuição de probabilidade dada por:
x
p(x)
F (x)
0
1
2
3
4
5
0.15
0.28
0.26
0.18
0.08
0.05
0.15
0.43
0.69
0.87
0.95
1.00
Assim, temos:
a) p(3) = P (X = 3) = 0.18;
b) F (2) = P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) = 0.69;
c) P (1 ≤ X < 5) = P (0 < X ≤ 4) = F (4) − F (0) = 0.80,
Ainda: P (1 ≤ X < 5) =
4
X
P (X = x) = 0.28 + 0.26 + 0.18 + 0.08 = 0.80;
x=1
d) P (2 ≤ X ≤ 4) = F (4) − F (1) = 0.52.
Exemplo 2.3. Considere 2 lançamentos independentes de uma moeda
n equilibrada. oDefinindo
X como sendo o número de caras nos 2 lançamentos, temos Ω =
Logo:
45
cc; cc̄; c̄c; c̄c̄ .
Teoria da Probabilidade
Variáveis Aleatórias
h
i
p(0) = P { c̄c̄ } X( c̄c̄ ) = 0 = 1/4
h
i
p(1) = P { cc̄ } ∪ { c̄c } X( cc̄ ) = X( c̄c ) = 1 = 1/2
i
p(2) = P { cc } X( cc ) = 2 = 1/4
h
Portanto, a função de probabilidade de X , é dada por:
x
p(x)
0
1/4
1
1/2
2
1/4
A função de distribuição da v.a. X , é dada por:

0,



 1/4,
F (x) =

3/4,



1,
x < 0;
0 ≤ x < 1;
1 ≤ x < 2;
x ≥ 2.
Figura 2.2: Função distribuição acumulada da v.a. X
Exemplo 2.4. Seja uma v.a. X assumindo os valores { 3, 4, 5, 6 }. Obter k ∈ R de modo que
p(x) seja uma função de probabilidade:
p(x) = k (x − 2)2
46
Teoria da Probabilidade
Variáveis Aleatórias
Das propriedades da função de probabilidade,
X
p(x) = 1, portanto:
x
k [(3 − 2)2 + (4 − 2)2 + (5 − 2)2 + (6 − 2)2 ] =1
k [1 + 22 + 32 + 42 ] =1
30k =1
1
k= .
30
(x − 2)2
, x ∈ {3, 4, 5, 6}.
Desta forma, a função de probabilidade de X é dada por p(x) =
30
Exemplo 2.5. Considere o jogo no qual um alvo circular de raio 1 é dividido em n regiões
anelares concêntricas de raio 1/n, 2/n, . . . , 1. Lança-se um dardo ao acaso e, se ele atingir a
região Ai , delimitada pelos raios (i − 1)/n e i/n, i = 1, 2, . . . , n, ganha-se (n − i) reais (ver
Figura 2.3)
An
0
An−1
1
R=1
A2 n − 2
A1
n−1
Figura 2.3: Regiões anelares identificadas em vermelho e ganho obtido em azul.
Seja a v.a. X = importância ganha em um lançamento, obtenha a função de probabilidade
de X .
Aqui, o espaço de probabilidade (Ω, A , P ) é o espaço uniforme sobre o disco de raio 1.
X é uma v.a. discreta definida neste espaço, assumindo os valores {0, 1, 2, . . . , n − 1}.
Ainda, Ai = {X = n − i} é um evento que ocorre se, e só se, o dardo atinge a região
delimitada pelos círculos de raios (i − 1)/n e i/n.
47
Teoria da Probabilidade
Variáveis Aleatórias
A probabilidade para o evento Ai são dadas por:
P (X = n − i) =
área de Ai
área total
2
2
i−1
i
−π
π
n
n
P (X = n − i) =
π
P (X = n − i) =
i2 − (i2 − 2i + 1)
n2
P (X = n − i) =
2i − 1
,
n2
i = 1, 2, . . . , n.
Com x = n − i, então, a função de probabilidade de X é:

2(n − x) − 1


, x ∈ {0, 1, 2, . . . , (n − 1)}

n2
p(x) =



0,
c.c.
Com p(x) assim definida:
i) Certifique-se de que p(x) é de fato uma função de probabilidade;
ii) Calcule a probabilidade de se acertar a região mais central do alvo (mosca).
2.2
2.2.1
Principais modelos de discretos
Variável Aleatória Constante
Seja uma v.a. X que associa um único valor k ∈ R para todo ω ∈ Ω.
Então {ω ∈ Ω | X(ω) = k} é todo o espaço amostral Ω e, X(ω) = k é uma v.a. discreta
com função de probabilidade:
(
p(x) =
1, x = k
0, x =
6 k.
A função de probabilidade de uma v.a. é também chamada de degenerada em k e sua
48
Teoria da Probabilidade
Variáveis Aleatórias
função de distribuição é dada por
(
F (x) =
0, x < k
1, x ≥ k.
Na Figura (2.4) são apresentadas as funções de probabilidade p(x) e de distribuição F (x)
1
●
p(x)
F(x)
1
para o modelo degenerado num ponto.
●
k
k
X
X
Figura 2.4: Funções de probabilidade (esquerda) e de distribuição (direita) do modelo degenerado num ponto
2.2.2
Distribuição uniforme discreta
Considere a v.a. X assumindo valores em I = {x1 , x2 , . . . , xn }. X tem distribuição uniforme discreta se cada elemento de I tiver mesma probabilidade, ou seja

1


 n, x∈I
p(x) = P (X = x) =



0, x ∈
/I
Notação: X ∼ Ud (I)
Notas:
i) O modelo uniforme discreto considera que os elementos x1 , x2 , . . . , xn de I são equiprováveis.
49
Teoria da Probabilidade
Variáveis Aleatórias
ii) Normalmente I é um subconjunto dos naturais (I ⊂ N) definido por limites [a, b], em que
a < b são os parâmetros do modelo. Neste caso
X ∼ Ud (a, b).
A função de distribuição acumulada da v.a. da uniforme discreta é definida por
P
i I[xi |xi ≤x]
F (x) =
n
x ∈ {x1 , x2 , . . . , xn },
em que I[xi |xi ≤x] = 1, se xi ≤ x e I[xi |xi ≤x] = 0, caso contrário.
Exemplo 2.6. Considere o lançamento de um dado equilibrado e seja a v.a. X = valor
observado, então, I = {1, 2, 3, 4, 5, 6} e X ∼ Ud (1, 6)
p(x) =
F (x) =
1
,
6
x
6
x = 1, 2, 3, 4, 5, 6;
x = 1, 2, 3, 4, 5, 6.
Na Figura (2.5) são apresentadas as funções de probabilidade e de distribuição acumulada
●
1
1/6
para o exemplo.
●
p(x)
F(x)
●
●
●
●
●
●
●
●
●
●
1
2
3
4
5
6
1
X
2
3
4
5
6
X
Figura 2.5: Funções de probabilidade (esquerda) e de distribuição (direita) do modelo Ud (1, 6)
50
Teoria da Probabilidade
2.2.3
Variáveis Aleatórias
Distribuição de Bernoulli
Considere, agora, um evento A ⊂ Ω, tal que, X(ω) = 1, se ω ∈ A e X(ω) = 0, se ω ∈ Ac ,
então, A ocorre se, e só se, X(ω) = 1.
A v.a. X é uma variável indicadora de A, pois o valor de X indica a ocorrência de A e,
P (A) = P [{ω ∈ Ω | X(ω) = 1}] = P (X = 1)
Normalmente, o evento A é chamado de sucesso e Ac de fracasso e a v.a. assim definida, é chamada de v.a. de Bernoulli, em que p = P (A) é a probabilidade de sucesso e
(1 − p) = P (Ac ) é a probabilidade de fracasso.
Notas:
i) Uma realização da v.a. de Bernoulli recebe o nome de “ensaio de Bernoulli ”.
ii) Ensaio de Bernoulli é todo experimento com apenas dois resultados possíveis, denotados por sucesso e fracasso. Esses resultados são representados pelos valores 1 e 0 da
v.a. X , com probabilidades de corrência p e (1 − p), respectivamente. Assim,

X = 1, representa um sucesso,
X = 0, representa um fracasso.
iii) A probabilidade de sucesso p é o parâmetro do modelo de Bernoulli.
Seja X uma variável de Bernoulli com probabilidade de sucesso p, então, sua função de
probabilidade é definida por


 1 − p, x = 0
p(x) =
p,
x=1


0,
x 6= 1 e x 6= 0.
Notação: para indicar que uma v.a. tem distribuição de Bernoulli, usamos a seguinte
notação:
X ∼ Bernoulli(p).
A função de probabilidade para o modelo de Bernoulli pode ser mais elegantemente representada por:
p(x) = px (1 − p)1−x ,
51
x = 0, 1.
Teoria da Probabilidade
Variáveis Aleatórias
A função de distribuição para o modelo de Bernoulli, por sua vez, é dada por



0,
x<0
F (x) =
1 − p, 0 ≤ x < 1


1,
x ≥ 1.
A Figura (2.6) apresenta as funções de probabilidade e de distribuição acumulada para o
modelo de Bernoulli com parâmetro p.
Nota: Como veremos no restante da seção, a v.a. de Bernoulli serve de base para a
●
●
●
p
p(x)
F(x)
1−p
1
1−p
definição de grande parte dos modelos discretos de probabilidade.
●
0
1
0
X
1
X
Figura 2.6: Funções de probabilidade (esquerda) e de distribuição (direita) do modelo
Bernoulli (p)
2.2.4
Distribuição binomial
Exemplo 2.7. Considere o experimento no qual uma moeda honesta é lançada três vezes,
sendo que a probabilidade de se obter cara em um lançamento é p e de se obter coroa é
(1 − p), 0 ≤ p ≤ 1.
Para este experimento, o espaço amostral é dado por
Ω = {(c, c, c), (c, c, c̄), (c, c̄, c), (c̄, c, c), (c, c̄, c̄), (c̄, c, c̄), (c̄, c̄, c), (c̄, c̄, c̄)}
em que c = cara e c̄ = coroa.
Definindo a v.a. X = número de caras obtidos nos três lançamentos, determinar a função
de probabilidade de X .
52
Teoria da Probabilidade
Variáveis Aleatórias
Para cada elemento do espaço amostral, a v.a. X assume os valores:
⇒ X(c, c, c) = 3
ω = (c, c, c)
ω = (c, c, c̄)
ω = (c, c̄, c)
ω = (c̄, c, c)



⇒ X(c, c, c̄) = X(c, c̄, c) = X(c̄, c, c) = 2



ω = (c, c̄, c̄) 

⇒ X(c, c̄, c̄) = X(c̄, c, c̄) = X(c̄, c̄, c) = 1
ω = (c̄, c, c̄)


ω = (c̄, c̄, c)
ω = (c̄, c̄, c̄)
⇒ X(c̄, c̄, c̄) = 0
Uma vez que os lançamentos da moeda são independentes, a v.a. X tem a seguinte
função de probabilidade:
x
0
1
2
3
p(x)
(1 − p)3
3p(1 − p)2
3p2 (1 − p)
p3
Os três elementos de Ω para os quais X = 2, resultam das possíveis combinações nas
quais são obtidas duas cara e uma coroa, implicando que a probabilidade individual p2 (1 − p)
seja multiplicada por 3. Desta forma, a probabilidade P (X = 2) pode ser escrita como
3 2
p(2) =
p (1 − p).
2
O mesmo acontece com X = 1, resultado das possíveis combinações nas quais se obtem
uma cara nos três lançamentos da moeda, sendo a probabilidade P (X = 1) escrita por
3
p(1) =
p(1 − p)2 .
1
Como podemos observar, p(x) é uma função de probabilidade discreta, pois:
i) p(x) ≥ 0 ∀ x = 0, 1, 2, 3, uma vez que 0 ≤ p ≤ 1;
ii)
3
X
p(x) = [p + (1 − p)]3 = 1.
x=0
53
Teoria da Probabilidade
Variáveis Aleatórias
Considerando que a moeda é honesta, ou seja p = 1/2, temos
x
p(x)
0
1/8
1
3/8
2
3/8
3
1/8
A distribuição de probabilidade acima, como veremos pela definição (2.4), é a distribuição
binomial com parâmetros n = 3 e p = 0.5.
Definição 2.4. Considere n repetições independentes de um ensaio de Bernoulli cuja probabilidade de sucesso é P (sucesso) = p e seja a v.a. X que conta o número de sucesso nas n
realizações independentes do ensaio, então, X tem distribuição binomial com parâmetros n
e p e a sua função de probabilidade é dada pela expressão
n x
p(x) =
p (1 − p)n−x ,
x
x = 0, 1, . . . , n.
Notação: X ∼ binomial(n, p).
0.3
1
●
●
0.6
●
●
0
0
0.2
0.1
0.4
F(x)
0.2
p(x)
0.8
●
0
1
2
3
4
●
●
●
●
0
1
X
●
2
3
4
X
Figura 2.7: Funções de probabilidade (esquerda) e de distribuição (direita) do modelo
binomial (4, 0.6)
Notas:
i) A distribuição de Bernoulli é um caso especial da binomial para o qual n = 1.
ii) A função de distribuição acumulada F (x) não tem uma forma explicita, sendo definda
por
F (x) =
X
xi ≤x
54
P (X = xi ).
Teoria da Probabilidade
Variáveis Aleatórias
iii) Se a v.a. X conta os sucessos em n ensaios independentes de Bernoulli, X ∼ binomial(n, p).
Então, se nos mesmos n ensaios, a v.a. Y contar o número de fracassos:
Y ∼ binomial(n, 1 − p).
Exemplo 2.8. Uma indústria que produz placas para componentes eletrônicos, usadas na fabricação de celulares, afirma que no processo de produção dessas placas 1% sai com defeito
nas furações. Considerando que na inspeção dessas placas, 10 unidades são selecionadas
aleatoriamente e avaliadas:
Defina uma v.a. para esse caso e determine a sua função de probabilidade p(x).
Uma vez que p(x) seja definida, qual é a probabilidade de que a inspeção encontre:
a) exatamente uma placa com defeito?
b) pelo menos uma placa com defeito?
c) no máximo três placas com defeito?
A inspeção de cada uma das placas resulta em um, dentre dois resultados possíveis (placa
com defeito ou placa boa), o que caracteriza um ensaio de Bernoulli no qual o resultado
de interesse (sucesso) é dado pela placa com defeito. Alé disso, como as inspeções são
independentes, a probabilidade de uma placa ser defeituosa (dada pelo índice de defeitos da
produção, ou seja, p = 0.01) é comum a todos os ítens produzidos.
Portanto, definindo a v.a. X = número de placas com defeito encontradas na inspeção das
n = 10 placas selecionadas, X tem distribuição binomial com parâmetros n = 10 e p = 0.01
e sua função de probabilidade é dada por
10
p(x) = P (X = x) =
(0.01)x (0.99)10−x ,
x
x = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.
As probabilidades solicitadas nos itens (a), (b) e (c) são, portanto, calculadas por
10
a) p(1) = P (X = 1) =
(0.01)1 (0.99)9 = 0.09135.
1
b) Pelo evento complementar temos que:
P (X ≥ 1) = 1 − P (X = 0) = 1 − (0.99)10 = 0.09562
c)
F (3) = P (X ≤ 3) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3)
= 0.90438 + 0.09135 + 0.00415 + 0.00011 = 0.99999
55
Teoria da Probabilidade
Variáveis Aleatórias
Exemplo 2.9. Uma indústria vende um produto em embalagens de ½ kg. O processo de
empacotamento tem como limite inferior o peso de 495 g , sendo que, os pacotes devem ter
peso superior a este limite. Apesar da automação, o processo produz 6% de pacotes abaixo
do limite, o que preocupa o dono da indústria numa possível inspeção.
Nas inspeções, os fiscais do órgão competente costumam recolher 20 pacotes do produto
das prateleiras dos supermercados e pesar cada um deles. Desta forma, qual é a probabilidade de que:
a) apenas um pacote esteja abaixo do limite de peso?
b) no máximo dois pacotes estejam abaixo do limite de peso?
Seja a v.a. X = número de pacotes, da amostra, abaixo do limite de peso.
Então, X ∼ binomial(20, 0.06).
Respostas:
a)
20
P (X = 1) =
(0.06)(0.94)19 = 0.3703;
1
b)
F (2) = P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2)
20
20
= (0.94) + 0.3703 +
(0.06)2 (0.94)18
2
= 0.2901 + 0.3703 + 0.2246 = 0.8850.
2.2.5
Distribuição geométrica
Definição 2.5. Considere uma sequência de ensaios independentes de Bernoulli com probabilidade de sucesso igual a p e seja a v.a. X que conta o número de fracassos até a ocorrência
do primeiro sucesso. Então, X tem distribuição geométrica com parâmetro p e a sua função
de probabilidade é dada pela expressão
p(x) = p(1 − p)x ,
x = 0, 1, 2, . . .
Notação: X ∼ geométrica(p).
Exemplo 2.10. Num jogo de cassino, dois dados são lançados por um jogador que aposta
uma certa quantia de dinheiro antes do lançamento. O jogador dobra o valor apostado se
obter soma 11 ou 12 nos dados. Para tentar dobrar a posta, porém, o jogador tem até 3
tentativas, após as quais, ele perde o que apostou e precisa apostar novamente para continuar
jogando.
56
Teoria da Probabilidade
Variáveis Aleatórias
Qual é a probabilidade do jogador dobrar a aposta numa rodada de lançamentos?
Seja a v.a. X = número de lançamentos com somas diferentes de 11 ou 12, até que o
jogador ganhe.
Então, X ∼ geométrica(p).
Mas, qual deve ser o valor de p?
Para isso precisamos do espaço amostral para os lançamentos dos dados:
Ω = {(i, j) ∈ N2 | 1 ≤ i ≤ 6 e 1 ≤ j ≤ 6},
(Ω é equiprovável)
Seja o evento A = { valores favoráveis ao jogador }, então, A = {(6, 5), (5, 6), (6, 6)}.
Logo, a probabilidade de sucesso p é igual a P (A), isto é:
p=
1
3
= .
36
12
Assim, o jogador dobra o valor apostado se:
I sair soma 11 ou 12 no primeiro lançamento dos dados;
I sair soma 11 ou 12 no segundo lançamento, não tendo saído no primeiro;
I sair soma 11 ou 12 no terceiro lançamento, não tendo saído no primeiro nem no segundo lançamentos.
Desta forma, temos que calcular P (X ≤ 2), uma vez que X conta os fracassos até o
primeiro sucesso. Portanto:
F (2) = P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2)
1
=
12
11
12
0
1
+
12
11
12
1
1
+
12
11
12
2
"
2 #
11
1
11
=
1+
+
12
12
12
= 0.2297.
Priopriedades:
i) A função de distribuição acumulada F (x) é de fácil obtenção, sendo calculada a partir
57
Teoria da Probabilidade
Variáveis Aleatórias
do resultado
P (X ≥ x) =
∞
X
P (X = k)
k=x
= p(1 − p)x + p(1 − p)x+1 + p(1 − p)x+2 + . . .
=p
(1 − p)x
1 − (1 − p)
= (1 − p)x .
Desta forma, temos que a função distribuição acumulada F (x) é dada por
F (x) = P (X ≤ x)
F (x) =1 − P (X ≥ x + 1)
F (x) = 1 − (1 − p)x+1 .
No exemplo acima, p = 1/12 e, portanto:
F (2) = P (X ≤ 2) = 1 −
11
12
3
= 0.2297.
ii) A v.a. geométrica pode, ainda, ser definida como Y = número de ensaios até o primeiro
sucesso. Neste caso, Y assume valores a partir do 1, ou seja, y ∈ {1, 2, 3, . . .} e, em
função disto, a sua função de probabilidade passa a ser escrita como
p(y) = P (Y = y) = p(1 − p)y−1 ,
y ∈ N∗ ,
em que N∗ é o conjunto dos naturais, excluindo-se o zero, ou seja, N∗ = N − {0}.
Nota: Se a v.a. X conta o número de fracassos até o primeiro sucesso e a v.a. Y conta
o número de ensaios até o primeiro sucesso, então, a relação1 entre elas é dada por:
Y = X + 1 e:


p(y) = P (Y = y) = P (X + 1 = y) = P (X = y − 1) = p(1 − p)y−1 ;






P (Y ≥ y) = (1 − p)y−1 ;






 F (y) = P (Y ≤ y) = 1 − P (Y ≥ y + 1) = 1 − (1 − p)y .
1
A relação entre duas v.a. discretas será vista em mais detalhes na seção funções de v.a.’s.
58
Teoria da Probabilidade
Variáveis Aleatórias
iii) Uma propriedade importante da v.a. geométrica é a falta de memória, representada
pela relação
P (X ≥ x + k | X ≥ x) = P (X ≥ k).
Ou seja, dado que X já atingiu o valor x, a probabilidade de alcançar o valor x + k só
depende de k , reiniciando-se a contagem.
Prova:
P (X ≥ x + k | X ≥ x) =
P [(X ≥ x + k), (X ≥ x)]
P (X ≥ x)
=
P (X ≥ x + k)
P (X ≥ x)
=
(1 − p)x+k
(1 − p)x
= (1 − p)k = P (X ≥ k)
Exemplo 2.11. Considere um processo de produção cuja proporção de defeitos é de 0.03.
No processo de produção os itens são inspecionados um-a-um até que apareça o primeiro
com defeito quando, então, o processo é interrompido e ajustado.
a) Determine a probabilidade de que o processo seja ajustado sómente após o 40º item
produzido.
Seja X = número de itens bons até o primeiro com defeito.
Então: X ∼ geométrica(0.03).
Temos que calcular:
P (defeito no item 41 ou defeito no item 42 ou . . .) = P (X ≥ 40)
= (1 − 0.03)40
= (0.97)40 = 0.2957.
b) Sabendo que já foram produzidos 25 itens, não havendo nenhum defeito, qual é a probabilidade de que o primeiro item com defeito apareça após o 35º item produzido?
P (X ≥ 35 | X ≥ 25) = P (X ≥ 35 − 25)
= (0.97)10 = 0.7374.
59
Teoria da Probabilidade
Variáveis Aleatórias
c) Qual deve ser o intervalo de manutenção preventiva k se desejamos que nenhum item
com defeito ocorra entre duas manutenções consecutivas com probabilidade de pelo
menos 0.50?
Devemos obter k tal que P (X ≥ k) ≥ 0.50.
Tomando a igualdade, temos P (X ≥ k) = 0.50 = (0.97)k , logo, o valor de k é dado por
(0.97)k = 0.50
k ln(0.97) = ln(0.50)
k=
ln(0.50)
= 22.8
ln(0.97)
Ainda:
I se k = 22
=⇒
P (X ≥ 22) = (0.97)22 = 0.5117.
I se k = 23
=⇒
P (X ≥ 23) = (0.97)23 = 0.4963.
Logo, as manutenções devem ser feitas a cada 22 itens produzidos.
2.2.6
Distribuição binomial negativa
Definição 2.6. Considere uma sequência de ensaios independentes de Bernoulli com probabilidade de sucesso igual a p. A v.a. X que conta o número de fracassos até a ocorrência do
r−ésimo sucesso tem distribuição binomial negativa com parâmetro r > 0 e p e sua função
de probabilidade é dada por
x+r−1 r
p(x) =
p (1 − p)x ,
r−1
x = 0, 1, 2, . . .
(2.1)
Notação: X ∼ BN (r, p).
x+r−1
Nota: O termo
refere-se ao número de combinações possíveis para os
r−1
(x + r − 1) ensaios, anteriores ao r−ésimo sucesso, dos quais x são fracassos e (r − 1)
são sucessos.
Exemplo 2.12. Numa linha de montagem de uma grande indústria os parafusos são fornecidos em caixas com 50 unidades cada, sendo que a compra dos parafusos é feita em lotes
de 250 caixas. No recebimento dos parafusos o setor competente retira uma caixa do lote e
realiza uma inspeção, aceitando o lote se até a inspeção da metade da caixa, no máximo 2
60
Teoria da Probabilidade
Variáveis Aleatórias
parafusos tiverem a rosca “espanada” (aceitando o lote a empresa arca com o prejuízo dos
demais parafusos que vierem a espanar). Por outro lado, se até a inspeção da metade da
caixa, três ou mais parafusos espanarem, o lote todo é devolvido ao fornecedor. Considerando
que o fabricante dos parafusos afirma que 9% dos parafusos produzidos acabam espanando
na hora do uso, cacule a probabilidade de que a devolução do lote ocorra exatamente ao se
testar a metade da caixa de parafusos.
Seja X = número de parafusos bons até o 3º ruim.
Note que, o lote será devolvido se ao se testar o 25º parafuso, aparecer o 3º ruim, logo
I x = 25 − 3 = 22 parafusos bons e
I r = 3 parafusos espanados.
Desta forma, X tem distribuição X ∼ BN (3, 0.09).
22 + 3 − 1
P (X = 22) =
(0.09)3 (0.91)22
3−1
24
=
(0.09)3 (0.91)22
2
= 0.0253.
Exemplo 2.13. Uma linha de produção adota-se como critério de parada para regulagem das
máguinas a observação do k−ésimo item com defeito. Sabendo que a proporção de defeitos
é 0 ≤ p ≤ 1, qual é a probabilidade de que a produção tenha que ser interrompida para
regulagem na n−ésima peça produzida?
Se X = número de peças boas até a k−ésima com defeito, X ∼ BN (k, p).
(n − k) + k − 1 k
p (1 − p)n−k
k−1
n−1 k
p (1 − p)n−k .
k−1
P (X = n − k) =
=
Notas 2.1. Das relações entre as combinações, temos uma forma alternativa da binomial
61
Teoria da Probabilidade
Variáveis Aleatórias
negativa. Considere
x+r−1
x+r−1
x −r
,
=
= (−1)
x
r−1
x
−r
(−r)(−r − 1) · · · (−r − x + 1)
=
em que: (−1)
.
x
x!
x
Portanto, a função de probabilidade da binomial negativa, em (2.1), pode ser escrita na
forma alternativa
−r r
p(x) = (−1)
p (1 − p)x ,
x
x
x = 0, 1, 2, . . .
Exemplo 2.14. Considere X ∼ BN (4, 0.25), calcular P (X = 5).
x + r − 1 = 5 + 4 − 1 = 8 e r − 1 = 3, logo
8
i) p(5) =
(0.25)4 (0.75)5 = 0.0519;
3
ii) p(5) = (−1)5
2.2.7
(−4)(−5)(−6)(−7)(−8)
6720
(0.25)4 (0.75)5 =
(0.25)4 (0.75)5 = 0.0519.
5!
5!
Distribuição hipergeométrica
Definição 2.7. Considere uma população de tamanho N , sendo que m indivíduos (ou elementos) desta população apresentam uma crarcterística de interesse e (N − m) não apresentam a tal característica, portanto, a população é particionada em duas subpopulações.
Uma amostra de tamanho n é retirada ao acaso e sem reposição desta população, sendo
que, para cada elemento da amostra é observada a presença, ou não, da característica de
interesse.
Nota: A característica de interesse pode ser a presença de uma doença, um hábito de
comportamento, uma característica física, um defeito ou falha ou até o resultado de uma
mensuração classificado por um ponto de corte. Com a população particionada em duas, a
observação individual de cada elemento da amostra caracteriza um ensaio de Bernoulli.
A diferença da situação aqui apresentada com o modelo binomial é que, neste caso, a
amostra é retirada sem reposição, fazendo com que os ensaios de Bernoulli não sejam mais
independentes.
Seja a v.a. X = número de elementos na amostra que apresentam a característica de
interesse.
62
Teoria da Probabilidade
Variáveis Aleatórias
Então, X tem distribuição hipergeométrica com parâmetros m, N e n
Notação: X ∼ HG(m, N, n).
A função de probabilidade do modelo hipergeométrico é dada por:
m N −m
x
n−x
p(x) = P (X = x) =
,
N
n
max{0, n − (N − m)} ≤ x ≤ min{m, n}.
Exemplo 2.15. Sabe-se que um gene recessivo, responsável por uma doença, aparece em
16% da população sem que a mesma se manifeste. Se, de uma população de tamanho 500,
selecionamos ao acaso uma amostra sem reposição com 20 pessoas, qual é a probabilidade
de que encontremos 3 portadoras do gene?
Seja X = número de pessoas na amostra com o gene.
Se, da população 16% apresentam o gene, então m = 500(0.16) = 80, logo:
X ∼ HG(80, 500, 20).
Como, n − (N − m) = 20 − (500 − 80) = −400, temos que
I max{0, n − (N − m)} = max{0, −400} = 0;
I min{m, n} = min{80, 20} = 20,
então 0 ≤ x ≤ 20.
Calculando a probabilidade:
80 420
(82160)(7.9737 × 1029 )
3
17
= 0.2456.
p(3) =
=
500
2.66720 × 1035
20
Calcule a probabilidade de que seja encontrado apenas uma pessoa portadora do gene.
80 420
(80)(3.77718 × 1032 )
1
19
p(1) =
=
= 0.1133.
500
2.66720 × 1035
20
63
Teoria da Probabilidade
Variáveis Aleatórias
Os cálculos foram feitos no R com o comando choose(n,k) (ver Quadro 1).
Quadro 1: Cálculo da hipergeométrica no R
1
3
5
7
9
11
13
15
17
19
> ##
> choose (80 ,3)
[1] 82160
> choose (420 ,17)
[1] 7.973741 e +29
> choose (500 ,20)
[1] 2.667199 e +35
> p3 <- choose (80 ,3)* choose (420 ,17)/ choose (500 ,20)
> round ( p3 ,4)
[1] 0.2456
> ##
> choose (80 ,1)
[1] 80
> choose (420 ,19)
[1] 3.777175 e +32
> p1 <- choose (80 ,1)* choose (420 ,19)/ choose (500 ,20)
> round ( p1 ,4)
[1] 0.1133
> ##
Exemplo 2.16. Quatro peças com defeito foram acidentalmente misturadas num lote com outras 16 peças boas. Selecionando-se 5 peças sem reposição, qual é a probabilidade de que
2 sejam defeituosas? E pelo menos 2?
Seja X = número de peças com defeito na amostra.
X ∼ HG(4, 20, 5).
Condição:
I max{0, n − (N − m)} = max{0, −11} = 0;
I min{m, n} = min{4, 5} = 4,
então 0 ≤ x ≤ 4.
Calculando
as probabilidades:
p(2) =
4 16
2
3
20
5
=
(6)(560)
= 0.2167.
15504
64
Teoria da Probabilidade
Variáveis Aleatórias
P (X ≥ 2) = 1 − F (1) = 1 − [P (X = 0) + P (X = 1)] = 1 − (0.2817 + 0.4696) = 0.2487.
Relação entre a hipergemométrica e binomial
m N −m
x
n−x
p(x) =
N
n
(N − m)!
m!
×
x!(m − x)! (n − x)! [(N − m) − (n − x)]!
p(x) =
N!
n!(N − n)!
p(x) =
n!(N − n)!
m!
(N − m)!
×
×
N!
x!(m − x)! (n − x)! (N − m − n + x)!
p(x) =
n!
(N − n)!
m!
(N − m)!
×
×
×
x!(n − x)
N!
(m − x)! (N − m − n + x)!
(2.2)
Desenvolvendo cada um dos três últimos termos da expressão (2.2), obtem-se
(N − n)!
(N − n)!
=
N!
N (N − 1) (N − 2) · · · (N − n)!
=
=
=
1
N (N − 1) (N − 2) · · · (N − n + 1)
N N 1−
Nn
1
Qn−1
i=1
1
N
1−
1
N 1−
i
N
65
2
N
···N 1 −
n−1
N
(2.3)
Teoria da Probabilidade
Variáveis Aleatórias
m!
m (m − 1) (m − 2) · · · (m − x)!
=
(m − x)!
(m − x)!
= m (m − 1) (m − 2) · · · (m − x + 1)
1
=mm 1−
m
x
=m
x−1
Y
j=1
j
1−
m
2
m 1−
m
x−1
···m 1 −
m
(2.4)
(N − m)!
(N − m) (N − m − 1) (N − m − 2) · · · [(N − m − n + x)]!
=
[(N − m − n + x)]!
[(N − m − n + x)]!
= (N − m) (N − m − 1) (N − m − 2) · · · [(N − m) − (n − x) + 1]
= (N − m) (N − m) 1 −
n−x
= (N − m)
n−x−1
Y k=1
1
N −m
k
1−
N −m
n−x−1
· · · (N − m) 1 −
N −m
(2.5)
Substituindo-se os resultados em (2.3), (2.4) e (2.5) em (2.2), p(x) pode ser reescrita
como:
p(x) =
n
x
!
x
n−x
m (N − m)
Nn
" Qx−1
j=1
1−
j
m
Qn−1
i=1
Aplicando o limite para N → ∞, então m → ∞, tal que
Assim sendo:
i
→ 0,
N
j
→0
m
×
e
k
→ 0.
N −m
66
Qn−x−1
k=1
1−
i
N
m
→ p.
N
1−
k
N −m
#
Teoria da Probabilidade
Variáveis Aleatórias
Portanto,
!
p(x) ∼
=
n
x
!
p(x) ∼
=
n
x
m x N − m n−x
N
N
px (1 − p)n−x .
Ou seja, para N grande, a distribuição hipergeométrica se comporta como uma binomial
com parâmetros n e p = m/N .
Na prática isso significa que, se N for grande (N → ∞), não há diferença entre as amostragens “com” e “sem” reposição.
Exemplo 2.17. Sabe-se que, numa população de tamanho 5000 proprietários de veículos,
apenas 130 são proprietários de Ferrari. Se uma amostra aleatória de 20 proprietários de
veículos é retirada sem reposição desta população, determine as probabilidade de que:
a) Exatamente 1 seja proprietário de ferrari;
b) Nenhum seja proprietário de ferrari;
c) No máximo 2 sejam proprietários de ferrari;
Seja a v.a. X = proprietário de ferrari na amostra, então, X ∼ HG(130, 5000, 20).
N = 5000 e m = 130, assim, proporção de proprietários de ferrari é igual a p = 0.026.
Como N é grande a distribuição de X pode ser aproximada pela binomial(20, 0.026). Na
Tabela (2.1) são apresentados os resultados obtidos com a distribuição hipergeométricae com
a aproximação pela binomial.
2.2.8
Distribuição de Poisson
Considere a situação na qual se observe a ocorrência de um determinado evento, como,
por exemplo, chamadas telefônicas; acessos a um sistema via web; chegadas de pessoas
numa fila de banco; microorganismos (bactérias ou coliformes) em amostras de água, etc...
Definição 2.8. Seja a v.a. X que conta a ocorrência de um evento por unidade de medida
(tempo, área, volume, etc...), então, X tem distribuição de Poisson com parâmetro λ e sua
função de probabilidade é da forma:
p(x) = P (X = x) =
λx e−λ
,
x!
67
x = 0, 1, 2, . . . .
Teoria da Probabilidade
Variáveis Aleatórias
Tabela 2.1: Aproximação da HG(130, 5000, 20) pela binomial(20, 0.026).
calculado pela
Aproximado pela
erro
hipergeométrica
binomial
relativo
Cálculo
a) P (X = 1)
130 4870
20
1
19
= 0.3161
(0.026)1 (0.974)19 = 0.3152
5000
1
20
0.28%
b) P (X = 0)
130 4870
20
0
20
= 0.5898
(0.026)0 (0.974)20 = 0.5904
5000
0
20
0.10%
c) P (X = 2)
130 4870
20
2
18
= 0.0798
(0.026)2 (0.974)18 = 0.0799
5000
0
20
0.13%
então,
P (X ≤ 2) = 0.9857
P (X ≤ 2) ≈ 0.9855
68
0.20%
Teoria da Probabilidade
Variáveis Aleatórias
X ∼ P oisson(λ).
Notas:
i) O parâmetro λ é a taxa de ocorrência do evento.
ii) O modelo de Poisson também aparece na forma
p(x) = P (X = x) =
(λ∆t)x e−λ∆t
,
x!
x = 0, 1, 2, . . . ,
(2.6)
em que ∆t é o intervalo de ocorrência (na maioria das vezes o tempo).
Exemplo 2.18. Na fila de um banco, em horário de pico, os clientes chegam a uma taxa de
2.5 por minuto. Qual é a probabilidade de que, em um minuto:
a) Chegue apenas um cliente?
b) Cheguem no máximo 3 clientes?
c) cheguem pelo menos 3 clientes?
d) Qual é a probabilidade de que, em 5 minutos, 10 clientes entrem na fila?
Seja a v.a. X = número de clientes que chegam na fila do banco por minuto, então, λ = 2.5
clientes/min e X ∼ P oisson(2.5).
A função de probabilidade de X é dada por:
p(x) = P (X = x) =
2.5x e−2.5
,
x!
x = 0, 1, 2, . . . .
a)
p(1) = P (X = 1) =
2.51 e−2.5
= 0.2052
1!
b)
F (3) = P (X ≤ 3) =
2.50 e−2.5 2.51 e−2.5 2.52 e−2.5 2.53 e−2.5
+
+
+
0!
1!
2!
3!
= = 0.0821 + 0.2052 + 0.2565 + 0.2138 = 0.7576
69
Teoria da Probabilidade
Variáveis Aleatórias
c)
P (X ≥ 3) = 1 − P (X ≤ 2) = 1 − (0.0821 + 0.2052 + 0.2565) = 0.4562
d) Seja a v.a. Y = número de clientes que chegam na fila em 5 minutos, então ∆t = 5,
λ∆t = 12.5 e Y ∼ P oisson(12.5).
Assim, utilizando a relação dada em (2.6), temos2 :
pY (10) = P (Y = 10) =
12.510 e−12.5
= 0.0956.
10!
Nota: Na prática ocorre que, se X tem distribuição de Poisson com taxa λ = 2.5 clien-
1
tes/min, então, em 5 minutos, a taxa será de λ = 5 × 2.5 = 12.5 clientes/5min.
●
0.6
●
●
●
●
●
●
●
0.1
0.4
p(x)
F(x)
0.2
0.8
●
●
●
●
0.2
●
0
0
●
●
●
0 1 2 3 4 5 6 7
0 1 2 3 4 5 6 7
X
X
Figura 2.8: Funções de probabilidade (esquerda) e de distribuição (direita) do modelo
P oisson (2.5)
Exemplo 2.19. Uma oficina recebe microcomputadores para concerto segundo uma distribuição de Poisson com taxa de 3 equipamentos/dia. Qual a probabilidade de que num dia
comum cheguem 6 microcomputadores para concerto?
X = número de equipamntos que chegam para conserto em um dia, X ∼ P oisson(3).
p(6) = P (X = 6) =
2
36 e−3
= 0.0504.
6!
O índice na função de probabilidade pY (10) indica que a probabilidade deve ser calculada, agora, a partir
da distribuição de probabilidade da v.a. Y .
70
Teoria da Probabilidade
Variáveis Aleatórias
Considere que a oficina tem bancadas para atender no máximo 5 equipamentos/dia e que
os equipamentos além desses 5 fiquem na espera ou desistam do serviço. Sendo assim, o
proprietário planeja ampliar as instlações para poder atender a demanda diária em até 99%
dos dias. De quanto ele deve ampliar suas instalações?
O que o dono da oficina deseja encontrar o valor de k tal que P (X ≤ k) ≥ 0.99, ou seja:
k
X
3x e−3
x=0
x!
≥ 0.99
Com uma tabela de probabilidades acumuladas temos:
x
p(x)
F (x)
0
1
2
3
4
5
6
7
8
0.0948
0.1494
0.2240
0.2240
0.1680
0.1008
0.0504
0.0216
0.0081
0.0948
0.1992
0.4232
0.6472
0.8152
0.9160
0.9664
0.9880
0.9961
Portanto, com k = 8 bancadas, ele consegue atender toda a demanda em 99% dos dias,
ou seja, ele precisa ampliar suas instalações em 3 bancadas.
Aproximação da binomial pela Poisson Seja X ∼ binomial(n, p), então, para n grande
e p pequeno, tal que λ = np é constante, a distribuição binomial pode ser aproximada pela
Poisson.
Prova: p(x) =
n!
px (1 − p)n−x
x!(n − x)!
Para λ = np, então, p = λ/n e,
n(n − 1)(n − 2) . . . (n − x)!
p(x) =
x!(n − x)!
71
x n−x
λ
λ
1−
n
n
Teoria da Probabilidade
p(x) = λ
x n(n
− 1)(n − 2) . . . (n − x + 1)
x! nx
λ
1−
n
−x λ
1−
n
n
λx
x!
−x n
n
n−1
n−x+1
λ
λ
···
1−
1−
n
n
n
n
n
λx
x!
−x n
1
2
x−1
λ
λ
1−
1−
··· 1 −
1−
1−
n
n
n
n
n
λx
x!
"x−1
Y
=
=
=
Variáveis Aleatórias
k=1
k
1−
n
# −x n
λ
λ
1−
1−
n
n
(2.7)
Aplicando o limite para n → ∞ em cada uma das parcelas de (2.7), temos que:
"x−1 #
Y
k
lim
1−
=1
n→∞
n
k=1
(2.8a)
−x
λ
lim 1 −
=1
n→∞
n
(2.8b)
n
λ
lim 1 −
= e−λ (limite fundamental)
n→∞
n
(2.8c)
Desta forma, substituindo (2.8a),(2.8b) e (2.8c) em (2.7), p(x) pode ser aproximada por:
p(x) ≈
λx e−λ
x!
Para n grande e p pequeno, tal que λ = np, a binomial se comporta como uma P oisson(λ).
Exemplo 2.20. O número de fraudes com cartões de crédito/débito tem aumentado ultimamente, mas ainda a proporção é baixa, sendo igual a 0.25%. Considerando que o gerente de
uma agência bancária possui 4000 clientes com cartões, qual é a probabilidade de ocorrência
de:
a) Uma única fraude.
b) Cinco freudes
72
Teoria da Probabilidade
Variáveis Aleatórias
c) Dez fraudes.
d) Não mais do que 15 fraudes.
Seja X = número de fraudes dentre os clientes do banco, X ∼ binomial(4000, 0.0025).
Com a aproximação pela P oisson, λ = 4000 × 0.0025 = 10 fraudes, logo:
p(x) ≈
a) p(1) ≈
10x e−10
x!
101 e− 10
= 0.000454
1!
105 e− 10
b) p(5) ≈
= 0.0378
5!
c) p(10) ≈
101 0e− 10
= 0.1251
10!
d) F (15) = P (X ≤ 15) ≈
15
X
10k e− 10
k=0
k!
= 0.9513
Nota: Valores calculados pelo R considerando a distribuição binomial (erro relativo entre
parênteses):
4000
a) p(1) =
(0.0025)1 (0.9975)3999 = 0.000449, (1.01%)
1
4000
b) p(5) =
(0.0025)5 (0.9975)3995 = 0.0377, (0.25%)
5
4000
c) p(10) =
(0.0025)10 (0.9975)3990 = 0.1253, (0.13%)
10
d) F (15) = P (X ≤ 15) =
15 X
4000
k=0
2.2.9
k
(0.0025)k (0.9975)4000−k = 0.9515,
(0.023%)
Distribuições discretas no R
O software R tem funções programadas para o cálculo das distribuições de probabilidades
discretas. Cada uma delas é identificada pelo nome da distribuição, conforme mostra a Tabela
(2.2), precedido pelos prefixos d, p e q, indicando, respectivamente, se o cálculo é da função
de probabilidade (aqui identificada como densidade), função de distribuição ou do quantil.
Por exemplo, considere a distribuição binomial(n, p), então, temos os camandos:
a) dbinom(x,n,p) que retorna p(x) = P (X = x),
73
Teoria da Probabilidade
Variáveis Aleatórias
c) pbinom(x,n,p) que retorna F (x) = P (X ≤ x) e,
q) qbinom(q,n,p) que retorna o quantil associado à probabilidade q , ou seja, x = F −1 (q).
Nota: os prefixos d, p e q funcionam da mesma maneira para os demais modelos, mudando apenas os parâmetros de cada um deles (Tabela 2.2).
Modelo
Tabela 2.2: Modelos discretos de probabilidade no R
F. probabilidade
F. distribuição (f.d.a.) Quantil
p(x)
binomial
dbinom(x,n,p)
geométrica
dgeom(x,p)
binomial negativa dnbinom(x,r,p)
hipergeométrica
dhyper(x,m,N,n)
Poisson
dpois(x,λ)
q = F (x)
pbinom(x,n,p)
pgeom(x,p)
pnbinom(x,r,p)
phyper(x,m,N,n)
ppois(x,λ)
x = F −1 (q)
qbinom(q,n,p)
qgeom(q,p)
qnbinom(q,r,p)
qhyper(q,m,N,n)
qpois(q,λ)
Exemplo 2.21. Obter, no R :
i) p(5) = P (X = 5), F (9) = P (X ≤ 9) e o ponto x tal que P (X ≤ x) = 0.05, em que
X ∼ BN (4, 0.25);
ii) p(5) = P (Y = 5), P (2 < Y ≤ 6) e o ponto y tal que P (Y ≤ y) = 0.25, em que,
Y ∼ P oisson(3)
iii) p(2) = P (Z = 2) e o ponto z tal que P (Z ≤ z) = 0.975, em que Z ∼ HG(10, 80, 12).
No Quadro (2) são apresentados os valores obtidos no R .
Quadro 2: Modelos discretos de probabilidade no R
1
3
5
7
9
11
13
15
17
> ###
> ## binomial negativa
> dnbinom (5 ,4 ,0.25)
[1] 0.0519104
>
> pnbinom (9 ,4 ,0.25)
[1] 0.415747
>
> qnbinom (0.05 ,4 ,0.25)
[1] 3
>
> ## Poisson
> dpois (5 ,3)
[1] 0.1008188
>
> ppois (6 ,3) - ppois (2 ,3)
[1] 0.5433014
74
Teoria da Probabilidade
19
21
23
25
27
29
Variáveis Aleatórias
>
> qpois (0.25 ,3)
[1] 2
>
> ## hipergeométrica
> dhyper (2 ,10 ,80 ,12)
[1] 0.2705104
>
> qhyper (0.975 ,10 ,80 ,12)
[1] 4
>
> ##
75
Teoria da Probabilidade
3
Valor esperado e momentos de uma v.a. discreta
Valor esperado e momentos de uma v.a. discreta
3.1
Valor esperado de uma v.a. discreta
Definição 3.1. O valor esperado de uma v.a. discreta X , definida no espaço de probabilidade
(Ω, A , P ) é dado por
E(X) =
X
X(ω) · P (ω),
ω∈Ω
E(X) é, ainda, chamado de esperança ou média de X .
Lema 3.1. Considere uma v.a. discreta X , com função de probabilidade p(x), tal que
∞
X
|xi |p(xi ) < ∞,
i=1
se a v.a. assume valores num subconjunto I ⊆ R, então, a esperança de X é dada por
E(X) = µx =
X
x p(x).
x∈I
Prova: Livro Carlos A. Dantas, p. 78
Por outro lado, se
∞
X
|xi |p(xi ) = ∞ (não converge), então, X não tem esperança finita.
i=1
Exemplo 3.1. Seja uma v.a. discreta X com função de probabilidade
p(x) =
1
,
x (x + 1)
x = 1, 2, 3, . . .
Verificando se p(x) é uma função de probabilidade:
∞
X
x=1
p(x) =
∞
X
x=1
76
1
x (x + 1)
Teoria da Probabilidade
Valor esperado e momentos de uma v.a. discreta
∞
X
∞
X
1
1
−
p(x) =
x x+1
x=1
x=1
1
1 1
1
1
= lim 1 −
+
−
+ ··· +
−
k→∞
2
2 3
k k+1
= lim 1 −
k→∞
1
k+1
= 1,
portanto, p(x) é uma função de probabilidade discreta, porém,
∞
X
x=1
∞
X
|x|
x
=
x(x + 1)
x(x + 1)
x=1
=
∞
X
x=1
1
= ∞ (não converge),
x+1
ou seja, X não tem esperança finita.
Interpretação física de valor esperado
Seja uma va discreta X assumindo valores {x1 , x2 , . . . , xn } com probabilidades p(x1 ),
p(x2 ), . . ., p(xn ). Considere, ainda, G como sendo o centro de gravidade (ou centro de
massa) dos valores de X , então:
n
X
(xi − G)p(xi ) = 0
i=1
n
X
xi p(xi ) −
i=1
n
X
Gp(xi ) = 0
i=1
G=
n
X
xi p(xi ) = E(X),
i=1
portanto, a média E(X) é o centro de massa dos valores de X .
77
Teoria da Probabilidade
3.2
Valor esperado e momentos de uma v.a. discreta
Propriedades de Esperança
Seja uma v.a. discreta X , com esperança finita E(X)
i) Se a é uma constante, então, E(a) = a;
ii) Sejam a e b constantes, então, E(aX + b) = aE(X) + b;
iii) Se Y é uma v.a. discreta tal que E(Y ) < ∞, então, para a e b constantes
E(aX + bY ) = aE(X) + bE(Y );
Prova: (resultado: desigualdade triangular |a + b| ≤ |a| + |b|)
I 1ª parte: mostrar que E(a X + b Y ) existe.
X
|aX(ω) + bY (ω)| P (ω) ≤
ω∈Ω
X
[|aX(ω)| + |bY (ω)|] P (ω) =
ω∈Ω
=
X
|a| |X(ω)| P (ω) +
ω∈Ω
= |a|
X
X
|X(ω)| P (ω) + |b|
ω∈Ω
=⇒
|b| |Y (ω)| P (ω)
ω∈Ω
X
|Y (ω)| P (ω) < ∞.
ω∈Ω
E(a X + b Y ) existe.
I 2ª parte:
E(aX + bY ) =
X
(aX + bY ) (ω)P (ω)
ω∈Ω
=
X
[aX(ω) + bY (ω)] P (ω)
ω∈Ω
=a
X
X(ω)P (ω) + b
X
ω∈Ω
ω∈Ω
= a E(X) + b E(Y )
iv) Seja a v.a. Y = g(X) tal que
∞
X
|g(xi )|p(xi ) < ∞, então
i=1
E(Y ) = E[g(X)] =
X
x
78
g(x) p(x).
Y (ω)P (ω)
Teoria da Probabilidade
Valor esperado e momentos de uma v.a. discreta
Prova:
Seja Y = g[(X)], então, se E[g(X)] existe, considere ω ∈ Ω para os quais y = g[X(ω)].
Assim, para todos g[X(ω)] com valores iguais a y tem-se:
X
g(x)p(x) =
x
X
g[X(ω)]P (ω)
ω
=
X
X
y
ω:g[X(ω)]=y
=
X
=
X
y
y
yP (ω)
X
P (ω)
ω:g[X(ω)]=y
yP (Y = y) = E[g(X)]
y
Exemplo 3.2. Seja uma va discreta X com função de probabilidade
p(x) = 0.1|x − 1|,
x ∈ {−2, −1, 0, 2, 4}
Então, o valor esperado de X é:
E(X) =
X
xp(x)
x
= (−2)0.3 + (−1)0.2 + (0)0.1 + (2)0.1 + (4)0.3
= 0.6
Ainda, se g(X) = X 2 , temos
E[g(X)] = E(X 2 ) =
X
x2 p(x)
x
= (−2)2 0.3 + (−1)2 0.2 + (0)2 0.1 + (2)2 0.1 + (4)2 0.3
= (4)(0.3 + 0.1) + (1)0.2 + (16)0.3
= 6.6
v) Se a v.a. X é tal que a ≤ X ≤ b, então,
a ≤ E(X) ≤ b;
79
Teoria da Probabilidade
Valor esperado e momentos de uma v.a. discreta
vi) Sejam X e Y v.a.’s discretas com esperanças finitas E(X) e E(Y ), respectivamente.
a) Se X e Y são tais que X ≥ Y , então, E(X) ≥ E(Y );
b) Se X e Y são independentes, então, E(XY ) = E(X)E(Y ).
Teorema 3.1. Seja uma v.a. X , inteira não negativa. Então, X tem esperança finita se, e
somente se, a série
∞
X
P (X ≥ x) converge e, neste caso,
i=1
E(X) =
∞
X
P (X ≥ x).
i=1
Prova: Se X é inteira não negativa, então, X ∈ {0, 1, 2, . . .}, da definição de esperança:
E(X) =
∞
X
xP (X = x) =
i=0
∞
X
xP (X = x),
i=1
ou seja,
E(X) =
∞
X
1P (X = 1) + 2P (X = 2) + 3P (X = 3) + · · ·
i=1
E(X) =
P (X = 1)
+ P (X = 2) + P (X = 2)
+ P (X = 3) + P (X = 3) + P (X = 3)
+ P (X = 4) + P (X = 4) + P (X = 4) + P (X = 4)
+
..
.
+
..
.
+
..
.
+
..
.
Portanto, redefindo a soma em (3.1), temos
E(X) = P (X ≥ 1) + P (X ≥ 2) + P (X ≥ 3) + P (X ≥ 4) + · · ·
E(X) =
∞
X
P (X ≥ x).
i=1
Exemplo 3.3. Seja uma v.a. X , com distribuição de probabilidade:
80
(3.1)
Teoria da Probabilidade
Valor esperado e momentos de uma v.a. discreta
x
p(x)
F (x)
0
1
2
3
0.15
0.20
0.40
0.25
0.15
0.35
0.75
1.00
Então, pelo teorema (3.1), o valor esperado de X é calculado pela soma das áreas destacadas na figura 3.1
Figura 3.1: Valor Esperado de uma v.a. como soma das áreas sobre F (x)
Verificando: E(X) = (0)0.15 + (1)0.20 + (2)0.40 + (3)0.25 = 1.75.
Exemplo 3.4. Valor esperado do modelo geométrico:
Seja X ∼ geométrica(p) com função de probabilidade p(x) = p(1 − p)x ,
então, seu valor esperado é dado por:
E(X) =
∞
X
xp(1 − p)x
x=0
= p(1 − p)
∞
X
x(1 − p)x−1
x=1
= p(1 − p)
∞
X
x=1
81
−
d
[(1 − p)x ]
dp
x = 0, 1, 2, . . .,
Teoria da Probabilidade
Valor esperado e momentos de uma v.a. discreta
" ∞
#
X
d
E(X) = p(1 − p)
−
(1 − p)x
dp
x=1 d 1−p
= − p(1 − p)
dp
p
−1
= − p(1 − p) 2
p
Portanto: E(X) =
1−p
.
p
A partir de (3.1), com P (X ≥ x) = (1 − p)x , temos
∞
X
∞
X
P (X ≥ x) =
(1 − p)x
x=1
x=1
1−p
1 − (1 − p)
1−p
= E(X).
=
p
=
Exemplo 3.5. Calcular o valor esperado dos principais modelos discretos: Bernoulli, binomial,
binomial negativo, Poisson, hipergeométrico. (resolução, ver slides)
3.3
Variância de uma v.a. discreta
Definição 3.2. Seja uma v.a. discreta X , assumindo valores num subconjunto I ⊆ R e tendo
esperança finita E(X), então, a variância de X é definida por
σx2 = V ar(X) = E{ [X − E(X)]2 },
ou seja,
V ar(X) =
X
[x − E(X)]2 p(x).
x∈I
Notas 3.1. A variância de uma v.a. pode, ainda, ser escrita nas seguintes formas:
i) V ar(X) = E(X 2 ) − [E(X)]2 ;
ii) V ar(X) = E[X(X − 1)] + E(X) − [E(X)]2 .
82
Teoria da Probabilidade
Valor esperado e momentos de uma v.a. discreta
Exemplo 3.6. Variância do modelo de Poisson
Seja uma v.a. discreta X ∼ P oisson(λ), então:
λx e−λ
,
x!
E(X) = λ.
p(x) =
x = 0, 1, 2, . . . ;
Para o cálculo da variância de X , temos que calcular E(X 2 ):
2
E(X ) =
∞
X
x2
x=0
∞
X
=λ
λx e−λ
x!
x
x=1
λx−1 e−λ
(x − 1)!
Fazendo y = x − 1 ⇒ x = y + 1 e, segue-se que,
E(X 2 ) = λ
∞
X
λy e−λ
(y + 1)
y!
y=0
∞
∞
X
λy e−λ X λy e−λ
=λ
y
+
y!
y!
y=0
y=0
|
{z
} | {z }
=E(Y )=λ
!
=1
= λ λ + 1 = λ2 + λ
Portanto, a variância do modelo de Poisson é dada por:
V ar(x) = E(X 2 ) − [E(X)]2 = λ2 + λ − [λ]2 = λ
Ou seja, se X ∼ P oisson(λ), então, V ar(X) = E(X) = λ.
3.3.1
Propriedades de Variância
Seja uma v.a. discreta X , com variância finita
i ) Se a é uma constante, então, V ar(a) = 0;
ii ) Sejam a 6= 0 e b constantes, então, V ar(aX + b) = a2 V ar(X);
83
Teoria da Probabilidade
Valor esperado e momentos de uma v.a. discreta
iii ) Se Y é uma v.a. discreta com variância finita, então,
V ar(X
+
−
Y ) = V ar(X) + V ar(Y )
+
−
2Cov(X, Y );
em que:
Cov(X, Y ) = E{[X − E(X)][Y − E(Y )]} = E(XY ) − E(X)E(Y ).
iv) De (i ) e (ii ), para a 6= 0 e b 6= 0 constantes
V ar(aX
+
−
bY ) = a2 V ar(X) + b2 V ar(Y )
v) Se X e Y forem independentes: V ar(X
+
−
+
−
2abCov(X, Y );
Y ) = V ar(X) + V ar(Y ).
Prova: As provas das propriedades de variância ficam como exercícios.
Resultado 3.1. Variância da soma de v.a.’s:
Sejam X1 , X2 , . . . , Xn , v.a.’s definidas em (Ω, A , P ), tais que E(Xi ) e V ar(Xi ) existem
∀i = 1, 2, . . . , n, então
"
V ar
n
X
#
Xi =
i=1
n
X
V ar(Xi ) + 2
i=1
n−1 X
n
X
Cov(Xi , Yj ).
i=1 j=i+1
Como resultado direto, se X1 , X2 , . . . , Xn , forem independentes, segue-se que
"
V ar
n
X
#
Xi =
i=1
n
X
V ar(Xi ).
i=1
Prova: O resultado acima é extensão das propriedades (iii ) e (iv) e a prova é feita por
indução (Magalhães, pag. 252).
84
Teoria da Probabilidade
3.3.2
Valor esperado e momentos de uma v.a. discreta
Covariância e coeficiente de corelação
Definição 3.3. Covariância entre duas v.a.’s
Sejam X e Y , v.a.’s definidas em (Ω, A , P ), com variâncias finitas, então, a covariância
entre X e Y é definida por:
σx,y
n
o
= Cov(X, Y ) = E X − E(X) Y − E(Y ) .
(3.2)
Mostra-se facilmente que (3.2) pode ser escrita como:
Cov(X, Y ) = E(XY ) − E(X)E(Y ).
Definição 3.4. Coeficiente de corelação entre duas v.a.’s
O coeficiente de correlação entre duas v.a.’s X e Y , por sua vez, é definido por:
σx,y
Cov(X, Y )
=
ρx,y = Corr(X, Y ) = p
σx σy
V ar(X) V ar(Y )
em que: σx e σy são os desvios padrões de X e Y , respectivamente.
Resultado 3.2. Sejam X e Y v.a.’s com coeficiente de correlação ρx,y , então, valem as seguintes relações
i ) | ρx,y | ≤ 1;
(3.3a)
ii ) se | ρx,y | = 1, então a relação entre X e Y é linear;
(3.3b)
A prova dos resultados acima utiliza da desigulda de Cauchy-Schwarz, apresentada a seguir como teorema.
Teorema 3.2. Desigualdade de Cauchy-Schwarz
Sejam X e Y , com variâncias finitas e não nulas, então
2
E(XY ) ≤ E(X 2 )E(Y 2 ).
(3.4)
Além disso,
2
E(XY ) = E(X 2 )E(Y 2 )
⇐⇒
Y = aX.
(3.5)
A prova da desiguldade de Cauchy-Schwarz é dada em Hoel,Port & Stone, pag 100 ou
Magalhães, pag 258.
85
Teoria da Probabilidade
Valor esperado e momentos de uma v.a. discreta
Prova: De (3.3a):
Sejam µx = E(X) e µy = E(Y ). Aplicando a desigualdade de Cauchy-Schwarz à (X−µx )
e (Y − µy ), tem-se
n o2
E (X − µx )(Y − µy )
≤ E (X − µx )2 E (Y − µy )2 .
Do lado esquerdo da igualdade temos o quadrado da covariância e, do lado direito as
variâncias de X e Y , ou seja,
Cov(X, Y )
2
≤ V ar(X)V ar(Y ).
Dividindo ambos os lados por V ar(X)V ar(Y ), tem-se
2
Cov(X, Y )
= ρ2x,y ≤ 1,
V ar(X)V ar(Y )
o que implica que ρx,y ≤ 1.
Prova: De (3.3b):
Se ocorre a igualdade, ou seja, se ρ2x,y = 1, então vale a igualdade em Cauchy-Schwarz
e, segundo (3.5)
(Y − µy ) = a(X − µx )
(ver prova em Dantas, pag. 121).
86
Download