unidade 1

Propaganda
Horário T2: 3a feira 10:00-12:00 & 5a feira 8:00-10:00
Horário T8: 3a feira 8:00-11:00 & 5a feira 10:00-12:00
I UNIDADE
“Probability is too important to be left to the experts!”.
R. Hamming
Hélio Magalhães de Oliveira, docteur, ENST, Paris
DE-CCEN
Website do curso
http://www2.ee.ufpe.br/codec/introducao_a_estatistica.html
Probabilitas
«Incerteza é a marca indelével do universo»
Denis Poisson
Ainsi, un événement aura, par sa nature, une chance plus ou moins
grande, connue ou inconnue; et sa probabilité sera relative à nos
connaissances, en ce qui le concerne. Assim um evento terá, pela sua
própria natureza, uma chance, maior ou menor, conhecida ou
desconhecida, e sua probabilidade será relativa aos nossos conhecimentos
naquilo que lhe diz respeito.” Poisson, 1837. (Sceaux, França)
Matemática determinismo
Aleatório: Taboo
Teorema de Gödel e o fim da “certeza matemática”...
BREVE HISTÓRICO
1654 Pascal-Fermat (Paris-Toulouse)
1812 Laplace - escola deterministica (o demônio laplaciano)
Russos : Markov, Chebyshev, Liapunov, Kinchine, Kolmogorov..
O Fortuna
Velut luna
Statu variabilis... O Fortuna Imperatrix Mundi (CARL ORFF- carmina burana)
http://prezi.com/niwo72styyyq/history-of-statistics-timeline-1560-1945
http://prezi.com/xlrsubp8t_0f/history-of-statistics-timeline-1945-1960
http://prezi.com/ab1d3sjtroiu/history-of-statistics-timeline-1960-2000
Do clássico: Paul Halmos, teoria ingênua dos conjuntos
TEORIA DOS CONJUNTOS Cantor 1895
Georg Ferdinand Ludwig Philipp Cantor(1845-1918)
Assista! Vide Website.
Definição [conjunto]
Um conjunto é uma coleção de elementos distintos.
Por abuso de linguagem, o conjunto vazio  é aquele que não contém
nenhum elemento. Por exemplo,  = (a, a).
ESPAÇO- conjunto de elementos tais que qualquer
conjunto de interesse é formado por elementos dele.
CONJUNTOS são denotados por letras maiúsculas A, B, C, …
ELEMENTOS são denotados por letras minúsculas a, b, c...
RELAÇÕES DE INCLUSÃO
wA
w pertence a A
w A
w não pertence a A
Tertio no datur. [vale falar de lógica difusa: L. Zadeh]
Lotfali Askar-Zadeh 1965
Def. conjunto universo, denotado por Ω. É o conjunto que
contém todos os elementos que queremos considerar.
O axioma da especificação de Georg Cantor
AXIOMA DA ESPECIFICAÇÃO (aussonderungsaxiom
axioma.mp3
)
Para todo conjunto A e toda condição S(x), corresponde um conjunto B
cujos elementos são exatamente aqueles elementos de A para os quais S(x)
é válida. 
Questão inicial fundamental: A inexistência do “CONJUNTO
UNIVERSAL”
u
Considere a ideia do conjunto universal
u, assim definido:
u:={conjunto de todos os conjuntos possíveis de serem construídos}
Em 1902, B Russel mostrou que a existência de tal conjunto
leva a uma contradição.
Lema 1. Suponha que existe
u. Seja R:={Su | SS}. Então
RR.
Lema 2. Suponha que existe
RR.
u. Seja R:={Su | SS}. Então
TEOREMA DE RUSSEL
Não existe um conjunto de todos os conjuntos.
Prova.
Em vista dos lemas 1 e 2, a sua existência implicaria em
contradição. Por reductio ad absurdum,
a) suponha que RR. Então se RR, isto leva a RR,
contradição
b) suponha agora que RR. Então se RR, isto leva a
RR, contradição. Q.E.D. 
NOTA. Uma aplicação para ilustrar este paradoxo é o “caso do barbeiro”.
Em uma cidade existe um barbeiro que só barbeia as
pessoas que não
podem barbear a si mesmos. Quem faz a barba do barbeiro?
1) Ele se barbeia → contradição
2) ele não se barbeia → contradição.
NB. Esta é uma indicação da incompletude da matemática, só
estabelecida por Gödel. A matemática é incompleta.
Kurt Gödel ~1930
OPERAÇÕES DE CONJUNTOS
A  B ↔  w A → w  B
A B ↔  w  A | w  B
A
Se A  B então B  A (relação simétrica).
Igualdade.
A=B
 A B e B  A
A  B = {w | wA ou wB ou ambos}
A  B = {w | wA e wB}
A- B=
{w | wA e wB}
Ac =   
 \ é outra notação.
 A é outra notação p/ complemento.
A△B = (A-B)  (B-A)
chama-se A “diferença simétrica” B.
Relações das operações Booleanas:
1. Idempotência do complementar: (Ac)c = A
2. Comutatividade (Simetria): A∪B=B∪A e A∩B =B∩A
3. Associatividade: A∪(B∪C)=(A∪B)∪C) e A∩(B∩C)=(A∩B)∩C)
4. Distributividade:A∩(B∪C)=(A∩B)∪(A∩C) e A∪(B ∩C)=(A∪B) ∩(A∪C)
Idenpotência da união e intersecção
Dado um conjunto arbitrário
i) A∩A=A e A∪A=A
Ii) generalize por: n
n
A  A
i
i 1
n
A  A
i
i 1
A  ,
DEFINIÇÃO. Dada uma classe
{At}tT
sup At 
t T
A
t
t T
inf At   At
tT
t T
LEIS DE “DE MORGAN”
 A  B c  Ac  B c e  A  B c  Ac  B c
c



c
  At     At 
 tT

 tT 
c

 
c
  At     At 

 tT   tT
Consequências
c
c
inf
sup
A
At

t 

 
t T
 t T 
 inf At 


t T 
c
sup At c

t T
CARDINALIDADE
O “tamanho” de um conjunto ||A|| é a quantidade de elementos
que ele possui, e é chamado de cardinalidade. Cardinalidades:
finita, infinita enumerável, ou infinita não-enumerável.
|| ||= || ||=0
cardinalidade 2c (continuum)
||A||=2c se e só se  f:A biunívoca
Cantor [este é o melhor cantor que conheci!]
Conjunto finito=
tem um número finito de elementos.
Conjunto enumerável =
se é finito ou
pode ser posto em correspondência biunívoca com
Classe- conjunto cujos elementos são conjuntos.
Def. Conjunto de índices T
Um Classe {At, teT}, T é o conjunto de índices.
.
Definição [PARTIÇÃO]
Dado um conjunto universo Ω,uma partição Π={At, t∈T} de Ω
é uma coleção de subconjuntos de Ω que satisfaz:
P1. t e t’, At∩At’ = ;
P2.
A
t
tT

.
Def. CONJUNTO DAS PARTES (power set)
Dado um conjunto A, pode-se definir um outro conjunto,
conhecido como conjuntos das partes de A, e denotado por A,
cujos elementos são subconjuntos de A.
É uma classe.
A={w1, w2}, (A)={{w1},{w2},,A}
Para conjuntos finitos (de cardinalidade finita), o número
de elementos do conjunto das partes é:
n n n
n
         ...     2 n
 0 1  2
n
O menor número cardinal não contável é 1
sucessor natural de 0
Sabe-se que 1≦2^0=c
Existe um cardinal não-enumerável menor que 2^0?
A HIPÓTESE DO CONTÍNUO
Não. Seria o caso em que 1=2^0
Mostrou-se que a hipótese do contínuo é consistente com a teoria
dos conjuntos.
TEOREMA DE CANTOR.
||A||<||(A)||
Dado A, construa (A). Então

Imagine a sequencia ||A||<||(A)|<||((A))||<...
a questão é saber se existe algum conjunto X tal que:
|| |<||X||<|| ||=2^0
David Hilbert (1900)
Paul Cohen
Um dos 23 problemas de Hilbert, 1900. Solução por P. Cohen: sim e não.
1,2,3,...,
0 (?) 2c
Paul Cohen (1934-2007), Medalha Fields
FUNÇÕES DE CONJUNTO E PREIMAGENS
Sejam A e B conjuntos arbitrários. Uma regra de atribuição
associando um único elemento b=f(a)B com cada elemento
de aA é dita ser uma função.
f:AB
A domínio; B imagem.
Cada elemento de A que tenha b como imagem é chamado
de uma pré-imagem. Em geral, b pode ter várias
pré-imagens.
Venn
John Venn
TEOREMA. A pré-imagem da união de dois conjuntos e a
união da pré imagem dos conjuntos,
f-1(AUB)=f-1(A) U f-1(B) 
TEOREMA. A pré-imagem da intersecção de dois conjuntos
e a união da pré imagem dos conjuntos,
f-1(AB)=f-1(A)  f-1(B)  (see Kolmogorov&Fomin)
A INCONTABILIDADE DOS REAIS
TEOREMA (Cantor). O conjunto dos números reais em [0,1] não
é enumerável.
Prova.
Suponha –reductio ad absurdum– que se tenha conseguido
enumerar todos os elementos, arranjando-os em uma lista
infinita como a seguir.
1= 0. a11 a12 a13 … a1n ….
2= 0. a21 a22 a23 … a2n ….
3= 0. a31 a32 a33 … a3n ….
…
k= 0. ak1 ak2 ak3 … akn ….
…
Considere agora o número decimal =0.1234... construído
propositadamente da seguinte forma:
1  a11
2  a22 ….
Então  não está em nenhum lugar da lista! Contradição.
Assim, não há como montar uma lista de números reais em
[0,1]. Q.E.D. 
O conjunto das partes de
+
é contável e tem cardinalidade
0 (aleph null).
Números algébricos versus números transcendentes
Transcendentes: , e,
2
2
, ln2
constante de Champernowne 0,123456789101112131415...
número de Liouville

10
k 1
k!
TEOREMA (*). A união finita ou contável de conjuntos
contáveis é contável ela própria.
Prova. Similar ao argumento de diagonalização de Cantor
para os racionais

números algébricos (1874, Cantor).
Um número é dito ser número algébrico se e só se ele é uma
raiz de uma equação polinomial com coeficientes inteiros. O
conjunto dos números algébrico é enumerável.
Pela clareza, elegância e criatividade dos argumentos, a prova é de um
gênio [Vide, e.g. “romance das equações algébricas”, Geraldo Garbi].
E, concordo: belíssima prova decorrente de fertilíssima imaginação!
Se  é algébrico, ele é solução de alguma equação do tipo
f(x)=anxn +an-1xn-1 +...+a1x+a0
com
an0, com ai inteiros.
Def. altura h:=(n-1)+|a0|+|a1|+...+|an|
claro que h>1, h inteiro positivo.
 Para altura 2 são possíveis apenas as equações
x1=0 2x=0 x²=0.
 para altura 3 são possíveis 11 equações
3x=0 2x1=0 x2=0 x21=0 2x2=0 X2x=0 e x3=0.
Cada altura h corresponde a um número finito de números
algébricos. Segue do Teorema (*), slide anterior.
Exercício.
Seja Dn:={ números inteiros positivos divisíveis por n}
Se D3={3,6,9,12,...} e D2={2,4,6,8,...}
calcule:
a) D2  D3 b) D2-D3

Dn
c) 
n 2

Dn
d) 
n 2

Dn  N
Solução: 
n2

D
n

n2
Exercício. Dados a,b , a<b,
Encontre
Encontre

1
1

a

,
b



n
n 
n 1 

1
1

a  ,b  

n
n
n 0 
Exercício. Prove que se AUB=A e AB=A, então A=B
para D2 e D3, encontre D2D3 e D2-D3
CONJUNTOS CONTÁVEIS (ENUMERÁVEIS).
Finito contável e infinito contável. 
O mais simples dos conjuntos infinitos enumeráveis é
+
Exercício.
a) mostre que
é contável
b) mostre que o conjunto dos números pares, D2, é contável
c) mostre que
é contável
Definição [Função Indicadora].
A função indicadora IA:Ω→{0,1} de um conjunto A é dada por
IA(ω):=
1 se ωA,
0 se ωA.
Conjuntos são iguais  suas funções indicadoras forem idênticas.
Álgebra de funções indicadoras- operações
I A  B  I A  I B se AB=.
I A B  I A .I B
I AB  ( I A  I B ) mod 2
Uma sequência {An} converge para A
lim An=A  I An  I A .
IAc = 1 − IA,
A ⊆ B ⇔ IA ≤ IB,
IA∩B = min(IA, IB) = IAIB,
IA−B = max(IA − IB, 0) = IAIBc,
ou IA−B =IA(1-IB).
Exercício.
Utilizando funções indicadoras, verifique que A⊆B ⇔ Bc⊆Ac
EXPERIMENTO ALEATÓRIO
Um experimento é qualquer processo de observação. Em muitos
experimentos, existe um elemento de incerteza, e não importa
quanto sabemos sobre o passado deste experimento, não somos
capazes de predizer com exatidão seu comportamento em futuras
realizações.
Sejam A, B, e C eventos em um mesmo espaço amostral Ω.
Expresse os seguintes eventos em função de A, B, e C e operações
Booleanas de conjuntos.
(a) Pelo menos um deles ocorre.
A∪B∪C.
(b) Exatamente um deles ocorre.
(A∩Bc∩Cc)∪(Ac∩B∩Cc)∪(Ac∩Bc∩C).
(d) Nenhum deles ocorrem.
(Ac∩Bc∩Cc).
(c) Apenas A ocorre.
(A∩Bc∩Cc).
Exercício. Considere uma rede com diferentes caminhos entre os
nós 1,2,3,4. Os caminhos são indicados por letras. Escreva o
evento K13, há uma ligação (caminho fechado) entre o nó 1 e 3,
em termos dos caminhos A, B, C, D, E.
Aplique leis distributivas para mostrar que
K13={A [B  (CE)]}  {D  [E  (B C)]}.
CAMPO (ALGEBRA) 
É uma classe fechada quando efetuamos um número finito
(arbitrário) de operações entre seus elementos.
i)
A,B    AB
ii)
A,B    AB 
iii)
A    Ac  
A,B Ac,Bc  AcBc  [AcBc]c   AB
Exercício
Determinar uma álgebra em
Use apenas
 contendo
A,B.
 e (.)c
Mostremos que
 ={,A, B, Ac, Bc, AB, (AB)c, AB, (AB)c, (B-A),
(B-A)c, (A-B), (A-B)c, AB, (AB)c,}
-álgebra de Borel [tribu]
Émile Borel
Uma
-álgebra
é uma classe não vazia fechada sobre todas as
operações enumeráveis com conjuntos.
Obs1- toda
-álgebra é uma álgebra, mas o inverso não é válido.
Obs2- o conjunto das partes
() é sempre
uma
-álgebra.
Seja C uma classe. Para que ela seja uma
suficiente que
An  C,
c
1) An  C

2)
A
n
n 1

C
Paralelo com o fechamento a.b e a+b
-álgebra é necessário e
EXEMPLOS TRIVIAIS
:= {,} e := { [0,0.5], (0.5,1), , [0,1]} são
álgebra e
-álgebra.
:= { [ ], [ ), ( ], ( ), , [0,1]} não é -álgebra.
Aálgebra de BOREAL na reta real
É a álgebra que contém uma determinada classe de
intervalos na reta real: os intervalos abertos.
Hoc unum certum est, nihil esse certi. Sêneca
[Só há uma coisa certa: nada é certo]
PROBABILIDADES ALEATÓRIAS
Modelam o acaso em fenômenos empíricos
PROBABILIDADES ESPISTÊMICAS
Descrevem graus de crença parcial lógicos de
pessoa/sistema intencional
TEORIAS
Probability is too important to be left to the experts! R. Hamming
i)
Definição a priori como razão entre casos favoráveis para
total de casos possíveis
ii)
Freqüência relativa (Von Mises)
iii) Axiomática
iv)
Medida de crença
Frequências Relativas- medida numérica associada a eventos
que represente a probabilidade com que eles ocorrem.
Esta é uma definição operacional.
Considere uma
coleção de
experimentos aleatórios
(não
necessariamente numéricos). Fixando uma dada sequencia de
resultados, se estamos interessados na ocorrência de um dado
evento A, a frequência relativa de A nada mas é que uma média
aritmética da função indicadora de A calculada em cada um dos
termos da sequência, ou seja,
Definição (frequência relativa): A frequência relativa de um
evento A, determinada pelos resultados {w1, . . . , wn} de n
N n ( A)
1 n
r
(
w
)
:

I
(
w
)

 A i
experimentos aleatórios, é n
n i 1
n
Propriedades-chave:
FR0. rn:A→ IR.
FR1. rn(A) ≥ 0.
FR2. rn(Ω) = 1.
FR3. Se A e B são disjuntos, então rn(A∪B)=rn(A)+rn(B).
TRATAMENTO AXIOMÁTICO
Andrey Kolmogorov (1933)
URL: http://www2.ufpe.br/codec/deOliveira.html
Exercício.
Se A e B são eventos certos, i.e., P(A)=P(B)=1, avaliar, usando
apenas os axiomas de Kolmogorov:
P(AB) e P(AB).
Dicas: consequências 5 e 6.
UNIÕES FINITAS DISJUNTAS
Dados eventos
A1, A2, A3..., An todos disjuntos par-a-par, então:
n
n
k 1
k 1
P( Ak )   P( Ak )
.
Por indução finita:
P2. P(A1A2)=P(A1)+P(A2)
Pn. Admita verdadeira Pn
(verdade via AX4)
n
n
k 1
k 1
P( Ak )   P( Ak )
Mostrar que Pn
 Pn+1
.
n 1
n
P( Ak )  P( Ak  An 1 )
k 1
k 1
(via Pn)
T2
n 1
n 1
k 1
k 1
n 1
n
k 1
k 1
P( Ak )  P( Ak )  P( An 1 )
P( Ak )   P( Ak )
i.e. Pn+1 é verdadeira!
Q.E.D.
Exercício: Seja Ω={ω1, ω2,...,ωn} um conjunto finito, e seja uma
n
atribuição P({ωi}) =pi, em que pi≥0, i≥1 e
P ( A) :
p
i 1
i
1
,e
 P({w }) . Mostrar que P é uma medida de probabilidade
wi  A
i
verificando os axiomas.
APLICAÇÕES RECENTES DA TEORIA
 Inteligência artificial
 Mecânica Quântica
 Algoritmos probabilísticos (e algoritmos genéticos)
 Lógica nebulosa
 Teoria de informação
 Controle estocástico
 Redes neuronais
 Teoria da evolução e seleção natural
 Genética
 Otimização
 Predição
 Teoria da decisão
 Teoria dos jogos…
etc. etc. e tal.
Teorema [Princípio da Inclusão-Exclusão
H. Poincaré
Seja I um conjunto genérico de índices que é um
subconjunto não-vazio qualquer de {1,2,...,n}. Para eventos
arbitrários {A1,...,An},
em que o somatório é sobre todos os 2n−1 conjuntos de índices
excluíndo apenas o conjunto vazio.
Para n=3,
A cota da união (union bound)
Teorema (Desigualdade de Boole). Para n eventos arbitrários
{A1, . . . , An}, a desigualdade de Boole é
 n  n
P  Ai    P ( Ai )
.
 i 1  i 1
Exercício: A desigualdade de Bonferroni
a) Prove a desigualdade de Bonferroni*, a qual estabelece que
P(A∩B)≥P(A)+P(B)−1.
b) qual a relação com a desigualdade de Boole? Você consegue
prová-la a partir da desigualdade de Boole?
c) Usando indução finita, mostre o caso generalizado:
 n
 n
P  Ai    P ( Ai )  (n  1)
.
 i 1  i 1
*devida a Carlo Emilio Bonferroni.
Espaços Amostrais Finitos
Métodos de Contagem
 Regra da Adição
procedimento 1, possa ser realizado de n1 maneiras.
procedimento 2, possa ser realizado de n2 maneiras.
Suponha que não seja possível que ambos os procedimentos 1 e 2
sejam realizados em conjunto. O número de maneiras pelas quais
poderemos realizar ou 1 ou 2 será n1+n2.
Exemplo. Suponha que estejamos planejando uma viagem e devamos escolher
entre o transporte por ônibus ou por trem. Se existirem três rodovias e duas
ferrovias, então existirão 3 + 2 = 5 caminhos disponíveis para a viagem.

Regra da Multiplicação [princípio fundamental da contagem]
procedimento 1 possa ser executado de n1 maneiras.
procedimento 2 possa ser executado de n2 maneiras.
cada maneira de executar 1 pode seguir por qualquer maneira
para executar 2. Então o procedimento formado por 1 seguido de
2 poderá ser executado de n1·n2 maneiras.
Exemplo: Quantos divisores inteiros e positivos possui o número 360?
Quantos desses divisores são pares? Quantos são quadrados perfeitos?
3
2
Solução: 360 = 2 ×3 ×5. Os divisores inteiros e positivos de 360
a
b
c
são os número da forma: 2 ×3 ×5 , em que a∈{0,1,2,3}, b∈{0,1,2},
e c∈{0,1}. Portanto, existem 4×3×2 = 24 maneiras de escolher os
expoentes a, b, c. Logo há 24 divisores.Para o divisor ser par, a
não pode ser zero. Então, existem 3×3×2=18 divisores pares.Para
o divisor ser quadrado perfeito, os expoentes tem que ser pares. Logo,
existem 2×2×1=4 divisores quadrados perfeitos.
Amostragem com Reposição
Dado um conjunto com n elementos distintos, o número de
maneiras de selecionar uma sequência distinta de comprimento r
escolhida desse conjunto com repetidas seleções do mesmo
elemento sendo permitida é dada por nr, já que estamos
repetindo o mesmo procedimento r vezes, e cada procedimento
tem n maneiras de ser executado.
Exemplo. O conjunto A possui 4 elementos e, o conjunto B, 7 elementos.
Quantas funções f:A→B existem? Quantas delas são injetoras?
Solução: Note que para cada elemento de A temos 7 opções de valores
4
diferentes. Como A contém 4 elementos, existem 7×7×7×7=7 =2401
funções diferentes. Recorde que uma função é injetora se f(a)f(b)
sempre que ab. Portanto, não podemos repetir o mesmo elemento de
B como imagem de dois elementos de A, logo existem 7×6×5×4=840
funções injetoras.
Amostragem sem Reposição
Dado um conjunto com n elementos distintos, o número de
maneiras de selecionar uma sequência distinta de comprimento r
escolhida desse conjunto com repetidas seleções do mesmo
elemento não sendo permitida é dada por
r 1
(n) r  n(n  1)...(n  r  1)   (n  i )
i 0
.
Com n! = (n)n = n(n − 1) · · · 1, segue-se:
( n) r 
n!
(n  r )!
Exemplo. De quantos modos é possível colocar r rapazes e m moças em
fila de modo que as moças permaneçam juntas?
Solução: Primeiro temos r +1 opções de escolher o lugar das moças.
Em seguida, temos r! maneiras de escolher a posição dos rapazes entre
si, e m! maneiras de escolher a posição das moças entre si. Portanto,
temos (r+1)r!m! modos diferentes de escolha.
Enumeração de Conjuntos: Coeficientes Binomiais
O número de conjuntos não ordenados, de tamanho r, escolhidos
de um conjunto universo de tamanho n, não sendo permitido a
duplicação de elementos, é dado pelo coeficiente binomial:
Teorema Binomial:
Exemplo: Quantas sequências de cara e coroa de comprimento n contém
pelo menos 1 cara?
Solução: Neste caso, note que apenas uma sequência não contém nenhuma
cara (a sequência que contém apenas coroa). Como o número total de
n
sequências de cara e coroa de comprimento n é igual a 2 , temos então
n
2 −1 sequências de comprimento n contendo pelo menos uma cara.
Exemplo: Dentre oito pessoas, quantas comissões de três membros podem
ser escolhidas, desde que duas comissões sejam a mesma comissão se
forem constituídas pelas mesmas pessoas (não se levando em conta a
ordem em que sejam escolhidas)? Solução
8
  =
 3
56 comissões possíveis.
DESARRANJOS (descoincidências)
Em
combinatória,
um
desarranjo é definido como uma
permutação dos elementos originais de um conjunto de tal modo
que nenhum deles aparece em sua posição original. Este problema
de contagem foi inicialmente proposto por P. de Montmort em
1708 e resolvido por N. Bernoulli em 1713.
O número de desarranjos de um conjunto de cardinalidade n,
notado por n ¡ (ou n(!)-1), é conhecido como subfatorial (ou
número de “de Montmort”), e vale:
j
(

1
)
n(!) -1  n!
.
j!
j 0
n
Por exemplo, para o conjunto {A,B,C,D} há 4! =24 permutações
distintas,
mas
apenas
4(!)-1=4¡=9
delas
sem
nenhuma
coincidência com o original ABCD, a saber: BADC, BCDA, BDAC,
CADB, CDAB, CDBA, DABC, DCAB, DCBA.
Pode ser demonstrado que:
 n! 1 
1
n
(!
)

1. n(¡) pode ser calculado via:
 e  2 
1
lim n(!)  e 1
2. assintoticamente, n   n!
.
-1
Comportamento das funções: a) fatorial, b) subfatorial.
Exercício: Suponha que n formandos jogam para o alto seus
capelos no final de cerimônia de colação de grau universitário. Se
finda a comemoração, cada formando apanha aleatoriamente
um capelo no chão:
a) qual a probabilidade de que nenhum dos n formandos apanhe o
respectivo capelo inicial?
b) para que valor esta probabilidade converge, se o número de
formandos é grande?
Solução:
a) A probabilidade que não ocorram coincidências em uma
permutação pode ser calculada como:
1 1 1 1
(1) n
P({não haver nenhuma coincidência})= 2!  3!  4!  5!  ...  n!
(1) j n(!) 1

.
P({não haver nenhuma coincidência})= 
j!
n!
j 0
n
b) Assintoticamente, P({não coincidências})~e-1~0,3679...
Contagem Multinomial
Considere
que
temos
r tipos de elementos e ni cópias
indistinguíveis do elemento do tipo i. O número de sequências
r
ordenadas de comprimento
n   ni é dado por:
i 1
denotada por
coeficiente multinomial.
Por exemplo, a palavra probabilidade tem duas cópias de
cada uma das letras a,b,d,i e uma cópia de cada uma das
letras l,p,r,o,e.
Exemplo: Em uma estante há 12 livros, dos quais 3
exemplares idênticos de física, 5 são exemplares idênticos
de matemática e 4 são exemplares de um mesmo livro de
história. Determine o total de arranjos distintos.
Solução:
 12


12! =479.001.600 e  3 5 4  =27.720.
Note que no caso em que os livros do mesmo assunto são
distintos e se deseja manter-se juntos todos da mesma área,
então tem-se: [3! 5! 4!] . 3!= 103.680 arranjos.
GENERALIZAÇÃO
Exemplo. Determine o coeficiente de x9y4 no desenvolvimento de
(x3 + 2y2 + 5/2x2)5.
Solução: O termo genérico do desenvolvimento é
Portanto, temos o termo x9y4 se 5i1+2i2−10=9 e 2i2=4, o que
implica que i2=2 e i1=3. Logo, o coeficiente de x9y4 é
5 

  40
(2) (5) 
.
3 2 0
2
0
Exemplo: De quantas maneiras distintas 7 estudantes inscritos em
um congresso podem ser atribuído em dois quartos de hotel,
sendo um triplo e dois duplos? [1 triple + 2 double rooms].
Solução:
7 

7!

 
 3 2 2  3! 2! 2!
Exemplo: Consideremos o conjunto T={1,2,...,k}n.
Os elementos
de T são vetores de comprimento n em que cada coordenada é um
valor natural entre 1 e k, e.g. t=(1,1,2,1,...,1) t=(k,k,...,k)
t=(k,4,5,k,4,5, ...,5), etc.
 i∈{1,2,...,k}, denota-se por ni o total de vezes em que o valor
i aparece no vetor t. Claro que n1+n2+···+nk=n.
Para n=3 e k=5, T é o conjunto de todos os vetores com três
coordenadas, em que cada coordenada assume um valor inteiro
entre 1 e 5.
Se t=(3,3,2): tem-se que n1=n4=n5=0 e n2=1, n3=2.
Qual o número total o total de sequencias de 3 elementos com um
2 e dois 3’s (e nenhum 1, 4 ou 5)?
3


3!



resp.  0 1 2 0 0  0! 2! 0! 0!  3


Elas são (3,3,2), (3,2,3), (2,3,3).
O equilíbrio de Hardy-Weinberg (lei de Hardy-Weinberg)
bases da genética de populações mendelianas: as frequências
alélicas permanecerão constantes ao passar das gerações. Godfrey
Harold Hardy e Wilhelm Weinberg, independentes, 1908.
Considere dois alelos, "A" e "a" de um mesmo loco gênico, com
frequências
"pA" e "pa". As três possíveis frequências genotípicas
finais, na prole, se tornam: P({AA}) = pA2, P({Aa}) = 2pA.pa, P({aa})
= pa2, descritas pelo desenvolvimento de (pA+pa)2.
A generalização pode ser feita para o caso de sistemas poliplóides
e/ou com um número maior de alelos.
Frequências genotípicas esperadas para tetraploidia para dois
alelos são descritas por: P({AAAA})=pA4, P({AAAa})=4pA3pa,
P({AAaa})=6pA2pa2, P({Aaaa})=4pApa3, e P({aaaa})=pa4, descritas
pelo desenvolvimento de (pA+pa)4.
PROBABILIDADE CONDICIONAL
Dados A,B, com P(A)>0, define-se
P( A  B)
P ( B | A) :
P ( A) .
Implicações
Se AB= P(AB)=0  P(B|A)=0.
Se AB
AB=A
 P(B|A)=1
Se AB
AB=B
 P(B|A)=P(B)/P(A)P(B).
Caso limite
P(B|A) com P(A)=0.
Como definir? Abordagem menos comum nos textos básicos.
Tome uma sequência monotônica
An  que
converge para A.
Defina então
lim
P ( B | A) :
n
P ( B  An )
P ( An )
caso o limite exista e independa da escolha da sequência
An.
Exercício trivial
Se P(C|D)=0,4 e P(D|C)=0,5, qual dos dois eventos é o mais
provável?
Exercício adicional
Se P(E)=0,4 e P(F)=0,7, o que se pode concluir sobre P(E|F)?
De P( E | F ) 
P( E  F )
P( F ) , cotamos P(EF):
max(P(E)+P(F)−1,0) ≤ P(E∩F) ≤ min(P(E),P(F)).
Então 0,1≤P(E∩F)≤0,4, daí 1/7≤P(E|F)≤4/7.
O problema dos aniversários
Proposto por Feller (http://en.wikipedia.org/wiki/William_Feller),
avalia a seguinte probabilidade para um grupo de r pessoas:
Qual a probabilidade de pelo menos duas delas tenha exatamente
a mesma data de aniversário?
1 
2   r 1 

P ( 2 aniv em grupo de r pessoas )  1  1 
.1 
....1 
.
365
365
365


 

r=20 P(2 aniv)41%
r=30 P(2 aniv)70%
r=40 P(2 aniv)90%
Assim, em uma sala com 40 pessoas, há mais de 90% de
probabilidade que duas delas tenham aniversário no mesmo dia!
Probabilidade Total (lei das probabilidades totais)
Seja {Bj} uma partição de
n
P( A)   P( A  B j )
j 1
.
REGRA DE BAYES
Seja {Bj} uma partição de
, P(Bj)>0 (j).
A, P(A)>0.
P( B j | A) 
P( B j ) P( A | B j )
n
 P( B ) P( A | B )
k 1
k
k
Exercício proposto
Suponha que todos os possíveis bytes tenham a mesma
probabilidade. Seja WH (chamado de peso de Hamming) o número
de 1's em um byte. Considere os seguintes eventos:
A={O primeiro e o segundo bit são iguais a 1}
B={WH é um número ímpar}
Calcule:
(a) P(A)
(b) P(B)
(c) P(A|B)
Solução:
http://en.wikipedia.org/wiki/Richard_Hamming
a) P(A)=26/28
 P(A)=1/4
8 8 8  8 
          
1   3  5   7 

b) P( B) 
28
 P(B)=1/2
6 6 6
       
 1  3  5
c) P(AB)=
=1/8
28
Bayes: P( A | B) 
P( A  B) 1 / 8

P( B)
1 / 2 =1/4
Exercício (Richard Hamming strikes again) Ter, porém não usar uma
informação É EQUIVALENTE a não possuir nenhuma informação!
{uma lição sobre probabilidade a posteriori}
Considere um baralho com 52 cartas.
a) Qual a probabilidade de retirar (ao acaso) uma dama de espadas?
P({Q})=1/52.
b) Imagine agora que uma carta é retirada do baralho. Porém, ela não é virada e
permanece desconhecida. Neste cenário, qual a probabilidade de retirar uma
dama de espadas (do restante do baralho)?
P({Q}| uma carta é retirada, não lida)=?
Seja P:=P({Q}  uma carta é retirada, não lida).
Há somente duas possibilidades excludentes para a carta retirada:
a carta era {Q XOR a carta não era {Q
Pela lei das probabilidades totais:
P:=P({Q}  carta retirada foi Q) + P({Q}  carta retirada foi {Qc) .
Logo,
P(retirada{Q}).P({Q}  retirada{Q)+P(retirada{Q}c.P({Q} | retirada{Qc).
Então P=(1/52).0+(51/52).1/51=1/52.
Conclusão
P({Q}| carta é retirada, não lida)=P({Q})=1/52,
eventos independentes!
Em nada altera a probabilidade a posteriori o fato de dispor da informação e não
usá-la.
Mas...
Se a carta retirada fosse lida (virada), então a a coisa seria diferente!
DESAFIO DE CLASSE
A probabilidade de pacientes desenvolverem um tipo de câncer
raro é de 1/10.000. Suponha que um novo exame para o
diagnóstico deste câncer que apresenta as seguintes estatísticas:
 Taxa de acerto na identificação de portadores da doença =95% dos casos
 Taxa de acerto na identificação para pacientes saudáveis=90% dos casos
 Taxa de falsos positivos=10%
 Taxa
de falsos negativos=5%
Argumentando que os erros são pequenos, pode-se supor que este
método seja muito eficiente. Porém... Isto fica para não iniciados
em estatística.
Um familiar seu (ou sua namorada) submete-se a este exame e
recebe
o
diagnóstico
tranquilizá-lo(a)?
positivo
Calma,
estatística na UFPE...
sou
deste
câncer.
Você
engenheiro/físico.
E
poderia
cursei
Calcule a probabilidade do paciente estar de fato doente
PROVIDO que o diagnóstico indicado no teste foi positivo. Mostre
que esta probabilidade é muito baixa.
Qual a probabilidade do paciente não estar doente APESAR do
teste afirmar um resultado positivo?
Para auxiliar no uso da regra de Bayes, preencha as probabilidade
da seguinte tabela.
Testes de laboratórios bioquímicos apresentam os seguintes cenários:
Doente
D
P(TP|D)
RESULTADO DO TESTE
Teste positivo TP
Teste negativo TN
Partindo de
Calcule
P( D | TP) 
P ( D | TP ) 
P(TN|D)
Falso negativo
P( D  TP)
P(TP) ,
P ( D).P (TP | D)
P ( D) P (TP | D)  P ( D c ) P (TP | D c )
Sadio
Dc
P(TD|Dc)
Falso positivo
P(TN|Dc)
Exercício proposto
Em um teste de múltipla escolha, assuma que a probabilidade do aluno
saber a resposta da questão é p. Havendo m escolhas, se ele sabe a
resposta ele responde corretamente (com probabilidade 1); se não sabe
ele responde corretamente com probabilidade 1/m.
(a) Qual a probabilidade de uma pergunta ser respondida corretamente?
(b) Qual a probabilidade que o aluno sabia a resposta, dado que a
pergunta foi respondida corretamente?
Solução:
(a), usamos o Teorema da Probabilidade Total:
P ( A)  P ( A | B ).P ( B )  P ( A | B c ).P ( B c )  1. p 
(b), pela fórmula de Bayes,
P ( B | A) 
1
.(1  p ) .
m
1. p
1
1. p  .(1  p )
m
REGRA DO PRODUTO
Dados os eventos A e B,
P(A ∩ B) = P(A)P(B|A),
e, mais geralmente, dados os eventos A1, A2, . . . , An,
P(A1∩A2∩· · ·∩An)=P(A1)P(A2|A1). . .P(An|A1∩A2∩· · ·∩ An−1).
Esta é chamada a regra do produto, e é particularmente útil para
experimentos.
INDEPENDÊNCIA ENTRE EVENTOS
O que exatamente significa que dois eventos serem independentes?
Intuitivamente, isto significa que eles não têm nada haver um com
o outro, eles são totalmente não-relacionados; a ocorrência de um
não tem nenhuma influência sobre o outro.
P(B|A) = P(B)
P(A|B) = P(A)
P(AB)=P(A).P(B)
Equivalentes!
Se um, então outro e vice versa.
Nota. A e B mutuamente exclusivos são dependentes.
AB= P(AB)=0
P(B|A)=0  P(B)  não
são independentes.
Independência estatística entre eventos
Ak 1n
estatisticamente independentes se e só se para qualquer
subcoleção arbitrária:
j
j
i 1
i 1
P ( Aki )   P ( Aki )
.
Teorema: Se A e B são eventos independentes, A e Bc (resp., Ac e
B, Ac e Bc) também o são.
Prova: Note que A =A∩Ω = A∩(B∪Bc)=(A∩B)∪(A∩Bc).
Então, como A∩B e A∩Bc são mutuamente exclusivos, axioma K3
implica que P(A)=P(A∩B)+P(A∩Bc). Como A e B são
independentes, tem-se P(A)=P(A)P(B)+P(A∩Bc). Rearranjando os
termos e utilizando o fato que P(Bc)=1−P(B), vem
P(A∩Bc)=P(A)P(Bc), Q.E.D.
Teorema: A é independente dele mesmo se e somente se P(A)
= 0 ou P(A) = 1.
Efetue a prova. [fácil, fácil]
Exemplo: A1, . . . , An são eventos mutuamente independentes e que
P(Ai) = pi. Calcule as probabilidades dos eventos:
 O evento A é o evento que todos estes eventos ocorrem
 O evento B é o evento que nenhum desses eventos ocorre
 O evento C é o evento que pelo menos um desses eventos ocorre
Exercício proposto
O evento F explicita a falha de um determinado equipamento. Ela
ocorre apenas quando os eventos A1 ou A2 ocorrerem, e o evento
A3 não ocorre.
Sabendo
que
A1,A2,A3
são
mutuamente
independentes
e conhecendo as probabilidades de ocorrência de cada um deles,
P(A1)=0,4, P(A2)=0,35, e P(A3)=0,1, determine P(F).
Dica: O evento F é igual ao evento (A1∪A2) ∩ Ac3. Resp.0,549
VARIÁVEIS ALEATÓRIAS
Considere os mapeamentos X (denominados variáveis aleatórias)
X : R
w  X ( w)
A cada ponto do espaço amostral, atribui-se um número na
reta real. Isto corresponde a transformar o objeto de estudo
de um plano abstrato (espaço amostral) em valores
numéricos. Agora saberemos “fazer contas”.
Conjuntos
serão
mapeados
em
intervalos
(que
são
mensuráveis usando as medidas – Riemman ou Lebesgue).
A variável aleatória é uma “função” (mapeamento): X(w)=x.
As transformações são entre dois sistemas – espaços de
probabilidade triplas
(,A,P’)  ( ,B,P)
Lembre o exemplo trivial: lançamento de um dado
No espaço amostral, há “face do dado caiu exibindo 1”, “face do
dado caiu exibindo 2”,..., “face do dado caiu exibindo 6”. Estes
eventos são mapeados via v.a. nos números reais 1, 2, 3, 4, 5 e
6.
Vejamos a medida de probabilidade: uma função de conjunto
P:A[0,1]
Para cada subconjunto B na álgebra B
BB  P(B):=P(X-1(B)) se X-1(B)A.
Os conjuntos da
-álgebra
de Borel podem ser mensuráveis.
Funções mensuráveis
Dada f função real, contínua
Qualquer conjunto do tipo {x | f(x)>}

é mensurável.
Veja que conjuntos {x | f(x)} são mensuráveis:


1
x
|
f
(
x
)


}

{
x
|
f
(
x
)






n
n 1

Se {x | f(x) } é mensurável, seu complemento também o é:
{x | f(x) }c=
-{x | f(x) } = {x | f(x)<}.
Se {x | f(x)<} é mensurável,
{x | f(x)} também o é, pois


1
x
|
f
(
x
)


}

{
x
|
f
(
x
)






n
n 1


Assim, basta considerar conjuntos de um dos tipos:
Seja a seleção {x | f(x)}.
No contexto de variáveis aleatórias, consideram-se:
wx
X f
P{w | X(w)}:=FX().
ISTO É a função distribuição da variável aleatória X!
Conhecido FX(.), tem-se informação para calcular a probabilidade
de eventos que representem quaisquer eventos que são mapeados
em conjuntos da álgebra de Borel.
NOTAÇÃO
P(B):=P{w | wX-1(B)A}
FX():=P{w | X(w)}
Usaremos simplificadamente FX(x)= Pr(Xx)
F é contínua à esquerda.
(observação: definindo-se F(x):=Pr(Xx), F é contínua à direita).
Exemplos (ilustração do comportamento de FX)
Variável discreta
Variável contínua
NOTAS (DE RODAPÉ) SIMPLES
FX(x1)=P(w | X(w)<x1)
FX(x2)=P(w | X(w)<x2)
Se x1<x2  F(x1)  F(x2).
F(-)=P(w | X(w)<-)=P()=0.
F(+)=P(w | X(w)<+)=P()=1.
A função de distribuição acumulada FX satisfaz as seguintes propriedades:
F1. Se x ≤ y, então FX(x) ≤ FX(y).
X ≤ y ⇒ (−∞, x]⊆(−∞, y] ⇒ PX((−∞, x])≤PX((−∞, y]) ⇒ FX(x)≤FX(y).
F2. Se xn ↓ x, então FX(xn) ↓ FX(x).
Se xn↓x, então os eventos (−∞,xn] são decrescentes e ∩n(−∞, xn] =
(−∞, x]. Logo, pela continuidade da medida de probabilidade,
tem-se que PX((−∞,xn]) ↓P((−∞, x]), ou seja, FX(xn) ↓ FX(x).
F3. Se xn↓−∞, então FX(xn)↓0, e se xn↑+∞, então FX(xn)↑1.
Se xn↓−∞, então os eventos (−∞, xn] são decrescentes e ∩n(−∞, xn]
=∅ . Logo, pela continuidade da medida de probabilidade, tem-se
que PX((−∞,xn])↓P(∅ ), ou seja, FX(xn)↓0.
Similarmente, se xn↑+∞, então os eventos (−∞, xn] são crescentes
e ∪n(−∞, xn] = . Logo, pela continuidade da medida de
probabilidade, tem-se que PX((−∞, xn])↑P(Ω), ou seja, FX(xn)↑1.
Exercício: Determine quais das seguintes funções são funções de
distribuição acumuladas, especificando a propriedade que não for
satisfeita, caso a função não seja uma distribuição acumulada.
(i)
ex
1 ex
(ii)
e−|x|
não!
Assuma que X é uma variável aleatória discreta que assume os
valores 2, 3, e 5 com probabilidades 1/2, 1/4, e 1/4, então sua
função de distribuição acumulada é:
x2
 0
1 / 2 2  x  3

FX ( x)  
3 / 4 3  x  5
 1
x5
A distribuição de uma variável discreta contém sempre uma
função degrau, com saltos nos pontos que a variável assume com
probabilidade positiva.
Função densidade de Probabilidade
f(x) associada com a função distribuição de probabilidades F(x).
F ( x) 

x

f ( )d .
Como F(x) é não decrescente (monotonicidade),
f ( x) 
dF ( x)
 0.
dx
Distribuições contínuas e diferenciáveis. Para os demais casos
(discretas e mistas), usam-se impulsos de Dirac.
Interpretando:
x suficientemente pequeno
P( x  X  x  x)  f ( x).x
P( x  X  x  x)
x
ou f ( x)  x  0
lim
Discretas
Assumindo valores x1, x2, x3,... com probabilidade P(xi)
F ( x)   P ( X  xi )u ( x  xi )
i
Derivando aparecem impulsos. No caso de distribuições mistas:
f ( x) 
dC ( x)
  P ( X  xi ) ( X  xi ) .
dx
i
Variáveis aleatórias mistas
Nestes casos,
FX ( x)   f ( )d   p ( xi )
x

xi  x
em que i p(xi)≥0,
f(x)≥0, e



 p( x )  p  1 ,
i
xi
f ( )d  1  p .
Exercício.
Como as ligações DDD tem custo inferior se a chamada é
inferior a 3 min, a duração da chamada apresenta FDP da forma:
Calcule a probabilidade de que a duração de uma chamada esteja entre 2
e 6 minutos.
N.B.
2 / 3
2
resposta. P(2  X  6)  e  e / 2
EXPERIMENTOS DE BERNOULLI
(ensaios de Bernoulli)
Jacob Bernoulli
Um dos experimentos largamente usados é quando ao invés de
lidar com resultados de UM ÚNICO experimento, considera-se o
caso e realização repetida de um mesmo experimento.
Em particular, interessa a probabilidade de o evento ocorrer k
vezes nas n (n>k) realizações do mesmo.
(este é essencialmente o problema de obter k caras em n lançamentos
de uma moeda. O número de repetições do evento“jogar a moeda”é n)
Se p denota a probabilidade de ocorrer o evento, 1-p é a probabilidade
dele não ocorrer (consequência imediata dos axiomas).
A probabilidade de ocorrência de
k caras em n jogadas é (experimentos
independentes)
P(A1A2A3...An)=P(A1).P(A2).P(A3)...P(An)
p.p.p...p.(1-p).(1-p)....(1-p)
k vezes
n-k vezes
(total n)
Como os eventos da ocorrência de
k caras em n lançamentos são
n
mutuamente exclusivos e ocorrem em número  k  , via AX4 tem-se:
 
n k
  p (1  p ) n  k
P(k ocorrências em n eventos repetidos)=  k 
Note que só podem ocorrer
k=0, k=1, k=2, k=3, ou... k=n ocorrências.
MUTUAMENTE EXCLUSIVAS
n
P()=

k 0
n k
  p (1  p ) nk
n
=[p+(1-p)]
=1
k
 
(vale AX3).
A probabilidade de haver a ocorrência entre k1 e k2 vezes o evento
nos n ensaios é dada por:
k2

k k1
n k
  p (1  p) nk
.
k 
HIPÓTESES: Variável aleatória binária, n eventos, independência
entre eles.
Ars conjectandi (post mortem)
BINOMIAL
N=10 p=0,2
Exercício:
A taxa de sucesso de um bit em uma transmissão digital é 90%. Se 20 bits
forem transmitidos, qual a probabilidade de que exatamente 15 deles
tenha sido transmitidos com sucesso? Qual a probabilidade de que no
máximo 18 deles tenham sido transmitidos com sucesso?
p=0,9
 20  15
 20 
 20 
 0.9 (1  0.9) 2015 e 1   0.9 20   0.110.919
 15 
0
1
TEOREMAS ASSINTÓTICOS
Dá um “trabalhão” calcular estas expressões quando n é grande! Veremos
breve aproximações úteis. Assunto da próxima unidade.
Mensagem de fechamento:
ENFIM, O FIM DO ASSUNTO PARA A PRIMEIRA UNIDADE!
ESTUDE BEM, APROVEITE E FAÇA UM BOM EXERCÍCIO ESCOLAR!
Download