Distribuições Comuns de Variáveis Aleatórias Discretas

Distribuições Comuns de Variáveis
Aleatórias Discretas
1.
2.
3.
4.
5.
6.
Constante
Uniforme
Bernoulli
Binomial
Geometrica
Poisson
Variável Aleatória Constante
• pmf
1.0
c
• CDF
1.0
c
Distribuição Discreta Uniforme
• A v.a. discreta X que assume n valores discretos
com probabilidade pX(i) = 1/n, 1  i  n
• pmf
1 / n, se xi  X
p X ( xi )  
0, caso contrário
t
• CDF:
t
F (t )   p X (i ) 
n
i 1
Variável de Bernoulli
– V.A gerada por um experimento único de Bernoulli tem um resultado
binário {1, 0} ou {sucesso, falha}
– A v.a. binária X é chamada variável de Bernoulli tal que:
–Função de massa de probabilidade:
p  P( X  1)
q  1  p  P( X  0)
Distribuição de Bernoulli
• CDF
p+q=1
q
0.0
1.0
x
Binomial
•
•
•
•
•
A v.a. X representa o numero de sucessos em
uma sequencia de experimentos de Bernoulli.
Todos experimentos são independentes.
Cada resultado é um “sucesso” ou “falha”.
A probabilidade de sucesso de um
experimento é dado por p. A probabilidade
de uma falha é 1- p.
Uso do modelo: número de processadores
“down” num cluster; número de pacotes que
chegam ao destino sem erro.
Distribuição Binomial
A distribuição binomial com parâmetros
n 0 and 0 < p < 1, is
 n x
p( x)    p (1  p)n x
 x
Qual a média e variância????
Distribuição Binomial
A distribuição binomial com parametros
n 0 and 0 < p < 1, is
 n x
p( x)    p (1  p)n x
 x
A média e variância da binomial são:
  np
 2  np(1  p)
V.A. Binomial: pmf
pk
V.A. Binomial: CDF
1.2
1
CDF
0.8
0.6
0.4
0.2
0
0
1
2
3
4
5
x
6
7
8
9
10
Distribuição Geométrica
• Número de experimentos até incluir o 1o sucesso.
•
Em geral , S pode ter um tamanho infinitamente contável
• Definir a v.a Z ( S): amostra: 0 i-1 1 = i
• Por causa da independência:
Geométrica
• A distribuição geometrica é a única distribuição
discreta que exibe a propriedade MEMORYLESS.
• Resultados futuros são independentes de eventos
passados.
• Exemplo: Z: numero de experimentos ate sucesso. Ja
observamos n experimentos: todos com falhas. Y:
numero de experimentos adicionais necessarios ate
que um sucesso ocorra, i.e. Z = n+Y ou Y=Z-n
Geométrica: ausência de memória
• Y=Z-n
 P (Y  i | Z  n)
 P ( Z  n  i | Z  n)
 P ( Z  n  i | Z  n)
P ( Z  n  i and Z  n)

P ( Z  n)
P ( Z  n  i ) P ( Z  n  i ) pZ (n  i )



P ( Z  n)
1  FZ (n)
1  FZ (n)
pq n  i 1
i 1


pq
 pZ (i )
n
1  (1  q )
V.A. Geometrica
• Exercício: Mostre que

 P ( x)  1
x 1
X
and
1
E ( x) 
p
VA Poisson
• Número de eventos independentes que ocorrem
em um intervalo de tempo (veja discussão em
Ross, 4.8)
• Número de chegadas em um servidor em 1 hora
• Número de erros de impressão em uma página de
um livro
•
 = # médio de eventos que ocorrem no período
• Aproximação para VA Binomial com n grande e p
pequeno (Ross)
• Se X = Binomial(n,p), X  Poisson( = np)
Poisson: propriedades
• Considere que um servidor espera receber 100
transações em um minuto:
–  = 100 (constante)
• Espera-se que:
– O início de cada transação é independente dos outros;
– Para cada pequeno intervalo de tempo t, a probabilidade
de uma nova transação chegar é t
– A probabilidade de chegar duas transações ao mesmo
tempo é zero!
• O processo de Poisson tem as propriedades acima
• A VA X~Poisson representa o numero de transacoes
que chegam durante um periodo t.
VA Poisson: Aplicacao
• A v.a. de Poisson é boa para modelar vários fenômenos, como o número
de transações que chega num servidor em uma hora, ou o número de
queries que chega numa máquina de busca em 1 minuto ou número de
pacotes que chega num roteador em 1 segundo.
• Muito comumente usado para modelar chegada de sessões de usuários
– servidores Web, multimídia, banco de dados, ftp, e-mail
• Sessões são iniciadas por usuários
– Chegada de duas sessões tendem a ser independentes: Poisson é uma boa
aproximação
• Contra-exemplo:
– Chegada de requisições em um servidor Web
– Premissa de independência não é válida: existe dependência entre requisições
para o arquivo HTML e as imagens embutidas nele
Distribuição de Poisson
•
Função de massa de probabilidade (pmf):
k
(

t
)
pk  PN (t )  k   e t
k!
•
CDF:
( t )
F x   e
k 0
k!
x
 t
k
Poisson pmf
pk
t=1.0
Poisson CDF
CDF
1
t=1.0
0.5
0.1
1
2
3
4
5
6
7
8
9
10
t
Poisson pmf
pk
t=4.0
t=4.0
Poisson CDF
CDF
1
t=4.0
0.5
0.1
1
2
3
4
5
6
7
8
9
10
t
Poisson
• Uma v.a. de Poisson X tem sua pmf::
P( X  x) 

x
x!
e

x  0,1, 2,...
Onde  > 0 é uma constante

E(X)= Var(X) = 
Search Algorithms: Is the WebGraph a Random graph? No!
• Random graph Gn,p:
– n nodes
– Every directed edge occurs with probability p
• Is the Web-graph a random graph Gn,p?
• The probability of high degrees decrease exponentially
• In a random graph degrees are distributed according to a Poisson
distribution
• Therefore: The degree of a random graph does not obey a power law
(observed for web graphs)
Exercícios
1.
Considere que o número de mails que chegam a um servidor de
mails no intervalo t segundos é distribuído como Poisson com
parâmetro 0.3t Calcule a seguintes probabilidades:
–
–
–
2.
Exatamente tres mensagens chegarão num intervalo de 10 seg.
No máximo 20 msgs chegarão num período de 20seg.
O número de msgs num intervalo de 5 seg está
entre 3 e 7 mails.
A probabilidade de um query falhar (não ser bem sucedido) é
10(-4). Qual a probabilidade de falharem mais de 3 queries numa
sequência de 1000 queries?
Solução
1)
k
(0.3t ) 0.3t
P( Xt  k ) 
e
k!
2)
P(X10 = 3) = 0.224
3)
P(X20  20) = 0.973
7
4)
k
(1.5) ( 1.5)
P(3  X 5  7)  
e
 0.1909
k!
k 3
Solução
1000  4 i
(10 ) (1  104 )1000i
P(# erros  3)   
4 i

1000
• 2)
1000  4 i
(10 ) (1  104 )1000i  3.825 *10 6
P(# erros  3)  1   
0 i

3
Distribuições Discretas
• Zipf()
– Comumente usada quando a distribuição é altamente
concentrada em poucos valores
• Popularidade de arquivos em servidores Web/multimídia
– 90% dos acessos são para 10% dos arquivos
• Popularidade de palavras na língua inglesa
– Seja i, o elemento que ocupa a i-esima posição no ranking
de concentração
C
P( X  i )  
i
i  1,2,...
C é a constante de normalização
Zipf: lei das Potências
Distribuição Zipf
• Modela popularidade dos remetentes de e-mails
para a UFMG
Distribuições de Variáveis
Aleatórias Contínuas
•
•
•
•
•
•
Normal
Exponencial
Weibull
Lognormal
Pareto
....
Distribuições de Variáveis
Aleatórias Contínuas
• Variáveis aleatórias contínuas
–
–
–
–
Assumem um intervalo infinito de diferentes valores
W=% percentual de crescimento do PIB em 2005
V=tempo para retornar a resposta de um “query”
Valores específicos-particulares de uma v.a. contínua
tem probabilidade 0
– Intervalos de valores tem probabilidade  0
Função Densidade de Probabilidade
Para f (x) ser uma pdf
1. f (x) > 0  x.
2.A area da região entre o grafico de f e o
eixo do x é igual a 1.
y  f ( x)
Area = 1
Distribuição de Probabilidade
Seja X uma va contínua. Então a a
função de probabilidade (pdf) de X é
uma função f (x) tal que para dois
números quaisquer a and b,
P  a  X  b    f ( x)dx
b
a
O gráfico de f é a curva de densidade.
PDF
P(a  X  b) é dada pela área da função
sombreada.
y  f ( x)
a
b
Distribuição Normal (Gaussiana)
• Distribuição mais comum na análise de dados
• pdf is:
( x   )2
1
2 2
f ( x) 
 2
• -x +
• Média é  , desvio padrão 
e
Notação para Distribuições
Gaussianas
• Geralmente denotada N(,)
• Normal unitária é N(0,1)
• Se x tem N(,),
x

tem N(0,1)
• O -quantil de uma normal unitária z ~ N(0,1) é denotado
por z tal que
 x

 z )  P( x)    z    
P(
 

Parâmetros
• A distribuição de v.a. contínua contém
toda a informação que a estatística pode
descobrir sobre ela
– Distribuição pode ser expressa pela pdf ou CDF
Parâmetros
• Geralmente a informação existente numa distribuição pode
ser excessiva para ser processada
• Quando isso é verdade, nós queremos sumarizar as
métricas de informção:
–
–
–
–
Média
Variancia
Mediana
Percentis
• São também chamados de parâmetros de uma distribuição
Distribuição Normal
• Função de densidade
– Dois parâmetros,  e 
– Assim se X é distribuído com uma normal:

X ~ N  , 2
EX   
V X    2

Normal
• Função de densidade para =0, =1
0.45
0.4
0.35
f(x)
0.3
0.25
0.2
0.15
0.1
0.05
0
-5
-4
-3
-2
-1
-6E-14
x
1
2
3
4
5
Normal
• Função de densidade para =1
0.45
=2
0.4
0.35
0.3
0.25
0.2
0.15
=5
0.1
0.05
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
Normal
• Funções de densidade para =1
0.45
0.4
=1
=2
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
Distribuicao Exponencial
• Quantidade de tempo até que determinado evento
ocorra
f X x    e
- λx
FX x   1  e
λx
for x  0
for x  0
 = taxa de chegadas
1/  = tempo médio entre chegadas
Exemplo: v.a. exponencial
• pdf: f ( x)  e , x  0
 x
• CDF: F ( x)  1  e
f(x)
 x
pdf
x
• v.a. muito frequentemente usada em computacao
• Modelos:
– Tempo entre duas submissões de queries a uma maquina de busca
– Tempo de execução de processos
– Tempo entre chegadas de pacotes em um roteador
– Tempo entre chegadas de sessões em um servidor
Exponential distribution
• Density
1.2
1
0.8
0.6
0.4
0.2
0
0
1
2
3
4
5
Distribuicao Exponencial
P(X  1/ ) = 1 – e-1/ = 1 – 1/e
E(X) = 1/ 
Var(X) = 1/2  SD(X) = 1/  CV(X) = 1
CV = 1  exponencial
Distribuições Exponencial e Poisson
• Seja uma distribuição Poisson que denote o número de eventos
N(t) em um intervalo de tempo t
• Seja T1 o momento do 1o evento
• Seja Tn o tempo entre o (n-1)-esimo e o n-esimo eventos
• Sequência {Tn, n=1, 2, ...}: tempos entre chegadas
P(T1  t) = P(N(t) = 0) = e
-t 
T1  exponencial()
P(T2  t | T1 = s) = Prob (0 eventos em (s, s+t) | T1 = s)
= Prob (0 eventos em (s, s+t)) (eventos Poisson
são independentes)
=e
-t 
T2  exponencial()
 T1 , T2, ..., Tn são independentes e têm mesma
distribuição exponencial()
Distribuições Exponencial e Poisson
Processo de
Chegadas
Poisson
Tempo entre
Chegadas
Exponencial
Independência
entre eventos
Distribuição Exponencial
• Exponencial () :
P ([ X  t  x]  [ X  t ])
P( X  t  x | X  t ) 
P( X  t )
P (t  X  t  x)

1  P( X  t )
P( X  t  x)  P( X  t )
Propriedade

sem memória
1  P( X  t )
(memoryless)
1  e  ( t  x )  (1  e t )

1  (1  e t )
1  e  t e  x  1  e  t

e  t
e t (1  e x )
 x


1

e
 P( X  x)
 t
e
Propriedade Memoryless
• Tempo de residência R de um cliente depende do # de clientes na
fila quando ele chega ao centro, nos tempos de serviços destes
clientes e no tempo que o cliente que está sendo servido no
momento de chegada ainda permanecerá em serviço.
– Seja Xi a VA para o tempo de serviço de cliente i na CPU
– Seja Xi: exponencial() para todos os clientes
– Seja Y a VA que denota o tempo residual que o cliente que está em
serviço no momento de chegada ainda permanecerá em serviço
• Y também tem distribuição exponencial com parâmetro 
• Tempo que ainda falta independe do tempo que já esteve em
serviço
• Estado futuro não depende do estado passado
Propriedade Memoryless
• Distribuição exponencial é a única
distribuição contínua que tem a
propriedade memoryless
• Por sua vez, distribuição geométrica
é a única discreta que tem a propriedade
memoryless
Outras Distribuições Contínuas
• Weibull
• Lognormal
• Pareto
Distribuição de Weibull
A va contínua T tem uma distribuição de
Weibull se a pdf é
f (t )  t
 1  t 
F (t )  1  e
e
 t 
Onde os parâmetros satisfazem t0  > 0  > 0
Distribuição Lognormal
Uma va X tem uma distribuição
lognormal se a va Y = ln(X) X  eY tem
uma distribuição normal com a pdf
resultante com parâmetros  e 
 1

f ( x;  ,  )   2 x e
0

  ln( x )  2
( 2 2 )
x0
x0
Muito utilizada para modelar duracao de sessao de usuarios em
servicos web
Média e Variância
A média e variância de uma va X que
tem uma distribuição lognormal são:
E( X )  e
  2 / 2
V (X )  e
2   2
e
2

1
Distribuição Lognormal
=1
Distribuição de Pareto
• Uma das distribuições heavy
tailed.
ab a
f ( x)  ( a 1)  ab a x ( a 1)
x
x 1
High Variability Phenomena
Walter Willinger
AT&T Labs-Research
[email protected]
Motivation
• Internet is full of “high variability”
–
–
–
–
–
Link bandwidth: Kbps – Gbps
File sizes: a few bytes – Mega/Gigabytes
Flows: a few packets – 100,000+ packets
In/out-degree (Web graph): 1 – 100,000+
Delay: Milliseconds – seconds and beyond
• How to deal with “high variability”
– High variability = large, but finite variance
– High variability = infinite variance
A Working Definition
• A distribution function F(x) or random variable X
is called heavy-tailed if for some 0
P[ X  x]  1  F ( x)  cx  , x  
where c>0 and finite
•
•
•
•
F is also called a power law or scaling distribution
The parameter  is called the tail index
1<  < 2, F has infinite variance, but finite mean
0 <  < 1, the variance and mean of F are infinite
Some Illustrative Examples
• Some commonly-used plotting techniques
– Probability density functions (pdf)
– Cumulative distribution functions (CDF)
– Complementary CDF (CCDF = 1- CDF)
• Different plots emphasize different features
– Main body of the distribution vs. tail
– Variability vs. concentration
– Uni- vs. multi-modal
Probability density functions
Cumulative Distribution Function
1
0.9
Lognormal(0,1)
Gamma(.53,3)
Exponential(1.6)
Weibull(.7,.9)
Pareto(1,1.5)
0.8
0.7
F(x)
0.6
0.5
0.4
0.3
0.2
0.1
0
0
2
4
6
8
10
x
12
14
16
18
20
Complementary CDFs
10
log(1-F(x))
10
10
10
10
0
-1
-2
-3
Lognormal(0,1)
Gamma(.53,3)
Exponential(1.6)
Weibull(.7,.9)
ParetoII(1,1.5)
ParetoI(0.1,1.5)
-4
10
-1
10
0
10
log(x)
1
10
2
Why “Heavy Tails” Matter …
•
•
•
•
Risk modeling (insurance)
Load balancing (CPU, network)
Job scheduling (Web server design)
Towards a theory for the Internet …
20th Century’s 100 largest disasters worldwide
2
10
Technological ($10B)
Log(rank)
Natural ($100B)
Most 101
events are
small
US Power outages
(10M of customers)
0
10
-2
10
-1
0
10
But the large
events are huge
10
Log(size)
Distribuição de Erlang
• Uma variável aleatória X que iguala o comprimento do
intervalo até que r contagens ocorram num processo de
Poisson com média  > 0 tem uma v.a. de Erlang com
parâmetros  e r. As pdf e CDF de X são:
f ( x) 
r 1  x
x e
r
(r  1)!
for x > 0 and r = 1, 2 , …
(x) k x
F ( x) 1  
e
k!
k 0
r 1
Erlang: Soma de Exponenciais
• Genericamente: X1, X2, ... Xr, todas independentes e
exponencial(): Z = X1 + X2 + ... Xr  Erlang de n estágios
(z ) k z
F (Z  z)  
e
k!
k 0
r 1
z0
• Ex: tempo de processamento dividido em várias (r) etapas. A
duração de cada etapa é exponencialmente distribuída
com mesmo 
Exp()
Exp()
Exp()
Exp()
1
2
3
r
Erlang(r,)
• Se Xi  exponencial (i), onde i são diferentes
Z = X1 + X2 + ... Xr  Hipoexponencial
Exercícios
• O tempo de CPU de um query típico medida em ms segue uma
distribuição de Erlang de três estágios com  = 0.5. Determine qual a
probabilidade que a demanda de CPU da query excederá 1
milisegundo.
• O tempo de vida em dias de um componente de software é modelado
por uma distribuição de Weibull com  = 2. A partir de um grande
número de componentes, foi observado que 15% dos componentes que
duraram mais de 90 dias falharam antes de 100 dias. Determine o
parâmetro 
Solução #1
• O tempo de CPU de um query típico medida em ms segue uma
distribuição de Erlang de três estágios com  = ½. Determine qual a
probabilidade que a demanda de CPU da query excederá 1
milisegundo.
(  x ) i  x
FX ( x) 1  (
)e
i!
i 0
P( X  1) 1  P( X  1) 1  FX (1)
2
1 1
 (1   ) e
2 8
1
( )
2
 0.9856
Solução #2
•
O tempo de vida em dias de um componente de software é modelado por
uma distribuição de Weibull com  = 2. A partir de um grande número de
componentes, foi observado que 15% dos componentes que duraram mais
de 90 dias falharam antes de 100 dias. Determine o parâmetro 
FX ( x) 1  e
 x 2
P( X  100 | X  90)  0.15
P (90  X  100)

P( X  90)
FX (100)  FX (90)

1  FX (90)

e
  ( 90) 2
e
  (100) 2
  ( 90) 2
e
  0.00008554
 0.15
Distribuição dos Mínimos
• Sistema composto de n componentes. Sistema funciona se
todos componentes estão operando corretamente
• Tempo de falha : X1, X2, ...., Xn exponencial ()
• Tempo de de vida do sistema Z = min (X1, X2, ...., Xn)
P(Z  z) = P (pelo menos um Xi  z) = ?
P (exatamente um Xi  z) = ?
Distribuição dos Mínimos
• Sistema composto de n componentes. Sistema funciona se
todos componentes estão operando corretamente
• Tempo de falha : X1, X2, ...., Xn exponencial ()
• Tempo de de vida do sistema Z = min (X1, X2, ...., Xn)
P(Z  z) = P (pelo menos um Xi  z) = ?
P (exatamente um Xi  z) = ?
n
n 1
P(exatamente 1 X i  z )    FX ( z )1  FX ( z ) 
1
n
 z
 z n 1
  1  e 1  (1  e ) 
1
Distribuição dos Mínimos
• P(Z  z) = P (pelo menos um Xi  z)
Distribuição dos Mínimos
• P(Z  z) = P (pelo menos um Xi  z)
n
n j
j
P ( pelo menos 1 X i  z )    FX ( z )  1  FX ( z ) 
j 1  j 
n
n
 z n  j
 z j
   1  e  e 
j 1  j 
n
Z tem distribuição
exponencial com
parâmetro n
n j
n j
    p 1  p 
j 1  j 
n
n j
n j
    p 1  p 
j 0  j 
p = (1-e-z)
n
n 0
n
  p 1  p 
0
 1 (1  p )  1  1  1  e
n
 z

n
 1  e nz
Distribuição dos Máximos
• n tarefas independentes : X1, X2, ...., Xn: exponencial ()
• Tempo de resposta = tempo de execução da tarefa mais longa
Z = max (X1, X2, ...., Xn)
– Ex: tempo de resposta de máquina de busca composta de n
processadores executando em paralelo. Cada máquina processa
consulta em uma partição do dicionário
Front-end:
atraso desprezível
Distribuição dos Máximos
• n tarefas independentes : X1, X2, ...., Xn: exponencial ()
• Tempo de resposta = tempo de execução da tarefa mais
longa
Z = max (X1, X2, ...., Xn)
P( Z  z )  P(max( X i )  z )
 P( X 1  z  X 2  z  ...  X n  z )
 P( X n  z ) P( X 2  z )... P( X n  z )
 (1  e z )(1  e z )...(1  e z )  (1  e z ) n
Gerando Distribuições
• Como gerar amostras de uma distribuição a
partir de um gerador de números
aleatórios uniformemente distribuídos
(Unix: random(), drand48())?
Gerando Distribuições
Ex: geração de amostras de uma distribuição exponencial
F(X) = 1 – e-x
Y = F-1(X) = - 1/ ln(1 – Z), onde Z  uniforme(0,1)
F(Z  z) = z
F(Y) = P(Y  y) = P(- 1/ ln(1 – Z)  y )
= P (ln(1 – Z)  -y)
= P( 1 – Z  e-y)
= P(Z  1 - e-y ) = 1 - e-y
 Y é exponencial
O mesmo procedimento pode ser utilizado para gerar
amostras de diferentes distribuições, partindo da
inversa da CDF da distribuição desejada
Gerando Distribuições
Gerador de números aleatórios
retorna valor entre 0 e 1. Ex: 0.52
0.8
F(X) = P(X < x)
Z: uniforme (0,1)
1
0.6
X: distribuição que
você quer gerar
0.4
0.2
0
0
20
40
60
80
100
x
Aplicando o número aleatório na função inversa de F(X),
consegue-se gerar um ponto amostral
Para-Casa (próxima aula!)
• Converse com seu orientador, e traga um exemplo
exepcionalmente bom ou ruim (de preferência) de
apresentação e sumarização de dados de
proceedings de conferências importantes de sua
área. Prepare um texto de no máximo 1 folha com
suas críticas e ou elogios ao métodos usados.