E(X) - UFMG

Propaganda
Estimating Population
from Samples
• Sample mean is a random variable
 Mean has some distribution
Multiple sample means have “mean
of means”
• Knowing distribution of means can
estimate error
Apresentacao derivada dos slides originais de Virgilio Almeida
Confidence Intervals
• Sample mean value is only an estimate of
the true population mean
• Bounds c1 and c2 such that there is a high
probability, 1-a, that the population mean
is in the interval (c1,c2):
Prob{ c1 < m < c2} =1-a
where a is the significance level and
100(1-a) is the confidence level
Confidence Interval
of Sample Mean
• Knowing where 90% of sample means fall,
we can state a 90% confidence interval
• Key is Central Limit Theorem:
– Sample means are normally distributed
– Only if independent
– Mean of sample means is population
mean m

– Standard deviation (standard error) is
n
Apresentacao derivada dos slides originais de Virgilio Almeida
Confidence Interval of Sample Mean
Queremos c1 e c 2 tal que : P(c1  m  c 2 )  1  a
Seja a media amostral x. Pelo teorema central do limite temos x ~ N ( m , 
Entao : P(
xm

1
n
P( z
1
a

n
2
P( x  z
1
a
2
z
a )  1
1
n
a
1

n
2
m xz
P( z
2
2
xm  z

a
1
a
2
)  P( z
a
2
1

n

a
2
xm

z
1
n

n
a
n
)
)  1a
2
mx  z
1
a
2

n
)  1a
)  1a
Se  desconheci do, s - desvio padrao da amostra, serve como bom estimador
Apresentacao derivada dos slides originais de Virgilio Almeida
Estimating
Confidence Intervals
• Two formulas for confidence intervals
– Large sample (over 30 observations
from any distribution): z-distribution
– Small sample from normally distributed
population: t-distribution
• Common error: using t-distribution for
non-normal population
– Central Limit Theorem often saves us
Apresentacao derivada dos slides originais de Virgilio Almeida
The z Distribution
• Interval on either side of mean:
s 

x  z1a  
2  n
• Significance level a is small for large
confidence levels
• Tables of z are tricky: be careful!
Apresentacao derivada dos slides originais de Virgilio Almeida
Example of z Distribution
• 35 samples: 10 16 47 48 74 30 81 42 57 67 7
13 56 44 54 17 60 32 45 28 33 60 36 59 73
46 10 40 35 65 34 25 18 48 63
• Sample mean x = 42.1.
Standard deviation s = 20.1. n = 35
• 90% confidence interval is
20.1
42.1  (1.645)
 (36.5, 47.7)
35
Apresentacao derivada dos slides originais de Virgilio Almeida
The t Distribution
• Formula is almost the same:
s 

x  t 1  a ; n 1  
 2  n
• Usable only for normally distributed
populations!
• But works with small samples
Apresentacao derivada dos slides originais de Virgilio Almeida
Example of t Distribution
• 10 height samples: 148 166 170 191 187 114 168
180 177 204
• Sample mean x = 170.5.
Standard deviation s = 25.1, n = 10
• 90% confidence interval is
251
.
170.5  (1.833)
 (156.0, 185.0)
10
• 99% interval is (144.7, 196.3)
Apresentacao derivada dos slides originais de Virgilio Almeida
Getting More Confidence
• Asking for a higher confidence level widens
the confidence interval
– Counter-intuitive?
• How tall is Fred?
– 90% sure he’s between 155 and 190 cm
– We want to be 99% sure we’re right
– So we need more room: 99% sure he’s
between 145 and 200 cm
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuições Comuns de Variáveis
Aleatórias Discretas
1.
2.
3.
4.
5.
6.
Constante
Uniforme
Bernoulli
Binomial
Geometrica
Poisson
Apresentacao derivada dos slides originais de Virgilio Almeida
Variável Aleatória Constante
• pmf
1.0
c
• CDF
1.0
c
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição Discreta Uniforme
• A v.a. discreta X que assume n valores discretos
com probabilidade pX(i) = 1/n, 1  i  n
• pmf
1 / n, se xi  X
p X ( xi )  
0, caso contrário
t
• CDF:
t
F (t )   p X (i ) 
n
i 1
Apresentacao derivada dos slides originais de Virgilio Almeida
Variável de Bernoulli
– V.A gerada por um experimento único de Bernoulli tem
um resultado binário {1, 0} ou {sucesso, falha}
– A v.a. binária X é chamada variável de Bernoulli tal que:
–Função de massa de probabilidade:
p  P( X  1)
q  1  p  P( X  0)
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição de Bernoulli
• CDF
0

p+q=1
q
0.0
1.0
x
Apresentacao derivada dos slides originais de Virgilio Almeida
Binomial
•
•
•
•
•
A v.a. X representa o numero de sucessos em
uma sequencia de experimentos de Bernoulli.
Todos experimentos são independentes.
Cada resultado é um “sucesso” ou “falha”.
A probabilidade de sucesso de um
experimento é dado por p. A probabilidade
de uma falha é 1- p.
Uso do modelo: número de processadores
“down” num cluster; número de pacotes que
chegam ao destino sem erro.
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição Binomial
A distribuição binomial com parâmetros
n 0 and 0 < p < 1, is
 n x
p( x)    p (1  p)n x
 x
A média e variância da binomial são:
m  np
 2  np(1  p)
Apresentacao derivada dos slides originais de Virgilio Almeida
V.A. Binomial: pmf
pk
Apresentacao derivada dos slides originais de Virgilio Almeida
V.A. Binomial: CDF
1.2
1
CDF
0.8
0.6
0.4
0.2
0
0
1
2
3
4
5
6
7
8
9
10
x
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição Geométrica
• Número de experimentos até incluir o 1o sucesso.
•
Em geral , S pode ter um tamanho infinitamente contável
• Definir a v.a Z ( S): amostra: 0 i-1 1 = i
• Por causa da independência:

 P ( x)  1
x 1
X
and
1
E ( x) 
p
Apresentacao derivada dos slides originais de Virgilio Almeida
Geométrica
• A distribuição geometrica é a única distribuição
discreta que exibe a propriedade MEMORYLESS.
• Resultados futuros são independentes de eventos
passados.
• Exemplo: Z: numero de experimentos ate sucesso. Ja
observamos n experimentos: todos com falhas. Y:
numero de experimentos adicionais necessarios ate
que um sucesso ocorra, i.e. Z = n+Y ou Y=Z-n
Apresentacao derivada dos slides originais de Virgilio Almeida
Geométrica: ausência de memória
• Y=Z-n
 P (Y  i | Z  n)
 P ( Z  n  i | Z  n)
 P ( Z  n  i | Z  n)
P ( Z  n  i and Z  n)

P ( Z  n)
P ( Z  n  i ) P ( Z  n  i ) pZ (n  i )



P ( Z  n)
1  FZ (n)
1  FZ (n)
pq n  i 1
i 1


pq
 pZ (i )
n
1  (1  q )
Apresentacao derivada dos slides originais de Virgilio Almeida
VA Poisson
• Número de eventos independentes que ocorrem
em um intervalo de tempo
(veja discussão em Ross, 4.8)
• Número de chegadas em um servidor em 1 hora
• Número de erros de impressão em uma página de
um livro
 = # médio de eventos que ocorrem no período
• Aproximação para VA Binomial com n grande e p
pequeno (Ross)
• Se X = Binomial(n,p), X  Poisson( = np)
Apresentacao derivada dos slides originais de Virgilio Almeida
Poisson: propriedades
• Considere que um servidor espera receber 100
transações em um minuto:
–  = 100 (constante)
• Espera-se que:
– O início de cada transação seja independente dos
outros;
– Para cada pequeno intervalo de tempo t, a
probabilidade de uma nova transação chegar seja t
– A probabilidade de chegar duas transações ao mesmo
tempo seja zero!
• O processo de Poisson tem as propriedades acima
• A VA X~Poisson representa o numero de transacoes que
chegam durante um periodo t.
Apresentacao derivada dos slides originais de Virgilio Almeida
VA Poisson: Aplicacao
• A V.A. de Poisson é boa para modelar vários fenômenos, como o
número de transações que chegam a um servidor em uma hora,
ou o número de queries que chegam a uma máquina de busca
em 1 minuto ou número de pacotes que chegam num roteador
em 1 segundo.
• Muito comumente usado para modelar chegada de sessões de
usuários
– servidores Web, multimídia, banco de dados, ftp, e-mail
• Sessões são iniciadas por usuários
– Chegada de duas sessões tendem a ser independentes:
Poisson é uma boa aproximação
• Contra-exemplo:
– Chegada de requisições em um servidor Web
– Premissa de independência não é válida: existe dependência
entre requisições para o arquivo HTML e as imagens
embutidas nele
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição de Poisson
•
Função de massa de probabilidade (pmf):
k
(

t
)
pk  PN (t )  k   e t
k!
•
CDF:
( t )
F x   e
k 0
k!
x
 t
k
Apresentacao derivada dos slides originais de Virgilio Almeida
Poisson
• Uma v.a. de Poisson X tem sua pmf::
P( X  x) 

x
x!
e

x  0,1, 2,...
Onde  > 0 é uma constante

E(X)= Var(X) = 
Apresentacao derivada dos slides originais de Virgilio Almeida
Search Algorithms:
Is the Web-Graph a Random graph?
• Random graph Gn,p:
– n nodes
– every directed edge occurs with probability p
• Is the Web-graph a random graph Gn,p?
• In a random graph. degrees are distributed according to a
Poisson distribution
Apresentacao derivada dos slides originais de Virgilio Almeida
Is the Internet (router-level) a
random graph?
• Em 1999, foi publicado um resultado supreendente sobre a
topologia de roteadores da Internet [FFF99]
• Distribuição segue lei de
potência
• Medidas de traceroute
posteriores confirmaram
resultados
Slide inspirado na apresentação de Bruno Ribeiro: “Entendendo Redes Complexas através de Informação Experimental
Incompleta: Mitos, Erros e Acertos”, WPerformance 2010
Apresentacao derivada dos slides originais de Virgilio Almeida
Rede de roteadores da Internet
• Porém, em 2003, mostrou-se que método traceroute produz
amostras tendenciosas [Byers 2003]:
• Verificado teoricamente
Slide inspirado na apresentação de Bruno Ribeiro: “Entendendo Redes Complexas através de Informação Experimental
Incompleta: Mitos, Erros e Acertos”,
WPerformance
Apresentacao
derivada 2010
dos slides originais de Virgilio Almeida
Exercícios
1.
2.
Considere que o número de mails que chegam a um
servidor de mails no intervalo t segundos é distribuído
como Poisson com parâmetro 0.3t Calcule a seguintes
probabilidades:
– Exatamente tres mensagens chegarão num intervalo
de 10 seg.
– No máximo 20 msgs chegarão num período de 20seg.
– O número de msgs num intervalo de 5 seg está
entre 3 e 7 mails.
A probabilidade de um query falhar (não ser bem sucedido)
é 10(-4). Qual a probabilidade de falharem mais de 3
queries numa sequência de 1000 queries?
Apresentacao derivada dos slides originais de Virgilio Almeida
Solução
k
1)
(0.3t ) 0.3t
P( Xt  k ) 
e
k!
2)
P(X10 = 3) = 0.224
3)
P(X20  20) = 0.973
4)
7
k
(1.5) ( 1.5)
P(3  X 5  7)  
e
 0.1909
k!
k 3
Apresentacao derivada dos slides originais de Virgilio Almeida
Solução
• 2)
1000  4 i
(10 ) (1  104 )1000i
P(# erros  3)   
4 i

1000
1000  4 i
(10 ) (1  104 )1000i  3.825 *10 6
P(# erros  3)  1   
0 i

3
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuições Discretas
• Zipf(a)
– Comumente usada quando a distribuição é
altamente concentrada em poucos valores
• Popularidade de arquivos em servidores Web/multimídia
– 90% dos acessos são para 10% dos arquivos
• Popularidade de palavras na língua inglesa
– Seja i, o elemento que ocupa a i-esima posição no
ranking de concentração
C
P( X  i )  a
i
i  1,2,...
C é a constante de normalização
Zipf: lei das Potências Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição Zipf
• Modela popularidade dos remetentes de e-mails
para a UFMG
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuições de Variáveis
Aleatórias Contínuas
•
•
•
•
•
•
Normal
Exponencial
Weibull
Lognormal
Pareto
....
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuições de Variáveis
Aleatórias Contínuas
• Variáveis aleatórias contínuas
– Assumem um intervalo infinito de diferentes valores
– W=% percentual de crescimento do PIB em 2005
– V=tempo para retornar a resposta de um “query”
– Valores específicos-particulares de uma v.a. contínua
tem probabilidade 0
– Intervalos de valores tem probabilidade  0
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição Normal (Gaussiana)
• Distribuição mais comum na análise de
dados
• pdf is:
( x  m )2
1
2 2
f ( x) 
 2
e
• -x +
• Média é m , desvio padrão 
Apresentacao derivada dos slides originais de Virgilio Almeida
Notação para Distribuições
Gaussianas
• Geralmente denotada N(m,)
• Normal unitária é N(0,1)
xm
• Se x tem N(m,),

tem N(0,1)
• O a-quantil de uma normal unitária z ~ N(0,1) é
denotado por za tal que
 P( x  m )  z   P( x )  m  z    a

a
a



Apresentacao derivada dos slides originais de Virgilio Almeida
Normal
• Função de densidade para m=0, =1
0.45
0.4
0.35
f(x)
0.3
0.25
0.2
0.15
0.1
0.05
0
-5
-4
-3
-2
-1
-6E-14
1
2
3
4
5
x
Apresentacao derivada dos slides originais de Virgilio Almeida
Normal
• Função de densidade para =1
0.45
m=2
0.4
0.35
0.3
0.25
0.2
0.15
m=5
0.1
0.05
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
Apresentacao derivada dos slides originais de Virgilio Almeida
Normal
• Funções de densidade para m=1
0.45
0.4
=1
=2
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuicao Exponencial
• Quantidade de tempo até que determinado evento
ocorra
f X x    e
for x  0
- λx
FX x   1  e
λx
for x  0
 = taxa de chegadas
1/  = tempo médio entre chegadas
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo: v.a. exponencial
• pdf:
• CDF:
f ( x)  e
 x
F ( x)  1  e
,x 0
 x
f(x)
pdf
x
• V.A. muito frequentemente usada em computacao
• Modelos:
– Tempo entre duas submissões de queries a uma maquina de busca
– Tempo de execução de processos
– Tempo entre chegadas de pacotes em um roteador
– Tempo entre chegadas de sessões em um servidor
Apresentacao derivada dos slides originais de Virgilio Almeida
Exponential distribution
• Density
1.2
1
0.8
0.6
0.4
0.2
0
0
1
2
3
4
5
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuicao Exponencial
P(X  1/ ) = 1 – e-1/ = 1 – 1/e
E(X) = 1/ 
Var(X) = 1/2  SD(X) = 1/  CV(X) = 1
CV = 1  exponencial
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuições Exponencial e Poisson
• Seja uma distribuição Poisson que denote o número de eventos
N(t) em um intervalo de tempo t
• Seja T1 o momento do 1o evento
• Seja Tn o tempo entre o (n-1)-esimo e o n-esimo eventos
• Sequência {Tn, n=1, 2, ...}: tempos entre chegadas
P(T1  t) = P(N(t) = 0) = e
-t 
T1  exponencial()
P(T2  t | T1 = s) = Prob (0 eventos em (s, s+t) | T1 = s)
= Prob (0 eventos em (s, s+t)) (eventos Poisson
são independentes)
=e
-t 
T2  exponencial()
 T1 , T2, ..., Tn são independentes e têm mesma
distribuição exponencial()
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuições Exponencial e Poisson
Processo de
Chegadas
Poisson
Tempo entre
Chegadas
Exponencial
Independência
entre eventos
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição Exponencial
• Exponencial () :
P ([ X  t  x]  [ X  t ])
P( X  t  x | X  t ) 
P( X  t )
P (t  X  t  x)

1  P( X  t )
P( X  t  x)  P( X  t )
Propriedade

sem memória
1  P( X  t )
(memoryless)
1  e  ( t  x )  (1  e t )

1  (1  e t )
1  e  t e  x  1  e  t

e  t
e t (1  e x )
 x


1

e
 P( X  x)
 t
e
Apresentacao derivada dos slides originais de Virgilio Almeida
Propriedade Memoryless
• Tempo de residência R de um cliente depende do # de clientes na
fila quando ele chega ao centro, nos tempos de serviços destes
clientes e no tempo que o cliente que está sendo servido no
momento de chegada ainda permanecerá em serviço.
– Seja Xi a VA para o tempo de serviço de cliente i na
CPU
– Seja Xi: exponencial(m) para todos os clientes
– Seja Y a VA que denota o tempo residual que o cliente
que está em serviço no momento de chegada ainda
permanecerá em serviço
• Y também tem distribuição exponencial com parâmetro m
• Tempo que ainda falta independe do tempo que já esteve em
serviço
• Estado futuro não depende do estado passado
Apresentacao derivada dos slides originais de Virgilio Almeida
Propriedade Memoryless
• Distribuição exponencial é a única
distribuição contínua que tem a
propriedade memoryless
• Por sua vez, distribuição geométrica
é a única discreta que tem a propriedade
memoryless
Apresentacao derivada dos slides originais de Virgilio Almeida
Outras Distribuições Contínuas
• Weibull
• Lognormal
• Pareto
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição de Weibull
A va contínua T tem uma distribuição de
Weibull se a pdf é
f (t )  at
a 1  t a
F (t )  1  e
e
 t a
Onde os parâmetros satisfazem t0  > 0 a > 0
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição Lognormal
Uma va X tem uma distribuição
lognormal se a va Y = ln(X) X  eY tem
uma distribuição normal com a pdf
resultante com parâmetros m e 
 1

f ( x; m ,  )   2 x e
0

  ln( x ) m 2
( 2 2 )
x0
x0
Muito utilizada para modelar duracao de sessao de usuarios em
servicos web
Apresentacao derivada dos slides originais de Virgilio Almeida
Média e Variância
A média e variância de uma va X que
tem uma distribuição lognormal são:
E( X )  e
m  2 / 2
V (X )  e
2 m  2
e
2

1
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição Lognormal
m=1
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição de Pareto
• Uma das distribuições heavy
tailed.
ab a
f ( x)  ( a 1)  ab a x ( a 1)
x
x 1
Apresentacao derivada dos slides originais de Virgilio Almeida
High Variability Phenomena
Walter Willinger
AT&T Labs-Research
[email protected]
Apresentacao derivada dos slides originais de Virgilio Almeida
Motivation
• Internet is full of “high variability”
– Link bandwidth: Kbps – Gbps
– File sizes: a few bytes – Mega/Gigabytes
– Flows: a few packets – 100,000+ packets
– In/out-degree (Web graph): 1 – 100,000+
– Delay: Milliseconds – seconds and beyond
• How to deal with “high variability”
– High variability = large, but finite variance
– High variability = infinite variance
Apresentacao derivada dos slides originais de Virgilio Almeida
A Working Definition
• A distribution function F(x) or random variable X is
called heavy-tailed if for some a0
P[ X  x]  1  F ( x)  cx a , x  
•
•
•
•
where c>0 and finite
F is also called a power law or scaling distribution
The parameter a is called the tail index
1< a < 2, F has infinite variance, but finite mean
0 < a < 1, the variance and mean of F are infinite
Complementary CDFs
10
log(1-F(x))
10
10
10
10
0
-1
-2
-3
Lognormal(0,1)
Gamma(.53,3)
Exponential(1.6)
Weibull(.7,.9)
ParetoII(1,1.5)
ParetoI(0.1,1.5)
-4
10
-1
10
0
10
log(x)
1
10
2
20th Century’s 100 largest disasters worldwide
2
10
Technological ($10B)
Log(rank)
Natural ($100B)
Most 101
events are
small
US Power outages
(10M of customers)
0
10
-2
10
-1
0
10
But the large
events are huge
10
Log(size)
Erlang: Soma de Exponenciais
• Genericamente: X1, X2, ... Xr, todas independentes e seguindo
exponencial():
Z = X1 + X2 + ... Xr  Erlang de n estágios
• Ex: tempo de processamento dividido em várias (r) etapas. A
duração de cada etapa é exponencialmente distribuída
com mesmo 
Exp()
Exp()
Exp()
Exp()
1
2
3
r
Erlang(r,)
• Se Xi  exponencial (i), onde i são diferentes
Z = X1 + X2 + ... Xr  Hipoexponencial
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição de Erlang
• As pdf e CDF de uma variavel X que tem distribuicao
Erlang com parametros  e r são:
f ( x) 
r 1  x
x e
r
(r  1)!
(x) k x
F ( x) 1  
e
k!
k 0
r 1
for x > 0 and r = 1, 2 , …
Apresentacao derivada dos slides originais de Virgilio Almeida
Exercícios
• O tempo de CPU de um query típico medida em ms segue uma
distribuição de Erlang de três estágios com  = 0.5. Determine
qual a probabilidade que a demanda de CPU da query
excederá 1 milisegundo.
• O tempo de vida em dias de um componente de software é
modelado por uma distribuição de Weibull com a = 2. A partir de
um grande número de componentes, foi observado que 15%
dos componentes que duraram mais de 90 dias falharam antes
de 100 dias. Determine o parâmetro 
Apresentacao derivada dos slides originais de Virgilio Almeida
Solução #1
• O tempo de CPU de um query típico medida em ms segue uma
distribuição de Erlang de três estágios com  = ½. Determine
qual a probabilidade que a demanda de CPU da query
excederá 1 milisegundo.
(  x ) i  x
FX ( x) 1  (
)e
i!
i 0
P( X  1) 1  P( X  1) 1  FX (1)
2
1 1
 (1   ) e
2 8
1
( )
2
 0.9856
Apresentacao derivada dos slides originais de Virgilio Almeida
Solução #2
•
O tempo de vida em dias de um componente de software é
modelado por uma distribuição de Weibull com a = 2. A partir de
um grande número de componentes, foi observado que 15% dos
componentes que duraram mais de 90 dias falharam antes de 100
dias. Determine o parâmetro 
FX ( x) 1  e
 x 2
P( X  100 | X  90)  0.15
P (90  X  100)

P( X  90)
FX (100)  FX (90)

1  FX (90)

e
  ( 90) 2
e
  (100) 2
  ( 90) 2
 0.15
e
  0.00008554
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição dos Mínimos
• Sistema composto de n componentes. Sistema funciona se
todos componentes estão operando corretamente
• Tempo de falha : X1, X2, ...., Xn exponencial ()
• Tempo de de vida do sistema Z = min (X1, X2, ...., Xn)
P(Z  z) = P (pelo menos um Xi  z) = ?
P (exatamente um Xi  z) = ?
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição dos Mínimos
• Sistema composto de n componentes. Sistema funciona se
todos componentes estão operando corretamente
• Tempo de falha : X1, X2, ...., Xn exponencial ()
• Tempo de de vida do sistema Z = min (X1, X2, ...., Xn)
P(Z  z) = P (pelo menos um Xi  z) = ?
P (exatamente um Xi  z) = ?
n
n 1
P(exatamente um X i  z )    FX ( z )1  FX ( z ) 
1
n
 z
 z n 1
   1  e
1  (1  e )
1



Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição dos Mínimos
• P(Z  z) = P (pelo menos um Xi  z)
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição dos Mínimos
• P(Z  z) = P (pelo menos um Xi  z)
n
n j
j
P( pelo menos um X i  z )    FX ( z )  1  FX ( z ) 
j 1  j 
n
n
 z n  j
 z j
e
    1  e
j 1  j 
n
 

Z tem distribuição
exponencial com
parâmetro n
n j
n j
    p 1  p 
j 1  j 
n
n j
n j
    p 1  p 
j 0  j 
p = (1-e-z)
n
n 0
n
  p 1  p 
0
 
 1 (1  p )  1  1  1  e
n
 z

n
 1  e nz
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição dos Máximos
• n tarefas independentes : X1, X2, ...., Xn: exponencial ()
• Tempo de resposta = tempo de execução da tarefa mais longa
Z = max (X1, X2, ...., Xn)
– Ex: tempo de resposta de máquina de busca composta
de n processadores executando em paralelo. Cada
máquina processa consulta em uma partição do dicionário
Front-end:
atraso desprezível
Apresentacao derivada dos slides originais de Virgilio Almeida
Distribuição dos Máximos
• n tarefas independentes : X1, X2, ...., Xn: exponencial ()
• Tempo de resposta = tempo de execução da tarefa mais
longa
Z = max (X1, X2, ...., Xn)
P( Z  z )  P(max( X i )  z )
 P( X 1  z  X 2  z  ...  X n  z )
 P( X n  z ) P( X 2  z )... P( X n  z )
 (1  e z )(1  e z )...(1  e z )  (1  e z ) n
Apresentacao derivada dos slides originais de Virgilio Almeida
Gerando Distribuições
• Como gerar amostras de uma distribuição a
partir de um gerador de números
aleatórios uniformemente distribuídos
(Unix: random(), drand48())?
Apresentacao derivada dos slides originais de Virgilio Almeida
Gerando Distribuições
Gerador de números aleatórios
retorna valor entre 0 e 1. Ex: 0.52
0.8
F(X) = P(X < x)
Z: uniforme (0,1)
1
0.6
X: distribuição que
você quer gerar
0.4
0.2
0
0
20
40
60
80
100
x
Aplicando o número aleatório na função inversa de F(X),
consegue-se gerar um ponto amostral
Apresentacao derivada dos slides originais de Virgilio Almeida
Gerando Distribuições
Ex: geração de amostras de uma distribuição exponencial
F(X) = 1 – e-x
Y = F-1(X) = - 1/ ln(1 – Z), onde Z  uniforme(0,1)
F(Z  z) = z
F(Y) = P(Y  y) = P(- 1/ ln(1 – Z)  y )
= P (ln(1 – Z)  -y)
= P( 1 – Z  e-y)
= P(Z  1 - e-y ) = 1 - e-y
 Y é exponencial
O mesmo procedimento pode ser utilizado para gerar
amostras de diferentes distribuições, partindo da
inversa da CDF da distribuição
desejada
Apresentacao derivada dos slides originais de Virgilio Almeida
Download