Distribuições Comuns de Variáveis Aleatórias Discretas 1. 2. 3. 4. 5. 6. Constante Uniforme Bernoulli Binomial Geometrica Poisson Variável Aleatória Constante • pmf 1.0 c • CDF 1.0 c Distribuição Discreta Uniforme • A v.a. discreta X que assume n valores discretos com probabilidade pX(i) = 1/n, 1 i n • pmf 1 / n, se xi X p X ( xi ) 0, caso contrário t • CDF: t F (t ) p X (i ) n i 1 Variável de Bernoulli – V.A gerada por um experimento único de Bernoulli tem um resultado binário {1, 0} ou {sucesso, falha} – A v.a. binária X é chamada variável de Bernoulli tal que: –Função de massa de probabilidade: p P( X 1) q 1 p P( X 0) Distribuição de Bernoulli • CDF p+q=1 q 0.0 1.0 x Binomial • • • • • A v.a. X representa o numero de sucessos em uma sequencia de experimentos de Bernoulli. Todos experimentos são independentes. Cada resultado é um “sucesso” ou “falha”. A probabilidade de sucesso de um experimento é dado por p. A probabilidade de uma falha é 1- p. Uso do modelo: número de processadores “down” num cluster; número de pacotes que chegam ao destino sem erro. Distribuição Binomial A distribuição binomial com parâmetros n 0 and 0 < p < 1, is n x p( x) p (1 p)n x x Qual a média e variância???? Distribuição Binomial A distribuição binomial com parametros n 0 and 0 < p < 1, is n x p( x) p (1 p)n x x A média e variância da binomial são: np 2 np(1 p) V.A. Binomial: pmf pk V.A. Binomial: CDF 1.2 1 CDF 0.8 0.6 0.4 0.2 0 0 1 2 3 4 5 x 6 7 8 9 10 Distribuição Geométrica • Número de experimentos até incluir o 1o sucesso. • Em geral , S pode ter um tamanho infinitamente contável • Definir a v.a Z ( S): amostra: 0 i-1 1 = i • Por causa da independência: Geométrica • A distribuição geometrica é a única distribuição discreta que exibe a propriedade MEMORYLESS. • Resultados futuros são independentes de eventos passados. • Exemplo: Z: numero de experimentos ate sucesso. Ja observamos n experimentos: todos com falhas. Y: numero de experimentos adicionais necessarios ate que um sucesso ocorra, i.e. Z = n+Y ou Y=Z-n Geométrica: ausência de memória • Y=Z-n P (Y i | Z n) P ( Z n i | Z n) P ( Z n i | Z n) P ( Z n i and Z n) P ( Z n) P ( Z n i ) P ( Z n i ) pZ (n i ) P ( Z n) 1 FZ (n) 1 FZ (n) pq n i 1 i 1 pq pZ (i ) n 1 (1 q ) V.A. Geometrica • Exercício: Mostre que P ( x) 1 x 1 X and 1 E ( x) p VA Poisson • Número de eventos independentes que ocorrem em um intervalo de tempo (veja discussão em Ross, 4.8) • Número de chegadas em um servidor em 1 hora • Número de erros de impressão em uma página de um livro • = # médio de eventos que ocorrem no período • Aproximação para VA Binomial com n grande e p pequeno (Ross) • Se X = Binomial(n,p), X Poisson( = np) Poisson: propriedades • Considere que um servidor espera receber 100 transações em um minuto: – = 100 (constante) • Espera-se que: – O início de cada transação é independente dos outros; – Para cada pequeno intervalo de tempo t, a probabilidade de uma nova transação chegar é t – A probabilidade de chegar duas transações ao mesmo tempo é zero! • O processo de Poisson tem as propriedades acima • A VA X~Poisson representa o numero de transacoes que chegam durante um periodo t. VA Poisson: Aplicacao • A v.a. de Poisson é boa para modelar vários fenômenos, como o número de transações que chega num servidor em uma hora, ou o número de queries que chega numa máquina de busca em 1 minuto ou número de pacotes que chega num roteador em 1 segundo. • Muito comumente usado para modelar chegada de sessões de usuários – servidores Web, multimídia, banco de dados, ftp, e-mail • Sessões são iniciadas por usuários – Chegada de duas sessões tendem a ser independentes: Poisson é uma boa aproximação • Contra-exemplo: – Chegada de requisições em um servidor Web – Premissa de independência não é válida: existe dependência entre requisições para o arquivo HTML e as imagens embutidas nele Distribuição de Poisson • Função de massa de probabilidade (pmf): k ( t ) pk PN (t ) k e t k! • CDF: ( t ) F x e k 0 k! x t k Poisson pmf pk t=1.0 Poisson CDF CDF 1 t=1.0 0.5 0.1 1 2 3 4 5 6 7 8 9 10 t Poisson pmf pk t=4.0 t=4.0 Poisson CDF CDF 1 t=4.0 0.5 0.1 1 2 3 4 5 6 7 8 9 10 t Poisson • Uma v.a. de Poisson X tem sua pmf:: P( X x) x x! e x 0,1, 2,... Onde > 0 é uma constante E(X)= Var(X) = Search Algorithms: Is the WebGraph a Random graph? No! • Random graph Gn,p: – n nodes – Every directed edge occurs with probability p • Is the Web-graph a random graph Gn,p? • The probability of high degrees decrease exponentially • In a random graph degrees are distributed according to a Poisson distribution • Therefore: The degree of a random graph does not obey a power law (observed for web graphs) Exercícios 1. Considere que o número de mails que chegam a um servidor de mails no intervalo t segundos é distribuído como Poisson com parâmetro 0.3t Calcule a seguintes probabilidades: – – – 2. Exatamente tres mensagens chegarão num intervalo de 10 seg. No máximo 20 msgs chegarão num período de 20seg. O número de msgs num intervalo de 5 seg está entre 3 e 7 mails. A probabilidade de um query falhar (não ser bem sucedido) é 10(-4). Qual a probabilidade de falharem mais de 3 queries numa sequência de 1000 queries? Solução 1) k (0.3t ) 0.3t P( Xt k ) e k! 2) P(X10 = 3) = 0.224 3) P(X20 20) = 0.973 7 4) k (1.5) ( 1.5) P(3 X 5 7) e 0.1909 k! k 3 Solução 1000 4 i (10 ) (1 104 )1000i P(# erros 3) 4 i 1000 • 2) 1000 4 i (10 ) (1 104 )1000i 3.825 *10 6 P(# erros 3) 1 0 i 3 Distribuições Discretas • Zipf() – Comumente usada quando a distribuição é altamente concentrada em poucos valores • Popularidade de arquivos em servidores Web/multimídia – 90% dos acessos são para 10% dos arquivos • Popularidade de palavras na língua inglesa – Seja i, o elemento que ocupa a i-esima posição no ranking de concentração C P( X i ) i i 1,2,... C é a constante de normalização Zipf: lei das Potências Distribuição Zipf • Modela popularidade dos remetentes de e-mails para a UFMG Distribuições de Variáveis Aleatórias Contínuas • • • • • • Normal Exponencial Weibull Lognormal Pareto .... Distribuições de Variáveis Aleatórias Contínuas • Variáveis aleatórias contínuas – – – – Assumem um intervalo infinito de diferentes valores W=% percentual de crescimento do PIB em 2005 V=tempo para retornar a resposta de um “query” Valores específicos-particulares de uma v.a. contínua tem probabilidade 0 – Intervalos de valores tem probabilidade 0 Função Densidade de Probabilidade Para f (x) ser uma pdf 1. f (x) > 0 x. 2.A area da região entre o grafico de f e o eixo do x é igual a 1. y f ( x) Area = 1 Distribuição de Probabilidade Seja X uma va contínua. Então a a função de probabilidade (pdf) de X é uma função f (x) tal que para dois números quaisquer a and b, P a X b f ( x)dx b a O gráfico de f é a curva de densidade. PDF P(a X b) é dada pela área da função sombreada. y f ( x) a b Distribuição Normal (Gaussiana) • Distribuição mais comum na análise de dados • pdf is: ( x )2 1 2 2 f ( x) 2 • -x + • Média é , desvio padrão e Notação para Distribuições Gaussianas • Geralmente denotada N(,) • Normal unitária é N(0,1) • Se x tem N(,), x tem N(0,1) • O -quantil de uma normal unitária z ~ N(0,1) é denotado por z tal que x z ) P( x) z P( Parâmetros • A distribuição de v.a. contínua contém toda a informação que a estatística pode descobrir sobre ela – Distribuição pode ser expressa pela pdf ou CDF Parâmetros • Geralmente a informação existente numa distribuição pode ser excessiva para ser processada • Quando isso é verdade, nós queremos sumarizar as métricas de informção: – – – – Média Variancia Mediana Percentis • São também chamados de parâmetros de uma distribuição Distribuição Normal • Função de densidade – Dois parâmetros, e – Assim se X é distribuído com uma normal: X ~ N , 2 EX V X 2 Normal • Função de densidade para =0, =1 0.45 0.4 0.35 f(x) 0.3 0.25 0.2 0.15 0.1 0.05 0 -5 -4 -3 -2 -1 -6E-14 x 1 2 3 4 5 Normal • Função de densidade para =1 0.45 =2 0.4 0.35 0.3 0.25 0.2 0.15 =5 0.1 0.05 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 Normal • Funções de densidade para =1 0.45 0.4 =1 =2 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 Distribuicao Exponencial • Quantidade de tempo até que determinado evento ocorra f X x e - λx FX x 1 e λx for x 0 for x 0 = taxa de chegadas 1/ = tempo médio entre chegadas Exemplo: v.a. exponencial • pdf: f ( x) e , x 0 x • CDF: F ( x) 1 e f(x) x pdf x • v.a. muito frequentemente usada em computacao • Modelos: – Tempo entre duas submissões de queries a uma maquina de busca – Tempo de execução de processos – Tempo entre chegadas de pacotes em um roteador – Tempo entre chegadas de sessões em um servidor Exponential distribution • Density 1.2 1 0.8 0.6 0.4 0.2 0 0 1 2 3 4 5 Distribuicao Exponencial P(X 1/ ) = 1 – e-1/ = 1 – 1/e E(X) = 1/ Var(X) = 1/2 SD(X) = 1/ CV(X) = 1 CV = 1 exponencial Distribuições Exponencial e Poisson • Seja uma distribuição Poisson que denote o número de eventos N(t) em um intervalo de tempo t • Seja T1 o momento do 1o evento • Seja Tn o tempo entre o (n-1)-esimo e o n-esimo eventos • Sequência {Tn, n=1, 2, ...}: tempos entre chegadas P(T1 t) = P(N(t) = 0) = e -t T1 exponencial() P(T2 t | T1 = s) = Prob (0 eventos em (s, s+t) | T1 = s) = Prob (0 eventos em (s, s+t)) (eventos Poisson são independentes) =e -t T2 exponencial() T1 , T2, ..., Tn são independentes e têm mesma distribuição exponencial() Distribuições Exponencial e Poisson Processo de Chegadas Poisson Tempo entre Chegadas Exponencial Independência entre eventos Distribuição Exponencial • Exponencial () : P ([ X t x] [ X t ]) P( X t x | X t ) P( X t ) P (t X t x) 1 P( X t ) P( X t x) P( X t ) Propriedade sem memória 1 P( X t ) (memoryless) 1 e ( t x ) (1 e t ) 1 (1 e t ) 1 e t e x 1 e t e t e t (1 e x ) x 1 e P( X x) t e Propriedade Memoryless • Tempo de residência R de um cliente depende do # de clientes na fila quando ele chega ao centro, nos tempos de serviços destes clientes e no tempo que o cliente que está sendo servido no momento de chegada ainda permanecerá em serviço. – Seja Xi a VA para o tempo de serviço de cliente i na CPU – Seja Xi: exponencial() para todos os clientes – Seja Y a VA que denota o tempo residual que o cliente que está em serviço no momento de chegada ainda permanecerá em serviço • Y também tem distribuição exponencial com parâmetro • Tempo que ainda falta independe do tempo que já esteve em serviço • Estado futuro não depende do estado passado Propriedade Memoryless • Distribuição exponencial é a única distribuição contínua que tem a propriedade memoryless • Por sua vez, distribuição geométrica é a única discreta que tem a propriedade memoryless Outras Distribuições Contínuas • Weibull • Lognormal • Pareto Distribuição de Weibull A va contínua T tem uma distribuição de Weibull se a pdf é f (t ) t 1 t F (t ) 1 e e t Onde os parâmetros satisfazem t0 > 0 > 0 Distribuição Lognormal Uma va X tem uma distribuição lognormal se a va Y = ln(X) X eY tem uma distribuição normal com a pdf resultante com parâmetros e 1 f ( x; , ) 2 x e 0 ln( x ) 2 ( 2 2 ) x0 x0 Muito utilizada para modelar duracao de sessao de usuarios em servicos web Média e Variância A média e variância de uma va X que tem uma distribuição lognormal são: E( X ) e 2 / 2 V (X ) e 2 2 e 2 1 Distribuição Lognormal =1 Distribuição de Pareto • Uma das distribuições heavy tailed. ab a f ( x) ( a 1) ab a x ( a 1) x x 1 High Variability Phenomena Walter Willinger AT&T Labs-Research [email protected] Motivation • Internet is full of “high variability” – – – – – Link bandwidth: Kbps – Gbps File sizes: a few bytes – Mega/Gigabytes Flows: a few packets – 100,000+ packets In/out-degree (Web graph): 1 – 100,000+ Delay: Milliseconds – seconds and beyond • How to deal with “high variability” – High variability = large, but finite variance – High variability = infinite variance A Working Definition • A distribution function F(x) or random variable X is called heavy-tailed if for some 0 P[ X x] 1 F ( x) cx , x where c>0 and finite • • • • F is also called a power law or scaling distribution The parameter is called the tail index 1< < 2, F has infinite variance, but finite mean 0 < < 1, the variance and mean of F are infinite Some Illustrative Examples • Some commonly-used plotting techniques – Probability density functions (pdf) – Cumulative distribution functions (CDF) – Complementary CDF (CCDF = 1- CDF) • Different plots emphasize different features – Main body of the distribution vs. tail – Variability vs. concentration – Uni- vs. multi-modal Probability density functions Cumulative Distribution Function 1 0.9 Lognormal(0,1) Gamma(.53,3) Exponential(1.6) Weibull(.7,.9) Pareto(1,1.5) 0.8 0.7 F(x) 0.6 0.5 0.4 0.3 0.2 0.1 0 0 2 4 6 8 10 x 12 14 16 18 20 Complementary CDFs 10 log(1-F(x)) 10 10 10 10 0 -1 -2 -3 Lognormal(0,1) Gamma(.53,3) Exponential(1.6) Weibull(.7,.9) ParetoII(1,1.5) ParetoI(0.1,1.5) -4 10 -1 10 0 10 log(x) 1 10 2 Why “Heavy Tails” Matter … • • • • Risk modeling (insurance) Load balancing (CPU, network) Job scheduling (Web server design) Towards a theory for the Internet … 20th Century’s 100 largest disasters worldwide 2 10 Technological ($10B) Log(rank) Natural ($100B) Most 101 events are small US Power outages (10M of customers) 0 10 -2 10 -1 0 10 But the large events are huge 10 Log(size) Distribuição de Erlang • Uma variável aleatória X que iguala o comprimento do intervalo até que r contagens ocorram num processo de Poisson com média > 0 tem uma v.a. de Erlang com parâmetros e r. As pdf e CDF de X são: f ( x) r 1 x x e r (r 1)! for x > 0 and r = 1, 2 , … (x) k x F ( x) 1 e k! k 0 r 1 Erlang: Soma de Exponenciais • Genericamente: X1, X2, ... Xr, todas independentes e exponencial(): Z = X1 + X2 + ... Xr Erlang de n estágios (z ) k z F (Z z) e k! k 0 r 1 z0 • Ex: tempo de processamento dividido em várias (r) etapas. A duração de cada etapa é exponencialmente distribuída com mesmo Exp() Exp() Exp() Exp() 1 2 3 r Erlang(r,) • Se Xi exponencial (i), onde i são diferentes Z = X1 + X2 + ... Xr Hipoexponencial Exercícios • O tempo de CPU de um query típico medida em ms segue uma distribuição de Erlang de três estágios com = 0.5. Determine qual a probabilidade que a demanda de CPU da query excederá 1 milisegundo. • O tempo de vida em dias de um componente de software é modelado por uma distribuição de Weibull com = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro Solução #1 • O tempo de CPU de um query típico medida em ms segue uma distribuição de Erlang de três estágios com = ½. Determine qual a probabilidade que a demanda de CPU da query excederá 1 milisegundo. ( x ) i x FX ( x) 1 ( )e i! i 0 P( X 1) 1 P( X 1) 1 FX (1) 2 1 1 (1 ) e 2 8 1 ( ) 2 0.9856 Solução #2 • O tempo de vida em dias de um componente de software é modelado por uma distribuição de Weibull com = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro FX ( x) 1 e x 2 P( X 100 | X 90) 0.15 P (90 X 100) P( X 90) FX (100) FX (90) 1 FX (90) e ( 90) 2 e (100) 2 ( 90) 2 e 0.00008554 0.15 Distribuição dos Mínimos • Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente • Tempo de falha : X1, X2, ...., Xn exponencial () • Tempo de de vida do sistema Z = min (X1, X2, ...., Xn) P(Z z) = P (pelo menos um Xi z) = ? P (exatamente um Xi z) = ? Distribuição dos Mínimos • Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente • Tempo de falha : X1, X2, ...., Xn exponencial () • Tempo de de vida do sistema Z = min (X1, X2, ...., Xn) P(Z z) = P (pelo menos um Xi z) = ? P (exatamente um Xi z) = ? n n 1 P(exatamente 1 X i z ) FX ( z )1 FX ( z ) 1 n z z n 1 1 e 1 (1 e ) 1 Distribuição dos Mínimos • P(Z z) = P (pelo menos um Xi z) Distribuição dos Mínimos • P(Z z) = P (pelo menos um Xi z) n n j j P ( pelo menos 1 X i z ) FX ( z ) 1 FX ( z ) j 1 j n n z n j z j 1 e e j 1 j n Z tem distribuição exponencial com parâmetro n n j n j p 1 p j 1 j n n j n j p 1 p j 0 j p = (1-e-z) n n 0 n p 1 p 0 1 (1 p ) 1 1 1 e n z n 1 e nz Distribuição dos Máximos • n tarefas independentes : X1, X2, ...., Xn: exponencial () • Tempo de resposta = tempo de execução da tarefa mais longa Z = max (X1, X2, ...., Xn) – Ex: tempo de resposta de máquina de busca composta de n processadores executando em paralelo. Cada máquina processa consulta em uma partição do dicionário Front-end: atraso desprezível Distribuição dos Máximos • n tarefas independentes : X1, X2, ...., Xn: exponencial () • Tempo de resposta = tempo de execução da tarefa mais longa Z = max (X1, X2, ...., Xn) P( Z z ) P(max( X i ) z ) P( X 1 z X 2 z ... X n z ) P( X n z ) P( X 2 z )... P( X n z ) (1 e z )(1 e z )...(1 e z ) (1 e z ) n Gerando Distribuições • Como gerar amostras de uma distribuição a partir de um gerador de números aleatórios uniformemente distribuídos (Unix: random(), drand48())? Gerando Distribuições Ex: geração de amostras de uma distribuição exponencial F(X) = 1 – e-x Y = F-1(X) = - 1/ ln(1 – Z), onde Z uniforme(0,1) F(Z z) = z F(Y) = P(Y y) = P(- 1/ ln(1 – Z) y ) = P (ln(1 – Z) -y) = P( 1 – Z e-y) = P(Z 1 - e-y ) = 1 - e-y Y é exponencial O mesmo procedimento pode ser utilizado para gerar amostras de diferentes distribuições, partindo da inversa da CDF da distribuição desejada Gerando Distribuições Gerador de números aleatórios retorna valor entre 0 e 1. Ex: 0.52 0.8 F(X) = P(X < x) Z: uniforme (0,1) 1 0.6 X: distribuição que você quer gerar 0.4 0.2 0 0 20 40 60 80 100 x Aplicando o número aleatório na função inversa de F(X), consegue-se gerar um ponto amostral Para-Casa (próxima aula!) • Converse com seu orientador, e traga um exemplo exepcionalmente bom ou ruim (de preferência) de apresentação e sumarização de dados de proceedings de conferências importantes de sua área. Prepare um texto de no máximo 1 folha com suas críticas e ou elogios ao métodos usados.