Estimating Population from Samples • Sample mean is a random variable Mean has some distribution Multiple sample means have “mean of means” • Knowing distribution of means can estimate error Apresentacao derivada dos slides originais de Virgilio Almeida Confidence Intervals • Sample mean value is only an estimate of the true population mean • Bounds c1 and c2 such that there is a high probability, 1-a, that the population mean is in the interval (c1,c2): Prob{ c1 < m < c2} =1-a where a is the significance level and 100(1-a) is the confidence level Confidence Interval of Sample Mean • Knowing where 90% of sample means fall, we can state a 90% confidence interval • Key is Central Limit Theorem: – Sample means are normally distributed – Only if independent – Mean of sample means is population mean m – Standard deviation (standard error) is n Apresentacao derivada dos slides originais de Virgilio Almeida Confidence Interval of Sample Mean Queremos c1 e c 2 tal que : P(c1 m c 2 ) 1 a Seja a media amostral x. Pelo teorema central do limite temos x ~ N ( m , Entao : P( xm 1 n P( z 1 a n 2 P( x z 1 a 2 z a ) 1 1 n a 1 n 2 m xz P( z 2 2 xm z a 1 a 2 ) P( z a 2 1 n a 2 xm z 1 n n a n ) ) 1a 2 mx z 1 a 2 n ) 1a ) 1a Se desconheci do, s - desvio padrao da amostra, serve como bom estimador Apresentacao derivada dos slides originais de Virgilio Almeida Estimating Confidence Intervals • Two formulas for confidence intervals – Large sample (over 30 observations from any distribution): z-distribution – Small sample from normally distributed population: t-distribution • Common error: using t-distribution for non-normal population – Central Limit Theorem often saves us Apresentacao derivada dos slides originais de Virgilio Almeida The z Distribution • Interval on either side of mean: s x z1a 2 n • Significance level a is small for large confidence levels • Tables of z are tricky: be careful! Apresentacao derivada dos slides originais de Virgilio Almeida Example of z Distribution • 35 samples: 10 16 47 48 74 30 81 42 57 67 7 13 56 44 54 17 60 32 45 28 33 60 36 59 73 46 10 40 35 65 34 25 18 48 63 • Sample mean x = 42.1. Standard deviation s = 20.1. n = 35 • 90% confidence interval is 20.1 42.1 (1.645) (36.5, 47.7) 35 Apresentacao derivada dos slides originais de Virgilio Almeida The t Distribution • Formula is almost the same: s x t 1 a ; n 1 2 n • Usable only for normally distributed populations! • But works with small samples Apresentacao derivada dos slides originais de Virgilio Almeida Example of t Distribution • 10 height samples: 148 166 170 191 187 114 168 180 177 204 • Sample mean x = 170.5. Standard deviation s = 25.1, n = 10 • 90% confidence interval is 251 . 170.5 (1.833) (156.0, 185.0) 10 • 99% interval is (144.7, 196.3) Apresentacao derivada dos slides originais de Virgilio Almeida Getting More Confidence • Asking for a higher confidence level widens the confidence interval – Counter-intuitive? • How tall is Fred? – 90% sure he’s between 155 and 190 cm – We want to be 99% sure we’re right – So we need more room: 99% sure he’s between 145 and 200 cm Apresentacao derivada dos slides originais de Virgilio Almeida Distribuições Comuns de Variáveis Aleatórias Discretas 1. 2. 3. 4. 5. 6. Constante Uniforme Bernoulli Binomial Geometrica Poisson Apresentacao derivada dos slides originais de Virgilio Almeida Variável Aleatória Constante • pmf 1.0 c • CDF 1.0 c Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição Discreta Uniforme • A v.a. discreta X que assume n valores discretos com probabilidade pX(i) = 1/n, 1 i n • pmf 1 / n, se xi X p X ( xi ) 0, caso contrário t • CDF: t F (t ) p X (i ) n i 1 Apresentacao derivada dos slides originais de Virgilio Almeida Variável de Bernoulli – V.A gerada por um experimento único de Bernoulli tem um resultado binário {1, 0} ou {sucesso, falha} – A v.a. binária X é chamada variável de Bernoulli tal que: –Função de massa de probabilidade: p P( X 1) q 1 p P( X 0) Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição de Bernoulli • CDF 0 p+q=1 q 0.0 1.0 x Apresentacao derivada dos slides originais de Virgilio Almeida Binomial • • • • • A v.a. X representa o numero de sucessos em uma sequencia de experimentos de Bernoulli. Todos experimentos são independentes. Cada resultado é um “sucesso” ou “falha”. A probabilidade de sucesso de um experimento é dado por p. A probabilidade de uma falha é 1- p. Uso do modelo: número de processadores “down” num cluster; número de pacotes que chegam ao destino sem erro. Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição Binomial A distribuição binomial com parâmetros n 0 and 0 < p < 1, is n x p( x) p (1 p)n x x A média e variância da binomial são: m np 2 np(1 p) Apresentacao derivada dos slides originais de Virgilio Almeida V.A. Binomial: pmf pk Apresentacao derivada dos slides originais de Virgilio Almeida V.A. Binomial: CDF 1.2 1 CDF 0.8 0.6 0.4 0.2 0 0 1 2 3 4 5 6 7 8 9 10 x Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição Geométrica • Número de experimentos até incluir o 1o sucesso. • Em geral , S pode ter um tamanho infinitamente contável • Definir a v.a Z ( S): amostra: 0 i-1 1 = i • Por causa da independência: P ( x) 1 x 1 X and 1 E ( x) p Apresentacao derivada dos slides originais de Virgilio Almeida Geométrica • A distribuição geometrica é a única distribuição discreta que exibe a propriedade MEMORYLESS. • Resultados futuros são independentes de eventos passados. • Exemplo: Z: numero de experimentos ate sucesso. Ja observamos n experimentos: todos com falhas. Y: numero de experimentos adicionais necessarios ate que um sucesso ocorra, i.e. Z = n+Y ou Y=Z-n Apresentacao derivada dos slides originais de Virgilio Almeida Geométrica: ausência de memória • Y=Z-n P (Y i | Z n) P ( Z n i | Z n) P ( Z n i | Z n) P ( Z n i and Z n) P ( Z n) P ( Z n i ) P ( Z n i ) pZ (n i ) P ( Z n) 1 FZ (n) 1 FZ (n) pq n i 1 i 1 pq pZ (i ) n 1 (1 q ) Apresentacao derivada dos slides originais de Virgilio Almeida VA Poisson • Número de eventos independentes que ocorrem em um intervalo de tempo (veja discussão em Ross, 4.8) • Número de chegadas em um servidor em 1 hora • Número de erros de impressão em uma página de um livro = # médio de eventos que ocorrem no período • Aproximação para VA Binomial com n grande e p pequeno (Ross) • Se X = Binomial(n,p), X Poisson( = np) Apresentacao derivada dos slides originais de Virgilio Almeida Poisson: propriedades • Considere que um servidor espera receber 100 transações em um minuto: – = 100 (constante) • Espera-se que: – O início de cada transação seja independente dos outros; – Para cada pequeno intervalo de tempo t, a probabilidade de uma nova transação chegar seja t – A probabilidade de chegar duas transações ao mesmo tempo seja zero! • O processo de Poisson tem as propriedades acima • A VA X~Poisson representa o numero de transacoes que chegam durante um periodo t. Apresentacao derivada dos slides originais de Virgilio Almeida VA Poisson: Aplicacao • A V.A. de Poisson é boa para modelar vários fenômenos, como o número de transações que chegam a um servidor em uma hora, ou o número de queries que chegam a uma máquina de busca em 1 minuto ou número de pacotes que chegam num roteador em 1 segundo. • Muito comumente usado para modelar chegada de sessões de usuários – servidores Web, multimídia, banco de dados, ftp, e-mail • Sessões são iniciadas por usuários – Chegada de duas sessões tendem a ser independentes: Poisson é uma boa aproximação • Contra-exemplo: – Chegada de requisições em um servidor Web – Premissa de independência não é válida: existe dependência entre requisições para o arquivo HTML e as imagens embutidas nele Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição de Poisson • Função de massa de probabilidade (pmf): k ( t ) pk PN (t ) k e t k! • CDF: ( t ) F x e k 0 k! x t k Apresentacao derivada dos slides originais de Virgilio Almeida Poisson • Uma v.a. de Poisson X tem sua pmf:: P( X x) x x! e x 0,1, 2,... Onde > 0 é uma constante E(X)= Var(X) = Apresentacao derivada dos slides originais de Virgilio Almeida Search Algorithms: Is the Web-Graph a Random graph? • Random graph Gn,p: – n nodes – every directed edge occurs with probability p • Is the Web-graph a random graph Gn,p? • In a random graph. degrees are distributed according to a Poisson distribution Apresentacao derivada dos slides originais de Virgilio Almeida Is the Internet (router-level) a random graph? • Em 1999, foi publicado um resultado supreendente sobre a topologia de roteadores da Internet [FFF99] • Distribuição segue lei de potência • Medidas de traceroute posteriores confirmaram resultados Slide inspirado na apresentação de Bruno Ribeiro: “Entendendo Redes Complexas através de Informação Experimental Incompleta: Mitos, Erros e Acertos”, WPerformance 2010 Apresentacao derivada dos slides originais de Virgilio Almeida Rede de roteadores da Internet • Porém, em 2003, mostrou-se que método traceroute produz amostras tendenciosas [Byers 2003]: • Verificado teoricamente Slide inspirado na apresentação de Bruno Ribeiro: “Entendendo Redes Complexas através de Informação Experimental Incompleta: Mitos, Erros e Acertos”, WPerformance Apresentacao derivada 2010 dos slides originais de Virgilio Almeida Exercícios 1. 2. Considere que o número de mails que chegam a um servidor de mails no intervalo t segundos é distribuído como Poisson com parâmetro 0.3t Calcule a seguintes probabilidades: – Exatamente tres mensagens chegarão num intervalo de 10 seg. – No máximo 20 msgs chegarão num período de 20seg. – O número de msgs num intervalo de 5 seg está entre 3 e 7 mails. A probabilidade de um query falhar (não ser bem sucedido) é 10(-4). Qual a probabilidade de falharem mais de 3 queries numa sequência de 1000 queries? Apresentacao derivada dos slides originais de Virgilio Almeida Solução k 1) (0.3t ) 0.3t P( Xt k ) e k! 2) P(X10 = 3) = 0.224 3) P(X20 20) = 0.973 4) 7 k (1.5) ( 1.5) P(3 X 5 7) e 0.1909 k! k 3 Apresentacao derivada dos slides originais de Virgilio Almeida Solução • 2) 1000 4 i (10 ) (1 104 )1000i P(# erros 3) 4 i 1000 1000 4 i (10 ) (1 104 )1000i 3.825 *10 6 P(# erros 3) 1 0 i 3 Apresentacao derivada dos slides originais de Virgilio Almeida Distribuições Discretas • Zipf(a) – Comumente usada quando a distribuição é altamente concentrada em poucos valores • Popularidade de arquivos em servidores Web/multimídia – 90% dos acessos são para 10% dos arquivos • Popularidade de palavras na língua inglesa – Seja i, o elemento que ocupa a i-esima posição no ranking de concentração C P( X i ) a i i 1,2,... C é a constante de normalização Zipf: lei das Potências Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição Zipf • Modela popularidade dos remetentes de e-mails para a UFMG Apresentacao derivada dos slides originais de Virgilio Almeida Distribuições de Variáveis Aleatórias Contínuas • • • • • • Normal Exponencial Weibull Lognormal Pareto .... Apresentacao derivada dos slides originais de Virgilio Almeida Distribuições de Variáveis Aleatórias Contínuas • Variáveis aleatórias contínuas – Assumem um intervalo infinito de diferentes valores – W=% percentual de crescimento do PIB em 2005 – V=tempo para retornar a resposta de um “query” – Valores específicos-particulares de uma v.a. contínua tem probabilidade 0 – Intervalos de valores tem probabilidade 0 Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição Normal (Gaussiana) • Distribuição mais comum na análise de dados • pdf is: ( x m )2 1 2 2 f ( x) 2 e • -x + • Média é m , desvio padrão Apresentacao derivada dos slides originais de Virgilio Almeida Notação para Distribuições Gaussianas • Geralmente denotada N(m,) • Normal unitária é N(0,1) xm • Se x tem N(m,), tem N(0,1) • O a-quantil de uma normal unitária z ~ N(0,1) é denotado por za tal que P( x m ) z P( x ) m z a a a Apresentacao derivada dos slides originais de Virgilio Almeida Normal • Função de densidade para m=0, =1 0.45 0.4 0.35 f(x) 0.3 0.25 0.2 0.15 0.1 0.05 0 -5 -4 -3 -2 -1 -6E-14 1 2 3 4 5 x Apresentacao derivada dos slides originais de Virgilio Almeida Normal • Função de densidade para =1 0.45 m=2 0.4 0.35 0.3 0.25 0.2 0.15 m=5 0.1 0.05 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 Apresentacao derivada dos slides originais de Virgilio Almeida Normal • Funções de densidade para m=1 0.45 0.4 =1 =2 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 Apresentacao derivada dos slides originais de Virgilio Almeida Distribuicao Exponencial • Quantidade de tempo até que determinado evento ocorra f X x e for x 0 - λx FX x 1 e λx for x 0 = taxa de chegadas 1/ = tempo médio entre chegadas Apresentacao derivada dos slides originais de Virgilio Almeida Exemplo: v.a. exponencial • pdf: • CDF: f ( x) e x F ( x) 1 e ,x 0 x f(x) pdf x • V.A. muito frequentemente usada em computacao • Modelos: – Tempo entre duas submissões de queries a uma maquina de busca – Tempo de execução de processos – Tempo entre chegadas de pacotes em um roteador – Tempo entre chegadas de sessões em um servidor Apresentacao derivada dos slides originais de Virgilio Almeida Exponential distribution • Density 1.2 1 0.8 0.6 0.4 0.2 0 0 1 2 3 4 5 Apresentacao derivada dos slides originais de Virgilio Almeida Distribuicao Exponencial P(X 1/ ) = 1 – e-1/ = 1 – 1/e E(X) = 1/ Var(X) = 1/2 SD(X) = 1/ CV(X) = 1 CV = 1 exponencial Apresentacao derivada dos slides originais de Virgilio Almeida Distribuições Exponencial e Poisson • Seja uma distribuição Poisson que denote o número de eventos N(t) em um intervalo de tempo t • Seja T1 o momento do 1o evento • Seja Tn o tempo entre o (n-1)-esimo e o n-esimo eventos • Sequência {Tn, n=1, 2, ...}: tempos entre chegadas P(T1 t) = P(N(t) = 0) = e -t T1 exponencial() P(T2 t | T1 = s) = Prob (0 eventos em (s, s+t) | T1 = s) = Prob (0 eventos em (s, s+t)) (eventos Poisson são independentes) =e -t T2 exponencial() T1 , T2, ..., Tn são independentes e têm mesma distribuição exponencial() Apresentacao derivada dos slides originais de Virgilio Almeida Distribuições Exponencial e Poisson Processo de Chegadas Poisson Tempo entre Chegadas Exponencial Independência entre eventos Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição Exponencial • Exponencial () : P ([ X t x] [ X t ]) P( X t x | X t ) P( X t ) P (t X t x) 1 P( X t ) P( X t x) P( X t ) Propriedade sem memória 1 P( X t ) (memoryless) 1 e ( t x ) (1 e t ) 1 (1 e t ) 1 e t e x 1 e t e t e t (1 e x ) x 1 e P( X x) t e Apresentacao derivada dos slides originais de Virgilio Almeida Propriedade Memoryless • Tempo de residência R de um cliente depende do # de clientes na fila quando ele chega ao centro, nos tempos de serviços destes clientes e no tempo que o cliente que está sendo servido no momento de chegada ainda permanecerá em serviço. – Seja Xi a VA para o tempo de serviço de cliente i na CPU – Seja Xi: exponencial(m) para todos os clientes – Seja Y a VA que denota o tempo residual que o cliente que está em serviço no momento de chegada ainda permanecerá em serviço • Y também tem distribuição exponencial com parâmetro m • Tempo que ainda falta independe do tempo que já esteve em serviço • Estado futuro não depende do estado passado Apresentacao derivada dos slides originais de Virgilio Almeida Propriedade Memoryless • Distribuição exponencial é a única distribuição contínua que tem a propriedade memoryless • Por sua vez, distribuição geométrica é a única discreta que tem a propriedade memoryless Apresentacao derivada dos slides originais de Virgilio Almeida Outras Distribuições Contínuas • Weibull • Lognormal • Pareto Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição de Weibull A va contínua T tem uma distribuição de Weibull se a pdf é f (t ) at a 1 t a F (t ) 1 e e t a Onde os parâmetros satisfazem t0 > 0 a > 0 Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição Lognormal Uma va X tem uma distribuição lognormal se a va Y = ln(X) X eY tem uma distribuição normal com a pdf resultante com parâmetros m e 1 f ( x; m , ) 2 x e 0 ln( x ) m 2 ( 2 2 ) x0 x0 Muito utilizada para modelar duracao de sessao de usuarios em servicos web Apresentacao derivada dos slides originais de Virgilio Almeida Média e Variância A média e variância de uma va X que tem uma distribuição lognormal são: E( X ) e m 2 / 2 V (X ) e 2 m 2 e 2 1 Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição Lognormal m=1 Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição de Pareto • Uma das distribuições heavy tailed. ab a f ( x) ( a 1) ab a x ( a 1) x x 1 Apresentacao derivada dos slides originais de Virgilio Almeida High Variability Phenomena Walter Willinger AT&T Labs-Research [email protected] Apresentacao derivada dos slides originais de Virgilio Almeida Motivation • Internet is full of “high variability” – Link bandwidth: Kbps – Gbps – File sizes: a few bytes – Mega/Gigabytes – Flows: a few packets – 100,000+ packets – In/out-degree (Web graph): 1 – 100,000+ – Delay: Milliseconds – seconds and beyond • How to deal with “high variability” – High variability = large, but finite variance – High variability = infinite variance Apresentacao derivada dos slides originais de Virgilio Almeida A Working Definition • A distribution function F(x) or random variable X is called heavy-tailed if for some a0 P[ X x] 1 F ( x) cx a , x • • • • where c>0 and finite F is also called a power law or scaling distribution The parameter a is called the tail index 1< a < 2, F has infinite variance, but finite mean 0 < a < 1, the variance and mean of F are infinite Complementary CDFs 10 log(1-F(x)) 10 10 10 10 0 -1 -2 -3 Lognormal(0,1) Gamma(.53,3) Exponential(1.6) Weibull(.7,.9) ParetoII(1,1.5) ParetoI(0.1,1.5) -4 10 -1 10 0 10 log(x) 1 10 2 20th Century’s 100 largest disasters worldwide 2 10 Technological ($10B) Log(rank) Natural ($100B) Most 101 events are small US Power outages (10M of customers) 0 10 -2 10 -1 0 10 But the large events are huge 10 Log(size) Erlang: Soma de Exponenciais • Genericamente: X1, X2, ... Xr, todas independentes e seguindo exponencial(): Z = X1 + X2 + ... Xr Erlang de n estágios • Ex: tempo de processamento dividido em várias (r) etapas. A duração de cada etapa é exponencialmente distribuída com mesmo Exp() Exp() Exp() Exp() 1 2 3 r Erlang(r,) • Se Xi exponencial (i), onde i são diferentes Z = X1 + X2 + ... Xr Hipoexponencial Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição de Erlang • As pdf e CDF de uma variavel X que tem distribuicao Erlang com parametros e r são: f ( x) r 1 x x e r (r 1)! (x) k x F ( x) 1 e k! k 0 r 1 for x > 0 and r = 1, 2 , … Apresentacao derivada dos slides originais de Virgilio Almeida Exercícios • O tempo de CPU de um query típico medida em ms segue uma distribuição de Erlang de três estágios com = 0.5. Determine qual a probabilidade que a demanda de CPU da query excederá 1 milisegundo. • O tempo de vida em dias de um componente de software é modelado por uma distribuição de Weibull com a = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro Apresentacao derivada dos slides originais de Virgilio Almeida Solução #1 • O tempo de CPU de um query típico medida em ms segue uma distribuição de Erlang de três estágios com = ½. Determine qual a probabilidade que a demanda de CPU da query excederá 1 milisegundo. ( x ) i x FX ( x) 1 ( )e i! i 0 P( X 1) 1 P( X 1) 1 FX (1) 2 1 1 (1 ) e 2 8 1 ( ) 2 0.9856 Apresentacao derivada dos slides originais de Virgilio Almeida Solução #2 • O tempo de vida em dias de um componente de software é modelado por uma distribuição de Weibull com a = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro FX ( x) 1 e x 2 P( X 100 | X 90) 0.15 P (90 X 100) P( X 90) FX (100) FX (90) 1 FX (90) e ( 90) 2 e (100) 2 ( 90) 2 0.15 e 0.00008554 Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição dos Mínimos • Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente • Tempo de falha : X1, X2, ...., Xn exponencial () • Tempo de de vida do sistema Z = min (X1, X2, ...., Xn) P(Z z) = P (pelo menos um Xi z) = ? P (exatamente um Xi z) = ? Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição dos Mínimos • Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente • Tempo de falha : X1, X2, ...., Xn exponencial () • Tempo de de vida do sistema Z = min (X1, X2, ...., Xn) P(Z z) = P (pelo menos um Xi z) = ? P (exatamente um Xi z) = ? n n 1 P(exatamente um X i z ) FX ( z )1 FX ( z ) 1 n z z n 1 1 e 1 (1 e ) 1 Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição dos Mínimos • P(Z z) = P (pelo menos um Xi z) Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição dos Mínimos • P(Z z) = P (pelo menos um Xi z) n n j j P( pelo menos um X i z ) FX ( z ) 1 FX ( z ) j 1 j n n z n j z j e 1 e j 1 j n Z tem distribuição exponencial com parâmetro n n j n j p 1 p j 1 j n n j n j p 1 p j 0 j p = (1-e-z) n n 0 n p 1 p 0 1 (1 p ) 1 1 1 e n z n 1 e nz Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição dos Máximos • n tarefas independentes : X1, X2, ...., Xn: exponencial () • Tempo de resposta = tempo de execução da tarefa mais longa Z = max (X1, X2, ...., Xn) – Ex: tempo de resposta de máquina de busca composta de n processadores executando em paralelo. Cada máquina processa consulta em uma partição do dicionário Front-end: atraso desprezível Apresentacao derivada dos slides originais de Virgilio Almeida Distribuição dos Máximos • n tarefas independentes : X1, X2, ...., Xn: exponencial () • Tempo de resposta = tempo de execução da tarefa mais longa Z = max (X1, X2, ...., Xn) P( Z z ) P(max( X i ) z ) P( X 1 z X 2 z ... X n z ) P( X n z ) P( X 2 z )... P( X n z ) (1 e z )(1 e z )...(1 e z ) (1 e z ) n Apresentacao derivada dos slides originais de Virgilio Almeida Gerando Distribuições • Como gerar amostras de uma distribuição a partir de um gerador de números aleatórios uniformemente distribuídos (Unix: random(), drand48())? Apresentacao derivada dos slides originais de Virgilio Almeida Gerando Distribuições Gerador de números aleatórios retorna valor entre 0 e 1. Ex: 0.52 0.8 F(X) = P(X < x) Z: uniforme (0,1) 1 0.6 X: distribuição que você quer gerar 0.4 0.2 0 0 20 40 60 80 100 x Aplicando o número aleatório na função inversa de F(X), consegue-se gerar um ponto amostral Apresentacao derivada dos slides originais de Virgilio Almeida Gerando Distribuições Ex: geração de amostras de uma distribuição exponencial F(X) = 1 – e-x Y = F-1(X) = - 1/ ln(1 – Z), onde Z uniforme(0,1) F(Z z) = z F(Y) = P(Y y) = P(- 1/ ln(1 – Z) y ) = P (ln(1 – Z) -y) = P( 1 – Z e-y) = P(Z 1 - e-y ) = 1 - e-y Y é exponencial O mesmo procedimento pode ser utilizado para gerar amostras de diferentes distribuições, partindo da inversa da CDF da distribuição desejada Apresentacao derivada dos slides originais de Virgilio Almeida