Probabilidade e Estatística para Avaliação de Desempenho Carlos Alberto Kamienski [email protected] Probabilidade e Estatística Variável aleatória Eventos independentes Distribuição de probabilidade e densidade Média ou valor esperado Variância e desvio padrão Amostragem e estimação de parâmetros Intervalo de confiança Variável Aleatória Mapeamento de um evento (resultado de um experimento aleatório) em um número Exemplos: X = estado do servidor: 1 ativo, 0 inativo Y = número de pacotes IP por intervalo de tempo Z = atraso estabelecimento conexão TELNET Experimento: lançar um dado A = valor facial B = 0 valor 3 1 valor 4 C = 0 valor par 1 valor ímpar Variáveis Discretas e Contínuas Uma variável aleatória é discreta se o número de resultados possíveis é finito ou pode ser contado Variáveis aleatórias discretas são determinadas por uma contagem -2 -1 0 1 2 Uma variável aleatória é contínua se pode assumir qualquer valor dentro de determinado intervalo O número de resultados possíveis não pode ser listado Variáveis aleatórias contínuas são determinadas por uma medição Número de resultados infinitos Eventos independentes Dois eventos são independentes a ocorrência de um não afeta a probabilidade do outro A existência ou não de relação de dependência pode modificar conclusões de uma simulação Eventos dependentes Número de pacotes que chegam em um roteador Número de pacotes descartados Eventos independentes Número de chamadas que chegam a um central telefônica Duração das chamadas Distribuição de probabilidade Descreve a chance que uma variável pode assumir ao longo de um espaço de valores A soma de todas as probabilidades deve ser 1 Variável discreta Tabela especificando a probabilidade de que a variável assuma cada um dos valores possíveis Variável contínua Função especificando a probabilidade de que a variável assuma um valor em cada um dos intervalos possíveis Distribuição discreta de probabilidade Determina o comportamento de uma variável aleatória discreta, atribuindo probabilidades a todos os possíveis valores Exemplo: variável X (estado do servidor) P[X=1] = p1 P[X=0] = p2 O conjunto {p1, p2} é a distribuição de probabilidade da variável aleatória discreta X Função acumulada e densidade No caso de variáveis contínuas, define-se uma função de distribuição acumulada FX(x) que determinada a probabilidade da variável assumir um valor menor ou igual a um determinado valor x x FX ( x) P( X x) f X (u)du onde, fX(x) é a função de densidade de probabilidade ou somente densidade Distribuição de Poisson Parâmetro: (média) e x P[ x] , 0 x! Utilização: Número de chegadas em um determinado tempo Número de chamadas telefônicas em um tempo t Número de conexões TCP em um tempo t Exemplo: X = número de conexões TELNET por hora Em determinado servidor = 3,5 P(X = 2) = 0,185 Distribuição de Poisson 0.25 Histogram of y 0.10 Density 0.15 0.20 = 10 0.00 0.05 Geração: R (http://www.r-project.org) 0 5 10 15 20 25 Distribuição Uniforme Parâmetros: a e b (limite inferir e superior) 1 , a xb f X ( x) ba 0, outros casos Utilização: Variável limitada sem informação adicional Direção de movimentação de um usuário em um rede celular Distância entre fonte e destino em uma rede Probabilidade de um pacote conter um erro Distribuição Uniforme 0.10 Histogram of y 0.00 0.02 0.04 Density 0.06 0.08 a=0 b = 10 0 2 4 6 8 10 Distribuição Exponencial Parâmetro: (média) f X ( x) e x , 0, x 0 0, outros casos Utilização: Tempos entre eventos sucessivos Tempo entre chamadas telefônicas Tempo entre requisições a um servidor TELNET Tempo entre falhas de um equipamento Distribuição Exponencial 0.08 Histogram of y 0.04 0.02 0.00 Density 0.06 = 10 0 20 40 60 80 100 120 Distribuição Normal (Gaussiana) Parâmetros: , (média e desvio padrão) 1 x 2 / 2 2 f ( x) e , 0 2 Utilização: Aleatoriedade causada por várias fontes independentes agindo em conjunto Erros em medições Distribuição Normal (Gaussiana) 0.4 Histogram of y 0.2 0.1 0.0 Density 0.3 Normal Padrão =0 =1 -4 -2 0 2 4 Média ou valor esperado A média denota o valor esperado de uma variável aleatória Média distribucional n E ( X ) pi xi xf X ( x)dx i 1 Média amostral (estimador) 1 n x i 1 xi n Variância e desvio padrão A média não dá informação sobre dispersão Ex: conjuntos {5,10,15} e {0,10,20}, com média 10 Variância e desvio padrão medem a dispersão dos dados em relação à média Variância amostral (estimador) 1 n i 1 ( xi x ) 2 n 2 Desvio padrão = Amostragem e estimação Os parâmetros reais geralmente são desconhecidos Ex: Qual a vazão de saída de um roteador? Os parâmetros são aproximados por amostragem, gerando estatísticas, como média e desvio padrão (amostral) Com k amostras de tamanho n de uma variável X, são geradas k médias (estimativas) Próximo passo: determinar uma única estimativa Intervalo de confiança Não é possível encontrar uma estimativa perfeita para a média a partir de um número finito de amostras de tamanho finito A melhor opção é obter limites probabilísticos: P(c1 c2) = 1 - é o nível de significância (menor é melhor) Intervalo de confiança é um intervalo que com alta probabilidade contém o parâmetro estimado Influenciado pelo número de amostras e pelo nível de confiança e pelo desvio padrão das amostras Intervalo de confiança ao nível 90%, 95%, 99%, etc. Intervalo de confiança 20 18 16 14 12 10 8 6 Minha proposta 4 Proposta concorrente 2 0 0 1 2 3 4 5 6 7 8 9 10 11 Intervalo de confiança 20 18 16 14 12 10 8 6 4 Minha proposta 2 Proposta concorrente 0 0 1 2 3 4 5 6 7 8 9 10 11 Intervalo de confiança 20 18 16 14 12 10 8 6 4 Minha proposta 2 Proposta concorrente 0 0 1 2 3 4 5 6 7 8 9 10 11 Processo de Estimação População Média, , é desconhecida Amostra Amostra Aleatória Média X = 50 Estou 95% confiante que está entre 40 e 60 Intervalo de Confiança de 95% 0.95 z.025= -1.96 z.025= 1.96 O que é o Intervalo de Confiança para a média? Uma maneira de expressar a incerteza de x como uma estimativa de x = média da amostra = média da população 95% do IC diz que em média, 95% das vezes, se você estimar um intervalo para , o valor verdadeiro de irá estar dentro do intervalo Intervalo de Confiança para a Média Estimação do Intervalo de Confiança ( CONHECIDO) xz n onde: z = valor crítico da tabela normal padrão = Desvio padrão n = tamanho da amostra Intervalo de Confiança para ( conhecido) Premissas O desvio padrão da população é conhecido A distribuição da população é Gaussiana Se não for, usar uma amostra muito grande Estimativa do Intervalo de Confiança X Z / 2 n X Z / 2 n Nível de Confiança Denotado por 100 1 % Interpretação baseada em freqüência relativa 100 1 % A longo prazo, de todos os intervalos de confiança que podem ser construídos podem conter o parâmetro desconhecido Um intervalo específico irá conter ou não conter o parâmetro Intervalo e nível de confiança Distribuição amostral da_Média Z / 2 X Intervalos variam de X Z X a X Z X /2 X 1 X Z / 2 X /2 X 1 100% dos intervalos construídos contém 100 % Intervalos de Confiança não contêm Fatores que afetam a largura do intervalo (precisão) Variação dos dados Medida por Tamanho da amostra X Extensão do intervalo X - Z x a X+Z x n Nível de confiança 100 1 % © 1984-1994 T/Maker Co. Using Other Confidence Levels A 100(1-α)% confidence interval for the mean µ of a normal population when the value of is known is given by [X / n , X+ / n] z / 2 z / 2 The most frequently used confidence levels are 95%, 99% and 90%. Their corresponding ’s are z / 2 Confidence level z / 2 95% 99% 90% 1.96 2.58 1.645 Structure of Confidence Intervals Lower Confidence Limit x z / 2 Upper Confidence Limit x x z / 2 n Margin of error m z / 2 Width of the CI 2 z / 2 n n n Interpreting a Confidence Interval True: 95% of samples will produce a CI [ 2/n X, + 2/ n ] that cover X the true mean µ every sample has a 95% chance of producing a CI that covers the truth. Wrong: there is a 95% chance that the true mean is in the interval [12.4, 13.2] . 95% of samples of size 100 will have sample means between 12.4 and 13.2.