Um pouco de Probabilidade e Estatística para Avaliação de

Probabilidade e Estatística
para Avaliação de Desempenho
Carlos Alberto Kamienski
[email protected]
Probabilidade e Estatística
Variável aleatória
Eventos independentes
Distribuição de probabilidade e densidade
Média ou valor esperado
Variância e desvio padrão
Amostragem e estimação de parâmetros
Intervalo de confiança
Variável Aleatória
Mapeamento de um evento (resultado de
um experimento aleatório) em um número
Exemplos:




X = estado do servidor: 1  ativo, 0  inativo
Y = número de pacotes IP por intervalo de tempo
Z = atraso estabelecimento conexão SSH
Experimento: lançar um dado
 A = valor facial
 B = 0  valor  3
1  valor  4
 C = 0  valor par 1  valor ímpar
Variáveis Discretas e Contínuas
Uma variável aleatória é discreta se o número de
resultados possíveis é finito ou pode ser contado

Variáveis aleatórias discretas são determinadas por uma
contagem
-2
-1
0
1
2
Uma variável aleatória é contínua se pode assumir
qualquer valor dentro de determinado intervalo


O número de resultados possíveis não pode ser listado
Variáveis aleatórias contínuas são determinadas por uma medição
Número de resultados infinitos
Eventos independentes
Dois eventos são independentes a ocorrência de
um não afeta a probabilidade do outro
A existência ou não de relação de dependência
pode modificar conclusões de uma simulação
Eventos dependentes

Número de pacotes que chegam em um roteador

Número de pacotes descartados
Eventos independentes

Número de chamadas que chegam a um central telefônica

Duração das chamadas
Distribuição de probabilidade
Descreve a chance que uma variável pode
assumir ao longo de um espaço de valores

A soma de todas as probabilidades deve ser 1
Variável discreta

Tabela especificando a probabilidade de que a
variável assuma cada um dos valores possíveis
Variável contínua

Função especificando a probabilidade de que a
variável assuma um valor em cada um dos
intervalos possíveis
Distribuição discreta de
probabilidade
Determina o comportamento de uma
variável aleatória discreta, atribuindo
probabilidades a todos os possíveis valores
Exemplo: variável X (estado do servidor)



P[X=1] = p1
P[X=0] = p2
O conjunto {p1, p2} é a distribuição de
probabilidade da variável aleatória discreta X
Função acumulada e densidade
No caso de variáveis contínuas, define-se
uma função de distribuição acumulada
FX(x) que determinada a probabilidade da
variável assumir um valor menor ou igual a
um determinado valor x
x
FX ( x)  P( X  x)   f X (u)du

onde, fX(x) é a função de densidade de
probabilidade ou somente densidade
Distribuição de Poisson
Parâmetro:  (média)
e   x
P[ x] 
, 0
x!
Utilização:



Número de chegadas em um determinado tempo
Número de chamadas telefônicas em um tempo t
Número de conexões TCP em um tempo t
Exemplo:



X = número de conexões SSH por hora
Em determinado servidor  = 3,5
P(X = 2) = 0,185
Distribuição de Poisson
(densidade)
0.25
Histogram of y
0.10
Density
0.15
0.20
 = 10
0.00
0.05
Geração: R
(http://www.r-project.org)
0
5
10
15
20
25
Distribuição de Poisson
title
(acumulada)
0.6
0.4
0.2
Geração: R
(http://www.r-project.org)
0.0
cumulative probabilities
0.8
1.0
 = 10
0
5
10
15
value
20
25
30
Distribuição Uniforme
Parâmetros: a e b (limite inferir e superior)
1

, a xb
 f X ( x) 
ba

0, outros casos
Utilização:




Variável limitada sem informação adicional
Direção de movimentação de um usuário em um
rede celular
Distância entre fonte e destino em uma rede
Probabilidade de um pacote conter um erro
Distribuição Uniforme
0.10
Histogram of y
0.00
0.02
0.04
Density
0.06
0.08
a=0
b = 10
0
2
4
6
8
10
Distribuição Exponencial
Parâmetro:  (média)
 f X ( x)  e  x ,   0, x  0

0, outros casos
Utilização:




Tempos entre eventos sucessivos
Tempo entre chamadas telefônicas
Tempo entre requisições a um servidor TELNET
Tempo entre falhas de um equipamento
Distribuição Exponencial
0.08
Histogram of y
0.04
0.02
0.00
Density
0.06
 = 10
0
20
40
60
80
100
120
Distribuição Normal (Gaussiana)
Parâmetros: ,  (média e desvio padrão)
1
 x   2 / 2 2
f ( x) 
e
,  0
 2
Utilização:


Aleatoriedade causada por várias fontes
independentes agindo em conjunto
Erros em medições
Distribuição Normal (Gaussiana)
0.4
Histogram of y
0.2
0.1
0.0
Density
0.3
Normal Padrão
=0
=1
-4
-2
0
2
4
Média ou valor esperado
A média denota o valor esperado de uma
variável aleatória
Média distribucional
n

  E ( X )   pi xi   xf X ( x)dx
i 1

Média amostral (estimador)
1 n
x  i 1 xi
n
Variância e desvio padrão
A média não dá informação sobre dispersão

Ex: conjuntos {5,10,15} e {0,10,20}, com média 10
Variância e desvio padrão medem a dispersão dos
dados em relação à média
Variância amostral (estimador)
1 n
  i 1 ( xi  x ) 2
n
2
Desvio padrão = 
Amostragem e estimação
Os parâmetros reais geralmente são
desconhecidos

Ex: Qual a vazão de saída de um roteador?
Os parâmetros são aproximados por
amostragem, gerando estatísticas, como
média e desvio padrão (amostral)
Com k amostras de tamanho n de uma
variável X, são geradas k médias (estimativas)
Próximo passo: determinar uma única
estimativa
Intervalo de confiança
Não é possível encontrar uma estimativa
perfeita para a média a partir de um número
finito de amostras de tamanho finito
A melhor opção é obter limites probabilísticos:
P(c1    c2) = 1 - 
 é o nível de significância (menor é melhor)
Intervalo de confiança é um intervalo que com
alta probabilidade contém o parâmetro estimado


Influenciado pelo número de amostras, pelo nível de
confiança e pelo desvio padrão das amostras
Intervalo de confiança ao nível 90%, 95%, 99%, etc.
Intervalo de confiança
20
18
16
14
12
10
8
6
Minha proposta
4
Proposta concorrente
2
0
0
1
2
3
4
5
6
7
8
9
10
11
Intervalo de confiança
20
18
16
14
12
10
8
6
4
Minha proposta
2
Proposta concorrente
0
0
1
2
3
4
5
6
7
8
9
10
11
Intervalo de confiança
20
18
16
14
12
10
8
6
4
Minha proposta
2
Proposta concorrente
0
0
1
2
3
4
5
6
7
8
9
10
11
Processo de Estimação
População
Média, , é
desconhecida
Amostra
Amostra Aleatória
Média
X = 50
Estou 95%
confiante que
 está entre
40 e 60
Intervalo de Confiança de 95%
0.95
z.025= -1.96
z.025= 1.96
Tabela Z da Distribuição Normal
O que é o Intervalo de Confiança
para a média?
Uma maneira de expressar a incerteza
de x como uma estimativa de 
x = média da amostra
 = média da população
95% do IC diz que em média, 95% das
vezes, se você estimar um intervalo
para , o valor verdadeiro de  irá estar
dentro do intervalo
Intervalo de Confiança para a Média
Estimação do Intervalo de Confiança 
( CONHECIDO)
xz

n
onde:
z = valor crítico da tabela normal padrão
 = Desvio padrão
n = tamanho da amostra
Intervalo de Confiança para 
( conhecido)
Premissas


O desvio padrão da população é conhecido
A distribuição da população é Gaussiana
 Se não for, usar uma amostra muito grande
Estimativa do Intervalo de Confiança
X  Z / 2

n
   X  Z / 2

n
Nível de Confiança
Denotado por 100 1    %
Interpretação baseada em freqüência
relativa

A longo prazo, 100 1    % de todos os
intervalos de confiança que podem ser construídos
podem conter o parâmetro desconhecido
Um intervalo específico irá conter ou não
conter o parâmetro
Intervalo e nível de confiança
Distribuição amostral da_Média
  Z / 2 X
Intervalos
variam de
X  Z X
a
X  Z X
 /2
X
1
X  
  Z / 2 X
 /2
X
1   100%
dos intervalos
construídos
contém 
100 %
Intervalos de Confiança não contêm
Fatores que afetam a
largura do intervalo (precisão)
Variação dos dados
 Medida por 
Tamanho da amostra


X 
Extensão do intervalo
X - Z
x
a X+Z
x
n
Nível de confiança

100 1    %
© 1984-1994 T/Maker Co.
Using Other Confidence Levels
A 100(1-α)% confidence interval for the mean µ of a
normal population when the value of  is known is given
by
[X 
/
n
, X+
/
n]
z / 2
z / 2
The most frequently used confidence levels are 95%, 99%
and 90%. Their corresponding
’s are
z / 2
Confidence level
z / 2
95%
99%
90%
1.96
2.58
1.645
Structure of Confidence Intervals
Lower Confidence Limit
x  z / 2

Upper Confidence Limit
x
x  z / 2
n
Margin of error
m  z / 2
Width of the CI  2 z / 2

n

n

n
Interpreting a Confidence Interval
True:


95% of samples will produce a CI
[  2/n X, + 2/
n ] that cover
X
the true mean µ
every sample has a 95% chance of
producing a CI that covers the truth.
Wrong:


there is a 95% chance that the true
mean is in the interval [12.4, 13.2] .
95% of samples of size 100 will
have sample means between 12.4
and 13.2.