Revisão estatística e probabilidade - DECOM-UFOP

Propaganda
Revisão estatística e
probabilidade
Prof. Anderson Almeida Ferreira
População
• População é o conjunto de elementos (indivíduos, objetos,
etc.) que formam o universo de nosso estudo e que são
passíveis de serem observados, sob as mesmas condições.
• Num processo de inspeção da qualidade, a população pode
ser considerada como o conjunto de todos os itens que saem
da linha de produção.
• Numa pesquisa de mercado, a
população é o conjunto de possíveis
consumidores.
Amostragem
• Grande parte das pesquisas científicas ou de resoluções de
problemas de engenharia são feitos por amostragem, ou seja,
observamos apenas um subconjunto de elementos da
população.
• A amostragem é particularmente interessante quando:
– a população é grande ou infinita.
– as observações ou mensurações têm alto custo.
– as medidas exigem testes
POPULAÇÃO: todos os
destrutivos.
possíveis consumidores
– necessidade de rapidez, etc.
amostragem
Amostra: um subconjunto dos
consumidores
inferência
População e Amostra
• População (ou universo): todos os N membros de
uma classe ou grupo.
– Ex.: todos os processos executados numa máquina
durante o período que esteve ativa.
• Amostra é uma parte da população, denotada
por n.
– Ex.: todos processos executados pela máquina em
18/03/2006
Variáveis
• Normalmente, estamos interessados em certas
características dos objetos de uma população.
Por exemplo:
–
–
–
–
Número de falhas;
Espessura de cada parede;
Sexo de um formando;
Idade com que um indivíduo se formou
• Uma característica pode ser categorizada, como
sexo ou tipo de defeito, ou pode ser de natureza
numérica.
Variáveis
• Uma variável é qualquer característica que cujo valor pode
mudar de um objeto para outro da população.
• Ou seja, uma variável, é o nome que se dá a um fenômeno
que pode ser medido e que varia conforme a medição.
• Se não variasse seria uma constante e não teria maior
interesse para a pesquisa.
• Normalmente, identificamos as variáveis com letras
minúsculas do final do alfabeto. Exemplo:
– x = marca da calculadora de um estudante
– y = número de defeitos graves em um automóvel recentemente
fabricado
– z = distância de frenagem de um automóvel sob condições
específicas
Variáveis
• Os dados resultam da observação de uma, ou de duas ou
mais variáveis simultaneamente.
• Univariados – observações sobre uma única variável.
Exemplos:
– Tipo de transmissão (A, M) de cada um dentre 10 automóveis
recentemente comprados
– Vida útil (horas) de baterias da marca D colocadas em
determinado uso
• Bivariados – observações feitas em cada uma de duas
variáveis. Exemplo:
– O par (altura, peso) de cada jogador de basquete de um time.
• Multivariados – quando são feitas observações sobre mais
de duas variáveis
Pesquisa Observacional e Experimental
• Numa pesquisa observacional (ou de levantamento) as
características de uma população são levantadas (observadas ou
medidas), mas sem manipulação.
– É o caso de um censo demográfico, pesquisas eleitorais, pesquisas de
mercado, inspeção da qualidade, etc.
– Em todos esses casos, se quer ter idéia de uma certa população tal qual ela é
na natureza ou no processo.
• Nas pesquisas experimentais, grupos de indivíduos (ou animais, ou
objetos) são manipulados para se avaliar o efeito de diferentes
tratamentos.
– É o caso de se verificar o rendimento de um processo químico para diferentes
temperaturas de reação, as quais são manipuladas de acordo com o interesse
prático.
Os métodos não são os mesmos
Estatística Descritiva
• É utilizada quando se deseja simplesmente resumir e
descrever características importantes de dados coletados
• Envolve:
– Coletar dados
– Apresentar dados
– Caracterizar dados
• Finalidade:
– Descrever dados
Estatística Inferencial
• É utilizada quando um investigador usa as informações da
amostra para tirar algum tipo de conclusão sobre a população
• Envolve:
– Estimativas
– Testes de Hipótese
• Finalidade:
– Tomar decisões sobre características da população de uma coleta
Terminologia
Variável Aleatória
• Uma variável aleatória (VA) x em um espaço amostral
S é uma função x: S que atribui um número real a
cada ponto amostral em S
• Ou seja, uma variável aleatória é uma variável que
recebe um valor numérico como resultado de um
experimento.
– Ex. Atrasos numa rede, tempo de resposta de um servidor,
tempo entre chegadas de clientes em um servidor, número
de tweets recebidos por uma conta experimental do Twitter
Média
• A média amostral
– Para um conjunto de números x1, x2, x3, ...xn,
n
x
x
i 1
i
n
– Para informar a média amostral recomenda-se o uso
de precisão decimal de um dígito a mais do que a
precisão dos xi.
• Média da população
–  = (soma dos N valores da população)/N
Mas cuidado com Média
Variância
• Considere-se as três séries de valores abaixo:
– <10, 12, 14, 9>
– <1, 20, 2, 22>
– <11, 11, 11, 12>
• É possível notar certa semelhança entre elas?
• Aparentemente são conjuntos bem diferentes.
• Mas todos têm a mesma média: 11,25.
Variância
• Essa observação do distanciamento dos
elementos em relação à média é chamada de
variância.
• Então, além da média, o pesquisador deve
ficar atento também à variância do conjunto
de valores, já que esta complementa a
caracterização do conjunto.
Cálculo da variância
• Para cada elemento, subtraia a média do
conjunto deste elemento:
<10-11,25, 12-11,25, 14-11,25, 9-11,25> = <-1,25, 0,75, 2,75, -2,25>
<1-11,25, 20-11,25, 2-11,25, 22-11,25> = <-10,25, 8,75, -9,25, 10,75>
<11-11,25, 11-11,25, 11-11,25, 12-11,25> = <-0,25, -0,25, -0,25, 0,75>
Agora, cada valor representa a distância do elemento para a média do
conjunto
• Eleve os valores resultantes ao quadrado:
<-1,252, 0,752, 2,752, -2,252> = <1,5625, 0,5625, 7,5625, 5,0625>
<-10,252, 8,752, -9,252, 10,752> = <105,0625, 76,5625, 85,5625, 115,5625>
<-0,252, -0,252, -0,252, 0,752> = <0,0625, 0,0625, 0,0625, 0,5625>
Isso faz com que todas as distâncias fiquem positivas e aumenta a influência de
elementos mais distantes da média.
• Some os resultados:
1,5625+0,5625+7,5625+5,0625
= 14,75
105,0625+76,5625+85,5625+115,5625 = 382,75
0,0625+0,0625+0,0625+0,5625
= 0,75
Isso gera um valor absoluto da variância acumulada
• Divida pelo número de elementos do conjunto
menos 1:
14,75/3 = 4,9166...
382,75/3 = 127,5833...
0,75/3
= 0,25
Isso gera a distância média, ou seja, independente do
número de elementos no conjunto.
Poderia ser n ao invés de n-1, mas a variância de um
conjunto com apenas 1 elemento deve ser
indeterminada.
Fórmula da Variância
é a variância do conjunto X
representa cada um dos elementos do conjunto X
é a média do conjunto X
é o número de elementos do conjunto X
Desvio-Padrão
• O desvio-padrão é uma medida também
bastante utilizada para analisar conjuntos e é
definido simplesmente como a raiz quadrada
da variância
Indices de Dispersão
• Medem qual é a variação de conjunto de dados
– Intervalo (minímo e máximo)
– Variancia da amostra
1 n
2
s 
x

x
 i

n  1 i 1
2
– E os derivados da variância da amostra:
• Desvio Padrão, S
• COV = Razão da média da amostra e o desvio padrão – s / x
– Percentis
• Especificação de quantas observações caem nos intervalos
Sumarização de Dados
Dado uma amostra {x1, x2,..., xn} de no
observações. No caso da mediana,
x(i) é o i-esimo elemento da lista
ordenada

 x(( n 1/ 2) se impar


0.5( x( n / 2)  x(( n 1) / 2) ) se par
4.
Mediana
5.
Moda: observação com maior
frequência
6.
Variância da amostra
n
1
2
s2 
(
x

x
)

i
n  1 i 1
Sumarização de Dados
Dado uma amostra {x1, x2,..., xn} de no
observações.
7.
Desvio Padrão
8.
Coeficiente de Variação =
1 n
2
s
( xi  x )

n  1 i 1
s/ x
Mediana
• Mediana amostral:
• Valor ~
x tal que 50% dos pontos estão abaixo dele
• Ordene as observações em ordem crescente
•~
x = ao (n+1)/2 –esimo valor se n impar
x = à média do (n/2)-esimo e do (n/2+1)-esimo
• ~
valores, se n par
• Divide as observações em duas partes
Quartis e Percentis
• Quartis:
• Divide as observações em 4 partes
• O 2º quartil é a mediana
• Percentis:
• Divide as observações em 100 partes
• 99-esimo percentil separa as 1% maiores observações
do restante
Exercício
• O artigo “The Pedaling Technique of Elite Endurance
Cyclists” (Int. J. of Sport Biomechanics, 1991, p.29-53)
relatou os dados a seguir sobre a potência de uma única
perna de um ciclista em alta carga de trabalho:
244 191 160 187 180 176 174 205 211 183 211 180 194 200
– Calcule a média e a mediana amostral.
– Suponha que a primeira observação tenha sido 204 em vez de
244. Como a média e a mediana seriam afetadas?
– Calcule uma média aparada, eliminando a maior e a menor
observação da amostra
– O artigo também relatou valores sobre a potência uma única
perna para uma carga de trabalho baixa. A média amostral
para 13 observações foi 119,8 e a 14ª observação foi 159.
Qual é o valor da média para a amostra toda?
Exercício
• O artigo “Oxygen Consumption During Fire
Suppression: Error of Heart Rate Estimation”
(Ergonomics, 1991, p. 1469-1474) informou os
dados a seguir sobre consumo de oxigênio
(mL/kg/min) para uma amostra de 10 bombeiros
em uma simulação de supressão de incêndio:
29,5 49,3 30,6 28,2 28,0 26,3 33,9 29,4 23,5 31,6
• Calcule:
– A amplitude amostral
– A variância amostral
– O desvio padrão
Exercício
• Em uma amostra foram observados os seguintes
valores para uma característica: 116,4 115,9
114,6 115,2 115,8
– Calcule a média amostral e os desvios em relação a
média
– Use os desvios calculados para obter a variância
amostral e o desvio padrão amostral
– Subtraia 100 de cada observação para obter uma nova
amostra de valores transformados. Calcule a variância
amostral desses valores e a compare a variância dos
dados originais.
Probabilidade
• Probabilidade se refere ao estudo da
aleatoriedade e da incerteza
• A teoria da probabilidade oferece métodos de
quantificação das chances ou possibilidades
de ocorrência associadas aos diversos
resultados
• Experimento – qualquer ação ou processo
cujo resultado está sujeito a incerteza.
Espaço Amostral
• O espaço amostral de um experimento,
representado por S, é o conjunto de todos os
resultados possíveis desse experimento.
• Exemplos:
– Examinar um fusível para verificar se funciona
• S={N, D} – N representa sem defeito e D com defeito
– Examinar três fusíveis em sequência
• S={NNN, NND, NDN, NDD, DNN, DND, DDN, DDD}
Exemplo
• Dois postos de gasolina estão localizados em
uma determinada interseção. Cada um possui
seis bombas. Considere o experimento em
que o número de bombas em uso em
determinada hora do dia é determinado para
cada posto.
Exemplo
• Se uma bateria de lanterna nova, tipo D, tiver
uma voltagem fora de certos limites, será
classificada como falha (F); se a voltagem
estiver dentro dos limites especificados, será
classificada como sucesso (S). Suponha que
um experimento consista em testar cada
bateria quando sai de uma da linha de
montagem até que seja observado um
sucesso.
Evento
• Evento é qualquer grupo (subconjunto) de
resultados contidos no espaço amostral S.
– Simples – se possui um único resultado
– Composto – se possui mais de um resultado
• Quando um experimento é realizado,
determinado evento A ocorre se o resultado
experimental estiver contido em A.
Exemplo
• Considere um experimento em que cada um
de três veículos que trafeguem em uma
determinada estrada siga ela saída à esquerda
(E) ou à direita (D) no final da rampa de saída.
– Alguns eventos compostos:
• O evento em que exatamente um dos três veículos vira
à direita
• O evento em que no máximo um dos veículos vira à
direita
• O evento em que os três veículos viram na mesma
direção
Exemplo
• Para o exemplo das bombas em uso em cada
um de dois postos
– Exemplos de eventos compostos
• O evento em que o número de bombas em uso é o
mesmo nos dois postos;
• O evento em que o número total de bombas em uso é
4;
• O evento em que no máximo uma bomba está em uso
em cada posto.
Álgebra de Eventos
Álgebra de Eventos
Álgebra de Eventos
Álgebra de Eventos
Três axiomas da probabilidade
• Dado um experimento e um espaço amostral S, o objetivos da
probabilidade é atribuir a cada evento A um número P(A),
denominado probabilidade do evento A, que fornecerá uma
medida precisa da chance de ocorrência de A.
• Para assegura que as atribuições de probabilidades sejam
consistentes, todas as atribuições devem satisfazer os axiomas
a seguir:
– Para qualquer evento A, P(A) >= 0
– P(S) = 1 (Normalização)
– Se A e B são mutuamente exclusivos
P (A + B) = P(A) + P(B)
Exemplo
• Representando os seis eventos simples
associados ao lançamento de um dado de seis
lados por E1, E2, E3, E4 E5 e E6.
– Se o dado for construído de tal forma que
qualquer um dos três resultados pares tenha o
dobro de probabilidade de ocorrer em relação aos
ímpares, como seria uma atribuição apropriada de
probabilidades a cada evento simples?
– Qual seria a probabilidade do evento A =
resultado par?
Técnicas de contagem
• Quando os diversos resultados são igualmente
prováveis, a tarefa de calcular probabilidades
se reduz a contagem. Em particular se N for a
quantidade de resultados de um espaço
amostral e N(A) for a quantidade de
resultados contidos em um evento A, então
– P(A) = N(A)/N
Técnicas de Contagem
• Regra do produto
– Se o primeiro elemento ou objeto de um par
ordenado puder ser selecionado de n1 formas e para
cada uma das n1 formas, o segundo elemento do par
pode se selecionado de n2 formas, o número de pares
é n1n2.
– Exemplo: Uma família se mudou para uma cidade e
precisa dos serviços de um obstetra e de um pediatra.
Há duas clínicas de fácil acesso e cada uma tem dois
obstetras e três pediatras. De quantas formas a família
pode escolher os dois especialistas na mesma clínica.
Exemplo
• Há 10 professores disponíveis para correção
de provas de um determinado curso. O
primeiro exame consiste em quatro questões
e deseja-se selecionar um professor diferente
para corrigir cada uma (apenas um por
questão). De quantas formas diferentes os
professores podem ser escolhidos para a
correção?
Combinação
• Definição
– Dado um conjunto de n objetos diferentes,
qualquer subconjunto não-ordenado de tamanho
k é denominado combinação. O número de
combinações de tamanho k que podem ser
formadas a partir de n objetos é representado
por  n 
k 
 n  Pk ,n
n!
  

 k  k! k!(n  k )!
Exemplo
• Um depósito de uma universidade recebeu
uma entrega de 25 impressoras, das quais 10
são impressoras a laser e 15 são a jato de
tinta. Se 6 das 25 forem selecionadas
aleatoriamente para serem verificadas por um
técnico, qual será a probabilidade de que
exatamente 3 delas sejam a laser?
• E a probabilidade de ao menos 3 impressoras
a jato de tinta serem selecionadas?
Probabilidade Condicional
• Exemplo
– Componentes complexos são montados em uma fábrica
que usa duas linhas de montagem diferentes: A e A’. A linha
A usa equipamentos mais antigos que A’, de forma que é
mais lenta e um pouco menos confiável. Suponha que em
determinado dia, a linha A tenha montado 8 componentes,
dos quais 2 foram identificados como defeituosos e 6 não
defeituosos, ao passo que a linha A’ produziu 1 defeituoso e
9 não defeituosos.
– O gerente de vendas seleciona aleatoriamente 1 dos 18
componentes para uma demonstração.
• Antes da demonstração, qual a probabilidade do componente
selecionado ser na linha A?
• Se o componente tiver defeito, qual a probabilidade do
componente selecionado ser na linha A?
Probabilidade condicional
A probabilidade condicional trata da probabilidade de ocorrer um evento A, tendo
ocorrido um evento B, ambos do espaço amostral S, ou seja, ela é calculada sobre o
evento B e não em função o espaço amostral S.
Probabilidade condicional
Exemplo
Uma
pesquisa
realizada
entre
1000
consumidores,registrou que 650 deles trabalham
com cartões de crédito da bandeira MasterCard,
que 550 trabalham com cartões de crédito da
bandeira VISA e que 200 trabalham com cartões
de crédito de ambas as bandeiras. Qual a
probabilidade de ao escolhermos deste grupo
uma pessoa que utiliza a bandeira VISA, ser
também um dos consumidores que utilizam
cartões de crédito da bandeira MasterCard?
Probabilidade condicional
Exercício
• Suponha que, de todos os indivíduos que
compram uma determinada câmera digital,
60% incluem um cartão de memória opcional
na compra, 40% incluem uma pilha extra e
30% incluem um cartão e uma pilha. Dado que
o indivíduo selecionado comprou uma pilha
extra, qual é a probabilidade de compra de
um cartão opcional?
Variáveis Aleatórias
• Def.: Para um dado espaço amostral S de um
experimento, uma variável aleatória (va) é qualquer
regra que associe um valor a cada resultado de S. Em
termos matemáticos, uma variável aleatória é uma
função cujo domínio é o espaço amostral e o
contradomínio é um conjunto de números reais.
• Exemplo: Quando um estudante tenta acessar um
computador em um sistema de compartilhamento de
tempo, toda as portas estão ocupadas (F), caso em que
o aluno não terá sucesso, ou haverá ao menos uma
porta livre (S), caso em que o estudante conseguirá
acessar o sistema. Com S= {S, F}, defina uma va X
– X(S) = 1
X(F)=0
Variáveis aleatórias
• Variável aleatória de Bernoulli
– Qualquer variável aleatória cujos únicos valores possíveis
são 0 e 1.
• Variáveis aleatórias discretas, quando os valores
possíveis constituem um conjunto finito ou podem ser
relacionados em uma sequência infinita na qual haja
um primeiro elemento, segundo elemento e assim por
diante.
• Variáveis aleatórias contínuas, quando o seu conjunto
de valores possíveis consiste em um intervalo completo
da reta de números (Reta real).
Distribuição de probabilidade para
variáveis aleatórias discretas
• Exemplo:
– Seis lotes de componentes estão prontos para
embarque em um fornecedor. O número de
componentes com defeito em cada lote é mostrado a
seguir:
Lote
1
2
3
4
5
6
Número de peças com defeito
0
2
0
1
2
0
– Seja X o número de peças com defeito no lote
selecionado. Sendo os eventos igualmente prováveis
• p(0) = P( X=0 ) =
• p(1) = P( X=1 ) =
• p(2) = P( X=2 ) =
Função de massa de probabilidade
• Def.: A função distribuição de probabilidade ou
função de massa de probabilidade (fmp ou pmf)
de uma va discreta é definida para cada número x
por p(x) = P(X=x)=P(todos os sS: X(s)=x).
• Exemplo 1: Suponha que visitemos uma loja
durante uma semana e observemos se a próxima
pessoa a comprar um computador comprará um
laptop ou um desktop.
Se 20% de todos os computadores durante
aquela semana selecionaram um laptop, a fmp de
X será:
• Exemplo 2: Considere um grupo de cinco
doadores de sangue potenciais: A, B, C, D e E.
Desses apenas A e B possuem O+. Cinco
amostras de sangue, uma de cada indivíduo,
serão testadas em ordem aleatória até que
seja identificado um indivíduo O+. Seja va
Y=número de testes necessários para
identificar um indivíduo O+. Então a fmp de Y
é:
• PDF (probability distribution function) ou pmf
p(x)
– Seja X o número de visitas que cada requisição
faz ao disco
– p(X): p(0) = 0.25 p(1) = 0.5 p(2) = 0.25
0.6
0.5
0.4
0.3
0.2
0.1
0
Função de Probabilidade de Massa
0
1
# visitas ao disco
2
Histograma
• Outra representação gráfica equivalente
– Plota o número de vezes que a saída de um experimento
aleatório foi igual a cada ponto amostral
– Ex: se total de requisições ao servidor = 1000
# Requisições
Histograma
600
500
400
300
200
100
0
0
1
# visitas ao disco
2
• Zipf()
Distribuições Discretas
– Comumente usada quando a distribuição é altamente
concentrada em poucos valores
• Popularidade de arquivos em servidores Web/multimídia
– 90% dos acessos são para 10% dos arquivos
• Popularidade de palavras na língua inglesa
– Seja i, o elemento que ocupa a i-esima posição no ranking
de concentração
C
P( X  i )  
i
i  1,2,...
C é a constante de normalização
Zipf: lei das Potências
Distribuição Zipf
• Modela popularidade dos remetentes de e-mails
Parâmetro de uma distribuição de
probabilidade
• No exemplo 1, tínhamos p(0)=0,8 e p(1)=0,2.
Em outra loja temos p(0)=0,9 e p(1) = 0,1. De
forma geral, a fmp de qualquer va Bernoulli
pode ser expressa na forma
x0
1   se

p( x;  )    se
x 1
 0 caso contrário

•  aqui é um parâmetro
Função de distribuição acumulada
(FDA ou CDF)
• A FDA F(x) de uma va discreta X com fmp p(x)
é definida para cada valor de x po
F ( x)  P( X  x) 
 p( y )
y: y  x
• Para qualquer valor x, F(x) é a probabilidade
de o valor X observado ser no máximo x.
• Exemplo: Para a fmp
y
1
2
3
4
P(y)
0,4
0,3
0,2
0,1
• F(y) para cada valor de {1,2,3,4} é:
• F(2,7)=
• F(3,9999)=
Valor Esperado
• Seja X uma va discreta com conjunto de
valores possíveis D e fmp p(x). O valor
esperado ou valor médio de X denotado por
E(X) ou x é E( X )     x  p( x)
x
xD
• Qual o valor esperado de uma va Bernoulli X?
Distribuição de probabilidade binomial
• Há diversos experimentos que satisfazem exatamente ou
aproximadamente a seguinte lista de requisitos:
– O experimento consiste em uma sequência de n experimentos
menores denominados tentativas, onde n é estabelecido antes do
experimento.
– Cada tentativa pode resultar em um de dois resultados possíveis,
chamados de sucesso (S) ou falha (F).
– As tentativas são independentes, de forma que o resultado de
qualquer tentativa particular não influencia o resultado de qualquer
outra tentativa.
– A probabilidade de sucesso é constante de uma tentativa para a outra.
Denominamos essa probabilidade p.
• Um experimento para o qual essas condições são satisfeitas é
denominado experimento binomial.
• Exemplo: A mesma moeda é lançada sucessiva e
independentemente n vezes.
Exercício
• Calcule usando a fórmula
– b(3; 8, 0,6)=
– b(5; 8, 0,6)=
– P(3  X  5) quando n=8 e p=0,6
– P(1  X) quando n=12 e p=0,1
Exercício
• Seja X o número de falhas na superfície de
uma caldeira de um determinado tipo
selecionada aleatoriamente, com distribuição
de Poisson de parâmetro =5. Calcule
– P(X8)=
– P(X=8)=
– P(X9)=
– P(5 X 8)=
– P(5<X<8)=
x
0
1
2
3
4
5
6
7
8
9
10
F(x;) 0,007 0,040 0,125 0,265 0,440 0,616 0,762 0,867 0,932 0,968 0,986
Exemplo
• A probabilidade de X ter um valor no intervalo
[a, b] é a área contida entre o intervalo e
abaixo da curva da função de densidade. O
gráfico de f(x) normalmente é denominado
curva de densidade.
Função de distribuição acumulada e
valores esperados
• A função de distribuição acumulada F(x) de uma va
contínua X é definida para cada número x por
x
F ( x)  P( X  x) 
 f ( y)dy

• É a área abaixo da curva de densidade à esquerda de x.
• O valor médio ou esperado de uma va contínua X com

fdp f(x) é
 x  E ( X )   x  f ( x)dx

• A variância de uma va contínua X com fdp f(x) e média

é
2
2
2
 X  V ( X )   ( x   )  f ( x)dx  E[( x   ) ]

Exemplo
• Suponha que o tempo de resposta X em um terminal
de computador on-line específico tenha distribuição
exponencial com tempo de resposta esperado igual a 5
segundos. Qual é a probabilidade de o tempo de
resposta ser no máximo 10 segundos?
E( X ) 
1

 5,   0,2
P( X  10)  F (10;0,2)  1  e ( 0, 2)(10)  1  e 2  1  0,135  0,865
• A probabilidade de o tempo de resposta estar entre 5 e
10 é
P(5  X  10)  F (10;0,2)  F (5;0,2)
•
 (1  e 2 )  (1  e 1 )  0,233
Intervalos de confiança
• Estimando a População a Partir das Amostras
• Quão alto são os humanos?
• Medir todos nesta sala (amostra)
• Calcular a média da amostra x
• Assumir que a média da população  é igual da amostra x.
• Uma estimativa pontual não diz nada sobre o
quanto pode estar próxima de 
• Uma alternativa para apresentar um único valor
sensato para o parâmetro que está sendo
estimado é calcular e relatar um intervalo
completo de valores plausíveis.
Intervalos de confiança
• Valor da média da amostra é apenas uma
estimativa da verdadeira média da distribuição.
• Os limite c1 e c2 tais que existe uma alta
probabilidade, 1-, que a média da população
está no intervalo (c1,c2):
Pr{ c1 < m < c2} =1- 
Pr[ x  c1 ]  Pr[ x  c2 ] 
– onde  é o nível de significância e
– 100(1- ) é o nível de confiança

2
Intervalos de Confiança
• Quão alto é José?
– Suponha que a média da altura humana seja 1,70 m
 José mede 1,70 m
certo?
– Suponha que 90% dos humanos estão entre 1,55 e 1,90 m
 José está entre 1,55 e 1,90 m
• Então estamos 90% confiantes que José está entre 1,55 e
1,90 cm
Estimando os Intervalos de
Confiança
• Duas fórmulas para intervalo de confiança
• Acima de 30 amostras de qualquer
distribuição: distribuição-z
• Pequenas amostras de populações
normalmente distribuídas: distribuição-t
Distribuição Z
• O intervalo de confiança 100(1-)% da média
 de uma população normal, quando o valor
de  e conhecido, é dado por
x  z1 / 2   / n
• Teorema do limite central: A média amostral
de observações distribuídas identicamente e
independentes: x ~ N (; / n )
Distribuição-z
• Intervalo em cada lado da média:
xx
z
/ n
s 

x  z1  
2  n
• O nível de significância  é pequeno para níveis maiores do intervalo de
confiança.
• Existem tabelas para a variável z!
z10.1  1.645
2
z10.05  1.960
2
Exemplo da Distribuição z
• 35 amostras: 10 16 47 48 74 30 81 42 57 67 7 13 56 44 54 17 60 32 45 28
33 60 36 59 73 46 10 40 35 65 34 25 18 48 63
s 

x  z1  
2  n
• Média da amostra x= 42,1
Desvio padrão s = 20,1 n = 35
z10.1  1.645
2
z10.05  1.960
2
• Calcule o intervalo com 90% de confiança
42.1  (1.645)
20.1
 (36.5, 47.7)
35
Definindo o tamanho da amostra
• Quantas observações n para obter uma
acurácia de  r% e um nível de confiança
100(1-)%?
s
xz
n
• r% de acurácia implica em
– CI =
( x (1  r / 100), x (1  r / 100))
Distribuição t
• Fórmula quase a mesma:
s

x  t 1   ; n 1  
 2   n
• Usável para populações normalmente distribuídas!
• Mas funciona para pequenas amostras
• n-1 indica o grau de liberdade
Exemplo da Distribuição t
• 10 amostras de chegada de transações: 148 166 170 191 187 114 168
180 177 204
• Média da amostra x= 170.5.
Desvio padrão s = 25.1, n = 10
• Calcule o intervalo de confiança de 90%:
s 


x  t 1   ; n 1 
 2   n
•
Quanto é
t10.1
2

;101
Exemplo da Distribuição t
x
25.1
170.5  (1.833)
 (156.0, 185.0)
10
Exemplo da Distribuição t
• 10 amostras de chegada de transações: 148 166 170 191 187 114 168
180 177 204
• Média da amostrax = 170.5.
Desvio padrão s = 25.1, n = 10
• Calcule o intervalo de confiança de 90%:
s 


x  t 1   ; n 1 
 2   n
25.1
170.5  (1.833)
 (156.0, 185.0)
10
• Calcule agora o intervalo de 99% de confiança
Exemplo da Distribuição t
x
25.1
170.5  (1.833)
 (156.0, 185.0)
10
Exemplo da Distribuição t
• 10 amostras de chegada de transações: 148 166 170 191 187 114 168
180 177 204
• Média da amostrax = 170.5.
Desvio padrão s = 25.1, n = 10
• Calcule o intervalo de confiança de 90%:
s 


x  t 1   ; n 1 
 2   n
25.1
170.5  (3.250)
 (144.7, 196.3)
10
Tomando decisões sobre os dados
experimentais
• Por que usamos intervalos de confiança?
– Sumarizar o erro na média da amostra
– Prover elementos para saber se a amostra é significativa
– Permitir comparações à luz dos erros
Referências
• Raj Jain. The Art of Computer System
Performance Analysis: Techniques for
Experimental Design, Measurement, Simulation
and Modeling, John Wiley & Sons, Inc., 1991.
• Jay L. Devore, PROBABILIDADE E ESTATÍSTICA
PARA ENGENHARIA E CIÊNCIAS. Cengage
Learning, 2006.
• Material didático do prof. Fabrício Benevenuto.
• Material didático da profa. Jussara Almeida –
DCC/UFMG.
Download