Revisão estatística e probabilidade Prof. Anderson Almeida Ferreira População • População é o conjunto de elementos (indivíduos, objetos, etc.) que formam o universo de nosso estudo e que são passíveis de serem observados, sob as mesmas condições. • Num processo de inspeção da qualidade, a população pode ser considerada como o conjunto de todos os itens que saem da linha de produção. • Numa pesquisa de mercado, a população é o conjunto de possíveis consumidores. Amostragem • Grande parte das pesquisas científicas ou de resoluções de problemas de engenharia são feitos por amostragem, ou seja, observamos apenas um subconjunto de elementos da população. • A amostragem é particularmente interessante quando: – a população é grande ou infinita. – as observações ou mensurações têm alto custo. – as medidas exigem testes POPULAÇÃO: todos os destrutivos. possíveis consumidores – necessidade de rapidez, etc. amostragem Amostra: um subconjunto dos consumidores inferência População e Amostra • População (ou universo): todos os N membros de uma classe ou grupo. – Ex.: todos os processos executados numa máquina durante o período que esteve ativa. • Amostra é uma parte da população, denotada por n. – Ex.: todos processos executados pela máquina em 18/03/2006 Variáveis • Normalmente, estamos interessados em certas características dos objetos de uma população. Por exemplo: – – – – Número de falhas; Espessura de cada parede; Sexo de um formando; Idade com que um indivíduo se formou • Uma característica pode ser categorizada, como sexo ou tipo de defeito, ou pode ser de natureza numérica. Variáveis • Uma variável é qualquer característica que cujo valor pode mudar de um objeto para outro da população. • Ou seja, uma variável, é o nome que se dá a um fenômeno que pode ser medido e que varia conforme a medição. • Se não variasse seria uma constante e não teria maior interesse para a pesquisa. • Normalmente, identificamos as variáveis com letras minúsculas do final do alfabeto. Exemplo: – x = marca da calculadora de um estudante – y = número de defeitos graves em um automóvel recentemente fabricado – z = distância de frenagem de um automóvel sob condições específicas Variáveis • Os dados resultam da observação de uma, ou de duas ou mais variáveis simultaneamente. • Univariados – observações sobre uma única variável. Exemplos: – Tipo de transmissão (A, M) de cada um dentre 10 automóveis recentemente comprados – Vida útil (horas) de baterias da marca D colocadas em determinado uso • Bivariados – observações feitas em cada uma de duas variáveis. Exemplo: – O par (altura, peso) de cada jogador de basquete de um time. • Multivariados – quando são feitas observações sobre mais de duas variáveis Pesquisa Observacional e Experimental • Numa pesquisa observacional (ou de levantamento) as características de uma população são levantadas (observadas ou medidas), mas sem manipulação. – É o caso de um censo demográfico, pesquisas eleitorais, pesquisas de mercado, inspeção da qualidade, etc. – Em todos esses casos, se quer ter idéia de uma certa população tal qual ela é na natureza ou no processo. • Nas pesquisas experimentais, grupos de indivíduos (ou animais, ou objetos) são manipulados para se avaliar o efeito de diferentes tratamentos. – É o caso de se verificar o rendimento de um processo químico para diferentes temperaturas de reação, as quais são manipuladas de acordo com o interesse prático. Os métodos não são os mesmos Estatística Descritiva • É utilizada quando se deseja simplesmente resumir e descrever características importantes de dados coletados • Envolve: – Coletar dados – Apresentar dados – Caracterizar dados • Finalidade: – Descrever dados Estatística Inferencial • É utilizada quando um investigador usa as informações da amostra para tirar algum tipo de conclusão sobre a população • Envolve: – Estimativas – Testes de Hipótese • Finalidade: – Tomar decisões sobre características da população de uma coleta Terminologia Variável Aleatória • Uma variável aleatória (VA) x em um espaço amostral S é uma função x: S que atribui um número real a cada ponto amostral em S • Ou seja, uma variável aleatória é uma variável que recebe um valor numérico como resultado de um experimento. – Ex. Atrasos numa rede, tempo de resposta de um servidor, tempo entre chegadas de clientes em um servidor, número de tweets recebidos por uma conta experimental do Twitter Média • A média amostral – Para um conjunto de números x1, x2, x3, ...xn, n x x i 1 i n – Para informar a média amostral recomenda-se o uso de precisão decimal de um dígito a mais do que a precisão dos xi. • Média da população – = (soma dos N valores da população)/N Mas cuidado com Média Variância • Considere-se as três séries de valores abaixo: – <10, 12, 14, 9> – <1, 20, 2, 22> – <11, 11, 11, 12> • É possível notar certa semelhança entre elas? • Aparentemente são conjuntos bem diferentes. • Mas todos têm a mesma média: 11,25. Variância • Essa observação do distanciamento dos elementos em relação à média é chamada de variância. • Então, além da média, o pesquisador deve ficar atento também à variância do conjunto de valores, já que esta complementa a caracterização do conjunto. Cálculo da variância • Para cada elemento, subtraia a média do conjunto deste elemento: <10-11,25, 12-11,25, 14-11,25, 9-11,25> = <-1,25, 0,75, 2,75, -2,25> <1-11,25, 20-11,25, 2-11,25, 22-11,25> = <-10,25, 8,75, -9,25, 10,75> <11-11,25, 11-11,25, 11-11,25, 12-11,25> = <-0,25, -0,25, -0,25, 0,75> Agora, cada valor representa a distância do elemento para a média do conjunto • Eleve os valores resultantes ao quadrado: <-1,252, 0,752, 2,752, -2,252> = <1,5625, 0,5625, 7,5625, 5,0625> <-10,252, 8,752, -9,252, 10,752> = <105,0625, 76,5625, 85,5625, 115,5625> <-0,252, -0,252, -0,252, 0,752> = <0,0625, 0,0625, 0,0625, 0,5625> Isso faz com que todas as distâncias fiquem positivas e aumenta a influência de elementos mais distantes da média. • Some os resultados: 1,5625+0,5625+7,5625+5,0625 = 14,75 105,0625+76,5625+85,5625+115,5625 = 382,75 0,0625+0,0625+0,0625+0,5625 = 0,75 Isso gera um valor absoluto da variância acumulada • Divida pelo número de elementos do conjunto menos 1: 14,75/3 = 4,9166... 382,75/3 = 127,5833... 0,75/3 = 0,25 Isso gera a distância média, ou seja, independente do número de elementos no conjunto. Poderia ser n ao invés de n-1, mas a variância de um conjunto com apenas 1 elemento deve ser indeterminada. Fórmula da Variância é a variância do conjunto X representa cada um dos elementos do conjunto X é a média do conjunto X é o número de elementos do conjunto X Desvio-Padrão • O desvio-padrão é uma medida também bastante utilizada para analisar conjuntos e é definido simplesmente como a raiz quadrada da variância Indices de Dispersão • Medem qual é a variação de conjunto de dados – Intervalo (minímo e máximo) – Variancia da amostra 1 n 2 s x x i n 1 i 1 2 – E os derivados da variância da amostra: • Desvio Padrão, S • COV = Razão da média da amostra e o desvio padrão – s / x – Percentis • Especificação de quantas observações caem nos intervalos Sumarização de Dados Dado uma amostra {x1, x2,..., xn} de no observações. No caso da mediana, x(i) é o i-esimo elemento da lista ordenada x(( n 1/ 2) se impar 0.5( x( n / 2) x(( n 1) / 2) ) se par 4. Mediana 5. Moda: observação com maior frequência 6. Variância da amostra n 1 2 s2 ( x x ) i n 1 i 1 Sumarização de Dados Dado uma amostra {x1, x2,..., xn} de no observações. 7. Desvio Padrão 8. Coeficiente de Variação = 1 n 2 s ( xi x ) n 1 i 1 s/ x Mediana • Mediana amostral: • Valor ~ x tal que 50% dos pontos estão abaixo dele • Ordene as observações em ordem crescente •~ x = ao (n+1)/2 –esimo valor se n impar x = à média do (n/2)-esimo e do (n/2+1)-esimo • ~ valores, se n par • Divide as observações em duas partes Quartis e Percentis • Quartis: • Divide as observações em 4 partes • O 2º quartil é a mediana • Percentis: • Divide as observações em 100 partes • 99-esimo percentil separa as 1% maiores observações do restante Exercício • O artigo “The Pedaling Technique of Elite Endurance Cyclists” (Int. J. of Sport Biomechanics, 1991, p.29-53) relatou os dados a seguir sobre a potência de uma única perna de um ciclista em alta carga de trabalho: 244 191 160 187 180 176 174 205 211 183 211 180 194 200 – Calcule a média e a mediana amostral. – Suponha que a primeira observação tenha sido 204 em vez de 244. Como a média e a mediana seriam afetadas? – Calcule uma média aparada, eliminando a maior e a menor observação da amostra – O artigo também relatou valores sobre a potência uma única perna para uma carga de trabalho baixa. A média amostral para 13 observações foi 119,8 e a 14ª observação foi 159. Qual é o valor da média para a amostra toda? Exercício • O artigo “Oxygen Consumption During Fire Suppression: Error of Heart Rate Estimation” (Ergonomics, 1991, p. 1469-1474) informou os dados a seguir sobre consumo de oxigênio (mL/kg/min) para uma amostra de 10 bombeiros em uma simulação de supressão de incêndio: 29,5 49,3 30,6 28,2 28,0 26,3 33,9 29,4 23,5 31,6 • Calcule: – A amplitude amostral – A variância amostral – O desvio padrão Exercício • Em uma amostra foram observados os seguintes valores para uma característica: 116,4 115,9 114,6 115,2 115,8 – Calcule a média amostral e os desvios em relação a média – Use os desvios calculados para obter a variância amostral e o desvio padrão amostral – Subtraia 100 de cada observação para obter uma nova amostra de valores transformados. Calcule a variância amostral desses valores e a compare a variância dos dados originais. Probabilidade • Probabilidade se refere ao estudo da aleatoriedade e da incerteza • A teoria da probabilidade oferece métodos de quantificação das chances ou possibilidades de ocorrência associadas aos diversos resultados • Experimento – qualquer ação ou processo cujo resultado está sujeito a incerteza. Espaço Amostral • O espaço amostral de um experimento, representado por S, é o conjunto de todos os resultados possíveis desse experimento. • Exemplos: – Examinar um fusível para verificar se funciona • S={N, D} – N representa sem defeito e D com defeito – Examinar três fusíveis em sequência • S={NNN, NND, NDN, NDD, DNN, DND, DDN, DDD} Exemplo • Dois postos de gasolina estão localizados em uma determinada interseção. Cada um possui seis bombas. Considere o experimento em que o número de bombas em uso em determinada hora do dia é determinado para cada posto. Exemplo • Se uma bateria de lanterna nova, tipo D, tiver uma voltagem fora de certos limites, será classificada como falha (F); se a voltagem estiver dentro dos limites especificados, será classificada como sucesso (S). Suponha que um experimento consista em testar cada bateria quando sai de uma da linha de montagem até que seja observado um sucesso. Evento • Evento é qualquer grupo (subconjunto) de resultados contidos no espaço amostral S. – Simples – se possui um único resultado – Composto – se possui mais de um resultado • Quando um experimento é realizado, determinado evento A ocorre se o resultado experimental estiver contido em A. Exemplo • Considere um experimento em que cada um de três veículos que trafeguem em uma determinada estrada siga ela saída à esquerda (E) ou à direita (D) no final da rampa de saída. – Alguns eventos compostos: • O evento em que exatamente um dos três veículos vira à direita • O evento em que no máximo um dos veículos vira à direita • O evento em que os três veículos viram na mesma direção Exemplo • Para o exemplo das bombas em uso em cada um de dois postos – Exemplos de eventos compostos • O evento em que o número de bombas em uso é o mesmo nos dois postos; • O evento em que o número total de bombas em uso é 4; • O evento em que no máximo uma bomba está em uso em cada posto. Álgebra de Eventos Álgebra de Eventos Álgebra de Eventos Álgebra de Eventos Três axiomas da probabilidade • Dado um experimento e um espaço amostral S, o objetivos da probabilidade é atribuir a cada evento A um número P(A), denominado probabilidade do evento A, que fornecerá uma medida precisa da chance de ocorrência de A. • Para assegura que as atribuições de probabilidades sejam consistentes, todas as atribuições devem satisfazer os axiomas a seguir: – Para qualquer evento A, P(A) >= 0 – P(S) = 1 (Normalização) – Se A e B são mutuamente exclusivos P (A + B) = P(A) + P(B) Exemplo • Representando os seis eventos simples associados ao lançamento de um dado de seis lados por E1, E2, E3, E4 E5 e E6. – Se o dado for construído de tal forma que qualquer um dos três resultados pares tenha o dobro de probabilidade de ocorrer em relação aos ímpares, como seria uma atribuição apropriada de probabilidades a cada evento simples? – Qual seria a probabilidade do evento A = resultado par? Técnicas de contagem • Quando os diversos resultados são igualmente prováveis, a tarefa de calcular probabilidades se reduz a contagem. Em particular se N for a quantidade de resultados de um espaço amostral e N(A) for a quantidade de resultados contidos em um evento A, então – P(A) = N(A)/N Técnicas de Contagem • Regra do produto – Se o primeiro elemento ou objeto de um par ordenado puder ser selecionado de n1 formas e para cada uma das n1 formas, o segundo elemento do par pode se selecionado de n2 formas, o número de pares é n1n2. – Exemplo: Uma família se mudou para uma cidade e precisa dos serviços de um obstetra e de um pediatra. Há duas clínicas de fácil acesso e cada uma tem dois obstetras e três pediatras. De quantas formas a família pode escolher os dois especialistas na mesma clínica. Exemplo • Há 10 professores disponíveis para correção de provas de um determinado curso. O primeiro exame consiste em quatro questões e deseja-se selecionar um professor diferente para corrigir cada uma (apenas um por questão). De quantas formas diferentes os professores podem ser escolhidos para a correção? Combinação • Definição – Dado um conjunto de n objetos diferentes, qualquer subconjunto não-ordenado de tamanho k é denominado combinação. O número de combinações de tamanho k que podem ser formadas a partir de n objetos é representado por n k n Pk ,n n! k k! k!(n k )! Exemplo • Um depósito de uma universidade recebeu uma entrega de 25 impressoras, das quais 10 são impressoras a laser e 15 são a jato de tinta. Se 6 das 25 forem selecionadas aleatoriamente para serem verificadas por um técnico, qual será a probabilidade de que exatamente 3 delas sejam a laser? • E a probabilidade de ao menos 3 impressoras a jato de tinta serem selecionadas? Probabilidade Condicional • Exemplo – Componentes complexos são montados em uma fábrica que usa duas linhas de montagem diferentes: A e A’. A linha A usa equipamentos mais antigos que A’, de forma que é mais lenta e um pouco menos confiável. Suponha que em determinado dia, a linha A tenha montado 8 componentes, dos quais 2 foram identificados como defeituosos e 6 não defeituosos, ao passo que a linha A’ produziu 1 defeituoso e 9 não defeituosos. – O gerente de vendas seleciona aleatoriamente 1 dos 18 componentes para uma demonstração. • Antes da demonstração, qual a probabilidade do componente selecionado ser na linha A? • Se o componente tiver defeito, qual a probabilidade do componente selecionado ser na linha A? Probabilidade condicional A probabilidade condicional trata da probabilidade de ocorrer um evento A, tendo ocorrido um evento B, ambos do espaço amostral S, ou seja, ela é calculada sobre o evento B e não em função o espaço amostral S. Probabilidade condicional Exemplo Uma pesquisa realizada entre 1000 consumidores,registrou que 650 deles trabalham com cartões de crédito da bandeira MasterCard, que 550 trabalham com cartões de crédito da bandeira VISA e que 200 trabalham com cartões de crédito de ambas as bandeiras. Qual a probabilidade de ao escolhermos deste grupo uma pessoa que utiliza a bandeira VISA, ser também um dos consumidores que utilizam cartões de crédito da bandeira MasterCard? Probabilidade condicional Exercício • Suponha que, de todos os indivíduos que compram uma determinada câmera digital, 60% incluem um cartão de memória opcional na compra, 40% incluem uma pilha extra e 30% incluem um cartão e uma pilha. Dado que o indivíduo selecionado comprou uma pilha extra, qual é a probabilidade de compra de um cartão opcional? Variáveis Aleatórias • Def.: Para um dado espaço amostral S de um experimento, uma variável aleatória (va) é qualquer regra que associe um valor a cada resultado de S. Em termos matemáticos, uma variável aleatória é uma função cujo domínio é o espaço amostral e o contradomínio é um conjunto de números reais. • Exemplo: Quando um estudante tenta acessar um computador em um sistema de compartilhamento de tempo, toda as portas estão ocupadas (F), caso em que o aluno não terá sucesso, ou haverá ao menos uma porta livre (S), caso em que o estudante conseguirá acessar o sistema. Com S= {S, F}, defina uma va X – X(S) = 1 X(F)=0 Variáveis aleatórias • Variável aleatória de Bernoulli – Qualquer variável aleatória cujos únicos valores possíveis são 0 e 1. • Variáveis aleatórias discretas, quando os valores possíveis constituem um conjunto finito ou podem ser relacionados em uma sequência infinita na qual haja um primeiro elemento, segundo elemento e assim por diante. • Variáveis aleatórias contínuas, quando o seu conjunto de valores possíveis consiste em um intervalo completo da reta de números (Reta real). Distribuição de probabilidade para variáveis aleatórias discretas • Exemplo: – Seis lotes de componentes estão prontos para embarque em um fornecedor. O número de componentes com defeito em cada lote é mostrado a seguir: Lote 1 2 3 4 5 6 Número de peças com defeito 0 2 0 1 2 0 – Seja X o número de peças com defeito no lote selecionado. Sendo os eventos igualmente prováveis • p(0) = P( X=0 ) = • p(1) = P( X=1 ) = • p(2) = P( X=2 ) = Função de massa de probabilidade • Def.: A função distribuição de probabilidade ou função de massa de probabilidade (fmp ou pmf) de uma va discreta é definida para cada número x por p(x) = P(X=x)=P(todos os sS: X(s)=x). • Exemplo 1: Suponha que visitemos uma loja durante uma semana e observemos se a próxima pessoa a comprar um computador comprará um laptop ou um desktop. Se 20% de todos os computadores durante aquela semana selecionaram um laptop, a fmp de X será: • Exemplo 2: Considere um grupo de cinco doadores de sangue potenciais: A, B, C, D e E. Desses apenas A e B possuem O+. Cinco amostras de sangue, uma de cada indivíduo, serão testadas em ordem aleatória até que seja identificado um indivíduo O+. Seja va Y=número de testes necessários para identificar um indivíduo O+. Então a fmp de Y é: • PDF (probability distribution function) ou pmf p(x) – Seja X o número de visitas que cada requisição faz ao disco – p(X): p(0) = 0.25 p(1) = 0.5 p(2) = 0.25 0.6 0.5 0.4 0.3 0.2 0.1 0 Função de Probabilidade de Massa 0 1 # visitas ao disco 2 Histograma • Outra representação gráfica equivalente – Plota o número de vezes que a saída de um experimento aleatório foi igual a cada ponto amostral – Ex: se total de requisições ao servidor = 1000 # Requisições Histograma 600 500 400 300 200 100 0 0 1 # visitas ao disco 2 • Zipf() Distribuições Discretas – Comumente usada quando a distribuição é altamente concentrada em poucos valores • Popularidade de arquivos em servidores Web/multimídia – 90% dos acessos são para 10% dos arquivos • Popularidade de palavras na língua inglesa – Seja i, o elemento que ocupa a i-esima posição no ranking de concentração C P( X i ) i i 1,2,... C é a constante de normalização Zipf: lei das Potências Distribuição Zipf • Modela popularidade dos remetentes de e-mails Parâmetro de uma distribuição de probabilidade • No exemplo 1, tínhamos p(0)=0,8 e p(1)=0,2. Em outra loja temos p(0)=0,9 e p(1) = 0,1. De forma geral, a fmp de qualquer va Bernoulli pode ser expressa na forma x0 1 se p( x; ) se x 1 0 caso contrário • aqui é um parâmetro Função de distribuição acumulada (FDA ou CDF) • A FDA F(x) de uma va discreta X com fmp p(x) é definida para cada valor de x po F ( x) P( X x) p( y ) y: y x • Para qualquer valor x, F(x) é a probabilidade de o valor X observado ser no máximo x. • Exemplo: Para a fmp y 1 2 3 4 P(y) 0,4 0,3 0,2 0,1 • F(y) para cada valor de {1,2,3,4} é: • F(2,7)= • F(3,9999)= Valor Esperado • Seja X uma va discreta com conjunto de valores possíveis D e fmp p(x). O valor esperado ou valor médio de X denotado por E(X) ou x é E( X ) x p( x) x xD • Qual o valor esperado de uma va Bernoulli X? Distribuição de probabilidade binomial • Há diversos experimentos que satisfazem exatamente ou aproximadamente a seguinte lista de requisitos: – O experimento consiste em uma sequência de n experimentos menores denominados tentativas, onde n é estabelecido antes do experimento. – Cada tentativa pode resultar em um de dois resultados possíveis, chamados de sucesso (S) ou falha (F). – As tentativas são independentes, de forma que o resultado de qualquer tentativa particular não influencia o resultado de qualquer outra tentativa. – A probabilidade de sucesso é constante de uma tentativa para a outra. Denominamos essa probabilidade p. • Um experimento para o qual essas condições são satisfeitas é denominado experimento binomial. • Exemplo: A mesma moeda é lançada sucessiva e independentemente n vezes. Exercício • Calcule usando a fórmula – b(3; 8, 0,6)= – b(5; 8, 0,6)= – P(3 X 5) quando n=8 e p=0,6 – P(1 X) quando n=12 e p=0,1 Exercício • Seja X o número de falhas na superfície de uma caldeira de um determinado tipo selecionada aleatoriamente, com distribuição de Poisson de parâmetro =5. Calcule – P(X8)= – P(X=8)= – P(X9)= – P(5 X 8)= – P(5<X<8)= x 0 1 2 3 4 5 6 7 8 9 10 F(x;) 0,007 0,040 0,125 0,265 0,440 0,616 0,762 0,867 0,932 0,968 0,986 Exemplo • A probabilidade de X ter um valor no intervalo [a, b] é a área contida entre o intervalo e abaixo da curva da função de densidade. O gráfico de f(x) normalmente é denominado curva de densidade. Função de distribuição acumulada e valores esperados • A função de distribuição acumulada F(x) de uma va contínua X é definida para cada número x por x F ( x) P( X x) f ( y)dy • É a área abaixo da curva de densidade à esquerda de x. • O valor médio ou esperado de uma va contínua X com fdp f(x) é x E ( X ) x f ( x)dx • A variância de uma va contínua X com fdp f(x) e média é 2 2 2 X V ( X ) ( x ) f ( x)dx E[( x ) ] Exemplo • Suponha que o tempo de resposta X em um terminal de computador on-line específico tenha distribuição exponencial com tempo de resposta esperado igual a 5 segundos. Qual é a probabilidade de o tempo de resposta ser no máximo 10 segundos? E( X ) 1 5, 0,2 P( X 10) F (10;0,2) 1 e ( 0, 2)(10) 1 e 2 1 0,135 0,865 • A probabilidade de o tempo de resposta estar entre 5 e 10 é P(5 X 10) F (10;0,2) F (5;0,2) • (1 e 2 ) (1 e 1 ) 0,233 Intervalos de confiança • Estimando a População a Partir das Amostras • Quão alto são os humanos? • Medir todos nesta sala (amostra) • Calcular a média da amostra x • Assumir que a média da população é igual da amostra x. • Uma estimativa pontual não diz nada sobre o quanto pode estar próxima de • Uma alternativa para apresentar um único valor sensato para o parâmetro que está sendo estimado é calcular e relatar um intervalo completo de valores plausíveis. Intervalos de confiança • Valor da média da amostra é apenas uma estimativa da verdadeira média da distribuição. • Os limite c1 e c2 tais que existe uma alta probabilidade, 1-, que a média da população está no intervalo (c1,c2): Pr{ c1 < m < c2} =1- Pr[ x c1 ] Pr[ x c2 ] – onde é o nível de significância e – 100(1- ) é o nível de confiança 2 Intervalos de Confiança • Quão alto é José? – Suponha que a média da altura humana seja 1,70 m José mede 1,70 m certo? – Suponha que 90% dos humanos estão entre 1,55 e 1,90 m José está entre 1,55 e 1,90 m • Então estamos 90% confiantes que José está entre 1,55 e 1,90 cm Estimando os Intervalos de Confiança • Duas fórmulas para intervalo de confiança • Acima de 30 amostras de qualquer distribuição: distribuição-z • Pequenas amostras de populações normalmente distribuídas: distribuição-t Distribuição Z • O intervalo de confiança 100(1-)% da média de uma população normal, quando o valor de e conhecido, é dado por x z1 / 2 / n • Teorema do limite central: A média amostral de observações distribuídas identicamente e independentes: x ~ N (; / n ) Distribuição-z • Intervalo em cada lado da média: xx z / n s x z1 2 n • O nível de significância é pequeno para níveis maiores do intervalo de confiança. • Existem tabelas para a variável z! z10.1 1.645 2 z10.05 1.960 2 Exemplo da Distribuição z • 35 amostras: 10 16 47 48 74 30 81 42 57 67 7 13 56 44 54 17 60 32 45 28 33 60 36 59 73 46 10 40 35 65 34 25 18 48 63 s x z1 2 n • Média da amostra x= 42,1 Desvio padrão s = 20,1 n = 35 z10.1 1.645 2 z10.05 1.960 2 • Calcule o intervalo com 90% de confiança 42.1 (1.645) 20.1 (36.5, 47.7) 35 Definindo o tamanho da amostra • Quantas observações n para obter uma acurácia de r% e um nível de confiança 100(1-)%? s xz n • r% de acurácia implica em – CI = ( x (1 r / 100), x (1 r / 100)) Distribuição t • Fórmula quase a mesma: s x t 1 ; n 1 2 n • Usável para populações normalmente distribuídas! • Mas funciona para pequenas amostras • n-1 indica o grau de liberdade Exemplo da Distribuição t • 10 amostras de chegada de transações: 148 166 170 191 187 114 168 180 177 204 • Média da amostra x= 170.5. Desvio padrão s = 25.1, n = 10 • Calcule o intervalo de confiança de 90%: s x t 1 ; n 1 2 n • Quanto é t10.1 2 ;101 Exemplo da Distribuição t x 25.1 170.5 (1.833) (156.0, 185.0) 10 Exemplo da Distribuição t • 10 amostras de chegada de transações: 148 166 170 191 187 114 168 180 177 204 • Média da amostrax = 170.5. Desvio padrão s = 25.1, n = 10 • Calcule o intervalo de confiança de 90%: s x t 1 ; n 1 2 n 25.1 170.5 (1.833) (156.0, 185.0) 10 • Calcule agora o intervalo de 99% de confiança Exemplo da Distribuição t x 25.1 170.5 (1.833) (156.0, 185.0) 10 Exemplo da Distribuição t • 10 amostras de chegada de transações: 148 166 170 191 187 114 168 180 177 204 • Média da amostrax = 170.5. Desvio padrão s = 25.1, n = 10 • Calcule o intervalo de confiança de 90%: s x t 1 ; n 1 2 n 25.1 170.5 (3.250) (144.7, 196.3) 10 Tomando decisões sobre os dados experimentais • Por que usamos intervalos de confiança? – Sumarizar o erro na média da amostra – Prover elementos para saber se a amostra é significativa – Permitir comparações à luz dos erros Referências • Raj Jain. The Art of Computer System Performance Analysis: Techniques for Experimental Design, Measurement, Simulation and Modeling, John Wiley & Sons, Inc., 1991. • Jay L. Devore, PROBABILIDADE E ESTATÍSTICA PARA ENGENHARIA E CIÊNCIAS. Cengage Learning, 2006. • Material didático do prof. Fabrício Benevenuto. • Material didático da profa. Jussara Almeida – DCC/UFMG.