PROBABILIDADE & ESTATÍSTICA Lilian de Souza Vismara Mestre Eng. Elétrica – ESSC / USP Licenciada em Matemática – UFSCar 1 PROBABILIDADE & ESTATÍSTICA VARIÁVEIS ALEATÓRIAS DISTRIBUIÇÕES DE PROBABILIDADE Lilian de Souza Vismara Mestre Eng. Elétrica – ESSC / USP Licenciada em Matemática – UFSCar 2 Introdução O que é Variável Aleatória? – Variável aleatória é uma função que relaciona os valores de uma variável com probabilidades. – Podemos identificar dois tipos de variáveis aleatórias : discretas e contínuas. O que são Parâmetros? – São informações que controlam o comportamento da variável aleatória. – Exemplo: média. 3 Alguns modelos probabilísticos para variáveis aleatórias Algumas variáveis aleatórias adaptam-se muito bem a uma série de problemas práticos. Logo, um estudo pormenorizado dessas variáveis é de grande importância para a construção de modelos probabilísticos para situações reais e a consequente estimação de parâmetros. Para algumas dessa distribuições existem tabelas que facilitam o cálculo de probabilidades, em função de seus parâmetros. Nesta seção, iremos estudar alguns desses modelos, procurando enfatizar as condições em que eles são utilizados – as funções de probabilidades (variáveis discretas) ou de funções de densidade de probabilidade (variáveis contínuas) , bem como calcular probabilidade de ocorrência de eventos. 4 Distribuição de Probabilidade? Em estatística, uma distribuição de probabilidade descreve a chance que uma variável pode assumir ao longo de um espaço de valores. Ela é uma função cujo domínio são os valores da variável e cuja imagem são as probabilidades de a variável assumir cada valor do domínio. O conjunto imagem deste tipo de função está sempre restrito ao intervalo entre 0 e 1. Uma distribuição de probabilidade pode ser discreta (como em um jogo de dados) ou contínua. É comum o uso de funções que se ajustem à distribuição de probabilidade. 5 Distribuições de Probabilidades para Variáveis Aleatórias Discretas Distribuição Uniforme Discreta Distribuição de Bernoulli Distribuição Binomial Distribuição de Poisson 6 Distribuição Uniforme Discreta 7 Distribuição de Bernoulli O que as perguntas têm em comum? – Diminuirão os casos de dengue no próximo ano? – Haverá uma alta do trigo este ano? – Uma moeda lançada vai dar cara? O tipo de resposta: – Sim ou não. 8 Distribuição de Bernoulli Variáveis aleatórias cuja resposta é sim/não seguem uma distribuição de Bernoulli. X ~ Ber ( p ) Sim ou não? Sim (X=1) Não (X=0) p 1–p=q E(X ) p V (X ) pq (q p) 1 Distribuição Binomial Considere agora as seguintes perguntas: – Quantas vezes vão ocorrer casos de dengue no próximo ano? – Quantas vezes vai haver uma alta do trigo nos próximos 20 anos? – Se lançarmos uma moeda 5 vezes, quantas vezes teremos cara? Muitas vezes, não queremos saber apenas se algo ocorre ou não. Queremos saber quantas vezes ela ocorre. 10 Distribuição Binomial Se lançarmos uma moeda 5 vezes, quantas vezes teremos cara? cara(1/2) cara(1/2) cara(1/2) coroa(1/ 2) cara(1/2) coroa(1/ 2) cara(1/2) coroa(1/ 2) cara(1/2) cara(1/2) coroa(1/ 2) coroa(1/ 2) cara (1/2) Com apenas 5 lançamentos o método da árvore se torna inviável . coroa(1/ 2) cara(1/2) coroa(1/ 2) cara(1/2) cara(1/2) cara(1/2) coroa(1/ 2) coroa(1/ 2) coroa(1/ 2) cara(1/2) coroa(1/ 2) cara(1/2) cara(1/2) coroa(1/ 2) coroa(1/ 2) Início coroa(1/ 2) cara(1/2) coroa(1/ 2) cara(1/2) cara(1/2) cara(1/2) coroa(1/ 2) cara(1/2) coroa(1/ 2) cara(1/2) coroa(1/ 2) cara(1/2) cara(1/2) coroa(1/ 2) coroa(1/ 2) coroa (1/2) cara(1/2) coroa(1/ 2) cara(1/2) cara(1/2) cara(1/2) coroa(1/ 2) coroa(1/ 2) coroa(1/ 2) cara(1/2) coroa(1/ 2) cara(1/2) cara(1/2) árvore das probabilidades coroa(1/ 2) coroa(1/ 2) coroa(1/ 2) coroa(1/ 2) cara(1/2) coroa(1/ 2) 11 Distribuição Binomial A distribuição binomial resolve problemas de contagem respondendo perguntas do tipo “quantos” em experimentos onde: (1) há dois resultados possíveis , (2) a probabilidade de sucesso é constante e (3) os eventos são independentes. E(X ) X ~ Bin ( n , p ) Var ( X ) P(X x) n! x! n x p q n np npq x x ! 12 Distribuição de Poisson Muitas pessoas confundem a distribuição binomial com a de Poisson, já que ambas resolvem problemas de contagem. Uma diferença fácil de observar entre as duas é que a binomial tem um número máximo possível de ocorrências e a Poisson não tem. EXEMPLOS: Se lançarmos uma moeda 3 vezes, qual é o número máximo de caras que se poderá obter? Se lançarmos uma moeda 100 vezes, qual é o número máximo de caras que se poderá obter? Quantas pessoas estarão na fila no horário de pico? Quantos telefonemas por dia são registrados em um call center? Quantos acidentes vão acontecer este ano? Assim, uma pergunta como “quantas pessoas estarão na fila no horário de pico” não pode ser respondida por uma binomial. 13 Distribuição de Poisson Nestes exemplos, interessa contar quantas vezes alguma coisa acontece em um espaço contínuo de tempo. Quando isso acontece, podemos usar a distribuição de Poisson X ~ Poisson P(X k) ( E(X ) ) k e Var ( X ) k! 14 Distribuições de Probabilidades para Variáveis Aleatórias Contínuas (f.d.p.) Distribuição Uniforme Contínua Distribuição Normal Distribuição Exponencial Distribuição de Gama Distribuição Qui-Quadrado Distribuição t de Student Distribuição F de Snedecor 15 Distribuição Normal Quanto tempo vai demorar até o fornecedor entregar a encomenda que fizemos hoje? tempo de entrega semanas 16 Distribuição normal tempo de entrega Com base em dados, podemos construir um histograma. Já vimos que, tornando o tamanho dos blocos cada vez menores, chegamos a uma função que se ajusta aos dados. Que função é essa? Podemos propor um triângulo. Mas essa distribuição tem alguns problemas… semanas Por exemplo, ela diz que o tempo de entrega tem um valor mínimo e um valor máximo que pode assumir (cerca de 1,45 e 1,98 semanas). É razoável pensar que é impossível o produto demorar menos do que 1,45 ou mais do que 1,98 semanas para ser entregue? Distribuição normal tempo de entrega Diminuindo o tamanho dos intervalos, vemos surgir outros problemas. No topo da distribuição, a gente parece ter uma forma arredondada, não uma ponta. Mais ainda, a distribuição triângular não se ajusta muito bem aos dados nas caudas. semanas Precisamos então de uma distribuição ligeiramente arredondada, que não tenha limites e que tenha caudas. No momento em que a turma compreender isso, pode-se introduzir a distribuição normal 18 Distribuição normal tempo de entrega 2 1 1 f (x) 0 ,1 e 2 x 1,7 0 ,1 2 Assim, se introduz a curva normal como uma sugestão para modelar os dados. semanas 19 Distribuição normal tempo de entrega 2 1 1 f (x) 0 ,1 e 2 x 1,7 0 ,1 2 Desvio padrão = 0,1 Cotação Tempo médio de média entregado = 1,7 semanas dólar = 1,7 2 1 Neste exemplo, a distribuição normal é expressa por: 1 f (x) 0 ,1 e 2 2 x 1,7 0 ,1 Distribuição normal tempo de entrega Desvio padrão = 0,1 1,7 é o tempo médio de entrega, mostrado pelas linhas azuis no histograma e na fórmula. Já o desvio padrão, que dá o quanto o tempo de entrega varia em torno da média, é 0,1, indicado pelas linhas laranjas e mostradas na fórmula. No próximo slide, mostraremos a curva normal genérica. Cotação do Tempo médio de entrega = 1,7média semanas dólar = 1,7 2 1 Neste exemplo, a distribuição normal é expressa por: 1 f (x) 0 ,1 e 2 2 x 1,7 0 ,1 Distribuição normal X ~ N ( 2 ; ) E(X ) V (X ) 2 1 f (x) 1 e x 2 2 2 Note que a distribuição normal possui dois parâmetros: o valor esperado e a variância. O valor esperado é igual ao valor médio da variável aleatória normal. É importante ter uma noção intuitiva do que significam os parâmetros da normal, porque esta distribuição é muito útil. Distribuição normal Qual a probabildiade do tempo de entrega ser acima de 1,80 semanas? 1 P(X 1 1 , 80 ) 1 , 80 tempo de entrega e 2 x 2 dx 2 Impossível!!! A probabilidade de X>1,80 seria a área abaixo da curva normal e apontar o fato de que isso seria calculado pela fórmula mostrada. Com a matemática apresentada nos cursos de Cálculo, esta integral não pode ser resolvida. semanas Os matemáticos conseguiram calcular a integral acima para uma variável com =0 e =1. Esta variável, Z~N(0,1), segua o que se chama uma distribuição normal padrão. Distribuição normal Qual a probabilidade do tempo de entrega ser acima de 1,80 semanas? tempo de entrega 1 P(X 1 1 , 80 ) 1 , 80 z P (Z z) 1 e 2 x 2 dx 2 1 e 2 z 2 dz 2 Para esta integral, os matemáticos conseguiram encontrar uma solução. semanas 24 tempo de entrega 1 P(X 1 1 , 80 ) 1 , 80 z P (Z z) 1 e x 2 2 dx 2 1 e 2 z 2 dz 2 Para esta integral, os matemáticos conseguiram encontrar uma solução. semanas Comparando as duas, deve-se conseguir observar que: Z ~ N(0,1) e que Z = (X – )/ A distribuição N(0,1) é uma distribuição normal padrão e a variável Z é dita padronizada. 25 Distribuição normal padronizada Como podemos saber quanto é P(Z>1)? Para isso, precisamos de uma tabela da distribuição normal (padronizada) A tabela ao lado nos dá a área à esquerda de um valor, ou seja, nos dá a probabilidade de Z ser menor do que um determinado valor. 26 Distribuição normal padronizada P(X<-2,76)=0,0029 27 Distribuição normal padronizada Qual a probabildiade do tempo de entrega ser acima de 1,80 semanas? tempo de entrega P(X 1 , 80 ) P X 1 , 80 1 , 70 P Z 1 0 ,1 P(Z > 1) é conhecido e é igual a 15,86%. COMO???? semanas P(Z > 1) = 15,86% ? Vejamos como determinar P(Z > 1) … Distribuição normal padronizada Como podemos saber quanto é P(Z>1)? P(Z>1) = 1 – P(Z<1) P(Z<1) pode ser obtido pela tabela... P(Z<1) = 0,8413 – P(Z>1) = 1 – 0,8413 – P(Z>1) = 0,1586 – P(Z>1) = 15,86% Agora, retornamos ao problema de como obtivemos P(Z>1). Não temos P(Z>1) diretamente, mas temos P(Z<1). Com esse resultado, calculamos P(Z>1) = 1 – P(Z<1) e chegamos a 1586%, como tínhamos dito anteriormente. Desvios da normalidade A distribuição normal é igual para ambos os lados. Ela é claramente simétrica. Nem todas as distribuições são assim. Elas são ditas assimétricas. A assimetria nos diz se a variável aleatória tende a se afastar da moda igualmente para os dois lados ou mais para um lado do que para outro. 30 Desvios da normalidade Assimetria Moda = Média = Mediana Mediana Moda 31 Moda = Média = Mediana Mediana Moda Em uma distribuição simétrica, como a normal, o valor máximo divide a distribuição em dias, partes idênticas. Portanto, a moda é igual à mediana. Como a média está sempre entre a moda e a mediana, as 3 são iguais. Isso não ocorre no caso de uma distribuição assimétrica. No caso da distribuição em azul, a moda está no início da distribuição e claramente não divide a amostra em duas partes iguais. A moda é, portanto, diferente da mediana. A assimetria, portanto, pode ser detectada olhando o gráfico da distribuição ou comparando a moda com a mediana e vendo se elas são iguais ou diferentes. Distribuição exponencial Considere as seguintes perguntas: Quantas pessoas chegam na fila no horário de pico? X = número de pessoas que chegam na fila no horário de pico Qual é o tempo que demora entre a chegada de duas pessoas? T = tempo entre a chegada de duas pessoas 33 Distribuição exponencial Pode-se mostrar que, se X segue uma distribuição de Poisson, o tempo entre duas pessoas na fila seguirá uma distribuição exponencial, dada por: f (t ) e t Qual é o valor esperado de T ? 34 Distribuição exponencial A distribuição exponencial modela tempos entre eventos que seguem uma distribuição de Poisson. As distribuições exponencial e a de Poisson correspondentes possuem o mesmo parâmetro. f (t ) E (T ) Var ( T ) t e 1 1 2 35 Distribuição exponencial Poisson Exponencial Significado Número de pessoas que chegam em média Tempo entre a chegada de duas pessoas Valor esperado (média) λ 1/λ Variância λ 1 / λ2 36 Distribuição exponencial t P (T t) e s ds e s t 1 0 0 P (T t) 1 P (T P (T t) 1 (1 P (T t) e t) e t e t Função de distribuição acumulada da exponencial. ) t 37 Distribuição exponencial A duração de vida de uma lâmpada tem distribuição exponencial com duração esperada de 1.000h. Qual é a probabilidade de ela durar mais do que 1.000h? E (T ) 1 1 1 . 000 0 . 001 1 . 000 P (T t) e P (T 1 . 000 ) t e 0 . 001 1 . 000 e 1 37 % 38 Referências *BATISTA, J. L. F. Notas para acompanhar as aulas da disciplina “Introdução à Bioestatística Florestal”. Piracicaba, 1997. *BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 5. ed. São Paulo: Saraiva, 2010. *LEVINE, D. M.; BERENSON, M. L; STEPHAN, D. Estatística: teoria e aplicações. 5. ed. Rio de Janeiro: Livros Técnicos e Científicos, 2008. *VISMARA, Edgar de Souza. Notas das aulas de Estatística ministradas no Câmpus Dois Vizinhos. 2014. Referências básicas: VISMARA, Edgar de Souza. Notas das aulas de Estatística ministradas no Câmpus Dois Vizinhos. 2014. BATISTA, J. L. F. Notas para acompanhar as aulas da disciplina “Introdução à Bioestatística Florestal”. Piracicaba, 1997. BUSSAB, Wilton O. Estatística Básica. 6.Ed.São Paulo, SP: Saraiva, 2010. CAMPOS, Celso Ribeiro; WODEWOTZKI, Maria Lúcia Lorenzetti; JACOBINI, Otávio Roberto. Educação Estatística: Teoria e Prática em Ambientes de Modelagem Matemática. 1. Ed. Belo Horizonte: Autêntica, 2011. CRESPO, A. A. Estatística Fácil. 19. ed. São Paulo: Saraiva, 2009. MORETTIN, L. G. Estatística básica: probabilidade e interferência. São Paulo: Pearson Education Prentice Hall, 2010. VIEIRA, S. Elementos de estatística. 4. ed. São Paulo: Atlas, 2003. Referências complementares: DOWNING, D. Estatística aplicada. 3. ed. São Paulo: Saraiva, 2010. FONSECA, J. S. da. Curso de Estatística. 6. ed. São Paulo: Atlas, 1996. LEVINE, D. M.; BERENSON, M. L; STEPHAN, D. Estatística: teoria e aplicações. 5. ed. Rio de Janeiro: Livros Técnicos e Científicos, 2008. MAGNUSSON, W.; MOURÃO, G. Estatística sem matemática: a ligação entre as questões e análise. Londrina: Editora Planta, 2005. PETERNELLI, L. A.; MELLO, M. P. Conhecendo o R: uma visão estatística. 2. ed. São Paulo: UFV, 2011. VIEIRA, S. Elementos de estatística. 4. ed. São Paulo: Atlas, 2003. 40