Probabilidade e Estatística I – Antonio Roque – Aula 19 A Distribuição Binomial Muitas aplicações de probabilidade podem ser reduzidas a um modelo em que um experimento é repetido várias vezes, cada uma independentemente da outra, e com apenas dois resultados possíveis para cada experimento. Quando um experimento tem apenas dois resultados possíveis e a probabilidade de cada resultado permanece constante ao longo das suas repetições independentes, ele é chamado de experimento binomial, ou experimento de Bernoulli. O modelo tradicional para um tal experimento é o de uma moeda sendo lançada, com os possíveis resultados sendo cara ou coroa. Para cada repetição do experimento (lançar a moeda), os resultados possíveis são sempre dois, cara ou coroa, com probabilidades independentes dos resultados obtidos em experimentos anteriores. As propriedades de um experimento binomial são resumidas a seguir: 1. Deve haver um número definido de repetições. 2. O resultado de cada repetição deve ser um entre dois possíveis eventos. 3. As probabilidades de cada uma das duas possibilidades devem permanecer constantes ao longo das repetições. 4. Cada repetição deve ser independente das outras. Em geral, como apenas dois resultados são possíveis, denota-se a probabilidade de um evento por p e a do outro por q=1-p. Como exemplos, temos: a transmissão de uma doença genética, uma gravidez resultar em menina ou menino, um paciente morrer ou não dentro de um ano, um paciente ter teste positivo ou não etc. 1 Probabilidade e Estatística I – Antonio Roque – Aula 19 Suponhamos que se queira investigar a presença de certa doença genética entre três filhos de um casal. Todos os resultados possíveis estão mostrados na tabela a seguir (N=normal; D=doente): Filho 1 Filho 2 Filho 3 Probabilidade Nº de Normais N N N p. p. p 3 N N D p. p. q 2 N D N p. q. p 2 D N N q. p. p 2 N D D p. q. q 1 D N D q. p. q 1 D D N q. q. p 1 D D D q. q. q 0 Para o cálculo das probabilidades, usou-se o produto das probabilidades dos eventos individuais porque eles são independentes. Para a tabela anterior, o filho 1 é o mais velho, o 2 é o do meio e o 3 é o mais novo. A probabilidade de que uma criança seja normal é p e a probabilidade de que ela seja doente é q = 1 − p . As probabilidades dadas na tabela foram calculadas usando a fórmula para a probabilidade conjunta de três eventos independentes: P( A e B e C ) = P( A) ⋅ P( B) ⋅ P(C ) . Um sumário dos resultados, desprezando a ordem das crianças é dado na tabela a seguir. Nº de Normais (K) Nº de maneiras em que Probabilidade de haver K normais podem K normais ocorrer 2 Probabilidade e Estatística I – Antonio Roque – Aula 19 0 1 q3 1 3 3pq2 2 3 3p2q 3 1 P3 Como existem 3 crianças, há quatro possibilidades quanto ao número de normais: 0 normais, 1 normal, 2 normais e os 3 normais. Cada possibilidade pode ocorrer um certo número de vezes: nenhum normal ocorre 1 vez; 1 normal pode ocorrer de 3 maneiras diferentes (NDD, DND, DDN); 2 normais pode ocorrer de 3 maneiras diferentes (NND, NDN, DNN); e 3 normais só pode ocorrer de uma maneira. Para se calcular as probabilidades de ocorrência de um dado número de normais, usou-se a regra da soma de probabilidades. Por exemplo, para se saber a probabilidade de que, dos 3 irmãos 2 sejam normais calculou-se P(NND ou NDN ou DNN). Como as três seqüências de nascimento são mutuamente exclusivas (se as crianças nascem em uma ordem, não podem nascer em outra) basta somar as três probabilidades para se obter o resultado desejado: P(NND ou NDN ou DNN)=P(NND)+P(NDN)+P(DNN) = = p ⋅ p ⋅ q + p ⋅ q ⋅ p + q ⋅ p ⋅ p = 3p2q . Outra maneira útil de se visualizar experimentos binomiais é através de “diagramas de árvore” (veja abaixo). Uma árvore começa com um dos dois resultados possíveis e sua probabilidade, enquanto a outra árvore começa com o outro resultado possível e sua probabilidade. Depois, elas se ramificam entre os dois resultados possíveis e suas probabilidades e assim por diante. A 3 Probabilidade e Estatística I – Antonio Roque – Aula 19 probabilidade de uma seqüência será dada pelos produtos das probabilidades ao longo do ramo associado à seqüência. Por exemplo, a seqüência correspondente a nenhum nascimento normal (K=0) é representada pelo ramo mais à direita da árvore à direita (DDD), na figura acima. Sua probabilidade é então dada pelo produto das probabilidades associadas a cada trecho do ramo: P(No de normais = 0) = q ⋅ q ⋅ q = q3. Outro exemplo, a probabilidade de apenas 1 filho normal é dada pela soma das probabilidades associadas aos ramos mais grossos na figura a seguir: 2 P(No de normais = 1) = p ⋅ q ⋅ q + q ⋅ p ⋅ q + q ⋅ q ⋅ p = 3pq . 4 Probabilidade e Estatística I – Antonio Roque – Aula 19 As árvores desenhadas acima são uma maneira gráfica de representar o que se chama matematicamente de função geratriz da distribuição de probabilidades binomial, usualmente chamada apenas de função binomial. Especificamente, para o exemplo em questão, todas as probabilidades de ocorrência de qualquer número K de crianças normais em um total de 3 filhos (ou 3 repetições do experimento binomial que é ter um filho) podem ser obtidas da fórmula: ( p + q )3 = ( p + q )⋅ ( p + q )⋅ ( p + q ) = (p 2 + 2 pq + q 2 )⋅ ( p + q ) = = p 3 + 3 p 2 q + 3 pq 2 + q 3 Para calcular a probabilidade p de se obter k normais, seleciona-se o termo para o qual o expoente de p é igual a k (note que x 0 = 1, de maneira que p 3 = p 3q 0 e q 3 = p 0 q 3 ⎞⎟ : ⎠ P(0 Normal) = termo para o qual k = 0 ⇒ q 3 P(1 Normal) = termo para o qual k = 1 ⇒ 3 pq 2 P(2 Normais) = termo para o qual k = 2 ⇒ 3 p 2 q P(3 Normais) = termo para o qual k = 3 ⇒ p 3 . Em geral, para qualquer experimento binomial, com possíveis resultados A e Ā a cada repetição: ⎛ n ⎞ ⎛ n ⎞ ⎛ n ⎞ = ⎜⎜ ⎟⎟ p 0 q n − 0 + ⎜⎜ ⎟⎟ p1q n −1 + … + ⎜⎜ ⎟⎟ p m q n − m + … ⎝ 0 ⎠ ⎝1 ⎠ ⎝ m ⎠ n ⎛ n ⎞ n 0 ⎛ n ⎞ + ⎜⎜ ⎟⎟ p q = ∑ ⎜⎜ ⎟⎟ p k q n − k . k = 0 ⎝ k ⎠ ⎝ n ⎠ ( p + q )n Onde: p = probabilidade de A, a cada repetição; 5 Probabilidade e Estatística I – Antonio Roque – Aula 19 q = 1 − p = probabilidade de Ā a cada repetição; n = número de repetições; ⎛ n ⎞ n! ⎜ ⎜ k ⎟ ⎟ = C n , k = k!(n − k )! = possíveis combinações de k elementos ⎝ ⎠ retirados de um conjunto de n elementos; n!= n(n − 1)(n − 2)…(2)(1) = n fatorial. ⎛ n ⎞ n! ⎟ = Porque se usou a fórmula ⎜ para expressar o número de ⎜ k ⎟ k!(n − k )! ⎝ ⎠ formas possíveis de se obter k filhos normais em n nascimentos? Esta fórmula dá o número de possíveis combinações de k elementos distintos retirados de um conjunto de n elementos, como você deve se lembrar da aula sobre análise combinatória. Como os pais não estão interessados (neste caso!) na identidade dos filhos normais, mas apenas no número de maneiras em que k filhos normais podem ser combinados em uma seqüência de n filhos, eles devem usar a fórmula da combinação de n, k a k. Se você está em dúvida sobre esta fórmula, releia as notas de aula sobre contagem e, em particular, o último exercício daquelas notas. Se você ainda continua em dúvida, veja o seguinte exemplo. Suponha que um casal tenha 12 filhos (antigamente era comum) e que 5 deles sejam meninos (as outras 7 sejam meninas). De quantas maneiras o casal pode ter 5 meninos em um conjunto de 12 filhos? Observe que não estamos interessados na identidade dos meninos, mas apenas no sexo deles. Vamos considerar que os 12 filhos estão ordenados por ordem de nascimento (o 1o filho, o 2o filho, o 3o filho ... até o 12o filho). Então, tomando um dos 5 meninos ele pode ser qualquer um desses 12 filhos; há 12 possibilidades para 6 Probabilidade e Estatística I – Antonio Roque – Aula 19 ele. Fixando esse primeiro menino em uma posição qualquer, para o segundo menino existem agora apenas 11 posições possíveis. O número de possibilidades de colocarmos os dois na lista de 12 filhos é 12×11. Fixando os dois primeiros meninos, o número de posições possíveis para o terceiro menino é agora 10. Fixando este, o número de possibilidades para o quarto é igual a 9. Da mesma forma, para o quinto o número de possibilidades é 8. Portanto, o número de maneiras de distribuir 5 meninos em 12 posições é 12×11×10×9×8. O resultado acima pode ser generalizado para o número de possibilidades de se arranjar k meninos em n posições como n×(n−1)×(n−2)× ... ×(n−k+2)×(n−k+1). Como visto na aula sobre contagem, esta expressão corresponde ao arranjo de n elementos k a k: An,k = n! . (n − k )! Note, porém, que a fórmula acima leva em consideração a identidade dos meninos e não apenas a sua posição. Por exemplo, suponha que saibamos que há filhos meninos na 2a e na 5a posições. Então, se o João é o 2o e o Pedro é o 5o ou se o Pedro é o 2o e o João é o 5o faz diferença do ponto de vista da identidade deles, mas não do ponto de vista de termos o 2o e o 5o filhos meninos. Se estamos preocupados apenas com as posições ocupadas pelos filhos meninos, as duas situações (João na 2a e Pedro na 5a ou Pedro na 2a e João na 5o) são idênticas. Por causa disso, para calcularmos o número de possibilidades distintas de combinarmos k filhos meninos em n posições devemos contar apenas uma de todas as possíveis maneiras de se arranjar os k meninos em k posições dadas. Para se fazer isso deve-se dividir o número acima por k!, 7 Probabilidade e Estatística I – Antonio Roque – Aula 19 n! . k!(n − k )! Por exemplo, para a condição em que os 5 filhos ocupam as posições (2a, 5a, 7a, 9a e 10a) existem 5! permutações diferentes, mas só se deve contar uma delas. Para cada possível conjunto de 5 posições diferentes contido na fórmula 12! , existem 5! casos que somente diferem entre si quanto à identidade dos (12 − 5)! filhos. Chamando o número de combinações diferentes de 5 posições dentre as 12 possíveis de C12,5, podemos escrever, 12! = 5!xC12,5 . (12 − 5)! Então, ⎛12 ⎞ 12! ⎜⎜ ⎟⎟ = C12,5 = . 5 ( ) 5 ! 12 − 5 ! ⎝ ⎠ Generalizando para o caso de n posições possíveis e k elementos a distribuir entre elas, ⎛ n ⎞ n! ⎜⎜ ⎟⎟ = C12,5 = . k ( ) k ! n − k ! ⎝ ⎠ Para Fixar: FUNÇÃO BINOMIAL A função binomial é dada por: n ⎛ n ⎞ ⎛ n ⎞ ( p + q) n = ∑ ⎜⎜ ⎟⎟ p k q n−k = ⎜⎜ ⎟⎟ p o q n−o k =o ⎝ k ⎠ ⎝ o ⎠ ⎛ n ⎞ ⎛ n ⎞ + ⎜⎜ ⎟⎟ p1q n−1 + … + ⎜⎜ ⎟⎟ p n q o . ⎝1 ⎠ ⎝ n ⎠ Onde: ⎛ n ⎞ n! ⎜⎜ ⎟⎟ = Cn ,m = . m m ! ( n − m )! ⎝ ⎠ Cada termo da função binomial corresponde a um conjunto específico de ramos dos diagramas de árvore apropriados. 8 Probabilidade e Estatística I – Antonio Roque – Aula 19 Para o exemplo dos 3 filhos temos: n=3; P(normal)=p; P(doente)=q. Usando a função binomial, temos: 3 ⎛ 3 ⎞ k =0 ⎝ ⎠ ∑ ⎜⎜ k ⎟⎟ p k ⎛ 3 ⎞ ⎛ 3⎞ ⎛ 3 ⎞ q 3−k = ⎜⎜ ⎟⎟ p 0 q 3−0 + ⎜⎜ ⎟⎟ p1 q 3−1 + ⎜⎜ ⎟⎟ p 2 q 3−2 + ⎝ 0 ⎠ ⎝1 ⎠ ⎝ 2 ⎠ ⎛ 3⎞ 3! 3! + ⎜⎜ ⎟⎟ p 3 q 3−3 = p0q3 + p1q 2 + 0!(3 − 0)! 1!(3 − 1)! ⎝ 3⎠ + 3! 3! 3 ⋅ 2 ⋅1 0 3 p 2 q1 + p3q 0 = pq + 2!(3 − 2)! 3!(3 − 3)! 1 ⋅ (3 ⋅ 2 ⋅ 1) + 3 ⋅ 2 ⋅1 1 2 3 ⋅ 2 ⋅1 2 1 3 ⋅ 2 ⋅1 3 0 pq + p q + pq = 1(2 ⋅ 1) (2 ⋅ 1) ⋅ (1) (3 ⋅ 2 ⋅ 1) ⋅ 1 = p 0 q 3 + 3 p1q 2 + 3 p 2 q1 + p 3 q 0 = q 3 + 3 pq 2 + 3 p 2 q + p 3 . Então: P(0 normais) = termo para o qual o expoente de p é zero = q3; P(1 normal) = termo para o qual o expoente de p é 1 = 3pq2; P(2 normais) = termo para o qual o expoente de p é 2 = 3p2q; P(3 normais) = termo para o qual o expoente de p é 3 = p3. A notação pode ainda ser mais refinada para tornar o uso da função binomial mais produtivo. Suponha que o resultado que nos interessa em um experimento binomial seja simbolizado pela letra y. Então, pode-se escrever: ⎛ n ⎞ P( y = k | n, p ) = ⎜⎜ ⎟⎟ p k q n − k , ⎝ k ⎠ k ≤ n, 9 Probabilidade e Estatística I – Antonio Roque – Aula 19 que é igual à probabilidade de que o evento y ocorra k vezes em n repetições, quando a probabilidade de ocorrência de y a cada repetição é p. Usando esta notação concisa para o exemplo dos irmãos, e chamando a y de uma criança normal: ⎛ 3 ⎞ k 3− k , k = 1,2,3 . P(N de normais = k|3, p) = ⎜ ⎜ k ⎟ ⎟ p q ⎝ ⎠ o A função de probabilidade binomial também pode ser utilizada para calcular probabilidades de eventos compostos. Lembre-se que se alguns eventos forem mutuamente exclusivos, a probabilidade de ocorrência de um ou de outro ou de outro etc, é dada pela soma das probabilidades individuais. P(dois ou mais normais|3, p) = ⎛ 3 ⎞ ⎛ 3 ⎞ = P(k = 2 | 3, p) + P(k = 3 | 3, p) = ⎜⎜ ⎟⎟ p 2 q + ⎜⎜ ⎟⎟ p 3 q 0 = 3 p 2 q + p 3 . ⎝ 2 ⎠ ⎝ 3 ⎠ Poderíamos também ter escrito: ⎛ 3 ⎞ k 3− k P(2 ou mais normais|3,p) = ∑ ⎜ . ⎜ ⎟ ⎟ p q k = 2 ⎝ k ⎠ 3 Em geral: ⎛ n ⎞ P( y ≤ m | n, p) = ∑ ⎜⎜ ⎟⎟ p k q n−k , m ≤ n , k =0 ⎝ k ⎠ m e P( y ≥ m | n, p) = ⎛ n ⎞ k n−k ⎜⎜ ⎟⎟ p q , m ≤ n . ∑ k =m ⎝ k ⎠ n A primeira fórmula dá a probabilidade de termos qualquer número de casos que nos interessam, até m, em n repetições possíveis. 10 Probabilidade e Estatística I – Antonio Roque – Aula 19 A segunda fórmula dá a probabilidade de termos qualquer número de casos que nos interessam, de m até o máximo número possível, quando este número máximo é n. Exemplos: 1. Suponha que a probabilidade de se transmitir um gene responsável por certa doença seja de ¼. Qual a probabilidade de que, em uma família de 4 crianças, haja um filho são ou nenhum filho são? E qual a probabilidade de que haja exatamente 2 filhos doentes? P(1 filho são ou 0 filhos sãos) = P(3 filhos doentes ou 4 filhos doentes) = P(3 ou mais filhos doentes). Aplicando a fórmula: ⎛ 4 ⎞ k 4 − k = P(3 ou mais doentes/4, ¼) = ∑ ⎜ ⎜ k ⎟ ⎟ p q k =3 ⎝ ⎠ 4 3 4 ⎛ 4 ⎞ 3 1 ⎛ 4 ⎞ 4 0 4! ⎛ 1 ⎞ ⎛ 3 ⎞ 4! ⎛ 1 ⎞ = ⎜⎜ ⎟⎟ p q + ⎜⎜ ⎟⎟ p q = ⎜ ⎟ ⎜ ⎟ + ⎜ ⎟ ⋅ 1 = 3!(4 − 3)! ⎝ 4 ⎠ ⎝ 4 ⎠ 4!0! ⎝ 4 ⎠ ⎝ 3 ⎠ ⎝ 4 ⎠ 4 ⋅ 3 ⋅ 2 ⋅ 1 ⎛ 1 ⎞ = ⎜ ⎟ (3 ⋅ 2 ⋅ 1) ⋅ 1 ⎝ 4 ⎠ 3 4 3 1 12 + 1 13 ⎛ 3 ⎞ 4! ⎛ 1 ⎞ ⎜ ⎟ + ⎜ ⎟ = 4 ⋅ 4 + 4 = 4 = . 256 4 4 4 ⎝ 4 ⎠ 4! ⎝ 4 ⎠ Já a probabilidade de ter exatamente dois filhos doentes é: 2 2 ⎛ 4 ⎞ 2 4−2 4! ⎛ 1 ⎞ ⎛ 3 ⎞ = ⎜ ⎟ ⎜ ⎟ = P(2 doentes/4,¼) = ⎜⎜ ⎟⎟ p q 2 2 ! ( 4 − 2 )! ⎝ 4 ⎠ ⎝ 4 ⎠ ⎝ ⎠ = 4 ⋅ 3 ⋅ 2 ⋅ 1 ⎛ 1 ⎞⎛ 9 ⎞ 1 9 54 27 = ⎜ 2 ⎟⎜ 2 ⎟ = 6 × × = . (2 ⋅ 1)(2 ⋅ 1) ⎝ 4 ⎠⎝ 4 ⎠ 16 16 256 128 2. Um industrial percebeu que 15% das peças produzidas por uma certa máquina apresentam defeitos. Em uma amostra aleatória de 5 peças produzidas pela máquina, qual será a probabilidade de: (a) todas serem defeituosas; (b) uma ser defeituosa; (c) duas serem defeituosas; e (d) pelo menos uma ser defeituosa. 11 Probabilidade e Estatística I – Antonio Roque – Aula 19 A probabilidade de uma peça ser defeituosa é p = 0,15, de maneira que q = 1 0,15 = 0,85. Temos 5 repetições do experimento binomial. Logo: ⎛ 5 ⎞ ⎝ 5 ⎠ a) P(5 / 5,0,15) = ⎜⎜ ⎟⎟ p 5 q 5−5 = ⎛ 5 ⎞ ⎝1 ⎠ b) P(1 / 5,0,15) = ⎜⎜ ⎟⎟ p1q 4 = ⎛ 5 ⎞ ⎝ 2 ⎠ 5! (0,15)5 × (0,85)0 = (0,15)5 = 0,00008 ; 5!(5 − 5)! 5! (0,15)× (0,85)4 = 5 × 0,15 × 0,52 = 0,39 ; 1!4! c) P(2 / 5,0,15) = ⎜⎜ ⎟⎟ p 2 q 3 = 5! (0,15)2 (0,85)3 = 10 × 0,0225 × 0,61 = 0,14 ; 2!3! ⎛ 5 ⎞ k 5− k d)P(N de defeituosas ≥ 1/5,0,15) = ∑ ⎜⎜ ⎟⎟(0,15 ) (0,85) = k =1 ⎝ k ⎠ 5 o ⎛ 5 ⎞ 1 4 = ⎜⎜ ⎟⎟(0,15) (0,85) ⎝1 ⎠ ⎛ 5 ⎞ ⎛ 5 ⎞ 2 3 3 2 + ⎜⎜ ⎟⎟(0,15) (0,85) + ⎜⎜ ⎟⎟(0,15) (0,85) ⎝ 2 ⎠ ⎝ 3 ⎠ ⎛ 5 ⎞ 4 1 + ⎜⎜ ⎟⎟(0,15) (0,85) + ⎝ 4 ⎠ ⎛ 5 ⎞ 5 0 + ⎜⎜ ⎟⎟(0,15) (0,85) = 0,39 + 0,14 + 10 × 0,0034 × 0,72 + 5 × 0,0005 × 0,85 + ⎝ 5 ⎠ + 0,00008 = 0,39 + 0,14 + 0,02 + 0,002 + 0,00008 = 0,556 . Note que o último item poderia ser resolvido de outra maneira mais direta lembrando que P(ao menos uma) = 1 – P(nenhuma) = 1 – q5 = 1 – 0,444 = 0,556. 12