A Distribuição Binomial Henrique Dantas Neder September 17, 2012 I Vamos supor uma variável aleatória discreta que tenha apenas dois resultados possíveis: Sucesso (S) ou Fracasso (F). Vamos codificar o resultado sucesso como sendo igual a 1 e o resultado fracasso como sendo igual a 0. Então a repetição de um experimento aleatório com apenas dois resultados possíveis ocasionaria uma sequência de resultados tal como: 1,1,0,1,0,0,1,1,0,1,0,0,.... I Chamamos este experimento aleatório de experimento aleatório de Bernoulli e a sua variável aleatória associada a este experimento como variável aleatória de Bernoulli. Digamos que a probabilidade de sucesso seja igual a p. Então, em uma sequência infinita de realizações do experimento teremos aproximadamente p × 100% resultados iguais a 1 e (1 − p) × 100% resultados iguais a 0. I Geralmente designamos p como sendo um número decimal, como por exemplo p = 0,235. Este experimento pode ser visualizado mais concretamente da seguinte forma: suponhamos que temos um auditório com N = 300 pessoas sendo 75 pessoas com uma determinada característica e o I I I restante sem esta característica. Vamos selecionar aleatóriamente uma pessoa deste auditório e designar como sendo sucesso a pessoa selecionada ter a característica. A probabilidade p de sucesso será igual a 75/300 = 0, 25. Vamos considerar que podemos selecionar mais pessoas indefinidamente mas para isto ser feito temos que repor a pessoa selecionada anteriormente no auditório. Fazemos isto para conservar a probabilidade como sendo uma constante e igual a 0,25. Este é um experimento Bernoulli. Podemos calcular a esperança matemática desta variável aleatória, assim como a sua variância. A esperança matemática será igual a: E (X ) = Xp(x ) = 0 × (1 − p) + 1 × p = p A variância será: P V (X ) = X 2 p(x ) − (E (X ))2 = 02 × (1 − p) + 12 × p − p 2 = p − p 2 = p(1 − p) I Uma variável aleatória binomial está relacionada a um experimento aleatório de Bernoulli. Vamos supor que este experimento de Bernoulli seja repetido n vezes. Cada uma P destas n repetições do experimento Bernoulli tem a mesma probabilidade de sucesso p. Além disto, os resultados das realizações do experimento são independentes, ou seja, o fato de termos tido sucesso em uma realização não afetará a probabilidade de termos sucesso ou fracasso em realizações futuras. I Digamos que realizamos n vezes o mesmo experimento aleatório de Bernoulli e obtemos k sucessos. Este valor k também pode ser concebido como uma variável aleatória desde que imaginemos que podemos repetir a sequência de n tentativas diversas vezes. Voltemos ao exemplo do auditório e agora suponhamos que vamos selecionar com reposição n = 30 pessoas. I Se fizermos uma primeira seleção desta amostra aleatória poderemos ter um número de 12 pessoas com a característica dentro da amostra de 30 pessoas, se fizermos uma nova seleção, poderemos ter 18 pessoas e assim por diante. O número de pessoas que tem a característica é uma variável aleatória Binomial. Podemos então definir variável aleatória binomial (e paralelamente um experimento aleatório binomial) como: 1 - Seja Y uma variável aleatória de Bernoulli 2 - Realizamos o experimento Bernoulli n vezes 3 - Contamos quantas vezes foram obtidos sucessos 4 - O número de sucessos é uma variável aleatória Binomial De acordo com o exemplo anterior poderemos ter uma sequência como: 12,18,21,10,1,29,15,0,30,..... I Um detalhe é que os valores desta sequência devem estar contidos no intervalo [0,30]. Podemos imaginar que a probabilidade de termos um valor igual a 0 ou 30 deve ser muito baixo. A probabilidade de termos 30 sucessos é igual a p 30 = 0, 2530 = 8, 674 × 10−19 ' 0 e a probabilidade de termos 0 sucessos é igual a (1 − p)30 = 0, 7530 = 0, 00017858. I No entanto para valores intermediários deste intervalo de resultados podemos valores de probabilidade não desprezíveis. Para calcularmos a probabilidade para cada um destes valores intermediários podemos utilizar a expressão: P(X = x ) = I n x ! p x (1 − p)n−x Por exemplo a probabilidade de X = 7 é: ! 30 P(X = 7) = 0, 257 (1 − 0, 25)30−7 = 7 30! 7 30−7 = 0, 16623567 7!(30−x )! 0, 25 (1 − 0, 25) I Vamos definir uma rotina no Stata que calcule todas as probabilidades para todos os valores contidos no intervalo de 0 a 30: * ROTINA PARA CÁLCULO DE PROBABILIDADES DE UMA DISTRIBUIÇÃO BINOMIAL * definimos os parâmetros da variável aleatória binomial como sendo: * p = 0,25 e n = 30 forvalues i=1(1)30 { scalar p = exp(lnfactorial(30))/(exp(lnfactorial(‘i’))*exp(lnfactorial(30‘i’)))*.25^‘i’*(1-.25)^(30-‘i’) disp "P(X=‘i’) = ",p } I Os resultados de execução desta rotina são: P(X=1) = .00178582 P(X=2) = .00863147 P(X=3) = .02685346 P(X=4) = .06042027 P(X=5) = .10472847 P(X=6) = .14545621 P(X=7) = .16623567 P(X=8) = .15930919 P(X=9) = .12980749 P(X=10) = .09086524 P(X=11) = .05506984 P(X=12) = .02906464 P(X=13) = .01341445 P(X=14) = .00542966 P(X=15) = .00193055 P(X=16) = .0006033 P(X=17) = .00016561 P(X=18) = .00003987 P(X=19) P(X=20) P(X=21) P(X=22) P(X=23) P(X=24) P(X=25) P(X=26) P(X=27) P(X=28) P(X=29) P(X=30) I = = = = = = = = = = = = 8.394e-06 1.539e-06 2.443e-07 3.331e-08 3.862e-09 3.754e-10 3.004e-11 1.925e-12 9.508e-14 3.396e-15 7.806e-17 8.674e-19 Podemos desenvolver outra rotina Stata para desenharmos o gráfico da função de probabilidade: clear set more off set obs 30 gen x = . gen p = . forvalues i=1(1)30 { scalar px = exp(lnfactorial(30))/(exp(lnfactorial(‘i’))*exp(lnfactorial(30‘i’)))*.25^‘i’*(1-.25)^(30-‘i’) replace x = ‘i’ in ‘i’/‘i’ replace p = px in ‘i’/‘i’ } twoway (scatter p x) I O gráfico resultante é: .2 .15 p .1 .05 0 0 10 20 x I A distribuição de probabilidade correspondente a variável aleatória Binomial irá depender dos valores dos parãmetros n 30 e p. No gráfico anterior podemos perceber uma certa assimetria. Isto ocorre porque o valor do parâmetro p é bastante distinto de 0,5. Existem duas situações possíveis em que a distribuição de probabilidade da variável aleatória Binomial será simétrica: ou quando o valor do parâmetro p = 0,5 ou quando mesmo que p 6= 0, 5 o valor de n é tão grande (de forma que o produto np também seja grande. Um exemplo é quando p = 0,25 (como no exemplo anterior e n = 100. Vamos adaptar a rotina anterior e produzir outro gráfico para estes novos valores de parâmetros n e p: clear set more off set obs 100 gen x = . gen p = . forvalues i=1(1)100 { scalar px = exp(lnfactorial(100))/(exp(lnfactorial(‘i’))*exp(lnfactorial(100‘i’)))*.25^‘i’*(1-.25)^(100-‘i’) replace x = ‘i’ in ‘i’/‘i’ replace p = px in ‘i’/‘i’ } twoway (scatter p x) .1 .08 .06 p .04 .02 0 0 20 40 60 80 100 x Podemos também calcular os valores da esperança matemática e da variância para uma variável aleatória binomial. Sabemos que na realidade uma variável aleatória binomial é uma soma de variáveis aleatórias Bernoullis. Podemos empregar as propriedades do valor esperado e da variância de uma variável aleatória para calcularmos a esperança matemática e a variância de uma variável aleatória Binomial. Se X = X1 + X2 + ... + Xn então E [X ] = E [X1 ] + ... + E [Xn ] e E [X ] = np, ou seja a esperança matemática de uma variável aleatória binomial é igual ao produto do número de repetições n e a probabilidade p. Se consideramos que as variáveis aleatórias X1 , X2 , ..., Xn são variáveis aleatórias independentes, então: var (X ) = var (X1 ) + var (X2 ) + ... + var (Xn ) = nvar (Xi ) = np(1 − p) Exemplos 1) Uma moeda é lançada 10 vezes. Qual é a probabilidade de conseguirmos 3 caras? ! 10 P(X = 3) = 0, 53 (1 − 0, 5)10−3 = 0, 1171875 3 No Stata este resultsado pode ser conseguido por: disp exp(lnfactorial(10))/(exp(lnfactorial(3))*exp(lnfactorial(103)))*.5^3*(1-.5)^(10-3) 2) São realizadas 10 experiências com probabilidade de sucesso p = 0,10. Considerando que o experimento tem distribuição Binomial, calcular a média e o desvio padrão. E (X ) = np = 10 × 0, 10 = 1 V (X ) = np(1 − p) = 10 × 0, 10 × 0, 90 = 0, 9 √ O desvio padrão será igual a 0, 9 = 0, 9486833 3) O Departamento de Estatística é formado por 35 professores, sendo 21 homens e 14 mulheres. Uma comissão de 3 professores será constituída sorteando com reposição, ao acaso, três membros do departamento. Qual é a probabilidade da comissão ser formada por pelo menos duas mulheres? P(X ≥ 2 =!1 − P(X < 2) = 1 − (P(X =!0) + P(X = 1) = 35 35 14 0 14 35−1 1 ( 14 1−( ( 35 ) (1 − 14 )35−0 + = 35 35 ) (1 − 35 ) 1 0 0, 99999997 O comando Stata para fazer esta operação é: disp 1(exp(lnfactorial(35))/(exp(lnfactorial(0))*exp(lnfactorial(350)))*(14/35)^0*(1-14/35)^(35- 0)+exp(lnfactorial(35))/(exp(lnfactorial(0))*exp(lnfactorial(350)))*(14/35)^0*(1-14/35)^(35-0)) 4) Considere uma prova com 12 questões, cada uma com 4 alternativas. Suponha que o aluno escolha a resposta ao acaso. Qual é a probabilidade de que ele acerte pelo menos 6 questões? Temos uma distribuição binomial com parâmetros p = 0,5 e n = 12. Desejamos calcular ! P(X ≥ 6). ! 12 12 6 12−6 P(X ≥ 6) = 0, 5 × (1 − 0, 5) + 0, 57 × (1 − 6 7 ! 12 0, 512 × (1 − 0, 5)12−12 0, 5)12−7 + ... + 12 Adaptando uma rotina Stata anterior podemos ter: clear set more off scalar p = 0 forvalues i=6(1)12 { scalar px = exp(lnfactorial(12))/(exp(lnfactorial(‘i’))*exp(lnfactorial(12‘i’)))*.25^‘i’*(1-.25)^(12-‘i’) disp "P(X = ‘i’) = ", px scalar p = p + px } disp "P(X >= 6) = ", p O resultado da execução da rotina é: P(X ≥ 6) =0,05440223 Este resultado demonstra que se o aluno realizar a mesma prova 10000 vezes, ele acertará pelo menos 6 questões aproximadamente em apenas 544 vezes. Ou seja, não adianta muito “chutar”. Se o professor aumentar para 8 alternativas em cada questão, sendo apenas uma verdadeira,o resultado torna-se 0,00179405.