TEORIA DAS PROBABILIDADES Figura 1: Gráfico de pontos. Figura 3: Polígono de frequências. Figura 4: Função de distribuição de probabilidades sobre o histograma. A teoria das probabilidades estuda os modelos de probabilidades, definidos pela função f(x), para os diferentes processos ou fenômenos em estudo. 1) CONCEITOS BÁSICOS 1.1) Experimento Aleatório é um experimento no qual: i) todos os possíveis resultados são conhecidos; ii) resulta num valor desconhecido, dentre todos os resultados possíveis; iii) pode ser repetido em condições idênticas. 1.2) Espaço Amostral é o conjunto de todos os resultados possíveis para um experimento aleatório. É denotado por . Pode ser: - Discreto Finito: formado por um conjunto finito de pontos; Infinito: conjunto infinito e enumerável de pontos; - Contínuo formado por um conjunto não enumerável de pontos. 1.3) Um Evento é um subconjunto do espaço amostral, associado a um experimento. É denotado por letras maiúsculas: A, B, E, . . . a) Um Evento Complementar: o evento complementar de A é dado pelo conjunto dos pontos que pertencem ao espaço amostral, mas não pertencem a A. É denotado por Ac. Ac A = . b) Dois eventos A e B são mutuamente exclusivos, ou disjuntos, se a intersecção entre eles é vazia. A B = . Exemplos: Um dado equilibrado é lançado e seu número observado. O espaço amostral é: = { 1, 2, 3, 4, 5, 6 }. Sejam os eventos: A = O número observado é menor ou igual a 4, então, A = { 1, 2, 3, 4 } B = O número observado é par, B = { 2, 4, 6 } C = O número observado é ímpar, C = { 1, 3, 5 } Então, temos A B = { 2, 4 } e A C = { 1, 3 } B C = B e C são disjuntos Bc = C, pois B C = c) Evento elementar Seja um espaço amostral finito = { 1, 2, ..., N }. Então os elementos do espaço amostral são chamados de resultados elementares. Um evento é dito elementar se é formado por um único elemento do espaço amostral, por exemplo: A1 = { 1 }. obs: o evento elementar é dado por um subconjunto unitário. No lançamento de um dado equilibrado, cada um dos resultados possíveis são eventos elementares: A1 = { 1 }, A2 = { 2 }, A3 = { 3 }, A4 = { 4 }, A5 = { 5 }, A6 = { 6 }. Assim sendo, temos que: A1 A2 A3 A4 A5 A6 = 6 Ou seja: A i Ω . i 1 Exemplos: i) Experimento: numa comunidade carente conta-se o número de pessoas abaixo da linha de pobreza; A = { 0, 1, 2, . . . , N }, N = população da comunidade Eventos: A1 = ninguém abaixo da linha de pobreza A1 = { 0 } A2 = no máximo cinco pessoas abaixo da linha de pobreza A2 = { 1, 2, 3, 4, 5 } ii) Experimento: Na fabricação de celulares são contados os aparelhos produzidos até que se encontre um defeituoso; B = { 1, 2, 3, 4, . . . }, ou ainda B = N*, N* = N – { 0 } Eventos: B1 = o aparelho defeituoso ocorre até o 10ª celular produzido B1 = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 } B2 = são produzidos no mínimo 200 aparelhos antes do celular defeituoso B2 = { 201, 202, 203, . . . }, ou B2 = { X N* | X > 200 } iii)Experimento: No estudo a respeito de um tipo de câncer, indivíduos são acompanhados e o tempo (em meses) até a ocorrência da morte é observado; C = { t R | t 0 } ou C = { t 0 } Eventos: C1 = o indivíduo morre antes de completar 6 meses: C1 = { t < 6 } C2 = o indivíduo sobrevive pelo menos 2 anos antes de morrer C2 = { t R | t 24 } Obs: Este é um exemplo de um espaço amostral contínuo, ou não enumerável 2) PROBABILIDADES EM ESPAÇOS FINITOS 2.1) Definição Clássica de Probabilidade: seja A um evento associado a um espaço amostral finito , então número de pontos favoráveis a A , P A número total de pontos PA é a probabilidade de ocorrência do evento A e deve satisfazer: a) 0 PA 1; b) PΩ 1; c) Se A e B são disjuntos, então, PA B PA PB. 2.2) Definição Frequentista de Probabilidade: seja o evento A associado a um experimento. Suponha que esse experimento seja repetido n vezes e seja nA o número de ocorrências do evento A. A frequência relativa de A é dada por: fA nA , n 0 f A 1. Se n for grande, então a frequência probabilidade de ocorrência de A, ou seja, para n grande, f A P ( A) . f A se aproxima da 2.3) Definição Subjetiva de Probabilidade: Nas fundamentações clássica e frequentista, o cálculo da probabilidade independe do observador. (exemplos lançamento de um dado ou retirado de uma carta do baralho) Em algumas situações, por outro lado, a repetição do experimento simplesmente é impossível! Exemplos: i) Numa cirurgia, muitas vezes, deseja-se saber se o paciente vai ficar bom ou o tempo até sua recuperação; ii) O Brasil vai ser campeão mundial, em casa, na copa do mundo de futebol de 2014; iii) Será que vai chover amanhã? Fenômenos naturais ou envolvendo pessoas normalmente são imprevisíveis e difíceis (até mesmo impossíveis) de serem reproduzidos. Nesses casos a probabilidade pode ser considerada subjetiva, dependendo da crença do observador. 2.4) Propriedades de Probabilidade i) Se é o espaço vazio, então: P(vazio) = P() = 0; ii) P(espaço amostral todo) = P() = 1; iii) Se Ac é o evento complementar de A, então: P(Ac) = 1 – P(A) e, P(A) = 1 – P(Ac); iv) Se A e B são eventos quaisquer, então: P(AB) = P(A) + P(B) – P(AB) 3) Métodos de Contagem Quando o espaço amostral é equiprovável, ou homogêneo, o cálculo de probabilidades se resumo nas contagens dos elementos de cada um dos eventos e do espaço amostral. Desta forma, é importante o domínio de algumas técnicas de contagens. i) Permutação: quando temos de permutar n elementos em n posições diferentes Pn,n n! n! n(n 1)(n 2) 1, n! é o fatorial de n ii) Arranjo: quando, de um total de n elementos, devemos tomar k destes elementos e permutá-los A n, k n! n(n 1)( n 2) (n k 1) . (n k )! iii) Combinação: quando temos de escolher k, dentre n elementos distintos, sem considerar a ordem n n! Cn, k ; k k!(n k )! note que Cn, k A n, k . Pk , k 4) PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA Sejam A e B eventos quaisquer tais que PA 0 , então a probabilidade de B condicionada à ocorrência do evento A é definida por P (B | A ) P (B A ) . P( A) Lê-se: probabilidade de B dado A. Nota: se dois eventos A e B são independentes, então a ocorrência de um deles não altera a probabilidade de ocorrência do outro e, neste caso: P(B | A) P(B) ou P( A | B) P( A) . 4.1) Regra Multiplicativa das Probabilidades: da probabilidade condicional podemos escrever a probabilidade conjunta de A e B por − P( A B) P(B | A) P( A) ou − P( A B) P( A | B) P(B) E, se A e B forem independentes, então − P( A B) P( A) P(B) . Exemplos: i) Considere as informações da qualidade de um produto pela região de procedência. O produto foi classificado como tipos A e B, sendo o tipo A de melhor qualidade. Qualidade Tipo A Tipo B Total Região SE 118 42 160 S 52 23 75 CO 54 11 65 Total 224 76 300 Se um fornecedor é sorteado ao acaso para verificação, qual é a probabilidade de que: a) Seja de qualidade Tipo A? P(A) 224 0.7467 300 b) Seja procedente da região S? P(S) 75 0.25 300 c) Seja de qualidade Tipo B e da região CO? P(B CO) 11 0.0367 300 d) Seja da região S ou de qualidade Tipo A? P(A S) 75 224 52 247 0.8233 300 300 e) Sabendo que o fornecedor escolhido é da região SE, qual a probabilidade de que seja de qualidade do Tipo B? P(B | SE) 42 / 300 42 0.2625 160 / 300 160 f) Se a amostra não é de região S, qual é a probabilidade de que seja de qualidade do Tipo A? P[A | (SE CO)] P[( A SE) (A CO)] P(SE CO) P[A | (SE CO)] (118 54) / 300 172 0.7644 (160 65) / 300 225 ii) Um aluno responde a um teste de múltipla escolha com quatro alternativas, sendo uma só correta. A probabilidade de que saiba a resposta é de 30%. Se ele não sabe a resposta, vai “chutar”. Definindo: A = o aluno acerta a questão; S = o aluno sabe a resposta. a) Qual a probabilidade dele acertar a questão? P(A) = P(acertar sabendo ou acertar chutando) P(A) = P(acertar sabendo) +P(acertar chutando) P(A) = P(A | S) P(S) + P(A | Sc) P(Sc) P(A) = (1.0)(0.3) + (0.25)(0.7) = 0.475 * Esse resultado é conhecido como “lei da probabilidade total ”. Na prática a lei da probabilidade total soma as parcelas da probabilidade de um evento em todas as subpopulações. b) Se ele acertou a questão, qual é a probabilidade de que ele realmente saiba a resposta? P(S | A) P(S A) 0.3 0.632 P(A) 0.475 * Esse resultado é conhecido como “teorema de Bayes”. O teorema de Bayes divide a parcela do evento, sobre a qual desejamos calcular a probabilidade, pela probabilidade total do evento Teorema de Bayes: Seja um evento A ocorrendo sobre parcelas disjuntas do espaço amostral . A Assim, podemos escrever A como sendo: A (A E1) (A E2 ) (A E3 ) (A E4 ) (A E5 ) em que, P(A) P[( A E1) (A E2 ) (A E3 ) (A E4 ) (A E5 )] é a probabilidade total. O teorema de Bayes se deve ao Revendo Inglês Thomas Bayes, num trabalho publicado em 1763, e que recebe o seu nome em sua homenagem. Os exercícios a seguir são para resolver em sala iii) Sabe-se que numa população 8% das pessoas são infectadas por um vírus causador de uma doença muito grave. Um teste para detecção do vírus é eficiente em 99% dos casos nos quais os indivíduos são infectados, mas resulta em 2% de resultados positivos para os não infectados (falsos positivos). a) Uma pessoa dessa população que não tem nenhum sintoma faz o teste preventivamente. Qual é a probabilidade de que essa pessoa esteja infectada? b) Sabendo que o teste dessa pessoa deu positivo, qual a probabilidade de que ela seja da fato infectada?. iv) Uma mulher tem 1/3 de chance de ainda estar viva daqui a 30 anos e seu marido tem 2/5 de chance. Qual é a probabilidade de, daqui a 30 anos: a) Ambos estejam vivos b) Ao menos um esteja vivo. c) Só o homem estar vivo. v) Um dado equilibrado é lançado 12 vezes. Calcule a probabilidade de se obter: a) Dois seis. b) Quatro seis. c) Pelo menos dois seis. d) No máximo três seis. Diagrama em árvore para o exercício (iii) 5) VARIÁVEIS ALEATÓRIAS E MODELOS DE PROBABILIDADE 5.1) Variáveis aleatórias: uma variável aleatória (v.a.) é uma característica numérica que associa valores do conjunto dos números reais aos eventos em Ω. A v.a. representa uma característica individual das unidades de uma população, que podem ser observadas através de uma amostra. Exemplos de v.a.’s: X = número de indivíduos abaixo da linha da pobreza numa amostra de 80 pessoas de uma comunidade; T = tempo de sobrevida de pacientes com câncer de pulmão; Y = número de pessoas que votam no candidato Zelão; R = renda familiar em salários mínimos, numa amostra de pessoas de uma população rural; W = número de nascimentos do sexo feminino de uma maternidade, no período de um dia; Z = número de dias de estiagem até a ocorrência de chuva em São Carlos. As variáveis aleatórias podem ser classificadas como discretas e contínuas segundo a natureza do espaço amostral: i) v.a.’s discretas assumem valores em espaços discretos e, normalmente, são definidas por uma contagem; ii) v.a.’s contínuas assumem valores em espaços contínuos e, normalmente, são definidas por uma mensuração. 5.2) Função de probabilidade e função densidade: a função de probabilidade e a função densidade são funções que associam probabilidades a uma v.a. a) A função de probabilidade, denotada por p(x), é uma função que associa probabilidades diretamente aos possíveis valores de uma v.a. discreta X, sendo definida por: p(x) = P(X = x) Exemplo: Considere os nascimentos, independentes, de três crianças e seja a v.a. que conta o número de nascimentos do sexo feminino nesses 3 nascimentos: Espaço amostral: Ω = {(FFF), (FFM), (FMF), (MFF), (FMM), (MFM), (MMF), (MMM)} Neste caso o espaço amostral é equiprovável, pois cada um de seus elementos tem mesma probabilidade. Considerendo que P(F) = P(M) = 1/2, e que os nascimentos são independentes, temos que: P(FFF) = P(F)×P(F)×P(F) = 1/8. Obs: O mesmo vale para todos os demais elementos de Ω, resultando P(FFF) = P(FFM) = P(FMF) = P(MFF) = P(FMM) = P(MFM) = P(MMF) = P(MMM) = 1/8 Associando a este espaço amostral a v.a. X = número de crianças do sexo feminino dentre os três nascimentos, temos: Tabela: Função de probabilidade para uma v.a. discreta Elementos de Ω Valores de X Probabilidade p(x) (FFF) 3 1/8 (FFM), (FMF), (MFF) 2 3/8 (FMM), (MFM), (MMF) 1 3/8 (MMM) 0 1/8 Desta forma, a função p(x) = P(X = x), dada pela tabela acima, associa as probabilidades aos possíveis valos de X. b) A função densidade, denotada por f(x), associa probabilidades a intervalos de valores de uma v.a. contínua X, sendo dada pela área1 abaixo de sua curva (ver figura): A função densidade recebe, ainda, os nomes: função densidade de probabilidade ou função distribuição de probabilidade (fdp). Nota: Um exemplo de função densidade de uma v.a. contínua será visto mais adiante. 1 A operação matemática que calcula a área sob a curva de uma função f(x) é a integral: P(a X b) = b f ( x)dx . a 5.3) Principais modelos discretos de probabilidade: o modelo binomial. Seja X uma v.a. discreta, porém, para a definição do modelo binomial é que necessário que, antes, seja definido o que um ensaio de Bernoulli. Ensaios de Bernoulli são ensaios (ou experimentos) nos quais temos apenas dois resultados possíveis: sim/não; presença/ausência; ocorre/não ocorre; pertence/não pertence; 0 ou 1. Ao realizarmos um ensaio de Bernoulli estamos interessados em apenas um apenas um dos resultados ao qual chamaremos de sucesso sendo que, a não ocorrência do evento de interesse vamos chamar de fracasso. Por exemplo, a característica de interesse pode ser: a presença de uma doença; um hábito de comportamento ou de consumo; uma característica física; um defeito ou falha ; o resultado de uma medição classificado por um ponto de corte. etc... Para um ensaio de Bernoulli temos associadas as seguintes probabilidades: p = P(sucesso) e (1 – p) = P(fracasso) A observação individual desta característica de interesse para os elementos da amostra caracteriza realizações independentes de ensaios de Bernoulli. O modelo binomial é caracterizado pela realização de n ensaios independentes com apenas dois resultados possíveis (sucesso e fracasso), para os quais P(sucesso) = p é constante. Seja a v.a. X que conta os sucessos num número fixo de ensaios independentes de Bernoulli. Então, X tem distribuição binomial com parâmetros n e p. Notação: X binomial(n; p). A função de probabilidade binomial é dada pela fórmula: n x P(X = x) = p (1 – p)n – x, x x = 0, 1, 2, ..., n. Exemplos: i) Considere o exemplo dos nascimentos, independentes, de três crianças e seja a v.a. que conta o número de nascimentos do sexo feminino nesses 3 nascimentos: Podemos notar que o sexo tem apenas dois resultados possíveis: masculino e feminino. Como o interesse está no nascimento de crianças do sexo feminino, então, o evento caracterizado como sucesso será exatamento o nascimento do sexo feminino. Logo, a v.a. X = número de bebês do sexo feminino dentre os três nascimentos tem distribuição binomial com parâmetros n = 3 e p = 1/2. Ou seja: X binomial(3; 0.5). e, a sua fnção de probabilidade é definida como: 3 x 3 x P(X = x) = 0.5 1 0.5 , x x = 0, 1, 2, 3. Assim, as probabilidades para cada um dos possíveis valores de X sãocalculadas por: 3 1 0 3 0 0.53 ; P(X = 0) = 0.5 1 0.5 8 0 3 3 1 31 P(X = 1) = 0.5 1 0.5 3 (0.5)3 ; 8 1 3 3 2 3 2 3 (0.5)3 ; P(X = 2) = 0.5 1 0.5 8 2 3 3 P(X = 3) = 0.5 1 0.5 3 3 3 1 0.53 . 8 Resolvendo as frações, temos: x 0, x 1, x 2, x 3, p(0) P( X p(1) P( X p(2) P( X p(3) P( X 0) 0.125 1) 0.375 2) 0.375 3) 0.125 Gráfico da função de probabilidade: ii) Suponha que uma característica genética é determinada por um par de genes, sendo D o gene dominante e d o gene recessivo. Assim sendo, DD é dominante puro; Dd é híbrido e dd recessivo puro. Sabese, ainda, que essa característica é determinada pelo gene recessivo. Uma família na qual os pais são ambos híbridos tem quatro filhos, determine: a) A distribuição de probabilidade e os seus parâmetros. Qual é a probabilidade de que: b) três dos filhos tenham a característica genética; c) no máximo dois dos filhos tenham a característica. Com os dois pais híbridos, ou seja, ambos Dd, temos as seguintes possibilidades de cargas genéticas para os filhos: Considerando, ainda, P(D) = P(d) = 1/2, temos as seguintes probabilidades associadas: 2 1 1 P ( DD ) = 4 2 2 1 1 P ( Dd ) = 2 2 2 2 1 1 P ( dd ) = 4 2 Filho probabilidade Dominante puro DD 1/4 Hibrído Dd 1/2 Recessivo puro dd 1/4 a) Como a característica genética é determinada pelo gene recessivo, ela só vai se manifestar se o filho for dd. Assim sendo, teremos uma probabilidade igual a 0.25 de que um filho apresente a característica. Seja a v.a. X = número de filhos com a característica genética dentre os quatro irmãos. Então, X tem distribuição binomial com parâmetros n = 4 e p = 0.25. X binomial(4; 0.25). e, a sua fnção de probabilidade é dada por: 4 x p(x) = P(X = x) = 0.25 0.75 x 4 x , x = 0, 1, 2, 3, 4. b) Probabilidade de que três filhos apresentem a característica. 4 P( X 3) 0.25 3 0.75 1 3 P( X 3) 4 (0.0156 ) (0.75) 0.0469 c) Probabilidade de que, no máximo dois filhos tenham a característica. P( X 2) P( X 0) P( X 1) P( X 2) ou, ainda, P( X 2) 1 P( X 3) 1 P( X 3) P( X 4) Como P( X 4) 0.0039 , então: P( X 2) 1 0.0469 0.0039 0.9492 6. Principais modelos contínuos: a distribuição Normal. Uma v.a. X tem distribuição normal ou Gaussiana, com parâmetros e 2 se a sua f.d.p. for: f x 2 1 e x 2 22 , x , e 2 0 . Notação: X normal( ; 2) ou X N( ; 2). As principais características da distribuição normal são: i) X tem média e variância 2; ii) é uma função simétrica em torno de : f( – k) = f( + k); iii) a função muda sua curvatura nos pontos ( – ) e ( + ); iv) tem o conhecido formato de sino com probabilidade de aproximadamente 95% entre ( – 2) e ( + 2) (ver figura). A função de distribuição acumulada F(x) do modelo normal não pode ser determinada algebricamente, o que dificulta o cálculo das probabilidades, pois F(x) = P(X x) No entanto, o resultado a seguir vem facilitar as coisas: Resultado: a transformação a seguir padroniza a v.a. normal Z X . Fazendo com que Z tenha média igual a 0 e variância igual a 1. Com este resultado, basta construir uma única tabela de probabilidades para a distribuição normal padronizada que teremos as probabilidades para uma v.a. normal qualquer. Exemplos: i) Seja uma va X com distribuição normal com média 220 e variância 16, ou seja, X N(220; 16). Calcular as probabilidades abaixo: a) P(X 225) X 220 225 220 P(X 225) = P PZ 1.25 = 0.8943 4 4 b) P(210 X 228) 210 220 X 220 228 220 P(210 X 228) = P 4 4 4 P 2.50 Z 2.00 PZ 2.00 PZ 2.50 0.9773 – 0.0062 = 0.9711 c) Qual o valor de k tal que P(X k) = 0.01? X 220 k 220 P(X k) = P = 0.01, 4 Da tabela temos que 4 k 220 2.33 4 k = 210.38 d) Quais os valores k1 e k2 simétricos em torno de , tal que P(k1 X k2) = 0.95? k 220 k 220 Z 2 P(k1 X k2) = P 1 = 0.95, 4 Da tabela temos que P Z 4 k1 220 k 220 P Z 2 = 0.025, 4 4 e, k1 220 1.96 k1 = 212.16 4 Como k1 e k2 simétricos em torno da média, então k 2 220 1.96 k2 = 227.84 4 ii) Suponha que a renda de uma população (em s.m.) tenha distribuição N 4; 0.36 . Qual a probabilidade de que: a) Uma pessoa escolhida ao acaso desta população tenha renda inferior a 2.87sm? b) Uma pessoa escolhida ao acaso desta população tenha renda superior a 5.05sm? c) Qual a proporção de pessoas com renda entre 2.8 e 5.2 sm’s? a) P(X < 28.7) 28.7 40 P(X < 28.7) = P Z PZ 1.88 = 0.0301 6 b) P(X > 50.5) 50.5 40 P(X > 50.5) = P Z 1 PZ 1.75 = 0.0401 6 c) P(28 < X < 52) P(28 < X < 52) = P 2.0 Z 2.0 PZ 2.0 PZ 2.0 = 0.9773 – 0.0228 = 0.9545 iii) O tempo até a falha dos televisores da marca X-View tem distribuição normal com média 35 mil horas ( 4 anos) e desvio padrão de 2.675 mil horas ( 3.7 meses). A empresa deseja fixar a garantia do produto de forma que, no máximo 5% dos televisores apresentem problemas abaixo desse limite. a) Encontre o limite de garantia L? P(X < L) = 0.05 L 35 P Z 0.05 2.675 L 35 1.645 2.675 L 35 (1.645) (2.675) L = 30.6 mil horas ( 3.5 anos) b) Os diretores da companhia traçam um plano de ação para reduzir a variabilidade do processo de produção. De quanto deve ser reduzido o desvio padrão do processo para que, mantido o limite obtido em (a), o percentual de itens abaixo do limite garantia caia pela metade? P(X < 30.6) = 0.025 30.6 35 P Z 0.025 * 30.6 35 1.96 * 4.4 1.96 * * = 2.245 mil horas ( 3.1 meses) Definição: Seja Z o quantil 100% da distribuição N(0, 1), então, Z é tal que P(Z Z) = Principais quantis da distribuição Normal = 0.01 = 0.025 = 0.05 = 0.95 = 0.975 = 0.99 Quantil 1% 2.5% 5% 95% 97.5% 99% Z Z0.01 = –2.33 Z0.025 = –1.96 Z0.05 = –1.645 Z0.95 = 1.645 Z0.975 = 1.96 Z0.99 = 2.33 Obs: 1) Note que Z = – Z(1–), por exemplo Z0.025 = – Z0.975; 2) No programa R os quantis da normal são obtidos pelo comando: qnorm(), 0 1. iv) Um produto é vendido em pacotes de um quilograma, sendo que a distribuição do peso dos pacotes é normal com média 1005g e desvio padrão 12g. a) Qual a probabilidade de que um pacote saia com peso 15g abaixo da média? b) Num fardo com 12 pacotes, qual é a probabilidade de no máximo 2 estejam abaixo de 990g? c) Um fiscal informou o produtor de que são aceitos apenas 5% dos pacotes com peso abaixo de 995g. De quanto deve diminuir a variabilidade para que esse limite seja atendido? d) Como o processo não permite o ajuste na variabilidade, a opção seria aumentar a média para atender a especificação. De quanto deve ser a nova média? e) Com a nova média obtida no item anterior, de quanto se espera seja o aumento na perda do empacotador em uma tonelada do produto.