Distribuições Teóricas de Probabilidade Bioestatística e Computação I ● Distribuições Teóricas de Probabilidade Variável Aleatória ● ● Maria Virginia P Dutra Distribuição de probabilidade ● Especifica todos os resultados possíveis e a probabilidade de ocorrência de cada um. ● Para variáveis discretas, equivale à frequência relativa após um número grande de repetições. ● Para variáveis contínuas, especifica as probabilidades associadas com intervalos de valores. Eloane G Ramos Vania Matos Fonseca Pode assumir valores diferentes e qualquer resultado particular é determinado pelo acaso. Pós Graduação em Saúde da Mulher e da Criança IFF – FIOCRUZ Baseado nas aulas de M. Pagano e Gravreau e Geraldo Marcelo da Cunha Distribuição empírica de probabilidade ● Algumas variáveis podem ter sua distribuição de probabilidade determinada com base em considerações teóricas. ● As distribuições teóricas de probabilidade são definidas a partir de uma equação matemática. ● Exemplos: Probabilidades calculadas a partir de uma quantidade finita de dados 0,4000 0,3597 0,3000 Probabilidade ● Distribuição teórica de probabilidade 0,2224 0,1970 0,2000 0,1104 0,1000 0,0597 0,0343 0,0164 0,0000 0 1 2 3 DMOS 4 5 6 DMOS Fr (%) 0 35,97 1 22,24 2 19,70 3 11,04 4 5,97 5 3,43 6 1,64 Total 100,00 ● variáveis dicotômicas seguem distribuição binomial ● de contagem seguem distribuição de Poisson ● algumas variáveis fisiológicas contínuas seguem distribuição normal Função de distribuição de probabilidade ● ● Além da tabela e do gráfico a distribuição teórica de probabilidade pode ser descrita por sua equação. Distribuição de Probabilidade Binomial ● Seja uma variável aleatória dicotômica Y ● variável de Bernoulli ● fracasso e sucesso ● → Função de distribuição de probabilidade ● probabilidade de sucesso = p ● → Função de densidade de probabilidade ● Exemplo Para variáveis discretas é denotada por P(X=x) ● ● X – o nome da variável aleatória – Probabilidade de um indivíduo qualquer ser fumante p = 29% – P(Y = fumante) = p = 0,29 – P(Y = ñ fumante) = 1 – p = 0,71 x – um valor que a variável pode assumir 0 P X = x1 ∑ [ P X = x]=1 todo x Distribuição de Probabilidade Binomial ● Seja uma variável aleatória X ● De n indivíduos escolhidos ao acaso ● X → número de indivídulos fumantes ● X → variável numérica discreta ● Dado que a probabilidade de ser fumante = p Distribuição Binomial ● n=3 ● Como os resultados de cada indivíduo são independentes. Indivíduo Indivíduo 1 2 Indivíduo 3 Probabilidade x x P(X=x) (1-p) (1-p) (1-p) 0 0 0 (1-p) (1-p) (1-p) 0 0 – P(X=x) = ? 0 0 1 (1-p) (1-p) p 1 1 3 p (1-p)2 – Qual o tipo da variável X? 0 1 0 (1-p) p (1-p) 1 2 3 p2 (1-p) 1 1 (1-p) p p 2 p3 Quais os valores possíveis? 0 3 – 1 0 0 p (1-p) (1-p) 1 1 0 1 p (1-p) p 2 1 1 0 p p (1-p) 2 1 1 1 ppp 3 0=ñ fumante; 1=fumante Distribuição Binomial ● Distribuição Binomial De forma geral ● ● Um mesmo experimento ocorre n vezes ● Os experimentos são independentes ● Probabilidade de sucesso p em cada experimento ● Dado que a probabilidade de um indivíduo ser fumante é 29%, de 3 indivíduos escolhidos ao acaso, qual a probabilidade de 2 serem fumantes? ● Combinação ● Cada experimento é independente e envolve a mesma variável dicotômica n! x n−x p 1− p P X = x= x !n− x! p=0,29; n=3; x=2 3! P X =2= 0,292 1−0,293−2 2 ! 3−2! 3×2×1 ×0,292 ×1−0,291 P X =2= 2×1×1 ! Número de vezes que x objetos podem ser selecionados de um total de n objetos sem importar a ordem n! n = x x ! n− x! Combinação de n objetos escolhidos x por vez Distribuição Binomial ● ● X → numérica discreta P X = x= n p x 1− pn− x x n! x n− x P X = x= p 1− p x ! n− x! ● n !=n×n−1×n−2⋯3×2×1 0 !=1 por definição X → variável que representa o número de sucessos: X sucessos em n tentativas – n! = n fatorial Distribuição Binomial ● Dado que a prevalência de obesidade é 22%, de 15 indivíduos escolhidos ao acaso, qual a probabilidade de encontrarmos 5 obesos? ● p=0,29; n=15; x=5 P X = x= n! x n−x p 1− p x !n− x! 15! 0,225 1−0,2210 5 !×10 ! 15×14×13×12×11×10 ! 0,225 1−0,2210 P X =5= 5 !×10 ! P X =5= Distribuição Binomial Distribuição Binomial Distribuição Binomial, para n=15 e p=0,29 0,25 ● 0,22 Média Variância P(X=x) np ● 0,18 0,15 0,14 0,10 0,10 0,07 0,05 np 1− p DMOS segue distribuição binomial? 0,20 0,20 0,04 0,03 0,01 0,01 0,00 0 ● 1 2 3 4 5 6 7 8 0,00 0,00 0,00 0,00 0,00 0,00 9 10 11 12 13 14 15 x Desvio-padrão Distribuição Binomial, para n=15 e p=0,71 np 1− p 0,25 0,22 0,20 P(X=x) 0,20 0,18 0,15 0,14 0,10 0,10 0,07 0,05 0,00 0,04 0,03 0,00 0,00 0,00 0,00 0,00 0,00 0 1 2 3 4 5 0,01 6 0,01 7 8 9 10 11 12 13 14 15 x Distribuição Binomial Distribuição de Poisson ● Distribuição Binomial, para n=15 e p=0,5 Variáveis aleatórias numéricas discretas ● Número de vezes que um evento raro ocorre num grande número de repetições ● Dados de Contagem ● Exemplos 0,25 0,20 0,20 0,20 0,15 0,15 P(X=x) 0,15 0,10 0,09 0,05 0,04 0,04 0,01 0,00 0,00 0,00 0,00 0 1 2 3 – Número de chegadas em um pronto-socorro durante a madrugada – Número de pessoas com leucemia numa cidade – Número de acidentes de carro na ponte Rio-Niterói – Número de metamielócitos no sangue de pessoas sadias 0,09 0,01 4 5 6 7 x 8 9 10 11 12 0,00 0,00 0,00 13 14 15 Distribuição de Poisson e− x P X = x= x! ● ● ● X → número de ocorrências de um evento num intervalo λ (lambda) → número médio de ocorrências do evento no intervalo considerado Distribuição de Poisson e− x P X = x= x! ● Exemplo. A probabilidade de um indivíduo estar envolvido num acidente nos Estados Unidos por ano é 0,00024. Numa comunidade de 10.000 pessoas, qual a probabilidade de não haver nenhum acidente em um período de 1 ano? e → constante de Euler = 2,71828 ● X → número de pessoas acidentadas por ano ● P(X=0) = ? ● λ → média de pessoas acidentadas por ano = 10.000 x 0,00024 = 2,4 e−2,4 2,40 −2,4 =e =0,091 P X =0= 0! Distribuição de Poisson ● ● ● Exemplo. A probabilidade de um indivíduo estar envolvido num acidente nos Estados Unidos por ano é 0,00024. Numa comunidade de 10.000 pessoas, qual a probabilidade de não haver nenhum acidente em um período de 1 ano? Distribuição de Poisson ● Exemplo. Um hospital recebe em média 4 chamadas de urgência por dia. Qual a probabilidade de que o hospital receba: ● a) Oito chamadas Poderíamos ter utilizado a distribuição binomial com p=0,00024 e n=10.000, mas calcular n! seria impraticável. Quando o evento dicotômico é raro e o número de repetições é muito grande a distribuição binomial pode ser bem aproximada pela Poisson. ● – X → número de chamadas de urgência em um dia – λ → média do número de chamadas de urgência por dia −4 8 e 4 0,0183×65536 =0,0297 = 8! 40320 b) 3 chamadas ou menos – P(X=8)=? P X =8= – P(X≤3) = P(X=0) + P(X=1) + P(X=2) + P(X=3) – P(X≤3) = 0,018 + 0,073 + 0,147 + 0,195 = 0,433 Exemplo. Um hospital recebe em média 4 chamadas de urgência por dia. Qual a probabilidade de que o hospital receba 10 chamadas ou menos no mesmo dia? ● – Usar as tabelas de probabilidade (Tabela A.2) ou um software de estatística Distribuição de Poisson ● Média ● ● Distribuições de Poisson 0,40 Variância ● ● λ λ Desviopadrão ● lambda = 1 lambda = 4 lambda = 7 lambda = 10 0,35 0,30 0,25 P(X=x) Distribuição de Poisson 0,20 0,15 0,10 0,05 0,00 0 2 4 6 8 10 12 14 16 18 x Distribuição Normal ● Distribuição Gaussiana ● Variáveis contínuas ● É frequentemente associada com variáveis biológicas mensuráveis ● Peso ● Altura ● Pressão sanguínea ● Glicemia ● Intervalo R-R Distribuição Normal ● Não é definida para valores específicos e sim para um intervalo de valores. ● Função densidade de probabilidade f(x) e não mais P(X=x). ● A probabilidade associada a cada intervalo é representada pela área abaixo da curva de densidade de probabilidade. ● A probabilidade de observarmos um valor específico é zero. 20 Distribuição Normal Distribuição Normal f(x) = densidade de probabilidade ● f(x) = densidade de probabilidade ● P(X≤1) = área abaixo de f(x), para x≤1 ● P(X≤1) = área abaixo de f(x), para x≤1 0,045 0,045 0,040 0,040 0,035 0,035 0,030 0,030 0,025 0,025 f(x) f(x) ● 0,020 0,020 0,015 0,015 0,010 0,010 0,005 0,005 0,000 0,000 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 x Distribuição Normal f(x) = densidade de probabilidade 2 3 4 5 π (pi) = 3,14159 0,900 0,045 0,040 0,030 0,700 0,025 0,020 0,600 0,015 0,010 0,500 ● µ (mu) = média ● σ (sigma) = desvio-padrão ● Distribuição normal pode ser denotada por N(µ, σ) – N(µ=0, σ=1) = N(0,1) N(0,1) N(0,2) N(0,0.5) 0,800 0,035 0,005 – Média = 0, variando o desvio-padrão 0,000 -4 -3 -2 -1 0 1 2 3 4 f(x) ● 1 e 2 2 f(x) f x= 1 x− − 2 1 Distribuição Normal ● ● 0 x 0,400 x 0,300 0,200 0,100 0,000 -8 -6 -4 -2 0 x 2 4 6 8 Distribuição Normal ● Distribuições de probabilidade contínuas Desvio-padrão = 1, variando a média ● No caso de variáveis contínuas só é possível calcular a probabilidade de X estar contido em algum intervalo de valores. ● Exemplo. Qual a probabilidade da altura de uma criança atendida no ambulatório assumir o exato valor de 1,00312m? 0,450 N(-1,1) N(0,1) N(2,1) 0,400 0,350 f(x) 0,300 0,250 0,200 0,150 ● A resposta é zero. ● A pergunta correta poderia ser: Qual a probabilidade da criança atendida no ambulatório ter entre 1m e 1,10m de altura? 0,100 0,050 0,000 -7 -5 -3 -1 1 3 5 7 x Distribuições de probabilidade contínuas ● A curva que representa a densidade de probabilidade de uma VA contínua X, denotada por f(x), deve satisfazer as condições: ● Distribuições de probabilidade contínuas ● Existem diversas “fdp” teóricas usadas frequentemente para modelar estatísticamente variáveis contínuas ● Deve ser positiva: f(x) > 0 para todo o x. ● Uniforme ● A área total sob a curva deve ser igual a 1. ● Exponencial ● Gaussiana ou Normal Uma curva ou função que atenda os critérios acima é conhecida como ● distribuição de probabilidade ● função de probabilidade ● função de densidade de probabilidade (fdp) ● curva de densidade Distribuições de probabilidade contínuas ● Para quaisquer números reais a e b, P(a≤X≤b) é dada pela área sob a curva de densidade entre os pontos a e b. ● ● Distribuição Normal ● Utiliza-se tabelas de probabilidades Distribuição contínua mais importante ● Forma de sino ● Simétrica em torno da média – Para o caso da distribuição normal: 0,045 ● 0,040 0,030 f(x) Desvio padrão (σ) – 0,035 0,025 0,020 0,015 0,010 0,005 ● 0,000 -5 -4 -3 -2 -1 0 1 2 3 4 5 x Distribuição Normal Média = Mediana = Moda = µ distância horizontal entre a média e o ponto de inflexão da curva, onde ela muda de convexa para côncava. Área sob a curva =1 Distribuição Normal ● x Qual a probabilidade de: ● X estar acima de 1σ ● Abaixo de –1σ ● Acima de 2σ ● Abaixo de –2σ ● Entre –1σ e +1σ ● Entre –2σ e +2σ Distribuição Normal Padrão Possui média=0 e desvio-padrão=1 ● Tabela A.3, página 473 ● N(0,1) ● 0,045 Uma VA que segue distribuição normal padrão é denotada por Z 0,035 0,030 0,020 0,015 Z ~ N(0,1) 0,00 0,01 0,02 0,03 0,0 0,500 0,496 0,492 0,488 0,1 0,460 0,456 0,452 0,448 0,2 0,421 0,417 0,413 0,409 0,045 7 0,040 0,035 0,030 0,010 0,005 0,000 ● Áreas na cauda superior da distribuição normal padrão Z 0,025 f(x) ● 0,040 -4 -3 -2 -1 0 1 2 3 4 0,025 f(x) ● Distribuição Normal Padrão 0,015 ⁞ x 0,020 0,010 0,005 ● O cálculo das áreas abaixo da curva gaussiana é complicado. ● ● A maioria das variáveis biológicas não seguem distribuição normal padrão. ● A glicemia de pessoas adultas pode ser considerada normalmente distribuída com média 100mg/100ml e desvio padrão de 10mg/100ml. Qual a probabilidade de um adulto escolhido ao acaso ser diabético (glicemia ≥ 120mg/100ml)? ● Como calcular a área sob a curva? 0,156 0,154 0,152 0,000 -4 ⁞ Tabelas com as áreas abaixo da curva de densidade de probabilidade normal padrão são utilizadas. Distribuição Normal Padrão 0,159 1,0 -3 -2 -1 0 1 2 3 x ● P(Z ≥ 1)= ● P(Z < 1)= ● P(- 0,5 < Z ≤ 1)= ● P(Z < 2,85)= Padronização de variáveis normais ● Permite utilizar a tabela de probabilidades da normal padrão para qualquer distribuição normal. ● X ~ N(µ,σ) ● X → Z ~ N(0,1) ● Z= X − A glicemia de pessoas adultas pode ser considerada normalmente distribuída com média 100mg/100ml e desvio padrão de 10 mg/ 100ml. Qual a probabilidade de um adulto escolhido ao acaso ser diabético (glicemia ≥ 120mg/100ml)? 4 Padronização de variáveis normais 0,045 Padronização de variáveis normais Distribuição Normal Padrão 0,040 0,035 X ~ N(100,10) ● ● 0,030 0,025 f(x) ● 0,020 0,015 µ=100, σ=10 0,023 0,977 0,010 0,005 ● 0,000 P(X ≥ 120) = ? -4 -3 -2 -1 0 1 2 3 4 x X − Z= ~ 0,1 Normal Padrão 120−100 20 = =2 Para X = 120: z= 10 10 P(X ≥ 120) = P(Z ≥ 2) A pressão sistólica de indivíduos normais adultos pode ser considerada normalmente distribuída com média 120mmHg e desvio padrão de 10 mmHg. – Qual a probabilidade de alguém possuir pressão sistólica acima de 140mmHg? – Abaixo de 80mmHg? – Entre 100 e 140mmHg? – Abaixo de 80mmHg ou acima de 140mmHg ? – Quais valores de pressão sistólica limitam o intervalo dos 90% mais frequentes? – Qual valor de pressão sistólica divide a área sob a curva em 95% inferior 5% superior? Pela tabela A.3, P(Z ≥ 2) = 0,023 P(X ≥ 120) = 0,023 = 2,3% Contínuas Discretas Resumindo Variáveis Distribuição Número x de sucessos em n tentativas, onde a probabilidade de Binomial sucesso em cada tentativa é p. Número x de ocorrências de um evento raro em determinado intervalo, onde a média de ocorrência é λ por intervalo. Poisson Maioria das variáveis biológicas mensuráveis onde se espera uma variabilidade simétrica em torno da média. Normal, média: µ, desviopadrão: σ Outras variáveis contínuas Exponencial Uniforme Equação P X = x= n! x n− x p 1− p x ! n− x! − P X = x= e x! x P(X ≥ a) = área sob a curva da fdp para x ≥ a. z= a− P(X ≥ a) = P(Z ≥ z)