X - BIOCOMP IFF

Propaganda
Distribuições Teóricas de Probabilidade
Bioestatística e Computação I
●
Distribuições Teóricas de
Probabilidade
Variável Aleatória
●
●
Maria Virginia P Dutra
Distribuição de probabilidade
●
Especifica todos os resultados possíveis e a
probabilidade de ocorrência de cada um.
●
Para variáveis discretas, equivale à frequência
relativa após um número grande de repetições.
●
Para variáveis contínuas, especifica as
probabilidades associadas com intervalos de
valores.
Eloane G Ramos
Vania Matos Fonseca
Pode assumir valores diferentes e qualquer
resultado particular é determinado pelo acaso.
Pós Graduação em Saúde da Mulher e da Criança
IFF – FIOCRUZ
Baseado nas aulas de M. Pagano e Gravreau e Geraldo Marcelo da Cunha
Distribuição empírica de probabilidade
●
Algumas variáveis podem ter sua
distribuição de probabilidade determinada
com base em considerações teóricas.
●
As distribuições teóricas de probabilidade
são definidas a partir de uma equação
matemática.
●
Exemplos:
Probabilidades calculadas a partir de uma
quantidade finita de dados
0,4000
0,3597
0,3000
Probabilidade
●
Distribuição teórica de probabilidade
0,2224
0,1970
0,2000
0,1104
0,1000
0,0597
0,0343
0,0164
0,0000
0
1
2
3
DMOS
4
5
6
DMOS
Fr (%)
0
35,97
1
22,24
2
19,70
3
11,04
4
5,97
5
3,43
6
1,64
Total
100,00
●
variáveis dicotômicas seguem distribuição
binomial
●
de contagem seguem distribuição de Poisson
●
algumas variáveis fisiológicas contínuas seguem
distribuição normal
Função de distribuição de probabilidade
●
●
Além da tabela e do gráfico a distribuição
teórica de probabilidade pode ser descrita
por sua equação.
Distribuição de Probabilidade Binomial
●
Seja uma variável aleatória dicotômica Y
●
variável de Bernoulli
●
fracasso e sucesso
●
→ Função de distribuição de probabilidade
●
probabilidade de sucesso = p
●
→ Função de densidade de probabilidade
●
Exemplo
Para variáveis discretas é denotada por
P(X=x)
●
●
X – o nome da variável aleatória
–
Probabilidade de um indivíduo qualquer ser fumante
p = 29%
–
P(Y = fumante) = p = 0,29
–
P(Y = ñ fumante) = 1 – p = 0,71
x – um valor que a variável pode assumir
0 P  X = x1
∑ [ P  X = x]=1
todo x
Distribuição de Probabilidade Binomial
●
Seja uma variável aleatória X
●
De n indivíduos escolhidos ao acaso
●
X → número de indivídulos fumantes
●
X → variável numérica discreta
●
Dado que a probabilidade de ser fumante = p
Distribuição Binomial
●
n=3
●
Como os resultados de cada indivíduo são
independentes.
Indivíduo Indivíduo
1
2
Indivíduo
3
Probabilidade
x
x
P(X=x)
(1-p) (1-p) (1-p)
0
0
0
(1-p) (1-p) (1-p)
0
0
–
P(X=x) = ?
0
0
1
(1-p) (1-p) p
1
1
3 p (1-p)2
–
Qual o tipo da variável X?
0
1
0
(1-p) p (1-p)
1
2
3 p2 (1-p)
1
1
(1-p) p p
2
p3
Quais os valores possíveis?
0
3
–
1
0
0
p (1-p) (1-p)
1
1
0
1
p (1-p) p
2
1
1
0
p p (1-p)
2
1
1
1
ppp
3
0=ñ fumante; 1=fumante
Distribuição Binomial
●
Distribuição Binomial
De forma geral
●
●
Um mesmo experimento ocorre n vezes
●
Os experimentos são independentes
●
Probabilidade de sucesso p em cada experimento
●

Dado que a probabilidade de um indivíduo
ser fumante é 29%, de 3 indivíduos
escolhidos ao acaso, qual a probabilidade de
2 serem fumantes?
●
Combinação
●
Cada experimento é independente e envolve a
mesma variável dicotômica
n!
x
n−x
p 1− p
P  X = x=
x !n− x!
p=0,29; n=3; x=2
3!
P  X =2=
0,292 1−0,293−2
2 ! 3−2!
3×2×1
×0,292 ×1−0,291
P  X =2=
2×1×1 !
Número de vezes que x objetos podem ser
selecionados de um total de n objetos sem
importar a ordem

n!
n =
x x ! n− x!
Combinação de n objetos
escolhidos x por vez
Distribuição Binomial
●
●
X → numérica discreta
P  X = x= n p x 1− pn− x
x
n!
x
n− x
P  X = x=
p 1− p
x ! n− x!
●
n !=n×n−1×n−2⋯3×2×1
0 !=1 por definição
X → variável que representa o número de
sucessos: X sucessos em n tentativas
–
n! = n fatorial
Distribuição Binomial
●
Dado que a prevalência de obesidade é
22%, de 15 indivíduos escolhidos ao acaso,
qual a probabilidade de encontrarmos 5
obesos?
●
p=0,29; n=15; x=5
P  X = x=
n!
x
n−x
p 1− p
x !n− x!
15!
0,225 1−0,2210
5 !×10 !
15×14×13×12×11×10 !
0,225 1−0,2210
P  X =5=
5 !×10 !
P  X =5=
Distribuição Binomial
Distribuição Binomial
Distribuição Binomial, para n=15 e p=0,29
0,25
●
0,22
Média
Variância
P(X=x)
np
●
0,18
0,15
0,14
0,10
0,10
0,07
0,05
np 1− p
DMOS segue distribuição binomial?
0,20
0,20
0,04
0,03
0,01
0,01
0,00
0
●
1
2
3
4
5
6
7
8
0,00 0,00 0,00 0,00 0,00 0,00
9 10 11 12 13 14 15
x
Desvio-padrão
Distribuição Binomial, para n=15 e p=0,71
 np 1− p
0,25
0,22
0,20
P(X=x)
0,20
0,18
0,15
0,14
0,10
0,10
0,07
0,05
0,00
0,04
0,03
0,00 0,00 0,00 0,00 0,00 0,00
0
1
2
3
4
5
0,01
6
0,01
7
8
9 10 11 12 13 14 15
x
Distribuição Binomial
Distribuição de Poisson
●
Distribuição Binomial, para n=15 e p=0,5
Variáveis aleatórias numéricas discretas
●
Número de vezes que um evento raro ocorre
num grande número de repetições
●
Dados de Contagem
●
Exemplos
0,25
0,20
0,20
0,20
0,15
0,15
P(X=x)
0,15
0,10
0,09
0,05
0,04
0,04
0,01
0,00
0,00
0,00
0,00
0
1
2
3
–
Número de chegadas em um pronto-socorro durante
a madrugada
–
Número de pessoas com leucemia numa cidade
–
Número de acidentes de carro na ponte Rio-Niterói
–
Número de metamielócitos no sangue de pessoas
sadias
0,09
0,01
4
5
6
7
x
8
9
10
11
12
0,00
0,00
0,00
13
14
15
Distribuição de Poisson
e−  x
P  X = x=
x!
●
●
●
X → número de ocorrências de um evento
num intervalo
λ (lambda) → número médio de ocorrências
do evento no intervalo considerado
Distribuição de Poisson
e−  x
P  X = x=
x!
●
Exemplo. A probabilidade de um indivíduo estar
envolvido num acidente nos Estados Unidos por
ano é 0,00024. Numa comunidade de 10.000
pessoas, qual a probabilidade de não haver
nenhum acidente em um período de 1 ano?
e → constante de Euler = 2,71828
●
X → número de pessoas acidentadas por ano
●
P(X=0) = ?
●
λ → média de pessoas acidentadas por ano =
10.000 x 0,00024 = 2,4
e−2,4 2,40 −2,4
=e =0,091
P  X =0=
0!
Distribuição de Poisson
●
●
●
Exemplo. A probabilidade de um indivíduo estar
envolvido num acidente nos Estados Unidos por
ano é 0,00024. Numa comunidade de 10.000
pessoas, qual a probabilidade de não haver
nenhum acidente em um período de 1 ano?
Distribuição de Poisson
●
Exemplo. Um hospital recebe em média 4
chamadas de urgência por dia. Qual a
probabilidade de que o hospital receba:
●
a) Oito chamadas
Poderíamos ter utilizado a distribuição binomial
com p=0,00024 e n=10.000, mas calcular n!
seria impraticável.
Quando o evento dicotômico é raro e o número
de repetições é muito grande a distribuição
binomial pode ser bem aproximada pela
Poisson.
●
–
X → número de chamadas de urgência em um dia
–
λ → média do número de chamadas de urgência por
dia
−4 8
e 4 0,0183×65536
=0,0297
=
8!
40320
b) 3 chamadas ou menos
–
P(X=8)=? P  X =8=
–
P(X≤3) = P(X=0) + P(X=1) + P(X=2) + P(X=3)
–
P(X≤3) = 0,018 + 0,073 + 0,147 + 0,195 = 0,433
Exemplo. Um hospital recebe em média 4
chamadas de urgência por dia. Qual a
probabilidade de que o hospital receba 10
chamadas ou menos no mesmo dia?
●
–
Usar as tabelas de probabilidade (Tabela A.2) ou um
software de estatística
Distribuição de Poisson
●
Média
●
●
Distribuições de Poisson
0,40
Variância
●
●
λ
λ
Desviopadrão
●

lambda = 1
lambda = 4
lambda = 7
lambda = 10
0,35
0,30
0,25
P(X=x)
Distribuição de Poisson
0,20
0,15
0,10
0,05
0,00
0
2
4
6
8
10
12
14
16
18
x
Distribuição Normal
●
Distribuição Gaussiana
●
Variáveis contínuas
●
É frequentemente associada com variáveis
biológicas mensuráveis
●
Peso
●
Altura
●
Pressão sanguínea
●
Glicemia
●
Intervalo R-R
Distribuição Normal
●
Não é definida para valores específicos e
sim para um intervalo de valores.
●
Função densidade de probabilidade f(x) e
não mais P(X=x).
●
A probabilidade associada a cada intervalo é
representada pela área abaixo da curva de
densidade de probabilidade.
●
A probabilidade de observarmos um valor
específico é zero.
20
Distribuição Normal
Distribuição Normal
f(x) = densidade de probabilidade
●
f(x) = densidade de probabilidade
●
P(X≤1) = área abaixo de f(x), para x≤1
●
P(X≤1) = área abaixo de f(x), para x≤1
0,045
0,045
0,040
0,040
0,035
0,035
0,030
0,030
0,025
0,025
f(x)
f(x)
●
0,020
0,020
0,015
0,015
0,010
0,010
0,005
0,005
0,000
0,000
-5
-4
-3
-2
-1
0
1
2
3
4
5
-5
-4
-3
-2
-1
x
Distribuição Normal
f(x) = densidade de probabilidade
2
3
4
5
 
π (pi) = 3,14159
0,900
0,045
0,040
0,030
0,700
0,025
0,020
0,600
0,015
0,010
0,500
●
µ (mu) = média
●
σ (sigma) = desvio-padrão
●
Distribuição normal pode ser denotada por
N(µ, σ)
–
N(µ=0, σ=1) = N(0,1)
N(0,1)
N(0,2)
N(0,0.5)
0,800
0,035
0,005
–
Média = 0, variando o desvio-padrão
0,000
-4
-3
-2
-1
0
1
2
3
4
f(x)
●
1
e
2
2
f(x)
f  x=
1 x−
−
2 
1
Distribuição Normal
●
●
0
x
0,400
x
0,300
0,200
0,100
0,000
-8
-6
-4
-2
0
x
2
4
6
8
Distribuição Normal
●
Distribuições de probabilidade contínuas
Desvio-padrão = 1, variando a média
●
No caso de variáveis contínuas só é possível
calcular a probabilidade de X estar contido
em algum intervalo de valores.
●
Exemplo. Qual a probabilidade da altura de
uma criança atendida no ambulatório
assumir o exato valor de 1,00312m?
0,450
N(-1,1)
N(0,1)
N(2,1)
0,400
0,350
f(x)
0,300
0,250
0,200
0,150
●
A resposta é zero.
●
A pergunta correta poderia ser: Qual a
probabilidade da criança atendida no
ambulatório ter entre 1m e 1,10m de altura?
0,100
0,050
0,000
-7
-5
-3
-1
1
3
5
7
x
Distribuições de probabilidade contínuas
●
A curva que representa a densidade de
probabilidade de uma VA contínua X,
denotada por f(x), deve satisfazer as
condições:
●
Distribuições de probabilidade contínuas
●
Existem diversas “fdp” teóricas usadas
frequentemente para modelar
estatísticamente variáveis contínuas
●
Deve ser positiva: f(x) > 0 para todo o x.
●
Uniforme
●
A área total sob a curva deve ser igual a 1.
●
Exponencial
●
Gaussiana ou Normal
Uma curva ou função que atenda os critérios
acima é conhecida como
●
distribuição de probabilidade
●
função de probabilidade
●
função de densidade de probabilidade (fdp)
●
curva de densidade
Distribuições de probabilidade contínuas
●
Para quaisquer números reais a e b,
P(a≤X≤b) é dada pela área sob a curva de
densidade entre os pontos a e b.
●
●
Distribuição Normal
●
Utiliza-se tabelas de probabilidades
Distribuição contínua mais importante
●
Forma de sino
●
Simétrica em torno da média
–
Para o caso da distribuição normal:
0,045
●
0,040
0,030
f(x)
Desvio padrão (σ)
–
0,035
0,025
0,020
0,015
0,010
0,005
●
0,000
-5
-4
-3
-2
-1
0
1
2
3
4
5
x
Distribuição Normal
Média = Mediana = Moda = µ
distância horizontal
entre a média e o
ponto de inflexão
da curva, onde ela
muda de convexa
para côncava.
Área sob a curva
=1
Distribuição Normal
●
x
Qual a probabilidade de:
●
X estar acima de 1σ
●
Abaixo de –1σ
●
Acima de 2σ
●
Abaixo de –2σ
●
Entre –1σ e +1σ
●
Entre –2σ e +2σ
Distribuição Normal Padrão
Possui média=0 e desvio-padrão=1
●
Tabela A.3, página 473
●
N(0,1)
●
0,045
Uma VA que segue
distribuição normal
padrão é denotada por Z
0,035
0,030
0,020
0,015
Z ~ N(0,1)
0,00
0,01
0,02
0,03
0,0
0,500
0,496
0,492
0,488
0,1
0,460
0,456
0,452
0,448
0,2
0,421
0,417
0,413
0,409
0,045
7
0,040
0,035
0,030
0,010
0,005
0,000
●
Áreas na cauda superior da distribuição normal
padrão
Z
0,025
f(x)
●
0,040
-4
-3
-2
-1
0
1
2
3
4
0,025
f(x)
●
Distribuição Normal Padrão
0,015
⁞
x
0,020
0,010
0,005
●
O cálculo das áreas abaixo da curva
gaussiana é complicado.
●
●
A maioria das variáveis biológicas não
seguem distribuição normal padrão.
●
A glicemia de pessoas adultas pode ser
considerada normalmente distribuída com
média 100mg/100ml e desvio padrão de
10mg/100ml. Qual a probabilidade de um
adulto escolhido ao acaso ser diabético
(glicemia ≥ 120mg/100ml)?
●
Como calcular a área sob a curva?
0,156
0,154
0,152
0,000
-4
⁞
Tabelas com as áreas abaixo da curva de
densidade de probabilidade normal padrão são
utilizadas.
Distribuição Normal Padrão
0,159
1,0
-3
-2
-1
0
1
2
3
x
●
P(Z ≥ 1)=
●
P(Z < 1)=
●
P(- 0,5 < Z ≤ 1)=
●
P(Z < 2,85)=
Padronização de variáveis normais
●
Permite utilizar a tabela de probabilidades
da normal padrão para qualquer distribuição
normal.
●
X ~ N(µ,σ)
●
X → Z ~ N(0,1)
●
Z=
X −

A glicemia de pessoas adultas pode ser
considerada normalmente distribuída com
média 100mg/100ml e desvio padrão de 10 mg/
100ml. Qual a probabilidade de um adulto
escolhido ao acaso ser diabético (glicemia ≥
120mg/100ml)?
4
Padronização de variáveis normais
0,045
Padronização de variáveis normais
Distribuição Normal Padrão
0,040
0,035
X ~ N(100,10)
●
●
0,030
0,025
f(x)
●
0,020
0,015
µ=100, σ=10
0,023
0,977
0,010
0,005
●
0,000
P(X ≥ 120) = ?
-4
-3
-2
-1
0
1
2
3
4
x
X −
Z=
~ 0,1 Normal Padrão

120−100 20
= =2
Para X = 120: z=
10
10
P(X ≥ 120) = P(Z ≥ 2)
A pressão sistólica de indivíduos normais
adultos pode ser considerada normalmente
distribuída com média 120mmHg e desvio
padrão de 10 mmHg.
–
Qual a probabilidade de alguém possuir pressão
sistólica acima de 140mmHg?
–
Abaixo de 80mmHg?
–
Entre 100 e 140mmHg?
–
Abaixo de 80mmHg ou acima de 140mmHg ?
–
Quais valores de pressão sistólica limitam o intervalo
dos 90% mais frequentes?
–
Qual valor de pressão sistólica divide a área sob a
curva em 95% inferior 5% superior?
Pela tabela A.3, P(Z ≥ 2) = 0,023
P(X ≥ 120) = 0,023 = 2,3%
Contínuas
Discretas
Resumindo
Variáveis
Distribuição
Número x de sucessos em n
tentativas, onde a probabilidade de Binomial
sucesso em cada tentativa é p.
Número x de ocorrências de um
evento raro em determinado
intervalo, onde a média de
ocorrência é λ por intervalo.
Poisson
Maioria das variáveis biológicas
mensuráveis onde se espera uma
variabilidade simétrica em torno da
média.
Normal,
média: µ,
desviopadrão: σ
Outras variáveis contínuas
Exponencial
Uniforme
Equação
P  X = x=
n!
x
n− x
p 1− p
x ! n− x!
−
P  X = x=
e 
x!
x
P(X ≥ a) = área sob a curva da fdp para
x ≥ a.
z=
a−

P(X ≥ a) = P(Z ≥ z)
Download