Notas de aula

Propaganda
HEP-5800 – BIOESTATÍSTICA
Capitulo 2
NOÇÕES DE PROBABILIDADE, DISTRIBUIÇÃO BINOMIAL,
DISTRIBUIÇÃO NORMAL
Nilza Nunes da Silva
Regina T. I. Bernal
MARÇO DE 2012
2
1. NOÇÕES DE PROBABILIDADE
1. DEFINIÇÃO
Considere o lançamento de um dado uma única vez e imagine o
CONJUNTO DE TODOS POSSIVEIS RESULTADOS
S = {1, 2 , 3, 4, 5, 6}
Esse conjunto é formado por seis eventos simples, mutuamente exclusivos, e igualmente
prováveis . Chama-se ESPAÇO AMOSTRAL .
Portanto P(1)=P(2)=P(3)=P(4)=P(5)=P(6)= 1/6
E a probabilidade de ocorrer um evento favorável é definida pela expressão :
Então , a probabilidade de ocorrer números pares será igual a P(A) = 3/6
Definição operacional encontrada no livro Introdução à Bioestatística (Sonia Vieira, pág.71) .......
Se são possíveis n eventos mutuamente exclusivos e igualmente prováveis, e se m desses eventos
têm determinada característica, a probabilidade de que ocorra um evento com essa característica é
dada pela razão ( m/n ) .
Então, numa seqüência de 1000 partos observados em determinado período, a probabilidade de
ocorrência de parto normal pode ser calculada usando a definição acima :
TIPO DE PARTO
N = 1000
PROB (PARTO SER NORMAL) = 100 / 1000
(900)
CESAREO
(100)
NORMAL
3
2. PROPRIEDADES
1. PROBABILIDADE DE QUALQUER EVENTO é um número entre zero e um
0 <=P ( E ) =< 1
2. P ( 1 ) = 0
3.P ( 0 ) = 0
4. Soma das probabilidades dos eventos simples é igual a 1 .
3. EVENTOS COMPOSTOS
Uma moeda é lançada 3 vezes . Qual a probabilidade de ocorrer o resultado ( cara,
cara, coroa) ? Ou seja, o evento = duas caras .
Espaço amostral é composto pelos eventos simples:
S = { (ca,ca,ca) (ca,ca,co) (ca,co,ca) (co,ca,ca) (ca,co,co) (co,ca,co) (co,co,ca) (
co,co,co )}
Mas , um evento pode ser formado pela união dos eventos simples, como OCORRER
DUAS CARAS pode ser expresso pelo conjunto formado reunindo o segundo, com
o terceiro e o quarto eventos simples.
P(ocorrer duas caras e uma coroa ) = 1/8 + 1/8 + 1/8 = 3/8 .
Então : usando o espaço amostral, será definida a seguinte distribuição de probabilidades
P(X=K)
K
P( X )
0
1/8
1
3/8
2
3/8
3
1/8
SOMA
8/8=1
4
4. DISTRIBUIÇÕES TEÓRICAS
São modelos teóricos que possuem parâmetros e permitem calcular as probabilidades de eventos
simples ou compostos . Os valores das probabilidades encontram-se em tabelas que podem ser
facilmente utilizadas.
VARIAVEIS DISCRETAS
X = numero de sucessos
BERNOULLI
(n=1)
S= {0,1}.
e as probabilidades correspondentes aos eventos
são definidas por P(X=1) = p ; P(X=0) = (1-p) = q
MÉDIA = p Variância = (p . q )
Se n => 2
..............................DISTRIBUIÇÃO BINOMIAL
1) São realizadas (n) observações independentes
2) cada resultado DE UMA OBSERVAÇÃO é dicotômico ( SIM ou NÃO)
3) em cada resultado, a probabilidade de ocorrer SIM é igual a (p) ; e a de ocorrer NÃO é
igual (1-p) ou (q) .
4) p+q=1
X : número de elementos com resultado ( SIM )
.n=2
Espaço amostral (S)
EVENTOS DE S
X=
PRODUTO DE
PROBABILIDADE
EVENTOS
INDEPENDENTES
0
(0,0)
0,3 x 0,3
0,09
1
(1,0)ou(0,1)
2(0,7 x 0,3)
0,42
2
(1,1)
0,7 x 0,7
0,49
SOMA
1,00
5
.n=3
Espaço amostral (S)
EVENTOS DE S
PRODUTO
PROBABILIDADE
0
(0,0,0)
0,3X0,3X0,3
0,33=0,027
1
(1,0,0)ou(0,1,0)ou(0,0,1)
3(0,7X0,32)
0,189
2
(1,1,0)ou(1,0,1)ou(0,1,1)
3(0,72x0,3)
0,441
3
(1,1,1)
0,7x0,70,7
0,343
SOMA
1,000
.n=4
Esp.amostral
EVENTOS DE S
PRODUTO PROBABILIDADE
(S)
0
(0,0,0,0)
0,34
0,0081
1
(1,0,0,0)ou(0,1,0,0)ou(0,0,1,0),(0,0,0,1)
4(0,7X0,33)
0,0756
2
(1,1,0,0)ou(1,0,1,0)ou(1,0,0,1)ou
6(0,72x0,32)
0,2646
(0,1,1,0)ou(0,1,0,1)ou(0,0,1,1)
3
(1,1,1,0)ou(1,1,0,1)ou(1,0,1,1)ou(0,1,1,1)
4(0,73x0,3)
0,4116
4
(1,1,1,1)
0,74
0,2401
SOMA
Observe agora a expressão que calcula P(X=1) =
1,0000
4 (0,7 )1 (0,33)
4 expressa o número de eventos que resultam em 4 diferentes combinações de 1 (SIM) E 3 (NÃO) .
p(X = 1 ) = C4,1 ( p1 ) ( q3 )
PODEMOS ENTÃO CONTINUAR DEFININDO AS DEMAIS EXPRESSÕES....
P(X = 2) = C4,2 x p2 x q2
P(X = 3) = C4,3 x p3 x q1
P(X = 4) = C4,4 x p4 x q0
6
Então, a distribuição de probabilidades de X, pode ser expressa pela equação .......
P(X = k) = Cn,k x pk x q n -k
que é o modelo da distribuição BINOMIAL COM PARÂMETROS (n)
e (p) .
MÉDIA = (n . p) Variância = (n . p . q )
Cn,k
= expressa o número de eventos que resultam em k diferentes combinações de k (SIM) E ( n
– k ) (NÃO) . Fatorial de um número é calculado como abaixo
n! / k! ( n – k ) ! .n ! = n ( n-1) (n-2).....(1) .
CONCLUSAO : Se X é uma variável aleatória que expressa o numero de
sucessos dentro das seguintes condições:
1 ) São realizadas (n) observações independentes
2) Cada resultado DE UMA OBSERVAÇÃO é dicotômico ( SIM ou NÃO)
3) em cada resultado, a probabilidade de ocorrer SIM é igual a (p) ; e a de ocorrer NÃO é
igual (1-p) ou (q) .
4) p+q=1
A DISTRIBUIÇÃO DE PROBABILIDADE DE (X) é expressa pelo
modelo binominal com parâmetros (n) e (p) . Ou seja, X : B(n, p) .
A média de X é
= (n . p ) e seu desvio padrão
2
=(n.p.q)
7
5. Usando a tabela Binomial (n,p)
Os valores da expressão da binomial encontram-se tabelados. Podemos encontrar as probabilidades
correspondentes aos valores de (X), dados os valores de (n) e (p).
Em 5 nascimentos, se X : Número de nascituros do sexo masculino
.n = 5
X
.p=0,10
.p=0,4
.p=0,50
0
0,59049
0,07776
0,03125
1
0,32805
0,25920
0,15625
2
0,07290
0,34560
0,31250
3
0,00810
0,23040
0,31250
4
0,00045
0,07680
0,15625
5
0,00001
0,01024
0,03125
.p=0,6
0,01024
0,07680
0,23040
0,34560
0,25920
0,07776
A ) Probabilidade de nascerem 3 crianças do sexo masculino se n=5 e p = 0,6 ........0,34560
B ) Probabilidade de nascerem 2 crianças do sexo masculino se n=5 e p = 0,4 .........0,34560
Observe nas expressões abaixos porque as probabilidades são iguais...................
P(X = 3) = C5,3 . 0,63 . 0,42
P(X = 2) = C5,2 . 0,42 . 0,63
8
Exercícios:
1) Analisando prontuários de várias maternidades, estimou-se que a probabilidade de um
parto ser cesariano é de 10%. Em 7 partos de uma maternidade qualquer:
a) Defina a variável aleatória a ser observada e o respectivo espaço amostral .
b) Defina a expressão matemática que calcula a distribuição de probabilidade dessa variável.
c) Apresente a tabela com a distribuição de probabilidades.
d) Calcule a probabilidade de 5 partos serem cesarianos.
e) A probabilidade de que todos os partos serem normais.
f) A probabilidade de que no máximo haja 1 parto cesariano.
2) Apresente em tabela e gráfico a distribuição de número de meninos que pode ocorrer em uma
família com 6 crianças.
3) Suponha que determinado medicamento usado para diagnóstico precoce da gravidez é capaz de
confirmar casos positivos em apenas 90% das gestantes muito jovens. Nestas condições, qual é a
probabilidade de duas entre três gestantes muito jovens, que fizeram uso desse medicamento, não
terem confirmado precocemente a gravidez.
4) Seja X a variável aleatória que indica o número de meninos em uma família com 5 crianças.
Apresente a distribuição de X em uma tabela, considerando a probabilidade de menino igual a
1
e
2
1
.
3
5) Um exame é constituído de dez testes tipo certo-errado. Quantos testes acerta, em média, um
aluno que nada sabe sobre a matéria do exame? Qual é a variância
da distribuição?
6 - A probabilidade de um animal sobreviver durante um experimento é 2/3. Seja X o número de
animais que sobrevivem ao experimento.
a) – Se 5 animais forem submetidos ao experimento, determine a distribuição de probabilidade de
X.
b) – Determine a probabilidade de:
-
exatamente 3 animais sobreviverem
os 5 animais não sobreviverem
pelo menos 3 animais sobreviverem
7 – A probabilidade de um menino ser daltônico é 0,08. Num grupo de 4 meninos , qual a
probabilidade de 3 não serem daltônicos?
9
8) Entre 800 famílias com 5 crianças cada uma, quantas se esperaria que tivessem:
a) Três meninos
b) cinco meninas
c) dois ou três meninos
Considerar probabilidades iguais para meninos e meninas.
9) Pesquisa médica indica que 20% da população em geral sofrem efeitos colaterais negativos com
o uso de uma nova droga. Se um médico receita o produto a três, qual a probabilidade de:
a)
b)
c)
d)
e)
nenhum sofre efeito colateral negativo?
um sofrer efeito colateral negativo?
dois sofrerem efeito colateral negativo?
três sofrerem efeito colateral negativo?
ao menos um sofrer efeito colateral negativo?
10) Pesquisas indicaram que 75% dos eleitores de uma cidade são alfabetizados. Entre 16 eleitores
dessa cidade, determine a probabilidade de:
a)
b)
c)
d)
no máximo um ser analfabeto
dois ou mais serem analfabetos
três ou mais serem analfabetos
pelo menos um ser analfabeto
11) Se a probabilidade de um indivíduo ter sangue Rh é 5%, qual é a probabilidade de 10
indivíduos que se apresentaram para exame de sangue:
a) todos terem Rh ?
b) No máximo dois indivíduos apresentarem Rh ?
10
DISTRIBUIÇÃO NORMAL
APRESENTAÇÃO
+
-
x
CARACTERÍSTICAS:
A)
A variável pode assumir qualquer valor no conjunto real.
B)
O gráfico da distribuição é uma curva em forma de sino, simétrica em torno da média
, que é igual à mediana e à moda.
C)
A área sob a curva é igual a 1, e corresponde à probabilidade de a variável assumir
valores entre [
].
......
;
D)
(Mi e Sigma) representam os parâmetros de posição e dispersão da
distribuição.
E)
Os pontos de inflexão da curva ocorrem nos valores definidos por (
).
F)
A expressão da função densidade de probabilidade é:
f (X )
1
.e
2
1 / 2[(
) / ]2
e
11
Na figura abaixo, 68,28% é a probabilidade de valores ocorrerem para X entre a média e mais ou
menos 1 desvio padrão.
Ou seja:
P [(
) < X <(
)] = 68,28%
Também
P [(
2
) < X <(
2
)] = 95, 44%
µ
P [(
3
) < X <(
µ
x
3
)] = 99,74%
x
12
NORMAL PADRONIZADA: Z~N(0;1)
-3
-2
-1
1
2
3
Se X tem distribuição normal, então:
Z
tem distribuição normal com média igual a zero e desvio padrão igual a 1.
Ou seja, Z ~ N (0 , 1) . Os valores das probabilidades associadas a esta distribuição encontram-se
em tabelas. Veja abaixo um trecho dessa tabela, e aprenda como localizar os valores para as
probabilidades de ocorrência de Z entre zero e z.
Ou seja, P[0 <Z < z].
P(0 < Z <z) Probabilidades de ocorrer valores entre 0 e z.
Valores de z
com
Uma decimal
Segunda decimal
0
1
2
3
4
5
6
0,0
0,1
0,2
0,3
0,4
0,5
1,0
1,2
0,0000
0,0398
0,0793
0,1179
0,1554
0,1915
0,3413
0,3849
0,0040
0,0438
0,0832
0,1217
0,1591
0,1950
0,3438
0,3869
0,0080
0,0478
0,0871
0,1255
0,1628
0,1985
0,3461
0,3888
0,0120
0,0517
0,0910
0,1293
0,1664
0,2019
0,3485
0,3907
0,0160
0,0557
0,0948
0,1331
0,1700
0,2054
0,3508
0,3925
0,0199
0,0596
0,0987
0,1368
0,1736
0,2088
0,3531
0,3944
0,0239
0,0636
0,1026
0,1406
0,1772
0,2123
0,3554
0,3962
Fonte: Introdução à Bioestatística. Sonia Vieira, pág.92
Então, a probabilidade de ocorrer valores para z entre 0 e 1 é igual a 0,3413. Ou a probabilidade
de ocorrer valores para Z maiores que 1 é igual a 0,50 – 0,3413 = 0,1587.
13
Exemplos:
I - Suponha que a quantidade de colesterol em 100 ml de plasma sanguíneo humano tem
distribuição normal com média 200 mg e desvio padrão 20 mg.
1) Qual a probabilidade de uma pessoa apresentar entre 200 e 225 mg de colesterol por 100 ml
de plasma ?
X ~N (200 mg ; 20 mg) ……..Z ~ (0 ; 1)
Z1
200 200
20
0
Z2
225 200
1,25
20
P (0< Z <1,25) = 0,3944
2 ) Qual a probabilidade de uma pessoa apresentar menos do que 190 mg de colesterol por 100
ml de plasma ?
Z
190 200
20
0,50
P ( X < 190) = P (Z < -0,50 ) = 0,50 – P (0 < Z < -0,50)
= 0,50 – 0,1915
= 0,3085
3) Qual a probabilidade de uma pessoa apresentar mais do que190 mg de colesterol por 100 ml
de plasma?
P ( X > 190) = P(Z > -0,50) = 0,50 + 0,1915 = 0,6915
II – Em homens, a quantidade de hemoglobina por 100ml de sangue é uma variável aleatória com
distribuição normal de média igual a 16 gr e desvio padrão igual a 1 gr.
1) Calcule a probabilidade de um homem apresentar de 16 a 18 gr de hemoglobina por 100 ml de
sangue.
Então X = quantidade de hemoglobina por 100 ml de sangue.
X ~ N(16 , 1 )
P ( 16 < X < 18 ) = P ( 0 < Z < 2 ) = 0,4772 ou 47,72% .

consulte a tabela Z
2) Qual é a probabilidade de um homem apresentar mais de 18 gr de hemoglobina por 100ml de
sangue?
P ( X > 18 ) = P ( Z > 2 ) = 0,50 – 0,4772 = 0,0228 ou 2,28 %.
14
4. APROXIMAÇÃO DA BINOMIAL PARA NORMAL
Seja X o número de meninos em 16 nascituros, onde X ~ B(16, ½). Essa variável pode assumir
qualquer valor inteiro entre zero e 16, inclusive. A distribuição dessa variável é dada por:
Número de meninos (X)
P(X=x)
0
0,00153
1
0,02441
2
0,18311
3
0,85449
4
2,77710
5
6,66504
6
12,21924
7
17,45605
8
19,63806
9
17,45605
10
12,21924
11
6,66504
12
2,77710
13
0,85449
14
0,18311
15
0,02441
16
0,00153
Por exemplo: Calcular a probabilidade de serem do sexo masculino mais de 10 recém-nascidos
que estão no berçário de um determinado hospital:
P(X > 10) = P(X=11) + P(X=12) + P(X=13) + P(X=14) + P(X=15) + P(X=16)
= 0,1050568 ou 10,50568%
15
Gráfico da distribuição do número de meninos em 16 nascituros
20
15
10
5
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
Número de meninos
Aproximação da binomial para normal é adequada quando:
np> 5 e nq > 5
No exemplo:
np 16.
1
2
8 5
nq 16.
1
2
8 5
e
A condição para aproximação da distribuição binomial para a distribuição normal é satisfeita, logo:

X ~ B(16,1/2)
np 16.
npq
X ~ N(8,2)
1
2
8
1 1
16 . .
2 2
2
16
Gráfico da distribuição normal
20
15
10
5
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
Número de meninos
A distribuição normal é contínua e pode assumir qualquer valor real. Portanto, para calcular a
probabilidade de serem do sexo masculino mais de 10 recém-nascidos será necessária uma
correção da continuidade em função da passagem da distribuição discreta para uma contínua.
Correção da continuidade
Binomial: P(X=x)
Normal: P(X= x – 0,5) a P(X = x + 0,5)
Exemplo:
Distribuição Binomial
X ~ B(16,1/2)
P(X> 10) ?
Distribuição Normal
X ~ N(8,2)
x
-----|-------|------|
10
11 12
P(X > 11- 0,5)=?
z
P(X > 10) = 0,1051 –ou 10,51%
10,5 8
2
1,25
P(Z > 1,25) = 0,50 – 0,3944 = 0,1056 ou 10,56%
0,1056
zc=1,25
17
INTERVALO DE REFERÊNCIA
USANDO A DISTRIBUIÇÃO NORMAL
Testes de diagnósticos em medicina clínica são usados para classificar a situação de saúde dos
indivíduos. Servem para definir se o estado de saúde pode ser considerado dentro de um padrão
aceitável, e elaborar o diagnóstico.
Esse padrão é estabelecido mediante o uso de distribuições de probabilidade das características
observadas em grande número de indivíduos considerados sadios. As medidas de posição e de
variabilidade dessas distribuições serão os parâmetros utilizados para construir os intervalos de
referência com os quais são avaliadas as mais variadas características dos seres vivos.
A tabela 3.1 apresenta intervalos de referência para o pH observado no couro cabeludo de fetos
observados em 14 diferentes conjuntos de mulheres observadas em diferentes hospitais. Supondo
que pH tem distribuição normal, calculou-se em cada conjunto os limites dos intervalos que
2 ). Nota-se que o numero
contem 95% dos indivíduos. Ou seja, os pontos definidos por ( X
de mulheres em cada conjunto não altera a amplitude dos intervalos para essa característica.
Tabela 3.1
Intervalos de referência para 14 estudos de pH sangue couro cabeludo em fetos.
ESTUDO
Ph MÉDIO
IR (95%)*
N
1
7,29
7,15 ― 7,43
43
2
7,29
7,21 ― 7,37
24
3
7,29
7,25 ― 7,33
10
4
7,30
7,20 ― 7,40
12
5
7,30
7,22 ― 7,38
18
6
7,30
7,22 ― 7,38
129
7
7,32
7,20 ― 7,44
16
8
7,32
7,22 ― 7,42
49
9
7,35
7,23 ― 7,47
45
10
7,35
7,25 ― 7,45
26
11
7,35
7,25 ― 7,45
29
12
7,35
7,25 ― 7,45
21
13
7,37
7,27 ― 7,47
45
14
7,38
7,30 ― 7,45
22
Fonte : Altman GD . Practical Statistics for Medical Research, pag. 422.
Média mais ou menos 2 desvios padrão. Ou seja, ( X
2
)
18
EXERCICIOS
A) Seja Z ~ N (0,1). Calcule:
a) P(0 <Z< 1,2)
b) P(-0,9 Z 0)
c) P(1,21 Z 1,75)
d) (Z > -0,75)
e) (Z < 1,35)
f) P(-1,44 < Z < 0)
g) P(-1,96 < Z < 1.96)
B) Suponha que o tempo médio de permanência em um hospital para doenças crônicas sejam
50 dias, com desvio padrão igual a 10 dias . Admitindo que o tempo de permanência tem
distribuição normal, qual é a probabilidade de uma paciente permanecer no hospital:
a) mais de 30 dias ?
b) menos de 30 dias ?
c) mais de 50 dias ?
d) entre 40 e 60 dias ?
e) entre 30 e 70 dias ?
C) A idade de uma população tem distribuição normal com média 50 anos e desvio padrão de 4
anos. Qual a probabilidade de uma pessoa dessa população ter:
a) 55 anos ou menos?
b) exatamente 50 anos?
c) mais de 55 anos?
d) entre 55 e 57 anos?
e) entre 42 e 50 anos?
f) idade entre a média e mais ou menos 1 desvio padrão?
g) idade entre a média e mais ou menos 2desvios padrão?
h) idade entre a média e mais ou menos 3 desvios padrão?
D) Numa curva normal reduzida, a área compreendida entre –1,64 e zero vale 45%. Nestas
condições a área à direita do valor +1,64 valerá:
a) 45%
b) infinito
c) 50%
d) 100%
e) 5%
Download