1 População, amostra, variável, coleta de dados, apuração de

Propaganda
População, amostra, variável, coleta de dados, apuração de dados e apresentação tabular.
A palavra estatística vem do latim status e significa estado. Inicialmente, era utilizada para compilar
dados que descreviam características de países (Estados). Em 1662, John Graunt publicou estatísticas
de nascimentos e mortes. A partir de então, o estudo dos eventos vitais e da ocorrência de doenças e
óbitos impulsionou o desenvolvimento da Estatística nos campos teórico e aplicado (Triola, 1999).
Atualmente, índices e indicadores estatísticos fazem parte do dia a dia, tais como taxa de inflação,
índice de desemprego, taxa de natalidade, taxa de crescimento populacional, índice de poluição atmosférica, índice de massa corporal, entre outros.
Estatística: é uma coleção de métodos para planejar experimentos, obter e organizar dados, resumilos, analisá-los, interpretá-los e deles extrair conclusões (Triola, 1999).
Bioestatística – Estatística aplicada às ciências da vida.
Níveis de mensuração
Escala nominal
Os indivíduos são classificados em categorias segundo uma característica.
Ex: sexo (masculino, feminino), hábito de fumar (fumante, não fumante), sobrepeso (sim, não).
Não existe ordem entre as categorias e suas representações, se numéricas, são destituídas de significado numérico.
Ex:
sexo masculino=1, sexo feminino = 2.
Os valores 1 e 2 são apenas rótulos.
Escala ordinal
Os indivíduos são classificados em categorias que possuem algum tipo inerente de ordem. Neste caso,
uma categoria pode ser "maior" ou "menor" do que outra.
Ex:
nível sócio-econômico (A, B, C e D; onde A representa maior poder aquisitivo);
nível de retinol sérico (alto, aceitável, baixo, deficiente) onde alto: maior ou igual a 50,0
µg/dl; aceitável: 20,0 a 49,9 µg/dl; baixo: 10,0 a 19,9 µg/dl; deficiente: menor ou igual a 10,0
µg/dl. Estes critérios são do Commitee on Nutrition for National Defense ICNND/USA, 1963 (in
Prado MS et al, 1995).
Embora exista ordem entre as categorias, a diferença entre categorias adjacentes não tem o mesmo
significado em toda a escala.
Escala numérica intervalar
Este nível de mensuração possui um valor zero arbitrário.
Ex: temperatura em graus Celsius.
Escala numérica de razões – possui zero inerente á natureza da característica sendo aferida.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
1
Escala de razões discreta: o resultado numérico da mensuração é um valor inteiro.
Ex:
número de refeições em um dia (nenhuma, uma, duas, três, quatro, ...),
frequência de consumo semanal de determinado alimento (1 vez, 2 vezes, 3 vezes, 4 vezes, 5
vezes, 6 vezes, 7 vezes) .
Escala de razões contínua: o resultado numérico é um valor pertencente ao conjunto dos números
reais R ={-∞; ...; 0; 0,2; 0,73; 1; 2,48;...; +∞}.
Ex:
idade (anos), peso (g), altura (cm),nível de retinol sérico (µg/dl), circunferência da cintura
(cm).
Comparando-se as escalas intervalar e de razões contínua
material
A
B
C
0
C
20
40
60
comprimento
A
B
C
0
F
68
104
140
cm
20
35
40
|dif0C|
|A-B|=20
|B-C|=20
|A-C|=40
polegada
50,8
88,9
101,6
|dif 0F|
|A-B|=36
|B-C|=36
|A-C|=72
|difcm|
|A-B|=15
|B-C|=5
|A-C|=20
dif0C/dif0F
0,56
0,56
0,56
|dif pol|
|A-B|=38,1
|B-C|=12,7
|A-C|=50,8
razão0C
A/B=0,50
B/C=0,67
A/C=0,33
Difcm/difpol
0,394
0,394
0,394
razão0F
A/B=0,65
B/C=0,74
A/C=0,49
Razãocm
A/B=0,571
B/C=0,875
A/C=0,5
Razão0C/razão0F
0,77
0,91
0,67
Razãopol
A/B=0,571
B/C=0,875
A/C=0,5
Razãocm/razãopol
1
1
1
De acordo com os níveis de mensuração, pode-se classificar a natureza das variáveis segundo a
escala de mensuração em:
VARIÁVEL:

qualitativa


quantitativa







nominal
ordinal
discreta
contínua
O tipo da variável irá indicar a melhor forma para o dado ser apresentado em tabelas e
gráficos, em medidas de resumo e, a análise estatística mais adequada.
Exemplo 1 -Classificar quanto a natureza, as seguintes variáveis
Variável
Condição de saúde (doente, não doente)
Tipo de parto (normal, cesáreo)
Nível de colesterol sérico (mg/100cc)
Tempo de um procedimento cirúrgico (minutos)
Número de praias consideradas poluídas
Custo do procedimento (reais)
Peso (g)
Estado nutricional (desnutrição, eutrofia, sobrepeso, obesidade)
Consumo de energia (Kcal)
Realização da refeição café da manhã (sim/não)
Número de escolares por série
Realização de atividade física diária (sim/não)
Tempo assistindo TV/dia (< 2h, 2 a 4h, >4h)
Porções consumidas por grupo de alimentos
Percentual de gordura corporal (%)
Tipo (natureza)
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
2
Coleta de dados
É a observação e registro da categoria ou medida de variáveis relacionadas ao objeto de estudo que
ocorrem em unidades (indivíduos) de uma amostra ou população.
Tópicos iniciais de amostragem
População: totalidade de elementos sob estudo. Apresentam uma ou mais características em comum.
Supor o estudo sobre a ocorrência de sobrepeso em crianças de 7 a 12 anos no Município de São
Paulo.
População alvo – todas as crianças nesta faixa etária deste município.
População de estudo – crianças matriculadas em escolas.
Elementos: são unidades de análise; podem ser pessoas, domicílios, escolas, creches, células ou qualquer outra unidade.
Amostra: é uma parte da população de estudo.
Amostragem: processo para obtenção de uma amostra. Tem como objetivo estimar parâmetros populacionais.
Parâmetro: Quantidade fixa de uma população.
Ex: peso médio ao nascer de crianças que nascem no município de São Paulo (µ = 3100 g);
Proporção de crianças de 7 a 12 anos classificadas como obesas, no município de São Paulo
(π = 12%).
Estimador: é uma fórmula matemática que permite calcular um valor (estimador por ponto) ou com
um conjunto de valores (estimador por intervalo) para um parâmetro.
N
∑X
Ex: Média aritmética: X =
N
onde
∑X
i
i =1
N
i
,
= X 1 + X 2 + ... + X N
e N = número de observações.
i =1
Estimativa: Valor do estimador calculado em uma amostra. Estima o valor do parâmetro.
Ex: Peso médio ao nascer, calculado em uma amostra de 120.000 crianças nascidas no Município de
São Paulo no ano de 2000: média amostral = x = 3000 g .
Indicações para utilizar uma amostra
População muito grande
Processo destrutivo de investigação
Novas terapias
Vantagens de realizar um estudo com amostragem:
Menor custo
Menor tempo para obtenção dos resultados
Possibilidade de objetivos mais amplos
Dados possivelmente mais fidedignos
Desvantagens
Resultados sujeitos à variabilidade
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
3
Tipos de Amostragem
Probabilística: cada unidade amostral tem probabilidade conhecida e diferente de zero de pertencer à
amostra. É usada alguma forma de sorteio para a obtenção da amostra.
Não probabilística: não se conhece a probabilidade de cada unidade amostral pertencer à amostra.
Algumas unidades terão probabilidade zero de pertencer à amostra.
Ex: amostragem intencional; por voluntários; acesso mais fácil; por quotas.
Tipos de amostragem probabilística:
- aleatória simples (com e sem reposição);
- sistemática;
- com partilha proporcional ao tamanho do estrato;
- por conglomerado.
Amostragem aleatória simples (AAS)
É o processo de amostragem onde qualquer subconjunto de n elementos diferentes de uma população de N elementos tem mesma probabilidade de ser sorteado (NN, 1998). Tamanho da população:
N; tamanho da amostra: n; fração global de amostragem ou probabilidade de sortear um indivíduo =
n
.
N
•
•
•
É necessário ter um sistema de referência que contenha todos os elementos da população
da qual será retirada a amostra;
Utilização da tabela de números aleatórios – mecânica;
Utilização de programas computacionais.
Exemplo 2 -Os dados a seguir são de peso (kg) de 80 mulheres identificadas pela variável id (identificação).
Id Peso Id peso Id Peso
Id
Peso Id Peso Id Peso
1
65
16
71
31
70
46
75
61
68
76
75
2
65
17
84
32
72
47
79
62
69
77
79
3
58
18
63
33
75
48
79
63
76
78
73
4
59
19
64
34
76
49
82
64
77
79
82
5
67
20
65
35
77
50
83
65
80
80
76
6
68
21
74
36
78
51
65
66
81
7
74
22
81
37
80
52
68
67
59
8
81
23
66
38
82
53
75
68
64
9
66
24
69
39
63
54
76
69
70
10
61
25
71
40
66
55
78
70
80
11
64
26
71
41
72
56
78
71
85
12
65
27
72
42
72
57
81
72
70
13
67
28
73
43
72
58
85
73
71
14
68
29
75
44
73
59
66
74
72
15
70
30
77
45
73
60
68
75
72
Fonte: Osborn JF. Statistical Exercises in Medical Research. John Wiley & Sons Inc., 1979. (adaptado).
a)
b)
c)
d)
Sorteie uma amostra aleatória de tamanho 20 utilizando a tabela dos números equiprováveis.
Apresente os valores do peso dos indivíduos sorteados.
Some os valores e divida pelo tamanho da amostra (número de valores).
Este valor é o parâmetro, o estimador ou a estimativa do peso médio?
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
4
Amostragem sistemática
Utiliza-se a ordenação natural dos elementos da população (prontuários, casa, ordem de nascimento).
•
•
•
Intervalo de amostragem
k=
N
n
, onde N= tamanho da população e n = tamanho da amos-
tra
Início casual i, sorteado entre 1 e k, inclusive
Amostra sorteada é composta pelos elementos: i, i+k, i+2k, ...., i+(n-1)k
OBS: É necessário ter cuidado com a periodicidade dos dados, por exemplo se for feito sorteio de dia
no mês, pode cair sempre em um domingo onde o padrão de ocorrência do evento pode ser diferente.
Exemplo: N=80; n=10;
k=
N 80
=
= 8 ; início casual: 1 ≤ i ≤ 8
n 10
Começo casual sorteado: i=4
Amostra composta dos elementos:
i ..............
i+k ………..
i+2k ……….
i+3k ……….
i+4k ……….
i+5k ……….
i+6k ……….
i+7k ……….
i+8k .……..
i+(n-1)k ….
4
12
20
28
36
44
52
60
68
76
Se o intervalo de amostragem não for inteiro proceder da seguinte forma:
N= 321 ; n=154; K =
N 321
=
= 2,084
n 154
i deve ser um número sorteado entre 1 e 2,084
Sortear um número entre 1000 e 2084 e dividir o resultado por 1000
Número sorteado = 1941, portanto i=1,941
Indivíduos:
I
i+k
i+2k
i+3k
.
.
.
i+(n-1)k
1,941
1,941+2,084 = 4,025
1,941+4,1680 = 6,109
1,941+6,252 = 8,193
.
.
.
1,941+318,852 = 320,793
elemento
1
4
6
8
.
.
.
320
Exemplo 3 – Utilize os dados do Exemplo 2.
a) Sorteie uma amostra sistemática de tamanho 20. Indique o intervalo de amostragem e o começo casual sorteado. Indique o número de identificação de cada elemento da amostra.
b) Some os valores e divida pelo tamanho da amostra (número de valores).
c) Compare com o peso médio obtido no exemplo 2. Você esperaria o mesmo resultado? Justifique.
d) Qual dos dois valores você diria que representa melhor o conjunto de dados? Justifique.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
5
Amostragem casual simples estratificada com partilha proporcional
A população possui estratos com tamanhos:
N1; N2; N3, onde a soma dos estratos é o tamanho da população, ou seja
∑N
i
=N
A amostra deve conter os elementos da população nas mesmas proporções dos estratos. Tem-se que
os tamanhos dos estratos amostrais são n1, n2 e n3 tal que
∑n
i
=n
Aplicando-se a proporção:
ni N i
N
=
⇒ ni = n i
n
N
N
Exemplo:
N=500; N1=50; N2=150; N3=300 e n=40
Estrato i
1
2
3
Total
n1 = 40
Tamanho do estrato
na população
na amostra
Ni
ni
50
4
150
12
300
24
500
40
ni N i
=
n
N
0,1
0,3
0,6
50
150
300
= 4 ; n2 = 40
= 12 ; n3 = 40
= 24
500
500
500
Amostragem por conglomerado:
O conglomerado é um conjunto de elementos formando uma unidade amostral. Se a unidade amostral for indivíduo e forem sorteados domicílios, então a amostragem é por conglomerado.
Exemplo 4
Cite dois exemplos de amostragens por conglomerado.
Apuração de dados
Processo no qual conta-se o número de vezes que a variável assumiu um determinado valor (frequência de ocorrência). Pode ser manual, mecânica ou eletrônica (programas estatísticos: Epi info, Stata,
Excel, SPSS, SAS, R, S-Plus).
Distribuição de frequências - correspondência entre categorias (valores) e frequência de ocorrência.
Distribuição de frequências com dados pontuais e em intervalos de classe
Notação:
X : variável
xi : valor observado para o indivíduo i
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
6
Apresentação pontual
Ex: 9 indivíduos
X: número de refeições diárias
x: 2, 3, 3, 1, 5, 2, 3, 2, 3
Apuração:
número de refeições
1
2
3
5
frequência absoluta
1
3
4
1
X: idade (anos inteiros)
x: 5, 5, 15, 20, 20, 20, 21, 21, 22, 22
frequência
idade
5
2
15
1
20
3
21
2
22
2
X: peso ao nascer em gramas
X: 2250, 3025, 1600, 2725, 3750, 3950, 2400, 2180, 2520
peso
frequência
1600
1
2180
1
2250
1
2400
1
2520
1
2725
1
3025
1
3750
1
3950
1
Altura em metros
X: 1,63; 1,60; 1,59; 1,60; 1,45; 1,73; 2,05; 1,85
altura
frequência
1,45
1
1,59
1
1,60
2
1,63
1
1,73
1
1,85
1
2,05
1
Apresentação tabular
Elementos essenciais: título, corpo, cabeçalho e coluna indicadora.
Tabela 1 - Título: o que (natureza do fato estudado)?como (variáveis)?onde? quando?
Variável
%
n°
Total
Fonte
notas, chamadas
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
7
OBS: nenhuma casela (intersecção entre linha e coluna) deve ficar em branco.
A tabela deve ser uniforme quanto ao número de casas decimais e conter os símbolos – ou 0 quando
o valor numérico é nulo e ... quando não se dispõe do dado.
Exemplo:
Distribuição de crianças(1) segundo níveis séricos de retinol. Cansação – Bahia, 1992
Nível de retinol sérico(2)
n
%
Aceitável
89
55,3
Baixo
65
40,4
Deficiente
7
4,3
Total
161
100
(1)
24 –72 meses
(2)
aceitável: 20,0 – 49,9 µg/dl; baixo: 10,0 – 19,9 µg/dl; deficiente: <10,0 µg/dl
Fonte: Prado MS et al., 1995.
Apresentação tabular de variável quantitativa contínua
Como idade é variável quantitativa contínua, a melhor forma
intervalos de valores denominados intervalos de classe.
Ex:
x: 5, 5, 15, 20, 20, 20, 21, 21, 22, 22
idade
frequência
5 |-- 10
2
10 |-- 15
0
15 |-- 20
1
20 |-- 25
7
Total
10
de apresentá-la em tabelas é utilizando
%
20
10
70
100
Intervalos de classe: conjunto de observações contidas entre dois valores limite (limite inferior e limite
superior).
Representação:
5 | -- 10
5 -- 10
5 |-- | 10
intervalo fechado no limite inferior e aberto no limite superior (contém o valor 5 mas não contém o valor 10)
intervalo aberto nos limites inferior e superior
(não contém os valores 5 e 10)
intervalo fechado nos limites inferior e superior
(contém os valores 5 e 10)
OBS: Representar o intervalo 0 |-- | 11 meses é equivalente a representá-lo como 0 |-- 12 meses.
X: peso (g)
X: 2250, 3025, 1600, 2725, 3750, 3950, 2400, 2180, 2520, 2530
Peso (g)
1500|--2000
2000|--2500
2500|--3000
3000|--3500
3500|--4000
Total
frequência
1
3
3
1
2
10
%
10
30
30
10
20
100
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
8
X: Altura (cm)
X: 1,63; 1,60; 1,59; 1,60; 1,45; 1,73; 2,05; 1,85
Altura (cm)
1,45|--1,55
1,55|--1,65
1,65|--1,75
1,75|--1,85
1,85|--1,95
1,95|--2,05
2,05|--2,15
Total
n
1
4
1
0
1
0
1
8
%
12,5
50,0
12,5
12,5
12,5
100
Os intervalos de classe devem ser mutuamente exclusivos (um indivíduo não pode ser classificado
em dois intervalos ao mesmo tempo) e exaustivos (nenhum indivíduo pode ficar sem classificação).
A amplitude do intervalo é o tamanho do intervalo de classe. A amplitude do intervalo e o número
de intervalos dependem basicamente do problema específico e da literatura existente sobre o assunto.
O ponto médio do intervalo é calculado somando-se o limite inferior e limite superior, dividindo-se
o resultado por dois.
Exemplo 5 – Os dados a seguir são de altura de uma amostra de 351 mulheres idosas selecionadas
aleatoriamente de uma comunidade para um estudo de osteoporose.
142
152
154
145
152
154
145
152
154
145
152
154
146
152
155
147
152
155
147
153
155
147
153
155
147
153
155
148
153
155
148
153
155
149
153
155
150
153
155
150
153
155
150
153
155
150
153
155
150
153
155
150
153
155
151
153
155
151
153
155
151
153
155
151
153
155
151
153
155
151
154
155
152
154
155
152
154
156
152
154
156
152
154
156
152
154
156
152
154
156
Fonte: Hand DJ et alli. A
156
156
156
156
156
156
156
156
156
156
156
156
156
156
156
157
157
157
157
157
157
157
157
157
157
157
157
157
157
157
157
157
157
157
157
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
158
159
159
159
159
159
159
159
159
159
159
159
159
159
159
159
159
159
160
160
160
160
160
160
160
160
160
160
160
160
160
160
160
160
160
160
160
160
160
161
161
161
161
161
161
161
161
161
161
161
161
161
161
161
161
161
161
161
161
162
162
162
162
162
162
162
162
162
162
162
162
162
162
162
162
162
162
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
163
164
164
164
164
164
164
164
164
164
164
164
164
164
164
164
164
164
165
165
165
165
165
165
165
165
165
165
165
165
165
165
165
165
165
165
166
166
166
166
166
166
166
166
166
166
166
167
167
167
167
167
167
167
168
168
168
168
168
168
169
169
169
169
169
169
169
169
170
170
170
170
170
170
170
170
170
170
170
171
171
171
173
173
173
174
176
177
178
178
handbook of small data sets. Chapman&Hall, 1994.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
9
a) Faça uma apuração dos dados e represente-os em uma tabela.
b) Interprete os resultados.
c) Se entre as 351 mulheres não fossem conhecidas as alturas de 15 delas, como você representaria esses valores?
d) Ao apresentar os dados em uma tabela você iria incluir estes valores?
e) Estas 15 mulheres tinham, na verdade, altura maior que 180 e o investigador, por achar que
eram “valores esquisitos” resolveu excluí-los. Você concorda com esta decisão? Justifique.
Tabela de dupla entrada
Distribuição de crianças(1) segundo níveis séricos de retinol e idade. Cansação – Bahia, 1992.
Faixa etária (meses)
Aceitável
Inadequado
Total
n
%
n
%
n
%
<12
5
45,5
6
54,5
11
100
12|--24
10
43,5
13
56,5
23
100
24|--36
19
54,3
16
45,7
35
100
36|--48
21
65,6
11
34,5
32
100
48|--60
16
43,2
21
56,8
37
100
60|--73
18
78,3
5
21,7
23
100
Total
89
55,3
72
44,7
161
100
(1)
24 –72 meses.
(2)
aceitável: 20,0 – 49,9 µg/dl; baixo: 10,0 – 19,9 µg/dl; deficiente: <10,0 µg/dl.
Fonte: Prado MS et al., 1995.
Exemplo 6
Os dados a seguir são de um estudo que investiga a relação entre níveis de β-caroteno (mg/L) e hábito de fumar em gestantes.
a) Calcule as frequências relativas. Fixando o 100% no total de fumantes e não fumantes.
b) Calcule as frequências relativas. Fixando o 100% no total do nível de B-caroteno (MG/L).
c) Interprete os resultados. Existe alguma indicação de existência de associação entre as variáveis? Justifique.
a)
Distribuição de gestantes segundo níveis de β -caroteno (mg/L) e hábito de fumar.
Fumante
Não Fumante
Total
β-caroteno (mg/L)
n
%
n
%
n
%
Baixo (0 – 0,213)
46
74
120
Normal (0,214 – 1,00)
12
58
70
Total
58
132
190
Fonte: Silmara Silva. Tese de Mestrado/FSP/USP.
b)
Distribuição de gestantes segundo níveis de β -caroteno (mg/L) e hábito de fumar.
Fumante
Não Fumante
Total
β-caroteno (mg/L)
n
%
n
%
n
%
Baixo (0 – 0,213)
46
74
120
Normal (0,214 – 1,00)
12
58
70
Total
58
132
190
Fonte: Silmara Silva. Tese de Mestrado/FSP/USP.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
10
Exercícios suplementares
Exercício S1
Os dados a seguir são relativos ao número de refeições diária de 50 indivíduos.
2
3
2
1
2
6
5
1
2
2
1
2
5
6
2
2
3
2
3
4
2
3
2
3
3
3
4
3
3
1
4
3
4
4
3
3
1
6
4
4
2
4
Fonte X.
a) Apresente os dados em uma tabela.
b) Interprete a dispersão dos dados.
4
4
3
4
3
3
2
5
Exercício S2
Os dados a seguir são provenientes do grupo Western Collaborative Group Study, criado na Califórnia
em 1960-61. Foram estudados 3154 homens de meia idade para investigar a relação entre padrões de
comportamento e risco de doença coronariana. Os dados apresentados são de 40 homens para os
quais foram medidos os níveis de colesterol (mg/100ml) e realizada uma categorização segundo comportamento. O comportamento de tipo A é caracterizado pela urgência, agressividade e ambição. O de
tipo B é relaxado, não competitivo e menos preocupado.
Tipo A: nível de colesterol
233
254
291
276
312
234
Tipo B: nível de colesterol
344
185
263
226
175
242
250
181
246
248
246
252
224
153
197
252
212
183
268
202
224
218
188
137
250
202
239
212
148
194
239
325
169
213
a) Quais variáveis que estão sendo estudadas? Identifique a natureza de cada variável.
b) Apure os dados e apresente a variável nível de colesterol em uma tabela bidimensional, considerando os níveis A e B.
c) Classifique a variável nível de colesterol em duas categorias: nível normal (abaixo de 160
mg/100ml) e nível elevado (160 mg/100ml e mais) e faça uma tabela bidimensional cruzando
as variáveis: nível de colesterol (normal e alto) e tipo de comportamento (A e B). Interprete
os resultados.
Exercício S3
Os dados a seguir são provenientes de um estudo realizado com escolares de 7 a 10 anos que participaram de um treinamento para melhorar a habilidade dos mesmos em especificar os alimentos consumidos através de um preenchimento de um Diário Alimentar. Foram atribuídos escores antes e após
o treinamento para cada criança participante da pesquisa. Apresente os dados dos escores em três
tabelas separadas e compare os dados da tabela antes e após o treinamento.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
11
Tabela 1. Valores das médias do escore obtido por aluno antes e após o treinamento, segundo as
categorias identificação do alimento, detalhamento e quantificação. São Paulo, SP, 2007.
Escolar
Identificação de aliDetalhamento do
Quantificação
mento
alimento
Antes
Depois
Antes
Depois
Antes
Depois
1
4,67
5,00
2,50
1,88
3,17
2
4,89
5,00
3,33
2,50
4,33
3
5,00
5,00
1,25
2,67
5,00
4
4,44
5,00
0,83
1,25
4,50
5
5,00
4,92
2,50
0,63
5,00
6
3,11
5,00
3,33
3,00
4,87
7
3,83
5,00
2,50
3,33
5,00
8
4,17
5,00
2,50
3,75
2,33
4,58
9
3,33
4,58
2,50
3,13
1,00
4,58
10
5,00
5,00
5,00
5,00
11
2,50
4,67
2,50
4,33
12
4,17
4,44
1,25
2,67
0,50
4,89
13
4,50
5,00
1,25
2,50
3,22
14
3,33
5,00
2,50
1,67
3,17
5,00
15
5,00
5,00
3,13
0,67
4,50
16
3,33
5,00
2,50
0,42
3,39
17
3,33
5,00
2,50
4,17
18
3,83
5,00
3,67
19
1,67
5,00
0,63
0,83
20
3,17
5,00
1,25
2,50
4,42
21
3,89
5,00
2,50
2,33
22
3,89
5,00
2,50
4,28
1,33
23
5,00
5,00
5,00
24
5,00
5,00
2,50
4,17
3,78
25
4,50
5,00
0,63
0,83
3,00
26
1,67
5,00
0,83
27
5,00
5,00
0,50
2,17
5,00
28
3,33
5,00
0,50
0,67
1,00
29
4,53
4,53
1,50
2,50
30
3,33
5,00
0,63
1,88
3,58
31
3,75
5,00
1,67
4,50
32
1,67
5,00
1,00
1,17
33
4,17
3,75
0,21
0,25
- escore = zero.
Fonte: Consolmagno DC, 2009.
Exercício S4
Os dados a seguir são relativos ao peso ao nascer (g) de recém nascidos com síndrome de desconforto idiopático grave. Algumas crianças foram a óbito (*) e outras sobrevieram.
1050*
2500*
1890*
1760
2830
1175*
1030*
1940*
1930
1410
1230*
1100*
2200*
2015
1715
1310*
1185*
2270*
2090
1720
1500*
1225*
2440*
2600
2040
1600*
1262*
2560*
2700
2200
1720*
1295*
2730*
2950
2400
1750*
1300*
1130
2550
3160
1770*
1550*
1575
2570
3400
2275*
1820*
1680
3005
3640
Fonte: Hand DJ et al., 1994.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
12
a) Classifique a variável peso ao nascer em duas categorias: baixo peso (abaixo de 2500 g) e
não baixo peso (2500 g e mais) e faça uma tabela bidimensional cruzando as variáveis: condição do recém-nascido (sobrevivente ou não sobrevivente) e peso ao nascer (baixo peso e não
baixo peso).
b) Interprete os resultados.
Exercício S5
A tabela abaixo foi extraída do artigo Tendência secular do peso ao nascer na cidade de São Paulo
(1976-1998) de MONTEIRO CA et al. (Rev. Saúde Pública; 2000:34 (6, supl): 26-40).
Comente os resultados apresentados.
Apresentação gráfica: diagrama de barras, diagramas de setores circulares, diagrama linear, histograma, polígono de frequência, ogiva de frequências acumuladas.
Diagrama de barras
Utilizado para representar as variáveis qualitativa nominal, ordinal e quantitativa discreta.
Características: figuras geométricas (barras) separadas e bases de mesmo tamanho. A altura das
barras é proporcional às frequências.
Variável qualitativa
O Inquérito Brasileiro de Nutrição (IBRANUTRI) foi um estudo de pacientes maiores de 18 anos, internados em hospitais da rede pública, conveniados, filantrópicos e universitários de 12 estados do Brasil
e do Distrito Federal, realizado de maio a novembro de 1996 (in Soares JF, Siqueira AL. Introdução à
Estatística Médica, COOPMED,Belo Horizonte, MG 2002). Os dados da tabela são retirados deste estudo.
Distribuição de pacientes segundo estado nutricional. IBRANUTRI, maio a novembro, 1996.
Estado nutricional
n
%
Nutrido
2061
51,5
Desnutrido
1905
47,6
Sem diagnóstico
34
0,9
Total
4000
100,0
Fonte: adaptado de Soares JF, Siqueira AL, 2002.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
13
2500
Número
2000
1500
1000
500
0
Nutrido
Desnutrido
Sem
diagnóstico
Estado nutricional
Fonte: adaptado de Soares JF, Siqueira AL, 2002.
Distribuição de pacientes segundo estado nutricional. IBRANUTRI, maio a novembro, 1996.
Esta representação gráfica está correta?
2100
Número
2050
2000
1950
1900
1850
1800
Nutrido
Desnutrido
Estado nutricional
Atenção: cuidado com a origem!
Diagrama de barras da tabela anterior, excluindo-se os registros da categoria sem diagnóstico
2500
Número
2000
1500
1000
500
0
Nutrido
Desnutrido
Estado nutricional
Fonte: adaptado de Soares JF, Siqueira AL, 2002.
Distribuição de pacientes segundo estado nutricional. IBRANUTRI, maio a novembro, 1996.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
14
Variável qualitativa nominal
Distribuição do consumo médio per capita de carne vermelha (kg/ano) segundo país.
País
Consumo anual
Albânia
10,1
Alemanha Oriental
11,4
Áustria
8,9
Bélgica
13,5
Bulgária
7,8
Checoslováquia
9,7
Dinamarca
10,6
Alemanha Ocidental
8,4
Finlândia
9,5
França
18,0
Grécia
10,2
Itália
9,0
Holanda
9,5
Fonte: Hand DJ et al., 1994 (adaptado).
País
Noruega
Polônia
Portugal
Romênia
Espanha
Suécia
Suíça
Reino Unido
União Soviética
Iugoslávia
Hungria
Irlanda
Consumo anual
9,4
6,9
6,2
6,2
7,1
9,9
13,1
17,4
9,3
4,4
5,3
13,9
País
Iugoslávia
Hungria
Rom ênia
País
Portugal
Irlanda
Polônia
Hungria
Espanha
Iugoslávia
União Soviética
Bulgária
Reino Unido
Alem anha Ocidental
Suíça
Áustria
Suécia
Itália
Espanha
Romênia
União Soviética
Portugal
Noruega
Polônia
Holanda
Noruega
Finlândia
Holanda
Checoslováquia
Itália
Grécia
Suécia
França
Albânia
Finlândia
Grécia
Alemanha Ocidental
Dinam arca
Dinamarca
Alem anha Oriental
Checoslováquia
Suíça
Bulgária
Bélgica
Bélgica
Áustria
Irlanda
Alemanha Oriental
Reino Unido
Albânia
França
0
2
4
6
8
10
12
14
Consum o médio per capita (Kg/ano)
16
18
20
0
5
10
15
Consum o m édio per capita (kg/ano)
Fonte: Hand DJ et al., 1994 (adaptado).
Distribuição do consumo médio (kg/ano) per capita de carne vermelha, segundo país.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
15
20
Variável qualitativa ordinal
Distribuição de pacientes segundo estado nutricional. IBRANUTRI, maio a novembro, 1996.
Estado nutricionala
n
%
Nutrido
2061
52,0
Desnutrido moderado
1407
35,4
Desnutrido grave
498
12,6
Total
3966
100
a
excluindo-se 34 (0,9%) de pacientes sem diagnóstico.
Fonte: adaptado de Soares JF, Siqueira AL, 2002.
%
60
50
40
30
20
10
0
Nutrido
Des nutrido
m oderado
Des nutrido grave
Estado nutriciona l
a
excluindo-se 34 (0,9%) de pacientes sem diagnóstico.
Fonte: adaptado de Soares JF, Siqueira AL, 2002.
Distribuição de pacientes segundo estado nutricional. IBRANUTRI, maio a novembro, 1996.
Variável quantitativa discreta: número de bens
Foi realizada, no período de outubro de 1998 a outubro 1999, a pesquisa “Alimentação no primeiro
ano de vida”, onde se estudou uma coorte de recém-nascidos da maternidade do Hospital Universitário (HU). Os dados a seguir são parte da caracterização sócio-econômica da amostra estudada.
Distribuição de famílias segundo número de bens* que possuem. Hospital Universitário/USP, São Paulo 1999.
Número de bens
n
%
0
146
40,6
1
97
26,9
2
87
24,2
3
26
7,2
4
4
1,1
Total
360
100
* automóvel, telefone, TV a cabo e computador
50
%
40
30
20
10
0
0
1
2
3
Número de bens
4
*automóvel, telefone, TV a cabo e computador
Distribuição de famílias segundo número de bens*. Hospital Universitário/USP, São Paulo 1999.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
16
Exemplo 7
Os dados a seguir são relativos ao número de refeições diárias de 50 indivíduos, utilizados no exercício S1.
2
3
2
1
1
2
2
1
2
2
3
2
3
2
3
3
3
1
4
3
3
1
6
4
c) Apresente os dados em um gráfico.
d) Interprete o gráfico.
2
2
3
3
4
4
6
5
4
4
4
2
5
6
2
3
3
4
4
4
3
4
3
3
2
5
Diagrama de setores circulares
Variáveis: qualitativa nominal e qualitativa ordinal
Distribuição de pacientes segundo estado nutricional. IBRANUTRI, maio a novembro, 1996.
n
%
Estado nutricionala
Nutrido
2061
52,0
Desnutrido moderado
1407
35,4
Desnutrido grave
498
12,6
Total
3966
100
a
excluindo-se 34 (0,9%) de pacientes sem diagnóstico.
Fonte: adaptado de Soares JF, Siqueira AL, 2002.
12,6%
52,0%
35,4%
Nutrido
Desnutrido moderado
Desnutrido grave
a
excluindo-se 34 (0,9%) de pacientes sem diagnóstico.
Fonte: adaptado de Soares JF, Siqueira AL, 2002.
Distribuição de pacientes(a) segundo estado nutricional. IBRANUTRI, maio a novembro, 1996.
Diagrama linear
Produção de leite (milhões de toneladas).
Índia e Estados Unidos, 1966 – 2000.
Ano
Índia
Estados Unidos
1966
20
58
1970
23
56
1980
29
60
1990
50
70
2000
80
75
Fonte: State of the World, 2001.
Milhoes de toneladas
Produção de leite (milhões de toneladas).
Índia e Estados Unidos, 1966 – 2000
90
Índia
80
Estados Unidos
70
60
50
40
30
20
10
0
1960
1965
1970
1975
1980
1985
1990
1995
2000
2005
Ano
Fonte: State of the World, 2001.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
17
Exemplo 8
Os dados são referentes a produção (kg) de carne de peixes e de carne vermelha e de carneiro por
pessoa, no mundo, no período de 1950 a 2000.
Ano
Pesca oceânica
Carne vermelha e
(kg)
de carneiro (kg)
1950
7,9
9,0
1960
12,0
10,0
1970
16,1
12,0
1980
15,5
11,9
1990
16,3
12,0
2000
15,0
11,7
Fonte: State of the World, 2001. The Worldwatch Institute.
a) Apresente os dados em um gráfico.
b) Interprete os resultados.
Histograma
Adequado para representar variável quantitativa contínua
Intervalos de classe com mesma amplitude
Distribuição de recém-nascidos acometidos de síndrome de desconforto idiopático grave segundo
peso ao nascer (g)
Peso(g)
No
%
1000 |-- 1500
13
26
1500 |-- 2000
15
30
2000 |-- 2500
9
18
2500 |-- 3000
9
18
3000 |-- 3500
3
6
3500 |-- 4000
1
2
Total
50
100
Fonte: van Vliet PKJ, Gupta JM. (1973).
35
%
30
25
20
15
10
5
0
1000
1500
2000
2500
3000
3500
4000
Peso ao nascer (g)
Fonte: van Vliet PKJ, Gupta JM. (1973)
Distribuição de recém-nascidos acometidos de síndrome de desconforto idiopático grave segundo
peso ao nascer (g).
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
18
Notar que o gráfico pode ser construído considerando-se pessoas por unidade de medida
(densidade)
1500
2000
2500
3000
3500
4000
No
13
15
9
9
3
1
50
número/g
Peso(g)
1000 |-1500 |-2000 |-2500 |-3000 |-3500 |-Total
Amplitude
500
500
500
500
500
500
No/amplitude
0,026
0,030
0,018
0,018
0,006
0,002
(No/amplitude)x10000
26
30
18
18
6
2
0,030
0,025
0,020
0,015
0,010
0,005
0
1000
1500
2000
2500
3000
3500
4000
peso ao nascer (g)
Fonte: van Vliet PKJ, Gupta JM. (1973).
Distribuição de recém-nascidos acometidos de síndrome de desconforto idiopático grave segundo
peso ao nascer (g).
OBS: notar que com intervalos iguais, não é necessário fazer ajuste na altura dos retângulos dado
que as bases são de mesmo tamanho (mesma amplitude) e, portanto, com proporcionalidade assegurada.
Exemplo 9
Os dados são referentes à distribuição de pacientes segundo taxa de albumina no sangue (g/dL).
Taxa de albumina (g/dL)
No
%
4,40|-4,60
6
10,0
4,60|-4,80
11
18,3
4,80|-5,00
14
23,3
5,00|-5,20
18
30,0
5,20|-5,40
8
13,3
5,40|-5,60
2
3,3
5,60|-5,80
0
5,80|-6,00
1
1,7
Total
60
100
Fonte: Soares JF, Siqueira AL. COOPMED, 2002.
a) Apresente os dados em um histograma.
b) Interprete os resultados.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
19
Intervalos de classe com amplitudes diferentes
Distribuição de mulheres idosas segundo a altura.
Altura (cm)
No
%
140|--150
12
3,4
150|--155
52
14,8
155|--160
109
31,1
160|--170
156
44,4
170|--180
22
6,3
Total
351
100
Fonte: Hand DJ et al., 1994.
Ajuste
Altura (cm)
No
Amplitude
No/amplitude
140|--150
12
10
1,2
150|--155
52
5
10,4
155|--160
109
5
21,8
160|--170
156
10
15,6
170|--180
22
10
2,2
Total
351
Fonte: Hand DJ et al., 1994.
Distribuição de mulheres idosas segundo a altura.
Cuidado: Sem fazer o ajuste, o gráfico fica errado e pode levar a conclusões incorretas.
50
45
40
35
30
25
20
15
10
5
0
%
140
150
160
170
180
Altura (cm)
Gráfico correto, com o ajuste para intervalos de classe com amplitudes diferentes.
25
Mulheres/cm
20
15
10
5
0
140
145
150
155
160
165
170
175
180
altura (cm)
Fonte: Hand DJ et al., 1994.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
20
Exemplo 10
Os dados a seguir são da altura (cm) de uma amostra de mulheres de Bangladesh.
Altura (cm)
número
137,0 |--140,0
71
140,0 |--143,0
137
143,0 |--145,0
154
145,0 |--147,0
199
147,0 |--150,0
279
150,0 |--153,0
221
153,0 |--155,0
94
155,0 |--157,0
51
157,0 |--160,0
37
Total
1243
Fonte: Hand DJ et al, 1994 (adaptado).
a) Represente os dados acima, graficamente em um histograma.
b) Interprete os resultados.
Polígono de frequência simples
Intervalos de classe com mesma amplitude
Distribuição de recém-nascidos acometidos de síndrome de desconforto idiopático grave segundo
peso ao nascer (g).
Peso(g)
No
%
1000 |-- 1500
13
26
1500 |-- 2000
15
30
2000 |-- 2500
9
18
2500 |-- 3000
9
18
3000 |-- 3500
3
6
3500 |-- 4000
1
2
Total
50
100
Fonte: Hand DJ et al., 1994.
16
Número
14
12
10
8
6
4
2
0
0
500 1000 1500 2000 2500 3000 3500 4000 4500
peso (g)
Fonte: Hand DJ et al., 1994.
Distribuição de recém-nascidos acometidos de síndrome de desconforto idiopático grave segundo
peso ao nascer (g).
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
21
Exemplo 11
Os dados a seguir são referentes à distribuição de usuárias do Serviço de Saúde X segundo idade
(anos). Município de São Paulo, 2009.
Idade (anos)
n
%
15|-- 20
14
19,5
20|-- 25
24
33,3
25|-- 30
16
22,2
30|-- 35
9
12,5
35|-- 40
8
11,1
40|--45
1
1,4
Total
72
100
Fonte: Dados hipotéticos.
a) Apresente a variável em um polígono de frequências simples.
b) Interprete os resultados.
Intervalos de classe com amplitudes diferentes
Distribuição de mulheres
Altura (cm)
140|--150
150|--155
155|--160
160|--170
170|--180
Total
Fonte: Hand DJ et al., 1994.
idosas segundo a altura.
%
No
12
3,4
52
14,8
109
31,1
156
44,4
22
6,3
351
100
Ajuste
No
12
52
109
156
22
351
Altura (cm)
140|--150
150|--155
155|--160
160|--170
170|--180
Total
No/amplitude
1,2
10,4
21,8
15,6
2,2
Amplitude
10
5
5
10
10
núm er o de p ess oa s/cm
25
20
15
10
5
0
1 30
1 35
140
14 5
1 50
1 55
160
16 5
1 70
175
180
18 5
1 90
Altu ra (c m)
Fonte: Hand DJ et al., 1994.
Distribuição de mulheres idosas segundo a altura (cm).
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
22
Exemplo 12
Distribuição de homens segundo nível de glicose no sangue (mg%).
Nível de glicose no sangue
n
(mg%)
50|-- 100
13
100|-- 150
45
150|-- 200
28
200|-- 250
10
250|-- 300
3
300|-- 450
1
Fonte: X.
a) Apresente os dados acima graficamente utilizando o polígono de frequências simples.
b) Interprete os resultados.
Polígono (ogiva) de frequências acumuladas
Distribuição de mulheres idosas segundo a altura.
%
Altura (cm)
No
140|-145
1
0,29
145|-150
11
3,13
150|-155
52
14,81
155|-160
109
31,05
160|-165
106
30,20
165|-170
50
14,25
170|-175
18
5,13
175|-180
4
1,14
Total
351
100
Fonte: Hand DJ et al., 1994.
100
% acumulado
0,29
3,42
18,23
49,28
79,48
93,73
98,86
100
% acumulado
80
60
40
20
0
140
145
150
155
160 165
170 175 180
altura (cm)
Fonte: Hand DJ et al., 1994.
Distribuição acumulada de mulheres idosas segundo a altura.
Percentil
25%
50%
75%
Valor da variável
156 cm
160 cm
164 cm
Medidas estatísticas
Q1 – primeiro quartil
Q2 - segundo quartil ou mediana
Q3 – terceiro quartil
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
23
Exemplo 13
Os dados a seguir são medidas de circunferência do tórax (polegadas) de 5732 soldados escoceses
apresentados pelo matemático belga Adolphe Quetelet (1796–1874).
Medida (polegada)
número
%
% acumulada
33,0 |– 34,0
3
34,0 |– 35,0
19
35,0 |– 36,0
81
36,0 |– 37,0
189
37,0 |– 38,0
409
38,0 |– 39,0
753
39,0 |– 40,0
1062
40,0 |– 41,0
1082
41,0 |– 42,0
935
42,0 |– 43,0
646
43,0 |– 44,0
313
44,0 |– 45,0
168
45,0 |– 46,0
50
46,0 |– 47,0
18
47,0 |– 48,0
3
48,0 |– 49,0
1
Total
5732
Fonte: Daly F et al. Elements of Statistics, 1999.
a) Represente os dados em um polígono de frequências acumuladas.
b) Utilizando o gráfico, identifique o valor da circunferência de tórax que deixa 25% dos indivíduos abaixo.
c) Qual o valor de circunferência do tórax que divide a distribuição em 2 partes iguais, isto é,
qual é o valor da variável que deixa 50% das observações abaixo dele?
d) Qual a proporção de soldados com circunferência do tórax entre 40 a 42 polegadas?
e) Qual é o valor de circunferência do tórax que deixa 95% dos soldados abaixo dele?
Representação gráfica de duas variáveis qualitativas
Os dados são de um estudo de obesidade em mulheres da zona urbana de Trinidade e Tobago,
realizado em 1985, que estuda a relação entre idade da menarca e a medida do tríceps.
Distribuição de mulheres segundo idade da menarca e medida do tríceps. Trinidade e Tobago,1985.
Idade da menarca
Medida do tríceps
Intermediária
Grande
< 12 anos
29
36
12 anos e mais
197
150
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Pequena
15
156
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
24
Investigando-se a distribuição da idade segundo medida do tríceps tem-se:
250
<12
número
200
12 e +
150
100
50
0
Pequena
Intermediária
Grande
medida do tríceps
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Distribuição de mulheres segundo idade da menarca e medida do tríceps. Trinidade e Tobago,1985.
Calculando-se as porcentagens, tomando-se as categorias da medida do tríceps como 100%, tem-se:
Distribuição de mulheres segundo idade da menarca e medida do tríceps. Trinidade e Tobago,
1985.
Idade (anos)
<12
12 e +
Total
Fonte:
Medida do tríceps
Pequena
Intermediária
Grande
Total
n
%
n
%
n
%
n
%
15
8,8
29
12,8
36
19,4
80
13,7
156
91,2
197
87,2
150
80,6
503
86,3
171
100
226
100
186
100
583
100
Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
%
100
<12
80
12 e +
60
40
20
0
Pequena
Intermediária
Grande
Medida do tríceps
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Distribuição de mulheres segundo idade da menarca e medida do tríceps. Trinidade e Tobago,
1985.
Investigando-se a distribuição da medida do tríceps segundo a idade:
250
200
150
número
Pequena
Intermediária
Grande
100
50
0
<12
12 e +
idade
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Distribuição de mulheres segundo idade da menarca e medida do tríceps. Trinidade e Tobago,
1985.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
25
Calculando-se as porcentagens tem-se:
Idade
(anos)
<12
12 e +
Total
Medida do tríceps
Intermediária
n
%
29
36,2
197
39,2
226
38,8
Pequena
N
%
15
18,8
156
31,0
171
29,3
50
n
36
150
186
Grande
%
45,0
29,8
31,9
Total
n
80
503
583
%
100
100
100
%
Pequena
45
Intermediária
Grande
40
35
30
25
20
15
10
5
0
<12
12 e +
Idade da menarca
Exemplo 14
A tabela apresenta dados de classificação de pessoas segundo doença coronariana (CHD) segundo
hábito de consumo de café para uma coorte de 1718 homens com idade 40-55 anos.
Distribuição de homens segundo presença de doença coronariana (CHD) e consumo de café.
Moderado consumo de
Total
condição
Alto consumo de café
café (<100 xícaras/mês)
( ≥ 100xícaras/mês)
n
%
n
%
n
%
Com CHD
38
4,8
39
4,2
77
4,5
Sem CHD
752
95,2
889
95,8
1641
95,5
Total
790
100
928
100
1718
100
a) Apresente os dados graficamente.
b) Interprete os resultados.
Representação gráfica de duas variáveis quantitativas
Histograma
Fixando-se os percentuais na condição do recém-nascido:
Distribuição de recém-nascidos acometidos de síndrome de desconforto idiopático grave segundo
peso ao nascer (g) e condição do recém-nascido.
Peso(g)
Sobrevivente
Não sobrevivente
Total
no
%
no
%
no
%
1000 |-- 1500
2
9
11
41
13
26
1500 |-- 2000
6
26
9
33
15
30
2000 |-- 2500
5
22
4
15
9
18
2500 |-- 3000
6
26
3
11
9
18
3000 |-- 3500
3
13
0
3
6
3500 |-- 4000
1
4
0
1
2
Total
23
100
27
100
50
100
Fonte: Hand DJ et al., 1994.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
26
45
40
35
30
25
20
15
10
5
0
%
1000 1500 2000 2500 3000 3500 4000
Sobrevivente
1000 1500 2000 2500 3000
Não sobrevivente
Condição do recém nascido
Distribuição de recém-nascidos acometidos de síndrome de desconforto idiopático grave segundo
peso ao nascer (g) e condição do recém-nascidos.
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Polígono de frequências
45
%
40
Sobrevivente
35
Não sobrev.
30
25
20
15
10
5
0
0
500
1000
1500 2000 2500 3000
peso ao nascer (g)
3500
4000
4500
Fonte: Hand DJ et al., 1994.
Distribuição de recém-nascidos acometidos de síndrome de desconforto idiopático grave segundo
peso ao nascer (g) e condição do recém-nascido.
Fixando-se os percentuais no peso ao nascer:
Diagrama de barras
Distribuição de recém-nascidos acometidos de síndrome de desconforto idiopático grave segundo
peso ao nascer (g) e condição do recém-nascido.
Peso(g)
Sobrevivente
Não sobrevivente
Total
no
%
no
%
no
%
1000 |-- 1500
2
15
11
85
13
100
1500 |-- 2000
6
40
9
60
15
100
2000 |-- 2500
5
56
4
44
9
100
2500 |-- 3000
6
67
3
33
9
100
3000 |-- 3500
3
100
0
3
100
3500 |-- 4000
1
100
0
1
100
Total
23
46
27
54
50
100
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
27
120
%
Sobrevivente
100
Não sobrevivente
80
60
40
20
0
1000 |--1500
1500 |--2000
2000 |--2500
2500 |--3000
3000 |--3500
3500 |--4000
peso (g)
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Distribuição de recém-nascidos acometidos de síndrome de desconforto idiopático grave segundo
peso ao nascer (g) e condição do recém-nascido.
100
não sobreviviente
%
sobrevivente
80
60
40
20
0
1000 1500 2000 2500 3000 3500 4000
peso (g)
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Distribuição de recém-nascidos acometidos de síndrome de desconforto idiopático grave segundo
peso ao nascer (g) e condição do recém-nascido.
Exemplo 15
Utilize os dados da tabela e apresente-os graficamente.
Distribuição de escolares de 7 a 10 anos segundo peso e sexo. Duas escolas do Município de São Paulo, 2005.
Peso (kg)
Sexo
Masculino
Feminino
15,0 |-- 25,0
52
68
25,0 |-- 35,0
146
132
35,0 |-- 45,0
59
53
45,0 |-- 55,0
11
18
55,0 |-- 65,0
10
2
65,0 |-- 75,0
3
1
75,0 |-- 85,0
0
0
85,0 |-- 95,0
0
1
Total
281
275
Fonte: Koga CR. Estado nutricional de escolares de 7 a 10 anos de idade: diagnóstico e comparação
de métodos. São Paulo; 2005. [Dissertação de Mestrado-Faculdade de Saúde Pública da Universidade
de São Paulo/USP].
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
28
Exemplo 16
Utilize os dados da tabela e apresente-os graficamente.
Distribuição de percentual (%) de escolares segundo estatura (cm), sexo e idade.
Estatura (cm)
Sexo
Masculino
Feminino
105,0 – 119,9
3
16
120,0 – 124,9
36
31
125,0 – 129,9
61
74
130,0 – 134,9
57
41
135,0 – 139,9
52
43
140,0 – 144,9
38
30
145,0 – 149,9
22
26
150,0 – 159,9
12
14
Total
281
275
Fonte: Koga CR. Estado nutricional de escolares de 7 a 10 anos de idade: diagnóstico e comparação
de métodos. São Paulo; 2005. [Dissertação de Mestrado-Faculdade de Saúde Pública da Universidade
de São Paulo/USP].
Escala aritmética e escala logarítmica
Número de crianças segundo massa corporal. Escola X, 2000 e 2002.
Ano
Sobrepeso
Obesas
2000
300
100
2002
150
50
Fonte: dados hipotéticos.
Gráfico em escala aritmética
350
Sobrepeso
300
Obeso
Número
250
200
150
100
50
0
2000
2002
Ano
Fonte: dados hipotéticos
Número de crianças segundo massa corporal. Escola X, 2000 e 2002.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
29
Gráfico em escala logarítmica
Sobrepeso
Número
1000
Obeso
100
10
1
2000
2002
Ano
Fonte: dados hipotéticos.
Número de crianças segundo massa corporal. Escola X, 2000 e 2002.
Gráfico em escala aritmética
Coeficiente de mortalidade pela doença X e Y (100.000 hab.). Determinada localidade,
1990- 1995.
Ano
Doença X
Doença Y
1990
123,5
28,7
1991
121,4
22,4
1992
111,9
17,7
1993
85,9
13,9
1994
77,1
14,8
1995
62,2
10,5
Fonte: dados hipotéticos.
150
Doença X
Coeficiente
Doença Y
100
50
0
1990 1991 1992 1993 1994 1995
Ano
Fonte: dados hipotéticos.
Coeficiente de mortalidade pela doença X e Y (100.000 hab.). Determinada localidade, 1990- 1995.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
30
Gráfico em escala logarítmica
1000
Doença X
Coeficiente
Doença Y
100
10
1
1990
1991
1992
1993
1994
1995
Ano
Fonte: dados hipotéticos.
Coeficiente de mortalidade pela doença X e Y (100.000 hab.). Determinada localidade, 1990 - 1995.
Exemplo 17
Os dados a seguir são referentes à mortalidade por câncer de esôfago, segundo sexo, no município de
São Paulo no período de 1968-1998.
Coeficientes de mortalidade por câncer de esôfago (por 100.000 hab.).
Município de São Paulo, 1968-1998.
Ano
Masculino
Feminino
1968
8,81
2,00
1973
12,38
2,61
1978
10,93
1,98
1983
9,41
2,00
1988
8,60
1,67
1993
8,33
1,27
1998
8,37
1,12
Fonte: Incidência de câncer no Município de São Paulo, 1997-1998. Registro de Câncer de São Paulo.
FSP/USP.
a) Represente os coeficientes de mortalidade por câncer de esôfago para o sexo masculino e feminino
em um único gráfico, utilizando escala aritmética.
b) Represente os coeficientes de mortalidade por câncer de esôfago para o sexo masculino e feminino
em um único gráfico utilizando escala logarítmica.
c) Comente os gráficos dos itens a e b. Qual a melhor representação para os dados?
Exercícios suplementares
Exercício S6
Apresente a variável peso ao nascer graficamente utilizando a variável definida em duas categorias,
conforme tabela abaixo.
Distribuição de recém-nascidos acometidos de síndrome de desconforto idiopático grave segundo
peso ao nascer (g). Austrália, 1993.
%
Peso(g)
No
Baixo peso (<2500 g)
37
74,0
Não baixo peso (2500 g e mais)
13
26,0
Total
50
100
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
31
Exercício S7
Apresentar a variável comprimento ao nascer em um histograma.
Distribuição de recém-nascidos segundo comprimento ao nascer (cm). Hospital X, 2009.
Comprimento (cm)
n
%
40|--43
1
1,2
43|--46
45
55,6
46|--49
25
30,9
49|--52
4
5
52|--55
3
3,7
55|--58
1
1,2
58|--61
2
2,5
Total
81
100
Fonte: dados hipotéticos.
Exercício S8
Apresentar a variável idade da mãe em um polígono de frequências.
Distribuição de mães segundo idade (anos). Centro de Saúde X, 2009.
Idade (anos)
n
%
15|-- 20
14
19,5
20|-- 25
24
33,3
25|-- 30
16
22,2
30|-- 35
9
12,5
35|-- 40
8
11,1
40|--45
1
1,4
Total
72
100
Fonte: dados hipotéticos.
Exercício S9
Defeitos do tubo neural são má formações congênitas que surgem durante o desenvolvimento fetal. É
conhecida como spina bífida. Estes dados são de um estudo realizado no país de Gales – Reino Unido,
para investigar possível associação entre defeito do tubo neural e dieta materna. O estudo é do tipo
caso-controle: mães que tinham tido bebês com spina bífida (casos) e suas irmãs que não tinham tido
(controles) foram avaliadas segundo suas dietas e classificadas em boa, razoável e ruim.
Distribuição de recém-nascidos casos (acometidos de spina bífida) e controles segundo dieta da
mãe.
Dieta
Casos
Controles
Total
n
%
n
%
n
%
Boa
34
43
77
Razoável
110
48
158
Pobre
100
32
132
Total
244
123
367
Fonte: Hand DJ ET al., 1994.
a) Calcular percentuais tomando-se como 100% o grupo (caso, controle) e interprete os resultados.
b) Apresentar os dados em um gráfico.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
32
Exercício S10
Represente os dados da tabela em um polígono de frequências e interprete os resultados. Trata-se de
condenados por embriaguez em Londres, 1970.
Idade
Homens
Mulheres
Número
%
Número
%
0 |--30
185
20,5
4
9,1
30 |-- 40
207
22,9
13
29,5
40 |-- 50
260
28,8
10
22,7
50 |--60
180
19,9
7
15,9
60 |--80
71
7,9
10
22,7
total
903
100
44
100
Fonte: Hand DJ et alli. A handbook of small data sets. Chapman&Hall, 1994.
Medidas de tendência central e de dispersão
Medidas de tendência central
Média aritmética
Notação:
X → variável
N → tamanho da população
n → tamanho da amostra
→ Média populacional (parâmetro, geralmente desconhecido)
X
→ Estatística (fórmula)
x
→ Média amostral (estimativa, valor calculado na amostra)
Média aritmética é o valor que indica o centro de equilíbrio de uma distribuição de frequências de uma
variável quantitativa.
Definição: é a soma dos valores de uma variável, dividida pelo número de valores.
Em uma amostra aleatória simples de tamanho n, composta das observações x1, x2, ..., xn, a média
aritmética ( x ) é igual a:
n
x + x 2 + ... + x n
x= 1
=
n
∑x
i
i =1
n
OBS:
• só existe para variáveis quantitativas e seu valor é único;
• é da mesma natureza da variável considerada; e
• sofre influência dos valores aberrantes (outlier).
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
33
Exemplo:
Os dados a seguir são provenientes do grupo Western Collaborative Group Study. Grupo tipo A: pessoas caracterizadas pela urgência, agressividade e ambição. Os participantes de tipo B são mais relaxados, não competitivos e menos preocupados.
Tipo A: nível de colesterol
233
291
312
254
276
234
250
181
246
248
197
252
268
202
224
218
239
212
239
325
188
137
250
202
148
194
169
213
Colesterol médio:
xA =
233 + 291 + ... + 212 + 325
= 245,05mg / 100ml
20
Tipo B: nível de colesterol
344
185
263
226
175
242
246
252
224
153
212
183
xB =
O nível médio de colesterol dos homens do grupo A é 245,1 mg/100ml e do tipo B _____________.
Exemplo 18
Os dados a seguir são provenientes de um estudo que avaliou o consumo alimentar de crianças de 7
a 10 anos de uma escola pública do município de São Paulo no ano de 2008. Os dados apresentados
são de 15 meninos e 10 meninas para os quais foram investigados o consumo em energia (Kcal) de
um dia alimentar. Calcule a média aritmética do consumo de energia para cada sexo:
Meninos
1976
1412
3234
1635
1405
2230
1410
1241
1782
1866
2167
1917
2622
1824
3912
2964
2203
1478
1151
1083
1362
1392
1637
1628
x Meninos =
Meninas
2002
x Meninas =
Mediana
É o valor que ocupa a posição central de uma série de n observações, quando estas estão ordenadas
de forma crescente ou decrescente.
Quando número de observações (n) for ímpar:
a mediana é o valor da variável que ocupa o posto
n+1
2
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
34
Quando o número de observações (n) for par:
a mediana é a média aritmética dos valores da variável que ocupam os postos
n
2
e
n+2
2
OBS:
• existe para variável quantitativa e qualitativa ordinal;
•
é da mesma natureza da variável considerada;
•
torna-se inadequada quando há muitos valores repetidos;
•
não sofre influência de valores aberrantes.
Ex:
Tipo A: nível de colesterol
233
291
312
254
276
234
250
181
246
248
197
252
268
202
224
218
239
212
239
325
Ordenando-se os valores:
Tipo A: nível de colesterol
181
202
218
197
212
224
233
234
239
239
246
248
250
252
254
268
276
291
312
325
224
153
212
183
188
137
250
202
148
194
169
213
Mediana: (239+246)/2=242,5 mg/100ml
Tipo B: nível de colesterol
344
185
263
226
175
242
246
252
Ordenando-se os valores:
Mediana:
Exemplo 19
Com os dados do exemplo 18, calcule a quantidade mediana de energia para os meninos e para as
meninas:
Meninos
Mediana=
Meninas
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
35
Mediana=
Medidas de dispersão
Valores mínimo e máximo: valores extremos da distribuição.
Amplitude de variação: é a diferença entre os 2 valores extremos da distribuição.
Variância: indica o quanto, em média, os quadrados dos desvios de cada observação em relação à
média aritmética estão afastados desta média.
N
∑(X
Populacional
Parâmetro
σ
S (2N ) =
2
i
− X )2
i =1
estimador :
N
∑(X
S (2N −1) =
Desvio padrão: é a raiz quadrada da variância , ou seja
ou
N
i
− X )2
i =1
N −1
σ = σ2
S = S2
Coeficiente de Variação de Pearson (CV):
é o quociente entre o desvio padrão e a média, ou seja
CV =
S
x100
X
Ex e m pl o :
Tipo A: nível de colesterol
233
291
312
254
276
234
Variância:
s2 =
Desvio padrão
250
181
246
248
197
252
268
202
224
218
239
212
239
325
148
194
169
213
(233 − 245,05) 2 + ... + (325 − 245,05) 2
= 1342,37(mg / 100ml ) 2
19
s = 1342,37 = 36,64mg / 100ml
Coeficiente de Variação de Pearson
Tipo B: nível de colesterol
344
185
263
226
175
242
CV =
246
252
36,64
x100 = 15%
245,05
224
153
212
183
188
137
250
202
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
36
Variância:
s2 =
Desvio padrão
s=
Coeficiente de Variação de Pearson CV=
Exemplo 20
Com os dados do exemplo 18, calcule a variância, o desvio-padrão e o coeficiente de variação de
Pearson.
Meninos
Meninas
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
37
Quartil
Valores da variável que dividem a distribuição em quatro partes iguais.
¼
25%
½
¾
25%
25%
25%
Q1: deixa abaixo 25% das observações
25%
75%
Q2: deixa abaixo 50% das observações
50%
50%
75%
Q3: deixa abaixo 75% das observações
25%
Q1 = x 1
( ( n +1))
4
onde x é o valor da variável e
e
Q3 = x
1
( (n + 1))
4
e
3
( ( n +1))
4
3
( ( n + 1)) são índices que representam as posições
4
ocupadas por x.
Os dados abaixo são referentes ao peso ao nascer
desconforto respiratório idiopático grave.
23 crianças sobreviveram e 27 foram a óbito (*).
1.050*
2.500*
1.175*
1.030*
1.230*
1.100*
1.310*
1.185*
1.500*
1.225*
1.600*
1.262*
1.720*
1.295*
1.750*
1.300*
1.770*
1.550*
2.275*
1.820*
de 50 recém-nascidos que tiveram síndrome de
1.890*
1.940*
2.200*
2.270*
2.440*
2.560*
2.730*
1.130
1.575
1.680
Ordenando-se os dados, em cada grupo, obtém-se:
1.030*
1.310*
2.200*
1.050*
1.500*
2.270*
1.100*
1.550*
2.275*
1.175*
1.600*
2.440*
1.185*
1.720*
2.500*
1.225*
1.750*
2.560*
1.230*
1.770*
2.730*
1.262*
1.820*
1.130
1.295*
1.890*
1.410
1.300*
1.940*
1.575
1.760
1.930
2.015
2.090
2.600
2.700
2.950
2.550
2.570
3.005
1.680
1.715
1.720
1.760
1.930
2.015
2.040
2.090
2.200
2.400
2.830
1.410
1.715
1.720
2.040
2.200
2.400
3.160
3.400
3.640
2.550
2.570
2.600
2.700
2.830
2.950
3.005
3.160
3.400
3.640
Fonte: van Vliet PK; Gupta JM. Sodium bicabornate in idiopatic respiratory distress syndrome. Arch.
Diseases in Childhood,1973:48, 249-255.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
38
Entre os recém-nascidos que sobreviveram:
Q1 = x
= x 6 = 1720 g ; Q3 = x
1
( ( 23+1))
4
Q2 = x 1
( ( 23+1))
2
3
( ( 23+1))
4
= x18 = 2830 g
= x12 = 2200g
Entre os recém-nascidos que foram a óbito
Q1 = x 1
= x7 = 1230g ; Q3 = x 3
Q2 = x 1
= x14 = 1600 g
( ( 27+1))
4
( ( 27 +1))
2
( ( 27 +1))
4
= x21 = 2200g
Se o resultado for um valor fracionário:
Por exemplo, para n=22
Q1 = x 1
( ( 22+1))
4
= x 23 = x
(
4
3
(5 )
4
)
que é ¾ do caminho entre x5=1715 e x6=1720
Q1 = 1715 +
Q3 = x 3
3
(1720 − 1715) = 1718,8 g
4
( ( 22+1))
4
=x
1
(17 )
4
que é ¼ do caminho entre x17=2700 e x18=2830
1
Q3 = 2700 + ( 2830 − 2700) = 2732,5 g
4
Decil
Valores da variável que dividem a distribuição em dez partes iguais.
Percentil
Valores da variável que dividem a distribuição em cem partes iguais.
Entre os recém-nascidos que sobreviveram
Percentil 5:
P5 = x
(
5
( 23+1))
100
= x 120 = x
(
100
)
1
(1 )
5
que é 1/5 do caminho entre x1=1130 e x2=1410
1
P5 = 1130 + (1410 − 1130) = 1186 g
5
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
39
Percentil 10:
P10 = x
10
(
( 23+1))
100
= x 240 = x
(
100
2 ;
(2 )
5
)
P10 = 1410 +
2
(1575 − 1410 ) = 1476 g
5
Percentil 50:
P50 = x
(
= x 1200 = x(12) ; P50 = 2200 g
(
)
50
( 23+1))
100
100
Percentil 75:
P75 = x
(
75
( 23+1))
100
= x 1800 = x(18) ; P75 = 2830g
(
)
100
Percentil 90:
P90 = x
(
= x 2160 = x
90
( 23+1))
100
(
100
)
3 ;
( 21 )
5
P90 = 3160 +
3
(3400 − 3160) = 3304 g
5
Percentil 95:
P95 = x
(
= x 2280 = x
95
( 23+1))
100
(
100
)
4 ;
( 22 )
5
P95 = 3400 +
4
(3640 − 3400 ) = 3592 g
5
Box plot e identificação de valores aberrantes (outliers)
O Box plot representa graficamente dados de forma resumida em um retângulo onde as linhas da
base e do topo são o primeiro e o terceiro quartis, respectivamente. A linha entre estas é a mediana.
Linhas verticais que iniciam no meio da base e do topo do retângulo, terminam em valores
denominados adjacentes inferior e superior (Chambers et al., 1983, pag 60).
O valor adjacente superior é o maior valor das observações que é menor ou igual a Q3+1,5(Q3-Q1).
O valor adjacente inferior é definido como o menor valor que é maior ou igual a Q1-1,5(Q3-Q1),
sendo a diferença Q3-Q1 denominada intervalo inter-quartil (IIQ).
Valores outliers (discrepantes ou aberrantes) são valores que “fogem” da distribuição dos dados. O
box plot além de apresentar a dispersão dos dados torna-se útil também para identificar a ocorrência
destes valores como sendo os que caem fora dos limites estabelecidos pelos valores adjacentes superior e inferior.
Exemplo:
Tipo A: nível de colesterol
181
202
218
197
212
224
233
234
239
239
246
248
250
252
254
268
276
291
312
325
Tipo B: nível de colesterol
137
153
175
148
169
183
185
188
194
202
212
213
224
226
242
246
250
252
263
344
Tipo A:
n=20;
Q1 = x 1
4
Q3 = x 3
4
( n +1)
( n +1)
= x 21 = x
5
4
= x3
4
( 21)
=x
1
4
3
15
4
= 218 +
1
(224 − 218) = 218 + 1,5 = 219,5
4
= 254 +
3
(268 − 254) = 254 + 10,5 = 264,5
4
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
40
Intervalo Inter-Quartil (IIQ): Q3-Q1 = 45.
325 é o valor adjacente superior. Este é o maior valor da distribuição, igual ou abaixo de 332, onde
332 é dado por: 264,5 + 1,5 x 45 = 332 .
181 é o valor adjacente inferior. É o menor valor da distribuição, igual ou acima de 152, onde 152 é
dado por: 219,5 − 1,5 x 45 = 152 .
Tipo B
n=20
Q1 = x 1
4
( n +1)
Q3 = x 3
4
( n +1)
= x 21 = x
4
= x3
4
( 21)
5
1
= 175 + (183 − 175) = 175 + 2 = 177
4
1
4
=x
15
3
4
3
= 242 + (246 − 242) = 242 + 3 = 245
4
Intervalo Inter-Quartil (IIQ): Q3-Q1 = 68
344 é o valor adjacente superior. Este é o maior valor da distribuição, igual ou abaixo de 347, onde
347 é dado por: 245 + 1,5 x 68 = 347 .
137 é o valor adjacente inferior. É o menor valor da distribuição, igual ou acima de 75, onde 75 é
dado por: 177 − 1,5 x68 = 75 .
380
360
340
320
300
280
260
240
220
200
180
160
140
120
A
B
Fonte: Fonte: Hand DJ et alli. A handbook of small data sets. Chapman&Hall, 1994.
Gráfico - Box plot da variável nível de colesterol segundo tipo de personalidade.
Exemplo 21
Os dados a seguir são de uma pesquisa que investigou as concentrações de minerais no leite materno, no período de 1984 a 1985. Foram coletadas amostras de leite materno de 55 mulheres que tiveram seus filhos no Hospital Maternidade Odete Valadares, em Belo Horizonte. As mães foram divididas
em período de lactação: colostro e leite maduro.
cálcio (µg/mL de leite) – grupo colostro
113
181
254
311
334
145
221
256
312
344
163
225
275
313
372
163
231
296
323
375
167
241
303
325
375
437
cálcio (µg/mL de leite) – grupo maduro
159
175
181
188
200
206
213
214
217
231
238
238
242
244
256
259
260
263
264
275
277
279
281
293
302
303
314
344
394
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
41
a) Calcule a quantidade média de cálcio (µg/mL de leite) em cada grupo.
b) Calcule a quantidade mediana de cálcio (µg/mL de leite) em cada grupo.
c) Desenhe o box plot da concentração de cálcio (µg/mL de leite) representando os dois grupos
em um só gráfico.
d) Comente o gráfico box plot quanto a dispersão dos dados, existência de valores aberrantes e
igualdade de medianas.
Exercícios suplementares
Exercício S11
Os dados a seguir são provenientes de um estudo que avalia o crescimento de crianças de 7 a 10
anos de uma escola pública do município de São Paulo no ano de 2008. Os dados apresentados são
de 16 meninos e 16 meninas para os quais foram aferidos a circunferência do braço (CB) (cm):
Meninos
18,3
19,3
20,9
19,0
20,5
16,3
21,0
17,8
21,6
22,6
27,3
26,7
29,0
22,0
25,2
19,5
Meninas
21,5
16,1
18,6
19,9
17,9
23,7
20,0
19,4
23,5
18,0
23,0
17,9
20,3
23,1
17,8
18,2
a) Calcule a circunferência braquial (cm) média e mediana para cada sexo.
b) Calcule a variância, o desvio-padrão e o coeficiente de variação de Pearson da circunferência
braquial (cm) para cada sexo.
c) Meninos e meninas são parecidos quanto a circunferência braquial (cm)?
d) E quanto à variabilidade?
Exercício S12
Os dados a seguir são provenientes de um estudo que avaliou o nível de colesterol sanguíneo (mg/dl)
de 100 homens.
id
colesterol
id
colesterol
id
colesterol
id
colesterol
1
134
26
189
51
216
76
239
2
147
27
189
52
217
77
239
3
157
28
190
53
217
78
240
4
161
29
190
54
218
79
240
5
162
30
192
55
218
80
240
6
164
31
194
56
219
81
243
7
165
32
195
57
219
82
246
8
166
33
196
58
219
83
248
9
171
34
198
59
221
84
251
10
173
35
199
60
221
85
255
11
176
36
199
61
223
86
255
12
176
37
199
62
223
87
256
13
178
38
201
63
224
88
259
14
179
39
203
64
225
89
261
15
179
40
204
65
228
90
267
16
180
41
205
66
230
91
268
17
181
42
206
67
230
92
272
18
181
43
209
68
231
93
279
19
183
44
210
69
231
94
286
20
184
45
211
70
231
95
287
21
185
46
211
71
232
96
289
22
186
47
212
72
234
97
290
23
186
48
213
73
234
98
296
24
186
49
215
74
238
99
298
25
187
50
216
75
238
100
382
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
42
a) Desenhe o box plot do colesterol (mg/dl).
b) Comente o gráfico box plot quanto a dispersão dos dados, existência de valores aberrantes e igualdade de medianas.
Correlação e regressão linear simples
Análise simultânea entre duas variáveis quantitativas (associação entre duas variáveis quantitativas).
Gráfico de dispersão: deve ser feito antes da análise numérica dos dados.
É construído com conjuntos de pontos formados por pares de valores (x,y). Pode indicar correlação
linear positiva, negativa ou inexistência de correlação. Também é útil para identificar existência de
valores aberrantes.
Ex:
X: coeficiente de mortalidade por câncer gástrico
Y: consumo médio de sal
Y
correlação positiva
X
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
43
Ex:
X: Esperança de vida ao nascer
Y: Coeficiente de mortalidade infantil (por 1000 nascidos vivos)
Y
correlação negativa
X
45
CMI (por 1000 nv)
40
35
30
25
20
15
10
5
0
66
68
70
72
74
76
Esperança de vida ao nascer
X: coeficiente de mortalidade por câncer de colo de útero
Y: consumo de sal
Y
correlação inexistente
X
Distinção entre associação e causação: duas variáveis podem estar associadas mas uma não será
necessariamente a causa da outra.
Na correlação é comum investigar se mudanças na magnitude de uma variável são acompanhadas de
mudanças na magnitude da outra sem significar que uma variável causa a outra.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
44
Coeficiente de correlação de Pearson (
ρ ), lê-se rhô
Mede o grau de associação entre 2 variáveis X e Y.
ρ=
Definição:
σ XY
σ X σY
, onde
σ XY
é a covariância de X e Y (dispersão conjunta)
σX
é o desvio padrão de X (dispersão de X)
σY
é o desvio padrão de Y (dispersão de X)
Covariância: É o valor médio do produto dos desvios de X e Y, em relação às suas respectivas médias.

σ XY =
estimador (r)
Propriedades
a) − 1 ≤
∑  X
r=
i
_
_


− X  Yi − Y 


N
_
_



−
−
x
x
y
y
∑  i  i 
_ 2
_ 2
 



∑  x i − x  ∑  y i − y  


 
 
ρ ≤ +1 ;
b) ρ não possui dimensão, isto é, não depende da unidade de medida das variáveis X e Y ;
c)
ρ XY = ρYX .
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
45
Gráficos de dispersão para diferentes valores do coeficiente de correlação ρ (rho).
Exemplo:
Os dados a seguir são provenientes de um estudo que investiga a composição corporal e fornece o
percentual de gordura corporal (%), idade e sexo para 18 adultos com idades entre 23 e 61 anos.
a) Qual a relação entre a idade e o % de gordura? Existe alguma evidência de que a relação é
diferente entre pessoas do sexo masculino e feminino? Explore os dados graficamente.
b) Calcule o coeficiente de correlação de Pearson entre a idade e o % de gordura para homens e
mulheres. Interprete os resultados.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
46
Idade
23
23
27
27
39
41
45
49
50
% Gordura
9,5
27,9
7,8
17,8
31,4
25,9
27,4
25,2
31,1
Sexo
M
F
M
M
F
F
M
F
F
Idade
53
53
54
56
57
58
58
60
61
% Gordura
34,7
42,0
29,1
32,5
30,3
33,0
33,8
41,1
34,5
Sexo
F
F
F
F
F
F
F
F
F
M=masculino ; F= feminino
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Dispersão entre % de gordura e idade
70
f ff f
60
f
f
idade
50
f
40
30
m
f
f
f
m
m
m
f
f
f
f
20
5
10
15
20
25
gordura
30
35
40
45
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Cálculo do coeficiente de correlação de Pearson
Sexo: masculino
Idade
% gordura
(x − x) ( y − y)
(X)
(Y)
23
9,5
-7,5
-6,13
27
7,8
-3,5
-7,83
27
17,8
-3,5
2,18
45
27,4
14,5
11,78
30,5
15,625
Coeficiente de correlação
(idade,%gordura) masculino:
r=
( x − x )( y − y )
(x − x)2
( y − y)2
45,94
27,39
-7,61
170,74
236,45
56,25
12,25
12,25
210,25
291,00
37,52
61,23
4,73
138,65
242,13
236,45
291x 242,13
= 0,89
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
47
Sexo: feminino
Idade
(X)
23
39
41
49
50
53
53
54
56
57
58
58
60
61
50,86
% gordura
(Y)
27,9
31,4
25,9
25,2
31,1
34,7
42
29,1
32,5
30,3
33
33,8
41,1
34,5
32,32
Coeficiente de correlação
( x − x ) ( y − y ) ( x − x )( y − y )
(x − x)2
( y − y)2
-27,86
-11,86
-9,86
-1,86
-0,86
2,14
2,14
3,14
5,14
6,14
7,14
7,14
9,14
10,14
776,02
140,59
97,16
3,45
0,73
4,59
4,59
9,88
26,45
37,73
51,02
51,02
83,59
102,88
1389,71
19,55
0,85
41,23
50,71
1,49
5,66
93,67
10,38
0,03
4,09
0,46
2,19
77,06
4,75
312,12
-4,42
-0,92
-6,42
-7,12
-1,22
2,38
9,68
-3,22
0,18
-2,02
0,68
1,48
8,78
2,18
(idade,%gordura) feminino:
r=
123,17
10,93
63,30
13,23
1,05
5,10
20,74
-10,12
0,92
-12,42
4,85
10,56
80,26
22,10
333,64
333,64
1389,71x312,12
= 0,51 ;
Coeficiente de correlação considerando o grupo todo (homens e mulheres)
Idade
(X)
23
27
27
45
23
39
41
49
50
53
53
54
56
57
58
58
60
61
% gordura
(Y)
9,5
7,8
17,8
27,4
27,9
31,4
25,9
25,2
31,1
34,7
42
29,1
32,5
30,3
33
33,8
41,1
34,5
x = 46,33 ; y = 28,61 ;
(x − x)
( y − y)
( x − x )( y − y )
(x − x)2
( y − y)2
-23,33
-19,33
-19,33
-1,33
-23,33
-7,33
-5,33
2,67
3,67
6,67
6,67
7,67
9,67
10,67
11,67
11,67
13,67
14,67
-19,11
-20,81
-10,81
-1,21
-0,71
2,79
-2,71
-3,41
2,49
6,09
13,39
0,49
3,89
1,69
4,39
5,19
12,49
5,89
Soma
445,93
402,35
209,01
1,61
16,59
-20,45
14,46
-9,10
9,13
40,59
89,26
3,75
37,59
18,01
51,20
60,54
170,68
86,37
1627,53
544,44
373,78
373,78
1,78
544,44
53,78
28,44
7,11
13,44
44,44
44,44
58,78
93,44
113,78
136,11
136,11
186,78
215,11
2970,00
365,23
433,10
116,88
1,47
0,51
7,78
7,35
11,64
6,19
37,07
179,26
0,24
15,12
2,85
19,26
26,92
155,97
34,68
1421,54
Sy =
∑ ( y − y)
n −1
2
=
1421,54
= 9,14% ; S X =
17
∑(x − x)
n −1
2
=
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
2970,0
= 13,22anos
17
48
r=
1627,53
= 0,79
2970,0 x1421,54
Análise simultânea de duas variáveis quantitativas.
REGRESSÃO LINEAR
ADMITINDO-SE Y COMO FUNÇÃO LINEAR DE X, AJUSTA-SE A “MELHOR RETA” AO CONJUNTO DE
DADOS.
EQUAÇÃO DE RETA:
ŷ
x
yˆ = a + bx
, onde
= valor ajustado (valor médio predito).
= valor escolhido de X.
a = y − bx ; a é denominado intercepto; é o valor predito para x=0.
b = rxy
sy
sx
; b é denominado coeficiente angular (slope). Indica quantas unidades de Y
mudam para a mudança de uma unidade de X.
Utilizando-se os dados do exemplo considerando-se o grupo como um todo:
a = 28,61 – b 46,33 ;
b = 0,79 x
9,14
= 0,548
13,22
Para aumento de 1 ano, o percentual de gordura aumenta 0,55%.
Substituindo-se o valor b em a, obtém-se a=3,221.
Equação ajustada
% gordura= 3,22 + 0,55 (idade)
Com base nesta equação é possível traçar a reta que passa pelos pontos.
Para x = 30; y = 19,7; para x = 50, y = 30,7
50
y = 0,55x + 3,22
% gordura
40
30
20
10
0
0
20
40
60
idade (anos)
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
49
OBS: o coeficiente angular depende das unidades de medida de X e Y. Isto deve ser considerado
na decisão da importância do coeficiente angular.
O coeficiente angular da equação de Y=f(X) é diferente do coeficiente angular de X=f(Y), a menos
que os desvios padrão de X e Y sejam iguais.
Usos da reta de regressão:
-
Predição - utilizar X para predizer Y; quando a correlação for forte, melhor é a predição;
Correlação – mede o grau de relacionamento linear entre X e Y;
Resumir os dados – cada valor de X tem um valor médio de Y.
Exemplo:
Em um estudo sobre o efeito dos componentes de uma dieta (X) sobre a composição lipídica (Y) foram obtidos os seguintes dados em uma amostra de 15 animais.
Componente da dieta (X) Composição lipídica (Y)
18
30
21
35
28
43
35
60
47
50
33
28
40
40
41
60
28
43
21
30
30
33
46
65
44
68
38
62
19
25
Fonte:X.
a) Apresente os dados em um diagrama de dispersão.
b) Calcule o coeficiente de correlação de Pearson entre X e Y.
c) Calcule a reta de regressão da composição lipídica como função do componente da dieta.
d) Desenhe a reta de regressão.
e) Interprete os coeficientes da reta de regressão.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
50
Exercício suplementar
Exercício S13
São apresentados valores da massa do corpo sem gordura (kg) e da taxa de metabolismo (calorias)
de 10 pessoas de ambos os sexos
Pessoa
Sexo
Massa
1
M
62,0
2
M
62,9
3
F
36,1
4
F
54,6
5
F
48,5
6
F
42,0
7
M
47,4
8
F
50,6
9
F
42,0
10
M
48,7
Fonte: Moore et al., 2004 (adaptado)
Taxa
1792
1666
995
1425
1396
1418
1362
1502
1256
1614
a) Apresente os dados em um diagrama de dispersão com pontos identificando os sexos. Apresente a variável Y, taxa de metabolismo, como variável resposta (dependente) e a variável X,
massa do corpo sem gordura, como explicativa (independente).
b) Calcule o coeficiente de correlação entre as variáveis taxa e massa.
c) Calcule os coeficientes da reta de regressão e desenhe a reta.
d) Interprete os coeficientes da reta.
e) Com base no gráfico de dispersão, você diria que o coeficiente de correlação de Pearson para
o sexo feminino é maior, menor ou igual ao do sexo masculino? Justifique.
Medidas de Associação
ANÁLISE DA DISTRIBUIÇÃO DE DUAS VARIÁVEIS QUALITATIVAS
ESTUDO DE PREVALÊNCIA
São apresentados dados sobre o estado nutricional de 1226 crianças brasileiras de 2 anos de idade,
segundo sexo. Local X, Ano Y.
Estado nutricional
Masculino
Feminino
Total
Desnutridas
29
20
49
Normais
574
603
1177
Total
603
623
1226
Fonte: dados hipotéticos.
Prevalência de desnutrição:
49
= 0,040
1226
ou 4%.
Prevalência de desnutrição segundo sexo:
Masculino:
29
= 0,05
603
ou 5,0%; Feminino:
20
= 0,032 ou 3,2%.
623
29
Razão de prevalências: 603 = 1,5
20
623
Diferença de prevalências: 0,05-0,032=0,018 ou 1,8%.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
51
A prevalência de desnutrição parece ser maior entre as crianças do sexo masculino. Os meninos apresentam uma prevalência 50% maior do que as meninas.
A prevalência de desnutrição entre meninos é 1,5 vezes (uma vez e meia) a prevalência de desnutrição entre meninas.
Também é possível dizer que a prevalência de desnutrição entre meninos é 50% maior que a prevalência entre meninas, calculado como (1,5-1)x100.
Para a diferença de prevalências diz que a prevalência entre meninos excede a de meninas em 1,8%
ou que a diferença entre as prevalências é de 1,8%.
Se a razão de prevalências for igual a 1 ou a diferenças de prevalências for igual a 0 então diz-se que
as variáveis não estão associadas.
De forma geral
Y: variável resposta (Ex: desnutrição)
X: variável explicativa ou de confusão (Ex: sexo)
Variável Y
Variável X
Y1
X1
a
X0
c
Total
m1
p= prevalência de Y1= m1/n
p1= prevalência de Y1|x1= a/n1
p0= prevalência de Y1|x0= c/n0
rp= razão de prevalências= p1/p0;
Y0
B
D
m2
Total (%)
n1 (100
n0 (100
n (100)
dp=diferença de prevalências= p1-p0
Exemplo 22
Distribuição de indivíduos segundo presença de obesidade e consumo de chocolate.
colmo, Suécia. Ano 2009.
Consumo de chocolate
Obesidade (> 30Kg/m2)
Esto-
Sim
Não
Total
Mais de 1 vez por semana
128
625
753
Até 1 vez por mês
68
353
421
Total
196
978
1174
Fonte: dados adaptados de Janszky I, Mukamal KJ, Ljung R, et al. Chocolate consuption and
mortality following a first acute myocardial infarction: The Stockholm Heart Epidemiology
Program. Journal of Internal Medicine 2009; 266: 248-257.
a) Calcule a prevalência de obesidade entre pessoas que consomem chocolate até 1 vez por
mês.
b) Calcule a prevalência de obesidade entre pessoas que consomem chocolate mais de uma vez
por semana.
c) Calcule a razão de prevalências.
d) Interprete a razão de prevalências. Você diria que a obesidade está associada ao consumo de
chocolate? Justifique.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
52
ESTUDO DE INCIDÊNCIA
Distribuição de pessoas segundo hábito de fumar e morte em
Morte em 5 anos por DIC
Fumar
Sim
Sim
208
Não
264
Total
472
Fonte: dados hipotéticos.
5 anos por DIC. Local X. Ano Y
Não
850
1467
2317
Total
1058
1731
2789
r= 472/2789= 0,17 = 17%
r1=208/1058= 0,20= 20%
r0=264/1731= 0,15=15%
rr=0,20/0,15= 1,33
ra= 0,20- 0,15= 0,05= 5%
A incidência de mortes parece ser maior entre as pessoas que fumam. Os fumantes apresentam uma
incidência 33% maior do que os não fumantes.
Os óbitos são 1,33 vezes mais incidentes entre fumantes do que entre não fumantes.
Também é possível dizer que os óbitos são 33% maiores entre fumantes.
Pela diferença diz-se que 5% dos óbitos excedentes são devidos ao fumo.
De forma geral
Y: variável resposta
X: variável explicativa ou de confusão
Variável Y
Variável X
X1
X0
Total
Y1
A
C
M1
Y0
B
D
m2
Total (%)
n1 (100
n0 (100
n (100)
r= incidência de Y1= m1/n
r1= incidência de Y1|x1= a/n1
r0= incidência de Y1|x0= c/n0
ri= razão de incidências= r1/r0
di= diferença de incidências= r1-r0
incidência
r1
r0
risco
r1/r0
r1-r0
ri=rr=razão de riscos=risco relativo=r1/r0
di= ra= risco atribuível= r1-r0
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
53
Exemplo 23
Padrão de amamentação de crianças segundo episódios de doenças respiratórias.
Padrão
Um ou mais episódios
Nenhum episódio
Total
Mamadeira e peito
207
238
445
Somente peito
34
72
106
Total
241
310
551
Fonte: Abramson JH e Abramson ZH.
a) Calcule a incidência de um ou mais episódios de doenças respiratórias, dado que a criança se
alimenta de mamadeira e peito.
b) Calcule a incidência de um ou mais episódios de doenças respiratórias, dado que a criança se
alimenta somente ao seio.
c) Calcule a razão de incidências.
d) Calcule a diferença de incidências.
e) Discuta os resultados.
Exemplo
Investigação de toxinfecção alimentar
Tomou sorvete de baunilha
Sim
Não
Total
Toxiinfecção
Sim
43
3
46
Não
11
18
29
Total (%)
54 (100)
21 (100)
75 (100)
Fonte:Epi Info, 2000.
r= incidência global = taxa de ataque global= 46/75= 0,61
r1= incidência entre quem tomou sorvete= taxa de ataque1= 43/54= 0,80
r0= incidência entre quem não tomou sorvete= taxa de ataque0= 3/21= 0,14
rr= risco relativo=
43 3 43x 21
: =
= 5,6
54 21 3x54
Odds ratio
Odds e probabilidade
Supor que durante um jogo de basquete um jogador acerta a cesta 2 vezes em 5 tentativas.
Chamando p̂ ( p chapéu) de probabilidade de acerto tem-se que pˆ =
dade de erro, qˆ =
2
= 0,4 ou 40% e a probabili5
3
= 0,6 ou 60%.
5
Considerando-se que a probabilidade de acerto ou de erro = p+q= 1; então
qˆ = 1 − pˆ .
Odds ratio
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
54
Define-se odds como a razão entre a probabilidade de acerto e a probabilidade de erro, ou seja,
p
.
1− p
2
p
2 x5 2
= 5 =
= = 0,67 ou 0,67:1 (0,67 acertos
No exemplo acima, o odds a favor de acerto é
1 − p 3 3 x5 3
5
para 1 erro).
Estudo do tipo caso-controle
Os dados a seguir são de um estudo sobre câncer de esôfago e consumo de álcool. Local X. Ano Y.
Condição
Consumo médio de álcool (g/dia)
Total
80 e +
0-79
Casos
96
104
200
Controles
109
666
775
Total
205
770
975
Fonte: Tuyns et al.,1977.
(entre expostos) odds a favor de casos entre consumidores de 80 e + g/dia:
96 109 96
:
=
= 0,88
205 205 109
(entre não expostos) odds a favor de casos entre consumidores de 0-79g/dia: 104 : 666 = 104 = 0,16
770 770 666
odds ratio:
96 104 96 x 666
:
=
= 5,6
109 666 109 x104
A força de morbidade de câncer de esôfago entre consumidores de 80 e + g/dias de bebida alcoólica
é 5,6 a força de morbidade entre os que consomem de 0 a 79g/dia.
Em casos especiais, o odds ratio pode ser um bom estimador do risco (quando a doença de estudo é
rara).
Odds ratio utilizando-se os dados de DIC. or=(208x1467)/850x265)=1,36.
De forma geral
Y: variável resposta
X: variável explicativa ou de confusão
Variável Y
Variável X
X1
X0
Total
odds a favor de Y1:
na categoria X1=
na categoria X0=
Y1
a
c
m1
Y0
B
D
m2
Total (%)
n1 (100
n0 (100
n (100)
(a/n1)÷(b/n1)
(c/n0)÷(d/n0)
a
ad
odds ratio: [(a/n1)÷(b/n1)]÷[(c/n0)÷(d/n0)]= b =
c
d
bc
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
55
Exemplo 24
Distribuição de recém-nascidos segundo condição caso - com defeitos do tubo neural; controle – recém-nascidos que não tinham defeitos do tubo neural e dieta materna. Local X. Ano Y.
Dieta
Casos
Controles
Total
N
%
n
%
n
%
Boa
34
13,9
43
35,0
77
21,0
Razoável
110
45,1
48
39,0
158
43,0
Pobre
100
41,0
32
26,0
132
36,0
Total
244
100
123
100
367
100
Fonte: X
Considere a dieta boa como categoria de referência (basal) e calcule:
a) O odds ratio de dieta razoável em relação a dieta boa.
b) O odds ratio de dieta pobre em relação a boa.
c) Interprete os resultados.
QUI-QUADRADO DE PEARSON
DUAS VARIÁVEIS QUALITATIVAS
Os exemplos são retirados de BUSSAB, Wilson de O; MORETTIN, Pedro A. Estatística básica. 5ª Ed.
São Paulo: Saraiva, 2004.
X - curso universitário e
Y – sexo do aluno
Questão: sexo do indivíduo influi na escolha do curso?
Situação 1
Curso
Masculino
n
24
16
40
Economia
Administração
Total
Curso
Economia
Administração
Total
N
24
16
40
Masculino
proporção
0,6
0,4
1
n
36
24
60
Feminino
n
36
24
60
Feminino
proporção
0,6
0,4
1
Total
n
60
40
100
n
60
40
100
Total
proporção
0,6
0,4
1
As proporções de escolha dos cursos não diferem segundo sexo do estudante
Definição de independência:
A – Ser do sexo masculino;
B – Estar cursando economia.
A e B são independentes se P(A e B) = P(A) x P(B).
P(A e B) = Probabilidade (ser homem e estar cursando Economia)
P(A e B) =
24
= 0,24
100
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
56
P(A) =
Como
40
= 0,4
100
P(B) =
60
= 0,6
100
24
40 60
=
x
, então A e B são independentes e portanto não existe associação.
100 100 100
Situação 2
Curso
Masculino
n
100 (a)
40 (c)
140
Física
Ciências Sociais
Total
Curso
Física
Ciências Sociais
Total
n
100
40
140
Masculino
proporção
0,7
0,3
1
n
20
40
60
Feminino
n
20 (b)
40 (d)
60
Feminino
proporção
0,3
0,7
1
Total
n
120
80
200
n
120
80
200
Total
proporção
0,6
0,4
1
A distribuição de alunos em cada curso, segundo sexo não é a mesma, sexo e curso podem estar
associados.
Se a variável sexo não fosse associada à escolha do curso, quantos indivíduos espera-se em Física,
entre os homens?
Aplicar a proporção marginal utilizando o raciocínio da regra de três: 120 está para 200 assim como x
estará para 140; ou seja:
120
x
120 x140
=
e x=
200 140
200
Para os demais valores esperados observar os cálculos abaixo.
Curso
Sexo
Física
Masculino (a)
Física
Feminino (b)
Ciências Sociais
Masculino (c)
Ciências Sociais
Feminino (d)
Valor Esperado sob a condição de independência
120
x140 = 84
200
120
x60 = 36
200
80
x140 = 56
200
80
x60 = 24
200
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
57
Tabela de frequências esperadas, sob a condição de independência.
Curso
Masculino
n
84
56
140
Física
Ciências Sociais
Total
Valores observados
O
Valores esperados
E
(O-E)
100
40
20
40
84
56
36
24
16
-16
-16
16
=
Feminino
n
36
24
60
(O-E)2
Total
n
120
80
200
(O − E ) 2
E
256
3,048
256
4,571
256
7,11
256
10,667
Qui-quadrado=25,397
O Qui-quadrado é obtido somando-se a diferença ao quadrado entre as frequências observadas e as
esperadas, dividido pelas frequências esperadas.
(O − E ) 2
χ =∑
E
2
Se o Qui-quadrado for igual a zero, então não existe associação entre as variáveis.
Exemplo:
Distribuição de recém-nascidos acometidos de síndrome de desconforto idiopático grave segundo
condição de sobrevivência e peso ao nascer (g).
Peso ao nascer
Baixo peso (<2500)
Não baixo peso (2500 e mais)
Total
Fonte: Hand DJ et al. A handbook of small
Cálculo do qui-quadrado de Pearson
Valores observados Valores esperados
O
E
24
3
13
10
19,98
7,02
17,02
5,98
Óbito
24
3
27
data sets.
Sobrevida
Total
13
37
10
13
23
50
Chapman&Hall, 1994.
(O-E)
(O-E)2
4,02
-4,02
-4,02
4,02
16,16
16,16
16,16
16,16
(O − E ) 2
E
0,809
2,302
0,949
2,702
Qui-quadrado=6,762
Tem-se ainda que:
A incidência de óbitos entre crianças com baixo peso é 24 = 0,65 ou 65%;
37
a incidência de óbitos entre crianças sem baixo peso é 3 = 0,23 ou 23%;
13
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
58
24
e a razão de incidências é igual a 37 24 x13
.
=
= 2,81
3
13
3 x37
Portanto pode-se dizer que a incidência de óbitos parece maior entre as crianças que tiveram baixo
peso ao nascer. O risco de óbito entre as crianças com baixo peso ao nascer é 2,8 o risco das crianças
com peso ao nascer maior ou igual a 2.500g. O qui-quadrado é diferente de zero. Pode-se suspeitar
da existência de associação entre as variáveis.
Exemplo 25
A tabela abaixo apresenta dados de classificação de pessoas segundo doença isquêmica coronariana
(DIC) e hábito de consumo de café, para uma coorte de 1718 homens com idade 40-55 anos.
Distribuição de homens segundo presença de doença isquêmica coronariana (DIC) e consumo de café.
Local X. Ano y.
Condição
Consumo médio de café
Total
Alto ( ≥ 100 xícaras/mês)
Moderado (<100 xícaras/mês)
Com DIC
38
39
77
Sem DIC
752
889
1641
Total
790
928
1718
Fonte: X.
a) calcule a incidência de doença isquêmica coronariana entre as pessoas com alto consumo de
café.
b) calcule a incidência de doença isquêmica coronariana entre as pessoas com consumo moderado de café.
c) calcule a razão de incidências.
d) calcule a diferença de incidências.
e) Interprete os resultados.
f) Calcule o qui-quadrado de Pearson.
EXERCÍCIOS SUPLEMENTARES
Exercício S14
Com base nos dados da tabela calcule:
a) a incidência de toxinfecção, dado que o indivíduo consumiu presunto cozido.
b) a incidência de toiinfecção, dado que o indivíduo não consumiu presunto cozido.
c) a razão de incidências.
d) a diferença de incidências.
e) discuta os resultados.
Distribuição de indivíduos segundo ocorrência de toxiinfecção e consumo de presunto cozido. Local X.
Ano Y
Toxiinfecção
Presunto cozido
sim (taxa de ataque %)
não
Total
Sim
29 (0,63)
17
46
Não
17 (0,59)
12
29
Total
46 (0,61)
29
75
RR
1,1
Fonte: Epi-Info 2000.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
59
Exercício S15
Os dados são de um estudo sobre consumo de pimenta e câncer gástrico, realizado
Consumo de pimenta
Casos
Controles
Sim
211
607
Não
9
145
Total
220
752
Fonte: X.
a) calcule o odds a favor de casos entre pessoas que consomem pimenta.
b) calcule o odds a favor de casos entre pessoas que não consomem pimenta.
c) calcule a razão dos odds (odds ratio).
d) calcule o qui-quadrado de Pearson.
e) Discuta os resultados sobre possível associação entre as variáveis.
no México. Ano Y.
Total
818
154
972
Exercício S16
A tabela abaixo apresenta o número de crianças classificados segundo nível de retinol sérico e sexo.
Calcule a prevalência de nível inadequado de retinol para crianças de cada um dos sexos. Calcule a
razão de prevalências. Calcule o qui-quadrado. Interprete os resultados.
Distribuição de crianças segundo sexo e nível de retinol sérico. Cansação, Bahia, 1992
Sexo
Nível de retinol
Aceitável
Inadequado
Total
Masculino
50
40
90
Feminino
39
32
71
Total
89
72
161
Fonte: Prado MS et al. ,Revista de Saúde Pública, 29(4)295 – 300, 1995.
Exercício S17
Os dados a seguir são de pesquisa que estuda a associação entre amamentação ao seio e Diabetes
Mellitus tipo I . Local X. Ano Y.
Amamentação ao
Casos
Controles
Total
seio
Não
35
17
52
Sim
311
329
640
Total
346
346
692
Fonte: Gimeno SGA. Consumo de leite e o Diabetes Mellitus insulino-dependente:um estudo
caso-controle. Tese de doutorado, 1996.
Com base nos dados apresentados
a) Calcule o odds ratio de casos entre expostos e não expostos.
b) Calcule e apresente o qui-quadrado de Pearson.
c) Os dados sugerem existência de associação entre as variáveis? Justifique.
Noções de probabilidade e distribuição Bernoulli e distribuição binomial
PROBABILIDADE (probability, chance, likelihood)
• É uma afirmação numérica sobre a possibilidade de que algum evento ocorra.
• Quantifica o grau de incerteza de eventos, variando de 0 (0%) a 1 (100%).
• Um evento impossível de ocorrer tem probabilidade 0 (zero).
• Um evento certo tem probabilidade 1 (um).
• Quando se joga uma moeda, não se sabe se vai sair cara. Mas sabe-se que a probabilidade de sair
cara é 0,5 = 50% = 1/2.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
60
• Dizer que a eficácia de uma vacina é de 70% corresponde a dizer que cada indivíduo vacinado tem
probabilidade 0,7 de ficar imune.
Probabilidade em espaços finitos contáveis
Espaço amostral (S)
• É o conjunto de todos os resultados possíveis de um experimento.
• Supor o experimento lançar uma moeda: S= {cara, coroa}
Há dois pontos neste espaço amostral, sendo um favorável ao evento A={cara}.
Definição clássica de probabilidade
P( A) =
numero de elementos de A 1
= = 0,5
numero de elementos de S
2
Exemplo: probabilidade de (ouros) =
13 1
=
52 4
Probabilidade de eventos mutuamente excludentes
• Diz-se que dois eventos são mutuamente excludentes (ou mutuamente exclusivos) quando não
podem ocorrer simultaneamente.
Exemplo:
A = {cara} ; B= {coroa}, no lançamento de uma moeda;
A = {carta com naipe vermelho}; B={carta com naipe preto}, na retirada de uma carta de baralho.
Exemplo de eventos não mutuamente exclusivos
A= {naipe vermelho} ; B = {ás} .
•
A probabilidade da ocorrência de um evento A ou de um evento B é:
P(A ou B) = P(A υ B) = P(A) + P(B) – P(A ∩ B)
Exemplo: P(naipe vermelho ou ás) = P(naipe vermelho) + P(ás) – P(naipe vermelho e ás) = (26/52)
+ (4/52) – (2/52) = 28/52 = 0,538.
• A probabilidade da ocorrência simultânea de eventos mutuamente exclusivos é zero.
P(cara e coroa) = P(cara ∩ coroa) = 0, no lançamento de uma moeda.
• Se A e B forem mutuamente excludentes, P(A ∩ B) = 0 e
P(A ou B) = P(A υ B) = P(A) + P(B)
Exemplo:
P(Face 2 ou Face 3) no lançamento de um dado
P(2 ou 3)= P(2)+P(3)= 1/6 + 1/6 = 2/6 = 1/3.
P(Resultado ímpar)= P(1 ou 3 ou 5)= P(1)+P(3)+P(5)= 3/6 = 1/2.
Regra da adição: P(A ou B) = P(A υ B) = P(A) + P(B) – P(A ∩ B)
Probabilidade de eventos independentes
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
61
• Os eventos A e B são independentes quando o resultado de um não influi no resultado do outro.
Exemplo: no lançamento simultâneo de duas moedas, o resultado de uma não interfere no resultado
da outra.
•
A probabilidade da ocorrência de eventos independentes é o produto das probabilidades de cada
evento.
P(A e B)= P(A ∩ B) = P(A) x P(B)
• P(face 2 no primeiro dado e face 3 no segundo dado), no lançamento sequencial de dois dados =
P(2 e 3) = P(2)xP(3)= 1/6 x 1/6= 1/36= 0,0278= 2,78%.
Probabilidade condicional
A probabilidade condicional do evento A dado que ocorreu o evento B é
P( A | B ) =
P ( A ∩ B)
, para P( B) ≠ 0
P( B)
Lê-se P(A|B) como probabilidade de A dado B.
Exemplo:
Probabilidade de rei dado que ocorreu figura:
P(r|figura)= P(r e figura)/P(figura)= 4/52 ÷ 12/52= 4/12= 1/3
• Probabilidade de rei, dado que ocorreu copas:
P(r|♥)= P(r e ♥)/P(♥)= 1/52÷13/52= 1/13
Regra da multiplicação
P( A ∩ B) = P( A | B) xP( B)
se A e B forem independentes, P(A|B) = P(A) e como consequência,
P( A ∩ B) = P( A) xP( B)
Exemplo
Considerar uma população de homens que foram classificados segundo o hábito de fumar e doença
respiratória crônica. Nesta população sabe-se que 5% dos homens têm doença respiratória e são não
fumantes, 15% têm doença e são fumantes, 50% não têm doença e são não fumantes e 30% não
têm a doença e são fumantes.
Problema respiratório
Não fumante
S
Não ( R )
Sim (R)
Fumante
S
0,5 = P( S R )
0,05 = P( S R )
0,30 = P( R S )
0,15 = P(SR)
0,55 = P( S )
0,45 = P(S)
0,80 = P( R )
0,20 = P(R)
Escolhe-se um homem ao acaso, qual a probabilidade dele ter doença respiratória dado que era fumante?
P( R | S ) =
P( R ∩ S )
= 0,15/0,45 = 0,33
P(S )
Os eventos não são independentes porque
P ( S R ) ≠ P ( S ) xP ( R )
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
62
Relação entre eventos mutuamente exclusivos e independentes:
Os eventos mutuamente exclusivos A e B satisfazem a condição que P(A e B) = 0, então dois eventos
mutuamente exclusivos A e B são não independentes a menos que P(A)=0 ou P(B)=0. Caso contrário,
eles são claramente dependentes pois P(A)P(B)>0 se ambos P(A)>0 e P(B)>0, portanto
P ( A ∩ B ) ≠ P ( A) P ( B ) porque P ( A ∩ B ) = 0 .
Assim, dois eventos mutuamente exclusivos A e B são dependentes exceto nos casos onde P(A)=0 ou
P(B)=0.
Definição frequentista de probabilidade:
n repetições do evento A; A ocorre m vezes, então a frequência relativa de
Para n suficientemente grande,
Quando n cresce,
A=
m
n
m
m
≅ P ( A) ou seja, lim n →∞ = P( A)
n
n
m
tende a se estabilizar em torno de uma constante, P(A)
n
Variável aleatória discreta
Variável aleatória é qualquer função de número real, definida no espaço amostral e existe associado a
este número uma probabilidade de ocorrência.
Exemplo:
No lançamento de 1 moeda, o número de caras é uma variável aleatória. Se esta variável for denominada X, tem-se que os valores possíveis para X são 0 e 1. Assim escreve-se X:0,1.
A probabilidade de cara é 0,5: P(cara)= 0,5= 1/2.
No lançamento de 10 moedas, X:0, 1, 2,....,10; e a probabilidade de cara = 0,5.
Sair cara é mutuamente exclusivo de sair coroa e um particular resultado de cada lançamento independe dos demais.
É possível calcular a probabilidade da variável assumir cada valor x, ou seja, P(X=x).
O conjunto de valores da variável aleatória e das probabilidades obtidas define uma distribuição de
probabilidades. Se X assume valores inteiros, a variável é denominada discreta. Se X assume valores no conjunto dos números reais, a variável é denominada contínua.
Distribuição de probabilidades
Modelo de probabilidade Bernoulli
Estrutura básica: duas possibilidades de resultado (sucesso e fracasso).
Exemplo:
Joga-se uma moeda uma vez. A moeda é equilibrada, ou seja, os lados possuem peso igual, não favorecendo nenhum dos lados, ao ser lançada.
Define-se como sucesso sair cara.
Define-se a variável aleatória X que assume valor 1 se ocorrer sucesso e 0 se ocorrer fracasso. X: 0,1
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
63
Parâmetro: probabilidade da variável assumir valor 1.
Notação:
π ou p.
Se probabilidade de sucesso = p, a probabilidade de fracasso será igual a q=(1-p), porque p+q=1.
Probabilidade de sair cara = P(X=1) = p(1) = p = 0,5.
Probabilidade de sair coroa = P(X=0) = p(0) = q = 1-p = 0,5
Graficamente:
1
p(x)
0,8
0,6
0,4
0,2
0
0
1
x
p=0,5
Exemplo:
Uma droga cura 15% dos pacientes. Administra-se a droga a um paciente. Qual a probabilidade do
paciente ficar curado? Qual a probabilidade do paciente não ficar curado?
X: 0,1 (X será 0 se o paciente não se curar e 1 se houver cura)
P(X=1) =p(1)=p= 0,15 ; P(X=0) =p(0)= q=0,85
1
p(x)
0,8
0,6
0,4
0,2
0
0
1
p=0,15
x
Os exemplos pertencem a mesma família de distribuições, mas têm parâmetros diferentes.
A distribuição de Bernoulli pode ser escrita como P(X=1) = p(1)=p e P(X=0) =p(0) =1-p; ou, de forma mais genérica:
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
64
Isto significa que
p( x ) = p x (1 − p) 1− x , x=0,1
para x=0,
p(0) = P(X = 0) = p 0 (1 − p)1−0 = 1 − p
para x=1,
p(1) = P(X = 1) = p1 (1 − p)1−1 = p
Média de uma variável aleatória discreta:
,
µ = E (X) = ∑ xp( x )
x
Na distribuição de Bernoulli:
µ = E(X) = ∑ xp( x ) = 1p( x = 1) + 0p( x = 0) = p
x
Média da distribuição Bernoulli é p (probabilidade de ocorrer o sucesso)
Variância de uma variável aleatória discreta:
σ 2 = V(X ) = E[(X − µ) 2 ] = ∑ ( x − µ) 2 p( x )
x
Desvio padrão:
SD(X) = V (X) = σ
Desvio padrão da distribuição Bernoulli é
(0 − p) 2 .p( x = 0) + (1 − p) 2 .p( x = 1) =
( − p ) 2 .(1 − p ) + (1 − p ) 2 p =
p (1 − p )[ p + (1 − p )] =
pq
Resumindo,
Modelo de probabilidade Bernoulli
Uma variável aleatória discreta X que pode assumir valores 0 e 1, com função de probabilidade dada
x
1− x
p
(
x
)
=
p
(
1
−
p
)
por
com x=0,1
segue uma distribuição Bernoulli com parâmetro p , 0<p<1.
p é a probabilidade de obter o resultado X=1. Isto pode ser escrito como X~Bernoulli(p) com média p
e desvio padrão
p(1 − p) .
O símbolo ~ lê-se “tem distribuição” ou se “distribui segundo”.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
65
Distribuição binomial: Soma de n distribuições Bernoulli
População: 2 categorias
Ex:
sexo (masculino, feminino),
faces de uma moeda (cara, coroa),
desfecho de um tratamento (cura, não cura)
Lançamento de uma moeda
Cara (K) → probabilidade(K) = p

Coroa (C) → probabilidade (C) = q

p + q = 1⇒ q = 1 - p

p = probabilidade de sucesso; q= probabilidade de fracasso.
Realiza-se o experimento n vezes, onde cada ensaio é independente do outro e os resultados são
mutuamente exclusivos.
X: Número de vezes que sai cara.
A moeda é lançada uma vez (n=1) → X: 0,1
X
resultado
P(X=x)
0
C
P(X=0) = q
1
K
P(X=1) = p
X~Bernoulli(p)
A moeda é lançada duas vezes (n=2) →
X: 0,1,2
X
resultado
P(X=x)
0
C,C
P(X=0) = q.q =
1
K,C ou C,K
P(X=1) = p.q+q.p=
2
K,K
P(X=2) = p.p=
X~B(n=2, p)
→
A moeda é lançada três vezes (n=3)
X: 0,1,2,3
X
resultado
P(X=x)
0
C,C,C
P(X=0) = q.q.q =
1
2
3
K,C,C ou
C,K,C ou
C,C,K
P(X=1) = p.q.q+q.p.q +q.q.p =
K,K,C ou
K,C,K ou
C,K,K
P(X=2) = p.p.q +p.q.p +q.p.p =
K,K,K
P(X=3) = p.p.p =
q2
2.p.q
p2
X~B(n=3, p)
q3
3 p.q2
3 p2.q
p3
Probabilidade (X=x) é calculada pelo produto de 3 fatores:
1o - número (combinação de n elementos combinados x a x);
2o - probabilidade de sucesso elevado a um expoente (valor de x);
3o - probabilidade de fracasso elevado a um expoente (valor de n-x).
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
66
n
n!
P( X = x) =   p x q n− x =
p x q n− x
x! (n − x)!
 x
Resumindo
Modelo de probabilidade Binomial
Seja E um experimento com 2 resultados (mutuamente exclusivos): S (sucesso) e F (fracasso)
p = probabilidade de ocorrência de S e q= probabilidade de ocorrência de F
sendo que p+q=1.
Se E for repetido n vezes, de forma independente, mantendo-se p e q, a probabilidade da variável
aleatória X= número de vezes que S ocorre é dada por
P( X = x ) =
n!
p x q n− x
x !(n − x )!
X~B(n,p) onde n e p são os parâmetros da
npq
distribuição; a média = m = n.p, a variância = n.p.q e o desvio padrão =
Exemplo
Lançamento de moedas.
• n= número de ensaios (nº de lançamentos)= 10;
• X= variável aleatória (nº de caras);
• x= resultado particular de X (0, 1, 2, ...,10);
• p= probabilidade de ocorrer cara (sucesso); p=P(cara)= 0,5.
n
P( X = x) =   p x (1 − p ) n − x
 x
Distribuição de probabilidade B(n=10; p=0,5)
X= nº de caras
0
1
2
3
4
5
6
7
8
9
10
P(X=x)
0,0010
0,0098
0,0439
0,1172
0,2051
0,2461
0,2051
0,1172
0,0439
0,0098
0,0010
1
0,30
p(X=x)
0,25
0,20
0,15
0,10
0,05
0,00
0
1
2
3
5
4
5
6
7
8
9
X
Média = np = 10x0,5 = 5.
Variância = npq = 2,5.
Desvio padrão =
npq = 10 x 0,5 x 0,5 = 2,5 = 1,58 .
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
67
10
Se estivermos trabalhando com a proporção de sucessos,
Média =
n
Variância =
X
n
:
p
= p = 0,5
n
n
p q pq
x =
n n
n
npq
Desvio padrão =
n
= 0,025
npq
=
n2
=
pq
n
= 0,158
Exemplo 26
Um programa de incentivo à amamentação exclusiva ao seio nos primeiros 3 meses está sendo executado em um hospital universitário. Verificou-se que a eficácia do programa era de π= 60%.
Para uma amostra de 20 mães que deram à luz neste hospital, a distribuição de probabilidade da variável aleatória número de mães amamentando exclusivamente ao seio é a seguinte:
X= nº de mães
amamentando
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
P(X=x|p=0,6)
0,000
0,000
0,000
0,000
0,000
0,001
0,005
0,015
0,035
0,071
0,117
0,160
0,180
0,166
0,124
0,075
0,035
0,012
0,003
0,000
0,000
0,20
p(X=x)
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
X
Calcule a média, a variância e o desvio-padrão.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
68
Exemplo 27
Uma suspensão contendo organismos de Leishmania é preparada e quando uma determinada quantidade é inoculada em ratos, 30% deles se tornam infectados. Se 3 ratos forem inoculados independentemente, qual a probabilidade de:
a) Nenhum rato ficar infectado?
3
0
3!
3
3
P(X=0) =  (0,3) (0,7) =
(0,7) = 1x0,343 = 0,343 = 34,3%
0!(3 − 0)!
 0
b) Um rato ficar infectado?
 3
1
P(X=1) =  (0,3) (0,7)
1 
3 −1
=
3!
3 x 2 x1
(0,3) 1 (0,7) 3−1 =
0,3 x0,49 = 0,441 = 44,1%
1! (3 − 1)!
1x 2 x1
c) Dois ratos ficarem infectado?
3 
3!
3 x 2 x1
P(X=2) =  (0,3) 2 (0,7) 3− 2 =
(0,3) 2 (0,7) 3− 2 =
0,09 x0,7 = 0,189 = 18,9%
 2
2
!
(
3
−
2
)!
2 x1x1
 
d) Todos os ratos ficarem infectados?
 3
3
P(X=3) =  (0,3) (0,7)
 3
3− 3
=
3!
3 x 2 x1
(0,3) 3 (0,7) 0 =
0,027 x1 = 0,027 = 2,7%
3! (3 − 3)!
3 x 2 x1x1
e) Pelo menos 2 fiquem infectados?
f)
No máximo 1 fique infectado?
Exemplo 28
Uma indústria de alimentos está realizando testes com um bolo que será comercializado. Durante a
prova do bolo, 20% das pessoas selecionadas para tal tarefa acharam o sabor muito doce. Supondo
que 5 pessoas provarão o bolo novamente, qual a probabilidade de:
a) Nenhuma pessoa achar o bolo muito doce?
b) Todos acharem o bolo muito doce ?
c) Pelo menos 4 pessoas acharem o bolo muito doce?
d) No máximo 2 pessoas acharem o bolo muito doce?
EXERCÍCIOS SUPLEMENTARES
Exercício S18
Supor um teste com questões com 5 respostas de múltipla escolha com somente uma alternativa correta.
a) Se o aluno escolher uma ao acaso ("chute"), qual a probabilidade dele escolher a resposta certa?
b) Supondo que o teste tenha 20 questões; definindo-se a variável aleatória T: número de questões
certas, qual é a distribuição de probabilidade da variável T?
c) Calcular a probabilidade de um aluno acertar, no chute, 3 questões.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
69
d) Se o escore mínimo para passar é 10, qual a probabilidade de um aluno passar no teste, somente
chutando?
e) Qual o número médio de acertos esperado se o aluno somente chutar as respostas?
Exercício S19
Certa doença tem letalidade de 70%. Supondo-se que existam 20 pacientes com esta doença, calcular:
a) a probabilidade de que todos morram da doença.
b) a probabilidade de que nenhum paciente morra da doença.
c) a probabilidade de que 7 pacientes morram da doença.
d) a probabilidade de que, no máximo, 10 pacientes morram da doença.
e) a probabilidade de que, no mínimo, 5 pacientes sobrevivam.
f) o número esperado de óbitos e o respectivo desvio padrão.
Exercício S20
Em uma grande população, 20% das pessoas são canhotas. Assumindo que a variável X: número de
pessoas canhotas segue uma distribuição Binomial, e sorteando-se uma amostra aleatória de 10 pessoas, encontre a probabilidade de:
a)
b)
c)
d)
encontrar
encontrar
encontrar
encontrar
2 pessoas canhotas .
pelo menos 2 pessoas canhotas.
no máximo 1 pessoa canhota.
de 1 a 4 pessoas canhotas.
Exercício S21
Um caso de esquistossomíase é identificado pela detecção de ovo de xistossoma em amostra de fezes. Em pacientes com infecção baixa, uma técnica de exame de fezes tem probabilidade de 0,4 de
detectar ovo. Se 5 amostras são examinadas para cada paciente, qual a probabilidade de um paciente
com baixa infecção não ser identificado?
Exercício S22
Supor que 20% de certa população tem sangue tipo B. Para uma amostra de tamanho 18, retirada
desta população, calcule a probabilidade de que sejam encontradas:
a) 3 pessoas com sangue tipo B.
b) 3 ou mais pessoas com sangue tipo B.
c) no máximo 3 pessoas com sangue tipo B.
Exercício S23
A probabilidade que uma pessoa que sofre de enxaqueca obter alívio utilizando certo medicamento é
de 0,9. São selecionados 5 pacientes que sofrem de enxaqueca e recebem o medicamento. Quanto ao
número de pessoas que vai ter alívio, encontre a probabilidade de:
a) nenhuma pessoa ter alívio.
b) mais do que uma pessoa tenha alívio.
c) três ou mais pessoas tenha alívio.
d) no máximo duas pessoas tenham alívio.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
70
Distribuição normal ou de Gauss; distribuição amostral da média
Os dados abaixo são medidas do tórax (polegadas) de 5732 soldados escoceses, tomadas pelo matemático belga, Adolphe Quetelet (1796-1874).
medidas |
Freq,
Percent
Cum,
------------+----------------------------------33 |
3
0,05
0,05
34 |
19
0,33
0,38
35 |
81
1,41
1,80
36 |
189
3,30
5,09
37 |
409
7,14
12,23
38 |
753
13,14
25,37
39 |
1062
18,53
43,89
40 |
1082
18,88
62,77
41 |
935
16,31
79,08
42 |
646
11,27
90,35
43 |
313
5,46
95,81
44 |
168
2,93
98,74
45 |
50
0,87
99,62
46 |
18
0,31
99,93
47 |
3
0,05
99,98
48 |
1
0,02
100,00
------------+----------------------------------Total |
5732
100,00
Distribuição de medidas do tórax (polegadas) de soldados escoceses.
1000
Frequency
800
600
400
200
0
33
34
35
36
37
38
39
40 41
medidas
42
43
44
45
46
47
48
Fonte: Daly F et al. Elements of Statistics, 1999.
Função densidade de probabilidade da distribuição normal: Se a variável aleatória X é normalmente
distribuída com média
µ
e desvio padrão
σ
(variância
σ 2 ), a função densidade de probabilidade de
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
71
f ( x) =
X é dada por
1
σ 2π
[−
e
( x − µ )2
2σ 2
]
,
− ∞ < x < +∞ ; onde
π : constante ≅ 3,1416; e: constante
≅
2,718
µ : constante (média aritmética da população)
σ : constante (desvio padrão populacional)
Propriedades:
•
− ∞ < X < +∞ ;
é simétrica em torno da média m (ou µ );
•
a média e a mediana são coincidentes;
•
•
•
campo de variação :
a área total sob a curva é igual a 1 ou 100%;
a área sob a curva pode ser entendida como medida de probabilidade.
µ ± 1σ inclui 68,2% das observações
µ ± 1,96σ inclui 95,0% das observações
µ ± 2,58σ inclui 99,0% das observações
Exemplo:
Depois de tomarmos várias amostras, decidiu-se adotar um modelo para as medidas de perímetro do
tórax de uma população de homens adultos com os parâmetros: média (
vio padrão (
µ ) = 40 polegadas e des-
σ ) = 2 polegadas.
40 43
X
Qual a probabilidade de um indivíduo, sorteado desta população, ter um perímetro de tórax entre 40
e 43 polegadas?
43
P ( 40 ≤ X ≤ 43) =
1
∫40 2 2π e
[−
( x − 40 ) 2
]
2x4
dx
Quantos desvio padrão 43 está em torno da média?
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
72
Normal reduzida:
Z ~ N (0;1) onde Z =
P ( 40 ≤ X ≤ 43) = P (
x-µ
σ
40 − 40 X − µ 43 − 40
≤
≤
) = P (0 ≤ Z ≤ 1,5)
2
σ
2
0
1,5
Z
Utilizando a tabela da curva normal reduzida,
P(0 ≤ Z ≤ 1,5) = 0,43319 =43,3%
Exemplo 29:
Com base na distribuição de X~N(
µ =40, σ =2), calcular:
a) a probabilidade de um indivíduo, sorteado desta população, ter um perímetro de tórax maior ou
igual a 43 polegadas.
40 43
P ( X
≥ 43 ) = P (
X
− µ
σ
≥
0
43
1,5
X
− 40
) = P (Z
2
≥ 1 ,5 )
Z
Utilizando a tabela da curva normal reduzida,
P( Z ≥ 1,5) = 0,5-0,43319=0,06681= 6,7%.
b) a probabilidade de um indivíduo, sorteado desta população, ter um perímetro de tórax entre 35 e
40 polegadas.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
73
c) a probabilidade de um indivíduo, sorteado desta população, ter um perímetro de tórax menor que
35.
d) Qual o valor do perímetro do tórax, que seria ultrapassado por 25% da população?
Exemplo 30
Considerar a altura de 351 mulheres idosas como seguindo uma distribuição normal com média
160cm e desvio padrão 6 cm. Sorteia-se uma mulher; qual a probabilidade de que ela tenha:
a) altura entre 160 cm e 165 cm?
b) altura menor do que 145 cm?
c) Altura maior do que 170 cm?
Distribuição amostral da média
Supor a situação onde uma população é composta por 6 elementos, para os quais observou-se a característica X, cujos valores estão apresentados abaixo.
elementos
A
B
C
D
E
F
Fonte: Dixon WJ e Massey FJ. Introduction to Statistical Analysis.
York, 1957.
Xi
11
16
12
15
16
14
2nd edit. The Maple Press Company,
Média populacional ( µ ) = 14;
Variância populacional (
σ 2 ) = 3,667;
Desvio padrão populacional (
Parâmetros
População
Média ( µ )
Variância ( σ
Desvio padrão (
2
)
σ)
σ ) = 1,9149.
valor
Estimador
amostra
14
x
Valor (estimativa)
Par(A,D)=(11,15)
13
3,67
S2
8
1,91
S
2,828
Todas as possíveis amostras de tamanho 2, determinadas pelo processo de amostragem aleatório,
com reposição (N=6, n=2):
Amostra
Elementos que compõem a amostra
valores
Média(
1
2
3
4
5
6
A,A
A,B
A,C
A,D
A,E
A,F
(11,11)
(11,16)
(11,12)
(11,15)
(11,16)
(11,14)
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
xi )
11
13,5
11,5
13
13,5
12,5
74
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
B,A
B,B
B,C
B,D
B,E
B,F
C,A
CB
CC
C,D
C,E
C,F
D,A
D,B
D,C
D,D
D,E
D,F
E,A
E,B
E,C
E,D
E,E
E,F
F,A
F,B
F,C
F,D
F,E
F,F
(16,11)
(16,16)
(16,12)
(16,15)
(16,16)
(16,14)
(12,11)
(12,16)
(12,12)
(12,15)
(12,16)
(12,14)
(15,11)
(15,16)
(15,12)
(15,15)
(15,16)
(15,14)
(16,11)
(16,16)
(16,12)
(16,15)
(16,16)
(16,14)
(14,11)
(14,16)
(14,12)
(14,15)
(14,16)
(14,14)
13,5
16
14
15,5
16
15
11,5
14
12
13,5
14
13
13
15,5
13,5
15
15,5
14,5
13,5
16
14
15,5
16
15
12,5
15
13
14,5
15
14
Distribuição de frequência de todas as possíveis médias:
Distribuição amostral da média
xi
frequência
1
2
3
4
5
6
7
8
9
10
11
Total
11
11,5
12
12,5
13
13,5
14
14,5
15
15,5
16
1
2
1
2
4
6
5
2
5
4
4
36
8
6
Frequency
i
4
2
0
10
10.65
11.3
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
11.95
12.6
13.25
medias
13.9
14.55
15.2
15.85
75
11
∑x
Média das médias
(x ) =
i
fi
i =1
= 14
n
11
∑ (x
Variância das médias
σ x2 =
i
− x)2 fi
i =1
n
= 1,833 ;
Desvio padrão das médias = erro padrão da média =
Erro padrão da média =
σ x = σ x2
1,833 = 1,354 .
Teorema central do limite: X é variável aleatória com média
X ~ N (µ ,
σ
;
µ
e variância
σ2,
então
)
n
No exemplo, X ~ N ( µ = 14, σ = 1,915 ) , portanto
X ~ N ( µ x = 14, σ x =
1,915
2
= 1,354) .
Exemplo:
Os valores de ácido úrico em homens adultos sadios seguem distribuição aproximadamente Normal
com média 5,7mg% e desvio padrão 1mg%. Encontre a probabilidade de que uma amostra aleatória
de tamanho 9, sorteada desta população, tenha média
a) maior do que 6 mg%.
b) menor do que 5,2 mg%.
X~N( µ =5,7;
σ = 1)
a)
P( X ≥ 6) = P ( Z X ≥
b)
P( X ≤ 5,2) = P(Z X ≤
6 − 5,7
) = P( Z X ≥ 0,91) = 0,5 − 0,31859 = 0,18141.
1
9
5,2 − 5,7
) = P(Z X ≤ −1,52) = 0,5 − 0,43574 = 0,064 .
1
9
Exemplo 31
Suponha que o peso em gramas do conteúdo de pacotes de salgadinho siga uma distribuição normal
com média 500g e desvio padrão 85g. Sorteia-se uma amostra de 50 pacotes. Calcule:
a) a probabilidade de obter peso médio entre 500 e 530 gramas.
b) a probabilidade de obter peso médio entre 450 e 500 gramas.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
76
Aproximação da distribuição Binomial pela Normal
Representação gráfica da distribuição Binomial(n=10;p=0,5).
0,30
P(X=x)
0,25
0,20
0,15
0,10
0,05
0
0
1
2
3
4
5
6
7
8
9
10
X
Aproximação da Binomial(n=10,p=0,5) pela distribuição normal.
0,30
P(x1 <X<x2)
0,25
0,20
0,15
0,10
0,05
0
0
1
2
3
4
5
6
7
8
9
10
X
Supor X~B(n,p), onde X:número de sucessos;
Parâmetros da distribuição: p (probabilidade de sucessos); n (número de realizações);
Binomial possui média=np; variância =npq e desvio padrão =
npq .
Para n suficientemente grande (np ≥ 5 e nq ≥ 5), a variável X pode ser aproximada para uma distribui-
npq )
ção Normal(média=np, e desvio padrão=
Supor a proporção de sucessos dada por
Média de
X
n
X
=p
n
e desvio padrão de
X
pq
=
n
n
porque:
média de
X
X
1
1
= E( ) = E(X) = np = p ;
n
n
n
n
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
77
variância de
X
X
1
1
pq
= V( ) = 2 V(X) = 2 npq =
n
n
n
n
n
desvio padrão de
X
X
pq
= V( ) =
n
n
n
;
.
Para n suficientemente grande (np ≥ 5 e nq ≥ 5), a distribuição de
distribuição Normal(média=p, e desvio padrão=
pq
n
X
n
pode ser aproximada para a
).
Exemplo:
Y: número de sucessos;
Y~B(n=10; p=0,5)
P(3 ≤ Y < 6) =P(Y=3)+P(Y=4)+P(Y=5)=0,11719+0,20508+0,24609=0,5684.
Pela distribuição normal: Y~N(np=5; dp=
P(3 ≤ Y < 6) =P(
10 x 0,5 x 0,5 = 1,581 )
2,5 − 5 Y − 5 5,5 − 5
≤
<
)=
1,581
npq 1,581
P( −1,581 ≤ Z Y < 0,316) =0,44295+0,12552=0,5685.
Trabalhando-se com a proporção de sucessos:
Y
: proporção de sucessos
n
Pela distribuição Binomial:
P(0,3 ≤
Y
< 0,6) = P(3 ≤ Y < 6) = 0,11719 + 0,20508 + 0,24609 = 0,5684
n
Pela distribuição normal:
pq
0,5x 0,5
Y
~N(p=0,5; dp=
=
= 0,1581 )
n
10
n
P(3 ≤ Y < 6) =P( 0,25 − 0,5 ≤
0,1581
Y
− 0,5
0,55 − 0,5 )=
n
<
0,1581
pq
n
P( −1,581 ≤ Z Y < 0,316) =0,44295+0,12552 = 0,5685
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
78
EXERCÍCIOS SUPLEMENTARES
Exercício S24
Suponha que o peso de açúcar em pacotes seja anunciado como sendo 2Kg (2000g). Suponha que o
peso (X) segue uma distribuição normal com média e desvio padrão em gramas dado por
N( µ = 2003; σ = 1 ). Qual a probabilidade de sortear um pacote com peso abaixo do anunciado?
Exercício S25
Suponha que o tempo médio de permanência em um hospital para pacientes com determinada doença é de 60 dias com desvio padrão de 15 dias. Supor que o tempo de permanência segue uma distribuição aproximadamente normal. Se for sorteado 1 paciente desta população, calcule a probabilidade
de que seu tempo de permanência será
a) maior que 50 dias.
b) menor que 30 dias.
c) entre 40 e 70 dias.
d) maior do que 75 dias.
Exercício S26
Supor que a idade para o aparecimento de certa doença possui distribuição aproximadamente normal
com média 11,5 anos e desvio padrão 3 anos. Uma criança apresentou esta doença. Calcule a probabilidade de que a criança tenha
idade entre 8,5 e 14,5 anos.
a)
b)
acima de 10 anos.
c)
abaixo de 12 anos.
Exercício S27
Supor que a pressão média diastólica de certa população em certo grupo de idade é igual a 78mmHg
com desvio padrão 9mmHg. Calcule a probabilidade de que em uma amostra de tamanho 16, a média
seja maior que 81mmgHg.
Exercício S28
Seja X a variável estatura de homens adultos, assuma que X segue uma distribuição normal com média µ = 172 cm e desvio padrão σ = 7,6 cm. Supor que uma amostra de tamanho n= 25 é retirada
desta população.
a) Qual é a distribuição da média amostral X e qual é a média e o desvio padrão desta distribuição?
b) Calcule a probabilidade que a média amostral seja menor que a média populacional em 2,5
cm.
A família de distribuições t de Student
Student é o pseudônimo de W. S. Gosset que, em 1908, propôs a distribuição t. Esta distribuição é
muito parecida com a distribuição normal. A família de distribuições t é centrada no zero e possui
formato em sino. A curva não é tão alta quanto a curva da distribuição normal e as caudas da distribuição t são mais altas que as da distribuição normal. O parâmetro que determina a altura e largura
da distribuição t depende do tamanho da amostra (n) e é denominado graus de liberdade (gl), denotado pela letra grega (
ν ) (lê-se ni). A notação da distribuição t é tν .
Curvas t para graus de liberdade (tamanhos de amostra) diferentes.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
79
Quando o número de graus de liberdade da distribuição t aumenta, a distribuição se aproxima de uma
distribuição normal.
Esta família t não descreve o que acontece na natureza mas sim o que aconteceria se selecionássemos milhares de amostras aleatórias de uma população normal com média
t=
X −µ
s
µ
e fosse calculado
para cada amostra.
n
Calculando o valor de t para 500 amostras de tamanho 6 de uma população com distribuição normal,
obtém-se o gráfico a seguir:
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
80
Estimação de parâmetros populacionais
Estimação por ponto
X é uma característica que na população possui distribuição normal com média
(desvio padrão
µ
e variância
σ2
σ ).
Seja X1, X2, X3, ...Xn uma amostra aleatória de tamanho n extraída desta população.
Os parâmetros
µ eσ2
podem ser estimados com base na amostra.
Se o estimador for um único valor, a estimação é chamada de estimação por ponto.
Se o estimador for um conjunto de valores, a estimação é chamada de estimação por intervalo.
Estimação por ponto
Média aritmética
N
Populacional
Parâmetro
µ estimador : X = ∑
Xi
i =1
N
Variância
N
∑(X
Populacional
Parâmetro
σ
2
S (2N ) =
i
− X )2
i =1
estimador :
N
∑(X
S (2N −1) =
ou
N
i
− X )2
i =1
N −1
Atenção: Antes dos dados serem coletados, os estimadores são variáveis aleatórias.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
81
Estimação por intervalo
Intervalo de confiança: É um conjunto de valores calculados com base na amostra. Pressupõe-se que
cubra o parâmetro de interesse com um certo grau (nível) de confiança.
O grau de confiança tem origem na probabilidade associada ao processo de construção do intervalo
antes de se obter o resultado amostral.
O grau de confiança mais comumente utilizado é o de 95%.
Seria impossível construir um intervalo de 100% de confiança a menos que se medisse toda a população.
Na maioria das aplicações não sabemos se um intervalo de confiança específico cobre o verdadeiro
valor. Só podemos aplicar o conceito frequentista de probabilidade e dizer que se realizarmos a amostragem infinitas vezes e construirmos intervalos de confiança de 95%, em 95% das vezes os intervalos de confiança estarão corretos (cobrirão o parâmetro) e 5% das vezes estarão errados.
Exemplos de intervalo de confiança:
IMC médio, desvio padrão (dp) e IC de 95% segundo sexo e idade (anos). Duas escolas públicas de
São Paulo, 2004.
Sexo(1)
Idade (anos)(2)
7
8
9
10
IMC (kg/m2) médio e desvio padrão (dp) (IC 95%)
Masculino
16,8 (2,5)
17,9 (4,0)
17,3 (3,1)
18,9 (4,0)
(16,2 – 17,4)
(17,0 – 18,9)
(16,5 – 18,1)
(17,9 – 19,8)
Feminino
16,4 (2,30)
16,9 (2,9)
17,4 (3,3)
18,7 (3,1)
(15,9 – 17,0)
(16,2 – 17,6)
(16,6 – 18,2)
(17,9 – 19,5)
Total
16,6 (2,4)
17,4 (3,5)
18,7 (3,2)
(16,2 – 17,0)
(16,8 – 18,0)
(17,9 – 19,5)
(1) Masculino (n=281), Feminino (n=275);
(2) 7 anos (n=151); 8 anos (n=138); 9 anos (n=126); 10 anos (n=141)
Fonte: Claudia Regina Koga. Dissertação de Mestrado (dados preliminares)
18,8 (3,7)
(18,2 – 19,4)
IC para a proporção populacional
“Os dados de composição corporal obtidos pela utilização da BIA, classificados em duas categorias: sem risco de doença cardiovascular e com risco de DCV, resultaram em prevalência de risco de
DCV igual a 42,3% (IC95%: 38,1 - 46,5%).”
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
82
R ep r es en t a çã o g rá f i ca
A linha vertical representa o parâmetro populacional. O gráfico foi gerado via programa de computador. São apresentados 50 intervalos de confiança para amostras de tamanho n=20. As linhas horizontais representam os intervalos de confiança. Se o intervalo de confiança não contiver o parâmetro, a
linha horizontal não cruzará a linha vertical. A linha vertical é o parâmetro. No exemplo, 3 intervalos
não cobrem ("capturam") o parâmetro.
Apresentação gráfica do efeito do tamanho da amostra:
Para amostras menores (n=5), as larguras dos intervalos são maiores a proporção de intervalos que
"capturam" o parâmetro é parecida com a anterior (para n=20). Portanto, o tamanho da amostra não
interfere na proporção de “captura” do parâmetro mas sim na precisão do estimador.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
83
Efeito do grau de confiança
Para n=20 e
α =0,25, obtém-se intervalos com os apresentados a seguir:
α
Os intervalos são mais estreitos do que para n=20 e
=0,05. Uma porcentagem bem maior não
contém o parâmetro. Isto é o que 75% de confiança significa. Do total de todas as possíveis amostras, 75% delas resultará em intervalos de confiança que contêm o verdadeiro valor do parâmetro.
Interpretando Intervalos de Confiança (IC)
Um intervalo de confiança para um parâmetro é um intervalo de valores no qual pode-se depositar
uma confiança que o intervalo cobre (contém) o valor do parâmetro. Por exemplo, se com base em
uma amostra encontrarmos que o intervalo (3200 ; 3550) é um intervalo de 95% de confiança para a
média (
µ ) da população de valores do peso médio ao nascer de recém-nascidos no Município de
São Paulo, então podemos estar 95% confiantes que o conjunto de valores 3220 – 3500 gramas cobre (contém) o verdadeiro peso médio ao nascer da população.
Pode-se também pensar no IC a partir da seleção de milhares de amostras de uma população. Para
cada amostra calcula-se um intervalo de confiança com grau de confiança 100(1- α )%, para um parâmetro da população. A porcentagem de intervalos que contém o verdadeiro valor do parâmetro é
100(1- α ). Para
α =0,05, o grau de confiança será igual a 100(1-0,05)% = 100(0,95)% = 95%.
Na prática, tomamos somente uma amostra e obtemos somente um intervalo. Mas sabemos que
100(1- α )% de todas as amostras tem um intervalo de confiança contendo o verdadeiro valor do
parâmetro, portanto depositamos uma confiança 100(1- α )% que o particular intervalo contém o
verdadeiro valor do parâmetro.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
84
Amplitude do intervalo
Para um grau de confiança especificado (por exemplo, 95%), desejamos o intervalo tão pequeno
quanto possível.
Ex: o intervalo de confiança de 95% para o peso médio ao nascer (gramas) de recém-nascidos no
Município de São Paulo de (2500, 4000) traz pouca informação prática porque sabe-se, da experiência, que a média populacional está neste intervalo. Deseja-se um intervalo com amplitude de poucas
gramas. É o tamanho da amostra que determina a amplitude do intervalo. Quanto maior a amostra,
menor será o intervalo.
Fórmulas para construção dos intervalos de confiança:
As fórmulas dos intervalos de confiança são derivadas da distribuição amostral da estatística;
Construção do intervalo de confiança para a média populacional
µ;
Pressuposição: A amostra deve ser obtida de forma aleatória;
É necessário utilizar as propriedades do teorema central do limite :
X ~ N (µ, σ) ; X ~ N ( µ ,
Padronizando-se a média
σ
n
)
, obtém-se Z = X − µ ~ N (0,1) , que permite calcular
X
σ
n
P(− z ≤
X −µ
σ
≤ z) = 1 − α .
n
Para
α = 5% ,
P(−1,96 ≤
X −µ
σ
≤ +1,96) = 0,95
n
P(−1,96
σ
n
P(− X − 1,96
≤ X − µ ≤ +1,96
σ
n
σ
n
≤ − µ ≤ − X + 1,96
) = 0,95
σ
n
) = 0,95
Multiplicando tudo por -1
P( X + 1,96
σ
n
≥ µ ≥ X − 1,96
σ
n
) = 0,95
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
85
Reescrevendo a equação tem-se
P( X − 1,96
σ
n
≤ µ ≤ X + 1,96
σ
n
) = 0,95
Obtém-se um intervalo aleatório centrado na média amostral o qual possui 95% de probabilidade
de conter a verdadeira média populacional.
O parâmetro será estimado por um conjunto de valores provenientes de uma amostra. Quando isto é
feito,
a
x − 1,96
média
σ
n
é
estimada
≤ µ ≤ x + 1,96
por
um
determinado
valor
(
Xˆ = x ),
e
o
intervalo
σ
n
deixa de ser uma variável aleatória.
Este intervalo cobre (contém) ou não cobre (não contém) a verdadeira média (parâmetro). Diz-se
então que a confiança que se deposita neste intervalo é de 95% porque antes de coletar a amostra de
tamanho n, existia, associada a ele, uma probabilidade de 95% de que contivesse a média populacional. Por isso chama-se intervalo de confiança para a média populacional.
IC(95%) : ( x − 1,96
σ
σ
; x + 1,96
)
n
n
Intervalo de confiança para a média populacional com variância populacional conhecida
Pressuposição: A amostra deve ser obtida de forma aleatória.
Estatística: média populacional -
µ.
IC(µ) = x − zα / 2.
σx
n
; x +zα / 2.
σx
n
Exemplo:
Construa um intervalo de 95% de confiança para estimar a pressão diastólica média populacional
( µ ), sabendo que em uma amostra de 36 adultos a pressão média amostral ( x ) foi igual a
85mmHg e o desvio padrão populacional ( σ ) foi 9 mm de Hg. Interprete o significado desse intervalo
Solução:
85 − 1,96
9
9
;85 + 1,96
, ou seja, (82,06; 87,94mmHg)
36
36
Exemplo 32
Em uma amostra de 16 gestantes com diagnóstico clínico de pré-eclâmpsia, a taxa média de ácido
úrico no plasma foi de 5,3 mg sabendo que a variabilidade na população é igual a 0,6 mg. Estime,
com 95% de confiança, a taxa média de ácido úrico no plasma da população de gestantes com diagnóstico de pré-eclâmpsia.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
86
Intervalo de confiança para a média populacional com variância populacional desconhecida
IC(µ) : x −tn−1,α 2.
Sx
S
; x +tn−1,α 2. x
n
n
Exemplo:
Construa um intervalo de 95% de confiança para estimar a pressão diastólica média populacional
( µ ), sabendo que em uma amostra de 36 adultos a pressão média amostral ( x ) foi igual a
85mmHg e o desvio padrão amostral (s) foi 12 mm Hg. Interprete o significado desse intervalo.
85 − 2,03
12
36
;85 + 2,03
12
36
, ou seja, (80,94; 89,06 mmHg)
Exemplo 33
Uma amostra de 25 adolescentes meninos apresenta peso médio de 56 kg e desvio padrão 8 kg.
a) encontre o intervalo de confiança de 95% para o peso médio da população da qual esta amostra foi sorteada.
b) interprete o intervalo de confiança encontrado.
Intervalo de confiança aproximado pela Normal para a proporção populacional ( π )
Pressuposições:
1- np e nq≥5
2- a amostra deve ser obtida de forma aleatória
Seja X uma variável aleatória que segue uma distribuição binomial, X~ B(n,p).
A proporção de sucessos populacional π é desconhecido. Seu estimador por ponto é
Para n grande,
p ~ N ( µ = p, σ =
Com intervalo de confiança para
IC(π ) : pˆ − zα / 2 .
π
p=
X
n
pq
).
n
dado por
pˆ qˆ
pˆ qˆ
; pˆ +zα / 2 .
n
n
, com
p̂
e
q̂
estimados na amostra onde
pˆ =
x
e
n
qˆ = 1 − pˆ e x é o número de sucessos observado na amostra de tamanho n.
Exemplo:
Supor que em uma amostra de 200 casais encontrou-se 10 casais onde a esposa era mais alta que o
marido. Construir o intervalo de confiança de 95% para a proporção de casais na população ( π ) onde
as esposas são mais altas que seus maridos.
pˆ =
10
= 0,05 ; qˆ = 1 − pˆ = 0,95
200
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
87
IC(95%,π ) : 0,05−1,96
0,05x0,95
0,05x0,95
;0,05+1,96
200
200
IC(95%, p): (2,0% ; 8,0% casais)
Se for de interesse estimar por intervalo o número esperado de sucessos na população ( Xˆ
= pˆ N
onde N é tamanho da população) pode-se utilizar os valores obtidos no IC para a proporção populacional.
IC95% para o número esperado de sucessos na população: (N x
p̂ i ; N x p̂ s ) onde p̂ i é a proporção
p̂ s é a proporção de sucessos estimada pelo limite
de sucessos estimada pelo limite inferior do IC e
superior do IC.
Para uma população de 1000 casais, obtém-se: (1000 x 0,02 ; 1000 x 0,08), ou seja, (20 ; 80 casais)
Exemplo 34
Em uma pesquisa sobre saúde bucal na Inglaterra observou-se que de uma amostra de
262 mulheres com idade entre 25 e 34 anos, 7,6% não tinham dentes. Calcule o intervalo de confiança de 95% para a proporção de mulheres inglesas naquela faixa etária, que não possuem dentes.
Resumo: Intervalo de Confiança
Média populacional:
µ
Com variância conhecida
Com variância
σ2:
σ2
x − Zα / 2
n
; x + Zα / 2
σ 2 desconhecida: x − t
α / 2 ,ν
σ2
n
s
s
, x + tα / 2,ν
;ν = n − 1
n
n
Proporção populacional (p)
Intervalo aproximado:
pˆ − Zα / 2
onde
p̂
npˆ , npˆ (1 − pˆ ) ≥ 5
pˆ (1 − pˆ )
n
;
pˆ + Zα / 2
pˆ (1 − pˆ )
n
é a proporção de sucessos na amostra.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
88
EXERCÍCIOS SUPLEMENTARES
Exercício S29
São apresentadas medidas de pressão arterial sistólica de uma amostra de 20 pacientes.
a) Construa o intervalo de confiança de 90% para a pressão sistólica média populacional.
b) Interprete o intervalo de confiança encontrado.
98
160
136
125
128
129
130
132
114
154
123
115
134
126
128
132
107
136
123
130
Valores de média e desvio padrão das observações:
Média ( x )
128
Desvio padrão (Sn-1)
13,91
Exercício S30
Em uma pesquisa sobre propriedades teratogênicas de uma droga, 85 camundongos fêmeas grávidas
que não foram expostas a droga foram observadas. Do total de 85 ninhadas, 12 tiveram pelo menos 1
filhote com malformação.
a) Apresente o intervalo de confiança de 95% para a verdadeira proporção de malformação na
população de camundongos de onde os 85 que participaram do estudo foram provenientes.
b) Interprete o intervalo de confiança encontrado.
Exercício S31
Os dados a seguir são provenientes do grupo Western Collaborative Group Study, criado na Califórnia
em 1960-61.
Tipo A: nível de colesterol
233
291
312
254
276
234
Tipo B: nível de colesterol
344
185
263
226
175
242
Medidas(mg/100ml)
Média
Variância (n-1)
Desvio padrão (n-1)
250
181
246
252
246
248
224
153
Tipo A
245,05
1342,37
36,64
197
252
212
183
268
202
188
137
224
218
250
202
239
212
148
194
239
325
169
213
Tipo B
210,3
2336,747
48,33991
Com base nos valores fornecidos,
a) Calcule o intervalo de confiança de 95% para o nível médio populacional de colesterol para
cada um dos tipos.
b) Interprete os intervalos. Explique o que eles significam.
c) Compare os resultados.
Exercício S32
São apresentados dados sobre o estado nutricional de 1226 crianças brasileiras de 2 anos de idade,
segundo sexo.
Estado nutricional
Masculino
Feminino
total
Desnutridas
29
20
49
Normais
574
603
1177
Total
603
623
1226
Fonte: retirado de material de aula da Profa M. R. Cardoso
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
89
Com base nos dados calcule a proporção de crianças desnutridas e respectivos intervalos de confiança
de 90% segundo sexo. Discuta os resultados.
Exercício S33
No artigo “Hipovitaminose A em crianças de áreas rurais do semi-árido baiano” a idade média das
crianças com nível aceitável e inadequado de retinol e seus respectivos desvios-padrão são apresentados a seguir. Encontre o intervalo de confiança de 90% para as verdadeiras idades médias. Compare os resultados. Pode-se dizer que as crianças provêm de uma mesma população?
Estatísticas
Número de observações (n)
Média ( x )
Desvio padrão (Sn-1)
Nível aceitável
89
41,9
17,4
Nível inadequado
72
37,4
17,1
Exercício S34
O nível médio de protrombina em populações normais é 20 mg/100ml de sangue. Uma amostra de
40 pacientes que tinham deficiência de vitamina K tiveram nível médio observado de protrombina de
18,5mg/100ml e desvio padrão 4mg/100ml. Seria razoável concluir que a verdadeira média de pacientes com deficiência de vitamina K é a mesma que a da população normal?
Exercício S35
Uma companhia de produtos alimentícios solicitou pela mídia que os consumidores entrassem em
contato dizendo se tinham aprovado o sabor de um novo produto. Quem telefonasse receberia um
exemplar de um livro de receitas. 320 consumidores telefonaram sendo que 75% destes aprovaram o
produto.
a) Poderia ser construído o intervalo de confiança de 95% para a proporção de consumidores
que aprovaram o produto na população?
b) Se sim, calcule o intervalo; se não, explique porque não.
Teste de hipóteses, teste de hipóteses de uma proporção populacional
Estatística descritiva
Descreve eventos por meio de:
tabelas
gráficos
razões e índices
parâmetros típicos (medidas de posição e dispersão)
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
90
Estatística analítica
Nível I - Teórico (conceitos, hipóteses científicas)
Nível II - operacional (hipótese estatística)
Situação
Quanto mais bem educada uma pessoa, menor o seu preconceito em aceitar certa campanha sanitária
Nível I
Conceitos
Nível II
Definições
Definições
Científicas/
operacionais
Hipótese operacional
teóricas
educação
Visão global
Anos de escolaridade
do mundo
Quanto maior o número
de anos de escolaridade,
menor o escore em uma
escala de preconceito
preconceito
Pré-julgamento
Conceitos gerais
Hipótese científica
Preconceito (escore
em uma escala)
Hipótese estatística em termos operacionais relativos a população
(inferência dedutiva)
Estimador (Populacional)
Veracidade/
falsidade científica
Regras de decisão: fixação de
α - nível de significância
Delineamento: normas de coleta e análise dos dados
Inferência indutiva
Coleta de dados (observação e mensuração)
(teoria probabilística)
Verificação da veracidade da hipótese
Inferência estatística: É qualquer procedimento que se utiliza para se generalizar afirmações sobre
determinada população, baseadas em dados retirados de uma amostra.
Parâmetro: É a medida usada para se descrever uma característica de uma população.
Estatística: É uma função dos valores amostrais.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
91
Estimação: É o processo através do qual estima-se o valor de um parâmetro de uma população com
base no valor obtido em uma amostra.
Hipótese: É uma forma de especulação relativa a um fenômeno estudado (qualquer que seja). É
qualquer afirmação sobre a distribuição de probabilidade de uma variável aleatória (afirmação sobre
um parâmetro).
Hipótese estatística: É uma especulação feita em relação a uma proposição, porém relativa a uma
população definida.
Teste de Hipóteses
Abordagem de Neyman e Pearson
Neyman e Pearson propuseram uma abordagem, para a tomada de decisão, que envolve a fixação,
antes da realização do experimento, das hipóteses nula e alternativa, e fixação de valores de probabilidade de ocorrência de erros de decisão.
Considerar a situação na qual se deseja comparar a eficácia de uma nova droga (DN) com a eficácia
de uma droga padrão (DA), que vem sendo atualmente utilizada.
Para a
•
•
•
•
•
•
•
•
•
tomada de decisão sobre a eficácia de DN, torna-se necessário seguir os seguintes passos:
Formular as hipóteses;
Identificar a distribuição de probabilidade da estatística do teste;
Fixar o nível de significância do teste (α );
Calcular o tamanho da amostra;
Determinar a região de rejeição/aceitação de H0;
Realizar o estudo, observar os resultados, calcular a estatística do teste;
Confrontar o valor observado da estatística do teste com a região de rejeição/aceitação de H0;
Tomar a decisão;
Apresentar a conclusão.
Cada passo será apresentado detalhadamente a seguir.
Fixação das hipóteses para o exemplo da eficácia de DN
Para o estudo proposto, onde uma nova droga é desenvolvida para apresentar maior eficácia que a
droga em uso, as hipóteses apropriadas seriam:
H0 : DN = DA
Ha : DN > DA
Teste monocaudal à direita
Se o estudo envolvesse a comparação de duas drogas, uma nova e outra que é atualmente utilizada,
e a nova droga se propõe a reduzir os efeitos colaterais, as hipóteses seriam:
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
92
H0 : DN = DA
Ha : DN < DA
Teste monocaudal à esquerda
Se ambas os lados forem possíveis, deve-se optar pela hipótese alternativa que explicita a diferença
como na situação onde uma nova droga para depressão está em teste e deseja-se investigar se a
droga inibe ou provoca o apetite, como efeito colateral. Assim, antes do estudo não se conhece o
efeito da droga sobre o apetite dos pacientes.
H0 : DN = DA
Ha : DN ≠ DA
Teste bicaudal
Fixação de valores de probabilidade de ocorrência de erros de decisão
Considerar o estudo que tem por objetivo comparar a eficácia de uma nova droga (DN) com a eficácia
de uma droga padrão, que vem sendo utilizada (DA), cuja eficácia é de 50%.
Eficácia (E) pode ser medida pelo número de curas.
Supor que a nova droga será utilizada em 10 pacientes (n=10) e, considerando-se a eficácia conhecida da droga antiga (DA), de 50%, tem-se que a probabilidade de cura (p) é igual a 0,5.
H 0 : D N = 0,5
Hipóteses:
H a : D N > 0,5
H 0 : E N = 0,5
ou
H a : E N > 0,5
Estatística do teste: número de curas pela nova droga
X: número de curas,
X~B(n=10; p=0,50), se H0 for verdade
X: 0, 1, 2, 3,...,10
Valor esperado de curas = n.p= 10x0,5 = 5 curas.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
93
Distribuição de probabilidade Binomial para n=10 e p=0,5 (sob H0, ou seja, se H0 for verdade)
X (número de curas)
0
1
2
3
4
5
6
7
8
9
10
P(X=x)
0,001
0,010
0,044
0,117
0,205
0,246
0,205
0,117
0,044
0,010
0,001
Utiliza-se o teste de hipóteses para testar H0. O teste de hipóteses fornece elementos para a tomada
de decisão com base em H0
É possível tomar somente uma decisão – Rejeita-se H0 ou Não rejeita-se H0 (Aceita-se H0)
Possíveis erros na tomada da decisão:
Decisão
Verdade
H0
H0
não cometeu erro
Ha
erro tipo I
Ha
erro tipo II
não cometeu erro
α = Pr obabilidade(erro tipoI )
= Probabilidade (Rejeitar H0 e H0 é verdade)
β = Pr obabilidad e(erro tipoII )
= Probabilidade (Aceitar H0 e H0 é falsa)
(1 − β) = poder do teste = Probabilidade (Rejeitar H
0
e H0 é falsa)
Poder de revelar a falsidade de H0 quando a verdade é Ha
Conduta: Antes do experimento, fixa-se
α e trabalha-se com o menor β
possível.
Exemplo 35
Em um julgamento jurídico o júri tem que decidir sobre a culpa ou inocência de um réu. Considere
dois fatos: 1) o sistema jurídico admite que toda pessoa é inocente até que se prove o contrário. 2) só
vai a julgamento pessoas sobre as quais existe dúvida de sua inocência. Fazendo uma analogia com
teste de hipóteses, responda:
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
94
a) Apresente as hipóteses nula e alternativa sobre a culpa ou inocência do réu.
b) O júri pode errar se decidir que o réu é culpado quando na verdade ele é inocente. Qual é o outro
erro de decisão que o júri pode cometer?
c) Qual dos dois erros é o mais sério?
d) Na terminologia de teste de hipótese, qual tipo de erro (I ou II) pode-se vincular a cada uma das
decisões do item b?
Exemplo 36
Supor duas situações: 1- a pessoa está fazendo parte de um levantamento para diagnóstico de para
câncer de mama (screening); 2- a pessoa realiza o teste para detectar anticorpos anti-HIV.
É fornecido um diagnóstico com base no resultado do teste.
a) Qual dos erros é geralmente mais sério: um resultado falso positivo que diz que a pessoa tem a
doença quando na verdade ela não tem ou um resultado falso negativo, que diz que a pessoa não
tem a doença quando na verdade ela tem?
b) Apresente as hipóteses nula e alternativa sobre a situação de saúde do paciente; fazendo uma
analogia com teste de hipóteses, que tipo de erro (I ou II) seria cometido se o resultado do teste
fosse falso positivo? Que tipo de erro (I ou II) seria cometido se o resultado do teste fosse falso negativo?
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
95
Definição de critérios de aceitação ou rejeição de H0: estabelecimento das regiões de rejeição e de aceitação de H0.
Distribuição de probabilidade do número de curas sob H0: B(n=10, p=0,5)
X (número de curas)
0
1
2
3
4
5
6
7
8
9
10
Após a definição da área de rejeição de H0,
P(X=x)
Região
0,001
0,010
0,044
Região de aceitação de H0
0,117
1-α
0,205
0,246
0,205
0,117
0,044
Região de rejeição de H0
0,010
α = 5,5%
0,001
pode-se realizar o experimento.
Por exemplo, supor que entre 10 pessoas que tomaram a nova droga, 9 se curaram. Como 9 cai na
região de rejeição de H0, decide-se por rejeitar H0.
Se tivessem sido observadas 6 curas ou qualquer valor da área de aceitação de H0, a decisão seria
não rejeitar H0 ou seja, aceitar H0.
Onde está β ?
Lembrar que as hipóteses de teste são:
H 0 : D N = 0,5
H a : D N > 0,5
e que a probabilidade do erro tipo II é a pro-
babilidade de aceitar H0 quando H0 é falsa e que (1 − β) é o poder do teste, ou seja, a probabilidade
de rejeitar H0 quando H0 é falsa.
Supor que não se rejeita H0, portanto, decide-se por H0. Entretanto, se estiver sendo cometido algum
erro de decisão, este será do tipo II. Assim, a verdade seria uma eficácia da nova droga maior que
0,5.
Supor que uma diferença de no mínimo 10% seja suficiente. Assim, supondo-se p=0,6, a distribuição
do número de curas sob Ha, ou seja, sob uma B(n=10, p=0,6) seria:
X
(número de curas)
0
1
2
3
4
5
6
7
8
9
10
p=0,5
P(X=x)
0,001
0,010
0,044
0,117
0,205
0,246
0,205
0,117
0,044
0,010
0,001
Região
1− α
aceitação de H0
rejeição de H0
α = 0,055
p=0,6
0,000
0,002
0,011
0,042
0,111
0,201
0,251
0,215
0,121
0,040
0,006
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
Região
aceitação de H0
β = 0,833
rejeição de H0
(1- β ) = 0,167
96
Notar que para n fixo, uma alteração no nível de significância, altera o poder do teste.
São apresentadas a seguir as relações entre o tamanho da amostra, o nível de significância,
β
e
1− β
Valores de
β
e de
1 − β para o teste de H0:EN=EP=50% contra H1: EN>50%, quando n=10, α ≅ 5%
(a rigor, 5,47%) segundo diferentes valores de EN .
EN
β (%)
1 − β (%)
60%
70%
80%
90%
16,73
38,28
67,78
92,98
Valores de
β
e de
83,27
61,72
32,22
7,02
1 − β para o teste de H0: EN =EP=50% contra H1: EN >50%, quando n=10,
α ≅ 1% (a rigor, 1,08%) segundo diferentes valores de EN.
EN
β (%)
60%
70%
80%
90%
Valores de
β
e de
1 − β (%)
95,36
85,07
62,42
26,39
4,64
14,93
37,58
73,61
1 − β para o teste de H0: EN =EP=50% contra H1: EN = 60%, quando α ≅ 5%
para diferentes valores de n.
Tamanho da
amostra (n)
Valor de α mais
próximo de 5%
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
100
150
160
175
200
5,5
5,9
5,7
5,4
4,9
4,5
4,0
6,8
5,9
5,2
4,6
4,1
6,0
5,3
4,6
4,4
4,3
4,8
4,8
5,2
Valor de
(%)
83,3
78,3
75,0
72,6
70,9
69,4
68,3
67,3
55,4
54,1
54,9
54,7
48,8
45,0
45,2
37,7
22,6
18,7
15,8
11,0
β
Valor de
1 − β (%)
16,7
21,7
25,0
27,4
29,1
30,6
31,7
32,7
44,6
44,9
45,1
45,3
51,2
55,0
54,8
62,3
77,4
81,3
84,2
89,0
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
97
Valores de
β
e de
1 − β para o teste de H0: EN =EP=50% contra H1: EN = 55%, quando α ≅ 5%
para diferentes valores de n.
Tamanho da
amostra (n)
Valor de α mais
próximo de 5%
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
100
150
160
175
200
300
400
600
5,5
5,9
5,7
5,4
4,9
4,5
4,0
6,8
5,9
5,2
4,6
4,1
3,6
5,3
4,6
4,4
4,3
4,8
4,8
5,2
5,9
4,9
5,6
Valor de
β
Valor de
(%)
90,0
87,0
87,0
86,6
86,5
86,6
86,7
87,0
80,3
81,0
81,8
82,5
83,2
77,4
78,4
75,9
68,8
65,4
63,3
58,3
43,0
36,2
19,4
1− β
(%)
10,0
12,0
13,0
13,4
13,5
13,4
13,3
13,0
19,7
19,0
18,2
17,5
16,8
22,6
21,6
24,1
31,2
34,6
36,7
41,7
57,0
63,8
80,6
Para um teste bicaudal
Valores de
β
e de
1 − β para o teste de H0: EN = EP=50% contra H1: EN ≠ 50%, quando α ≅ 5%
para diferentes valores de n e E1 = 60% ou E1 = 40%
Tamanho
da
amostra
(n)
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
100
150
160
175
200
Valor de
α mais
próximo
de 5%
2,1
3,5
4,1
4,3
4,3
4,1
3,8
7,2
6,5
5,8
5,2
4,6
4,1
6,4
5,7
5,7
6,0
6,9
6,9
7,7
Valor de
Valor de
β
1− β
(%)
(%)
95,2
90,8
87,3
84,5
82,3
80,4
78,8
67,2
66,4
65,7
65,1
64,5
64,0
54,4
54,2
45,7
27,9
23,3
19,8
14,0
4,8
9,2
12,7
15,5
17,7
19,6
21,1
32,8
33,6
34,3
34,9
35,5
36,0
45,6
45,8
54,3
72,1
76,7
80,2
86,0
Poder do teste para tamanhos de amostra fixos em testes mono e bicaudal, com distribuições de probabilidade
B(n, p=0,5) para H0 e B(n, p=0,6) para Ha
1,000
bicaudal
monocaudal
0,900
0,800
0,700
0,600
0,500
0,400
0,300
0,200
0,100
0,000
0
50
100
150
200
250
T a m a nho da a m o s t ra
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
98
Teste de hipóteses segundo a abordagem de Fisher (Ronald Aylmer Fisher)
Inicia-se a abordagem de Fisher com a especificação de uma proposição inicial (equivalente à H0 de
Neynman e Pearson). Considerando o estudo que tem por objetivo comparar a eficácia de uma nova
droga (DN) com a eficácia de uma droga padrão, que vem sendo utilizada (DA), cuja eficácia é de
50%, tem-se:
Proposição inicial: DN=0,5
Para tomada de decisão deve-se realizar o experimento e calcular a probabilidade de ocorrência do
valor observado ou de um valor mais extremo da estatística do teste, em uma curva de probabilidade
especificada na proposição inicial.
Se na amostra de 10 pacientes, 9 evoluíssem para a cura (90%), Fisher recomendava que se calculasse a probabilidade de 9 ou mais pacientes se curarem (P(X≥9)), tendo como base, a distribuição de
probabilidade conhecida, especificada na proposição inicial, onde a probabilidade de cura é igual a
50%.
Pelo exemplo, esta probabilidade seria igual a P(X≥9) = P(X=9) + P(X=10) = 0,011 = 1,1%
Se na amostra de 10 pacientes, fossem observadas 6 curas (60%), P(X≥6) = P(X=6) + P(X=7) +
P(X=8) + P(X=9) + P(X=10) = 0,205 + 0,117 + 0,044 + 0,010 + 0,001 = 0,377 = 37,7%
A probabilidade calculada é conhecida como valor de p (p-value) e a decisão estatística será tomada
com base no valor desta probabilidade.
Se o valor de p for considerado pequeno, conclui-se que os dados não mostram evidência de pertencer a uma população com proporção de cura igual a 50% e, portanto, a droga cura mais do que 50%.
Se o valor de p for considerado grande, então se pode dizer que os dados provavelmente vêm de uma
população que possui como parâmetro 50% de curas.
Definição:
Valor de p é a probabilidade de ocorrência do valor observado ou de um valor mais extremo de uma
estatística, em uma curva de probabilidade especificada (conhecida, verdadeira).
Fisher dizia que antes de dar uma forma matemática a um problema, propondo hipóteses a serem
testadas, era necessário um amplo conhecimento dos dados, o que poderia ser realizado com base no
valor de p.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
99
Passos necessários para a realização de um teste de hipóteses segundo a abordagem de
Fisher.
•
Formular a proposição inicial (“hipótese”) que será testada;
•
Identificar a distribuição de probabilidade;
•
Realizar o estudo e observar o resultado da estatística de interesse;
•
Calcular o valor de p, ou seja, a probabilidade de ocorrer o valor observado ou um valor mais
extremo, sob a curva especificada na proposição inicial;
•
Tomar a decisão com base no valor de p;
•
Apresentar as conclusões.
Teste de hipóteses para uma proporção populacional (Distribuição Binomial)
Considerar a seguinte situação:
Segundo dados de rotina dos serviços de saúde tem-se que, em determinada comunidade, a proporção de mães que amamentam até o 3° mês de idade da criança é de 60%. Desejando-se aumentar
esta proporção, realizou-se o estudo que consistiu em desenvolver um programa educativo. Desejase, portanto, avaliar a eficácia do programa.
Após o programa observou-se que, em uma amostra de 10 mães que foram submetidas ao programa
e acompanhadas durante quatro meses, 9 mães amamentaram pelo menos até o 30 mês.
Utilizando-se teste de hipóteses para decidir sobre a eficácia da intervenção:
Pela abordagem de Neyman e Pearson
1) Elaboração das hipóteses :
H 0 : E P = 0,6
H a : E p > 0,6
2) Fixação de α = Prob(rejeitar H0 e H0 é V); fixando-se α=0,05
3) Estabelecimento da região de rejeição/aceitação de H0:
Estatística do teste: número de mães que amamentaram até o 3° mês.
X: 0,1,2,...,10
Eventos independentes e mutuamente exclusivos; portanto, a distribuição de probabilidade de X segue um modelo B(n=10; p=0,6).
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
100
Região de rejeição e aceitação de H0, se H0 for verdade
X P(X = x) ; so b H 0 , p = 0, 6
0
0, 0 0 0 1 0
1
0, 0 0 1 5 7
2
0, 0 1 0 6 2
3
0, 0 4 2 4 7
4
0, 1 1 1 4 8
5
0, 2 0 0 6 6
6
0, 2 5 0 8 2
7
0, 2 1 4 9 9
8
0, 1 2 0 9 3
9
0, 0 4 0 3 1
10
0, 0 0 6 0 5
R e giã o
1− α
Ace ita çã o de H 0
R e je iç ã o de H 0 ;
α = 0,04636 ≅ 0,05
4) Decisão: Como 9 mães amamentaram pelo menos três meses, e 9 cai na área de rejeição de H0, decide-se por rejeitar H0.
5) Conclusão: Foi encontrada diferença estatisticamente significante entre as proporções
populacionais de mães que amamentam antes e após o programa, para nível de significância de 5%.
O programa educativo, portanto, foi eficaz, pois as mães submetidas ao programa provêm de uma
população de mães onde mais do que 60% amamentam pelo menos até o 3º mês.
Ab o rd a g e m de Fi s h e r
Proposição: mães que são submetidas ao programa provêm de uma população onde 60% delas amamentam pelo menos até o 3º mês.
Calculando-se a probabilidade de observar 9 ou mais mães amamentando pelo menos até o 3º mês,
utilizando uma curva onde 60% de mães amamentam até o 3º mês: considerando-se a distribuição de
probabilidade: B(n=10; p=0,6), tem-se p= P ( X ≥ 9) = P ( X = 9) + P ( X = 10) = 0,040 + 0,006 = 0,046 ou
4,6%.
Interpretação do valor de p: 4,6% é a probabilidade de observar 9 ou mais mães amamentando
pelo menos até o 3º mês, se estas tivessem vindo de uma população de mães na qual 60% amamenta pelo menos até o 3º mês de idade da criança.
Para decidir com base no valor de p é necessário perguntar-se se os resultados observados são compatíveis com a proposição de que as mães vêm de população na qual 60% das mães amamentam
pelo menos até o até o 3º mês. Em outras palavras, com base nos resultados, você diria que existe
evidência favorável ou contrária à proposição inicial?
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
101
Se p for considerado, pelo investigador, pequeno então se conclui que os dados observados mostram
evidência contrária à proposição inicial sendo que a proporção de mães que amamentaram, depois da
campanha é mais compatível com uma população de mães na qual mais de 60% amamentam pelo
menos até o 3º mês. Neste caso, o programa foi eficaz.
Se p for considerado, pelo investigador, grande, então se conclui que os dados não mostram evidência contrária à proposição e, portanto, as mães, após a intervenção, devem ser de uma população na
qual 60% amamentam pelo menos até o 3º mês. Neste caso, a intervenção não surtiu efeito.
•
Considerações finais
O valor de p é a força de evidência contrária à proposição inicial. Para existir forte evidência contrária
à proposição inicial, o valor de p deve ser bem pequeno;
•
O julgamento sobre o valor de p, se é grande ou pequeno, é arbitrário e quem decide é o investigador.
Exemplo
Considerar a situação, comum na área de análise sensorial, denominada “comparação de par, direcionada”: A situação envolve um fabricante que quer lançar um bolo mais doce do que o produto que
está no mercado (código 15). Para tanto é desenvolvido um novo produto (código 23).
O experimento consiste em oferecer uma fatia de cada produto a 20 degustadores, de modo independente, e registrar (contar) quantos acham o produto novo mais doce.
No teste “comparação de par, direcionada”, o número K de degustadores que achou o
bolo com código 23 mais doce foi k= 8. Pode-se admitir que os bolos diferem quanto à doçura?
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
102
Abordagem de Neyman e Pearson
O investigador fixa o nível de significância em 5% (α=0,05). Se os bolos não forem diferentes quanto
ao sabor, metade dos degustadores vai escolher um produto e a outra metade vai escolher o outro.
Assim, a probabilidade de escolher o código 15 = 0,5.
 H 0 : π = 0,5
 H A : π > 0,5
Hipóteses: 
(onde π representa a proporção populacional que escolhe o produto 23)
Estatística do teste: número de pessoas que escolhem o novo produto
Distribuição de probabilidade:
X: número de degustadores que escolhem o produto novo. X:0, 1, 2,...,18, 19, 20
Cada degustador escolhe o produto independente do outro degustador e se for feita a escolha por
um produto (eventos independentes), o outro produto fica eliminado (mutuamente exclusivos).
X ~B( n = 2 0 ; p = 0 , 5)
X
0
.
.
.
13
14
15
16
17
18
19
20
P(X = x)
R e giã o d o te s te
Ace ita çã o de H 0
0, 0 3 6 9 6
0, 0 1 4 7 9
0, 0 0 4 6 2
0, 0 0 1 0 9
0, 0 0 0 1 8
0, 0 0 0 0 2
0, 0 0 0 0 0
R e je iç ã o de H 0
α = 0,058
Decisão: como k=8, decide-se não rejeitar H0.
Conclusão: Não foi encontrada diferença estatisticamente significante entre a proporção de escolha
dos produtos, podendo-se dizer que os produtos não diferem quanto ao sabor adocicado, para um
nível de significância de 5%.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
103
Abordagem de Fisher
Proposição: Proporção de degustadores que escolhem código 23 = 0,5
n=20
K: número de degustadores que escolhem código 23; K: 0, 1, 2, ..., 20
K~B(n=20; p=0,5)
Observou-se que 8 degustadores escolheram o produto de código 23 (k=8).
Valor de p=probabilidade de ocorrer 8 ou mais, se os dados vierem de uma população que escolhe os
produtos em proporções iguais.
Valor de p= P(K≥8) = P(k=8)+P(k=9)+...+P(k=20)= 0,868 ou 86,8%.
Conclui-se que os dados não mostram evidência contrária à proposição inicial (p=0,868). Os dados
são compatíveis com uma população que escolhe igualmente os produtos com códigos 15 e 23. O
novo produto não foi considerado mais doce que o antigo.
OBS: Como np=10 e nq=10, para o cálculo de p poderia ter sido utilizada a distribuição normal.
K ~ N (µ = np = 20x0,5 = 10; σ = npq = 20 x0,5x0,5 = 2,24
P( K ≥ 8) = P( Z ≥
7,5 − 10
) = P( Z ≥ −1,12) =
2,24
0,5+0,36864=0,86764 ou 86,8%
Exemplo 37
Supor o experimento onde existe interesse em investigar se o odor de determinado alimento atrai
camundongos. O experimento consiste em colocar um animal em um corredor que no final é dividido
para a direita e para a esquerda. Um alimento é colocado no final do corredor da esquerda, fora da
visão do animal. Entretanto, antes da realização do experimento, decide-se eliminar a possibilidade de
incluir no estudo camundongos que têm predileção por um lado, independentemente do odor do alimento. Neste caso, decide-se investigar inicialmente se os camundongos escolhem os lados em proporções iguais. Para tanto, realiza-se o experimento com 12 camundongos sem a colocação do alimento e verifica-se que 7 viram para a esquerda.
Realize um teste de hipóteses seguindo as propostas de Neyman e Pearson, com nível de significância
de 5%, e a de Fisher, para verificar se os camundongos vêm de uma população que escolhe mais um
lado do que o outro.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
104
Exemplo 38
Supor agora, o experimento para investigar se o odor de determinado alimento atrai camundongos.
Realiza-se o experimento colocando-se o alimento no final do corredor do lado esquerdo, fora da visão dos camundongos. Observa-se que de 12 camundongos, 10 viram para a esquerda.
Realize um teste de hipóteses seguindo as propostas de Neyman e Pearson e de Fisher, com cálculo
do valor descritivo do teste, para verificar se os camundongos vêm de uma população que escolhe
mais o lado onde está o alimento. Utilize nível de significância de 5%.
EXERCÍCIOS SUPLEMENTARES
Exercício S36
Um estudo foi desenvolvido para investigar se aleitamento materno é um fator que protege a criança
contra diabetes, em idades maiores. Considerando H0: aleitamento materno não protege contra
diabetes e Ha: aleitamento materno protege contra diabetes, responda:
a) Tomando qual decisão (aceitar ou rejeitar) sobre H0 você poderia estar cometendo o erro tipo I?
b) Tomando qual decisão (aceitar ou rejeitar) sobre H0 você poderia estar cometendo o erro tipo II?
c) Como é denominada a probabilidade de ocorrer o erro tipo I?
d) Como é denominada a probabilidade de ocorrer o erro tipo II?
e) O que é o poder do teste?
f)
Se você fosse fixar valores de probabilidades associadas à ocorrência dos erros tipo I e II para
este estudo, qual deles seria menor? Justifique.
Exercício S37
Será realizado um estudo para investigar a relação entre consumo de produtos derivados de soja e
presença de osteoporose em mulheres com mais de 50 anos. Para a tomada de decisão, será utilizado
teste de hipóteses, no modelo clássico, proposto por Neyman e Pearson. Apresente os passos
necessários para a realização do teste de hipóteses, listados a seguir, em uma sequência correta:
tomada de decisão, cálculo do tamanho da amostra, elaboração das hipóteses, determinação da
região de rejeição do teste, coleta dos dados e cálculo da estatística do teste, fixação do nível de
significância, conclusão, verificação se o valor observado da estatística cai na região de aceitação ou
rejeição, identificação da distribuição de probabilidade da estatística do teste.
Exercício S38
Considere a seguinte situação hipotética: A incidência de resfriados durante o inverno, em uma creche
é 60%. Durante o ano de 2001, a direção da creche resolveu servir suco de acerola durante todo o
inverno com o objetivo de prevenir resfriados. Após o inverno observou-se que de 20 crianças que
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
105
foram acompanhadas, 13 ficaram resfriadas e deseja-se saber se o suco de acerola teve efeito sobre
a ocorrência de resfriados. Segundo a abordagem de Fisher, responda:
a) Qual seria a proposição ou hipótese nula?
b) Se for definida a variável X: ficar resfriado, e considerando-se que foram acompanhadas 20 crianças, qual a distribuição de probabilidade de X? Especifique os parâmetros da distribuição.
c) Fisher recomendava calcular o valor de p e decidir com base nele. O que é o valor de p?
d) Calcule o valor de p e decida se os dados mostram evidência favorável ou desfavorável ao que for
especificado na proposição ou hipótese H0.
e) Calcule o valor de p se 7 crianças tivessem ficado resfriadas e decida sobre a propriedade preventiva do suco.
Exercício S39
Considere a situação onde 40% de mulheres idosas apresentam condição esquelética do tipo A. Suspeita-se que mulheres magras apresentam menor predisposição a esta condição. Realizou-se um estudo e observou-se que entre 28 mulheres idosas magras, 6 apresentaram a condição.
a) Realize um teste de hipóteses para investigar se os resultados do estudo são compatíveis com
uma população onde 40% apresentam a condição. Utilize a abordagem clássica de Neyman e Pearson, com nível de significância de 10%.
b) Realize um teste de hipóteses para investigar se os resultados do estudo são compatíveis com
uma população onde 40% apresentam a condição, utilizando a abordagem de Fisher.
Exercício S40
A prevalência de infecção por hepatite B na população geral é de 30%. A literatura sugere que a infecção por hepatite B é maior entre pessoas com infectadas pelo vírus HIV. Em uma amostra de 20
pessoas que apresentaram teste HIV +, 8 apresentaram positividade para hepatite B. Teste a hipótese de que as pessoas HIV + possuem mesma prevalência de Hepatite B que a população geral. Utilize
a estratégia clássica de Neyman e Pearson, com nível de significância de 5% e a abordagem de Fisher, com tomada de decisão a partir do valor descritivo do teste (valor de p).
Exercício S41
Suponha que uma pesquisa de grande abrangência encontrou que 60% de crianças entre 7 e 10 anos
consomem determinada marca de cereal. Com o objetivo de verificar possível queda no consumo, a
indústria sorteou 15 crianças nesta faixa etária e observou 6 crianças consomem o produto. Teste a
hipótese de que o consumo do produto não foi alterado. Utilize a estratégia clássica de Neyman e
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
106
Pearson, com nível de significância de 5% e a abordagem de Fisher, com tomada de decisão a partir
do valor descritivo do teste (valor de p).
Teste de hipóteses para uma média populacional com variância conhecida
e desconhecida
Teste de hipóteses para uma média populacional com variância conhecida
Tomando-se como exemplo os dados de recém-nascidos com Síndrome de Desconforto Idiopático
Grave (SDIG) é possível elaborar a hipótese de que crianças que nascem com esta síndrome possuem
peso médio ao nascer menor do que o peso médio ao nascer de crianças sadias.
A variável de estudo X é peso ao nascer (quantitativa contínua).
Com base em conhecimento prévio (da literatura) sabe-se que a distribuição do peso ao
nascer em crianças sadias segue uma distribuição normal com média 3000 gramas e desvio padrão
500 gramas, ou seja X ~ N (µ X = 3000; σ X = 500) .
Recordando-se, para a realização do teste de hipóteses segundo Neyman e Pearson é
necessário:
•
•
•
•
•
•
•
•
•
Formular as hipóteses estatísticas;
Fixar a probabilidade do erro tipo I;
Calcular o tamanho da amostra necessária para detectar uma diferença que se suspeita existente o que é equivalente a fixar a probabilidade do erro tipo II;
Apresentar a distribuição de probabilidade da estatística do teste;
Estabelecer a(s) região(ões) de rejeição e aceitação (regiões críticas) do teste;
Realizar o estudo, ou seja, coletar os dados e calcular a estatística do teste;
Confrontar a estatística do teste observada com a região crítica;
Tomar a decisão;
Elaborar a conclusão.
Formulação das hipóteses
H 0 : µ SDIG = 3000
H 0 : µ SDIG = µ Sadia
H a : µ SDIG < µ Sadia
ou
H a : µ SDIG < 3000
Fixando-se o nível de significância α = 0,05
Supor um tamanho de amostra n=50 recém-nascidos com SDIG
Distribuição de probabilidade
Como as hipóteses envolvem a média populacional, é necessário utilizar a distribuição de probabilidade da média.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
107
Pelo Teorema Central do Limite tem-se que X ~ N (µ = µ X ; σ = σ X ) portanto, se H0 for verdade, e
X
X
n
admitindo-se que as crianças com SDIG possuem distribuição do peso ao nascer com mesma dispersão que as crianças sadias, tem-se X ~ N (µ = 3000; σ = 500
X
X
50 )
Pode-se utilizar
ZX
ou
x obs
para a tomada de decisão.
Região de rejeição e aceitação da hipótese H0.
µ X = 3000
X
σ X = 70,71
H0
Rejeição de H0
Aceitação de H0
α=0,05
-4
-3
-2
-1
0
Zcrítico=-1,64
1
2
3
4
z
Cálculo do peso médio na amostra de crianças com SDIG
Supor que na amostra de 50 crianças, foi observado peso médio ao nascer igual a 2800 gramas
( x obs = 2800) .
Cálculo
Z Xobs
do
peso
médio
observado
xobs − µ X 2800 − 3000
=
=
= −2,83
σX
70,71
em
número
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
de
desvios
padrão:
108
Confrontar o valor da estatística do teste com a região de rejeição e aceitação de H0
Como Zobs está à esquerda de Zcrítico (região de rejeição), decide-se por rejeitar H0.
Decisão:
Rejeita-se H0.
Conclusão
Foi encontrada diferença estatisticamente significante entre os pesos ao nascer de crianças sadias e
com SDIG para nível de significância α = 0,05. Crianças com SDIG nascem com peso menor do que
crianças sadias.
É possível realizar o teste comparando a média observada na amostra ( x obs = 2800) e o valor de peso
médio ao nascer que deixa, no caso deste exemplo, uma área α=0,05 à sua esquerda. O valor de
peso médio que limita esta área é denominado
Cálculo de
De
x critico .
x critico
Z critico =
xcritico − µ x
tem-se
σX
x critico = Z criticoσ X + µ X
xcritico = −1,64 x70,71 + 3000 = 2884,04 g
Rejeita-se H0
Aceita-se H0
xcritico = 2884,04 g
µ X = 3000
σ X = 70,71
Como xobs = 2800 é menor que
X
x critico (fica à esquerda), opta-se por rejeitar H0.
Regra geral:
Rejeita-se H0 se
Zobs>Zcrítico
para
H a : µ SDIG > µ Sadias
Zobs<-Zcrítico
para
H a : µ SDIG < µ Sadias
Zobs>Zcrítico ou Zobs<-Zcrítico
para
H a : µ SDIG ≠ µ Sadias
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
109
ou
Rejeita-se H0 se
x obs > x critico
xobs < xcritico
x obs > x critico
ou
xobs < xcritico
para
H a : µ SDIG > µ Sadias
para
H a : µ SDIG < µ Sadias
para
H a : µ SDIG ≠ µ Sadias
Exemplo 39
O nível médio de protrombina em populações normais é 20 mg/100ml de sangue. Uma amostra de 40
pacientes que tinham deficiência de vitamina K tiveram nível médio observado de protrombina de
18,5mg/100ml e desvio padrão 4mg/100ml. Seria razoável concluir que a verdadeira média de pacientes com deficiência de vitamina K é a mesma que a da população normal? Realize um teste de hipóteses.
Teste de hipóteses para uma média populacional com variância desconhecida
Supor a situação anterior, só que a variância (desvio padrão) populacional do peso ao nascer de crianças sadias é desconhecida sendo conhecido somente o peso médio populacional de crianças sadias
(
µ Sadias =3000 gramas).
Formulação das hipóteses:
H 0 : µ SDIG = 3000
H a : µ SDIG < 3000
Fixando-se o nível de significância:
α = 0,05
Cálculo do tamanho da amostra: supor um tamanho de amostra n=50 recém-nascidos com SDIG
Distribuição de probabilidade:
Como as hipóteses envolvem a média populacional, é necessário utilizar a distribuição de probabilidade da média.
Pelo Teorema Central do Limite tem-se que X ~ N (µ X = µ X ; σ X =
σX
n
).
Admitindo-se que H0 é verdade, resta um problema que é o fato de não se conhecer o valor da dispersão do peso ao nascer das crianças sadias. Neste caso não é possível utilizar a estatística Z.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
110
Utiliza-se, então, a estatística T onde T = X − µ X = X − µ X sendo SX o desvio padrão da população
SX
SX
n
de estudo, estimado com os dados da amostra de crianças com SDIG.
T segue uma distribuição t de Student, com (n-1) graus de liberdade. Quando o tamanho da amostra
é grande, a estatística T tende para uma distribuição normal com média 0 e desvio padrão 1
(n
→ ∞ ⇒ T ~ N (0 ;1) ).
H0
Região de rejeição
e aceitação
da hipótese H0.
Rejeição de H0
Aceitação de H0
α=0,05
µ X = 3000
X
tcrítico= -1,676
0
t
Obs: utilização da tabela t de Student
A tabela da distribuição de Student apresenta um valor de probabilidade dividido em duas partes
iguais. Para n=50, o número de graus de liberdade (gl) é 49; como não existe este valor na tabela,
deve-se trabalhar com o número de gl mais próximo e dependendo se o teste é mono ou bicaudal,
utiliza-se respectivamente o valor de p/2 ou p, apresentados na primeira linha da tabela.
Exemplo de utilização da tabela t de Student:
n=10; teste bicaudal, α=0,05; tcrítico=-2,262 e tcrítico= 2,262 (p da tabela =0,05)
n=10; teste monocaudal a esquerda, α=0,05; tcrítico=-1,833 (p da tabela = 0,10)
n=10; teste monocaudal a direita, α=0,05; tcrítico= 1,833 (p da tabela = 0,10)
Cálculo do peso médio na amostra de crianças com SDIG
Supor que na amostra de 50 crianças, foi observado peso médio ao nascer igual a 2800 gramas e
desvio padrão igual a 610g
( xobs = 2800; s X = 610)
.
Cálculo do peso médio observado em número de desvios:
tobs =
xobs − µ X 2800 − 3000
=
= −2,318
610
SX
50
Confronto do valor da estatística do teste com a região de rejeição e aceitação de H0
Como tobs está à esquerda de tcrítico (região de rejeição), decide-se por rejeitar H0.
Decisão
Rejeita-se H0.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
111
Conclusão
Foi encontrada diferença estatisticamente significante entre os pesos ao nascer de crianças sadias e
com SDIG para nível de significância α = 0,05. Crianças com SDIG nascem com peso menor do que
crianças sadias.
Exemplo 40
Uma companhia de produtos alimentícios utiliza uma máquina para embalar salgadinhos cujas embalagens especificam 454 gramas. Com o propósito de verificar se a máquina está trabalhando corretamente, selecionou-se 50 pacotes de salgadinhos, obtendo-se os seguintes valores de peso:
464
442
448
463
468
450
438
450
449
447
média da
450
456
452
433
446
446
450
452
447
460
450
453
456
446
439
452
459
454
456
454
452
447
466
446
447
450
449
457
433
464
469
457
454
451
453
amostra, x =451,22 gramas e desvio padrão amostral (s)
447
433
449
464
443
=8,40 gramas
Testar a hipótese de que a máquina está trabalhando corretamente, para α = 0,05.
Teste de hipóteses de uma média populacional (µ ) (com variância conhecida e desconhecida) – Abordagem de Fisher
Revisão de conceitos básicos
Distribuição Normal
Medindo-se a altura de muitas mulheres (população), obtém-se o gráfico a seguir.
proporção
.35
.3
.25
.2
.15
.1
.05
0
140
145
150
155
160
Altura(cm)
165
170
175
180
Aos dados pode ser ajustada uma curva teórica
proporção
.35
.3
.25
.2
.15
.1
.05
0
140
145
150
155
160
Altura (cm)
165
170
175
180
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
112
A curva ajustada aos dados é uma curva teórica (curva de Gauss) que representa a altura de mulheres idosas. Notação: X: altura,
X ~ N ( µ = 160, σ = 10) .
A curva tem propriedades conhecidas:
• Soma da área sob a curva é igual a 1 ou 100%;
• Pode-se calcular probabilidade trabalhando-se com a área sob a curva.
Sorteia-se uma mulher ao acaso; P(desta mulher ter mais de 160) = 50%;
P(esta mulher tenha mais de 180)= P( X > 180) = P( Z > 180 − 160 ) = P ( Z > 2) =0,5-0,47725=0,02275
10
ou 2,3%
Sortear uma mulher com altura 180 ou mais desta população é uma coisa comum?
P(esta mulher tenha mais de 170)= P( X > 170) = P( Z > 170 − 160 ) = P (Z > 1) = 0,5-0,34134=0,15866 ou
10
15,9%
Sortear uma mulher com altura 170 ou mais desta população é uma coisa comum?
O limite para decidir o que é comum é arbitrário. O investigador é que decide, com base no problema
que está sendo estudado.
S up or a go ra um a o ut ra d ist rib u içã o de a lt ura , por e xe m p lo , e n tre ho m e n s.
proporção
.35
.3
.25
.2
.15
.1
.05
0
160
X: altura,
165
170
175
180
Altura (cm)
185
190
195
200
X ~ N (m = 180, σ = 10)
P(homem tenha mais de 180)= P(X>180)=0,5 ou 50%
Supor que as pessoas da primeira curva tenham uma marca vermelha e as pessoas da segunda curva
tenham uma marca azul. Misturam-se todas as pessoas e sorteia-se uma pessoa ao acaso e ela tem
altura 180. De qual população seria este indivíduo?
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
113
Agora não estamos mais interessados em um indivíduo e sim em vários indivíduos portanto, vamos
trabalhar com a altura média.
Supor X: altura,
X ~ N (m = 160, σ = 20) .
Toma-se uma amostra de tamanho n=30 desta população e calcula-se a altura média ( x = 170 ).
Deseja-se saber a probabilidade desta amostra vir de população com altura média maior ou igual a
170.
µ=160 170
X
Pelo Teorema Central do Limite
P( X ≥ 170) = P(
X −m
σX
≥
170 − 160
170 − 160
) = P( Z X ≥
) = P( Z ≥ 2,74)
20
3,6515
30
Na curva da Normal reduzida tem-se
µ=0
2,74
ZX
P(Z ≥ 2,74) = 0,5- 0,49693 = 0,0031 ou 0,31%
Sortear uma amostra que apresenta altura média igual a 170 cm ou mais da população que tem altura
média 160 cm é uma coisa comum?
Para decidir se a amostra representa uma população com altura média maior e que o resultado não é
devido ao acaso, realiza-se o teste de hipóteses.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
114
Teste de hipóteses para uma média populacional com variância conhecida - Abordagem
de Fisher
Situação:
Estudos mostram que crianças sadias possuem peso médio (m) ao nascer igual a 3100 gramas e desvio padrão σ = 610 gramas .
Suspeita-se que crianças que nascem com síndrome de desconforto idiopático grave possuem peso ao
nascer abaixo do peso ao nascer da população de crianças sadias.
Proposição (equivalente à H0): Crianças com síndrome vêm de uma população com peso médio =3100
gramas.
Realiza-se um estudo em uma amostra de n=50 crianças que nasceram com esta síndrome, onde
observou-se peso médio ( x ) igual a 2800 gramas.
Supondo-se que as crianças da amostra (com síndrome) vêm de uma população com mesma dispersão do peso ao nascer de crianças sadias, teste a hipótese de que crianças com síndrome idiopática
grave possuem peso médio ao nascer igual ao peso médio ao nascer de crianças sadias.
Distribuição de probabilidade:
Distribuição do peso médio: segue uma distribuição normal com média m=3100 gramas e desvio padrão
σ
n
=
610
= 86,27 gramas
50
2800
µ=3100
X
Cálculo da probabilidade de observar um peso médio ao nascer igual ou menor que 2800 se H0 for
verdade.
P( X ≤ 2800) = P(
X −m
σX
≤
2800 − 3100
− 300
) = P( Z X ≤
) = P( Z X ≤ −3,48)
610
86,27
50
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
115
-3,48
µ=0
ZX
Pela distribuição Normal reduzida tem-se que P ( Z ≤ 3,48) = 0,5 − 0,49975 = 0,00025 ou 0,025%
Os resultados não são compatíveis com uma distribuição que tem peso médio igual a 3100. Possivelmente a amostra vem de uma população com média menor que 3100. Pode-se dizer que crianças
com síndrome de desconforto idiopático grave possivelmente possuem peso ao nascer menor do que
o peso médio de crianças sadias.
Exemplo 41
O nível médio de protrombina em populações normais é 20 mg/100ml de sangue. Uma amostra de 40
pacientes que tinham deficiência de vitamina K tiveram nível médio observado de protrombina de
18,5mg/100ml e desvio padrão 4mg/100ml. Seria razoável concluir que a verdadeira média de pacientes com deficiência de vitamina K é a mesma que a da população normal? Realize um teste de hipóteses pela abordagem de Fisher.
Teste de hipóteses para uma média populacional com variância desconhecida - Abordagem de Fisher
Supor a mesma situação anterior, só que neste caso somente a média populacional é conhecida. O
peso médio de crianças sadias (µ) é igual a 3100 gramas.
H0: Crianças com síndrome de desconforto idiopático grave vêm de uma população com peso médio =
3100 gramas
Seleciona-se uma amostra de 50 crianças com a síndrome e calcula-se o peso médio e o desvio padrão do peso, obtendo-se n=50;
x = 2800
e s=510
Distribuição de probabilidade:
Distribuição do peso médio ao nascer de crianças sadias: como não se sabe o desvio padrão populacional, este é estimado utilizando-se os dados da amostra.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
116
Neste caso a variável a variável segue uma distribuição t de Student com n-1=50-1=49 graus de liberdade.
P( X ≤ 2800) = P(
X − m 2800 − 3100
− 300
≤
) = P (t X ≤
) = P (t X ≤ −4,159)
510
SX
72,12
50
-4,16
µ=0
Pela distribuição t de Student com 49 graus de liberdade, tem-se
t
P(t X ≤ −4,159) < 0,05%
Os resultados não são compatíveis com uma distribuição que tem peso médio igual a 3100. Pode-se
dizer que crianças com desconforto idiopático grave provavelmente vêm de uma população com peso
médio ao nascer menor do que o peso médio ao nascer de crianças sadias.
Exemplo 42
Uma companhia de produtos alimentícios utiliza uma máquina para embalar salgadinhos cujas embalagens especificam 454 gramas. Com o propósito de verificar se a máquina está trabalhando corretamente, selecionou-se 50 pacotes de salgadinhos, obtendo-se os seguintes valores de peso:
464
442
448
463
468
450
438
450
449
447
média da
450
456
452
433
446
446
452
447
460
450
453
456
439
452
459
454
456
454
447
466
446
447
450
449
433
464
469
457
454
451
amostra, x =451,22 gramas e s=8,40 gramas
450
446
452
457
453
447
433
449
464
443
Testar a hipótese, pela abordagem de Fisher, de que a máquina está trabalhando corretamente.
EXERCÍCIOS SUPLEMENTARES
Exercício S42
Deseja-se saber se o consumo calórico médio de determinada população adulta de zona rural é menor
que 2000 kcal. Uma amostra de 500 pessoas apresentou consumo médio igual a 1985 kcal e desvio
padrão igual a 210. Faça um teste de hipóteses pela abordagem de Neyman e Pearson e de Fisher
para tomar a decisão; considere o nível de significância igual a 5%.
Exercício S43
O conteúdo de iodo em pacotes de sal é recomendado que seja igual a 590
µg . Determinada indús-
tria, tendo recebido reclamações de que estava vendendo seu produto com teor de iodo abaixo do
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
117
recomendado, realizou um estudo com dosagem de iodo em 15 amostras de sal. Os resultados das
quantidades de iodo são apresentados a seguir. Realize um teste de hipóteses pela abordagem de
Neyman e Pearson e de Fisher para verificar se a reclamação procedia. Utilize nível de significância de
5%.
555
570
610
590
610
600
500
530
580
550
530
533
620
600
575
Exercício S44
Vacas da raça Jersey (J) produzem porcentagem média de gordura para manteiga igual a 5,25%.
Suspeita-se que vacas Holstein-Fresian (HF), se não forem criadas de um modo especial, produzem
quantidades menores deste tipo de gordura. É fornecida a porcentagem média de gordura de manteiga de uma amostra de 10 vacas da raça Holstein-Fresian. Os dados sugerem que as que as vacas
Holstein-Fresian produzem a mesma quantidade de gordura do que as vacas Jersey? Conduza um
teste de hipóteses pela abordagem de Neyman e Pearson e de Fisher. Utilize nível de significância de
5%.
Percentuais de gordura de uma amostra de 10 vacas Holstein-Fresian:
3,4
3,55 3,83 3,95 4,43 3,7
3,3
3,93 3,58 3,54
Exercício S45
Em uma pesquisa realizada entre os cadetes da Força Aérea sobre a relação entre saúde em geral e
patologias orais, o escore médio de CPO (número de superfícies de dentes cariados, obturados ou
extraídos em um indivíduo) foi 27,2. Em 121 cadetes que procuraram os serviços médicos 5 ou mais
vezes durante um ano, o CPO médio foi 31,1 com desvio padrão 15,5. Se for assumido que estes 121
cadetes representam a população de cadetes com pior saúde, existe evidência que pior nível de saúde
está associado a escore de CPO mais elevado? Tome a decisão utilizando as duas estratégias: a clássica de Neyman e Pearson, com nível de significância de 5% e a abordagem de Fisher, com tomada
de decisão a partir do valor descritivo do teste (valor de p).
Exercício S46
O nível médio de ganho de peso entre 42 homens submetidos a exercícios físicos durante 3 meses foi
igual a 0,5 kg com desvio padrão de 2,2 kg. Entre homens que não fazem exercícios físicos mas que
possuem uma dieta balanceada, o ganho médio de peso é de 1,3 kg. Seria razoável concluir que a
verdadeira média de ganho de peso entre homens que praticam exercícios é a mesma que a de homens que não praticam exercícios mas que possuem dieta balanceada? Tome a decisão utilizando as
duas estratégias: a clássica de Neyman e Pearson, com nível de significância de 5% e a abordagem
de Fisher, com tomada de decisão a partir do valor descritivo do teste (valor de p).
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
118
Teste de hipóteses de associação pelo qui-quadrado de Pearson (χ2)
O qui-quadrado é obtido somando-se razões dadas pelos quadrados das diferenças entre frequências
observadas e as esperadas, divididos pelas frequências esperadas.
(O − E ) 2
χ =∑
E
2
Quando as variáveis são independentes, é equivalente a dizer que não existe associação, e neste
caso, o valor do qui-quadrado será zero. O qui-quadrado não mede força de associação e não é suficiente para estabelecer relação de causa e efeito.
Distribuição qui-quadrado (
χ (2n −1)
) com (n-1) graus de liberdade
Seja uma população com distribuição normal N ( µ , σ ) . Se desta população se obtiver um número
x
infinito de amostras de tamanho n, calculando-se as quantidades
e S2 em cada amostra, a variável
2
2
aleatória (n − 1) S ~ χ (2n −1) , onde
(
n −1) se lê "qui-quadrado com n-1 graus de liberdade" Berquó
2
χ
σ
(1981).
A distribuição qui-quadrado é assimétrica e se torna menos assimétrica a medida que os graus de
liberdade aumentam. Os valores da distribuição são sempre positivos (maior ou igual a zero). Existe
uma família de distribuições qui-quadrado, dependendo do número de graus de liberdade. Para grandes amostras, a distribuição qui-quadrado tende para uma distribuição normal.
Teste de hipóteses de associação pelo Qui-quadrado de Pearson (χ2)
Abordagem de Neyman e Pearson
Estabelecimento das hipóteses:
H0: Não existe associação
Ha: Existe associação
Fixando-se a probabilidade de erro tipo I:
Nível de significância (α) = 0,05
Área de rejeição do teste:
densidade
.6
.5
.4
.3
Área de rejeição de H0
α=0,05
.2
.1
0
0
5
10
Qui-quadrado crítico = 3,841
X2
15
20
Para a tomada de decisão, utiliza-se a regra: rejeita-se H0 se o valor calculado do qui-quadrado for
maior do que o valor crítico para um nível de significância pré definido.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
119
Estatística do teste:
Qui − quadrado =
∑
(O − E ) 2
~ χ (2r −1)( c−1)
E
onde r e c representam o número de linhas e de colunas, respectivamente.
Exemplo: na tabela abaixo, número de linhas =2 (masculino, feminino) e número de colunas = 2 (aceitável, não aceitável). Assim, o número de graus de liberdade (gl) seria (2-1)x(2-1) = 1
Distribuição de crianças segundo sexo e nível de retinol sérico. Cansação, Bahia, 1992
Sexo
Nível de retinol
Aceitável
Inadequado
Masculino
50
40
Feminino
39
32
Total
89
72
Prado MS et al. ,Revista de Saúde Pública, 29(4)295 – 300, 1995.
Total
90
71
161
Na tabela abaixo, gl = 2
Distribuição de recém-nascidos segundo condição caso - com defeitos do tubo neural; controle – recém-nascidos que não tinham defeitos do tubo neural e dieta materna.
Dieta
Casos
Controles
Total
n
%
n
%
n
%
Boa
34
13,9
43
35,0
77
21,0
Razoável
110
45,1
48
39,0
158
43,0
Pobre
100
41,0
32
26,0
132
36,0
Total
244
100
123
100
367
100
Fonte: Hand DJ et al. A handbook of small data sets. Chapman&Hall, 1994.
Correção de continuidade:
Qui − quadradocorrecao de Yates =
∑
(| O − E | −0,5) 2
~ χ (2r −1)( c−1)
E
L im i ta ç õ es :
Para n<20, utilizar o teste exato de Fisher
Para 20 ≤ n ≤ 40 , utilizar o qui-quadrado somente se os valores esperados forem maiores ou iguais
a 5.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
120
Exemplo:
Com o objetivo de investigar a associação entre história de bronquite na infância e presença de tosse
diurna ou noturna em idades mais velhas, foram estudados 1319 adolescentes com 14 anos. Destes,
273 apresentaram história de bronquite até os 5 anos de idade sendo que 26 apresentaram tosse
diurna ou noturna aos 14 anos.
Número de adolescentes segundo história de bronquite aos 5 anos e tosse diurna
ou noturna aos 14 anos de idade. Local X, ano Y.
Tosse
Bronquite
Total
Sim
Não
Sim
26
44
70
Não
247
1002
1249
Total
273
1046
1319
Fonte: Holland, WW et al.. Long-term consequences of respiratory disease in infancy. Journal of Epidemiology and Community Health 1978; 32: 256-9.
Valores observados
(O)
Valores esperados (E)
(O-E)
(O-E)2
(O − E ) 2
E
26
247
44
1002
14,488
258,512
55,512
990,488
11,512
-11,512
-11,512
11,512
132,526
132,526
132,526
132,526
9,147
0,513
2,387
0,134
12,181
2
Qui-quadrado ( χ )=
(| O − E | −0,5) 2
E
2
χ corrigido
=
Decisão:
O valor do qui-quadrado calculado é maior do que o valor do qui-quadrado crítico para 1 grau de liberdade e nível de significância de 5%, portanto, rejeita-se H0.
Conclusão: Pode-se dizer que na população existe associação entre bronquite na infância e tosse na
adolescência.
Abordagem de Fisher
Pela tabela da distribuição qui-quadrado, com 1 gl, p<0,001 (na tabela, menor que 0,1%)
Calculando-se o valor de p pelo Excel, para 1 gl, o valor de p não corrigido = 0,0004829
No Excel utilizar a função DIST.QUI tendo como argumentos o valor calculado do qui-quadrado e o
número de graus de liberdade: = DIST.QUI(12,181;1))
Conclusão: Existe forte evidência contrária à independência portanto a associação observada ocorre
não devido ao acaso. Pode-se dizer que os dados são compatíveis com existência de associação entre
bronquite na infância e tosse na adolescência, na população.
Exercício
Considere os dados apresentados a seguir. Investigue a existência de associação entre níveis de β caroteno (mg/L) e hábito de fumar, em puérperas. Utilize as abordagens de Neyman e Pearson (nível
de significância de 5%) e de Fisher.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
121
Distribuição de mulheres no período pós parto, segundo hábito de fumar e nível de β -caroteno sérico
Fumante
Não Fumante
β-caroteno (mg/L)
Baixo (0 – 0,213)
56
84
Normal (0,214 – 1,00)
22
68
Total
78
152
Fonte: Silmara Salete de Barros Silva, tese de Doutorado [2003].
Total
140
90
230
Teste de hipóteses de duas médias
Comparação de duas médias de populações com distribuição normal – amostras independentes.
São apresentadas duas situações nas quais as amostras são coletadas de modo independente.
Situação 1
São coletados os pesos ao nascer de 50 recém nascidos (RN) com síndrome de desconforto respiratório idiopático grave (SDIG) sendo que 54% dos RN vão a óbito. Pode existir uma diferença entre o
peso ao nascer de crianças que sobrevivem e as que morrem. É possível realizar um teste de hipótese para confirmar a aparente diferença.
1.050*
2.500*
1.890*
1.760
2.830
1.175*
1.030*
1.940*
1.930
1.410
1.230*
1.100*
2.200*
2.015
1.715
1.310*
1.185*
2.270*
2.090
1.720
1.500*
1.225*
2.440*
2.600
2.040
1.600*
1.262*
2.560*
2.700
2.200
1.720*
1.295*
2.730*
2.950
2.400
1.750*
1.300*
1.130
2.550
3.160
1.770*
1.550*
1.575
2.570
3.400
2.275*
1.820*
1.680
3.005
3.640
Fonte: Hand DJ et alli. A handbook of small data sets. Chapman&Hall, 1994.
(*)
crianças que foram a óbito.
Situação 2
Quantifica-se uma enzima (ornithine carbonyl transferase) do fígado de dois grupos de
pessoas que sofrem de hepatite. Um grupo tem a forma viral, aguda e o outro, a crônica. Existe interesse em verificar se existe diferença entre pessoas com cada tipo de doença, com base na medida da
enzima.
Hepatite viral aguda (log das medidas)
2,66
2,38
2,37
2,31
2,50
1,96
2,85
2,67
2,37
2,40
2,79
1,82
2,51
2,51
2,80
2,50
2,57
2,54
2,45
2,75
2,56
2,50
3,00
2,94
2,93
2,78
2,57
2,62
2,71
2,18
Hepatite crônica (log das medidas)
3,01
2,99
2,60
2,47
3,04
1,92
3,32
2,21
1,71
2,60
2,79
2,71
3,18
2,84
2,84
2,31
2,71
2,47
2,28
2,84
2,80
3,02
Fonte: Daly et al.. Elements of Statistics. The open
2,85
3,00
2,53
2,46
3,21
2,68
2,50
2,78
2,83
2,86
1,76
2,36
2,07
3,61
2,51
2,36
2,48
2,35
2,99
2,56
2,60
2,98
2,78
2,09
2,42
2,31
3,02
2,17
2,64
2,72
2,33
2,52
3,71
2,07
2,21
2,73
2,30
2,58
3,69
2,56
2,40
3,40
2,11
2,45
2,77
University, 1995.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
122
forma crônica
1.5
forma aguda
57
2,587
0,107
Density
1
Hepatite
crônica
(log medidas)
40
2,651
0,194
0
n
Média
Variância
Hepatite viral
aguda
(log medidas)
.5
Estatísticas
1.5
(n-1)
2
2.5
3
3.5
4
1.5
2
2.5
3
3.5
4
enzima
Density
normal enzima
Razão entre variâncias =1,8
Graphs by grupo
Distribuição de pessoas segundo determinada enzima produzida no fígado e tipo de hepatite.
Teste t para duas amostras independentes
Sob certas circunstâncias (pressuposições), o teste t permite testar a hipótese nula
Com as seguintes possíveis hipóteses altenativas:
H 0 : µ1 = µ 2
H a : µ1 > µ2 ; H a : µ1 < µ2 ; H a : µ1 ≠ µ2 , de-
pendendo do problema que está sendo proposto.
A hipótese nula é equivalente à:
H 0 : µ1 − µ 2 = 0 , onde
µ1 e µ 2
são médias de populações
distintas.
Pressuposições:
A variável sob estudo segue as seguintes distribuições nas populações de origem:
na população 1
na população 2
~ N ( µ1 , σ )
~ N (µ 2 , σ )
Observe que prossupõem-se amostras provenientes de populações normais, com médias distintas e
mesma dispersão.
Verificando-se as pressuposições (de modo informal):
1- Normalidade – histograma
2- Igualdade de variâncias (de desvios padrão) uma variância não pode ser 3 ou mais vezes a
outra.
Estatística do teste:
Os estimadores das médias populacionais
Utilizando-se a estatística
X1 − X 2
µ1 e µ 2
são
X1
e
X2.
pode-se estimar a diferença entre as médias populacionais.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
123
Esta estatística tem uma propriedade importante: é a melhor estatística quando as pressuposições de
normalidade e de igualdade de variâncias estão satisfeitas.
Para duas amostras n1 e n2, como consequência da distribuição amostral da média e Teorema Central
X 1 ~ N (media = µ1 , d . p =
do Limite, tem-se
X 2 ~ N (media = µ 2 , d . p. =
σ
)
n1
σ
n2
e
)
Assumindo que as amostras são independentes, tem-se a distribuição de
X 1 − X 2 ~ N ( µ1 − µ 2 ,
σ2
n1
+
σ2
n2
)
ou
X1 − X 2 :
X 1 − X 2 ~ N (µ1 − µ 2 , σ (
1
1
+ ))
n1 n 2
σ
pode ser estimado tanto por S1 como por S2. Existe uma combinação de S1 e S2 que fornece um
estimador melhor:
Estimador ponderado (agregado): S p =
Onde
S12
e
S 22
(n1 − 1)S12 + (n 2 − 1) S 22
(n1 + n 2 − 2)
são as variâncias amostrais,
Calcula-se T, o número de desvios padrão da estatística X 1 − X 2 , em torno da diferença populacional
,
( µ1 − µ2 ) : T= ( X 1 − X 2 ) − ( µ1 − µ 2 ) , que sob H0 torna-se T = ( X 1 − X 2 ) ~ t
( n + n −2)
Sp
1
1
+
n1 n 2
Sp
1
1
+
n1 n 2
1
2
onde (n1+n2-2) é o número de graus de liberdade necessário para o cálculo de T, utilizando-se a distribuição t de “Student” .
Esta estatística pode ser utilizada para a realização do teste de hipótese e para o intervalo de confiança da diferença de duas médias para amostras independentes.
Se o teste for segundo Neyman e Pearson, deve-se confrontar o valor observado (tobs) de T, com a
área de rejeição de H0, para um nível de significância pré-fixado. Se tobs cair na área de rejeição de H0,
opta-se pela rejeição da hipótese nula.
Se o teste for segundo Fisher, deve-se calcular a probabilidade de observar o valor observado (tobs) de
T ou um valor mais extremo, na curva especificada em H0. Decide-se com base no valor de p. Se a
probabilidade for pequena, concluí-se que os dados mostram evidência contrária à proposição de igualdade de médias.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
124
Aplicação:
Situação 1: Pesos ao nascer proveem de mesma população?
Abordagem de Neyman e Pearson
H 0 : µ sobrev = µnão sobrevivente
H a : µ sobrev ≠ µnão sobreviviente
Considerar nível de significância pré-fixado em 5%
Olhando-se os dados e investigando-se as pressuposições do teste:
≅ 1,6
0
razão entre as variâncias
Density
Peso ao nascer segue distribuição normal?
Variâncias são iguais?
nao sobrev
5.0e-04
.001
sobrev
1000
1500
2000
2500
3000
3500
1000
1500
2000
2500
3000
3500
peso
Density
normal peso
Graphs by condicao
Cálculo da estatística do teste
n1=27,
x1 = 1692 ; s12 = 267958,7
n2=23,
x2 = 2307 ; s22 = 441856,5
Sp =
tobs =
(n1 − 1) S12 + (n2 − 1) S 22
=
(n1 + n2 − 2)
(27 − 1)267958,7 + (23 − 1)441856,5 = 347661,86 = 589,63
(27 + 23 − 2)
(X1 − X 2 )
(1692 − 2307)
=
= −3,68
1 1
1
1
Sp
+
589,63
+
n1 n2
27 23
H0
Graus de liberdade = 27+23 – 2 = 48
Comparação com a área de rejeição de H0:
Área de aceitação de H0
Como o valor calculado caiu na área de rejeição,
Área de rejeição
Área de rejeição de
de H0; α = 0,025
2
H0; α = 0,025
2
decide-se por rejeitar H0.
Conclui-se que foi encontrada diferença
estatisticamente significante entre os pesos
-3,68
-2,009
µ=0
2,009
t
médios ao naser de RN com SDIG, que
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
125
vão a óbito e que sobrevivem, para nível de significância de 5%. Os RN sobreviventes apresentam
maior peso médio ao nascer. Neste caso, os RN são provenientes de duas populações distintas, com
relação ao peso ao nascer.
Abordagem de Fisher
Proposição inicial:
µ sobrev = µ não sobrevivente
Valor calculado da estatística do teste = -3,68
Cálculo do valor de p: pela tabela da Distribuiçaõ t de “Student”, e 48 graus de liberdade (27+23-2),
obtém-se p<0,1% ou p<0,001.
Pode-se obter o valor exato de p, utilizando-se a função =DISTT(3,68;48;2), no Excel, obtendo-se o
valor p = 0,0006, para um teste bi-caudal.
Pelo valor de p pode-se concluir que os dados mostram evidência contrária à proposição inicial. Os RN
sobreviventes apresentam maior peso médio ao nascer.
Teste t para duas amostras dependentes
Existem situações onde os dados da primeira amostra estão, de alguma forma, relacionados aos dados da segunda amostra. São apresentadas duas situações com amostras dependentes.
Situação 1
Uma certa droga está sendo testada quanto a seu efeito na pressão sanguínea. 12 pacientes tiveram
sua pressão arterial diastólica (PAD) medida antes e após o tratamento. Os resultados são mostrados
a seguir. Os resultados são compatíveis com uma droga que produz efeito na pressão sanguínea diastólica?
Paciente
1
2
3
4
5
6
PAD antes
120
124
130
118
140
128
PAD após
125
126
138
117
143
128
paciente
7
8
9
10
11
12
PAD antes
140
135
126
130
126
127
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
PAD após
146
133
127
135
126
131
126
Situação 2
São apresentados dados de um estudo biomédico do peso de rins em uma série de autópsias realizadas no departamento de patologia de um hospital na África. A diferença das médias amostrais pode
ser razoavelmente explicada como sendo devida ao acaso?
Peso do rim esquerdo (gramas)
170
155
140
115
235
125
130
145
105
145
155
110
140
145
120
130
105
95
100
125
Peso do rim direito (gramas)
150
145
105
100
222
115
120
105
125
135
150
125
150
140
90
120
100
100
90
125
Abordagem de Neyman e Pearson
Hipóteses
H 0 : µ1 = µ2
H a : µ1 ≠ µ2
A hipótese nula é equivalente à
H 0 : µ1 − µ 2 = 0 , como o teste é emparelhado (pareado), deve-se
escrever H 0 : µ d = 0 , onde d vem de uma população composta pela diferença entre as observações
X1 e X2, para cada indivíduo.
Pressuposição:
d segue uma distribuição normal; d ~
N (µ d , σ d )
Estatística do teste:
T=
(d ) − ( µ d ) (d ) − ( µ d )
d
=
, que sob H0 torna-se T =
~ t ( n−1)
Sd
Sd
Sd
n
n
Onde n é o número de pares de valores.
Se o teste for segundo Neyman e Pearson, deve-se comparar o valor observado (tobs) de T, com a
área de rejeição de H0, para um nível de significância pré-fixado. Se tobs cair na área de rejeição de H0,
opta-se por esta decisão.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
127
Se o teste for segundo Fisher, deve-se calcular a probabilidade de observar o valor observado (tobs) de
T ou um valor mais extremo, na curva especificada em H0. Decide-se com base no valor de p. Se a
probabilidade for pequena, concluí-se que os dados mostram evidência contrária à proposição de igualdade de médias.
Aplicação:
Considerando-se os dados de pressão arterial diastólica antes e após um tratamento
Paciente
Pressão arterial diastó- Pressão arterial diasDiferença
lica antes
tólica após
(d)
1
120
125
-5
2
124
126
-2
3
130
138
-8
4
118
117
1
5
140
143
-3
6
128
128
0
7
140
146
-6
8
135
133
2
9
126
127
-1
10
130
135
-5
11
126
126
0
12
127
131
-4
Abordagem de neyman e Pearson
Hipóteses:
H 0 : µd = 0
H a : µd ≠ 0
Nivel de significância = 5%;n=12;
Graus de liberdade = n-1 = 11;
d=
sd2 =
− 31
= −2,58 ;
12
( −5 − ( −2,58) 2 + ...( −4 − ( −2,58) 2 ) 104,51
=
= 9,501
11
11
sd = 9,501 = 3,082 ,
tobs =
d
2,58
=
= −2,90
sd
3,082
n
12
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
128
Área de rejeição de H0 para 11 graus de liberdade:
H0
Área de aceitação de H0
Área de rejeição
Área de rejeição de
de H0; α = 0,025
2
H0; α = 0,025
2
-2,9
-2,201
µ=0
2,201
t
Como o valor calculado caiu na área de rejeição, decide-se por rejeitar H0.
Conclui-se que foi encontrada diferença estatisticamente significante entre os níveis médios de pressão arterial diastólica antes e após o tratamento, para nível de significância de 5%. O tratamento
provoca aumento da pressão arterial diastólica.
Abordagem de Fisher
Proposição inicial:
µantes = µapós
Valor calculado da estatística do teste = -2,90
Cálculo do valor de p: pela tabela da Distribuição t de “Student”, e 11 graus de liberdade (12-1), obtém-se 1%<p<2% ou p ≅ 1,5% (p ≅ 0,015). Os dados mostram evidência contrária à proposição
inicial. O tratamento produz efeito, os valores médios antes e após o tratamento são diferentes, sendo
que após o tratamento o nível médio é maior.
Pode-se obter o valor exato de p, utilizando-se a função =DISTT(2,9;11;2), no Excel, obtendo-se o
valor p = 0,014445, para um teste bi-caudal.
FSP/USP. HEP 103-Bioestatística aplicada a Nutrição - 2010
Denise Pimentel Bergamaschi, José Maria Pacheco de Souza, Patrícia de Fragas Hinnig
129
Download