1 Bioestatística – Relatório da aula de Medida de Tendência Central

1
Bioestatística – Relatório da aula de Medida de Tendência Central e Dispersão.
Professor: Antonio Carlos Pereira
Aluno: Sandra Maria Cunha Vidal e Silva – RA: 028960
1. Medidas de Tendência Central:
1.1 A média aritmética é a medida de tendência central mais conhecida e mais
utilizada. Também é conhecida como simplesmente média.
Obtemos a média aritmética de um conjunto de dados somando todos os dados e
dividindo o resultado pelo número deles (tamanho da amostra):
Média =
Soma de todos os dados
Tamanho da amostra
A média é indicada por
onde se lê x traço ou x barra e tem uma fórmula:
Que se lê: x-traço é igual ao somatório de x , dividido por n.
Exemplo:
Uma enfermeira mediu o número de pacientes que deram entrada no período de 1/10 a
7/10/2011. Obteve os seguintes valores, respectivamente: 500 pacientes na segunda feira, ; 420
na terça; 300 na quarta; 260 na quinta; 340 na sexta feira; 230 no sábado e 218 pacientes no
domingo(tabela 1.1) .
Para calcular a média de pacientes atendidos neste período fazemos a somatória do número de
pacientes atendidos na semana e dividimos pelo total de dias da semana (7). Devemos considerar
que a média indica o centro de gravidade do conjunto de dados. Imaginemos que o eixo das
abscissas sejam os braços de uma balança e que cada ponto tenha uma unidade de massa. Para
obter o equilíbrio , é necessário que o fulcro da balança esteja sob a média.
Abaixo , a figura 1.1 , representa esta afirmativa, apresentando os dados do Exemplo citado
acima. Para ilustrar, montei a tabela de dados estudados e tentei distribui-los sobre um eixo ,
com a respectiva média.
= 500+420+300+250+340+230+218
7
= 2268/7
=
= 324
1
2
Tabela 1.1. Distribuição dos atendimentos, por dia, sobre um eixo e sua respectiva
média , no período de 1 a 7/10/2011, UPA
Dia da semana Nº de atendimentos
Segunda
500
Terça
420
Quarta
300
Quinta
260
Sexta
340
Sábado
230
Domingo
218
2268
218 230 260
300
340
420
500
Média=324
Figura 1.1 Distribuição dos atendimentos, por dia, sobre um eixo e sua respectiva média
, no período de 1 a 7/10/2011, UPA
Quando a amostra é grande, os dados podem se repetir. Então, organizamos os dados numa
tabela de distribuição de frequências . Exemplo: quero saber a média do número de crianças de
1 a 5 anos de idade que frequentam a creche de um determinado bairro (visita em 30 domicílios).
Para tanto, procedo os seguintes passos:
1- Construo uma tabela com os dados obtidos (tabela 1)
2- Construo uma tabela com a distribuição de frequências( Tabela 1.2)
3- Realizo os cálculos conforme mostra a tabela 1.3
Tabela 1. 2. Número de crianças de 1 a 5 anos que freqüentam ou não creche
0
1
0
2
1
3
2
1
0
5
3
1
2
2
1
0
3
0
2
3
0
4
1
1
2
Fonte; USF do bairro
2
3
Tabela 1.3 Distribuição de freqüências para o número de crianças de 1 a 5 anos que freqüentam creche.
Número de crianças que freqüentam creche
0
1
2
3
4
5
Freqüência
6
7
6
4
1
1
Após a distribuição de freqüências, realizamos, para obter a média, os seguintes cálculos:
 Multiplicamos cada valor de x (número de crianças de 1 a 5 anos que freqüentam ou não
a creche) pela respectiva freqüência (f).
 Somamos os valores obtidos do produto;
 O resultado obtido
Tabela1. 4. Distribuição de freqüências para o número de crianças que freqüentam ou não a creche
Número de crianças (x)
freqüência (f)
Produto (xf)
0
6
0
1
7
7
2
6
12
3
4
12
4
1
4
5
1
5
Σf= 25
Σxf=40
Total
A média é obtida dividindo 40 por 25, que resulta em 1,6 crianças de 1 a 5 anos que frequentam
a creche , num determinado bairro
= 0x6 +1x7 + 2x6 + 3x4 + 4x1 + 5x1 =
6+7+6+4+1+1
= 40/25 =
= 1,6
3
4
Cálculo da média para variável contínua e amostra grande:
São apresentadas apenas as tabelas de distribuição de frequências. Não são fornecidos os dados
brutos. Para calcular a média de dados agrupados em classes, é preciso calcular o valor central de
cada classe ( média de dois extremos de classe). Exemplo: Calcular a média da PA diastólica em
84 pacientes.
Tabela 1.5 Medidas da Pressão arterial diastólica,em mmHg de pacientes, antes da consulta médica:
classe
freqüência
60 a70
70 a 80
80 a 90
90 a100
100 a110
110 a 120
120a 130
130 a 140
5
8
30
22
12
4
2
1
Valor Central x*: somamos os valores mínimo e máximo da classe e dividimos por dois:
60+70/2 = 65; 70+80/2= 75; 80+90/2 = 85, ... assim procedemos para os demais valores, como
mostra a tabela1.5. Multiplicamos o valor central pela frequência de cada classe. Calculamos a
somatória da frequência e do produto. A média é obtida dividindo a Σx*f pela Σf
Tabela1.6. Cálculos auxiliares
classe
60 a70
70 a 80
80 a 90
90 a100
100 a110
110 a 120
120a 130
130 a 140
valor central (x*)
65
75
85
95
105
115
125
135
soma
freqüência
5
8
30
22
12
4
2
1
Σf = 84
produto
325
600
2550
2090
1260
460
250
135
Σx*f = 7670
Obtemos a média dividindo 7670 por 84
= 7670/84
= 91,30 ; então a média da pressão diastólica , nessa amostra é 91,30 mmHg (PADM=91,3
mmHg )
4
5
A média é uma medida central muito usada, porém, ela é afetada pelos valores extremos, os
“outliers” porisso só deve ser usada se a distribuição for simétrica. A figura abaixo representa a
média dos valores de uma amostra com distribuição simétrica. Nesta distribuição a moda,
mediana e amédia se coincidem.
Fig. A – Representação de uma figura simétrica
1.2-Mediana da Amostra:
Mediana é o valor que ocupa a posição central do conjunto dos dados ordenados. A mediana
divide a amostra em duas partes : uma com números menores ou iguais a mediana e outra com
números maiores ou iguais à mediana.
A mediana dá o valor do ponto que delimita metade dos dados
Quando o número de dados é impar, existe um único valor na posição central. Este valor é a
mediana. Exemplo: o conjunto de dados:
{ 2, 4, 6}, tem mediana 4.
porque 4 é o valor que se encontra no centro do conjunto (isto , quando os números estão em
ordem crescente).
Quando o número de dados é par, calculamos a média dos dois valores centrais e assim, obtemos
a mediana.
Exemplo: , o conjunto ,
{2, 4, 6, 8};
Tem a mediana : 4+6/2 = 5; porque os valores 4 e 6 estão na posição central dos números
ordenados. Então:
A Mediana é a média desses dois valores centrais
Exemplo: Calcule a mediana da Pressão diastólica dos 20 pacientes que participaram do Grupo
de orientação sobre doenças metabólicas:
5
6
Conjunto de dados obtidos em mmHg:
7 - 8 – 8 - 8 - 9 - 9 - 10 - 11 - 11 - 11 - 12 - 12 - 13 – 13 -13 - 13 - 14 - 15 - 20 - 22
Md = 11 + 12 / 2
A mediana descreve melhor a tendência central dos dados quando estas formam um conjunto
com dados discrepantes ( dados com valores bem maiores ou bem menores). No exemplo abaixo,
o valor....18...... puxa a média para cima, porém não afeta a grandeza da mediana:
Cálculo da média e mediana dos dados da pressão arterial diastólica em 8 pacientes do sexo
masculino:
6; 6; 7; 8; 8; 8; 10; 18
X= 6+6+7+8+8+8+10+18= 9,12
8
X= 9,12
Md= 8+8 = 16/2= 8
2
Md= 8
A Média é maior que a Mediana , porque o número 18 é um valor discrepante, puxando a média
para cima. É usada para varáveis qualitativas ordinais ou quantitativas discrepantes.
Tentei exemplificar com o seguinte exercício: quantas crianças foram consultadas por hora no
período das 6 às 15horas na UPA L. Neto no dia 12/10/2011?
Coleta dos dados:
Tabela1. 2 Nº de crianças atendidas na UPA L. Neto ,por hora, no período das 6 às
15h no dia 12/10/2011 ; UPA L. Neto, Piracicaba, SP
Hora
Crianças atendidas
6 7 8 9 10 11 12 13 14 15
5 10 20 42 38 22 12 9 7 6
Média= x =Σx/n , então:
X = 5+6+7+9+10+12+20+22+38+42=
171
10
6
7
x = 17,1
Mediana = 12+10/2
Md= 9,2
Gráfico 1. 2.Distribuiçaõ do atendimento das crianças na UPA L. Neto
Por hora, no período de 6 as 15h, em 12/10/2011. Piracicaba, SP
Este gráfico mostra que há valores discrepantes (variável quantitativa discrepante) entre os dados
obtidos , portanto, a mediana é a melhor escolha para avaliarmos a tendência central dos dados.A
média deu um valor maior, porque os valores 42 e 38 são discrepantes em relaçaõ aos outros.
Usamos a mediana para: Variável qualitativa ordinal
discrepantes (distribuição assimétrica).
ou quantitativa com valores
1. 3. Moda da amostra:
É o valor que ocorre com maior frequencia. Ex: 0, 0, 2, 5, 3,7 ,4 ,7 ,8 ,7 ,9 ,6.
A moda é 7, porque 7 é o valor que ocorre maior número de vezes. Quando em um conjunto de
dados não se repete nenhum valor maior número de vezes , não há Moda (amodal). Quando um
conjunto de dados tem uma moda, chama-se inimodal,duas modas, bimodal ou quando tem mais
de duas modas denomina-se multimodal.
Quando uma tabela de distribuição de frequências apresenta muitos dados, é importante
destacar a classe de maior frequência- a classe modal- porque esta classe nos mostra a área em
que os dados estão concentrados.
7
8
Exemplos:
O conjunto : 0,3,5, 6, 8 9 é amodal, ou seja, não tem moda.
O cojunto : 1, 2, 2 ,3 4 , 5, 6, 6, 7, 8; é bimodal porque apresenta duas modas: 2 e 6.
A distribuição da população brasileira segundo o sexo e a faixa etária (censo de 2010) é um bom
exemplo para determinarmos a classe modal. Pois a distribuição de frequencia apresenta grande
número de daos. A classe modal mostra a área de maior concentração.
Distribuição
da
população
BRASIL – censo de 2010
por
sexo,
segundo
os
grupos
de
idade
A classe modal para a população feminina é de 10 a 29 anos e para a classe masculina é de 15 a
24 anos.
A moda pode ser usada para descrever dados Qualitativos. Neste caso, a moda é a categoria
que ocorre com mais frequência.
Em suma, a moda é bastante informativa quando o conjunto de dados é muito grande. Para um
conjunto com menos de 30 observações é melhor usarmos a média e a mediana pois, nestes
casos, ambas darão uma melhor descrição da tendência central dos dados.
As figuras abaixo ilustram uma distribuição simétrica (moda, mediana e média se coincidem) e
uma distribuição assimétrica , onde a moda representa os valores de maior frequência , a
mediana , a medida que ocupa a posição central dos conjunto dos dados ordenados e a média a
medida de tendência central.
8
9
Figura B.Distribuição simétrica de uma amostra(A) e distribuição assimétrica de outra amostra (B)
2. Medidas de dispersão para uma amostra
A média , mediana e a moda, medidas de tendência Central, não bastam para descrever um
conjunto e dados devido a variabilidade. Elas informam a tendência central, porém, nada dizem
sobre a variabilidade. As medidas de tendência central são tanto mais descritivas de um conjunto
de dados quanto MENOR for a variabilidade. Então, para apresentarmos medidas de tendência
central para descrever um conjunto de dados, devemos fornecer também uma medida de
variabilidade ou dispersão.
Medidas usadas para medir a variabilidade : Amplitude; Quartiil, Decil, Percentil; Desvio
Padrão da amostra e variância; coeficiente de variação.
2.1 Amplitude
A amplitude de um conjunto de dados é definida como a diferença entre entre o máximo
e o mínimo de disperçaõ ou variabilidade.
Ex O peso das crianças que aguardam consulta na USF (unidade de saúde da família)
4, 6, 7, 5, 9, 8,10
Mínimo = 4 ; Máximo= 10
Amplitude = valor max.- valor Min.
Amplitude= 10 – 4 = 6
X= 4+5+6+7+8+10 = 40/6 = 6,6
9
10
Tabela 2.1 do peso das crianças
Estatísticas
Tamanho da amostra
Média
Resultados
6
6,66
Mínimo
4
Máximo
10
Amplitude
6
Apesar da Amplitude ser fácil de calcular e de interpretar, essa medida não mede bem a
variabilidade dos dados porque para seu cálculo usamos apenas os dois valores extremos. Assim,
dois conjuntos de dados podem apresentar variabilidades diferentes e ter a mesma amplitude,
como também, um valor discrepante (muito grande ou muito pequeno) faz a amplitude aumentar
muito. “A amplitude é muito sensível aos valores discrepantes”.
Exemplo: pressão arterial diastólica em milímitro de mercúrio
Grupo de pacientes A = 50; 60;70;80;160
Grupo de pacientes B = 60; 80; 70; 65; 50
Amplitude do Grupo A = 160-50 = 110mmHg
Amplitude do grupo B = 80- 60 = 40mmHg
Então , não podemos dizer que o grupo A está hipertenso. Apenas uma pessoa do grupo A
apresentou valor de pressão arterial diastólica alta (ou grave) discrepante. Os deamais
apresentaram valores normais. Portanto o grupo A e B estão com PAD controladas. Apenas uma
pessoa do grupo A necessita de maiores cuidados.
2.2. Quartil
A mediana divide um conjunto de dados em dois subconjuntos iguais, com o mesmo número de
dados:
 o que antecede a mediana ( dados iguais ou menores que a mediana)
 o que sucede a mediana ( dados iguais ou maiores que a mediana).
Quando o conjunto de dados for grande , o conceito de mediana se estende:
 A mediana divide o conjunto de dados em duas metades ; os quartis ( dividem em
quatro quartos).
 Os quartis dividem um conjunto em quatro parte iguais, portanto são três: primeiro
quartil, segundo quartil e terceiro quartil. A figura abaixo ilustra este conceito:
10
11
Figura C: Representação da divisão de de um conjunto de dados em quatro partes iguais (quartis).
Obtenção dos Quartis:
 Organizar os dados em ordem crescente.
 Encontre a Mediana ( que é, também , o segundo quartil). Marcar este valor.
 Ache o terceiro quartil: tome o conjunto de dados à esquerda da mediana. O primeiro
quatil é a mediana desse novo conjunto de dados.
 Ache o terceiro quartil: tome o conjunto de dados à direita da mediana, o terceiro quartil
é a mediana deste novo conjunto de dados.
Exemplo: determine os quartis dos conjuntos de dados abaixo:
Pressão arterial Sistólica de 20 pacientes masculinos:
7; 8; 8 ;8; 9; 9; 10; 11; 11; 11; 12; 12; 13; 13; 13; 13; 14; 15; 20; 22
1º quartil
mediana( 2ºquartil)
3º quartil
Md= 11+12/2 = 11,5
Mediana do 1º quartil = 7; 8; 8; 8; 9; 9; 10; 11; 11 = 9
Mediana do 2ºquartil = mediana= 11,5
Mediana do 3º quartil= 12; 13; 13; 13; 13; 14; 15; 20; 22 =13
2.3. Distância Interquartílica
É o espaço entre o primeiro e o terceiro quartil:
Distância interquatílica= terceiro quartil – primeiro quartil.
Usando o exemplo dos grupos de pacientes A e B.
11
12
Grupo de pacientes A = 50; 70; 60; 80; 160
Grupo de pacientes B = 60; 80; 70; 65; 50
Ordenando os dados:
Grupo A = 50; 60; 70; 80; 160
Mediana = 70
1º quartil = 5,5
2º quartil = 80
Distância interquartílica= 80 - 5,5= 2,5
Grupo de pacientes B = 50; 60; 65; 70; 80;
Mediana = 65
1ºquartil = 5,5
2º quartil= 7,5
Distância interquartílica = 7,5 - 5,5 = 2,0; então
Distancia interquartílica do grupo A= 2,5
Distãncia interquartílica do grupo B = 2,0
Amplitude grupo A= 160-50 = 110
Amplitude grupo B = 80-50 = 30
As amplitudes são muito diferentes, porém , a distância interquartílica entre os dados dos dois
grupos tiveram pouca diferença.
2.4. Diagrama de caixa ou Box plot;
O diagrama de caixa (box plot) mostra as medidas descritas acima. Para desenhar o diagrama ,
são necessárias as 5 medidas: mínimo, primeiro quartil , mediana, terceiro quartil, máximo.
12
13
Exemplo: desenhe um diagrama de caixa para representar o conjunto de dados: 1; 2; 3; 4;5; 6; 7;
8; 9; 10 (Vieira, Sonia) Desenho do diagrama:
10
9
8
7
6
5
4
3
2
1

Mínimo=1

Primeiro Quartil = 3 (divide à metade o subconjunto que precede a mediana)

Mediana=5,5 ( 6+5/2=5,5)

Média = 55/10=5,5
 Terceiro quartil= 8 (divide à metade o subconjunto que sucede a mediana)

Máximo = 10
2.5. Desvio Padrão da Amostra:
É uma medida de variabilidade muito usada porque é a que melhor mede a dispersão dos dados
,permitindo assim, a interpretação de interesse. Para calcular o desvio padrão é necessário
calcular a Variância.
2.5.1 Variância:
Quando a média indica o centro, podemos calcular o desvio de cada observação em relação
à média , então;
Desvio = observação - média
Se os desvios forem pequenos, os dados ficarão aglomerados em torno da média, porém, se os
desvios forem grandes significa observações dispersas em torno da média, portanto, uma grande
variabilidade.
13
14
Calculando desvios em relação à média:
Dado os pesos de um grupo de 6 crianças que são acompanhadas na USF São Pedro:
5; 6; 7; 8; 10; 12. Os desvios são obtidos subtraindo a média de cada observação:
Tabela 2.2 – Cálculo dos desvios
Observações
x
5
6
7
8
10
12
Desvios
x-x
8–5=3
8–6=2
8–7=1
8–8=0
8 – 10 = -2
8 – 12 = -4
x = Σ ×/n = 48/8= 8
A média é uma boa medida de tendência central pois , o peso dos valores positivos é igual ao
peso dos valores negativos. Neste exemplo:
3 + 2 + 1 + 0 +(-2) + (-4) = 0
Para obter a variabilidade usando os desvios em relação à média , é preciso eliminar os sinais
antes de somar ; para tanto, elevamos ao quadrado. A soma, assim obtida, é chamada de ; soma
dos quadrados dos desvios. A partir desta soma obtem-se a Variância = s2
Variância da amostra é a soma dos quadrados dos desvios de cada observação em relação à
média, dividida por (n - 1)
Para o cálculo da variância utilizamos :
S2 = Σ (x – x )2
n–1
Para tanto , seguimos os seguintes passos:




Calcular os desvios de cada observação
Elevar cada desvio ao quadrado
Somar os quadrados
Dividir os resultados por n-1, sendo que n = ao número de observações.
14
15
Tabela 2.3 Cálculo da Variância ( quadrado dos desvios)
Observações
Desvios
Quadrado dos desvios
x
x-x
5
8 -5 = 3
6
8 - 6= 2
7
8-7=1
8
8-8=0
10
8 - 10 = -2
12
8 - 12 = -4
(x – x)
32 = 9
22 = 4
12 = 1
02 = 0
(-2)2= 4
(-4)2= 16
2
( n- 1) = 5
S2 = Σ (x – x )2 = 34
S2
= 34/5 = 6,8
2.5.2 .Desvio Padrão :
É uma medida de variabilidade muito usada porque mede bem a dispersão dos dados. O desvio
padrão é a raiz quadrada da Variância, assim, obtemos uma medida de variabilidade na mesma
unidade de medida dos dados.
Então, desvio Padrão (s) = a raiz quadrada da Variância.
Cálculo do desvio Padrão :
É dada o número de faltas às aulas, em seis dias, de crianças nas classes A; B e C.
Tabela 2.4
Classe A
2
3
2
3
4
4
Classe B
7
1
5
5
1
5
Classe C
9
1
1
2
9
8
15
16
Tabela 2.5 Calculos estatísticos
Estatística
Média
Mediana
Variância
Desvio padrão
classe A
3
2
0,8
0,89
Classe B
4
5
4,8
2,19
Classe C
5
5
16,4
4,05
 Cálculo da Variância:
S2 classe A=( 2- 3)2 + (3-3)2 +(2 – 3)2 +(3 - 3)2 + (3-4)2 + (3 – 4)2
S2= 1 + 0 + 1+ 0 +1 + 1 = 4/5 = 0,8
S2 classe B = (7- 4) 2 + (1 – 4)2 + (5 - 4)2 +(5 - 4)2+(1 - 4)2 –( 5 - 4)2 =
S2 = 9 + 9 + 1 + 1 + 9 + 1 = 24/5 = 4,8
S2 classe C = (9 – 5)2 + (1 – 5)2 +( 1- 5)2 +(2 – 5)2 + (9 – 5)2 +(8 - 5)2
S2 = 16 + 16 + 16 + 9 + 16 + 9 = 82/5 = 16,4
 Cálculo do desvio Padrão:
Classe A : S= raiz quadrada de 0,8 = 0,89
Classe B : S= raiz quadrada de 4,8 = 2,19
Classe C: S= raiz quadrada de 16,4 = 4,05
Portanto, a classe que apresentou maior absenteísmo foi a Classe C. A classe A, apresentou
menor absenteísmo.
2.5.3 Coeficiente de Variação
É a razão entre o desvio padrão e a média. Multiplica-se o resultado por 100, para que o
coeficiente de variação seja dado em porcentagem.
CV = S / X x 100
O coeficiente de variação nos dá a a dispersão relativa entre os conjuntos de dados.
Exemplo:
Um grupo de pessoas têm idade 3; 1 e 5 anos e um outro grupo tem 55; 57 e 53. A dispersão dos
dados nos dois grupos é a mesma , pois os dois grupos tem variância S2 = 4, porém, as diferenças
de dois anos são muito importante no primeiro grupo, que tem média 3 , do que no segundo
grupo que tem média 55. Quando calculamos o coeficiente de variação nos dois grupos , temos:
16
17
S = raiz quadrada de 4 = 2 (desvio padrão)
CV = S / X x 100; temos:
Primeiro grupo: CV= 2/3 x 100 = 66,67 %
Segundo Grupo CV= 2/55 x 100 = 3,64%
No primeiro grupo, o coeficiente de variação de 66,67% indica que a dispersão dos dados em
relação a média é muito grande – a dispersão relativa é alta. A diferença de dois anos no primeiro
grupo é relativamente muito mais importante quando comparado ao segundo grupo , que tem
média 55 e coeficiente de variação 3,64 ( a dispersão dos dados em relação à média é muito
pequena).
O coeficiente de variação mede a dispersão dos dados em relação à média
Bibliografia:
VIEIRA, S, Introdução à Bioestatística. Rio de janeiro,campus Elsevier, 4 ed. , 3a tiragem. 2008.
PEREIRA, A.C. et al. Tratado de Saúde Coletiva em Odontologia, 1 ed. São Paulo: editora Napoleão,
2009.
CARVALHO, S.e CAMPOS, W. Estatística básica simplificada. Rio de Janeiro: Elsevier, 2008.
17