hep 5800 - bioestatística - Faculdade de Saúde Pública

Propaganda
UNIVERSIDADE DE SÃO PAULO
FACULDADE DE SAÚDE PÚBLICA
DEPARTAMENTO DE EPIDEMIOLOGIA
HEP 5800 - BIOESTATÍSTICA
REGINA T. I. BERNAL
NILZA NUNES DA SILVA
MARÇO/2012
1
HEP 5732 - BIOESTATÍSTICA
1.
NOTAS HISTÓRICAS ........................................................................................................................................ 3
2.
DEFINIÇÃO ......................................................................................................................................................... 5
3.
4.
ANÁLISE EXPLORATÓRIA DE DADOS ....................................................................................................... 7
LEVANTAMENTO DE DADOS ........................................................................................................................ 7
4.1. DEFINIÇÃO ........................................................................................................................................................... 7
4.2. FONTE DE DADOS E TEMPO ................................................................................................................................ 12
5.
APRESENTAÇÃO TABULAR DE DADOS ................................................................................................... 13
5.1. TABELA DE FREQUÊNCIA ............................................................................................................................... 13
5.2. APRESENTAÇÃO ................................................................................................................................................. 15
EXERCÍCIOS ....................................................................................................................................................... 16
6.
APRESENTAÇÃO GRÁFICA DE DADOS .................................................................................................... 17
6.1. VARIÁVEIS QUALITATIVAS OU QUANTITATIVA DISCRETA.................................................................................... 18
 Diagrama de Superfícies em Colunas ou Barras ......................................................................................... 18
 Diagramas por Superfícies em Colunas Superpostas ou Porcentagens Complementares........................... 18
 Diagramas por Superfícies em Setores ........................................................................................................ 18
 Diagrama por Pontos ................................................................................................................................... 18
6.2. VARIÁVEIS QUANTITATIVAS CONTÍNUAS ............................................................................................................ 19
 Diagramas por Superfícies em Histogramas ............................................................................................... 19
6.3. VARIÁVEIS QUALITATIVAS ORDINAIS OU QUANTITATIVA DISCRETA .................................................................... 24
6.3. SÉRIES TEMPORAIS ............................................................................................................................................. 25
6.4. ESCALAS ARITMÉTICAS E LOGARÍTMICAS ........................................................................................................... 26
6.5 BOX PLOT ........................................................................................................................................................... 27
EXERCÍCIOS ....................................................................................................................................................... 28
7.
MEDIDAS RESUMO ........................................................................................................................................ 29
7.1. MEDIDAS DE TENDÊNCIA CENTRAL ................................................................................................................... 29
Definição .............................................................................................................................................................. 29
Finalidade ............................................................................................................................................................ 29
Média aritmética .................................................................................................................................................. 29
Média Geométrica................................................................................................................................................ 31
Média Harmônica ................................................................................................................................................ 31
Mediana ............................................................................................................................................................... 32
Quartis ................................................................................................................................................................. 33
Percentis .............................................................................................................................................................. 34
Moda .................................................................................................................................................................... 34
7.2. MEDIDAS DE DISPERSÃO .................................................................................................................................... 36
X-MEDIA ............................................................................................................................................................. 36
Interquartil ........................................................................................................................................................... 37
8. REFERÊNCIAS BIBLIOGRÁFICAS ......................................................................................................................... 40
2
1.
NOTAS HISTÓRICAS
As primeiras aplicações da estatística estava voltadas para as necessidades de Estado, na
formulação de políticas públicas, fornecendo dados demográficos e econômicos à administração
pública. A abrangência da estatística aumentou no começo do século XIX para incluir a
acumulação e análise de dados de maneira geral. Hoje, a estatística é largamente aplicada nas
ciências naturais, e sociais, inclusive na administração pública e privada. Seus fundamentos
matemáticos foram postos no século XVII com o desenvolvimento da teoria das probabilidades
por Pascal e Fermat, que surgiu com o estudo dos jogos de azar. O método dos mínimos
quadrados foi descrito pela primeira vez por Carl Friedrich Gauss cerca de 1794. O uso de
computadores modernos tem permitido a computação de dados estatísticos em larga escala e
também tornaram possível novos métodos antes impraticáveis.1
A primeira tentativa para se tirar conclusões a partir de dados numéricos foi feita somente
no século 17, na Inglaterra, com o que foi denominado Aritmética Política de William Petty, que
evoluiu para o que se chama hoje de demografia. A análise de Graunt foi baseada sobre razões e
proporções de fatos vitais, nos quais ele observou uma regularidade estatística num grande
número de dados. Os dados usados por ele compreendiam uma serie anual de 1604 a 1660,
coletados nas paróquias de Londres, de onde ele tirou as seguintes conclusões: que havia maior
nascimento de crianças do sexo masculino, mas havia distribuição aproximadamente igual de
ambos os sexos na população geral; alta mortalidade nos primeiros anos de vida; maior
mortalidade nas zonas urbanas em relação às zonas rurais.2
No passado, tratar uma quantidade grande de dados era uma tarefa custosa e cansativa,
que exigia horas de trabalho tedioso. O computador contribui, positivamente, na difusão e uso
dos métodos estatísticos. Por outro lado, o computador possibilita uma automação que pode levar
um Indivíduo sem preparo específico a utilizar técnicas inadequadas para resolver um dado
problema. 3
A Estatística é área da ciência que trata da organização, descrição, análise e interpretação
dos dados resultantes da observação de fenômenos coletivos. Para cada tipo de variável existe
uma técnica adequada para análise dos dados. Devido à facilidade computacional na execução das
análises estatísticas, o pesquisador deve ter bom senso no uso das ferramentas estatísticas e nas
interpretações dos resultados. Em grandes ou pequenas amostras podem ocorrer resultados
estatísticos espúrios devido ao tamanho da amostra.
O importante é entender a Estatística como um meio; um instrumento e não um fim.
1
História da Estatística. Disponível <http://pt.wikipedia.org/wiki/Hist%C3%B3ria_da_estat%C3%ADstica>
Memória, J.M.Breve História da Estatística.
3
Magalhães, M.N. Noções de Probabilidade e Estatística. Sexta edição. Edusp, 2008
2
3
HEP 5732 - BIOESTATÍSTICA
Recursos computacionais
Atualmente existem vários programas voltados para o processamento e análises
estatísticas, entre os mais usados comercialmente são: SPSS e SAS. Os pacotes estatísticos
utilizam algoritmos para analise de dados provenientes de amostras aleatórias simples. Com o
avanço tecnológico os pacotes SAS, SPSS e STATA têm o módulo específico para análise de
dados provenientes de planos complexos de amostragem. As técnicas estatísticas implantadas
consideram as variáveis de planejamento da amostra.
O Departamento de Epidemiologia da FSP adotou o programa STATA como ferramenta
de processamento e análises estatísticas. O STATA 10.0 está disponível nos computadores do
Laboratório de Informática da Epidemiologia (LIE). Esse programa será usado como ferramenta
de processamento e análises estatística no curso de Bioestatística.
4
2.
DEFINIÇÃO
É A CIÊNCIA QUE TRATA DADOS NÚMERICOS
PROVENIENTES DE MENSURAÇAO EM
GRUPOS DE INDIVÍDUOS.
ORGANIZAÇÃO, DESCRIÇÃO, APRESENTAÇÃO
ANÁLISE E INTERPRETAÇÃO DE DADOS RESULTANTES DA
OBSERVAÇÃO DE FENÔMENOS COLETIVOS.
PROPRIEDADES
- VARIAÇÕES ALEATÓRIAS
NATURAIS E NÃO EXPLICADAS
-VARIAÇÕES ENTRE INDIVÍDUOS
-VARIAÇÕES ENTRE OBSERVAÇÕES
EM UM MESMO INDIVÍDUO.
5
HEP 5732 - BIOESTATÍSTICA
Ramos da Estatística
ESTATÍSTICA
DESCRITIVA
ANÁLISE
INTERPRETAÇÃO
ORGANIZAR
DESCREVER
APRESENTAR
probabilidade
INFERÊNCIA ESTÁTISTICA
DISTRIBUIÇÕES
TABELAS
GRÁFICOS
MEDIDAS
AMOSTRAGEM
EXPERIMENTOS
MODELAGEM
“Estatística aplicada às ciências da vida”
epidemiologi
a
Biometria
Veterinária
Econometria
Demografia
Administração
6
3.
ANÁLISE EXPLORATÓRIA DE DADOS
A estatística descritiva tem como objetivos: organizar, descrever, apresentar, analisar e
interpretar o conjunto de dados resultantes da observação de fenômenos coletivos.
4.
LEVANTAMENTO DE DADOS
4.1. Definição
“ É a operação de coleta para descrição e/ou análise das características de
uma população.”
Usaremos como exemplo a pesquisa que descreve a experiência de acesso da população
de baixa renda do município de São Paulo a medicamentos, em 2005. A população de estudo é
composta por adultos com 40 anos ou mais de idade, residente no município de São Paulo, cuja
renda seja inferior ou igual a R$700,00. Essa pesquisa explora a contribuição do genérico como
estratégia facilitadora dessa experiência. Um dos principais objetivos é responder se a população
de estudo conhece e usa os medicamentos genéricos no mercado brasileiro.
Para cada elemento pesquisado existe um conjunto de características levantadas. Na
estatística essas características são chamadas de variáveis. Considerando a natureza numérica
dos possíveis resultados observados ou as ocorrências possíveis para as variáveis, citadas no
quadro 1, podemos agrupá-las em duas grandes categorias: Variáveis qualitativas e
quantitativas (Figura 1).
Os resultados quantitativos, obtidos por operação de contagem e estão inseridos no
conjunto dos números inteiros (0, 1, 2,...) correspondem às Variáveis Quantitativas Discretas.
Enquanto, os obtidos por uso de instrumentos de mensuração, projetados no conjunto dos
números reais, definem as Variáveis Quantitativas Contínuas.
Também os resultados resultantes de classificação denominados de qualitativos são
subdivididos em dois grupos: Variáveis Qualitativas Nominais cujos resultados de observação
são expressos por termos da linguagem natural; e as Variáveis Qualitativas Ordinais que usam
algum critério de ordenação para expressar os resultados.
Em geral, os possíveis resultados observados nas variáveis qualitativas são representados
por números, o que não altera sua natureza qualitativa.
Figura 1 – Classificação das variáveis quanto a natureza numérica
Tipos de Variáveis
Resultantes de
Classificação
Resultantes de contagem ou
mensuração
Quantitativas
Qualitativas
Nominal
Ordinal
Ex: Sexo
Estado civil
Classe social
Faixa etária
Contínua
Renda
Idade
Discreta
N de filhos
N de medicamentos
7
HEP 5732 - BIOESTATÍSTICA
Quadro 1 – Dicionário de variáveis da pesquisa
Questão
Variável
nm
Descrição
número sequencial
dominio
Estrato
peso
upa
Peso da amostra
Unidade primária de amostragem
sexo
idade
escolaridade (B1c)
0 Não Favela
1 Favela
Qual a sua idade?(anos)
trabalha
O (a) Sr. (a) trabalha?
b3a
b3b
40 a 95
0
1
2
3
1
2
3
4
5
6
1
2
Até que ano da escola o (a) se. (a)
completou?
Atividade econômica
b2b
1 Masculino
2 Feminino
Sexo
ativeconomica (B1d)
renda
Categoria
Descrição
Tipo
Quanto o (a) Sr (a) ganhou no mês
0 a 7000
passado? (salário bruto)
O (a) Sr. (a) tem matrícula em algum
posto de saúde?
O (a) Sr. (a) já ouviu falar em
remédio genérico?
Como o (a) Sr (a) ficou conhecendo o
remédio genérico?
b3c
O remédio genérico em relação ao
de marca mais conhecida, tem
preço:
b3d
O (a) Sr (a) confia no remédio
genérico?
b3e
O (a) Sr (a) já comprou um remédio
genérico?
b3f
O (a) Sr (a) já recebeu algum
genérico em posto de saúde ou
hospital que atende pelo SUS?
b3g
Qual desse remédios é genérico?
1
2
1
2
1
2
3
4
12
14
23
24
34
123
124
234
1234
1
2
3
9
1
2
9
1
2
9
1
2
9
0
1
2
9
Sem escolaridade
Primeiro grau
Segundo grau
Terceiro grau
aposentado/pensionista
desempregado
dona de casa
trabalho com registro em carteira
trabalho sem registro em carteira
servidor público
Não
Sim
Não
Sim
Não
Sim
rádio
televisão
jornal/revista
outros
rádio/televisão
rádio/outros
televisão/jornal/revista
televisão/outros
jornal/revista/outros
rádio/televisão/jornal/revista
rádio/televisão/outros
televisão/jornal/revista/outros
rádio/televisão/jornal/revista/outros
igual
menor
maior
NR/NS
Não (especificar)
Sim (especificar)
NR/NS
Não (especificar)
Sim
NR/NS
Não
Sim
NR/NS
8
Pensando ...
Classifique as variáveis levantadas na pesquisa de medicamentos quanto a sua natureza numérica:
Variável
Natureza numérica
nm
dominio
peso
upa
sexo
idade
escolaridade (B1c)
ativeconomica (B1d)
trabalha
renda
b2b
b3a
b3b
b3c
b3d
b3e
b3g
9
HEP 5732 - BIOESTATÍSTICA
Transformando variáveis
O recurso muito utilizado na estatística é transformar variáveis quantitativas em
qualitativas. Quando a variável quantitativa é transformada em 0 ou 1, essa nova variável é
resultante de uma classificação e conhecida como variável dicotômica, onde o valor 1 representa
o sucesso e 0 o fracasso. Para fazer essa passagem de quantitativa para qualitativa é necessário
definir um critério de classificação ou definir o número de intervalos para a nova variável. Para
exemplificar usaremos a variável anos de estudo que é de natureza quantitativa contínua.
Adotando o critério de classificação de 0, 1 a 8 anos, 9 a 11 anos e 12 anos ou mais, construímos
a nova variável denominada grau de instrução, cujos valores possíveis podem ser representados
por 1, 2, 3 e 4. A categoria 1 representa os indivíduos analfabetos, a categoria 2 representa os
indivíduos com 1 a 8 anos de estudo e assim sucessivamente (Figura 2). Os valores possíveis da
variável grau de instrução são representados por números e a eles são atribuídos nomes para cada
categoria da variável.
Figura 2 – Construção da variável Grau de instrução
Quantitativas
Critério
Qualitativa
Exemplo:
Critério
Grau instrução
0
Anos de estudo
[1 - 8]
[9 – 11]
>= 12
1 (Analfabeto)
2 (Fundamental)
3 (Médio)
4 (Superior)
Outros exemplos:
Variáveis
Critérios
Peso ao nascer
baixo peso : menos de 2.500g
inadequado: 2.500 |-- 3.000g
normal
: 3.000g e mais
Duração da gestação
pré-termo : até 258 dias
a termo : 259 |-- 294 dias
pós-termo : 294 dias e mais
n° de gestações prévias
primigesta : zero gestações anteriores
secundigesta : uma gestação anterior
multigesta : duas e mais gestações
anteriores
Idade da mãe
adolescente : 10 |-- 20 anos
adulta
: 20 |-- 35 anos
idosa
: 35 anos e mais
Alguns critérios para determinação do número de classes:
Se for muito pequeno o número de classes, é comum acontecer que características
importantes de distribuição fiquem ocultas. Por outro lado classes demais fornecerão maior
número de detalhes, mas resumirão de forma menos precisa a distribuição. A fórmula de Sturges
é usada para representar os possíveis valores de uma variável quantitativa em intervalos de
números reais.
10
O procedimento da fórmula de Sturges:
1)
Encontrar o número de intervalos (k):
k=1+ 3,3*log(n), onde n é o número de registros válidos ou elementos observados com
informação.
2)
h
Encontrar a amplitude de cada intervalo (h):
max imo min imo
, valor máximo e mínino do conjunto de valores possíveis.
k
Usando como exemplo a variável renda levantada na pesquisa de medicamentos:
k=1+3,3*log(2921) = 12,43  aproximar para 12 intervalos
h
max imo min imo
k
7000 0
12
583,33
 Podemos aproximar o valor para R$585
Assim, podemos representar os possíveis valores da variável renda em 12 intervalos com
amplitude de R$585,00.
Intervalos
[
0,00 ; 585,00]
[ 585,01; 1170,00]
[1170,01 ; 1755,00]
[1755,01 ; 2340,00]
[2340,01 ; 2925,00]
[2925,01 ; 3510,00]
[3510,01 ; 4095,00]
[4095,01 ; 4680,00]
[4680,01 ; 5265,00]
[5265,00 ; 5850,00]
[5850,01 ; 6435,00]
[6435,01 ; 7020,00]
Valores
1
2
3
4
5
6
7
8
9
10
11
12
Nota: É importante observar que o valor máximo da variável está dentro do último intervalo.
Representações dos intervalos:
[x1 ; x2] ou .x1|-| x2...  maior ou igual a x1 e menor ou igual a x2
[x1 ; x2) ou x1 |- x2
 maior ou igual a x1 e menor que x2
(x1 ; x2) ou x1 – x2
 maior que x1 e menor que x2
Dica  informe o valor mínimo e máximo de cada intervalo. Principalmente no primeiro e
no último intervalo. Assim, o leitor terá o conhecimento da amplitude do conjunto de
valores possíveis da variável.
11
HEP 5732 - BIOESTATÍSTICA
4.2. Fonte de dados e Tempo
Os levantamentos de dados são classificados em fonte de dados primários ou secundários e no
tempo (contínuo, periódico ou ocasional). A fonte de dados primária ocorre no levantamento da
investigação, enquanto os dados secundários, já analisados anteriormente, são disponibilizados
para disseminação da informação. Todas as pesquisas levantadas pelo IBGE são de domínio
público e estão disponíveis no site.
No Brasil existem importantes fontes oficiais de dados secundários que devem ser aproveitados
para investigações da área da saúde.
O IBGE além de dispor dados socioeconômicos do Censo Demográfico, realizado a cada 10 anos,
também oferece dados específicos sobre saúde, levantados quinquenalmente pela PNAD.
Dados específicos sobre populações e condições de saúde podem ser encontrados no site do
DATASUS-MS. Encontram-se informações demográficas e epidemiológicas já classificadas
segundo sexo, faixa etária, municípios ou regiões geográficas. Importantes estudos
epidemiológicos podem ser elaborados, com economia de custo e tempo, a partir do uso dessas
bases de dados.
Ainda o SEADE, CVE, e a Prefeitura Municipal de São Paulo dispõem, respectivamente,
importantes arquivos de dados sobre doenças de notificação compulsória, mortalidade e
morbidade para todos os municípios do Estado de São Paulo.
12
5.
APRESENTAÇÃO TABULAR DE DADOS
Nessa etapa inicial queremos conhecer os dados levantados, e para isso os valores das
variáveis são resumidos e apresentados no formato de tabela. A primeira análise a ser feita é a
consistência das informações coletadas. É nessa fase que identificaremos os problemas de
digitação e ausência de resposta ou “missing”. Após a validação dos dados iniciaremos a análise
descritiva das variáveis com objetivo de identificar o comportamento de cada variável de análise.
5.1. Tabela de frequência
O resultado de contagem dos valores possíveis de uma variável organizado em tabela informa o
comportamento da variável.
Se a variável é qualitativa ou quantitativa discreta simplesmente os valores possíveis são
listados e contados.
CONTAGEM, APURAÇÃO.
VARIAVEL
RESULTADOS
MASCULINO
SEXO
Variável qualitativa
CONTAGEM
##### ##### ##### ##### #####
#
FREQUENCIA TOTAL
26
50
FEMININO
##### ##### ##### ##### ####
24
Quando a variável é quantitativa contínua os resultados são apresentados em intervalos de valores
e contados.
Intervalos de Renda
[
0,00 ; 585,00]
[ 585,01; 1170,00]
[1170,01 ; 1755,00]
[1755,01 ; 2340,00]
[2340,01 ; 2925,00]
[2925,01 ; 3510,00]
[3510,01 ; 4095,00]
[4095,01 ; 4680,00]
[4680,01 ; 5265,00]
[5265,00 ; 5850,00]
[5850,01 ; 6435,00]
[6435,01 ; 7020,00]
frequência
2223
563
99
22
8
3
2
0
0
0
0
1
Além do resultado de contagem (frequência absoluta) é apresentada a frequência relativa e a
acumulada.
f
A frequência relativa informa a proporção de cada ocorrência em relação ao total ( i ni ) e a
n
soma é igual a 1. A frequência relativa permite a comparação com outras fontes de dados, desde
que os valores listados apresentem os mesmos intervalos de valores, no caso de uma variável
quantitativa contínua, ou as mesmas ocorrências quando se trata de uma variável qualitativa ou
quantitativa discreta. Na prática a frequência relativa é expressa em porcentagem e seus
resultados apresentam a distribuição de frequência da variável.
13
HEP 5732 - BIOESTATÍSTICA
Intervalos de Renda
[
0,00 ; 585,00]
[ 585,01; 1170,00]
[1170,01 ; 1755,00]
[1755,01 ; 2340,00]
[2340,01 ; 2925,00]
[2925,01 ; 3510,00]
[3510,01 ; 4095,00]
[4095,01 ; 4680,00]
[4680,01 ; 5265,00]
[5265,00 ; 5850,00]
[5850,01 ; 6435,00]
[6435,01 ; 7020,00]
Total
Frequência (ni )
2223
563
99
22
8
3
2
0
0
0
0
1
2921
fi
0,7610
0,1927
0,0339
0,0075
0.0027
0,0010
0,0007
0,0000
0,0000
0,0000
0,0000
0,0004
0,9999
A frequência acumulada representa as frequências relativas acumuladas de uma variável
que apresente uma ordenação (qualitativa ordinal, quantitativa discreta ou contínua). Seus
resultados facilitam a visualização de informações relevantes do comportamento da variável, e
podem ser usados para estabelecer ponto de corte em um determinado valor da variável. E ainda
informa o ponto ou o intervalo que divide a distribuição em duas partes iguais. No exemplo da
variável renda nota-se que 95% dos adultos ganham até R$1170,00.
Intervalos de Renda
[
0,00 ; 585,00]
[ 585,01; 1170,00]
[1170,01 ; 1755,00]
[1755,01 ; 2340,00]
[2340,01 ; 2925,00]
[2925,01 ; 3510,00]
[3510,01 ; 4095,00]
[4095,01 ; 4680,00]
[4680,01 ; 5265,00]
[5265,00 ; 5850,00]
[5850,01 ; 6435,00]
[6435,01 ; 7020,00]
Total
frequência
2223
563
99
22
8
3
2
0
0
0
0
1
2921
%
76.10
19.27
3.39
0.75
0.27
0.10
0.07
0.00
0.00
0.00
0.00
0.04
99.99
%acumulada
76.10
95.38
98.77
99.52
99.79
99.90
99.97
99.97
99.97
99.97
99.97
100.00
14
5.2. Apresentação
Seguiremos as normas definidas pelo IBGE com o objetivo de padronizar a apresentação tabular
dos dados. As normas estão disponíveis no arquivo Normas_de_apresentação_tabular.pdf.
A seguir são apresentadas as principais informações necessárias para elaboração de uma tabela.
APRESENTAÇÃO
TABELAS (apresenta distribuições de freqüências)
NORMAS IBGE
Tabela 1
Título – Distribuição de recém-nascidos segundo sexo.
Brasília, 1999.
SEXO
N
%
MASCULINO
TOTAL
50
100,0
Fonte: Lista de exercícios, curso HEP 5732, FSP, 2005.
Tabela 2 – Recém-nascidos segundo peso ao nascer (gramas) Brasília, 1999.
PESO NASCER
N
%
1950 |---- 2400
4
8,0
2400 |---- 2850
7
14,0
2850 |---- 3300
21
42,0
3300 |---- 3750
12
24,0
3750 |----|4200
6
12,0
50
100,0
TOTAL
Fonte: Ruiz F.M Saude,Brasília, 1999.
MODELO GERAL
Titulo:
Recém-nascidos segundo peso ao nascer (gramas)
Local A, 1999.
VARIÁVEL
Freq.
Absoluta
Freq.
Relativa
Classes
Ou
Valores
TOTAL
50
100,0
Fonte:
15
HEP 5732 - BIOESTATÍSTICA
EXERCÍCIOS
Apresente a análise descritiva dos dados da pesquisa de medicamentos usando o programa
STATA. Use os dados do arquivo_pesq_medicamentos_curso_v1.xls e siga o roteiro:
1)
Use o programa Stat Transf para conversão do arquivo no formato Excel para STATA/SE
version 9.
2)
Abra o arquivo no programa.
3)
Converter as variáveis no formato texto para numérica. Use o comando decode.
4)
Criar a variável faixa de renda usando a fórmula de Sturges.
5)
Atribuir os nomes das variáveis e das categorias.
6)
Construir as tabelas de frequências para todas as variáveis de investigação.
7)
Comente os resultados encontrados.
16
6.
APRESENTAÇÃO GRÁFICA DE DADOS
Apesar da apresentação dos dados através de tabela ser mais precisa, a representação
gráfica tem a vantagem de transmitir os dados de uma maneira mais rápida e viva, oferecendo
uma visão imediata sobre o comportamento do fenômeno que estamos descrevendo.
Elaborar mapas e gráficos é uma arte que somente pode ser adquirida através de prática,
com os cuidados necessários para evitar posições tendenciosas, permitindo a visão clara dos
pontos essenciais a serem notados.
Portanto as regras básicas de elaboração de um gráfico são:
simplicidade
clareza
veracidade
A representação gráfica tem inúmeras aplicações na Estatística. Ela nos permite, por
exemplo, fazer uma análise exploratória dos dados, verificando seu comportamento, detectando
tendências e pontos atípicos ("outliers"), ou seja, observações demasiadamente distantes da massa
do conjunto de dados.
APRESENTAÇÃO GRÁFICA DE DADOS
- REPRESENTAM TABELAS (distribuições, coeficientes, series)
-EIXOS CARTESIANOS
linhas, retângulos, círculos
- FIGURAS GEOMÉTRICAS
MEDIDAS GEOMÉTRICAS
. Altura ou comprimento, área, ângulos
Bioestatística-aula 3
21/03/2006
- REPRESENTAM TABELAS (distribuições, coeficientes, series)
-EIXOS CARTESIANOS
(Y)
Frequencias
Ou outros
valores
escalas
X
Resultados ou
valores
zero
17
HEP 5732 - BIOESTATÍSTICA
6.1. Variáveis qualitativas ou quantitativa discreta
 Diagrama de Superfícies em Colunas ou Barras
Simples: representação de uma única variável por meio de retângulos dispostos
verticalmente ou horizontalmente. Utiliza-se este tipo de gráfico para comparações de
uma só variável.
Múltiplas: permite a comparação de várias variáveis ao mesmo tempo.
Essas barras são construídas com o mesmo tamanho de base, de forma a permitir a
comparabilidade entre classes seja feita sempre de acordo com a altura (forma
vertical) ou comprimento (horizontal).
 Diagramas por
Complementares
Superfícies
em
Colunas
Superpostas
ou
Porcentagens
Nesta representação as barras estarão superpostas, com uso para o caso de duas ou
mais variáveis.
No caso de porcentagens complementares, perde-se a comparabilidade de grandeza
entre as barras, naturalmente, sendo utilizada para comparação de estrutura.
 Diagramas por Superfícies em Setores
A representação setorial tem seu uso intenso por possibilitar uma distinção clara entre os
setores envolvidos e favorecer a comparação com o total.
 Diagrama por Pontos
Consiste na representação gráfica de uma informação por meio de pontos. Este gráfico
tem seu uso quando representamos fatos na sua distribuição espacial ou regional.
Número de pessoas
Exemplo:
9
x
x
x
x
x
x
x
x
x
6
3
x
x
x
x
x
x
x
x
x
x
1
2
2
x
x
4
5
Tamanho da família
18
6.2. Variáveis quantitativas contínuas
 Diagramas por Superfícies em Histogramas
O histograma é formado por retângulos cujas áreas representam as frequências dos
intervalos de suas classes. Esta apresentação é indicada para variáveis contínuas, e,
portanto não há espaço entre as barras.
Número de residentes segundo idade . Muribeca, 2006.
IDADE
NUM.
%
0 |– 5
50
5 |– 10
75
10 |– 15
100
28,6
15 |– 20
75
21,4
20|– 25
50
14,3
TOTAL
350
100,0
14,3
21,4
Fonte : IBGE, 17/03/2006 .
Num.
100
-
50
|
|
0
5
|
|
|
|
10
15
20
25
idade
Num.
100
-
50
|
0
|
5
|
|
|
|
10
15
20
25
idade
19
HEP 5732 - BIOESTATÍSTICA
Num.
100
-
50
|
|
0
5
|
|
|
|
10
15
20
25
|
|
|
|
10
15
20
25
idade
Num.
100
|
50
|
|
|
0
5
|
idade
Num.
100
-
50
|
0
|
5
|
|
|
|
10
15
20
25
idade
Construção de um polígono de frequência
20
Num.
100
Num.
-
|
100
|
|
50
|
-
|
|
|
|
0
5
|
|
|
|
-
50
|
|
|
|
10
15
20
25
|
idade
|
|
0
|
|
|
|
5
|
|
|
|
10
15
20
25
Num.
100
-
50
|
0
|
5
|
|
|
|
10
15
20
25
idade
Fonte : IBGE, 2006 .
Contra exemplo
 Histograma com Intervalos de Classes Desiguais
É comum o uso de classes com tamanhos desiguais no agrupamento dos dados em tabelas
de frequências. Alguns cuidados especiais devem ser tomados quanto à análise e
construção de histograma.
A tabela seguinte fornece a distribuição de atendimentos em serviços de urgências de um
hospital X. Um primeiro cuidado é construir a coluna que indica as amplitudes de cada
classe. Um segundo passo é a construção da coluna da amplitude de cada classe, e o
terceiro passo é a construção das densidades de frequências em cada classe, ou seja, a
medida que indica qual a concentração por unidade da variável (ajuste na frequência em
relação a amplitude). De modo análogo, pode-se construir a densidade da proporção (ou
porcentagem) por unidade da variável.
21
|
idade
HEP 5732 - BIOESTATÍSTICA
Para a construção do histograma, usa-se no eixo X o número de atendimentos e no eixo Y
o valor da densidade 1 ou 2.
Distribuição de atendimentos em serviço de urgência do hospital X
Número de
atendimentos
Frequência
Absoluta
(A)
Amplitude
Densidade1 Frequência
Densidade
2
(D)/(B)
(B)
(A)/(B)
0 |---- 10
5
10
0,5
Relativa
(D)
0,02
10 |---- 20
20
10
2,0
0,08
0,008
20 |---- 30
35
10
3,5
0,14
0,014
30 |---- 40
40
10
4,0
0,16
0,016
40 |---- 60
50
20
2,5
0,20
0,010
60 |---- 80
30
20
1,5
0,12
0,006
0,002
80 |---- 100
20
20
1,0
0,08
0,004
100 |---- 140
20
40
0,5
0,08
0,002
140 |---- 180
15
40
0,38
0,06
0,0015
180 |---- 260
15
80
0,19
0,06
0,0008
Total
250
1) Construa o gráfico de barra usando no eixo da ordena os valores da freqüência absoluta
Frequência absoluta
60
50
40
30
20
10
0
0 |- 10
10 |- 20
20 |- 30
30 |- 40
40 |- 60
60 |- 80
80 |- 100 100 |- 140 140 |- 180 180 |- 260
Número de empregados
Densidade 1 (número de empresas por empregados)
2) Construa o gráfico de barra usando no eixo da ordena os valores da densidade 1
4,0
3,5
3,0
2,5
2,0
1,5
1,0
0,5
10
20
30
40
50
60
70
80
90 10 0
110 120 130 140 150 160 170 180
190 200 210 220
230 240 250
260
Número de empregados
3) Compare o gráfico 1 e 2. Qual a conclusão?
22
Pensando ...
Represente graficamente a variável renda levantada na pesquisa de medicamentos no espaço
quadriculado abaixo.
Faixa Renda
[ 0 ; 400]
[401; 800]
[800;7000]
Total
n
1957
675
289
2921
%
67.0
23.1
9.9
100.0
%ac
67.0
90.1
100.0
0
5.0e-04
.001
Density
.0015
.002
Compare o gráfico anterior com a saída do histograma executado no programa STATA. Quais
são as diferenças?
0
2000
4000
renda
6000
8000
23
HEP 5732 - BIOESTATÍSTICA
6.3. Variáveis qualitativas ordinais ou quantitativa discreta
Ogiva
É a representação gráfica de uma distribuição de frequências acumuladas, cujos segmentos
perpendiculares são traçados a partir do limite superior de cada classe. As frequências (absolutas
ou percentuais) são somadas conforme procedimento na ultima coluna da tabela abaixo, e
marcadas como no gráfico a seguir.
Tabela 2.8 - Distribuição do número de pacientes segundo idade.
Programa A. Centro de Saúde X, primeiro semestre de 1999.
Idade (anos)
10
15
15
20
20
25
25
30
30
35
35
40
40
45
Total
.f
10
15
60
65
40
50
30
270
.f(acumulada)
10
25
85
150
190
240
270
FONTE: Centro de Saúde X
Figura 2.9 - Distribuição do número acumulado de pacientes segundo
idade. Programa A. Centro de Saúde X, primeiro semestre de 1999.
freqüência acumulada
%
250
100
90
80
200
70
60
150
50
40
100
30
20
50
10
0
0
10
15
20
25
30
35
40
45
idade (anos)
Fonte: Centro de Saúde X
Esse gráfico permite localizar o MEIO da distribuição (idade mediana 29 anos ) no
eixo horizontal. Também possibilita visualizar, de modo aproximado, os percentis
da distribuição, tais como:
a)
b)
c)
d)
e)
percentagem de pacientes com idade até 30 anos 56%
percentagem de pacientes com idade igual a 25 anos ou mais 68,0%
o valor da variável que divide a distribuição em 2 partes iguais 29 anos
70% dos pacientes apresentam idade igual ou inferior a 35 anos
a percentagem de pacientes cuja idade está compreendida entre 15 e 34 anos completos
68,0 %
24
6.3. Séries temporais
Consiste na representação gráfica de uma informação por meio de uma linha poligonal. O
gráfico de linhas é muito utilizado para acompanhar a evolução de uma variável ou também
para comparação entre duas ou mais variáveis. Nesse último caso, às vezes encontramos
dificuldades quando as séries em questão possuem unidades de medida ou grandeza diferentes. O
que se faz, em geral, é adotar uma escala adequada ou converter os dados para uma outra base, ou
ainda se utilizar de eixo suplementar.
Definição: Uma série temporal é qualquer conjunto de observações ordenadas no tempo.
Exemplo extraído do DATASUS: Evolução das Condições de Nascimento em São Paulo
Evolução das Condições de Nascimento
25
50
20
40
%
15
30
10
20
5
10
0
0
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
Taxa Bruta de Natalidade
60
% com prematuridade
% de partos cesáreos
% baixo peso - geral
% de mães de 10-19 anos
% de mães de 10-14 anos
Taxa Bruta de Natalidade
Ano
Fonte: SINASC. Situação da base de dados nacional em 14/12/2009.
Nota: Dados de 2008 são preliminares.
Coeficiente de Mortalidade para algumas causas selecionadas (por 100.000 habitantes)
Causa do Óbito
2002
Aids
11.4
Neoplasia maligna da mama (/100.000 mulheres)
18.8
Neoplasia maligna do colo do útero (/100.000 mulh)
5.2
Infarto agudo do miocardio
56.0
Doenças cerebrovasculares
54.5
Diabetes mellitus
21.2
Acidentes de transporte
9.5
Agressões
50.2
Fonte: SIM. Situação da base de dados nacional em 14/12/2009.
Nota: Dados de 2008 são preliminares.
2003
10.7
19.2
4.8
56.6
52.0
21.2
13.8
47.0
2004
9.5
18.6
4.4
53.8
53.8
21.5
13.4
36.8
2005
9.4
19.7
5.5
47.9
49.6
18.6
14.2
25.8
2006
9.4
20.4
4.5
49.9
50.8
19.5
14.9
23.0
2007
8.5
20.0
4.6
52.0
50.1
20.5
15.7
17.4
2008
9.3
20.8
4.2
52.9
52.6
20.7
14.3
14.9
25
HEP 5732 - BIOESTATÍSTICA
6.4. Escalas aritméticas e logarítmicas
Com relação a escala, em geral utilizamos a escala aritmética, porém em várias situações a
escala logarítmica se torna imprescindível. A denominação para esses gráficos é logarítmico ou
semi-logaritmico.
Os gráficos semi-logarítmicos são úteis quando as razões relativas de crescimento têm
significado ou quando são necessárias comparações entre razões de crescimento de duas séries ou
mais. Da mesma forma estes gráficos são úteis quando comparamos duas séries cujas magnitudes
são bastante diferenciadas.
BIOESTATISTICA 1 - 2006 (Aula 4)
ESCALA SEMILOG PARA DIAGRAMAS
LINEARES
ano
total
1968
1969
1970
1971
1972
1973
1974
a)
junho
1,4
1,5
2,1
6,6
15,6
26,5
17
0,13
0,12
0,22
0,37
1,49
2,24
6,26
escala aritmética
Coeficiente de mortalidade (por 100.000 hab.) por meningite meningocócica no Município de São Paulo, no período de
1968 a 1974 observados durante todo o ano (total) e mês de junho de cada ano
30
Coeficiente
25
20
15
10
5
0
1968
1969
1970
1971
1972
1973
1974
Ano
total
junho
Fonte: Ver. Saúde Pública, 10:1-16, 1976
b)
escala logarítmica
Coeficiente de mortalidade (por 100.000 hab.) por meningite meningocócica no Município de São Paulo, no período
de 1968 a 1974 observados durante todo o ano (total) e mês de junho de cada ano
Ceficiente
100
10
1
0,1
1968
1969
1970
1971
1972
1973
1974
Ano
total
junho
Fonte: Ver. Saúde Pública, 10:1-16, 1976
26
6.5 Box Plot
O Box Plot (desenho esquemático ou esquema de cinco números) informa medidas de posição,
dispersão, assimetria, caudas e dados atípicos (outliers). A posição central é dada pela mediana e
a dispersão pela amplitude interquartílica. As medidas de posição q1, q2 e q3 informam a
assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que vão do
retângulo aos valores distantes e pelos valores atípicos.
Uma definição intuitiva de um "outlier" poderia ser: "uma observação que se desvia tanto das
demais, que nos faz suspeitar que fosse gerada por um mecanismo diferente".
Um conjunto de dados pode possuir uma ou mais observações que "parecem não pertencer ao
conjunto" e, portanto, para evitar distorções, deveriam ser descartadas antes da análise dos dados.
Escolher ou descartar tais observações é um processo subjetivo e, quando executado
inescrupulosamente pode levar a resultados indesejáveis. Para resolver este problema, foram
construídos testes que poderão ser utilizados para determinar se um "outlier aparente" está
realmente além do padrão exibido pelas outras observações.Este assunto será abordado no ítem
"Teste de Hipóteses".
No entanto uma representação gráfica pode nos auxiliar na detecção dos "outliers".
É importante lembrar que, muitas vezes, um "outlier" é uma observação pertinente, ou seja, um
"outlier" pode ser uma indicação de que o fenômeno que estamos estudando é, na realidade,
diferente daquele que pensamos ser.
Exemplos disso ocorrem frequentemente no campo da astronomia. "Outliers", muitas vezes,
indicaram a presença de astros que ainda não haviam sido descobertos pelo homem. A presença
(desconhecida) destes astros pode modificar o conjunto de observações do cientista, gerando
assim as "observações suspeitas".
Enfim, a eliminação ou não de um "outlier" é um problema que, independentemente de análise
matemática, deve ser resolvido pelo "bom senso" e crítica do especialista que está fazendo a
análise.
Exemplo: Saída do SPSS
Outliers
3,4
Gráfico Box-Plot
10
Exemplo: Preço médio do produto A
N
Range
Mean
Median
Percentil 25
Percentil 75
Interquartile Range
Variance
Skewness
Kurtosis
90
1,2
2,99
2,98
2,94
3,05
0,11
0,02
-2,92
19,64
3,2
3o. Quartil
Mediana
3,0
1o. Quartil
2,8
43
2,6
Pontos
Extremos
2,4
2,2
82
2,0
N=
90
LIGA_MIN
Preço médio
do produto A
27
HEP 5732 - BIOESTATÍSTICA
Cálculo do Box Plot
ponto extremo
*
*
Q3+3*IQ
“outlier”
Q3+1.5*IQ
q3
q2
Inter-quartil (IQ)
q1
Q1-1.5*IQ
*
“outlier”
*
Q1-3*IQ
ponto extremo
EXERCÍCIOS
Represente graficamente as variáveis levantadas na pesquisa de medicamentos usando o
programa STATA. Use os dados do arquivo_pesq_medicamentos_curso_v1.dta e siga o
roteiro:
1)
2)
Construir os gráficos para cada variável de investigação. Escolha o gráfico adequado para
cada tipo de variável.
Existe outlier na variável renda?
28
7.
MEDIDAS RESUMO
A sintetização dos dados sob a forma de distribuição de frequência é uma primeira etapa no
estudo dos fenômenos estatísticos.
Necessitamos, além disso, de medidas que resumam as características peculiares do fenômeno.
Isso permite, entre outras coisas, comparar entre si, séries de dados, através do confronto desses
parâmetros.
As características que essas medidas devem possuir são relativas ao:
seu valor central
seu grau de dispersão em torno do valor central
seu grau de assimetria, se existir
7.1. Medidas de Tendência Central
Definição
O conceito de medida de tendência, diz respeito à medida de um valor que possa melhor
representar a tendência de um conjunto de números de uma variável. As três medidas mais
utilizadas são a média, a mediana e a moda.
Finalidade
As medidas de Tendência Central indicam o centro da distribuição de frequências ou a região
de maior concentração de frequência na distribuição.
Média aritmética
A média aritmética é a primeira idéia que ocorre quando se fala em “média” de alguma variável
numérica e é calculada dividindo-se a soma dos números do conjunto pelo tamanho do mesmo.
Assim a média entre 2, 4 e 6 é:
(2+4+6)/3 = 4.
A média populacional é convencionalmente denominada µ, e é calculada da forma genérica
como:
X 3 ....... X N
1 N
Xi , onde, N é o tamanho da população e “i” assume
N
N i1
valores de 1 até N e representa cada um dos indivíduos da população.
X1
X2
Já a média de uma amostra, ou média amostral, é designada por X e assume a forma:
n
xi
x3 ....... x n
i 1
X
, onde n é o tamanho total da amostra e “i” assume valores de
n
n
1 até n e representa cada um dos indivíduos da amostra.
x1
x2
Observa-se que, dada uma amostra de tamanho n retirada de uma população de tamanho N, X é
apenas uma estimativa de µ, ou seja, a média amostral é uma estimativa da média populacional.
29
HEP 5732 - BIOESTATÍSTICA
Propriedades da média aritmética
1. A média de qualquer conjunto pode ser sempre calculada.
2. Para um dado conjunto de números a média é única.
3. A média é afetada por todos os valores do conjunto.
4. Somando-se, subtraindo-se, multiplicando ou dividindo cada elemento do conjunto por uma
constante a média também será acrescida, diminuída, multiplicada ou dividida por esta constante,
respectivamente.
Calculando a média de dados agrupados
Considere o número de internações (X) de um hospital, observado para os trinta dias do mês de
abril de 2003. Os dados são listados abaixo, por ordem cronológica. A tabela 1 apresenta sua
distribuição de frequências e demais colunas para calculo da média e da mediana
N = 30 dias
amplitude : ( 0 =< X <=9 )
DIA
1 2 3 4 5 6 7
X = Número de
3 0 5 2 0 1 7
internações
DIA
X = Número de
internações
8
4
9
0
10 11 12 13 14 15
0 1 9 1 3 2
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
5 2 7 5 1 0 4 6 4 0 3 5 8 5 6
Tabela 1 – Distribuição de freqüências de X
X
F
0
6
1
4
2
3
3
3
4
3
5
5
6
2
7
2
8
1
9
1
total 30
Tabela 2 - Procedimento para cálculo.
X
0
1
2
3
4
5
6
7
8
9
Total
F
6
4
3
3
3
5
2
2
1
1
30
X.f
0
4
6
9
12
25
12
14
8
9
99
Usando dados da terceira coluna ,…….. X
X. f
N
99
30
3,3... int ernações..... por......dia
30
Média Geométrica
É calculada através de raiz n-ésima do produto das N observações da variável.
N
Mg
X1F1 XF22 ... XFNN
onde Fi é frequência
Esta média é utilizada quando variável em estudo apresenta um comportamento
exponencial ou segue uma progressão geométrica.
Exemplos: Índice Médio Mensal da Inflação, Crescimento Populacional.
Exemplo: Calcular a média geométrica dos valores 3, 6, 12, 24, 28
Mg
5
3 6 12 24 28
12
obs: F1= F2 = F3 = F4 = F5 =1
Média Harmônica
É calculada através do recíproco da média aritmética dos recíprocos das observações da variável
aleatória.
Mh
N
F1
F2
X1
X2
N
...
FN
N
XN
i 1
Fi
Xi
N
fi
Obs:
N
i 1
Exemplo: Calcular a média harmônica para 2, 5, 8.
Mh
1
3
3
1
5
1
8
3,64
31
HEP 5732 - BIOESTATÍSTICA
Mediana
A mediana divide um conjunto ordenado de dados em dois grupos de quantidades iguais. A
metade do grupo estará abaixo e, a outra metade, acima da mediana. Isto significa que para um
conjunto de dados, se os mesmos forem ordenados, a mediana ocupará o centro deste conjunto.
Ex: Dada a variável x = {1, 3, 0, 2,4}, a mediana é 2, pois ordenando, temos {0,1,2,3,4}
Para se calcular a mediana de um conjunto de dados deve-se:
1) ordenar o conjunto;
2) verificar se há um número par ou ímpar de valores no conjunto;
3) verificar que, se o conjunto tiver um número ímpar de elementos, a mediana será o valor que
n 1
ocupa a posição central, ou seja, posição
neste conjunto, mas se o conjunto tiver um número
2
par de elementos, a mediana será a média entre as duas posições centrais, ou seja, a média das
n n 2
posições
e
(lembrando que n é o número de elementos do conjunto, ou da amostra).
2
2
Calculando a mediana em dados agrupados de uma variável discreta
Usando os dados da internação calcule a mediana dos dados apresentados na tabela 3.
Tabela 3– calculo da mediana em dados agrupados(frequências)
X
F
%
0
1
2
3
4
5
6
7
8
9
total
6
4
3
3
3
5
2
2
1
1
30
20,0
13,3
10,0
10,0
10,0
16,7
6,7
6,7
3,3
3,3
100,0
%
acumulada
20,0
33,3
43,3
53,3
63,3
80,0
86,7
93,4
96,7
100,0
N=30 (par).....Mediana = média dos dois valores de X que estão nas posições centrais.
Note que os dois valores localizados nos postos décimo quinto (N/2) e décimo sexto (N/2)+1
são iguais a 3..Portanto......mediana = 3 internações por dia
Observação : Se N for impar , o valor mediano ocupará o posto de ordem (N+1)/2 . Ou seja, a
mediana é expressa pelo valor de X que se localiza exatamente no meio da distribuição de
frequências .
32
Calculando a mediana de dados agregados em intervalos de valores
Os valores da variável estão agrupados em classes. O ponto médio de cada classe será tomado
como valor de X para calcular a média .
Tabela 4 - Média e Mediana para valores de X agrupados em classes
(1)
(2) (3)
(4) (5)
(6)
(7)
Numero
.f Ponto
X . f f acumulada %
%
de internações
Médio (X)
acumulada
0 |------ 3
13 1,5
19,5 13
43,3 43,3
3 |------ 6
11 4,5
49,5 24
36,7 80,0
6 |------| 9
6 7,5
45,0 30
20,0 100,0
Total
30
114
100,0
O valor mediano ,que está no décimo quinto posto (30/2), situa-se na segunda classe. Ou seja, é
maior ou igual a 3 e menor que 6 . Usando calculo proporcional>>>poderemos seguir o seguinte
raciocínio .
A – vemos na coluna 5 da tabela 4 que faltam apenas (15 – 13=2) 2 dias para localizar o valor
mediano.
B - Mediana = 3 internações + (k)int?......
k int./2 dias = 3int / 11 dias
C - K interações = (3x2)/11 = 6/11 = 0,54 internações por dia
B - Mediana = 3 + 0,54 = 3,54 internações por dia .
Ou poderemos optar pelo uso da expressão abaixo:
Mediana será calculada pela expressão
Md
Li
( N / 2) f ac
.hmed ,
f med
Onde : Li = é o limite inferior da classe que contém a mediana ( 3 |---- 6 )
N = 30
.fac = frequencia acumulada até a classe anterior à que contém a mediana (13)
.fmed = frequência da classe que contem a mediana
(11)
.hmed = amplitude da classe que contem a mediana (3)
Md = 3 + [(15 – 13) / 11] . 3 = 3 + 0,54 = 3,54 internações
Quartis
Os quartis dividem o conjunto de dados em quatro partes iguais e os percentis em 100 partes
iguais.
Quadro 1– Apresentação e explicação dos quartis.
Estatística
Notação Definição, propriedades
1º quartil
Q1
2º quartil
(Mediana)
Q2
Me
3º quartil
Q3
É o valor que ocupa a posição tal que um quarto dos dados (25%)
tomam valores menores ou iguais ao valor do primeiro quartil.
Coincide com o valor da mediana, ou seja 50% dos dados tomam
valores menores ou iguais aos da mediana. Entre o primeiro
quartil (Q1) e a mediana (Me) ficam 25% dos dados.
É o valor que ocupa a posição tal que um quarto dos dados (25%)
tomam valores maiores ou iguais ao valor do terceiro quartil.
Entre a mediana (Me) e o terceiro quartil (Q3) ficam 25%
33
HEP 5732 - BIOESTATÍSTICA
Percentis
Os percentis dividem o conjunto de dados em 100 partes iguais.
Quadro 2 – Percentis.
Percentil
1º
5º
10º
25º
50º
75º
90º
95º
99º
Notação Definição, propriedades
P1
P5
P10
P25
P50
P75
P90
P95
P99
1% dos dados tomam valores menores ou iguais
5% dos dados tomam valores menores ou iguais
10% dos dados tomam valores menores ou iguais
25% dos dados tomam valores menores ou iguais (Q1)
50% dos dados tomam valores menores ou iguais (Q2 = Me)
25% dos dados tomam valores maiores ou iguais (Q3)
10% dos dados tomam valores maiores ou iguais
5% dos dados tomam valores maiores ou iguais
1% dos dados tomam valores maiores ou iguais
Moda
A moda é o valor que aparece com maior freqüência. É a medida menos usada.
Ex: Seja x = {0, 1, 0, 2, 3, 4, 4, 0, 3, 2, 5, 6}, a moda é 0.
Seja x= {3; 1; 2; 3; 3; 4; 5; 1,5; 2; 1,5; 0; 4; 1,5; 1,5; 6} a moda é 1,5.
A moda (valor da variável que ocorreu com maior frequência) é igual a 0 para a variável tratada
como discreta na Tabela 2. Na tabela 4, com os valores agrupados em classe, a classe ( 3 – 6 )
contém a moda.
A expressão abaixo pode ser usada para calcular a moda em valores agrupados em classe, quando
a classe modal for única e não estiver situada nos extremos da distribuição.
calcula-se a moda pela expressão:
Moda
Li
d1
.h
d1 d 2
onde:
( L1 ) é o limite inferior da classe modal
(.d1 ) a diferença entre a frequência da classe modal e a da classe imediatamente anterior .
(.d2 ) a diferença entre a frequência da classe modal e da classe imediatamente seguinte, e
( h ) é a amplitude da classe modal
34
Comparação entre Média, Mediana e Moda
Muitas vezes é necessário decidir qual a medida de tendência central que mais se adequada aos
objetivos. A seguir, segue uma tabela que apresenta vantagens e limitações de cada uma delas.
Quadro 3 – Vantagens e desvantagens de cada uma das medidas de tendência central.
Vantagens
Reflete todos os valores
Média
da amostra
Menos sensível à valores
Mediana
extremos que a média
Representa um valor
Moda
típico
Limitações
É influenciada por valores
extremos
Mais difícil de ser determinada
para grande quantidade de dados
Não tem função em certos
conjunto de dados
Tipo de Variáveis
Contínua e Discreta
Contínua e Discreta
Contínua, Discreta,
Nominal e Ordinal
Pensando ....
Durante uma verificação de qualidade no conteúdo de seis recipientes de café instantâneo,
foram obtidas as seguintes as seguintes notas:
6,03 5,59 6,40 6,00 5,99 6,02
Qual a quantidade média e mediana encontrada?
Suponha que o terceiro valor tenha sido incorretamente medido e que na verdade seja de
6,04. Determine novamente a nota média e mediana.
Qual a conclusão?
35
HEP 5732 - BIOESTATÍSTICA
7.2. Medidas de Dispersão
As medidas de tendência central nos dão uma idéia da concentração dos dados em torno de um
valor. Entretanto, é preciso também conhecer suas características de espalhamento ou dispersão.
Para avaliar quantitativamente o grau de variabilidade ou dispersão dos valores de um conjunto
de números em torno de um valor médio, faz-se uso das denominadas medidas de dispersão:
Variância e Desvio padrão
Amplitude
Interquartil
Variância e Desvio padrão
A variância e o desvio padrão é a medida de dispersão universalmente usada em variáveis
discretas e contínuas. Informa a distância média de todos os valores observados de X em torno da
sua média aritmética .
Cálculo da Variância e do Desvio padrão:
n
x )2
( xi
i 1
Varância
n 1
n
( xi
Desvio. padrão
x)2
i 1
n 1
Cálculo do desvio padrão quando os dados estão agrupados:
Voltando à tabela 1, desenvolve-se o seguinte procedimento:
X
0
1
2
3
4
5
6
7
8
9
F
6
4
3
3
3
5
2
2
1
1
X-MEDIA
0 - 3,3= - 3,3
1 - 3,3= - 2,3
2 - 3,3= - 1,3
3 - 3,3= - 0,3
4 - 3,3= 0,7
5 - 3,3= 1,7
6 - 3,3= 2,7
7 - 3,3= 3,7
8 - 3,3= 4,7
9 - 3,3= 5,7
30
(X-MEDIA)2
10,89
5,29
1,69
0,O9
0,49
2,89
7,29
13,69
22,09
32,49
(X-MEDIA) 2 . F
10,89 X 6=65,34
5,29 X 4 = 21,16
1,69 X 3 = 5,07
0,O9 X 3 = 0,27
0,49 X 3 = 1,47
2,89 X 5 = 14,45
7,29 X 2 = 14,58
13,69 X 2 = 27,38
22,09 X 1 = 22,09
32,49 X 1 = 32,49
204,30
Variância = 204,30 / 30 = 6,81 internações 2
Desvio padrão =
6,81 = 2,61 internações
Note que a variância é igual a media dos desvios ao quadrado. Isto decorre da propriedade da
média, cuja soma dos desvios simples é sempre igual a zero.
36
Coeficiente de variação = 2,61/3,3= 0,791 ou 79,1% . significa que a dispersão da distribuição
em torno da média de internações é alta (muito próximo de 100%) . Ou seja, o desvio padrão é
quase igual a média , o que indica que há valores muito distantes da média .
Síntese:
1 - Informações descritivas
Variável : numero de internações ;
N = 30
Amplitude = 9 internações ( 0 – 9 );
média = 3,3 internações; dp = 2,61 internações
2 – Os cálculos serão iguais para variáveis continuas. Apenas observe que os valores de X serão
expressos pelos pontos médios das classes.
3 – Observe a formula da Variância: média dos quadrados dos desvios em relação à média da
distribuição.
Amplitude
Uma medida de dispersão é a da amplitude total do conjunto de dados calculada pela diferença
entre o valor máximo menos o valor mínimo.
Exemplo: x={-1, 2, 0, 3, 2, 1}, amplitude é 3 – (-1) = 4.
A amplitude pode levar a erros de avaliação, pois não representa o conjunto dos dados. Muitas
vezes reflete muito mal a dispersão dos mesmos.
Aplicações: Controle de qualidade, Temperatura entre outras.
Interquartil
É uma medida de dispersão definida como a diferença entre o terceiro e o primeiro quartis. Essa
medida de dispersão é usada para expressar a variabilidade em torno da mediana.
Aplicações: Na construção do Box Plot e para expressar a variabilidade em torno da mediana.
37
HEP 5732 - BIOESTATÍSTICA
EXERCICIO
1)
Numero
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
Fuma
0
0
0
1
1
0
0
0
0
1
0
0
1
0
1
1
0
0
0
11
0
1
0
0
0
1
1
1
0
0
1
0
Pressão sistólica
152
124
105
146
167
156
133
144
186
103
98
131
155
163
136
129
170
160
142
142
115
201
129
158
113
149
157
132
146
175
142
118
Pressão diastólica
71
77
61
96
120
94
89
81
138
75
67
87
99
90
74
66
112
85
86
82
76
119
83
92
70
84
98
78
88
103
79
68
IMC
1
1
1
1
2
0
0
2
1
0
1
1
1
1
1
1
1
2
1
1
1
1
1
1
2
0
0
2
2
1
1
0
a) Calcule média, mediana e moda para a pressão sistólica.
b) Repita calculo das medidas anteriores para os dados separados (estratos) fumantes e não
fumantes.
c) Compare os resultados. Tente uma conclusão.
38
Ambos os conjuntos de dados representados na figura a seguir têm média igual a 50. Um
deles tem desvio padrão de 3,8 e outro, de 5,8. Qual é qual? Calcule o coeficiente de variação e
justifique sua resposta.
2)
35
35
30
30
25
25
%20
%20
15
15
10
10
5
5
0
0
39
42
45
48
51
valor
54
57
60
39
(a)
3)
42
45
48
51
54
valor
57
60
(b)
Dado três conjuntos de dados A, B e C. Calcule a média e desvio padrão. Comente os
resultados. Qual a conclusão?
A: 4, 4, 4, 4, 4, 4, 4, 4
B: 3, 3, 3, 3, 5, 5, 5, 5
C: 1, 1, 3, 3, 5, 5, 7, 7
Associe as distribuições (4.1) com as medidas de posição (4.2):
4)
(4.1)
Simétrico
(a)
Assimétrico à direita
(c)
Uniforme
(b)
Assimétrico à esquerda
(d)
(4.2) Medidas de posição:
1) Média = Mediana = Moda
2) Média > Mediana
3) Média < Mediana
Respostas:
5)
É importante informar a média e desvio padrão de uma variável quantitativa? Justifique.
39
HEP 5732 - BIOESTATÍSTICA
8. Referências bibliográficas
BUSSAB, W.O.; MORETTIN, P. A., Estatística Básica, 5a. ed., São Paulo: Saraiva, 2006.
MORETIM, P.A.; TOLOI, C.M.C. Análise de Séries Temporais,
Blücher, 2006.
2ª ed., São Paulo: Edgard
SILVA, NN. Amostragem Probabilística. 2ª ed., São Paulo: Editora da Universidade de São
Paulo, 2001.
40
Download