Medidas de tendência central e de dispersão

Propaganda
MEDIDAS DE POSIÇÃO E
DE DISPERSÃO
Profª Andréa H Dâmaso
Bioestatística e Delineamento Experimental - 2011
Tópicos da aula

Medidas de tendência central e dispersão

Variáveis contínuas: distribuição normal

Amostra

Variabilidade amostral
Relembrando... tipos de variáveis
Dicotômicas
Sexo, raça,
estado civil,
religião...
“CONTAGENS”
Nº filhos, anos de
estudo...
Politômicas
Nominais
(ordem não importa)
Ordinais
(tem uma ordem lógica)
“MEDIDAS”
Peso, altura,
Discretas
pressão.
(números inteiros)
Renda familiar
(R$)
Contínuas
(aceitam decimais)
NSE, IMC categ,
avaliação
qualitativa...
Estatística descritiva
Medidas de ocorrência
FREQUÊNCIA ou PORCENTAGEM
 Incidência
 Prevalência
 Odds
Medida de precisão
INTERVALO DE CONFIANÇA
Medidas tendência central
MODA
MÉDIA
MEDIANA
Medidas de dispersão
AMPLITUDE
VARIÂNCIA
DESVIO PADRÃO
ERRO PADRÃO
Distribuição de frequência


Descrição de uma variável qualitativas ou categóricas

Dicotômicas ou binárias

Politômicas
Cálculo de proporções

Divisão de um número por outro, onde o numerador está
contido (é subconjunto) no denominador

Exemplo: Desnutrição: sim /não

Em 100 crianças, 20 estão desnutridas (20%)
Como apresentar as informações?
Dados da coorte de nascimentos de 2004. Pelotas, RS (n=6000)
Número
Peso ao nascer
(g)
Número de
gravidez
1
750
1
2
1500
3
3
1520
2
4
2450
4
5
1790
1
6
3000
2
7
1930
2
.....
.....
...
5999
3510
1
6000
2900
1
Distribuição de frequência


Descrição de uma variável numérica
Tabela que mostra um número de observações ou
valores dentro de certos intervalos
Distribuição de frequência: variável “discreta”
Número de gravidezes das mães da coorte de 2004. Pelotas, RS (n=6000)
Número de gravidez
Frequência (n)
%
1
2092
34,9
2
1644
27,4
3
970
16,1
4
544
9,1
5
282
4,7
6
168
2,8
7
105
1,8
8
69
1,2
9
48
0,8
10
39
0,7
11
20
0,3
12
11
0,1
13
8
0,1
Distribuição de frequência: variável “discreta”
Número de gravidez das mães da coorte de 2004. Pelotas, RS (n=6000)
Número de gravidezes
Frequência (n)
%
1
2092
34,9
2
1644
27,4
3
970
16,1
≥4
1294
21,6
Distribuição de frequência: variável “contínua”
Peso ao nascer das crianças da coorte de 2004. Pelotas, RS (n=4555)
Peso ao nascer (gramas)
Frequência
%
<1000
52
1,1
1000-1499
43
0,9
1500-1999
98
2,2
2000-2499
305
6,7
2500-2999
1112
24,4
3000-3499
1747
38,3
3500-3999
976
21,5
4000
222
4,9
...

... mas para variáveis contínuas queremos descrever
os dados de forma ainda mais sucinta!
Medidas de tendência central
 Medidas de posição
 Medidas de dispersão

Descrição de variáveis contínuas
MÉDIA
MEDIANA
MODA
TERCIL
QUARTIL
QUINTIL
DECIL
PERCENTIL
AMPLITUDE
INTERVALO INTERQUARTIL
VARIÂNCIA
DESVIO PADRÃO
Medidas de tendência central, de posição e
de variabilidade ou dispersão

Utilizadas para variáveis:


Quantitativas ou numéricas

Discreta

Contínua
São valores calculados com o objetivo de descrever os
dados de forma ainda mais resumida do que usando uma
tabela
Medidas de tendência central

Média

Moda

Mediana
Medidas de tendência central

Média
n
x
x
i 1
i
n
xi: valor de cada indivíduo
 ∑: somatória
 n: total de indivíduos

Vantagem:
Utiliza TODOS os
valores da distribuição
Desvantagem:
É influenciada por
valores extremos
Medidas de tendência central

Moda

Valor que mais se repete na amostra (na distribuição)
1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 4, 8, 9, 9


Moda: 2
Quando mais de um valor se repete o mesmo número de
vezes  BIMODAL
Medidas de tendência central

Mediana




Valor que divide a distribuição ao meio
1º passo: ordenar os dados de menor a maior
2º passo: ver qual valor ocupa o “meio” da distribuição
Se...

Número ímpar de dados: valor do meio
1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 4, 8, 9, 9

Número par de dados: média dos dois do meio
1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 8, 9, 9
Fórmula:
(n + 1)/2
Média x Mediana

Semelhantes para distribuições simétricas: Peso ao nascer
Média: 3131 g
 Mediana: 3180 g


Distantes para distribuições assimétricas: Renda familiar
Média: R$ 791
 Mediana: R$ 500

Então...

Qual medida de tendência central usar?
 MÉDIA
ou MEDIANA?
Mediana x Média: peso ao nascer
Distribuição simétrica
1000
n
1500
2000
Média
0
500

1000
2000
3000
4000
Peso ao nascer
5000
Média: 3131 gramas; Mediana: 3180 gramas
6000
Mediana x Média: renda familiar
Distribuição assimétrica
n
2000
3000
Mediana
0
1000

0
5000
10000
15000
Renda familiar (reais)
Média: R$ 791; Mediana: R$ 500
20000
Medidas de posição

Percentis (dividem os dados em 100 partes iguais)


Quartis


Percentil 10, percentil 50, percentil 99...
Primeiro, segundo, terceiro, quarto quartil
Quintil

Primeiro, segundo, terceiro, quarto, quinto quintil
Percentis de peso ao nascer
. su peson,d
peso ao nascer em gramas
------------------------------------------------------------Percentiles
Smallest
1%
1950
1100
5%
2340
1490
10%
2570
1550
Obs
962
25%
2870
1570
Sum of Wgt.
962
50%
75%
90%
95%
99%
3180
3510
3830
4050
4450
Largest
4690
4700
4700
4880
Mean
Std. Dev.
3200.639
511.0475
Variance
Skewness
Kurtosis
261169.5
-.1061833
3.579037
Medidas de dispersão (variabilidade)

Várias maneiras de medir a dispersão
Amplitude (maior - menor)
 Amplitude interquartil (p75 - p25)
 Variância
 Desvio padrão

Medidas de dispersão (variabilidade)

Amplitude
Valor maior – valor menor
 Apenas considera os valores extremos
 Ex: 5 medidas de glicemia em mmol/l

80; 85; 88; 90; 500
 Amplitude: 500-80=480


Medidas que se distanciam muito das demais influenciam
muito a amplitude
Medidas de dispersão (variabilidade)

Amplitude interquartil
Percentil 75 – percentil 25
 Considera apenas a parte central dos valores de um
conjunto de dados
 Joga fora os valores mais altos e os mais baixos


Não influenciada pelos valores discrepantes
Medidas de dispersão (variabilidade)

Variância (S2)
Boas propriedades estatísticas
 Usa todas as observações
 É uma medida dos “desvios” (ao quadrado) de cada
observação em relação à média

Pq ao quadrado?
 Unidade de medida ao quadrado  difícil interpretação

Medidas de dispersão (variabilidade)

Desvio padrão (S)
É a raiz quadrada da variância
 Quanto mais próximos os valores individuais estiverem de
sua média, < a dispersão e < o desvio-padrão
 Muito útil para distribuições dos dados aproximadamente
normais

Distribuição normal





Ou Gaussiana
Simétrica
Forma de “sino”
É uma distribuição contínua
Descreve bem fenômenos biológicos
Percentagem
18
16
14
12
10
8
6
4
S td . D e v = 5 5 7 .3 8
2
M ean = 31 52
N
0
600
1 40 0
1000
2200
1800
3 00 0
26 0 0
3800
3 4 00
Peso ao nascer
4 60 0
4200
5400
5 0 00
= 5 2 5 8 .0 0
Distribuição normal padrão (propriedades)

1. Qualquer variável com distribuição simétrica
(normal) pode ser relacionada com uma distribuição
normal padrão
Média: zero; DP: 1
 Posso estimar entre quais valores está x% dos meus dados

Distribuição normal padrão (propriedades)

2. Área abaixo da curva


A área abaixo de toda a curva normal = 1, ou seja, a
probabilidade de que uma observação fique em algum
lugar abaixo da curva é 100%
3. A probabilidade de se estimar a localização
exata de um indivíduo em específico é “zero”

Não posso estimar a posição de um valor específico, mas
posso calcular:


Proporção de indivíduos abaixo ou acima de certo valor
Proporção de indivíduos entre certos valores
Distribuição normal padrão (propriedades)


Exemplo
Qual a probabilidade de uma criança ter peso ao
nascer igual a 4000 gramas?


Não tenho como calcular esta probabilidade exata, mas
posso calcular...
Qual é a proporção de crianças com peso ao nascer
maior de 4000 gramas?
Área abaixo da curva
Média = 3230
DP = 610
Crianças com peso ao
nascer > 4000 gramas
Área abaixo da curva

Distribuição normal padrão
(x - média)/desvio padrão
 (4000 - 3230)/610 = 1,26 = z



Olhando as tabelas de distribuição normal...
z = 0,1038, ou seja, 10,4% das crianças tem peso
ao nascer maior do que 4000 gramas
... Uso de amostras

O que seria uma amostra? Não é melhor avaliar
toda a população ?
Amostra

Quero conhecer um atributo de uma população (alvo)


Escolho um grupo para estudar


Estado nutricional das crianças brasileiras menores de 5 anos
Crianças menores de 5 anos da cidade de Pelotas
Deste grupo tiro uma amostra
Definição da população
UNIVERSO ou POPULAÇÃO TOTAL
POPULAÇÃO ALVO
AMOSTRA
Amostra: características

1. Representar a população

Equiprobabilidade = representatividade

Todos os indivíduos da população alvo têm a mesma chance de
participar do estudo (de serem sorteados)
POPULAÇÃO ALVO
POPULAÇÃO ALVO
Amostra: características

2. Precisão
Amostra de tamanho adequado
 Garantir o mínimo de precisão
 Garantir a chance de demonstrar uma diferença entre dois
grupos




PODER: probabilidade de encontrar uma diferença qdo ela
realmente existe
Quanto maior a amostra, maior o poder
Estudos com baixo poder (amostra pequena) para testar
associações são um desperdício de tempo e dinheiro
Amostra: características

3. Variabilidade amostral
Cada amostra dá um resultado
 Repetir o processo de amostragem e estudar a distribuição
dos resultados


Como será que a distribuição das amostras se
compara com a distribuição em toda população?

Se coletarmos muitas amostras independentes, do mesmo
tamanho, de uma mesma população e calcularmos a média
de cada amostra...

Distribuição das médias amostrais
Então, a amostra...


Tem importância pelo que nos conta sobre a
população que representa
A média e o desvio padrão da amostra são usados
para estimar a média e o desvio padrão da
população
x
amostra
s


população
Distribuição das médias amostrais


A média da distribuição das médias amostrais é a
média da população (isso eu já sei!!!)
E como é a variabilidade da média da população?

O desvio padrão da distribuição das amostras se denomina
ERRO PADRÃO
Distribuição das médias amostrais


Enquanto o desvio padrão mede a variabilidade dos
indivíduos da amostra
... o erro padrão mede a variabilidade da média
das amostras

E indica com que precisão a média da população pode ser
estimada pela média amostral
Distribuição das médias amostrais

Erro padrão
Desvio padrão da
população
ep 

n
Tamanho da amostra
Distribuição das médias amostrais


Dificilmente nós conhecemos o desvio padrão da
população ()
Então se usa o desvio padrão da amostra (s) para
estimar o erro padrão
s
ep 
n
Desvio padrão da
amostra
Tamanho da amostra
E o que eu faço com o erro padrão?


Serve para calcular o Intervalo de Confiança
Intervalo de Confiança: intervalo de valores que
contém o parâmetro de interesse
Valores dentro dos quais existe uma certa probabilidade de
estar incluída a real média da população
 Usado para comparar se existem diferenças entre dois ou
mais grupos



Testes de hipóteses
Isso será visto nas próximas aulas...
Referências bibliográficas


Massad E, Menezes R, Silveira P, Ortega N. Métodos Quantitativos em
Medicina. SP: Manole, 2004
Kirkwood B and Sterne J. Essential of medical statistics. Blackwell Science,
2003
Download