Redução dos Dados

Propaganda
Redução dos Dados
Júlio Osório
Medidas Características da Distribuição
Tendência Central
(Localização)
Variação
(Dispersão)
Forma
1
Medidas Características da Distribuição
Medidas Estatísticas
Tendência
Central
Dispersão
Forma
Média
Amplitude
Mediana
Desvio Interquartil
Moda
Variância
Assimetria
Curtose
Desvio Padrão
Coeficiente de Variação
Notação Convencionada para as
Medidas
Medida
Amostra
População
X
µ
Desvio padrão
S
σ
Variância
S
2
σ
Tamanho
n
Média
2
N
2
Medidas de Tendência Central
A média, or média aritmética, é a mais vulgarmente utilizada medida
de tendência central, e o seu valor é dado por:
i =n
___
X =
∑X
i =1
i
n
Sendo:
Xi
n
= valores observados da variável X
= número de observações (tamanho da amostra)
A moda é o valor a que corresponde a maior frequência, representando
o pico mais elevado da distribuição. A moda é uma boa medida de
localização para variáveis intrinsecamente categóricas, ou para aquelas
que o não sendo (intervalo/razão), tenham sido agrupadas em
categorias.
Medidas de Tendência Central
A mediana é o valor central da série quando os dados estão ordenados
por ordem crescente ou decrescente.
A mediana é o Percentil 50 (P50): 50% dos dados são inferiores à
mediana e 50% são superiores
Se n é ímpar, a série tem um único valor central, que é precisamente a
mediana.
Se n é par, a mediana é assumida como sendo a média dos 2 valores
centrais da série.
A posição da mediana vem dada por:
posição =
n +1
2
3
Medidas de Tendência Central
Propriedades da média aritmética:
Única, simples de calcular e de interpretar.
Entra em linha de conta com todos os valores da série.
Acentuadamente influenciada pelos valores extremos:
bastam alguns valores acentuadamente baixos/elevados
para dar uma medida errónea da tendência central dos
dados.
Presta-se ao cálculo algébrico: por exemplo, a partir
das médias de duas variáveis é possível calcular a média
de uma variável que seja a soma, a diferença, etc. dessas
variáveis.
Exprime-se nas mesmas unidades físicas de medida
que os dados originais.
O somatório dos desvios das observações
relativamente á media é nulo:

_

∑  y − y  = 0
i


Medidas de Tendência Central
Propriedades da média aritmética:
Se A for um número real arbitrário,
∑ (y i − A) = mínimo
2
quando:
_
A=y
Se:
y' = y
i
i
+k
então:
_
_
y' = y + k
Se:
y' = y
i
i
*k
A média amostral é um
bom estimador pontual da
média populacional, e nela
se baseia a maior parte dos
métodos de estatística
inferencial respeitantes à
tendência central:
_
y→µ
então:
_
_
y' = y * k
_
∧
y=µ
4
Medidas de Tendência Central
Propriedades da mediana:
Única, simples de calcular e de interpretar.
Entra em linha de conta com todos as obervações da
série, mas pela sua ordem e não pelo seu valor.
Não é tão acentuadamente influenciada pelos valores
extremos como a média, sendo a melhor medida de
posição no caso de distribuições muito assimétricas.
Não se presta ao cálculo algébrico: não é possível
calcular a mediana da soma de duas variáveis a partir
das medianas de cada uma delas.
Exprime-se nas mesmas unidades físicas de medida
que os dados originais.
Medidas de Tendência Central
Propriedades da moda:
O seu valor é menos afectado pela assimetria da
distribuição que a média e a mediana, mas é em contrapartida
mais sujeito às flutuações da amostragem.
Muito utilizada como medida de tendência central em dados
de natureza qualitativa (escalas de medida nominais). Tem
relativamente pouca importância na investigação biológica,
embora seja relevante assinalar o número de modas
detectadas, quando haja mais do que uma (Distribuições
unimodais, multimodais e amodais).
Não se presta ao cálculo algébrico.
5
ROL SIMPLES
PROCEDIMENTO: Ordenação dos dados originais
X= peso
i= número de ordem
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Xi
i
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
963
966
967
968
969
970
971
971
972
972
973
974
975
976
977
980
980
980
981
981
981
981
981
981
Xi
i
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
982
982
984
985
987
988
988
989
989
990
990
990
991
991
991
992
993
993
994
994
994
994
995
995
995
Xi
995
996
996
998
998
998
998
999
1000
1000
1000
1000
1000
1000
1001
1001
1001
1001
1001
1002
1002
1003
1003
1003
1003
i
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
Xi
1005
1005
1007
1007
1009
1009
1010
1012
1012
1012
1012
1013
1013
1013
1015
1016
1016
1017
1017
1019
1019
1021
1022
1023
1023
1026
Cálculo da Média e da Mediana (exemplo)
Pesos (mg) da água destilada (20º C) recolhida com doseador automático
regulado para 1 cm3, em 99 operações de medida.
−
x=
963 + 966 + ... + 1023 + 1026
98502
=
= 995 .0 mg
99
99
Med = x 99 + 1 = x 50 = 995 mg
2
Suponha-se que a série de dados só tinha 58 observações, isto é que n=58 (par):
Med = x 58 + 1 = x " 29 .5 " =
2
x
29
+ x 30
2
=
987 + 988
= 987 .5 mg
2
6
Cálculo da Moda (exemplo)
Pesos (mg) da água destilada (20º C) recolhida com doseador automático
regulado para 1 cm3, em 99 operações de medida.
Histograma com 7 classes (I=10 mg)
28
26
A Moda é o centro
da classe de maior
frequência:
Moda=(990+1000)/2
= 995 mg
24
22
20
Frequência
18
16
14
12
10
8
6
4
2
0
<= 960
(970;980]
(960;970]
(990;1000]
(980;990]
(1010;1020]
(1000;1010]
> 1030
(1020;1030]
Peso da água recolhida (mg)
Medidas de Tendência Central
(Sumário)
Medida
Média
Mediana
Moda
Equação
Σ Xi / n
(n+1) (posição)
2
nenhuma
Descrição
Ponto de equilíbrio
Valor central dos
dados ordenados
Valor mais frequente
7
Medidas Características da Distribuição
Medidas Estatísticas
Tendência
Central
Dispersão
Forma
Média
Amplitude
Mediana
Desvio Interquartil
Moda
Variância
Assimetria
Curtose
Desvio Padrão
Coeficiente de Variação
Medidas de Dispersão
A amplitude (total) é a diferença entre a maior e a menor observação da
série:
amplitude = X
−X
máximo
mínimo
O desvio interquartil (DI) é a diferença entre o Percentil 75 (P75) e o
Percentil 25 (P25).
DI = P − P
Numa série de dados ordenada, o p-ésimo percentil (Pp) é o valor de tal
modo situado que p% dos dados lhe são inferiores e (100 - p)%
superiores.
O desvio interquartil (DI) também pode ser definido como a diferença
entre o 3º Quartil (Q3) e o 1º Quartil (Q1):
DI = Q − Q
Se houver valores atípicos ou aberrantes (“outliers”) na série de dados,
a amplitude total é mais afectada que a amplitude inter-quartis.
75
3
25
1
8
Medidas de Dispersão
A variância é o valor médio dos quadrados dos desvios das observações em
relação à média:
2
_


∑  X i− X 

 = SQD
s =
n −1
gl
i=n
i =1
2
O numerador de s2 denomina-se Somatório dos Quadrados dos Desvios (SQD), e
o valor n-1 (denominador de s2) representa o número de graus de liberdade da
amostra (gl).
O desvio padrão (s) é a raiz quadrada da variância.
A variância e o desvio padrão nunca assumem valores negativos.
O coeficiente de variação (CV) representa razão entre o desvio padrão e a média,
expressa em percentagem. CV é uma medida relativa e adimensional de dispersão:
CV (%) =
s
___
* 100
X
Medidas de Dispersão
Fórmulas de trabalho para o cálculo da SQD e da
variância da amostra:
2
n
∑
y
( i)
n
2
SQD = ∑ y − 1
i
n
1
2
n
∑ y − (∑ yi) / n
1
SQD
2
1
=
s =
GL
n −1
n
2
i
9
Medidas de Dispersão
Propriedades da variância:
Entra em linha de conta com todos os valores da série.
Exprime-se no quadrado das unidades de medida dos
dados originais.
É influenciada por valores extremos (ainda que
poucos).
Se:
y ´= y
i
y
i
i
+ k → Var ( y ´) = Var ( y )
i
´ = k * y → Var ( y ´) =
i
i
i
k
2
* Var ( y )
i
Se X e Y forem duas variáveis estatisticamente
independentes, isto é, se a variação de uma não estiver
condicionada pela variação que ocorre na outra:
Var ( X + Y ) = Var ( X ) + Var ( Y )
A variâcia amostral é um
bom estimador pontual da
variância populacional, e
nela se baseia a maior
parte dos métodos de
estatística inferencial
respeitantes à dispersão:
Como se presta ao cálculo algébrico ulterior, é a
medida de dispersão mais utilizada na inferência
estatística.
s
2
→σ
∧
s =σ
2
2
2
Medidas de Dispersão
Propriedades do desvio-padrão:
Entra em linha de conta com todos os
valores da série.
Exprime-se nas mesmas unidades de
medida dos dados originais.
É influenciada por valores extremos
(ainda que poucos).
10
ROL SIMPLES
PROCEDIMENTO: Ordenação dos dados originais
X= peso
i= número de ordem
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Xi
i
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
963
966
967
968
969
970
971
971
972
972
973
974
975
976
977
980
980
980
981
981
981
981
981
981
Xi
i
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
982
982
984
985
987
988
988
989
989
990
990
990
991
991
991
992
993
993
994
994
994
994
995
995
995
Xi
995
996
996
998
998
998
998
999
1000
1000
1000
1000
1000
1000
1001
1001
1001
1001
1001
1002
1002
1003
1003
1003
1003
i
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
Xi
1005
1005
1007
1007
1009
1009
1010
1012
1012
1012
1012
1013
1013
1013
1015
1016
1016
1017
1017
1019
1019
1021
1022
1023
1023
1026
Cálculo da Amplitude e do Desvio Interquartil
(exemplo)
Pesos (mg) da água destilada (20º C) recolhida com doseador automático
regulado para 1 cm3, em 99 operações de medida.
Amplitude =
Q
Q
3
x
99
=
x
=
x
1
− x 1 = 1026 − 963 = 63 mg
99 + 1
4
=
3 .( 99 + 1 )
4
x
=
25
x
= 982 mg
75
= 1005 mg
DI = Q 3 − Q 1 = 1005 − 982 = 23 mg
11
Cálculo da Variância, Desvio-Padrão e Coeficiente de Variação
(exemplo)
Pesos (mg) da água destilada (20º C) recolhida com doseador automático
regulado para 1 cm3, em 99 operações de medida.
∑ x i = 963 + 966 + ... + 1023 + 1026 = 98502 mg
∑ x i2 = 963 2 + 966 2 + ... + 1023 2 + 1026 2 = 98029058 mg 2
SQD = 98029058 −
s2 =
98502 2
= 22552 .9091 mg 2
99
22552 .9091
= 227 ,8072 mg 2
99
Sendo n>30, utilizou-se como
denominador, no cálculo de s2,
n=99 e não GL=99-1.
s = + 227 . 8072 = 15 . 09 mg
CV =
15 .09 mg
* 100 = 1 .5 %
995 mg
Medidas de Dispersão (Sumário)
Medida
Amplitude
Desvio Interquartil
Equação
Descrição
Xmáximo - Xmínimo
Intervalo dos 50% centrais
Q3 - Q1
Desvio Padrão
(Amostra)
∑ (X
Variância
(Amostra)
2
Σ (Xi -X )
i
− X)
n −1
n-1
Intervalo total
2
Dispersão em torno da
média
Quadrado da dispersão
em torno da Média
12
Medidas de Forma
Assimetria da Distribuição: exprime a
tendência para os dados se acumularem mais
para uma das extremidades da distribuição do
que para a outra (maior ou menor
enviesamento relativamente à distribuição
normal) .
Curtose da Distribuição: exprime em que
medida a distribuição é mais ou menos
achatada que uma distriduição normal.
Medidas Características da Distribuição
Medidas Estatísticas
Tendência
Central
Dispersão
Forma
Média
Amplitude
Mediana
Desvio Interquartil
Moda
Variância
Assimetria
Curtose
Desvio Padrão
Coeficiente de Variação
13
Medidas de Forma
A assimetria mede-se pelo coeficiente de assimetria de
Fisher (g1; γ1).
Assimétrica Negativa
Simétrica
Assimétrica Positiva
Média Mediana Moda Média= Mediana = Moda Moda Mediana Média
g1<0
g1=0
g1>0
(Normal)
Medidas de Forma
A assimetria reflecte-se no diagrama de caixa-e-bigodes
Assimétrica Negativa
Q1 Mediana Q3
Simétrica
Assimétrica Positiva
Q1 Mediana Q3
Q1 Mediana Q3
14
Medidas de Forma
A curtose mede-se pelo coeficiente de curtose de
Fisher (g2; γ2).
Mesocúrtica
Leptocúrtica
Platicúrtica
g2=0
g2>0
g2<0
Medidas de Forma
PLATICÚRTICA!
LEPTOCÚRTICA!
15
Diagrama de Caule-e-Folhas
Pesos (mg) da água destilada (20º C) recolhida com doseador automático
regulado para 1 cm3, em 99 operações de medida.
peso da água (mg) Stem-and-Leaf Plot
Frequency
Caule
(multiplicar por 10!)
5.00
10.00
18.00
24.00
23.00
14.00
5.00
Stem & Leaf
96 .
97 .
98 .
99 .
100 .
101 .
102 .
36789
0112234567
000111111224578899
000111233444455556688889
00000011111223333557799
02222333567799
12336
Folhas
Stem width:
10
Each leaf:
1 case(s)
Diagrama de Caule-e-Folhas
Vantagens:
Tal como o Histograma, o Diagrama Caule-eFolha dá-nos informação sobre:
A localização da concentração mais forte de
dados;
O grau de assimetria da distribuição.
Mas, ao contrário do Histograma, o
Diagrama Caule-e-Folha conserva a informação
contida nos dados originais, na medida em que
estes não são agrupados em classes.
16
Diagrama de Caixa-e-Bigodes
Pesos (mg) da água destilada (20º C) recolhida com doseador automático regulado para 1
Barreira superior=Q3+1,5.DI
Caixa
Máximo
Q3
Mínimo
Q1
Mediana(Q2)
Barreira inferior=Q1-1,5.DI
cm3, em 99 operações de medida.
Bigodes
Não há “outliers” na
distribuição!
Diagrama de Caixa-e-Bigodes
Pesos (mg) da água destilada (20º C) recolhida com doseador automático regulado para 1
cm3, em 99 operações de medida (dados modificados).
Valor Extremo
O bigode esquerdo não termina no
mínimo, mas no último dado que
não está fora da barreira
Outlier
Há um “outlier” e um
valor extremo!
17
Download