Medidas Descritivas

Propaganda
Análise descritiva de Dados
4. Medidas resumos para variáveis quantitativas
4.1. Medidas de Posição:
Considere uma amostra com n observações: x1, x2, . . . , xn.
a) Média: (ou média aritmética) é representada por x e é dada
soma das observações, divida pelo número de observações.

x  i 1
n
xi
n
b) Mediana: representada por med (x) , é observação que ocupa a
posição central das observações ordenadas.
Sejam as observações ordenadas: x(1)  x(2)  . . .  x(n), então, a
 n  1
 , portanto,
 2 
posição central é dada por 
med ( x)  x n 1 


 2 
Notas:
x.
i) A mediana também é presentada por ~
ii) Se n é par, a mediana é dada pela média aritmética das duas
observações centrais.
c) Moda: representada por mo(x) , é observação da amostra com
maior frequência, ou seja, a que mais se repete.
Um conjunto de dados pode ter mais de uma moda, ou até
mesmo, não ter moda.
Em relação ao número de modas um conjunto de dados pode
ser:
i) unimodal: quando o conjunto tem uma única moda;
ii) bimodal: quando o conjunto tem duas modas;
iii) multimodal: quando o conjunto tem três ou mais modas;
iv) amodal: quando o conjunto não tem moda (neste caso, todas as
observações aparecem uma única vez na amostra).
Exemplos de medidas da posição:
Exemplo 1: Número de pessoas com diabetes em 20 grupos de
1000 pessoas cada. Neste caso, foram obtidos os seguintes dados:
7, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10 , 10, 10, 10, 10, 10, 11, 11, 11, 12
Medidas Descritivas de Posição:
i) Média: xi = 193  x 
193
 9,65 casos/grupo (≈ 10)
20
ii) Mediana:
 Determinando a posição da mediana:
n  1 20  1

 10,5
2
2
logo a mediana é a média entre a 10ª e 11ª observações
ordenadas
med ( x) 
x(10)  x(11)
2

10  10
 10 casos/grupo.
2
iii) Moda: mo(x) = 10 casos/grupo, aparece 8 vezes na amostra
 o conjunto é unimodal.
Exemplo 2: Em 1798 o cientista Henry Cavendish mediu a
densidade do globo terrestre em 29 ensaios. Os dados foram
obtidos do Annals os Statistics, 1977.
X = densidade do globo terrestre (g/cm3).
5,50 5,61 4,88 5,07 5,26 5,55 5,36 5,29 5,58 5,65
5,57 5,53 5,62 5,29 5,44 5,34 5,79 5,10 5,27 5,39
5,42 5,47 5,63 5,34 5,46 5,30 5,75 5,68 5,85
Dados ordenados
4,88 5,07 5,10 5,26 5,27 5,29 5,29 5,30 5,34 5,34
5,36 5,39 5,42 5,44 5,46 5,47 5,50 5,53 5,55 5,57
5,58 5,61 5,62 5,63 5,65 5,68 5,75 5,79 5,85
n = 29 observações
Medidas Descritivas de Posição:
i) Média: xi = 157,99

x
157 ,99
 5,45 g/cm3
29
ii) Mediana:
 Determinando a posição da mediana:
n 1
 15
2
logo a mediana é a 15ª observação ordenada
med ( x)  x(15)  5,46 g/cm3
iii) Moda: mo(x) = 5,29 g/cm3 e mo(x) = 5,34 g/cm3
 o conjunto é bimodal.
Exemplo 3: Altura dos alunos da turma B de Bioestatística no
primeiro semestre de 2015.
X = altura dos alunos (em metros).
Dados ordenados
1,51
1,62
1,66
1,75
1,55
1,62
1,67
1,75
1,56
1,62
1,67
1,76
1,57
1,63
1,70
1,77
n = 43 observações
xi = 71,94
1,58
1,63
1,70
1,78
1,58
1,65
1,70
1,80
1,58
1,65
1,72
1,80
1,60
1,65
1,73
1,80
1,60
1,65
1,73
1,80
1,60 1,60
1,65 1,65
1,74 1,75
1,81
Medidas Descritivas de Posição:
i) Média: xi = 71,94

x
71,94
 1,67 m
43
ii) Mediana:
 Determinando a posição da mediana:
n  1 44

 22
2
2
logo a mediana é a 22ª observação ordenada:
med ( x)  x( 22)  1,65 m
iii) Moda: mo(x) = 1,65m  aparece 5 vezes na amostra,
 o conjunto é unimodal.
4.2. Medidas de Dispersão (ou variação):
a) Amplitude: é dada pela diferença entre o maior e o menor valor
da amostra.
Sejam x(1)  min [ x1, x2 ,, xn ] e x( n)  max[ x1, x2 ,, xn ],
x
x
então, a amplitude da amostra é definida por
A  x( n)  x(1) .
A amplitude A representa o tamanho da região na qual os dados
foram observados.
b) Variância amostral: a variância amostral é definida pela soma
dos quadrados dos desvios das observações em relação à media
amostral x , dividida por (n – 1), ou seja
s
2

xi  x 2

.
i 1 n  1
n
Mostra-se facilmente que s2 pode ser escrita como
2
2
n
x

n
x

s 2  i 1 i
.
n  1
c) Amplitude Interquartil: é dada pela diferença entre o 3º e o 1º
quartis.
Para definir a amplitude interquartil, vamos primeiro definir o
que são quartis amostrais.
Quartis amostrais são medidas descritivas que dividem a
amostra ordenada em quatro parcelas iguais de 25%, ou seja:
25%
25%
25%
25%
------------|------------|------------|-----------Q1
Q2
Q3
med(x)
Assim sendo:
i) Q1 é o primeiro quartil;
ii) Q2 = med(x), é o segundo quartil,
iii) Q3 é o terceiro quartil.
Desta forma, denotada por Aq, é definida por
Aq = Q3 – Q1
AQ determina o tamanho da região em torno da mediana que
contém 50% das observações centrais.
4.2.1. Métodos para a obtenção dos quartis amostrais:
Para a obtenção dos quartis devemos proceder da mesma forma
que para a mediana.
Uma vez que a mediana esteja determinada, temos o conjunto
de dados ordenados dividido em duas partes. Os quartis, então, são
dados pelas observações centrais destas duas metades.
Q1
med(x)
Observação central
da metade inferior
Q3
Observação central
da metade superior
O procedimento para encontrar os quartis é o mesmo usado
para a mediana, porém, teremos dois procedimentos dependendo
do tamanho da amostra n ser par ou ímpar.
i) Se o tamanho da amostra n for par: o procedimento é o mesmo
da mediana, sendo aplicada a cada uma das metades (inferior e
superior).
Exemplo:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 8 9
med ( x) 
x(7)  x(8)
2

 n = 14
56
 5,5
2
A mediana med(x) = 5,5 divide os dados em dois grupos
ordenados de 7 observações cada. Assim,

7 1
4
2
 Q1 é a 4ª observação da metade inferior e,
 Q3 é a 4ª observação da metade superior.
Desta forma, os quartis serão as observações ordenadas que
ocupam as posições 4 e 11.
5,5
1 1 2 3 4 5 5
6 6 6 7 8 8 9
Q1  x( 4)  3
Q3  x(11)  7
ii) Se o tamanho da amostra n for ímpar: devemos optar por
incluir, ou não, a mediana nos cálculos para a determinação dos
quartis.
ii.1) se a mediana não for incluída, então teremos dois grupos,
inferior e superior à mediana, cada um com (n  1) 2
observações.
 n  1  observações


 2  inferiores
 n  1  observações


 2  superiores
Q1
Q3
med(x)
e os quartis Q1 e Q3 são obtidos normalmente.
Exemplo:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 9

n = 13
A mediana med ( x)  x(7)  5 divide os dados em dois grupos
ordenados de 6 observações cada.

6 1
 3,5  Q1 é a média da 3ª e 4ª observações do
2
grupo inferior e,
 Q3 é a média da 3ª e 4ª observações do
grupo superior.
5
1 1 2 3 4 5
Q1 
Q3 
x(3)  x( 4)
2
6 6 6 7 8 9

x(10)  x(11)
2
23
 2,5
2

67
 6,5
2
ii.2) se a mediana for incluída, então, ela deve ser considerada1
tanto para a obtenção do 1º quartil, na metade inferior
como na obtenção do 3º quartil, na metade superior. Desta
forma, teremos 2 grupos, com (n  1) 2 observações cada.
1
Observe que a mediana é uma só. Ela é apenas considerada nos dois grupos para as contagens das
posições dos quartis.
Grupo
inferior
Q1
grupo
superior
med(x)
Q3
e os quartis Q1 e Q3 são obtidos normalmente.
Exemplo:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 9

n = 13
A mediana med ( x)  x(7)  5 divide os dados em dois grupos
ordenados de 6 observações cada.
Incluindo a mediana ao procedimento, teremos uma observação
a mais em cada grupo, ou seja, teremos 7 observações.

7 1
4
2
 Q1 é a 4ª observação do grupo inferior e,
 Q3 é a 4ª observação do grupo superior, ou
seja, a 11ª observação ordenada (7 + 4).
1 1 2 3 4 5 5
5 6 6 6 7 8 9
Q1  x( 4)  3
Q3  x(11)  6
iii) Outra forma para a obtenção dos quartis é apresentada por
Murteira (2002).
]
Se a mediana ocupa a posição (n + 1)/2, então Q1 deverá
ocupar a posição:
 n  1

 1
2

  n3
2
4
Para a posição de Q3 fazemos:
 n  3  3n  1
(n  1)  

4
4


Portanto, Q1 e Q3 são dados pelas observações ordenadas que
n3
3n  1
e
, respectivamente.
4
4
ocupam as posições
Se os valores de
n3
3n  1
e
não forem inteiros, Q1 e Q3
4
4
devem ser obtidos por interpolação linear.
Por exemplo, se
n3
 k  ,
4
em que k é a parte inteira e  a parte decimal, então, Q1 pertence ao
intervalo ( x( k ) ; x( k 1) ) e
Q1  x( k )   [ x( k 1)  x( k ) ].
Para Q3 o procedimento é semelhante, ou seja, se
3n  1
   ,
4
então, Q3 pertence ao intervalo ( x() ; x( 1) ) e
Q3  x()  [ x( 1)  x() ] .
Exemplo:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 8 9
 n = 14
Para a determinação de Q1, temos:
 posição de Q1:
14  3 17
  4,25 .
4
4
Como  = 0,25, Q1 é a interpolação entre a 4ª e 5ª observações
ordenadas:
Q1  3  0,25 (4  3)  3,25 .
Para a determinação de Q3, temos:
 posição de Q3:
3 14  1 43

 10,75 .
4
4
Aqui  = 0,75 e Q3 é a interpolação entre a 10ª e 11ª observações
ordenadas:
Q3  6  0,75 (7  6)  6,75 .
Obs: o item (iii) com n ímpar é equivalente ao item e (ii.2).
Notas:
 Assim como a mediana, os quartis amostrais dependem do
tamanho da amostra n, fazendo com que nem sempre os quatro
grupos tenham o mesmo tamanho;
 Existem diversas outras formas para a determinação dos quartis,
Nesta disciplina daremos ênfase nos itens (i) e (ii.1);
 Para n pequeno, pode-se, ainda, obter os quartis graficamente
pelo histograma dos dados;
 Os quartis são casos especiais dos quantis (ou percentis), que
são denotados por:
x(p)  p-ésimo quantil ou quantil de ordem p;
Portanto, o quantil x(p) é dado pela observação ordenada que
deixa uma frequência acumulada igual 100p % abaixo de si.
Assim sendo temos que:
i) Q1 = x(0,25)  quantil de ordem 0,25;
ii) Q2 = med(x) = x(0,5)  quantil de ordem 0,50;
iii) Q3 = x(0,75)  quantil de ordem 0,75.
Exemplo 1: Número de pessoas com diabetes em 20 grupos de
1000 pessoas cada. Neste caso, foram obtidos os seguintes dados:
7, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10 , 10, 10, 10, 10, 10, 11, 11, 11, 12
in1 xi  193 e in1 xi2  1889
a) Média: x 
193
 9,65 casos/grupo (≈ 10);
20
b) Mediana: med ( x) 
x(10)  x(11)
2

10  10
 10 casos/grupo;
2
c) Moda: mo(x) = 10 casos/grupo.
i) Variância amostral:
1889  20(9,65) 2 1889  1862 ,45
s 

20  1
19
2
s2 
26,55
 1,397 (casos/grupo)2
19
Desvio padrão amostral: s  1,397  1,182 casos/grupo (≈ 1)
ii) Amplitude amostral: A  12  7  5 casos/grupo.
iii) Amplitude interquartil:
7, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 11, 12
n = 10 observações do
grupo inferior à mediana
n = 10 observações do
grupo superior à mediana
Para a determinação de Q1, temos:
 posição de Q1:
10  1
 5,5 , logo o 1º quartil é a média entre a 5ª e 6ª
2
observações ordenadas:
Q1 
x(5)  x(6)
2

99
 9 casos/grupo.
2
Para a determinação de Q1, temos:
 posição de Q1:
10  5.5  15,5 , logo o 3º quartil é a média entre a 15ª e 16ª
observações ordenadas,
Q3 
x(15)  x(16)
2

10  10
 10 casos/grupo.
2
Desta forma, a amplitude interquartil é:
Aq  19  9  1 caso/grupo.
Relação entre as amplitudes amostral e interquartil:
Aq
A

1
 0,2
5
Ou seja, a metade das observações centrais representam 20%
da amplitude total dos dados.
Exemplo 2: Altura dos alunos da turma B de Bioestatística no
primeiro semestre de 2015.
X = altura dos alunos (em metros).
Dados ordenados
1,51
1,62
1,66
1,75
1,55
1,62
1,67
1,75
1,56
1,62
1,67
1,76
1,57
1,63
1,70
1,77
1,58
1,63
1,70
1,78
1,58
1,65
1,70
1,80
1,58
1,65
1,72
1,80
1,60
1,65
1,73
1,80
n = 43 observações
in1 xi  71,94 e in1 xi2  120,63
a) Média: x 
71,94
 1,67 m;
43
b) Mediana: med ( x)  x( 22)  1,65 m;
c) Moda: mo(x) = 1,65m.
1,60
1,65
1,73
1,80
1,60 1,60
1,65 1,65
1,74 1,75
1,81
iv) Variância amostral:
120 ,63  43 (1,67 ) 2 0,7073
s 

 0,01684 m2
42
42
2
Desvio padrão amostral: s  0,01684  0,1298 m
v) Amplitude amostral: A  1,81  1,51  0.30 m
vi) Amplitude interquartil: (sem incluir a mediana)
med ( x)  x( 22)  1,65 m
O primeiro quartil é a posição central da metade inferior
Q1  x(11)  1,60 m
O terceiro quartil é a posição central da metade superior
Q3  x( 33)  1,75 m
Desta forma, a amplitude interquartil é:
Aq  1,75  1,60  0,15 m
Relação entre as amplitudes amostral e interquartil:
Aq 0,15

 0,50
A 0,30
Metade das observações centrais representam 50% da amplitude
total.
4.3. Mais Exemplos
Exemplo 1: Dias de manutenção de equipamentos de uma grande
companhia, (n = 50 observações)
X = dias em manutenção de equipamentos,
Dados Ordenados:
2
2
2
2
4
4
4
5
5
6
6
6
9
9
9
9
13
13
13
14
i 1 xi  392
n
e
2
5
6
10
15
3
5
6
10
15
3
5
7
10
16
3
5
7
10
17
3
5
8
11
18
4
5
8
12
21
i 1 xi2  4178
n
392
 7,84 dias (≈ 8 dias)
50
x( 25)  x( 26)
b) med ( x) 
 6 dias
2
a) x 
c) mo(x) = 5 dias
(8)
i) Variância amostral:
4178  50(7,84) 2 4178  3073,28
s 

 22,55 dias2
50  1
49
2
Desvio padrão amostral: s  22,545  4,7482 dias
ii) Amplitude amostral: A  21  2  19 dias
iii) Amplitude interquartil:
 25  1
O 1º quartil é a 13ª observação ordenada 
 2

 13 ,

Q1  x(13)  4 dias.
O 3º quartil é a 38ª observação ordenada 13  15  28,
Q3  x(38)  10 dias.
Desta forma, a amplitude interquartil é:
AQ  10 – 4 = 6 dias
Relação da amplitude interquartil com a amplitude total:
Aq
A

6
 0,316 .
19
Metade das observações centrais representam 31,6% da amplitude
total.
Exemplo 2: Dados Cavendish,
X = densidade do globo terrestre (g/cm3),
Dados ordenados
4,88 5,07 5,10 5,26 5,27 5,29 5,29 5,30 5,34 5,34
5,36 5,39 5,42 5,44 5,46 5,47 5,50 5,53 5,55 5,57
5,58 5,61 5,62 5,63 5,65 5,68 5,75 5,79 5,85
n = 29 observações
in1 xi  157 ,99 e in1 xi2  862,0855
a) x 
157 ,99
 5,448 g/cm3
29
b) med ( x)  x(15)  5,46 g/cm3
c) mo(x) = 5,29 g/cm3 e 5,34 g/cm3
i) Variância amostral:
862 ,0855  29(5,448 ) 2 1,3669
s 

 0,04882 (g/cm3)2
29  1
28
2
Desvio padrão amostral: s  0,04882  0,2209 g/cm3
ii) Amplitude amostral: A  5,85  4,88  0,97 g/cm3
iii) Amplitude interquartil:
A mediana é 15ª observação ordenada, o primeiro quartil
(excluindo-se a mediana do cálculo) é a posição central da metade
inferior dos dados, ou seja:
14  1
Q1 é a média da 7ª e 8ª observações ordenadas 
 2
Q1 
x(7)  x(8)
2

5,29  5,30
 5,295 g/cm3,
2

 7,5 ,

Q3 é a média da 22ª e 23ª observações ordenadas 7,5  15  22,5,
Q3 
x( 22)  x( 23)
2

5,61  5,62
 5,615 g/cm3
2
Desta forma, a amplitude interquartil é:
Aq  5,615  5,295  0,32 g/cm3,
Relação da amplitude interquartil com a amplitude total:
Aq
A

0,32
 0,330
0,97
(≈ 1/3).
Metade das observações centrais representam 33,0% da amplitude
total.
4.4. O coeficiente de variação amostral:
Uma medida utilizada para quantificar a variabilidade dos
dados é o coeficiente de variação, ou cv.
O cv de variação amostral é dado pela razão do desvio padrão
da amostra s e a média amostral x :
cv 
s
x
Notas:
 O coeficiente de variação compara a magnitude do desvio
padrão s com a média x . Se cv  1  s  x .
 O coeficiente de variação é uma medida adimensional (é um
número puro) também podendo ser expresso em %.
Exemplos:
a) Número de casos com diabetes em 20 grupos de 1000 pessoas:
x  9,65 pessoas/grupo
s 2  1,397 (pessoas/grupo) 2
s  1.397  1,182 pessoas/grupo
cv 
1,182
 0.122 ou 12,2%
9,65
b) Altura dos alunos da turma B da disciplina Bioestatística:
x  1,67 m
s 2  0,01684 m2
s  0.01684  0,1298 m
cv 
0,1298
 0,078 ou 7,8%
1,67
c) Dias de manutenção de equipamentos:
x  7,84 dias
s 2  22,545 dias2
s  22,545  4,748 dias
cv 
4,748
 0,606 ou 60,6%
7,84
d) Dados Cavendish:
x  5,45 g/cm3
s  0,2210 g/cm3
cv 
0,2210
 0,0406 ou 4,06%,
5.45
Nos exemplos acima temos os cv’s de quatro processos
distintos, sendo o maior deles (dias manutenção) 15 vezes maior
do que o menor (Cavendish), indicando claramente as diferenças
na dispersão dos dados.
Tabela: Coeficientes de variação dos exemplos.
Dados
Manutenção
Diabetes
Alturas
Cavendish
cv
0.606
0.122
0.078
0.041
cv (%)
60.6%
12.2%
7.8%
4.1%
Um ponto de grande interesse, contudo, diz respeito a
quantificar o cv e poder dizer se um conjunto de dados tem uma
dispersão muito alta, ou não. A seguir serão apresentados três
critérios para classificação do coeficiente de variação.
4.4.1. Como classificar o Coeficiente de Variação
O cv tem uma característica particular de ser intrínseco a
cada processo, tendo sido muito estudado na área agrícola, mais
especificamente, na experimentação agronômica.
Vários autores indicam diferentes métodos para se classificar o
coeficiente de variação. A seguir, são apresentadas três
classificações.
I) Classificação segundo Pimentel Gomes (1985), baseada em
ensaios agrícolas.
Faixa
cv
menor ou igual a 10%
baixo
baixa dispersão dos dados
entre 10% e 20%
médio
média dispersão dos dados
entre 20% e 30%
alto
maior do que 30%
dispersão
alta dispersão dos dados
muito alto dispersão dos dados muito alta
II) Classificação segundo Ferreira, F,V, (1991), Estatística
Experimental Aplicada à Agronomia, classifica com respeito à
precisão do processo.
Faixa
precisão
cv
entre 10% e 15%
baixo
ótima
entre 15% e 20%
médio
boa
entre 20% e 30%
alto
regular
maior do que 30%
muito alto
muito ruim
(ou péssima)
III) Classificação obtida no site www.datalyser.com.br, muito
utilizada em CEP – Controle Estatístico do Processo.
Faixa
dispersão
cv
menor ou igual a 15%
baixo
baixa dispersão dos dados
entre 15% e 30%
médio
média dispersão dos dados
maior do que 30%
Alto
alta dispersão dos dados
Nos exemplos:
a) Diabetes:
cv 
1,182
 0.122 (12,2%)  cv baixo a médio.
9,65
b) Aturas dos alunos:
cv 
0,1298
 0,078 (7,8%)  cv baixo.
1,67
c) Dias de manutenção de equipamentos:
cv 
4,7482
 0,606
7,84
(60,6%)  cv alto ou muito alto.
d) Dados Cavendish:
cv 
0,2209
 0,0406
5,448
(4,06%)  cv baixo.
5. Relação empírica entre média, mediana e moda
Karl Pearson, metemático famoso, no final do século XIX e
início do XX, observou empiricamente, a seguinte relação entre as
três medidas de posição média mediana e moda.
x  mo( x)  3x  med ( x)
Observações:
1)
2)
3)
A relação só se aplica a distribuições com boa simetria;
Só é valida para casos unimodais;
Depende de um tamanho de amostra n elevado.
5.1. Moda de Czuber
Em muitas situações quando analisamos dados contínuos a moda
amostral pode não representar adequadamente os dados,
especialmente quando o conjunto for bimodal ou multimodal.
Nessas situações, a distribuição teórica f(x), a qual buscamos
identificar pelo histograma, pode não ser bem representada pela
amostra devido a diversas razões: poucas observações; grande
variabilidade; formado da distribuição.
Nesses casos, pode-se indicar não uma moda, mas uma classe
modal, dada pela classe na distribuição com a maior frequência.
Uma alternativa, entretanto, é utilizar a moda de Czuber, que leva
em conta a classe modal e as frequências das classes
imediatamente anteriores e posteriores à classe modal.
A moda de Czuber é calculada pela seguinte expressão:
mocz ( x)  Li 
h  da
,
(d a  d p )
Em que:
Li é o limite inferior da classe modal;
h é a amplitude de classe da distribuição de frequências;
da é a diferença da frequência da classe modal (relativa ou
absoluta) com a classe imediatamente anterior;
dp é a diferença da frequência da classe modal (relativa ou
absoluta) com a classe imediatamente posterior.
Exemplo: Considere os dados do tempo de TV de uma turma de
estudantes de primeiro de universidade.
0, 2, 2, 2, 2, 3, 4, 5, 5, 5, 5, 5, 5,
5, 6, 7, 7, 8, 8, 8, 10, 10, 10, 10, 10, 10,
10, 10, 10, 10, 10, 12, 12, 12, 12, 14, 14, 14, 14,
14, 15, 16, 18, 20, 20, 20, 25, 25, 28, 30
Distribuição de frequências de horas TV,
Horas TV
classes
Freq.
absoluta
ni
Freq.
relativa
fi
Freq.
acumulada
Fac
0 |--- 5.5
5.5 |--- 11.0
11.0 |--- 16.5
16.5 |--- 22.0
22.0 |--- 27.5
27.5 |--- 33.0
Totais
14
17
12
4
2
2
50
0.28
0.34
0.24
0.08
0.04
0.04
1.00
0.28
0.62
0.86
0.94
0.96
1.00
mocz ( x)  5.5 

5.5  3
(3  5)
60.5
 7.56 horas
8
Na representação gráfica a seguir, pode-se observar a moda de
Czuber
Figura: Moda de Czuber
6. Relação entre média, moda e mediana
Considere o histograma abaixo:
Figura: Função de distribuição de probabilidades sobre o histograma.
O que podemos dizer com relação a simetria da distribuição de
frequências representa por este histograma?
Quando uma distribuição de frequências é perfeitamente
simétrica, teremos que a média aritmética, a moda e a mediana
serão iguais, ou seja:
x = Mo(x) = Md(x)
E quanto ao exemplo acima, o que podemos dizer?
Quando a distribuição não é simétrica, podemos distinguir duas
situações possíveis, conforme destacado pela figura abaixo:
a) A a cauda superior da distribuição é mais alongada, puxando a
distribuição para a direita.
Neste caso, a média é maior do que a moda e a assimetria é
dita à direita ou positiva.
b) A cauda inferior da distribuição é mais alongada, puxando a
distribuição para a esquerda.
Neste caso, a média é menor do que a moda e a assimetria é
dita à esquerda ou negativa.
Figura: Assimetrias à direita e à esquerda, respectivamente.
6.1. Média, moda e mediana e a simetria dos dados
i) A Média é sempre influenciada por valores extremos, sendo
puxada na direção da cauda mais alongada (ver a seta na
Figura 5);
ii) A Moda é o elemento de maior frequência, sendo o ponto de
máximo de f(x);
iii) A Mediana está sempre no meio do conjunto, dividindo-o
em duas partes iguais, ficando entre as duas medidas
anteriores.
Assim, para cada situação, teremos:
a) Quando a simetria é perfeita as três medidas são iguais.
b) Na situação em que ocorre a assimetria à direita, teremos a
moda menor do que a mediana que é menor do que a média.
c) E, para a assimetria à esquerda, devemos ter a média menor do
que a mediana que é menor do que a moda.
7. O diagrama box-plot
Representação gráfica da dispersão dos dados em torno da
mediana, é construído com as 5 medidas ordenadas: mínimo, Q1,
med(x), Q3 e máximo.
As cinco medidas podem ser apresentadas pela representação dos
cinco números:
med(x)
Q Q1
E mínimo
Q3
máximo
Observações:
i) A representação dos cinco números, além da construção do
box-plot, ajuda na comparação da assimetria das caudas;
ii) Outros percentis podem ser incluídos, ampliando a
representação.
O diagrama box-plot fornece uma visão simplificada da dispersão
e simetria dos dados, além de indicar possíveis valores fora do
padrão (valores discrepantes). Além disso, pode ser utilizado na
comparação de diferentes processos quanto à centralidade
(posição) e variabilidade (dispersão).
O nome box-plot refere-se à “caixa” construída para representar a
metade das observações centrais entre os quartis.
O box plot é constituído de 3 partes: caixa central, braços e
valores discrepantes.
i) A caixa central representa a metade das observações centrais
entre os quartis Q1 e Q3.
A mediana é destacada na caixa por uma linha que a divide
em duas partes. Com isso, pode-se avaliar a simetria na região
central da distribuição dos dados;
ii) Os braços são construídos a partir da caixa central,
representando as caudas da distribuição.
A construção dos braços é baseada nos valores dos quartis e, o
tamanho dos braços serve para avaliar a simetria das caudas.
iii) Valores discrepantes são valores fora do padrão de
dispersão, aparecendo muito distantes da maioria dos
dados, podendo indicar grande forte assimetria ou
variabilidade (ou ambos).
Os valores discrepantes nem sempre estão presentes, sendo
representados individualmente a partir das caudas.
Valores discrepantes
Q1 – 1.5AQ
Valores discrepantes
Q1
med(x)
Q3
Q3 + 1.5AQ
7.1. Procedimento para a construção do box-plot
i) Construir a “caixa” ou “box” com os valores dos quartis Q1 e
Q3;
ii) Com uma linha, demarcar a mediana na caixa, dividindo-a em
duas partes;
iii) Calcular os limites inferior (LI) e superior (Ls):
 LI = Q1 – 1.5Aq
 LS = Q3 + 1.5Aq
Os limites LI e Ls são utilizados para se identificar valores
discrepantes.
Valores discrepantes são observações menores do que LI ou
maiores do que LS e são destacados individualmente no boxplot com pontos além desses limites.
iv) Para os “braços” do box-plot, traçar linhas a partir dos centros
das laterais inferior e superior da caixa, obedecendo ao
seguinte critério:
 traçar uma linha da lateral inferior da caixa até o menor
valor que não seja discrepante ou até min(x);
 marcar os pontos discrepantes menores do que LI, caso
existam;
 traçar uma linha da lateral superior da caixa até o maior
valor que não seja discrepante ou até max(x);
 marcar os pontos discrepantes maiores do que LS, caso
existam.
Exemplo 1: variável: horas gastas por semana assistindo TV.
10
Q 5
14
E 0
30
Figura 7.1: Box-plot’s para a variável horas de TV, nas posições vertical e horizontal.
Comandos do R para o box-plot:
x <- c( 0, 2, 2, 2, 2, 3, 4, 5, 5, 5, 5, 5, 5, 5,
6, 7, 7, 8, 8, 8,10,10,10,10,10,10,10,10,
10,10,10,12,12, 12,12,14,14,14,14,14,15,16,
18,20,20,20,25,25,28,30)
boxplot(x, col="bisque", main="Horas assistindo
TV", ylab="Horas", pch=19)
Exemplo 2: variável Renda PC por exposição à violência doméstica
(grupos exposto e não exposto).
Grupo
exposto
68
135
36
não
exposto 150
Grupo
Exposto
Não exposto
96
150
50
100
160
70
180
220
100
160
84
250
112
200
108
112
260
109
260
300
120
120
120
120
150
Estatísticas descritivas (reais), por grupo.
n
med(x)
s2
s
x
15
15
134,00
147,13
120,00
120,00
2257,29
6376,70
47,51
79,85
Q1
100
184
6
8
7
5
6
Freqüência
Freqüência
117
5
4
3
2
4
3
2
1
1
0
0
35
85
135
185
235
285
0
Grupo Exposto
150
Grupo Exposto
132
198
264
330
Grupo não Exposto
Box-plot renda per capita
Box-plot renda per capita
50
66
250
0
100
200
Grupo Não Exposto
Figura 7.2: Histogramas e box-plot’s individuais
300
Q3
160
220
Figura 7.3: box-plot’s por grupo lado-a-lado.
Comandos do R para o box-plot lado-a-lado:
exp <- c(68,96,100,100,112,112,117,120,120,135,150,160,
160,200,260)
nexp <- c(36,50,70,84,108,109,120,120,150,150,180,220,
250,260,300)
renda <- c(nexp,exp)
gr <- c(rep("nexp",length(nexp)), rep("exp",length(exp)))
boxplot(renda~gr, pch=19,
col=c("mediumseagreen","lightcoral"))
# para o box-plot horizontal
boxplot(renda~gr, pch=19, horizontal=T,
col=c("mediumseagreen","lightcoral"))
Download