n x x = 35 = x 5.3 10 35 = = x n ibxay ,,2,1 , = + = bxay + =

Propaganda
4.
Medidas descritiva para dados quantitativos
4.1. Medidas de Posição da amostra: média, mediana e moda
Considere uma amostra com n observações: x1, x2, . . . , xn.
a) Média: (ou média aritmética) é representada por x e é dada
soma das observações, divida pelo número de observações.

x  i 1
n
xi
n
Exemplo 1: Sejam os dados: 2, 3, 6, 3, 5, 4, 3, 4, 2, 3,
10
logo
 xi  35
i 1
x
35
 3.5
10
Propriedade:
Se y = ax + b, então, para uma amostra x1, x2, . . . , xn, temos:
yi  a xi  b, i  1, 2,  , n ,
e
y  ax b
Exemplo 2: Se Y = 2X − 1, então, temos os dados transformados:
10
3, 5, 11, 5, 9, 7, 5, 7, 3, 5
e
 yi  60
i 1
y  2  3.5  1  6.0
Note que, para duas variáveis x e y, se z = x/y, então:
z
x
y
b) Mediana: representada por med (x) , é dada pela observação
que ocupa a posição central das observações ordenadas.
Definição:
Estatística de ordem: a estatística de ordem i é dada pela i-ésima
observação ordenada, sendo representada por:
x(i),
i = 1, 2, . . . , n,
ou seja:
i) x(1) é a primeira estatística de ordem, ou o valor mínimo da
amostra;
ii) x(n) é a n-ésima estatística de ordem ou o valor máximo da
amostra.
iii) x(i) é a i-ésima estatística de ordem, ou a i-ésima observação
ordenada;
Por exemplo, para i = 2, x(2) é a segunda estatística de ordem,
ou o segundo menor valor da amostra;
Desta forma, temos que as estatísticas de ordem fornecem a
amostra ordenada: x(1)  x(2)  . . .  x(n)
Seja a amostra ordenada, x(1)  x(2)  . . .  x(n), então, a posição
central é dada pela estatística de ordem, portanto,
med ( x)  x n 1 


 2 
Exemplo 3: Sejam os dados: 2, 3, 6, 3, 5, 4, 2, 5, 2 (n = 9).
Dados ordenados: 2, 2, 2, 3, 3, 4, 5, 5, 6
Então,
med ( x)  x5  3
Notas:
x;
i) A mediana também é representada por ~
ii) Se n é par, a mediana é dada pela média aritmética das duas
observações centrais.
Exemplo 4: Sejam agora: 2, 2, 2, 3, 3, 4, 4, 5, 5, 6
Então,
med ( x)  x5.5  
x(5)  x(6)
2

(n = 10).
3 4
 3.5
2
c) Moda: representada por mo(x) , é observação da amostra com
maior frequência, ou seja, a que mais se repete.
Um conjunto de dados pode ter mais de uma moda, ou até
mesmo, não ter moda.
Classificação de um conjunto de dados em relação ao número de
modas:
i) unimodal: quando o conjunto tem uma única moda;
ii) bimodal: quando o conjunto tem duas modas;
iii) multimodal: quando o conjunto tem três ou mais modas;
iv) amodal: quando o conjunto não tem moda (neste caso, todas
as observações aparecem uma única vez na amostra).
Exemplo 5: Com os dados: 2, 3, 6, 3, 5, 4, 3, 4, 2, 3
mo( x)  3
Então,
(aparece 4 na amostra)
O conjunto é unimodal.
O moda pode, ainda, ser calculada para variáveis categóricas.
Neste caso, o resulta será um valor não numérico. Veja o exemplo:
Considere os conceitos de n = 10 alunos: D B A B C A A C B B
mo(conceito) = B
(aparece 4 na amostra)
Exemplo 6: Dos alunos de Estatística 1, dos anos 2015, 2016 e
2017, que praticam alguma atividade física regularmente, seja o
número de vezes que praticam essa atividade física na semana.
Dados:
3
2
2
2
3
2
2
4
3
4
4
3
3
5
4
7
2
4
3
5
3
4
3
5
2
5
3
2
3
7
2
3
3
1
3
1
3
Dados ordenados:
1
1
2
2
3
3
3
3
3
4
5
5
2
3
3
5
2
3
3
5
2
3
4
7
2
3
4
7
2
3
4
2
3
4
2
3
4
37
i) Média amostral:
 xi  120 ,
i 1
Portanto a média amostral é:
x
120
 3,24 vezes/semana
37
n 1
 19 , logo, a
2
mediana é a observação ordenada que ocupa a 19ª posição, ou seja:
ii) Mediana amostral: como n = 37, então
med ( x)  x19   3 vezes/semana
iii) Moda da amostra: da tabela de frequências verifica-se que a
observação mais frequente na amostra é o 3, que aparece 14 vezes.
Desta forma, a moda é:
mo ( x )  3 vezes/semana
Podemos resumir as medidas de posição numa tabela:
Tabela: Medidas de posição amostral da variável número de
vezes que pratica atividade física na semana.
média
mediana
moda
3,24 vezes/semana
3 vezes/semana
3 vezes/semana
Exemplo 7: Altura (em metros) de n = 30 alunos de Estatística 1, de
2015 a 2017.
X = altura dos alunos (em metros)
Dados ordenados:
1,54 1,57 1,59 1,59 1,60 1,62 1,63 1,65 1,67 1,68
1,70 1,70 1,70 1,72 1,72 1,73 1,74 1,74 1,75 1,75
1,77 1,78 1,78 1,79 1,80 1,83 1,84 1,90 1,90 1,95
30
i) Média amostral:
 xi  51,75 .
i 1
Portanto a média amostral é:
x
51,73
 1,724 metros
30
n 1
 15,5 , logo, a
2
mediana é a observação ordenada que ocupa a posição 15,5, ou
seja, é dada pela média aritmética entre a 15ª e 16ª observações
ordenadas:
ii) Mediana amostral: como n = 30, então
x(15)  x(16)
med ( x)  x15,5 
2

1,72  1,73
 1,725 metros
2
iii) Moda da amostra: a moda é dada pela observação 1,70m, que
aparece 3 vezes na amostra:
mo( x )  1,70 metros
Comandos do R para as medidas de posição:
altura <- c(1.70,
1.78,
1.54,
1.57,
1.79,
1.73,
1.74,
1.68,
1.75,
1.72)
# soma das observações
soma <- sum(altura)
soma
# media anostral
xbar <- mean(altura)
xbar
# mediana amostral
mediana <- median(altura)
mediana
1.83,
1.62,
1.95,
1.72,
1.60,
1.70,
1.90,
1.59,
1.75,
1.67,
1.59,
1.70,
1.84,
1.63,
1.74,
1.65,
1.77,
1.90,
1.80,
1.78,
A moda não tem uma função pronta no R, portanto, podemos
programar uma função e utilizá-la sempre que for necessário.
# Função no R para a moda
##########################
mo <- function(v){
tabela <- table(as.vector(v))
m <- names(tabela)[tabela == max(tabela)]
if(is.numeric(v)){m <- (as.numeric(m))}
if(length(m)==length(v)){
print("Conjunto não possui moda.")}
else{return(m)}
}
x <- c(1,2,2,2,3,3)
mo(x)
x <- c("e","s","t","a","t","i","s","t","i","c","a")
mo(x)
# moda da variável altura
moda <- mo(altura)
moda
# veja isso!
altura[1] <- 1.69
mo(altura)
# Criando uma lista com estatísticas descritivas
# de posição média, mediana e moda.
################################################
descri <- as.matrix(c(mean(altura),median(altura),mo(altura)))
dimnames(descri)[[1]] <- c("média","mediana","moda")
dimnames(descri)[[2]] <- "altura"
round(descri,4)
4.1.1. Média, Moda e Mediana e a Simetria dos dados
Considere o histograma abaixo:
Figura 4: Função de distribuição de probabilidades sobre o histograma.
O que podemos dizer com relação a simetria da distribuição de
frequências representa por este histograma?
Quando uma distribuição de frequências é perfeitamente
simétrica, teremos que a média aritmética, a moda e a mediana
serão iguais, ou seja:
x = mo(x) = med(x)
E quanto ao exemplo acima (Figura 4), como podemos
classificá-lo em função da sua falta de simetria?
Quando a distribuição não é simétrica, podemos distinguir
duas situações possíveis (Figura 5):
i) A cauda superior da distribuição é mais alongada, puxando a
distribuição para a direita.
Neste caso, a média é maior do que a moda e a assimetria é
dita à direita ou positiva.
ii) A cauda inferior da distribuição é mais alongada, puxando a
distribuição para a esquerda.
Neste caso, a média é menor do que a moda e a assimetria é
dita à esquerda ou negativa.
Figura 5: Assimetrias à direita e à esquerda, respectivamente.
Assim, para cada situação, teremos:
i) Quando a simetria é perfeita as três medidas são iguais.
ii) Na situação em que ocorre a assimetria à direita, teremos a
moda menor do que a mediana que é menor do que a média.
iii) E, para a assimetria à esquerda, devemos ter a média menor do
que a mediana que é menor do que a moda.
Observação importante!
As relações apresentadas são consequência da
simetria (i) ou assimetria (ii) e (iii), não a causa.
Relação entre média, moda e mediana
➢ A Média :
 usada para resumir dados contínuos simétricos ou
aproximadamente simétricos;
 apropriada quando o tamanho da amostra é moderado ou
grande, mesmo quando a simetria não tão boa;
 é influenciada por valores extremos, sendo puxada na direção
da cauda mais alongada (ver Figura 5), especialmente para
amostras pequenas.
➢ A Moda
 é o elemento de maior frequência, sendo o ponto de máximo
de f(x);
 a moda é apropriada para dados de contagem;
 pode ser aplicada a dados qualitativos, nominais ou ordinais;
 quando o tamanho da amostra é grande, é robusta a valores
extremos.
➢ A Mediana
 está sempre no meio do conjunto, dividindo-o em duas partes
iguais, ficando entre as duas medidas anteriores;
 por ser uma medida robusta a valores extremos, é apropriada
para resumir dados assimétricos;
 pode ser utilizada para dados qualitativos ordinais.
4.1.2. As médias geométrica e harmônica
a) Média Geométrica: MG(x) e é dada pela n-ésima raiz do
produto das n observações da amostra
1/ n
n 
MG ( x)    xi 
 i 1 
 n x1  x2    xn
Exemplo 8: Sejam os dados: 2, 3, 6, 3, 5, 4, 3, 4, 2, 3,
10
logo
 xi  155520
i 1
MG( x)  10 155520  3,305054
Obs:
i) para o cálculo da média geométrica, os valores devem ser todos
positivos e diferentes de zero;
ii) outra forma de apresentação da média geométrica é dada pela
relação:
 log( x1 )  log( x2 )    log( xn ) 
MG ( x)  exp

n


1 n

 exp  log( xi )
 n i 1

10
Exemplo 9: Com os dados anteriores,
 log( xi )  11,95453 , e
i 1
 11,95453 
MG( x)  exp
  3,305054
10


Propriedades:
i) Seja a amostra x1, x2, . . . , xn, então, MG (a x)  a MG ( x) ;
Exemplo 10: Se y = 2x:
MG ( y )  10 159252480  6.610  2  MG ( x)
 x  MG ( x)
ii) Sejam duas variáveis X e Y, então, MG  
.
y
MG
(
y
)
 
Exemplo 11: Seja a seguinte amostra de uma varável y:
10,0 15,0 10,0 5,0 7,5 5,0 7,5 7,5 12,5 7,5, então
MG ( y )  8,262636
 x
MG( x)
e, MG   0.4 
MG( y )
 y
b) Média Harmônica: MH(x) e é dada pelo recíproco da média
aritmética dos inversos das observações
MH ( x) 


1
1 / x1  1 / x2    1 / xn 


n
n
1 1
1




x x

x
 1
2
n
n
 n 1
 x 
i 1 i 
Obs: também, para o cálculo da média harmônica, os valores
devem ser todos positivos e diferentes de zero.
Exemplo 12: Sejam os dados: 2, 3, 6, 3, 5, 4, 3, 4, 2, 3,
10
logo

i 1
MH ( x) 
1
 3 .2
xi
10
 3.125
3.2
Propriedade:
Seja a amostra x1, x2, . . . , xn, então, MH (a x)  a MH ( x)
Exemplo 13: Se y = 2x:
10
então,
1
  1.6
i 1 yi
MH ( y) 
10
 6.25  2  MH ( x)
1.6
4.1.3. Relações entre as medidas deposição
i) Relação de desigualdades entre as médias aritmética, geométrica
e harmônica
MH ( x)  MG ( x)  x
Se todas as observações forem iguais, ( x1 = x2 = . . . = xn), temos
a igualdade
MH ( x)  MG ( x)  x
ii) Relação empírica entre média aritmética, mediana e moda.
Karl Pearson, matemático famoso, no final do século XIX e
início do XX, observou empiricamente, a seguinte relação
entre as três medidas de posição média, mediana e moda:
x  mo( x)  3x  med ( x)
ou, ainda
mo( x)  med ( x)  2 x
Observações:
1) Se a distribuição dos dados for perfeitamente simétrica, então
x  med ( x)  mo( x) ;
2) A relação só se aplica a distribuições com boa simetria;
3) Só é valida para casos unimodais;
4) Depende de um tamanho de amostra n elevado.
4.1.4. Exemplos de medidas de posição
Exemplo 14: uma grande companhia está preocupada com o tempo
em que seus equipamentos ficam em manutenção na assistência
técnica. Assim sendo, fez um levantamento do tempo de
manutenção (dias) de 50 equipamentos para um estudo mais
detalhado.
X = dias em manutenção de equipamentos.
15
9
4
2
5
13
10
11
5
7
21
3
8
9
8
9
4
6
14
3
5
2
6
15
10
5
13
10
3
5
10
12
17
6
5
6
16
13
18
4
2
7
9
3
5
2
6
5
4
2
Dados Ordenados:
2
2
2
2
4
4
4
5
5
6
6
6
9
9
9
9
13 13 13 14
2
5
6
10
15
3
5
6
10
15
3
5
7
10
16
3
5
7
10
17
3
5
8
11
18
4
5
8
12
21
n = 50 observações
Medidas Descritivas de Posição:
i) Média: in1 xi  392
 x
392
 7.84 dias (≈ 8 dias)
50
ii) Mediana:
 Determinando a posição da mediana
n  1 50  1

 25.5
2
2
Logo, a mediana é dada pela média entre a 25ª e 26ª
observações ordenadas:
med ( x) 
x( 25)  x( 26)
2
iii) Moda: mo(x) = 5 dias

66
 6 dias
2
(aparece 5 na amostra)
 o conjunto é unimodal.
n
iv) Média geométrica:  xi  3.8950461040
i 1

 MG( x)  3.8950461040
1/ 50  6.4835 dias
n
Como
 log( xi )  93.46311, temos, ainda,
i 1
93.46311 1.8693
 6.4835 dias.
e
 50 
 MG ( x)  exp
n
v) Média harmônica: 
i 1
 MH ( x) 
1
 9.4811
xi
50
 5.2737 dias
9.4811
Exemplo 15: Em 1798 o cientista inglês Henry Cavendish mediu a
densidade do globo terrestre em 29 ensaios. Os dados foram
obtidos do Annals os Statistics, 1977.
X = densidade do globo terrestre (g/cm3).
5.50 5.61 4.88 5.07 5.26 5.55 5.36 5.29 5.58 5.65
5.57 5.53 5.62 5.29 5.44 5.34 5.79 5.10 5.27 5.39
5.42 5.47 5.63 5.34 5.46 5.30 5.75 5.68 5.85
Dados ordenados
4.88 5.07 5.10 5.26 5.27 5.29 5.29 5.30 5.34 5.34
5.36 5.39 5.42 5.44 5.46 5.47 5.50 5.53 5.55 5.57
5.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85
n = 29 observações
Medidas Descritivas de Posição:
i) Média: in1 xi  157.99

x
157.99
 5.448g/cm3
29
ii) Mediana:
 Determinando a posição da mediana
n  1 30
  15
2
2
Logo a mediana é a 15ª observação ordenada.
med ( x)  x(15)  5.46g/cm3
iii) Moda: mo1(x) = 5.29 g/cm3
e
mo2(x) = 5.34 g/cm3
 o conjunto é bimodal.
n
vi) Média geométrica:  xi  2.190651021
i 1


MG( x)  2.190651021
1/ 29  5.4435g/cm
3
n
Como
 log( xi )  49.13848, temos, ainda,
i 1
 49.13848 1.69443
 5.4435g/cm3.
e
 29 
 MG ( x)  exp
n
vii) Média harmônica: 
i 1
 MH ( x) 
1
 5.331768
xi
29
 5.4391g/cm3
5.331768
Exemplo 16: Altura dos alunos das turmas A e B de Estatística 1 no
primeiro semestre de 2015.
X = altura dos alunos (em metros).
Dados ordenados
1.52
1.63
1.70
1.73
1.78
1.83
1.55
1.64
1.70
1.74
1.78
1.83
1.57
1.65
1.70
1.74
1.79
1.89
1.58
1.65
1.70
1.74
1.79
1.90
1.59
1.65
1.70
1.75
1.79
1.95
1.60
1.67
1.72
1.75
1.80
1.60
1.68
1.72
1.76
1.80
1.60
1.68
1.73
1.77
1.80
1.61
1.68
1.73
1.77
1.83
1.63
1.69
1.73
1.78
1.83
n = 55 observações
Dados:
 xi  94.52;

1
 32.09242
xi
Calcule as medidas de posição: médias aritmética, geométrica e
harmônica; mediana e moda.
Medidas Descritivas de Posição:
i) Média: xi = 94.52
ii) Mediana:

x
94.52
 1.7185m
55
n  1 56
  28, logo a mediana é a 28ª observação
2
2
ordenada:
med ( x)  x( 28)  1.72m
iii) Moda: mo(x) = 1.70m  aparece 5 na amostra,

o conjunto é unimodal,
4.2. Medidas de Dispersão (ou de variação)
a) Amplitude: é dada pela diferença entre o maior e o menor valor
da amostra.
Sejam x(1)  min[ x1, x2 ,, xn ] e x( n)  max[ x1, x2 ,, xn ],
x
x
então, a amplitude da amostra é definida por:
A  x( n)  x(1) .
A amplitude A representa o tamanho da região na qual os dados
foram observados.
b) Variância e desvio-padrão amostrais:
A variância amostral é definida pela soma dos quadrados dos
desvios das observações em relação à media amostral x , dividida
por (n – 1), ou seja
in1  xi  x 
2
s 
2
.
n  1
Mostra-se facilmente que s2 pode ser escrita como
2
2
n
x

n
x

.
s  i 1 i
2
n  1
O desvio padrão amostral, denotado por s, é definido pela raiz
quadrada da variância amostral e é expresso na mesma unidade dos
dados:
in1  xi  x 
2
s
n  1
.
c) Amplitude Interquartil: é dada pela diferença entre o 3º e o 1º
quartis e representa a região ocupada pelos 50% das
observações centrais.
Para definir a amplitude interquartil, vamos primeiro definir o
que são quartis amostrais,
Quartis amostrais são medidas descritivas que dividem a
amostra ordenada em quatro parcelas iguais de 25%, ou seja,
25%
25%
25%
25%
------------|------------|------------|-----------Q1
Q2
Q3
med(x)
Assim sendo:
i) Q1 é o primeiro quartil;
ii) Q2 = med(x), é o segundo quartil,
iii) Q3 é o terceiro quartil.
Desta forma, denotada por Aq, é definida por
Aq = Q3 – Q1
Aq determina o tamanho da região em torno da mediana que
contém 50% das observações centrais,
4.2.1. Métodos para a obtenção dos quartis amostrais
Para a obtenção dos quartis devemos proceder da mesma forma
que para a mediana.
Uma vez que a mediana esteja determinada, temos o conjunto
de dados ordenados dividido em duas partes. Os quartis, então, são
dados pelas observações centrais destas duas metades.
Q1
med(x)
Observação central
da metade inferior
Q3
Observação central
da metade superior
O procedimento para encontrar os quartis é o mesmo usado
para a mediana, porém, teremos dois procedimentos dependendo
do tamanho da amostra n ser par ou ímpar.
i) Se o tamanho da amostra n for par: o procedimento é o mesmo
da mediana, sendo aplicada a cada uma das metades (inferior e
superior);
Exemplo 17:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 8 9
med ( x) 
 n = 14
x( 7 )  x(8) 5  6

 5.5
2
2
A mediana med(x) = 5.5 divide os dados em dois grupos de 7
observações cada um. Assim,

7 1
4
2
 Q1 é a 4ª observação da metade inferior e,
 Q3 é a 4ª observação da metade superior.
Desta forma, os quartis serão as observações ordenadas que
ocupam as posições 4 e 7 + 4 = 11.
5,5
1 1 2 3 4 5 5
6 6 6 7 8 8 9
Q1  x( 4)  3
Q3  x(11)  7
ii) Se o tamanho da amostra n for ímpar: devemos optar por
incluir, ou não, a mediana nos cálculos para a determinação dos
quartis.
ii.1) se a mediana não for incluída, então teremos dois grupos,
inferior e superior à mediana, cada um com (n  1) 2
observações
 n  1  observações


 2  inferiores
 n  1  observações


 2  superiores
Q1
Q3
med(x)
e os quartis Q1 e Q3 são obtidos normalmente.
Exemplo 18:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 9

n = 13
A mediana med ( x)  x( 7 )  5 divide os dados em dois grupos
ordenados de 6 observações cada e, os quartis serão as médias
entre as observações ordenadas x( 3) e x( 4 ) e as observações x(10 )
e x(11) (7 + 3 = 10).

6 1
 3.5  Q1 é a média da 3ª e 4ª observações do
2
grupo inferior e,
 Q3 é a média da 3ª e 4ª observações do
grupo superior.
5
1 1 2 3 4 5
Q1 
6 6 6 7 8 9
x( 3)  x( 4 ) 2  3

 2.5
2
2
x(10 )  x(11) 6  7
Q3 

 6.5
2
2
ii.2) se a mediana for incluída, então, ela deve ser considerada1
tanto para a obtenção do 1º quartil, na metade inferior
como na obtenção do 3º quartil, na metade superior. Desta
forma, teremos 2 grupos, com (n  1) 2 observações cada.
grupo
inferior
Q1
grupo
superior
med(x)
Q3
e os quartis Q1 e Q3 são obtidos normalmente.
Exemplo 19:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 9

n = 13
A mediana med ( x)  x( 7 )  5 divide os dados em dois grupos
ordenados de 6 observações cada,
Incluindo a mediana ao procedimento, teremos uma observação
a mais em cada grupo, ou seja, teremos 7 observações

7 1
4
2
 Q1 é a 4ª observação do grupo inferior e,
 Q3 é a 4ª observação do grupo superior, ou
seja, a 10ª observação ordenada (6 + 4),
Observe que a mediana é uma só. Ela é apenas considerada nos dois grupos para as contagens das
posições dos quartis.
1
1 1 2 3 4 5 5
5 6 6 6 7 8 9
Q1  x( 4)  3
Q3  x(10)  6
iii) Outra forma para a obtenção dos quartis é apresentada por
Murteira (2002),
Se a mediana ocupa a posição (n + 1)/2, então Q1 deverá
ocupar a posição:
 n  1

 1
 2   n3
2
4
Para a posição de Q3 fazemos:
 n  3  3n  1
(n  1)  

4
 4 
Portanto, Q1 e Q3 são dados pelas observações ordenadas que
ocupam as posições
Se os valores de
n3
3n  1
e
, respectivamente,
4
4
n3
3n  1
e
não forem inteiros, Q1 e Q3
4
4
devem ser obtidos por interpolação linear,
Por exemplo, se
n3
 k  ,
4
em que k é a parte inteira e  a parte decimal, então, Q1 pertence ao
intervalo ( x( k ) ; x( k 1) ) e
Q1  x( k )   [ x( k 1)  x( k ) ]
Para Q3 o procedimento é semelhante, ou seja, se
3n  1
   ,
4
então, Q3 pertence ao intervalo ( x(  ) ; x( 1) ) e
Q3  x(  )  [ x( 1)  x(  ) ]
Exemplo 20:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 8 9
 n = 14
Para a determinação de Q1, temos:
 posição de Q1:
14  3 17
  4.25 .
4
4
Como  = 0,25, Q1 é a interpolação entre a 4ª e 5ª observações
ordenadas:
Q1  3  0.25(4  3)  3.25.
Para a determinação de Q3, temos:
 posição de Q3:
3 14  1 43
  10.75.
4
4
Aqui  = 0,75 e Q3 é a interpolação entre a 10ª e 11ª observações
ordenadas:
Q3  6  0.75(7  6)  6.75 .
Obs: o item (iii) com n ímpar é equivalente ao item (ii.2),
Notas:
 Assim como a mediana, os quartis amostrais dependem do
tamanho da amostra n, fazendo com que nem sempre os quatro
grupos tenham o mesmo tamanho;
 Existem diversas outras formas para a determinação dos quartis,
Nesta disciplina daremos ênfase nos itens (i) e (ii.1);
 Para n pequeno, pode-se, ainda, obter os quartis graficamente
pelo histograma dos dados;
 Os quartis são casos especiais dos quantis (ou percentis), que
são denotados por:
x(p)  p-ésimo quantil ou quantil de ordem p,
Portanto, o quantil x(p) é dado pela observação ordenada que
deixa uma frequência acumulada igual 100p % abaixo de si,
Assim sendo temos que:
i) Q1 = x(0.25)  quantil de ordem 0.25;
ii) Q2 = med(x) = x(0.50)  quantil de ordem 0.50;
iii) Q3 = x(0.75)  quantil de ordem 0.75,
4.2.2. Exemplos de medidas de dispersão:
Exemplo 21: Número de pessoas com diabetes em 20 grupos de
1000 pessoas cada. Neste caso, foram obtidos os seguintes dados:
7, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 11, 12
in1 xi  193 e
a) Média: x 
2
in1 xi  1889
193
 9.65 casos (≈ 10);
20
b) Mediana: med ( x) 
x(10 )  x(11) 10  10

 10 casos
2
2
c) Moda: mo(x) = 10 casos.
d) Variância e desvio padrão amostral:
1889  20(9.65) 2 1889  1862.45
s 

20  1
19
2
s2 
26.55
 1.397(casos)2
19
s  1.397  1.182 casos (≈ 1)
e) Amplitude amostral: A  12  7  5 casos
f) Amplitude interquartil:
 posição de Q1:
10  1
 5.5 ,
2
logo, o 1º quartil é dado pela média entre a 5ª e 6ª
observações ordenadas:
Q1 
x( 5)  x( 6 ) 9  9

 9 casos.
2
2
 posição de Q3: 10  5.5  15.5 ,
logo o 3º quartil dado pela média entre a 15ª e 16ª
observações ordenadas:
x(15 )  x(16 ) 10  10
Q3 

 10 casos.
2
2
Desta forma, a amplitude interquartil é:
Aq  10  9  1 caso.
Relação entre as amplitudes amostral e interquartil:
Aq 1
  0 .2
A 5
Ou seja, a metade das observações centrais representam 20%
da amplitude total dos dados.
Exemplo 22: Altura dos alunos das turmas A e B de Estatística 1 no
primeiro semestre de 2015.
X = altura dos alunos (em metros).
Dados ordenados
1.52
1.63
1.70
1.73
1.78
1.83
1.55
1.64
1.70
1.74
1.78
1.83
1.57
1.65
1.70
1.74
1.79
1.89
1.58
1.65
1.70
1.74
1.79
1.90
1.59
1.65
1.70
1.75
1.79
1.95
1.60
1.67
1.72
1.75
1.80
1.60
1.68
1.72
1.76
1.80
1.60
1.68
1.73
1.77
1.80
1.61
1.68
1.73
1.77
1.83
n = 55 observações
Dado:  xi  94.52
a) Média: x 
e
2
in1 xi  162.8848
94.52
 1.7185m;
55
b) Mediana: med ( x)  x( 28 )  1.72m;
c) Moda: mo( x)  1.70 .
d) Variância e desvio padrão amostral:
162.8848  55(1.7185) 2 162.8848  162.4369
s 

55  1
54
2
s2 
0.4479
 0.008294m2
54
1.63
1.69
1.73
1.78
1.83
s
0.008294  0.09107 m
e) Amplitude amostral: A  1.95 − 1.52 = 0.43m
f) Amplitude interquartil: (sem incluir a mediana)
O primeiro quartil é a posição central da metade inferior
Q1  x(14 )  1.65m
O terceiro quartil é a posição central da metade superior
Q3  x( 42 )  1.78 m
Desta forma, a amplitude interquartil é:
Aq  1.78 − 1.65 = 0.13
Relação entre as amplitudes amostral e interquartil:
Aq 0.13

 0.302
A 0.43
Metade das observações centrais representam 30.2% da amplitude
total dos dados.
Exemplo 23: Dias de manutenção de equipamentos de uma grande
companhia, (n = 50 observações)
X = dias em manutenção de equipamentos,
Dados Ordenados:
2
2
2
2
4
4
4
5
5
6
6
6
9
9
9
9
13
13
13
14
in1 xi  392
a) x 
e
2
5
6
10
15
3
5
6
10
15
3
5
7
10
16
3
5
7
10
17
3
5
8
11
18
4
5
8
12
21
2
in1 xi  4178
392
 7.84 dias
50
b) med ( x) 
x( 25 )  x( 26 )
 6 dias
2
c) mo(x) = 8 dias
d) Variância e desvio padrão amostral:
4178  50(7.84) 2 4178  3073.28
s 

 22.5453 dias2
50  1
49
2
s  22.5453  4.7482 dias
e) Amplitude amostral: A  21 2  19 dias
f) Amplitude interquartil:
A mediana está entre a 25ª e 26ª posição, logo o primeiro
quartil é a posição central da metade inferior dos dados, ou seja:
25  1
 13, logo o 1º quartil é a 13ª observação ordenada,
2
Q1  x(13 )  4 dias,
O terceiro quartil é a posição central da metade superior
25  13  38 , logo o 3º quartil é a 38ª observação ordenada,
Q3  x(38 )  10 dias,
Desta forma, a amplitude interquartil é:
Aq  10  4  5dias
Relação da amplitude interquartil com a amplitude total:
Aq 6
  0.316.
A 19
Metade das observações centrais representam 31.6% da amplitude
total.
Exemplo 24: Dados Cavendish.
X = densidade do globo terrestre (g/cm3).
Dados ordenados
4.88 5.07 5.10 5.26 5.27 5.29 5.29 5.30 5.34 5.34
5.36 5.39 5.42 5.44 5.46 5.47 5.50 5.53 5.55 5.57
5.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85
n = 29 observações
 xi  157.99
x
e
2
 xi  862.0855
157.99
 5.448g/cm3
29
a) Variância amostral:
862.0855  29(5.4479) 2 1.36638
s 

 0.04773 (g/cm3)2
29  1
28
2
Desvio padrão amostral: s  0.04773  0.21847 g/cm3
b) Amplitude amostral: A  5.85  4.88  0.97 g/cm3
c) Amplitude interquartil:
A mediana é 15ª observação ordenada, o primeiro quartil
(excluindo-se a mediana do cálculo) é a posição central da metade
inferior dos dados, ou seja:
Q1 
x( 7 )  x(8) 5.29  5.30

 5.295 g/cm3,
2
2
Q3 
x( 22 )  x( 23 ) 5.61  5.62

 5.615 g/cm3
2
2
Desta forma, a amplitude interquartil é:
Aq  5.615 – 5.295 = 0.32 g/cm3,
Relação da amplitude interquartil com a amplitude total:
Aq 0.32

 0.330.
A 0.97
Metade das observações centrais representam 33.0% da amplitude
total.
4.3. O coeficiente de variação amostral:
Uma medida utilizada para quantificar a variabilidade dos
dados é o coeficiente de variação, ou cv.
O cv de variação amostral é dado pela razão do desvio padrão
da amostra s e a média amostral x :
cv 
s
x
Notas:
 O coeficiente de variação compara a magnitude do desvio
padrão s com a média x . Se cv  1  s  x .
 O coeficiente de variação é uma medida adimensional (é um
número puro) também podendo ser expresso em %.
Exemplo 25:
a) Número de casos com diabetes em 20 grupos de 1000 pessoas:
x  9.65 casos/grupo
s 2  1.397 (casos/grupo) 2
s  1.397  1.182 casos/grupo
cv 
1.182
 0.122 ou 12.2%
9.65
b) Altura dos alunos da disciplina Estatística 1:
x  1.7185m
s 2  0.008294m2
s
cv 
0.008294  0.09107 m
0.09107
 0.0530 ou 5.30%
1.7185
c) Dias de manutenção de equipamentos:
x  7.84 dias
s 2  22.5453 dias2
s  22.5453  4.7482 dias
cv 
4.7482
 0.606 ou 60.6%
7.84
d) Dados Cavendish:
x  5.448g/cm3
s  0.21847 g/cm3
cv 
0.21847
 00401 ou 4.01%,
5.448
Nos exemplos acima temos os cv’s de quatro processos
distintos, sendo o maior deles (dias manutenção) 15 vezes maior
do que o menor (Cavendish), indicando claramente as diferenças
na dispersão dos dados.
Tabela: Coeficientes de variação dos exemplos.
Dados
Manutenção
Diabetes
Alturas
Cavendish
cv
0.606
0.122
0.053
0.040
cv (%)
60.6%
12.2%
5.3%
4.0%
Um ponto de grande interesse, contudo, diz respeito a
classificar o cv e poder dizer se um conjunto de dados tem uma
dispersão muito alta, ou não. A seguir serão apresentados três
critérios para classificação do coeficiente de variação.
4.3.1. Como classificar o Coeficiente de Variação
O cv tem uma característica particular de ser intrínseco a
cada processo, tendo sido muito estudado na área agrícola, mais
especificamente, na experimentação agronômica.
Vários autores indicam diferentes métodos para se classificar o
coeficiente de variação. A seguir, são apresentadas três
classificações.
I) Classificação segundo Pimentel Gomes (1985), baseada em
ensaios agrícolas.
Faixa
cv
menor ou igual a 10%
baixo
baixa dispersão dos dados
entre 10% e 20%
médio
média dispersão dos dados
entre 20% e 30%
alto
maior do que 30%
dispersão
alta dispersão dos dados
muito alto dispersão dos dados muito alta
II) Classificação segundo Ferreira, F.V. (1991), Estatística
Experimental Aplicada à Agronomia, classifica com respeito à
precisão do processo.
Faixa
precisão
cv
Abaixo de 10%
muito baixo
ótima
entre 10% e 15%
baixo
boa
entre 15% e 20%
médio
regular
entre 20% e 30%
alto
ruim
maior do que 30%
muito alto
muito ruim
(ou péssima)
III) Classificação obtida no site www.datalyser.com.br, muito
utilizada em CEP - Controle Estatístico do Processo.
Faixa
dispersão
cv
menor ou igual a 15%
baixo
baixa dispersão dos dados
entre 15% e 30%
médio
média dispersão dos dados
maior do que 30%
Alto
alta dispersão dos dados
Exemplo 26:
a) Diabetes:
cv 
1.182
 0.122 (12.2%)  cv baixo a médio.
9.65
b) Aturas dos alunos:
cv  (5.3%)  cv baixo.
c) Dias de manutenção de equipamentos:
cv 
4.7482
 0.606 (60.6%)  cv alto ou muito alto.
7.84
d) Dados Cavendish:
cv 
0.21847
 0.0401 (4.01%)  cv baixo.
5.448
4.4. O diagrama box-plot
Representação gráfica da dispersão dos dados em torno da
mediana, é construído com as 5 medidas ordenadas: mínimo, Q1,
med(x), Q3 e máximo.
As cinco medidas podem ser apresentadas pela representação dos
cinco números:
med(x)
Q Q1
E mín(x)
Q3
max(x)
Observações:
i) A representação dos cinco números, além da construção do
box-plot, ajuda na comparação da assimetria das caudas;
ii) Outros percentis podem ser incluídos, ampliando a
representação.
O diagrama box-plot fornece uma visão simplificada da dispersão
e simetria dos dados, além de indicar possíveis valores fora do
padrão (valores discrepantes). Além disso, pode ser utilizado na
comparação de diferentes processos quanto à centralidade
(posição) e variabilidade (dispersão).
O nome box-plot refere-se à “caixa” construída para representar a
metade das observações centrais entre os quartis.
O box plot é constituído de 3 partes: caixa central, braços e
valores discrepantes.
i) A caixa central representa a metade das observações centrais
entre os quartis Q1 e Q3.
A mediana é destacada na caixa por uma linha que a divide
em duas partes. Com isso, pode-se avaliar a simetria na região
central da distribuição dos dados;
ii) Os braços são construídos a partir da caixa central,
representando as caudas da distribuição.
A construção dos braços é baseada nos valores dos quartis e, o
tamanho dos braços serve para avaliar a simetria das caudas.
iii) Valores discrepantes são valores fora do padrão de dispersão,
aparecendo muito distantes da maioria dos dados, podendo
indicar grande forte assimetria ou variabilidade (ou ambos).
Os valores discrepantes nem sempre estão presentes, sendo
representados individualmente a partir das caudas.
Valores discrepantes
Q1 – 1.5AQ
Valores discrepantes
Q1
med(x)
Q3
Q3 + 1.5AQ
4.4.1. Procedimento para a construção do box-plot
i) Construir a “caixa” ou “box” com os valores de Q1 e Q3;
ii) Com uma linha, demarcar a mediana na caixa, dividindo-a em
duas partes;
iii) Calcular os limites inferior (LI) e superior (Ls):
 LI = Q1 – 1.5Aq
 LS = Q3 + 1.5Aq
Os limites LI e Ls são utilizados para se identificar valores
discrepantes.
Valores discrepantes são observações menores do que LI ou
maiores do que LS e são destacados individualmente no boxplot com pontos além desses limites.
iv) Para os “braços” do box-plot, traçar linhas a partir dos centros
das laterais inferior e superior da caixa, obedecendo ao
seguinte critério:
 traçar uma linha da lateral inferior da caixa até o menor
valor que não seja discrepante ou até min(x);
 marcar os pontos discrepantes menores do que LI, caso
existam;
 traçar uma linha da lateral superior da caixa até o maior
valor que não seja discrepante ou até max(x);
 marcar os pontos discrepantes maiores do que LS, caso
existam.
Exemplo 27: variável: horas gastas por semana assistindo TV.
0, 2, 2, 2, 2, 3, 4, 5, 5, 5,
5, 5, 5, 5, 6, 7, 7, 8, 8, 8,
10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
10, 12, 12, 12, 12, 14, 14, 14, 14, 14,
15, 16, 18, 20, 20, 20, 25, 25, 28, 30
10
Q
E
5
0
14
30
Figura 2.2: Box-plot’s para a variável horas de TV, nas posições vertical e horizontal.
Comandos do R para o box-plot:
x <- c( 0, 2, 2, 2, 2, 3, 4, 5, 5, 5, 5, 5, 5, 5,
6, 7, 7, 8, 8, 8,10,10,10,10,10,10,10,10,
10,10,10,12,12,12,12,14,14,14,14,14,15,16,
18,20,20,20,25,25,28,30)
boxplot(x, col="bisque", main="Horas assistindo
TV", ylab="Horas", pch=19)
Exemplo 28: variável Renda PC por exposição de crianças à
violência doméstica (grupos exposto e não exposto).
Grupo
68
135
36
exposto
não
exposto 150
Grupo
Exposto
Não exposto
96
150
50
100
160
70
180
220
100
160
84
250
112
200
108
112
260
109
260
300
120
120
120
120
150
Estatísticas descritivas (reais), por grupo.
n
med(x)
s2
s
x
15
15
134.00
147.13
120.00
120.00
2257.29
6376.70
47.51
79.85
Q1
100
184
6
8
7
5
6
Freqüência
Freqüência
117
5
4
3
2
4
3
2
1
1
0
0
35
85
135
185
235
285
0
Grupo Exposto
150
Grupo Exposto
132
198
264
330
Grupo não Exposto
Box-plot renda per capita
Box-plot renda per capita
50
66
250
0
100
200
Grupo Não Exposto
Figura 2.2: Histogramas e box-plot’s individuais
300
Q3
160
220
Figura 2.3: box-plot’s por grupo lado-a-lado.
Comandos do R para o box-plot lado-a-lado:
exp <- c(68,96,100,100,112,112,117,120,120,135,150,160,
160,200,260)
nexp <- c(36,50,70,84,108,109,120,120,150,150,180,220,
250,260,300)
renda <- c(nexp,exp)
gr <- c(rep("nexp",length(nexp)), rep("exp",length(exp)))
boxplot(renda~gr, pch=19,
col=c("mediumseagreen","lightcoral"))
# para o box-plot horizontal
boxplot(renda~gr, pch=19, horizontal=T,
col=c("mediumseagreen","lightcoral"))
Exemplo 29: Peso da carne de mexilhões (g) provenientes de dois
locais em Santa Catarina: Sambaqui e Manguezal
Exemplo 30: Total de pontos obtidos pelos alunos ingressos na
UFSCar no ano de 2007, nos diferentes cursos.
Download