Medidas Descritivas

Propaganda
Professora Janete Pereira Amador
1
9 Medidas Descritivas
Vimos anteriormente que um conjunto de dados pode ser resumido através de uma
distribuição de freqüências, e que esta pode ser representada através de uma tabela ou de
um gráfico. Se o conjunto refere-se a uma variável QUANTITATIVA há uma terceira
maneira de resumi-lo: as Medidas de Síntese. As Medidas de Síntese, também chamadas
de Estatísticas ou Medidas Descritivas, dividem-se em Medidas de Posição (Medidas de
Tendência Central), Medidas de Dispersão e Separatrizes.
As Medidas de Posição obtém um valor numérico que represente a tendência do
conjunto (valor “típico”). As mais importantes são: Média, Mediana, e Moda.
As Medidas de Dispersão obtém uma mensuração da disposição dos dados no
conjunto, da sua variabilidade (se estão concentrados em torno de um valor, se
distribuídos, etc). As mais importantes são: Intervalo, Variância, Desvio Padrão e
Coeficiente de Variação.
As Separatrizes são medidas que dividem o conjunto em um certo número de
partes iguais: Quartis (4 partes), Decis (10 partes), Centis (100 partes).
9.1 Medidas de Posição
As Medidas de Posição procuram caracterizar a tendência central do conjunto, um
valor numérico que “represente” o conjunto. Esse valor pode ser calculado levando em
conta todos os valores do conjunto ou apenas alguns valores ordenados.
 Média
A média aritmética é simbolizada por x (leia-se x barra) e consiste na
soma de todas as observações xi do grupo, dividida pelo número "n" de observações do
grupo.
n
xi
x1  x 2  ...  x n 
 xi
i 1
x


n
n
n
Ex: A tabela abaixo refere-se às notas finais de três turmas de estudantes. Calcular a
média de cada turma:
“Ao somar os valores em cada turma teremos o mesmo resultado: 48. Como cada
turma tem 8 alunos as três turmas terão a mesma média: 6.”
No exemplo acima as três turmas têm a mesma média (6), então se apenas essa
medida fosse utilizada para caracterizá-las poderíamos ter a impressão que as três turmas
têm desempenhos idênticos. Será? Observe atentamente a tabela acima.
Na primeira turma temos realmente os dados distribuídos regularmente em torno
da média, com a mesma variação tanto abaixo quanto acima. Já na segunda vemos uma
distorção maior, embora a maioria das notas sejam altas algumas notas baixas “puxam” a
Caderno Didático de Estatística
Professora Janete Pereira Amador
2
média para um valor menor. E no terceiro grupo há apenas uma nota baixa, mas seu valor
é tal que realmente consegue diminuir a média do conjunto.
Um dos problemas da utilização da média é que, por levar em conta TODOS os
valores do conjunto, ela pode ser distorcida por valores discrepantes (“outliers”) que nele
existam. É importante então interpretar corretamente o valor da média.O valor da média
pode ser visto como o ponto central de cada conjunto de dados, ou seja o ponto de
equilíbrio do conjunto: “se os valores do conjunto fossem pesos sobre uma tábua, a média
é a posição em que um suporte equilibra esta tábua”.
Utilizando um diagrama apropriado vejamos como as notas dos alunos, de cada
turma se distribuem entorno da média.
A média dos três conjuntos (Turmas) é a mesma, mas observe as diferentes
disposições dos dados. O primeiro grupo (Turma A) apresenta os dados distribuídos de
forma simétrica em torno da média. No segundo grupo (Turma B) a distribuição já é mais
irregular, com valores mais “distantes” na parte de baixo, e o terceiro grupo (Turma B) é
claramente assimétrico em relação à média (que foi distorcida pelo valor discrepante 0).
Portanto muito cuidado ao caracterizar um conjunto apenas por sua média
Outro aspecto importante a ressaltar é que a média pode ser um valor que a
variável não pode assumir. Isto é especialmente verdade para variáveis quantitativas
discretas, resultantes de contagem, como número de filhos, quando a média pode assumir
um valor "quebrado", 4,3 filhos, por exemplo.
É extremamente comum calcular médias de variáveis quantitativas a partir de
distribuições de freqüências representadas em tabelas: simplesmente multiplica-se cada
valor (ou o ponto médio da classe) pela freqüência associada, somam-se os resultados e
Caderno Didático de Estatística
Professora Janete Pereira Amador
3
divide-se o somatório pelo número de observações do conjunto. Na realidade trata-se de
uma média ponderada pelas freqüências de ocorrência de cada valor da variável.
Onde k é o número de valores da variável discreta, ou o número de classes da
variável agrupada, e xi é um valor qualquer da variável discreta, ou o ponto médio de uma
classe qualquer.
EXa: Calcular a média do número de residentes para os dados do, Quadro 1, número de
residentes em 40 domicílios.
Observe que NENHUMA residência pode ter 4,3 pessoas. Assim, não se esqueça
de que a média pode assumir valores que a variável não pode assumir.
EXb: Calcular a média das taxas de desemprego em municípios brasileiros.
Classes (Taxas de mortalidade)
9,9 |--- 18,62
18,62 |--- 27,34
27,34 |--- 36,06
36,06 |--- 44,78
44,78 |--- 53,5
53,5 |--- 62,2
Total
fi
9
13
7
4
0
1
34
Xi
14,26
22,98
31,7
40,42
49,14
57,85
Xi.fi
128,34
298,74
221,9
161,68
0
57,85
868,51
Quando os dados não estão grupados (EXa) o resultado será idêntico ao que seria
obtido simplesmente somando todos os valores e dividindo o somatório pelo número de
valores. Contudo, se a tabela estiver agrupada em classes (EXb) TODAS as medidas (não
somente a média) serão apenas estimativas dos valores reais, pois as medidas serão
Caderno Didático de Estatística
Professora Janete Pereira Amador
4
calculadas usando os pontos médios (que são os representantes das classes) e não mais os
valores originais. No caso do EXb a média real vale 25,39.
“Atualmente com as facilidades computacionais disponíveis não se calcula mais
a média (ou qualquer outra medida) a partir de uma tabela agrupada em classes
se os dados originais estão disponíveis: os programas calculam as medidas
usando os dados originais e as tabelas são apresentadas apenas para dar uma
idéia da variação dos dados”.
 Mediana (Md)
A mediana é o ponto que divide o conjunto em duas partes iguais: metade dos
dados têm valor menor do que a mediana e a outra metade têm valor maior do que a
mediana. Pouco afetada por eventuais valores discrepantes existentes no conjunto (que
costumam distorcer substancialmente o valor da média).
A mediana de um conjunto ordenado de valores, anotada por Md, é definida
como sendo o valor que separa o conjunto em dois subconjuntos do mesmo tamanho.
Assim se “n” (número de elementos) é ímpar a mediana é o valor central do conjunto.
Caso contrário a mediana é a média dos valores centrais do conjunto. Tem-se:
Calcular a mediana das finais de três turmas de estudantes (Ex).
Posição mediana = (n + 1)/2 = (8+1)/2 = 4,5 significa que o valor da mediana
será calculado através da média entre os valores que estiverem na 4a e na 5a posição do
conjunto.
Turma A: Md = (6 + 6)/ 2 = 6
Turma B: Md = (6 + 6)/ 2 = 6
Turma C: Md = (7 + 7)/ 2 = 7
Calcular a mediana para o grupo a seguir:
10
11
12
13
15
16
16
35
60
Posição mediana = (n + 1)/2 = (9+1)/2 = 5a como o conjunto tem um número
ímpar de valores o valor da mediana será igual ao valor que estiver na 5ª posição.
Md = 15 ; x  = 20,89
Observe que neste caso média e mediana são diferentes, pois a média foi
distorcida pelos valores mais altos 35 e 60, que constituem uma minoria. Neste caso a
medida de posição que melhor representaria o conjunto seria a mediana. Se a média é
diferente da mediana a distribuição da variável quantitativa no conjunto de dados é dita
ASSIMÉTRICA.
Calcule a mediana para a taxa de desemprego em municípios brasileiros.
Caderno Didático de Estatística
Professora Janete Pereira Amador
Classes (Taxas de mortalidade)
9,9 |--- 18,62
18,62 |--- 27,34
27,34 |--- 36,06
36,06 |--- 44,78
44,78 |--- 53,5
53,5 |--- 62,2
Total
Procedimentos
5
fi
9
13
7
4
0
1
34
Xi
14,26
22,98
31,7
40,42
49,14
57,85
xi.fi
128,34
298,74
221,9
161,68
0
57,85
868,51
Fi
9
22
29
33
33
34
n 34
=
= 17
2
2
2. A Md estará localizada na classe onde
Fi  PMd;
Classes
fi
Xi
xi.fi
Fi
3. 18,62
|--27,34
13 22,98 298,74
22
4.
3. Para encontrar o valor da mediana aplica-se a seguinte equação:
n

  Fi anterior .h
2

Md  Li 
f i ( Md )
Onde:
Md = mediana
Li = limite inferior da classe da mediana; (18,62)
n = tamanho da amostra; (34)
Fi = freqüência acumulada anterior a classe da Md; (9)
h = amplitude da classe da Md; (8,72)
fi = freqüência simples a classe da Md. (13)
17  9  8,72
Md  18,62 
13
Md  23,32
Novamente o valor acima é apenas uma estimativa, a mediana real vale:
Como n é par a mediana
Md = 23,6
1. Calcula-se a posição Md: PMd =
 Moda (Mo)
A moda é o valor da variável que ocorre com maior freqüência no conjunto. É a
medida de posição de obtenção mais simples, e também pode ser usada para variáveis
qualitativas, pois apenas registra qual é o valor mais freqüente, podendo este valor ser
tanto um número quanto uma categoria de uma variável nominal ou ordinal. Um conjunto
dedados pode ter apenas uma Moda, várias Modas ou nenhuma Moda.
Encontre a moda das notas das três turmas.
Caderno Didático de Estatística
Professora Janete Pereira Amador
6
A turma A tem 3 modas: os valores 5, 6 e 7 ocorrem duas vezes cada. A turma B
tem duas modas: os valores 6 e 10 ocorrem duas vezes cada. A turma C tem uma moda
apenas: o valor 7 ocorre 3 vezes.
Para dados agrupados em classes a moda é calculada utilizando a equação
 1 
.h onde;
Mo  i ( Mo )  



2 
 1
1  f i Mo  f i ant
 2  f i Mo  f i post ;
Mo = moda
Li = limite inferior da classe modal
fiMo = freqüência simples a classe modal
fiant = freqüência simples anterior a classe modal
fipost = freqüência simples posterior a classe modal
Classe modal = classe de maior fi.
Calcule a moda para a taxa de desemprego em municípios brasileiros do Exemplo
do EXb.
Classes (Taxas de mortalidade)
9,9 |--- 18,62
18,62 |--- 27,34
27,34 |--- 36,06
36,06 |--- 44,78
44,78 |--- 53,5
53,5 |--- 62,2
Total
fi
9
13
7
4
0
1
34
Xi
14,26
22,98
31,7
40,42
49,14
57,85
xi.fi
128,34
298,74
221,9
161,68
0
57,85
868,51
Fi
9
22
29
33
33
34
 1 
4 
.8,72 = 18,62  
Mod  18,62  
.8,72  22,11
46
 1   2 
 1  13  9
 2  13  7
e
1  4
2  6
Analisando o conjunto original dos verificamos que o conjunto de dados é amodal
desta forma este valore apenas uma estimação.
Caderno Didático de Estatística
Professora Janete Pereira Amador
7
Podemos apresentar uma breve comparação das medidas de posição.
Fonte: REIS, M. M. & LINO, M. de O., 2005.
9.2 Medidas de Dispersão
O objetivo das medidas de dispersão é medir quão próximos uns dos outros estão
os valores de um grupo ou medindo a dispersão de um grupo de dados em torno da sua
média.
Figura 10 - Desvantagem do uso do intervalo como medida de dispersão.
Observa-se claramente que os dados da turma A apresentam uma dispersão bem
mais uniforme do que os da turma B, embora ambos os conjuntos tenham o mesmo
intervalo. O intervalo não permite ter idéia de como os dados estão distribuídos ENTRE
os extremos (não permite identificar que o valor 8 na turma B é um valor discrepante).
 Variância (S2)
A variância é uma das medidas de dispersão mais importantes. É a média
aritmética dos quadrados dos desvios de cada valor em relação à média: proporciona uma
mensuração da dispersão dos dados em torno da média.
Caderno Didático de Estatística
Professora Janete Pereira Amador
8
 X 

2
S 
2
X
2
i
n 1
 X 

2
i
n
 
2
Amostra
X
2
i
i
N
N
População
Onde xi é um valor qualquer do conjunto. Se os dados referem-se a uma
POPULAÇÃO usa-se N (tamanho da população) no denominador da expressão.
A razão da utilização de n – 1 no denominador é indispensável para que a
variância da variável na amostra possa ser um bom estimador da variância da variável na
população. A maioria dos programas computacionais, porém, costuma calcular o desvio
padrão supondo que os dados são provenientes de uma população. Em algumas planilhas
eletrônicas há funções pré-programadas para ambos os casos.
A unidade da variância é o quadrado da unidade dos dados (e portanto o quadrado
da unidade da média) causando dificuldades para avaliar a dispersão: se por exemplo
temos a variável peso com média de 75 kg em um conjunto e ao calcular a variância
obtemos 12 kg2 a avaliação da dispersão torna-se difícil.
Quanto maior a variância mais dispersos os dados estão em torno da média (maior a
dispersão do conjunto)
Para fins de Análise Exploratória de Dados caracterizar a dispersão através da
variância não é muito adequado. Costuma-se usar-se a raiz quadrada positiva da
variância, o desvio padrão.
 Desvio padrão (S)
É a raiz quadrada positiva da variância, apresentando a mesma unidade dos dados
e da média, permitindo avaliar melhor a dispersão.
 X 

2
S
X
2
i
n 1
 X 

2
X
i
n

Amostra
2
i
i
N
N
População
As mesmas observações sobre população e amostra feitas para a variância são
válidas para o desvio padrão. É prática comum ao resumir através de medidas de síntese
um conjunto de dados referente a uma variável quantitativa apresentar a média e o desvio
padrão desse conjunto, para que seja possível ter uma idéia do valor típico e da
distribuição dos dados em torno dele.
Tal como no caso da média pode haver interesse em calcular o desvio padrão de
variáveis quantitativas a partir de distribuições de freqüências representadas em tabelas.
Tal como no caso da média os valores da variável (ou os pontos médios das classes), e os
quadrados desses valores, serão multiplicados por suas respectivas freqüências:
 X . fi 
 fi 
2
X
2
i
i
n
n 1
Ex: Calcule o desvio padrão dos dados sobre a taxa de desemprego em municípios
brasileiros
S
Caderno Didático de Estatística
Professora Janete Pereira Amador
9
Classes (Taxas de mortalidade) fi
9,9
18,62
27,34
36,06
44,78
53,5
Total
|--|--|--|--|--|---
18,62
27,34
36,06
44,78
53,5
62,2
9
13
7
4
0
1
34
Xi
Xi.fi
14,26
22,98
31,7
40,42
49,14
57,85
128,34
298,74
221,9
161,68
0
57,85
868,51
 X . fi 
 fi 
S
X
i
n
203,3476
528,0804
1004,89
1633,7764
2414,7396
3346,6225
X i2  fi
1830,1284
6865,0452
7034,23
6535,1056
0
3346,6225
25611,1317
2

868,51
25611,1317 
2
2
i
X i2
34
 10,19
n 1
34  1
Tal como na média, o resultado do desvio padrão calculado através de uma tabela
agrupada em classes será apenas uma estimativa do valor real (o valor com os dados
originais foi igual a 10,21.
=
 Coeficiente de Variação (CV%)
O coeficiente de variação percentual é uma medida de dispersão relativa, pois
permite comparar a dispersão de diferentes distribuições (com diferentes médias e
desvios padrões).
Onde S é o desvio padrão da variável no conjunto de dados, e X é a média da
variável no mesmo conjunto.
Quanto menor o coeficiente de variação percentual, mais os dados estão
concentrados em torno da média, pois o desvio padrão é pequeno em relação à média.
EX: Calcular o coeficiente de variação percentual para as notas das três turmas de
estudantes.
A turma mais homogênea é a “A”, pois apresenta o menor coeficiente de variação
das três. Isso era esperado, uma vez que as notas da turma A estão distribuídas mais
regularmente do que as das outras. No caso acima a comparação ficou ainda mais simples
pois as médias dos grupos eram iguais, bastaria avaliar apenas os desvios padrões dos
Caderno Didático de Estatística
Professora Janete Pereira Amador
10
grupos, mas para comparar a dispersão de distribuições com médias diferentes é
imprescindível a utilização do coeficiente de variação.
O coeficiente de variação para os dados do número de residentes no domicílio
corresponde a:
1,45
CV % 
 100  33,72%
4,3
Para os dados da para a taxa de mortalidade em municípios do oeste de SC o
coeficiente de variação corresponde a:
1,19
CV % 
 100  4,66%
25,54
9.2 Medidas de Separatrizes
As separatrizes são valores que dividem a distribuição em um certo número de
partes iguais: a mediana divide em 2 partes iguais, os quartis dividem em 4 partes
iguais, os decis em 10 partes iguais e os centis em 100 partes iguais.
O objetivo das separatrizes é proporcionar uma melhor idéia da dispersão do
conjunto, principalmente da simetria ou assimetria da distribuição. Vamos nos limitar aos
quartis.
0%
25%
50%
75%
100%
|--------------------|--------------------|--------------------|--------------------|
Q1
Q2 =Md
Q3
Distribuição por ponto:
Ex: Calcular o primeiro e o terceiro quartil do número de residentes no domicílio a partir
do exemplo do Quadro 1.
Procedimento:
n
;
4
• O quartil será o valor de X correspondente à primeira Fi  PQi.
Cálculo do primeiro quartil:
n
40
PQi = i  = 1
= 10
4
4
Interpretando: 25% das residências possuem até 3 moradores e 75% possuem mais do que
3 moradores.
n
40
= 30
Cálculo do terceiro quartil: PQi = i  = 3 
4
4
•
Calcula-se a posição do quartil através da fórmula: PQi = i 
Caderno Didático de Estatística
Professora Janete Pereira Amador
11
Interpretando: 75% das residências possuem até 5 moradores e 25% possuem mais do que
5 moradores.
Distribuição por intervalo:
Ex: Calcular o primeiro a partir dos dados sobre a taxa de desemprego em municípios
brasileiros
Classes (Taxas de mortalidade)
9,9 |--- 18,62
18,62 |--- 27,34
27,34 |--- 36,06
36,06 |--- 44,78
44,78 |--- 53,5
53,5 |--- 62,2
Total
fi
10
13
6
4
0
1
34
Xi
14,26
22,98
31,7
40,42
49,14
57,66
Fi
10
23
29
33
33
34
Procedimento:
n
;
4
• O quartil estará localizado na classe onde, pela primeira vez, Fi  PQi; e para
encontrar o seu valor, aplica-se a equação:
PQi  Fiant. 
onde,
Qi  Linf .  h 
f Qi
Linf = limite inferior da classe do quartil;
h = amplitude de classe;
PQi = posição do quartil i;
Fi.ant = freqüência acumulada anterior a classe do quartil;
fQi = freqüência simples da calasse do quartil.
•
Calcula-se a posição do quartil através da fórmula: PQi = i 
Cálculo do primeiro quartil:
n
34
PQi = i  = 1
= 8,5  8
4
4
O primeiro quartil ocupa esta ocupando a oitava posição correspondente a primeira
classe.
fi
Xi
Fi
9,9 |--- 18,62
9
14,26
9
Montando a equação para calcular o valor do primeiro quartil
PQi  Fiant. 
8  0 = 17,65
= 9,9  8,72 
Qi  Linf .  h 
f Qi
9
Interpretando: 25% da taxa de desemprego equivale a índices de até 17,65 e 75% da taxa
equivale a índices superiores a 17,65
Exercícios
Caderno Didático de Estatística
Professora Janete Pereira Amador
12
1) Dado o rol de 50 notas de indivíduos que cursaram a disciplina de estatística.
Construir uma tabela de distribuição de freqüências (com todos os elementos já
estudados), construir um histograma e polígono de freqüências, calcular todas as
medidas descritivas.
33
35
35
39
41
41
42
45
47
48
50
52
53
54
55
55
57
59
60
60
61
64
65
65
65
66
66
66
67
68
69
71
73
73
74
74
76
77
77
78
80
81
84
85
85
88
89
91
94
97
2) Os preços do pacote de café, pesando 500g, obtidos em diferentes supermercados
locais, são:
R$3,50, R$2,00, R$1,50 e R$1,00.
Com base nessas informações, julgue (justificando) os itens que seguem:
a)
O preço médio do pacote de café de 500 g vale R$2,00.
b)
Se todos os preços tiverem uma redução de 50%, o novo preço médio será de
R$1,50.
c)
A variância dos preços é iguala 0,625.
d)
Se todos os preços tiverem um acréscimo de R$1,00, o coeficiente de variação não
se altera.
e)
Se todos os preços tiverem um acréscimo de R$1,00,o coeficiente de variação dos
preços será aproximadamente igual a 31,18%.
f)
Se todos os preços tiverem um aumento de 50%, a nova variância será exatamente
igual à anterior, pois a dispersão não será alterada.
g)
A variância ficará multiplicada por 2,25 se todos os preços tiverem um aumento
de 50%
Caderno Didático de Estatística
Professora Janete Pereira Amador
13
6) Considere a distribuição de freqüências a seguir para responder às questões de 6.1 a
6.3.
Peso (Kg) No de animais
2|---4
9
4|---6
12
6|--- 8
6
8|---10
2
10|---12
1
6.1) Marque a opção correta:
a) 75% das observações têm peso não inferior a 4 Kg e inferior a 10 Kg.
b) Mais de 75% das observações têm peso maior ou igual a 4 Kg.
c) Menos de 25% das observações têm peso igual a 4 Kg.
a) A soma dos pontos médios dos intervalos de classe é inferior ao tamanho da amostra.
e) 8% das observações têm peso no intervalo de classe 8|---10.
6.2) A média da distribuição é igual a :
a) 5,27 Kg;
d) 5,19 Kg;
b) 5,24 Kg;
e) 5,30 Kg;
c) 5,21 Kg;
6.3) A mediana da distribuição é igual a :
a) 5,30Kg;
d) 5,10Kg;
b) 5,00Kg;
e) 5,20Kg;
c) um valor inferior a 5,00Kg;
7) O frigorífico Industrial Multicorte S. A. recebe de dois criadores propostas de vendas
de bovinos para abate. Entretanto, ele exige do Departamento de Inspeção Sanitária que
os animais a serem compredos passem por um exame. Considere as amostras seguintes
(em Kg), resultantes da realização do exame de bovinos:
Estatísticas
Amostra
Univariadas
Kote
Êmio
Média
600
700
Desvio-padrão
80
140
Total de bois
100
60
Pergunta-se:
a) Em qual das amostras houve maior variação absoluta nos pesos dos animais?
b) Em termos relativos, quem está melhor em peso com relação a seu grupo, o boi Kote
ou o boi Êmio?
Bibliografia
BARBETTA, P. A. Estatística Aplicada a Ciências Sociais. 5a. ed. Santa Catarina:
UFSC, 2003.
REIS, M. M. & LINO, M. de O. Notas de Aula: Introdução e Análise Exploratória de
Dados. UFSC. Site: http://www.inf.ufsc.br/~marcelo/INE5121.html.
TRIOLA, M. F. Introdução a Estatística. 9a. ed. Rio de Janeiro: LTC. 2005.
Caderno Didático de Estatística
Professora Janete Pereira Amador
Caderno Didático de Estatística
14
Download