estatística - Prof. Carma

Propaganda
ESTATÍSTICA
2
1 INTRODUÇÃO
Desde a antiguidade, vários povos já registravam o número de habitantes, de
nascimentos, de óbitos, faziam estimativas das riquezas individual e social, distribuíam
equitativamente terras ao povo, cobravam impostos e realizavam inquéritos quantitativos por
processos que, hoje, chamaríamos de ESTATÍSTICA.
Na Idade Média colhiam-se informações, geralmente com finalidades tributárias ou
bélicas. A partir do Século XVI começaram a surgir as primeiras análises sistemáticas de fatos
sociais, como batizados, casamentos, funerais, originando as primeiras tábuas e tabelas e os
primeiros números relativos. No Século XVIII começaram a surgir os estudos de tais fatos que
foram adquirindo, aos poucos, feição verdadeiramente científica. Godofredo Achenwall batizou
a nova Ciência (ou método) com o nome de ESTATÍSTICA, determinando o seu objetivo e
suas relações com as ciências.
Atualmente, a definição de Estatística não é única, pois abrange muito mais do que um
traçado de gráfico e cálculos de medidas. Uma definição seria:
“A Estatística é uma parte da Matemática Aplicada que fornece métodos para a coleta, organização, descrição,
análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões” (CRESPO, 2002, p.13).
¾ Ramos da Estatística
ESTATÍSTICA DEDUTIVA ou DESCRITIVA: Trata da coleta, da organização e da descrição
dos dados.
TEORIA DA PROBABILIDADE: Proporciona uma base racional para lidar com situações
influenciadas por fatores que envolvem o acaso.
ESTATÍSTICA INDUTIVA ou INFERENCIAL: Trata da análise e da interpretação desses
dados.
¾ Método Estatístico
Método é o caminho pelo qual se chega a determinado resultado (existem outras
definições). O método estatístico, diante da impossibilidade de manter as causas constantes,
admite essas causas presentes variando-as, registrando essas variações e procurando
determinar, no resultado final, que influências cabem a cada um deles.
Fases do método estatístico: Coleta de dados, crítica dos dados, apuração dos
dados, exposição dos dados, análise dos resultados
¾ Objetivo da ESTATÍSTICA
O objetivo último da estatística é tirar conclusões sobre o todo (população) a partir de
informações fornecidas por parte representativa do todo (amostra). Assim, realizadas as fases
anteriores (Estatística Descritiva), procede-se a análise dos resultados obtidos, através dos
métodos da Estatística Indutiva ou Inferencial, que tem base a indução ou inferência, e tira-se
desses resultados conclusões e previsões.
¾ Alguns conceitos fundamentais:
POPULAÇÃO: É um conjunto de indivíduos ou objetos que apresentam pelo menos uma
característica em comum. A população pode ser finita ou infinita, dependendo de o número de
elementos ser finito ou infinito. Na prática, quando uma população é finita, com um número
grande de elementos, considera-se como população infinita.
AMOSTRA: Considerando-se a impossibilidade, na maioria das vezes, do tratamento de todos
os elementos da população, retira-se uma amostra (subconjunto finito de uma população), de
acordo com alguma técnica de amostragem.
VARIÁVEIS QUALITATIVAS: podem ser separados em diferentes categorias, atributos, que se
distinguem por uma característica não numérica. Divide-se em:
I – Nominal: São dados caracterizados por rótulos ou categorias. Por exemplo: sexo,
estado civil, cor dos olhos, etc.
II – Ordinal: são dados caracterizados por uma ordem, mas não podem ser definidos por
valor numérico. Exemplo: Nível de escolaridade (Fundamental, médio, superior),
3
intensidade da luz (muito forte, forte, média, suave, muito suave), etc.
VARIÁVEIS QUANTITATIVAS: Consistem em números que representam contagens ou
medidas. Dividem-se em:
I – Discretas: Resultam de um conjunto finito, enumerável, de valores possíveis.
Exemplo: número de filhos.
II – Contínuas: Resultam de um número infinito de valores possíveis, que podem ser
associados a pontos em uma escala contínua. Exemplo: peso, altura.
EXERCÍCIOS
Classifique cada uma das variáveis a seguir em qualitativa nominal ou ordinal e em quantitativa
discreta ou contínua:
a) Cor dos cabelos
b) Números de filhos
c) O ponto obtido ao se jogar um dado
d) Saldo em uma conta corrente (R$)
e) Grau de instrução
f) Classe econômica
g) Hierarquia de uma empresa
h) Diâmetro de peças produzidas
i) Comprimento de peças produzidas
j) Tempo de espera na fila do banco (em minutos)
k) Nome dos países exportadores de petróleo
l) Grau de satisfação dos clientes de uma loja
m) nº de ações negociadas na bolsa de valores
n) Nº de alunos de uma universidade
o) Estatua dos alunos de uma escola
p) Precipitação pluviométrica durante um ano
q) Nº de volumes de livros existentes nas bibliotecas de Rondônia
r) Índice de liquidez das indústrias de Rondônia
2. NÚMEROS APROXIMADOS E ARREDONDAMENTO DE DADOS
Como sabemos, os números resultam de uma mensuração (no sentido mais amplo), a
qual só pode ser exata quando assume a forma de contagem ou numeração, em números
naturais, de coisas ou unidades mínimas indivisíveis. Em tais casos, a variável pode assumir
valores discretos ou descontínuos (somente).
¾ Arredondamento de Dados
Muitas vezes, é necessário ou conveniente suprimir unidades inferiores às de
determinada ordem. Esta técnica é denominada ARREDONDAMENTO DE DADOS. De acordo
com a resolução número 886/66 da Fundação IBGE, o arredondamento é feito da seguinte
maneira:
a) Quando o primeiro algarismo a ser abandonado é 0, 1, 2, 3 ou 4, fica inalterado o último
algarismo a permanecer (arredondamento por falta). Exemplo:
53,24> 53,2
58,83> 58,8
0,34853> 0,3485
3,0047523> 3,004752
b) Quando o primeiro algarismo a ser abandonado é 6, 7, 8 ou 9, aumenta-se de uma
unidade o algarismo a permanecer (arredondamento por excesso). Exemplo:
42,87> 42,9
24,39> 24,4
25,089> 25,09
72,99> 73
c) Quando o primeiro algarismo a ser abandonado é 5, há duas soluções:
I - Se ao 5 seguir em qualquer casa um algarismo diferente de zero, aumenta-se uma
4
unidade ao algarismo a permanecer. Exemplos:
2,352> 2,4
76,25002> 76,3
25,6501> 25,7
2,3851> 2,39
II - Se ao 5 seguirem zeros ou se o 5 for o último algarismo a ser conservado só será
aumentado de uma unidade se for ímpar. Exemplos:
24,75> 24,8
24,85> 24,8
24,65> 24,6
24,7500> 24,8
Obs: Nunca devemos fazer arredondamentos sucessivos; é conveniente primeiro somar e
depois fazer o arredondamento.
EXERCÍCIOS
1) Arredonde para o décimo mais próximo (uma casa decimal):
a) 2,38
c) 4,24
e) 6,829
g) 0,351
b) 24,65
d) 328,35
f) 5,550
h) 2,97
i) 89,99
j) 3,75
2) Arredonde para o centésimo mais próximo (duas casas decimais):
a) 46,727
c) 299,951
e) 253,650
b) 123,842
d) 28,255
f) 34,485
3) Arredonde para a unidade mais próxima (nenhuma casa decimal):
a) 26,6
c) 67,5
e) 128,5
b) 49,98
d) 68,2
f) 39,49
3. DISTRIBUIÇÃO DE FREQUÊNCIAS
A distribuição de freqüência constitui-se no tipo de tabela mais importante para a
Estatística Descritiva.
Distribuição de freqüência sem intervalos de classe (variável discreta)
Quando se trata de variável discreta de variação relativamente pequena, cada valor
pode ser tomado como um intervalo de classe (intervalo degenerado).
¾ Dados Brutos: O conjunto dos dados numéricos obtidos após a crítica dos valores
coletados constitui-se nos dados brutos (tabela primitiva). Exemplo:
24
26
24
35
23
21
33
33
22
25
34
31
28
36
21
34
35
26
31
25
21
22
25
25
23
30
31
33
32
26
¾ Rol: É o arranjo dos dados brutos em ordem de freqüência crescente ou decrescente.
Exemplo:
21
24
28
33
21
25
30
34
21
25
31
34
22
25
31
35
22
25
31
35
23
26
32
36
23
26
33
24
26
33
¾ Amplitude total (At) ou Range (R): É a diferença entre o maior e o menor valor
observados. No exemplo anterior temos: At = 36 − 21 = 15 ⇒ At = 15 .
¾ Freqüência absoluta (fi): É o número de vezes que o elemento aparece na amostra, ou o
número de elementos pertencentes a uma classe. No exemplo anterior temos: F(21) = 3, F(36 ) = 1 ,
etc.
¾ Freqüência absoluta acumulada (Fi): É a soma das freqüências dos valores inferiores ou
iguais ao valor dado.
¾ Freqüência relativa (fri): São os valores das razões entre as freqüências absolutas e a
freqüência total.
5
¾ Freqüência relativa acumulada (FRi): É a soma das freqüências relativas dos valores
inferiores ou iguais ao valor dado. Exemplo:
xi
21
22
23
24
25
26
28
30
31
32
33
34
35
36
Σ
fi
3
2
2
2
4
3
1
1
3
1
3
2
2
1
30
Fi
3
5
7
9
13
16
17
18
21
22
25
27
29
30
fri
0,1000
0,0667
0,0667
0,0667
0,1333
0,1000
0,0333
0,0333
0,1000
0,0333
0,1000
0,0667
0,0667
0,0333
1,0000
FRi
0,1000
0,1667
0,2334
0,3001
0,4334
0,5334
0,5667
0,6000
0,7000
0,7333
0,8333
0,9000
0,9667
1,0000
¾ Representação gráfica – Histograma
Distribuição de freqüência com intervalos de classe (variável contínua)
Número de classes(k): Não há uma fórmula exata para o cálculo do número de classes. A
seguir, uma sugestão: k= 5 para n ≤ 25 e k = n , para n > 25. Exemplo: k = 55 = 7,4 ,
podemos ter 6,7 ou 7 classes.
At
¾ Amplitude das classes (h): É dada pela relação h =
k
¾ Limites das classes: Existem diversas maneiras de expressar os limites das classes.
Porém iremos utilizar a seguinte Li|—li. Exemplo: 10 |— 12 compreende todos os valores de 10
até antes de 12. Li – limite superior da classe; li – limite inferior da classe.
¾ Ponto médio das classes (xi): É a média aritmética entre o limite superior e o limite inferior
da classe. Assim, se a classe for 10 |— 12, tem-se:
L + l 10 + 12
= 11 , como ponto médio da classe.
xi = i i =
2
2
Exemplo: Dada a estatura de 40 alunos do Colégio A, pede-se:
150
156
161
164
151
156
161
165
152
157
161
166
153
158
161
167
154
158
162
168
155
160
162
168
155
160
163
169
155
160
163
170
155
160
164
172
156
160
164
173
a) O tamanho da amostra → n = 40
b) A amplitude total → At = 173 − 150 = 23
c) O número de classes → k = 40 = 6,3 , podemos ter 5, 6 ou 7 classes.
d) A amplitude das classes → Como At =23 e não é divisível por 5, 6 ou 7, nesse caso
24
precisaremos ajustar seu valor At = 23 + 1=24 → h =
=4
6
e) A distribuição de freqüência contendo: classes, freqüência, ponto médio, freqüência
acumulada e freqüência relativa.
6
Classes
150 |— 154
154 |— 158
158 |— 162
162 |— 166
166 |— 170
170 |— 174
Σ
ESTATURA DE 40 ALUNOS DO COLÉGIO A
xi
Fi
fri
152
4
0,10
156
13
0,22
160
24
0,28
164
32
0,20
168
37
0,12
172
40
0,08
1,00
fi
4
9
11
8
5
3
40
FRi
0,10
0,32
0,60
0,80
0,92
1,00
¾ Representação gráfica
a) Histograma e polígono de freqüência
b) Polígono da freqüência acumulada
EXERCÍCIOS
1) Dada a amostra: 3, 4, 4, 5, 7, 6, 6, 7, 7, 4, 5, 5, 6, 6, 7, 5, 8, 5, 6, 6. Pede-se: o Rol;
amplitude da amostra; a distribuição de frequência contendo frequência absoluta, frequência
absoluta acumulada, frequência relativa e frequência relativa acumulada; o gráfico das
frequências; a porcentagem de elementos maiores que 5.
2) Considere os dados obtidos pelas medidas das alturas de 100 indivíduos (dadas em cm):
151
161
166
168
169
170
173
176
179
182
152
162
166
168
169
170
173
176
179
182
154
163
166
168
169
171
174
176
180
183
155
163
167
168
169
171
174
177
180
184
158
163
167
168
169
171
174
177
180
185
159
164
167
168
170
171
175
177
180
186
159
165
167
168
170
172
175
177
181
187
160
165
167
168
170
172
175
178
181
188
161
165
168
169
170
172
175
178
181
190
161
166
168
169
170
173
176
178
182
190
Pede-se: a amplitude da amostra; o número de classes; a distribuição de freqüência
contendo as classes, as freqüências absolutas, as freqüências absolutas acumuladas, as
freqüências relativas, as freqüências relativas acumuladas e os pontos médios das classes;
o histograma; o polígono de freqüência; o polígono de freqüência acumulada.
7
4. MEDIDAS DE POSIÇÃO
As medidas de posição mais importantes são as MEDIDAS DE TENDÊNCIA CENTRAL
que recebem tal denominação pelo fato de os dados observados tendem, em geral, a se
agrupar em torno dos valores centrais. São medidas de tendência central: MÉDIA, MEDIANA e
MODA. As outras medidas de posição são as SEPARATRIZES, que englobam: a própria
MEDIANA, os QUARTIS, os DECIS e os PERCENTIS.
⎛ −− ⎞
4.1 Média Aritmética ⎜ X ⎟
⎝ ⎠
¾ Para dados não agrupados: Sejam X1, X2, X3, ... , Xn, portanto “n” valores da variável X. A
__
média aritmética SIMPLES de X representada por X é definida por:
n
__
X=
∑X
i =1
i
__
, ou ainda X =
∑X
i
n
n
Exemplo: Sabendo-se que a produção leiteira de uma vaca, durante uma semana, foi
de 10, 14, 13, 15, 16, 18 e 12 litros, temos, para produção média da semana:
__
∑ X i = 10 + 14 + 13 + 15 + 16 + 18 + 12 = 98 = 14 litros
X=
7
7
n
¾ Dados agrupados
Sem intervalos de classe: Quando os dados estiverem agrupados (sem intervalos de
classe) numa distribuição de freqüência usa-se a média aritmética dos valores X1, X2, X3, ... ,
Xn, PONDERADOS pelas representativas freqüências absolutas: F1, F2, F3, ... , Fn. Assim,
__
∑ xi f i , ou ainda X__ = ∑ xi f i
X=
n
∑ fi
Exemplo: Considerando a distribuição relativa a 34 famílias de quatro filhos, tomando
para variável o número de filhos do sexo masculino. Qual é a média de filhos masculinos, por
família?
Nº. de meninos (xi)
0
1
2
3
4
Σ
Nº. de famílias (fi)
2
6
10
12
4
34
Nesse caso tem-se:
Nº. de meninos (xi)
0
1
2
3
4
Σ
Nº. de famílias (fi)
2
6
10
12
4
34
__
X=
∑x f
i
n
i
=
∑x f
∑f
i
i
i
=
xi*fi
0
6
20
36
16
78
78
= 2,3 meninos
34
Interpretação: O valor médio 2,3 meninos sugere, neste caso, que o maior número de famílias
tem 2 meninos e 2 meninas, sendo, porém, a tendência geral de uma leve superioridade
numérica em relação ao número de meninos.
8
Com intervalos de classe: Neste caso, convenciona-se que todos os valores incluídos
em um determinado intervalo de classe coincidem com o seu ponto médio, e determinamos a
média aritmética ponderada por meio da fórmula:
__
∑ xi f i ou __x = ∑ xi f i
x =
n
∑ fi
Exemplo: Determinar a média da distribuição:
Renda Familiar
Milhares de R$
Nº de famílias
2 |— 4
4 |— 6
6 |— 8
8 |— 10
10 |— 12
5
10
14
8
3
Neste caso tem-se:
Classes
2 |— 4
4 |— 6
6 |— 8
8 |— 10
10 |— 12
Σ
fi
5
10
14
8
3
40
__
X=
xi
3
5
7
9
11
-
∑x f
i
n
i
=
∑x f
∑f
i
i
i
=
xi*fi
15
50
98
72
33
268
268
= 6,7
40
Como a renda familiar foi dada em milhares de reais, conclui-se que a renda média
desse grupo de 40 famílias é de R$ 6.700,00.
¾ Emprego da média: A média é utilizada quando deseja-se obter a medida de posição que
possui a maior estabilidade ou quando houver a necessidade de um tratamento algébrico
ulterior.
4.2 Mediana (Md)
A mediana é outra medida de posição definida como o número que se encontra no
centro de uma série de números, estando segundo uma ordem.
¾ Mediana para dados não agrupados e distribuição de freqüência de variável discreta –
se n é a quantidade de elementos, têm-se dois casos a considerar:
n +1
.
I - Se n for ímpar, a mediana será o elemento de ordem
2
Exemplo 1: Dada a série de valores 5, 13, 10, 2, 18, 15, 6, 16, 9.
Ordenação dos elementos: 2, 5, 6, 9, 10, 13, 15, 16, 18.
n +1 9 +1
= 5 º elem.,
Como existem 9 (nove) elementos, então o elemento de ordem
=
2
2
logo Md = 10.
Exemplo 2: Dada a distribuição:
xi
fi
Fi
Como n = 11 (ímpar), logo a mediana (Md) será o
n + 1 11 + 1 12
1
1
1
=
= = 6 º elem. Para
elemento de ordem
2
3
4
2
2
2
3
5
9
encontrá-lo, abre-se a coluna de freqüência acumulada
4
2
11
(Fi). Neste caso será Md = 3.
11
Σ
II - Se n for par, a mediana será a média entre os elementos centrais (de ordem n 2
e n 2 + 1 ).
9
Exemplo 1: seja a série 2, 6, 7, 10, 12, 13, 18, 21. Então: Md =
10 + 12 22
=
= 11
2
2
Exemplo 2: Dada a distribuição:
fi
Fi
n = 42 (par), então, a mediana será a média entre os
xi
n 42
80
5
5
= 21º
elementos de ordem n 2 e n 2 + 1 , isto é: =
85
10
15
2 2
87
15
30
n
42
e +1 =
+ 1 = 21 + 1 = 22º
89
8
38
2
2
90
4
42
Neste caso, o 21º corresponde a 87 e o 22º também
42
Σ
corresponde a 87
87 + 87
Logo, Md =
= 87
2
¾ Mediana para o caso de variável contínua, ou seja, agrupamento de dados em
classes.
Procedimentos:
n
I) Calcula-se a ordem .
2
II) Pela Fac identifica-se a classe que contém a mediana (classe mediana).
⎛n
⎞
⎜ − ∑ f ⎟.h
2
⎠ , onde:
III) Utiliza-se a fórmula Md = l Md + ⎝
f Md
LMd = limite inferior da classe mediana.
n = tamanho da amostra ou número de elementos.
Σf = soma de freqüências anteriores à classe mediana.
H = amplitude da classe mediana.
fMd = freqüência da classe mediana.
Exemplo: Dada a distribuição:
xi
35 |— 45
45 |— 55
55 |— 65
65 |— 75
75 |— 85
85 |— 95
Σ
fi
5
12
18
14
6
3
58
Fi
5
17
35
49
55
48
n 58
=
= 29º , logo a classe mediana é a terceira.
2 2
⎛ 58
⎞
⎜ − 17 ⎟.10
120
2
⎠
Md = 55 + ⎝
= 55 +
= 61,67
18
18
4.3 Moda (Mo)
Denominamos moda o valor que ocorre com maior freqüência em uma série de valores.
¾ Moda para dados não-agrupados
Exemplos:
I) Para a seqüência (7, 8, 9, 10, 10, 11, 12, 13, 15), Mo = 10 (modal)
II) Para a seqüência (2, 3, 4, 4, 5, 6, 7, 7, 8, 9), Mo = 4 e 7 (bimodal)
III) Para a seqüência (3, 5, 8, 10, 11, 12), não existe moda (amodal)
¾ Moda para dados agrupados
Para distribuições de freqüência sem intervalos de classe é possível determinar
imediatamente a moda: basta verificar o valor da variável de maior freqüência. Para a
distribuição a seguir, por exemplo, a variável 87 é a moda (Mo = 87), pois apresenta a maior
freqüência (15).
10
xi
fi
80
5
85
10
87
15
89
8
90
4
Para dados agrupados em classes, existem diversas fórmulas para o cálculo da moda.
Será apresentado a seguir uma que é bastante usada, a fórmula de CZUBER. Procedimentos:
I – Identificar a classe modal (aquela que possuir maior freqüência absoluta).
II – Aplicar a fórmula de Czuber:
Δ1
Mo = l +
.h , onde:
Δ1 + Δ 2
l = limite inferior da classe modal;
Δ1 = diferença entre a freqüência de classe modal e a imediatamente anterior.
Δ2 = diferença entre a freqüência da classe modal e a imediatamente posterior.
h = amplitude de classe.
Exemplo: Em uma sala de aula de 40 alunos foi medida a estatura de cada um,
conforme tabela abaixo. Determine qual a estatura predominante na sala.
A classe modal é a 3ª.
Estaturas (cm)
Fi
150 |— 154
4
Δ1 = 11 – 9 = 2
l = 158
154 |— 158
9
Δ2 = 11 – 8 = 3
h=4
158 |— 162
11
Δ1
2
.h = 158 +
Mo = l +
.4 = 159,6cm
162 |— 166
8
Δ1 + Δ 2
2+3
166 |— 170
5
Isto é, a altura (estatura) predominante (a que mais aparece)
170 |— 174
3
entre os alunos da sala é de 159,6cm.
40
Σ
Obs: Para o cálculo da moda, existem outras fórmulas bem conhecidas, que são a
Fórmula de PEARSON e a Fórmula de KING
¾ Utilizações das medidas de tendência central
Normalmente é necessário calcular apenas uma das medidas (média,
mediana ou moda) para caracterizar o centro da distribuição. Surge, então, a
questão: qual medida deve ser utilizada?
A medida ideal em cada caso é aquela que melhor representa a maioria dos
dados da distribuição. Assim:
a) Se uma medida apresenta forte concentração de dados em sua área
central, a média, a moda e a mediana ficam também situadas em sua área
central. Todas representam bem a distribuição no caso em questão. Como a mais
conhecida é a média, esta distribuição será representada pela média. Neste caso,
temos uma distribuição simétrica.
b) Se uma distribuição apresenta forte concentração de dados em seu
início, a mediana e a moda estarão posicionadas no início da distribuição,
representando bem esta concentração. Como a mais conhecida entre mediana e
moda é a MEDIANA, esta será a medida indicada para representar tal
distribuição. Neste caso, tem-se uma distribuição assimétrica positiva.
c) Quando a distribuição apresenta forte concentração de dados em seu
final, a situação é análoga ao item (b), e daí, usa-se também a mediana para
representá-la. Neste caso tem-se uma distribuição assimétrica negativa.
d) A moda deve ser a opção como medida de tendência central apenas em
distribuições que apresentam um elemento típico, isto é, um valor cuja freqüência
é muito superior à freqüência dos outros elementos da distribuição.
11
EXERCÍCIOS
1) Determinar a média aritmética, a mediana e a moda das seguintes séries:
a) 3, 4, 1, 3, 6, 5, 6
c) 43, 40, 42, 43, 47, 45, 45, 43, 44, 48
b) 82, 86, 88, 84, 91, 93, 88, 91
d) 70, 75, 76, 80, 82, 83, 90
2) Calcule para cada uma das distribuições abaixo sua respectiva média aritmética, a mediana
e a moda.
a) xi 3 4 7 8 12
b) xi 10 11 12 13
fi 2 5 8 4 3
fi 5 8 10 6
3) Dadas as distribuições a seguir, calcular a média aritmética:
Aluguel
a)
1,5 |—3,5
3,5|—5,5
5,5|—7,5
7,5|—9,5
b)
($1000,00)
Nº de casas
12
18
20
10
Classes
Fac
68 |—72
8
72|—76
20
76|—80
35
80|—84
40
9,5|—11,5
5
4) Uma máquina produz peças que são embaladas em caixas contendo 48 unidades. Uma
pesquisa realizada com 59 caixas, revelou a existência de peças defeituosas segundo a
tabela:
Nº de peças defeituosas por
a) Determine o valor mediano da série.
Nº de caixas
caixas
0
1
2
3
4
5
20
15
12
6
4
2
b) Interprete o valor mediano.
5) Calcule a moda da série representativa da idade de 50 alunos de uma classe de primeiro
ano de uma faculdade e a interprete.
Idade (anos)
17
18
19
20
21
Nº de alunos
3
18
17
8
4
6) A distribuição abaixo representa o consumo, em kg de um produto colocado em oferta em
um supermercado, que limitou o consumo máximo por cliente em 5kg.
Pede-se:
Consumo em kg
Nº de clientes
Calcule a média aritmética, a mediana e
0 |— 1
12
a moda.
1 |— 2
15
2 |— 3
21
3 |— 4
32
4 |— 5
54
4.4 SEPARATRIZES
I) Quartis: Denomina-se quartis os valores de uma série que a dividem em quatro partes
iguais.
II) Decis: São valores que dividem a série em dez (10) partes iguais.
12
III) Percentis: São as medidas que dividem a amostra em 100 partes iguais.
⎛ in
⎞
− ∑ f ⎟.h
⎜
100
⎠ , i = 1, 2, 3, ... , 100.
Pi = l Pi + ⎝
fPi
Exemplo: Determinar o 72º percentil (P72) da seguinte distribuição:
Classes
4 |— 9
9 |— 14
14 |— 19
19 |— 24
Σ
fi
8
12
17
3
40
⎛ 72 * 40
⎞
− 20 ⎟.5
⎜
100
⎠ = 14 + (28,8 − 20 ).5 = 14 + 1,6 = 16,6
P72 = 14 + ⎝
17
17
Fi
8
20
37
40
-
Obs: Para calcular os quartis ou os decis, basta convertê-los em porcentis.
5. MEDIDAS DE DISPERSÃO OU DE VARIABILIDADE
Servem para verificar a representatividade das medidas de posição, pois é muito comum
encontrar séries que, apesar de terem a mesma média, são compostas de maneira distinta.
Exemplo: Sejam os seguintes conjuntos de valores:
X: 70, 70, 70, 70, 70
Y: 68, 69, 70, 71, 72
Z: 5, 15, 50, 120, 160
___
___
___
Temos X = Y = Z = 70 , isto é, os três conjuntos apresentam a mesma média aritmética.
Entretanto, nota-se que:
¾ O conjunto X é mais homogêneo que os conjuntos Y e Z, já que todos os valores são
iguais à média.
¾ O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor
diversificação entre cada um de seus valores e a media representativa.
Chama-se de DISPERSÃO ou VARIABILIDADE a maior ou menor diversificação dos
valores de uma variável em torno de um valor de tendência central tomado como ponto de
comparação. No caso do exemplo dado, pode-se dizer que:
¾ O conjunto X apresenta dispersão nula.
¾ O conjunto Y apresenta uma dispersão menor que o conjunto Z.
Portanto, para qualificar os valores de uma dada variável, ressaltando a maior ou menor
dispersão, entre esses valores e a sua medida de posição, a Estatística recorre às MEDIDAS
DE DISPERSÃO ou de VARIABILIDADE. Dessas medidas, serão estudadas: a amplitude total,
o desvio médio, a variância, o desvio padrão e o coeficiente de variação.
5.1 Amplitude Total (At)
É a diferença entre o maior e o menor dos valores da série> At = X max − X min
Exemplo 1: Para a série 40, 45, 48, 52, 54, 62 ,70, temos> At = 70 − 40 = 30
Exemplo 2: Dada a distribuição a seguir
Estatura em cm
(xi)
150 |— 154
154 |— 158
158 |— 162
162 |— 166
Σ
fi
4
9
11
8
32
At = 166 − 150
At = 16
O valor da amplitude total afirma alguma coisa do grau de concentração. Quanto maior a
amplitude total, maior é a dispersão ou variabilidade dos valores da variável.
A amplitude total tem o inconveniente de só levar em conta os dados extremos da série,
descuidando do conjunto de valores intermediários, o que quase sempre invalida a idoneidade
do resultado. Ela é apenas uma indicação aproximada da dispersão ou variabilidade.
13
5.2 Desvio Médio (DM)
___
Na determinação de cada desvio d i = X i − X , medir-se-á a dispersão entre cada Xi e a
___
média X .
___
DM =
∑ xi − x . f i
=
∑d . f
i
i
∑ fi
∑ fi
Exemplo: Calcular e interpretar o DM da distribuição a seguir.
Classes
fi
2 |— 4
4 |— 6
6 |— 8
8 |— 10
Σ
5
10
4
1
20
xi
xi.fi
3
5
7
9
15
50
28
9
102
___
xi − x . f i
10,50
1,00
7,60
3,90
23,00
___
___
∑x .f
∑ xi − x . f i
23
102
= 5,10
=
= 1,15
DM =
∑ fi
20
∑ fi
20
Interpretação: Em média, cada elemento da série esta afastado de 5,10 por 1,15 unidades.
Assim, X =
i
i
=
5.3 Variância e Desvio Padrão
Têm-se as seguintes situações:
I – Dados não agrupados
Variância populacional
Desvio padrão populacional
2
__ ⎞
⎛
∑⎜ xi − x ⎟
⎜
⎟
⎠
σ 2 ( x) = ⎝
n
Variância amostral
σ= σ
Desvio padrão amostral
__ ⎞ 2
⎛
∑⎜ xi − x ⎟
⎜
⎟
⎠
s 2 ( x) = ⎝
n −1
2
s= s
2
II – Dados agrupados
Variância populacional
Desvio padrão populacional
__ ⎞ 2
⎛
∑⎜ xi − x ⎟ f i
⎜
⎟
⎠
σ 2 ( x) = ⎝
∑ fi
Variância amostral
σ= σ
Desvio padrão amostral
__ ⎞ 2
⎛
∑⎜ xi − x ⎟ f i
⎜
⎟
⎝
⎠
2
s ( x) =
∑ fi − 1
2
s= s
2
Exemplo 1: Calcule o desvio padrão da sequência X: 4, 5, 8, 5 (População)
__
∑ xi = 4 + 5 + 8 + 5 = 22 = 5,5
x =
4
4
n
14
(4 − 5,5) 2 = 2,25
(5 − 5,5) 2 = 0,25
(8 − 5,5) 2 = 6,25
(5 − 5,5) 2 = 0,25u 2
2
__ ⎞
⎛
∑⎜ xi − x ⎟
⎜
⎟
⎠ = 2,25 + 0,25 + 6,25 + 0,25 = 9 = 2,25 (var.)
σ 2 ( x) = ⎝
n
4
4
σ = 2,25 = 1,5u (d.p.)
Interpretação: Em média, cada elemento da série esta afastado de 5,5 por 1,15 unidades.
Obs: Se a sequência em questão representasse apenas uma amostra:
2
__ ⎞
⎛
∑⎜ xi − x ⎟
⎜
⎟
⎠ = 2,25 + 0,25 + 6,25 + 0,25 = 9 = 3 (var.)
s 2 ( x) = ⎝
n −1
4 −1
3
s = 3 = 1,73u (d.p.)
Exemplo 2: Dada a distribuição a seguir, representante de uma população, teremos:
__
__ ⎞ 2
∑ xi f i = 73 = 3,65
⎛
x =
⎜ xi − x ⎟ f
xi
fi
xi.fi
⎜
⎟
∑ f i 20
⎝
⎠
__ ⎞ 2
⎛
2
3
6
8,1675
∑⎜ xi − x ⎟ f i
3
5
15
2,1125
⎜
⎟
18,55
⎠
4
8
32
0,9800
σ 2 ( x) = ⎝
=
= 0,9275u 2 (variância)
20
∑ fi
5
4
20
7,2900
20
73
18,55
Σ
σ= σ
2
= 0,9275 = 0,963u (desvio padrão)
Interpretação: Em média, cada elemento da população esta afastado de 3,65 por 0,9275
unidades.
Obs: Se a variável discreta fosse representativa de uma amostra:
2
__ ⎞
⎛
∑⎜ xi − x ⎟ f i
⎜
⎟
18,55
⎠
=
= 0,9763u 2 (var.)
s 2 ( x) = ⎝
19
∑ fi −1
s= s
2
= 0,9763 = 0,988u
Observações:
I. No cálculo da variância, se os dados são expressos em metros, a variância é expressa em
metros quadrados.
I. Em alguns casos, a unidade de medida da variância não faz sentido. É o caso, por exemplo,
em que os dados são expressos em litros. A variância será expressa em litros quadrados.
Portanto, o valor da variância não pode ser comparado diretamente com os dados da série, ou
seja, variância NÃO TÊM INTERPRETAÇÃO.
15
5.4 Coeficiente de Variação
Trata-se de uma medida relativa de dispersão útil para a comparação em termos
relativos do grau de concentração em torno da média de séries distintas. É dado por:
σ
S
CV = ___ *100 ou CV = __ *100
X
x
O coeficiente de variação é expresso em porcentagens.
Exemplo: Numa empresa, o salário médio dos homens é de R$ 4.000,00, com desvio-padrão
de R$ 1.500,00, e o das mulheres é em média de 3.000,00, com desvio-padrão de R$
1.200,00. Então:
σ 1.500
- Para os homens CV = __ =
*100 = 37,5%
4.000
x
σ 1.200
- Para as mulheres CV = __ =
*100 = 40%
3
.
000
x
Logo, pode-se concluir que os salários das mulheres apresentam maior variabilidade
(dispersão) que os dos homens.
Diz-se que a distribuição possui pequena variabilidade (dispersão) quando o coeficiente
der até 10%; média dispersão quando estiver acima de 10% até 20%, e grande dispersão
quando superar 20%. Alguns analistas consideram:
Baixa dispersão: CV ≤ 10%
Média dispersão: 10% < CV < 20%
Alta dispersão: CV ≥ 20%
EXERCÍCIOS
1) Calcule a amplitude total e o desvio médio da sequência X: 2, 3, 7, 9, 11, 13.
2) Calcule a amplitude total e o desvio médio da sequência Y: 5, 12, 4, 20, 13, 17
3) Calcule a variância e o desvio padrão da sequencia a seguir, representativa de uma
população:
Z: 15, 16, 17, 20, 21
4) Calcule a variância e o desvio padrão da sequencia a seguir, representativa de uma
amostra:
T: 6, 5, 10, 12, 19
5) Calcule a variância e o desvio padrão da população:
Idade (anos) (xi)
17
18
19
20
21
Σ
Nº de alunos (fi)
3
18
17
8
4
50
6) Calcule a variância e o desvio padrão para o número de acidentes diários, observados em
cruzamentos, durante 40 dias (amostra).
Nº de acidentes por
dia (xi)
0
1
2
3
4
Σ
Nº de dias (fi)
30
5
3
1
1
40
7) Calcule a variância e o desvio padrão para a distribuição de valores de 54 notas fiscais
emitidas na mesma data, selecionadas em uma loja de departamentos (amostra).
16
Consumo por nota
(classes)
0 |— 50
50 |— 100
100 |— 150
150 |— 200
200 |— 250
250 |— 300
Σ
Nº de alunos (Fi)
10
28
12
2
1
1
54
8) Calcule a variância e o desvio padrão para as alturas de 70 alunos de uma classe (amostra)
altura (cm)
150 |— 160
160 |— 170
170 |— 180
180 |— 190
190 |— 200
200 |— 210
Σ
Nº de alunos (Fi)
2
15
18
18
16
1
9) Interprete os valores obtidos na questão 6.
10) Interprete os valores obtidos na questão 7.
11) Um grupo de 85 moças tem estatura média de 160,6cm, com um desvio padrão igual a
5,97cm. Outro grupo de 125 moças tem uma estatura média de 161,9cm, sendo o desvio
padrão igual a 6,01cm. Qual é o coeficiente de variação de cada um dos grupos? Qual o
grupo mais homogêneo?
REFERÊNCIAS
COSTA, Sérgio Francisco. Introdução ilustrada à estatística. 3.ed. São Paulo: Herbra, 1998.
CRESPO, Antônio Arnot. Estatística fácil. São Paulo: Saraiva, 2002.
SILVA, Ermes Medeiros da; SILVA, ELIO Medeiros da; GONÇALVES, Valter; MUROLO,
Afránio Carlos. Estatística para os cursos de: Economia, administração, ciências contábeis.
3.ed. São Paulo: Atlas, 2006.
TOLEDO, Geraldo Luciano; OVALLE, Ivo Izidoro. Estatística básica. 2.ed. São Paulo: Atlas,
1985.
17
ANEXO – TABELAS E GRÁFICOS
Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem
assumir, para que tenham uma visão global da variação dessa ou dessas variáveis. E isto ela
consegue, inicialmente, apresentando esses valores em tabelas e gráficos, que irão nos
fornecer rápidas e seguras informações a respeito das variáveis em estudo, permitindo-nos
determinações administrativas e pedagógicas mais coerentes e científicas.
1. Tabela
Tabela é um quadro que resume um conjunto de observações. Uma tabela compõe-se
de:
a) TÍTULO: O título deve responder as seguintes questões:
O que? (Assunto a ser representado (Fato));
Onde? (O lugar onde ocorreu o fenômeno (local));
Quando? (A época em que se verificou o fenômeno (tempo)).
b) CABEÇALHO: parte da tabela na qual é designada a natureza do conteúdo de cada coluna.
c) CORPO: parte da tabela composta por linhas e colunas.
d) LINHAS: parte do corpo que contém uma seqüência horizontal de informações.
e) COLUNAS: parte do corpo que contém uma seqüência vertical de informações.
f) COLUNA INDICADORA: coluna que contém as discriminações correspondentes aos valores
distribuídos nas linhas.
g) CASA OU CÉLULA: parte da tabela formada pelo cruzamento de uma linha com uma
coluna.
h) ELEMENTOS COMPLEMENTARES (rodapé): Colocados no espaço abaixo da tabela –
Fonte: é a indicação de entidade responsável pelo fornecimento dos dados ou sua elaboração;
Notas: são informações de natureza geral, identificadas por algarismos romanos.
Exemplo:
a)
b)
c)
d)
e)
Para a apresentação da tabela, deve-se observar as regras:
O lado direito e esquerdo de uma tabela deve ser aberto;
Use traços horizontais para separar os componentes (cabeçalho, total e as colunas);
Use traços verticais internos somente se for necessário (para maior clareza);
Use maiúscula somente na primeira letra da palavra inicial (vide na tabela a palavra Ano);
Deve-se prestar atenção para os seguintes fatos:
- um traço horizontal (-), quando é apresentado um valor zero;
- três pontos (...), quando há ausência de dados;
- zero (0), quando o valor é muito pequeno;
18
- um ponto de interrogação (?), quando há dúvida quanto à exatidão de determinado valor;
f) A informação do total não é obrigatória. Pode ser incluída, quando for importante, ou, ainda,
quando for usada para alguma análise.
2. Gráficos
O gráfico estatístico é uma forma de apresentação dos dados estatísticos cujo objetivo é
o de produzir, no investigador ou público em geral, uma impressão mais rápida e viva do
fenômeno em estudo, já que os gráficos falam mais rápido à compreensão que as séries.
A representação gráfica de um fenômeno deve obedecer a certos requisitos
fundamentais, para ser realmente útil:
SIMPLICIDADE: O gráfico deve ser destituído de detalhes de importância secundariam,
assim o como de traços desnecessários que possam levar o observador a uma análise
morosa ou com erros.
CLAREZA: O gráfico deve possibilitar uma correta interpretação dos valores
representativos do fenômeno em estudo.
VERACIDADE: O gráfico deve expressar a verdade sobre o fenômeno em estudo.
Para a construção de gráficos, você deverá observar alguns itens que se fazem
necessários neles:
- todo gráfico deve ter título (na parte superior) e fonte (no rodapé), para que o leitor não
tenha a necessidade de voltar ao texto para saber do que se trata;
- a escala do eixo horizontal deve ser escrita abaixo desse eixo e deverá crescer da
esquerda para a direita;
- a escala do eixo vertical deve ser escrita à esquerda do eixo e crescer de baixo para
cima;
- cada eixo deve ser identificado com o que está sendo medido ou representado;
- não é necessário colocar linhas de grade (que saem das marcas das escalas
horizontais e verticais). Estas são opcionais.
Exemplo:
Antigamente, os gráficos eram feitos “a mão”, com a ajuda de régua, compasso,
transferidor, esquadros e canetas ou giz coloridos. Hoje podemos contar com softwares
específicos que auxiliam e facilitam na construção de gráficos e, muitas vezes, propiciam mais
precisão e clareza. Além dos softwares específicos de Estatística, temos os programas
aplicativos de escritório que incluem as chamadas planilhas eletrônicas.
Uma planilha eletrônica utiliza tabelas para a realização de cálculos e permite, também,
19
a criação de vários tipos de gráficos, o que facilita a representação e análise de dados
estatísticos.
Os principais tipos de gráficos são os DIAGRAMAS, os CARTOGRAMAS e os
PICTOGRAMAS.
¾ Diagramas
Os diagramas são gráficos geométricos de, no máximo, duas dimensões; para sua
construção, em geral, fazemos uso do sistema cartesiano (eixo X e Y). Os principais diagramas
são os gráficos de linhas, colunas, barras, setores ou pizza e o gráfico polar. Veja cada um
desses tipos:
Gráfico de linhas:
Gráfico de colunas:
Gráfico de barras:
Gráfico de setores ou pizza:
Gráfico de colunas múltiplas:
Gráfico em barras múltiplas:
Gráfico polar:
Pictograma:
20
Cartograma:
REFERÊNCIAS
COSTA, Sérgio Francisco. Introdução ilustrada à estatística. 3.ed. São Paulo: Herbra, 1998.
CRESPO, Antônio Arnot. Estatística fácil. São Paulo: Saraiva, 2002.
Download