apostila estatística curso técnico em administração

ESTATÍSTICA BÁSICA - Profº Marcos Nascimento
CÁPITULO I- Introdução
Atualmente a utilização da Estatística é cada vez maior em qualquer atividade profissional. Nos mais
diversificados ramos, as pessoas estão frequentemente expostas à Estatística, utilizando-a com maior ou menor
intensidade devido às múltiplas aplicações que o método estatístico proporciona àqueles que dele necessitam. Segue
a seguir alguns definições ou conceitos importantes:
1.1 Estatística: parte da Matemática Aplicada que fornece métodos para a coleta, organização, descrição , análise e
interpretação de dados e para a utilização dos mesmos na tomada de decisões. Tem como objetivo principal
proporcionar métodos inferenciais, que permitam conclusões que transcendam os dados obtidos inicialmente. A
coleta, a organização e descrição dos dados estão a cargo da Estatística Descritiva, enquanto a análise e a
interpretação desses dados ficam a cargo da Estatística Indutiva ou Inferencial. Podemos dividir a Estatística
em 3 grandes áreas:
•
Estatística Descritiva: tem como objetivo descrever e resumir os dados para que possamos tirar conclusões
a respeito de características de interesse.
•
Estatística Indutiva ou Inferencial: conjunto de métodos que permitem inferir o comportamento de uma
população a partir de uma amostra.
•
Probabilidade: ferramenta matemática que deduz a partir de um modelo as propriedades de um fenômeno
aleatório.
1.2 Fases do Método Estatístico: podemos subdividi-los em:
• Coleta de dados;
• Apuração de Dados;
• Apresentação de dados;
• Análise, interpretação conclusão dos dados.
1.2.1 Coleta de dados
È dividida em:
•
Coleta de dados primários (Direta): quando o pesquisador coleta os dados diretamente na fonte
originária. A Coleta Direta de dados pode ser classificada ao fator tempo da seguinte forma:
- Contínua: registros feitos continuamente.Ex.freqüência de alunos às aulas.
- Periódicas: feita em intervalos constantes de tempo. Ex. censos.
- Ocasional: feita extemporaneamente, para atender uma situação de emergência. Ex. praga em uma
lavoura.
•
Coleta de dados secundários (Indireta): quando o pesquisador utiliza de outras fontes.
1.2.2 Apuração de dados
Após terminarmos a coleta de dados é necessário fazer sua apuração ou contagem (tabulação). Devemos
ordená-los mediante critérios de classificação, que pode ser manual, mecânica ou eletronicamente.
1.2.3 Apresentação de dados
Depois de tabularmos esses dados, podemos apresentá-los em:
1
I)
II)
Tabelas
Gráficos
1.3 Variável
É o conjunto de resultados possíveis de um fenômeno. Pode ser:
• Qualitativa: quando os valores forem expressos por atributos. Ex. cor da pele (branca, negra,
amarela), sexo (masculino, feminino).
• Quantitativa: quando os valores forem expressos em números.Ex. salários dos funcionários de
uma empresa, massa corporal dos alunos de uma turma.
A variável qualitativa pode ser: nominal (cor dos olhos, sexo) ou ordinal (classe social, grau de
instrução). Já a variável quantitativa pode ser: contínua (peso, altura, salários), podendo assumir
qualquer valor real positivo ou discreta(número de filhos, quantidade de um rebanho), podendo assumir só
valores inteiros.
1.4 População e Amostra
População: conjunto de elementos em estudo que possuem pelo menos uma característica em comum.
Ex. os estudantes constituem uma população, pois apresentam pelo menos uma característica comum: são os que
estudam.
Muitas vezes , por impossibilidade ou inviabilidade econômica ou temporal, limitamos as observações referentes a
uma determinada pesquisa a apenas uma parte da população. A essa parte proveniente da população em estudo
denominamos amostra.
Amostra: qualquer subconjunto finito, não vazio, de uma população.
A Estatística Indutiva tem como objetivo tirar conclusões sobre as populações, com base em resultados verificados
em amostras retiradas dessa população.Para que as inferências sejam corretas, é necessário garantir que a mostra seja
representativa da população, ou seja, a amostra deve possuir as mesmas características básicas da população. Assim
é preciso que a amostra ou amostras que vão ser usadas sejam obtidas por processos adequados. A técnica especial
que garante o sucesso nesses processos é chamada de amostragem.
1.5 Amostragem
A amostragem garante, tanto quanto possível, o acaso na escolha. Assim, cada elemento da população passa a ter a
mesma chance de ser escolhido, garantindo à amostra o caráter de representatividade, e isto é muito importante, pois
as conclusões relativas à população vão estar baseadas nos resultados obtidos nas amostras dessa população.
Veremos a seguir três das principais técnicas de amostragem.
1.5.1 Amostragem casual ou aleatória simples
È equivalente ao sorteio de loterias. Pode ser realizada numerando-se a população de 1 a n e sorteando-se, a seguir,
por meio de um dispositivo aleatório qualquer , k números dessa seqüência, os quais corresponderão aos elementos
pertencentes à amostra.
1.5.2 Amostragem proporcional estratificada
Muitas vezes a população está dividida em subpopulações ou estratos. Como é provável que a variável em estudo
apresente, de estrato em estrato, um comportamento heterogêneo e, dentro de cada estrato, um comportamento
homogêneo, convém que o sorteio dos elementos da amostra leve em consideração tais estratos. É exatamente isso
que fazemos quando empregamos a amostragem proporcional estratificada, que além de considerar a existência dos
estratos, obtém os elementos da amostra proporcional ao número de elementos dos mesmos.
1.5.3 Amostragem sistemática
Quando os da população já se acham ordenados, não há necessidade de construir o sistema de referência. São
exemplos, as casas de uma rua, as linhas de produção etc. Nestes casos, a seleção é dos elementos que constituirão a
amostra pode ser feita por um sistema imposto pelo pesquisador. A esse tipo de amostragem denominamos
2
sistemática. Assim, no caso de uma entrevista em 100 casas de uma rua, podemos, a cada 10 escolher uma para
pertencer a uma amostra. Fixando o tamanho da amostra em 10% da população.
1.6 REGRAS PARA ARREDONDAMENTO
•
Quando o primeiro algarismo a ser abandonado é 0, 1, 2, 3 ou 4, fica inalterado o último algarismo a
permanecer. Exemplos:
43,24 passa a 53,2 (décimo mais próximo)
12,942 passa a 12,94 (centésimo mais próximo)
69,2 passa a 69 (unidade mais próxima)
•
Quando o primeiro algarismo a ser abandonado é 6, 7, 8 ou 9, aumenta-se de uma unidade o algarismo a
permanecer. Exemplos:
32,87 passa a 32,9 (décimo mais próximo)
46,727 passa a 46,73 (centésimo mais próximo)
26,6 passa a 27 (unidade mais próxima)
•
Quando o primeiro algarismo a ser abandonado é 5, há duas soluções:
I) Se ao 5 seguir em qualquer casa um algarismo diferente de zero, aumenta-se uma unidade ao algarismo a
permanecer. Exemplos:
2,352
passa a 2,4 (décimo mais próximo)
25,6501 passa para 25,7 (décimo mais próximo)
74,250002 passa para 74,3 (décimo mais próximo)
II) Se o 5 for o último algarismo ou se ao 5 só se seguirem zeros, o último algarismo só será aumentado de uma
unidade se for ímpar. Exemplos:
34,75
34,65
28,255
67,5
128,5
passa a 34,8 (décimo mais próximo)
passa a 34,6 (décimo mais próximo)
passa a 28,26 (centésimo mais próximo)
passa a 68 (unidade mais próxima)
passa a 128 (unidade mais próxima)
EXERCÍCIOS
1) Arredonde cada um dos números abaixo, conforme a precisão pedida:
a) Para o décimo mais próximo:
73,4
34, 7832
48,85002
129,98
12,35
78,85
b) Para o centésimo mais próximo:
36,727
23,642
253,654
299,951
38,455
47,485
c) Para a unidade mais próxima:
39,49
78,2
36,6
59,98
228,5
33,5
1.7 Somatório e Produtório
•
Somatório
3
Muitos processos estatísticos exigem o cálculo da soma. Para simplificar a representação da operação de
adição nas expressões algébricas, utiliza-se a notação ∑ , letra grega sigma maiúscula. As principais
representações são:
n
1)
∑x
i
∑x
i
i =1
n
2)
= x1 + x 2 + ... + x n SOMA SIMPLES
2
2
2
= x1 + x 2 + ... + x n
2
SOMA DE QUADRADOS
i =1
2
 n 
3)  ∑ xi  = ( x1 + x 2 + ... + x n ) 2 QUADRADO DA SOMA
 i =1 
n
4)
∑x
i
⋅ y i = x1 ⋅ y1 + x 2 ⋅ y 2 + ... + x n ⋅ y n
i =1
n
5)
n
∑x ⋅∑ y
i
i =1
i
SOMA DE PRODUTOS
= ( x1 + x 2 + ... + x n ) ⋅ ( y1 + y 2 + ... + y n )
PRODUTO DAS SOMAS
i =1
n
∑x
Lê-se
i
como: somatório de x índice i, com i variando de 1 até n.
i =1
Propriedades dos Somatórios
n
I)
∑ a = a + a + ... + a = n ⋅ a
i =1
II)
n
n
i =1
i =1
∑ a ⋅ xi = a ⋅ ∑ x i
n
n
n
i =1
i =1
i =1
∑ ( xi + y i ) = ∑ xi + ∑ y i
III)
2
n
 n 
2
IV) “O quadrado da soma é diferente da soma dos quadrados”:  ∑ xi  ≠ ∑ xi
i =1
 i =1 
n
V) “O produto de duas somas é diferente da soma dos produtos”:
n
n
∑x ⋅∑ y ≠ ∑x
i
i =1
i
i =1
i
⋅ y1
i =1
n
VI) O número k de parcelas ou termos do somatório
∑x
i
é dado pela seguinte expressão:
i=a
k = n − a +1
8
EX:
∑x
i
possui 6 parcelas pois k =8 -3 +1 = 6.
i =3
VII) Somatórios Duplos: o somatório duplo é igual ao produto dos somatórios tomados separadamente.
n
∑
i =1
•
n
n
n
j =1
i =1
j =1
∑ x1 yi = ∑ xi ⋅ ∑ yi
Produtório
4
O símbolo produtório é utilizado para facilitar a representação dos produtos. Utiliza-se a letra grega pi
maiúsculo ∏ . Representação:
n
∏x
i
= x1 ⋅ x 2 ⋅ ... ⋅ x n
i =1
Propriedades:
n
I)
∏ b = b ⋅ b ⋅ ... ⋅ b = b
n
i =1
II)
n
n
i =1
i =1
∏ c ⋅ xi = c n ⋅ ∏ xi
III)
n
n
n
i =1
i =1
i =1
∏ xi y i = ∏ xi ⋅ ∏ y i
n
IV)
∏
= 1 ⋅ 2 ⋅ 3 ⋅ n = n!
i =1
n
n
i =1
i =1
V) log ∏ xi = ∑ log x1
CAPÍTULO II -DISTRIBUIÇÃO DE FREQÜÊNCIA
2.1 Dados Brutos
Feita a coleta, os dados originais ainda não se encontram prontos para a análise, por não estarem
numericamente organizados.Por essa razão, costuma-se chama-los de dados brutos. Na tabela a seguir
estão relacionados os valores correspondentes ao consumo individual de energia elétrica em um grupo de
50 consumidores.
Tabela 2.1
Consumo Mensal de Energia Elétrica
(KWH)
8
90
66
50
9
62
86
95
92
75
80
38
121
60
72
57
8
94 82
158 64
52 89
157 125
126
75
105
58
76
136 96 144 19
148 114 131 28
118 73
83 81
10 90
94 74
88 78
84 36
Nota-se que as cifras estão dispostas de forma desordenada. Em razão disso, pouca informação se
consegue obter inspecionando os dados anotados. Mesmo uma informação simples como a de saber os
consumos máximo e mínimo requer um exame minucioso dos dados da tabela.
2.2 Rol
O rol é uma lista em que os valores estão dispostos em uma determinada ordem, crescente ou
decrescente. Apesar de o rol propiciar ao analista mais informações e com menos esforço de
concentração do que os dados brutos, ainda assim persiste o problema de a análise ter que se basear nas 50
observações. O problema se agravará quando o número de dados for muito grande.
5
Tabela 2.2
Consumo Mensal de Energia Elétrica,
8
9
10
19
28
36
38
50
52
57
58
58
60
62
64
66
72
73
74
75
75
76
78
80
81
82
83
84
86
88
89
90
90
92
94
94
95
96
105
114
118
121
125
126
131
136
144
148
157
158
2.3 Tabelas de freqüências
As tabelas de freqüências são representações nas quais os valores se apresentam em
correspondência com suas repetições, evitando-se assim que eles apareçam mais de uma vez na tabela,
como ocorre com o rol. Através de uma tabela de freqüência obtemos estatísticas com menos cálculos e em
menos tempo do que se esse trabalho fosse realizado a partir de dados brutos. Podemos ter tabelas de
freqüência de dados tabulados não-agrupados em classes ou de dados agrupados em classes.
2.3.1 Distribuição de freqüência de dados tabulados não-agrupados em classes
Esse tipo de apresentação é utilizada para representar uma variável discreta (que só assume valores
pontuais) ou descontínua. A tabela abaixo representa o número de aparelhos defeituosos rejeitados pela
seção encarregada do controle de qualidade de uma determinada empresa.
Tabela 2.3.1
Número Mensal de Aparelhos Defeituosos
Número de Meses
( fi )
Números de Aparelho
com defeito
( xi )
0
1
2
3
4
5
6
7
8
9
10
2
3
4
5
7
8
9
4
3
2
1
11
∑f
i
= 48
i =1
2.3.2 Distribuição de freqüência de dados tabulados agrupados em classes
Nesse tipo de apresentação os valores observados não mais aparecerão individualmente, mas
agrupados em classes. Quando a variável objeto do estudo for contínua, será sempre conveniente agrupar
os valores observados em classes. Se, por outro lado, a variável for discreta e o número de valores
6
representativos dessa variável for muito grande, recomenda-se o agrupamento dos dados em classes,
evitando com isso grande extensão da tabela, aparecimento de diversos valores com freqüência nula e
impossibilidade de visualização do fenômeno como um todo. A tabela abaixo representa um teste de
estatística contendo 100 perguntas do tipo certo-errado numa turma de 500 estudantes.
Tabela 2.3.2
Resultado do Teste de Estatística
Classes notas
Freqüências ( f i )
5
15
20
45
100
130
100
60
15
10
0I
10
10 I
20
20 I
30
30 I
40
40 I
50
50 I
60
60 I
70
70 I
80
80 I
90
90 I 100
10
∑f
i
= 500
i =1
2.4 Elementos de Distribuição de freqüência
Para construirmos uma tabela de freqüências, é necessário conhecermos alguns termos próprios e
de uso freqüente, bem como o procedimento técnico mais adequado.
I) Freqüência Simples Absoluta: a freqüência simples absoluta de uma classe ou de um valor individual é
número de observações correspondentes a essa classe ou a esse valor. Símbolo: f i .
II) Amplitude Total: a amplitude total ou intervalo total é a diferença entre o maior e o menor valor
observado da variável em estudo. Símbolo: At .
III) Classe: é cada um dos grupos de valores em que se subdivide a amplitude total do conjunto de valores
observados da variável. Uma determinada classe pode ser identificada por seus extremos ou pela
ordem em que ela se encontra na tabela. O número de classes em uma distribuição de freqüências, é
representado por k.
Regra de Sturges para determinação do número de classes: Essa regra estabelece que o número de classes
é igual a: k = 1 + 3,3 log10 n, onde k = número de classes e n = nº total de observações.
IV) Limite Superior e Limite Inferior: os limites de classes são valores extremos. A terceira classe da
tabela 2.3.2 tem como limite inferior 20 e limite superior 30.
VI) Amplitude do Intervalo de Classe(h): é o comprimento da classe , sendo geralmente definida como a
diferença entre os limites superior e inferior ou:
At
k
VII) Ponto Médio da Classe ( xi ): ponto médio ou valor médio de classe é o ponto eqüidistante dos limites
de classe. Para obter o ponto médio de uma classe, basta acrescentar ao seu limite inferior a metade da
amplitude do intervalo de classe.
Exemplo:
Classe: 0 |-- 10
Amplitude do intervalo: 10
h=
7
Metade da amplitude: 5
Ponto médio dessa classe será: x1 = 0 + 5 = 5
2.5 Tipos de freqüências
Freqüência Simples:
Absoluta ( f i )
Relativa ( fri ou fri %)
Freqüência Acumulada:
Absoluta ( Fi )
Relativa ( Fri ou Fri %)
2.5.1 Freqüência Simples Absoluta ( f i )
É o número de repetições de um valor individual ou de uma classe de valores da variável.
k
∑f
=n
i
i =1
2.5.2 Freqüência Simples Relativa ( fri ou fri %)
Representa a proporção de observações de um valor individual ou de uma classe, em relação ao número
total de observações.
f
fi
fri = k i =
n
∑ fi
i =1
Desejando expressar o resultado em termos percentuais:
fri % =
fi
⋅ 100
n
2.5.3 Freqüência Absoluta Acumulada ( Fi )
A freqüência acumulada “abaixo de” uma classe ou de um valor individual é a soma da freqüência simples
absoluta dessa classe ou desse valor com as freqüências simples absolutas das classes ou dos valores
anteriores.
2.5.4 Freqüência Relativa Acumulada ( Fri ou Fri %)
Apresentaremos duas maneiras de calcular:
a) acumulando as freqüências simples relativas de acordo com a definição de freqüências acumuladas.
b) calculando as freqüências relativas diretamente a partir das freqüências absolutas, de acordo com a
definição de freqüências relativas.
Fi
n
CAPÍTULO III –GRÁFICOS ESTATÍSTICOS
Fri =
3.1 Introdução
O gráfico estatístico é uma forma de apresentação dos dados estatísticos, tendo por objetivo principal,
produzir ao leitor ou investigador, uma impressão mais rápida do fenômeno em estudo. Os gráficos
comunicam as mesmas idéias das tabelas, porém produzem uma impressão e compreensão mais rápida,
8
mais viva, pois eliminam os detalhes desnecessários, visualizando somente as características mais
importantes dos dados. Abrangem três características: simplicidade, clareza e veracidade. Os mesmos
descrevem o comportamento geral facilitando a interpretação dos resultados de maneira que haja clareza
para a tomada de decisões. Os gráficos devem sempre ser claros e objetivos, chamando a atenção para a
informação.
3.2 Principais Gráficos
Gráfico de Colunas: esse gráfico é formado por retângulos dispostos verticalmente de mesma largura,
arbitrária, e altura proporcional às grandezas dos fenômenos. Os retângulos são separados por espaços da
metade até 2/3 da largura da coluna. Recomendado para quando o nome das categorias não for extenso.
Exemplo
Matrículas na Escola Bom Estudo. Cuiabá. 2002-2005
Anos
2002
2003
2004
2005
Matrículas
410
620
740
810
Fonte: Secretaria da Escola Bom Estudo
Matrículas na Escola X. Blumenau. 1992-1995.
900
810
740
Matrículas
800
700
620
600
500
410
400
300
200
100
0
1992
1993
1994
1995
Anos
Fonte: Secretaria da Escola Bom Estudo
Gráfico de Barras: esse gráfico segue as mesmas normas do gráfico de colunas, porém os retângulos
ocupam posição horizontal. Indicado para séries geográficas ou específicas com nomes extensos,
independentes do total.
Exemplo
Exportação Sul Brasileira de Alguns Produtos
Produtos
Algodão
Cera de Carnaúba
Mamona
Manteiga de Cacau
Toneladas
40000
11050
24400
14800
Fonte: Porto de Exportação
9
Exportação Sul Brasileira de Alguns Produtos.
1950.
Produtos
Manteiga de
Cacau
14,8
Mamona
24,4
Cera de
Carnaúba
11,05
Algodão
40
0
5
10
15
20
Toneladas
25
30
35
40
(x1000)
Fonte: Porto de Exportação
Gráfico de Linha: esse gráfico é utilizado principalmente para séries temporais, no eixo x colocam-se as
épocas e no eixo y as grandezas unindo-as com linhas tracejadas, os pontos finais são ligados com
segmentos. Obedece-se a ordem cronológica, independe do total. Adequado para representar variáveis
quantitativas em que se tenha interesse em acompanhar sua evolução. Não deve ser utilizado para
representar variáveis qualitativas.
Exemplo
Distribuição dos Alunos Desistentes da Escola Bom Estudo.
Cuiabá. 1° semestre 2004.
Meses
Janeiro
Fevereiro
Março
Abril
Maio
Junho
Alunos
55
62
74
44
56
67
cm
Fonte: Secretaria da Escola Bom Estudo
Distribuição dos Alunos Desistentes da Escola A.
Blumenau. 1° semestre 1994.
80
Alunos
70
62
55
56
60
74
44
março
abril
67
50
40
30
20
10
0
janeiro
fevereiro
maio
junho
Meses
Fonte: Secretaria da Escola Bom Estudo
Gráfico de Setores (pizza): esse gráfico compara a parte com o todo, depende do total. Cada dado
(quantidade) representa um setor do círculo, os ângulos são arredondados. Recomenda-se não inscrever no
círculo, utilizar legenda. Raio do círculo é arbitrário. Geralmente o raio do círculo é de cinco centímetros.
10
Adequado para representar variáveis qualitativas com poucas categorias (poucas fatias). A construção do
gráfico de setores é bem simples. Requer duas transformações na coluna das quantidades.
1º) Transformar cada valor da série em graus. Isto pode ser conseguido através de uma regra de três
simples.
Total
360º
Cada valor x
2º) Transformar cada valor da série em porcentagem. Isto pode ser conseguido através de outra regra de
três simples.
Total
100%
Cada valor x
Exemplo
Distribuição do Grupo Sangüíneo. Posto de Saúde.
Cuiabá. 2006.
Grupo Sangüíneo
Número de Pessoas
“A”
46
“B”
32
“AB”
27
“O”
124
Total
229
Fonte: Secretaria do Posto
Distribuição do Grupo Sangüíneo. Posto de
Saúde. Centro. Blumenau 2001.
20%
“A”
“B”
“AB”
14%
54%
“O”
12%
Fonte: Secretaria do Posto
Histograma: esse gráfico representa todos os elementos da série. É uma área formada por colunas
justapostas de maneira contínua, na qual cada classe é uma coluna. No eixo x vão as classes de freqüência
“xi” e no eixo y a freqüência “fi”.
Exemplo
Distribuição de Pontos obtidos Pelos Alunos Disciplina de Matemática na
Prova Final. Escola Bom Estudo. 2008.
xi (pontos)
fi (alunos)
30 l— 40
8
40 l— 50
15
50 l— 60
17
60 l— 70
22
70 l— 80
28
80 l— 90
7
90 l— 100
3
Total
100
Fonte: Secretaria da Escola Bom Estudo
11
Distribuição de Pontos obtidos Pelos Alunos da Disciplina de Matemática
na Prova Final. Escola Bom Estudo. 2008.
28
Número de Alunos
28
24
22
20
17
15
16
12
8
7
8
3
4
0
30
40
50
60
70
80
90
100
Pontos
Fonte: Secretaria da Escola Bom Estudo
Polígono de freqüência: esse é um gráfico que representa um elemento de cada classe. É a representação
gráfica sob forma poligonal, na qual no eixo x vão os pontos centrais ou médios “ x i ” de cada classe
(inclusive o anterior e o posterior) e no eixo y vão as freqüências de classe “fi”.
Exemplo
Distribuição de Pontos obtidos Pelos Alunos da Disciplina de Matemática
na Prova Final. Escola Bom Estudo. 2008.
xi (pontos)
fi (alunos)
30 l— 40
40 l— 50
50 l— 60
60 l— 70
70 l— 80
80 l— 90
90 l— 100
Total
8
15
17
22
28
7
3
100
Fonte: Secretaria da Escola Bom Estudo
Número de Alunos
Distribuição de Pontos obtidos Pelos Alunos da Disciplina de Matemática
na Prova Final. Escola Bom Estudo. 2008.
30
27
24
21
18
15
12
9
6
3
0
25
35
45
55
65
75
Pontos
12
85
95
105
Fonte: Secretaria da Escola Bom Estudo
Comparando os dois gráficos acima podemos observar que o contorno que as duas freqüências produzem é
o mesmo, pois os exemplos apresentam a mesma série. De fato, isto sempre acontece quando construímos
os dois gráficos de uma mesma série. No entanto, há diferenças entre os dois gráficos. O polígono de
freqüência procura mostrar apenas o comportamento das freqüências da série. O histograma, além das
freqüências procura comparar as freqüências entre si bem como as freqüências com o total das freqüências.
CAPÍTULO IV –Medidas de Posição ou de Tendência Central
4.1 Introdução
Nos capítulos anteriores vimos que através das distribuições de freqüências foi possível descrever,
de modo geral, os grupos de valores que uma variável pode assumir. Dessa forma, podemos localizar a
maior concentração de valores de uma dada distribuição, isto é, se ela se localiza no início, no meio ou no
final, ou ainda, se há uma distribuição por igual. Porém, para ressaltar as tendências características de cada
distribuição, isoladamente, ou em confronto com outras, necessitamos introduzir conceitos que se
expressem através de números, que nos permitam traduzir essas tendências. Esses conceitos são
denominados elementos típicos da distribuição e são as:
I) medidas de posição;
III) medidas de assimetria;
II) medidas de variabilidade ou dispersão;
IV) medidas de curtose.
Estudaremos nesse capítulo, as medidas de posição, que são estatísticas que representam uma série
de dados, orientando-nos quanto à posição da distribuição em relação ao eixo horizontal. De um modo
geral, qualquer conjunto de dados estatísticos - agrupados ou não - dependendo do estudo a que se propõe,
ocupam uma posição específica dentro de uma distribuição. As medidas de posição mais importantes são
as medidas de tendência central, que recebem tal denominação pelo fato de os dados observados
tenderem, em geral, a se agrupar em torno dos valores centrais. As principais medidas de tendência central
são:
I) Média (aritmética, geométrica, harmônica, quadrática)
II) Moda
II) Mediana
IV) Separatrizes
4.2 Medidas de Posição
I- Média Aritmética
A média aritmética de um conjunto de números pode ser de dois tipos: simples ou ponderada.
•
Média Aritmética Simples ( x )
A média aritmética simples de um conjunto de números é igual ao quociente entre a soma dos
valores do conjunto e o número total de valores.
n
x + x2 + ⋅ ⋅ ⋅xn
x= 1
=
n
onde:
13
∑x
i =1
n
i
x - média aritmética simples;
xi - valores da variável;
n - número de observações.
A média aritmética simples será calculada sempre que os valores vierem representados individualmente.
•
Média Aritmética Ponderada ( x p )
A média aritmética é considerada ponderada quando os valores do conjunto tiverem pesos
diferentes. No caso da média aritmética simples, todos os valores possuem o mesmo peso. A média
aritmética ponderada é o quociente entre o produto dos valores da variável pelos respectivos pesos e a
soma dos pesos.
k
∑x p
i
xp =
i
i =1
k
∑p
i
i =1
Em que:
x p - média aritmética ponderada;
xi - valores da variável;
pi - pesos dos valores da variável (nº de vezes que cada valor ocorre);
k
∑ pi = n - número de observações;
i =1
k - número de classes ou de valores individuais diferentes da variável.
Os pesos dos valores da variável correspondem ao número de vezes que cada valor ocorre.
•
Média Aritmética Ponderada (Dados Agrupados em Classes)
O valor de xi passa a ser o ponto médio do intervalo.
k
∑fx
i
xp =
i
i =1
k
∑f
i
i =1
Propriedades da Média
1ª) a soma algébrica dos afastamentos (ou desvios, ou resíduos) de um conjunto de números tomados em
relação à média aritmética é zero. Simbolicamente:
n
∑ d i = ∑ (xi − x ) = 0
i =1
k
ou
∑ d i pi = ∑ ( xi − x ) pi = 0
i =1
2ª) se multiplicarmos ou dividirmos todas as informações por uma constante, a média aritmética também
ficará multiplicada ou dividida por essa constante.
3ª) somando-se ou subtraindo-se uma constante a todos os valores de um conjunto de informações, a média
aritmética ficará somada ou subtraída dessa constante.
4ª) a soma dos quadrados dos desvios tomados em relação à média aritmética é um mínimo.
14
Uso da Média: é a mais utilizada dos valores médios, pela simplicidade e rapidez de seu cálculo.
a) quando se deseja obter um valor médio estável e significativo que inclui no seu cálculo todos os valores;
b) é usada na determinação de índices de grande importância estatística;
c) quando se deseja maior precisão na determinação de uma medida, realiza-se várias induções e toma-se
como resultado a média aritmética.
II- Média Geométrica Simles( x G ou MG)
A média geométrica de “n” valores é definida, genericamente, como a raiz n-ésima do produto de
todos eles.
Dados “n” valores x1, x2, ..., xn, a média geométrica desses valores será:
x g = n x1 ⋅ x 2 ⋅...⋅ x n
xg = n
ou
Π
n
Πx
i =1
onde:
i
-Produtório
•
Média Geométrica Ponderada
A média geométrica ponderada de um conjunto de números dispostos em uma tabela de freqüências
é calculada por intermédio da seguinte expressão:
x g = n x1f1 × x 2f 2 × ... × x kf k
xg = n
ou
k
k
onde: n = ∑ f i
f
Π xi i
i =1
i =1
Uso da Média Geométrica
a) quando um dos valores é nulo não se aplica a média geométrica;
b) para o cálculo do índice do custo de vida;
c) crescimento demográfico.
III- Média Harmônica ( x h )
A média harmônica de um conjunto de valores xi é o inverso da média aritmética dos inversos dos
valores.
xh =
•
1
n
xh = n
1
∑
i =1 x i
ou
1
1
1
+
+ ...+
x1 x 2
xn
n
Média Harmônica Ponderada ( x h )
A média harmônica ponderada de um conjunto de números, dispostos em uma tabela de
freqüências, é dada pela seguinte expressão:
k
1
xh = k
=
1
⋅ fi
∑
i =1 xi
∑f
k
1
∑x
i =1
k
∑f
i
i =1
i
i =1
onde:
15
i
⋅ fi
=
n
k
fi
i =1
i
∑x
n - número de observações;
xi - valores da variável;
pi - pesos dos valores da variável.
Uso da Média Harmônica
a) muito utilizada em fatores de ordem física (aceleração, velocidade)
b) custo médio de artigos comprados com uma quantia fixa
IV-Média Quadrática ( x q )
A média quadrática de um conjunto de “n” valores xi é a raiz quadrada da média aritmética dos
quadrados.
n
∑ x i2
i =1
xq =
n
onde:
xi - valores da variável;
•
n - número de observações.
Média Quadrática Ponderada
Quando os valores da variável estiverem dispostos em uma tabela de freqüências, a média
quadrática será determinada pela seguinte expressão:
k
xq =
∑x
2
i
⋅ fi
i =1
n
onde:
xi - valores da variável;
pi - pesos dos valores da variável;
n - número de observações.
V-Moda (Mo)
A moda é outra medida de tendência central, definida como o valor mais frequente, quando
comparado sua freqüência com a dos valores contíguos de um conjunto ordenado. Considerando um
conjunto ordenado de valores, a moda será o valor predominante, o valor mais frequente desse conjunto.
Esse conjunto de valores pode ser:
- amodal: não apresenta uma moda, isto é, todos os valores da variável em estudo ocorreram com a
mesma intensidade (freqüência).
- plurimodal: quando houver mais de um valor predominante.
Ex.: Calcular a moda dos seguintes conjuntos de valores:
16
A = {4, 5, 5, 6, 6, 6, 7, 7, 8, 8}
Mo = 6
B = {4, 4, 5, 5, 6, 6} Amodal, pois seus três valores apareceram 2 vezes cada
um.
C = {1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 6, 6} Mo1 = 2 e Mo2 = 5, conjunto bimodal, pois
tanto o valor 2 como o valor 5 apresentaram
o maior número de ocorrências.
D = {1, 2, 3, 4, 5}
•
Amodal
Moda para Dados Agrupados
Os valores da variável dispostos em uma tabela de freqüências podem apresentar-se
individualmente ou agrupados em classes. No primeiro caso, a determinação da moda é imediata, bastando,
para isso, consultar a tabela, localizando o valor que apresenta a maior freqüência. Esse valor será a moda
do conjunto. Assim, a moda do conjunto apresentado na tabela abaixo é Mo = 3, indicando que a rejeição
de 3 peças defeituosas por mês foi o resultado mais observado.
Ex.:
Número de Peças de Precisão Defeituosas devolvidas mensalmente pelo Controle de
Qualidade
N° de meses
N° de Peças com Defeito
xi
fi
0
2
1
4
2
6
3
8
4
4
5
2
6
1
7
∑f
i
= 27
i =1
Tratando-se de uma tabela de freqüências com valores tabulados e agrupados em classes, o
procedimento não é imediato, sendo disponíveis alguns métodos de cálculo distintos. Qualquer que seja o
método adotado, o primeiro passo para determinar a moda é localizar a classe que apresenta a maior
freqüência, comumente chamada de classe modal. Um dos métodos para o cálculo da Moda é o Método de
Czuber.
Método de Czuber
O método de Czuber, para o cálculo da moda elaborada, leva em consideração não apenas as
freqüências das classes adjacentes, mas também a freqüência da classe modal. O ponto que corresponde à
moda divide o intervalo da classe modal em duas partes, as quais são proporcionais às diferenças entre a
freqüência da classe modal e as das respectivas classes adjacentes. Assim:
Mo = Li + h
f Mo − f ant
2 f Mo − ( f ant + f post )
onde:
17
Li - limite inferior da classe modal;
h - amplitude do intervalo de classe;
fMo - freqüência simples da classe modal;
fant - freqüência simples da classe anterior à classe modal;
fpost - freqüência simples da classe posterior à classe modal.
VI- Mediana (Md)
Mediana é um valor central de um rol, ou seja, a mediana de um conjunto de valores ordenados
(crescente ou decrescente) é a medida que divide este conjunto em duas partes iguais, cujo valor está
sucedido de 50% e antecedido de 50% desse conjunto de observações. A mediana também é considerada
uma medida separatriz, pois divide a distribuição (a série) ou conjunto de dados em partes iguais. É uma
medida muito utilizada na análise de dados estatísticos, especialmente quando se atribui pouca importância
aos valores extremos da variável. A mediana é um valor que ocupa uma determinada ordem ou posição na
série ordenada.
Estando ordenados os valores de uma série e sendo “n” o número de elementos da série, o valor
mediano será:
•
Se “n” for ímpar: a mediana será o termo de ordem:
P=
n +1
2
Em que:
P – elemento mediano (Posição);
n – número de elementos do conjunto.
•
Se “n” for par: a mediana será a média aritmética dos termos de ordem n/2 e n/2 + 1:
P1 =
n
2
P2 =
Exemplos
1) Para a série {4, 5, 6, 8, 10, 14, 15, 16, 19}
n
+1
2
Me =
P1 + P2
2
n = 9 ⇒ A mediana será o termo de ordem
P=
9 +1
=5
2
Assim, Md = 10
2) Para a série {3, 5, 7, 10, 12, 14, 19, 20} n = 8 ⇒ A mediana será o termo de ordem:
P1 =
n 8
= =4
2 2
P2 =
n
8
10 + 12
+ 1 = + 1 = 5 Me =
= 11
2
2
2
Md = 11
Obs.: a mediana depende da “posição” e não dos valores dos elementos na série ordenada. Essa é uma das
diferenças marcantes entre a mediana e a média (que se deixa influenciar, e muito, pelos valores extremos).
•
Mediana para Dados Agrupados em Classes
Para o caso de uma distribuição, a ordem, a partir de qualquer um dos extremos, é dada por:
∑ Fi
2
18
1° passo: determina-se as freqüências acumuladas;
2° passo: calcula-se a posição da mediana;
3° passo: marca-se a classe correspondente à freqüência acumulada imediatamente superior a Posição
calculada e, em seguida, emprega-se a fórmula:
 ∑ fi


− Fant  ⋅ h
 2


M d = Li + 
f md
Em que:
Li – é o limite inferior da classe que contém a mediana;
Fant – freqüência acumulada até a classe anterior à classe mediana;
fmd – freqüência simples da classe mediana;
h – amplitude do intervalo da classe mediana.
Uso da Mediana:
a) é usada em fenômenos educacionais quando se quer tornar objetiva a avaliação de uma classe;
b) quando se quer exatamente o valor que divide a metade da distribuição;
c) quando a distribuição tem resultados discrepantes e pairam dúvidas sobre sua validade e correção.
CAPÍTULO V –Medidas de Dispersão
5.1 INTRODUÇÃO
Fenômenos cuja análise intervém o método estatístico, bem como os dados estatísticos a eles
referentes, caracterizam-se tanto pela semelhança quanto pela sua variabilidade. Dessa forma não há razão
alguma se calcular a média de um conjunto de dados em que não haja variação desses elementos, e por
outro lado, se a variabilidade dos dados for muito grande, sua média terá um grau de confiabilidade tão
pequena que será inútil calculá-la. Assim o estudo das médias, medianas e modas são válidos, mas não são
suficientes para estudos comparativos ou conclusões qualitativas. As medidas de dispersão ou
variabilidade servem então para verificar a representatividade das medidas de posição.
Consideremos os seguintes conjuntos de valores: A={70; 70; 70; 70; 70}, B={ 68; 69; 70; 71; 72} e
C={5; 15; 50; 120; 160}. Em todos eles a média aritmética é: x = 70 , porém nota-se claramente que o
conjunto A é mais homogêneo que os conjuntos B e C, e que o conjunto B é mais homogêneo que o
conjunto C, já que há menor diversificação entre cada um de seus valores e a média representativa.
5.2 Medidas de Dispersão Absoluta
•
Amplitude Total ( At ): é a diferença entre os valores extremos de um conjunto.
• Desvio Médio ( Dm ): é igual a média aritmética dos valores absolutos dos desvios tomados em
relação a uma das seguintes medidas de tendência central: média ou mediana.
Para dados não agrupados tem-se:
n
Dm =
∑x
i
i =1
n
Para dados agrupados em classes:
19
−x
n
Dm =
∑x
i
− x ⋅ fi
i =1
n
∑f
i
i =1
em que xi é o ponto médio do intervalo de classe.
• Variância ( S 2 ) e Desvio Padrão ( S )
O desvio padrão é a medida de dispersão mais usada, tendo em comum como desvio médio o fato de
que os desvios são calculados em relação à média aritmética. Só que, no cálculo do desvio padrão, em
lugar de serem usados os valores absolutos dos desvios, calcula-se o quadrado desses.
Para dados não agrupados tem-se:
Fórmula Normal
n
S=
∑ (x
i
(POPULAÇÃO)
n
n
S=
− x)
2
i =1
∑ (x
Fórmula Desenvolvida
2

 n  
 ∑ xi  

1  n 2  i =1  
S=
⋅ ∑ xi −

n  i =1
n




− x)
2
i
i =1
(AMOSTRA)
n −1
S=
(POPULAÇÃO)
2

 n  
 ∑ xi  

1  n 2  i =1  
⋅ ∑ xi −

n − 1  i =1
n




(AMOSTRA)
Para dados agrupados em classes tem-se:
Fórmula Normal
n
S=
∑ (x
i
(POPULAÇÃO)
n
n
S=
− x ) ⋅ fi
2
i =1
∑ (x
Fórmula Desenvolvida
2

 n
 
 ∑ xi f i  

1 n 2
 
S=
⋅ ∑ xi f i −  i =1


n i =1
n




− x ) ⋅ fi
2
i
i =1
n −1
(AMOSTRA)
S=
2

 n
 
 ∑ xi f i  

1  n 2
 
⋅ ∑ xi f i −  i =1


n − 1 i =1
n




(POPULAÇÃO)
(AMOSTRA)
• Coeficiente de Variação de Pearson
Bibliografia
CRESPO, A.A. Estatística Fácil . Editora Saraiva, São Paulo, SP, 2002.
TOLEDO, G. L. e OVALLE, I. I.. Estatística Básica. Editora Atlas. São Paulo, SP, 2ª edição, 1992.
SPIEGEL, M. R. Estatística. Editora Makron Books. São Paulo, 3ª Edição, 2009.
20