Apostila de Estatística-parte 1

Propaganda
Capítulo 5
Apresentação Estatística - Gráficos e Tabelas.
5.1 - OBJETIVO DO CAPÍTULO
Um dos objetivos da Estatística é sintetizar os valores que uma ou mais
variáveis podem assumir, para que tenhamos uma visão global da variação dessa
ou dessas variáveis. E isso ela consegue, inicialmente, apresentando esses valores
em tabelas e gráficos. Veremos nesse capítulo os gráficos estatísticos mais
comuns e utilizados para representar uma amostra de dados coletados de uma
determinada população. Através de uma apresentação gráfica adequada vemos com
maior facilidade as características da população em estudo. Desta maneira
apresentaremos os gráficos de barra/coluna, setores/pizza, histograma, linhas,
barras múltiplas, barras empilhadas e polígono de freqüência.
5.2 - APRESENTAÇÃO GRÁFICA DOS DADOS.
Além de utilizar tabelas para resumir um conjunto de dados, os gráficos
fornecem um impacto visual alternativo.
Ao construir qualquer tipo de gráfico, é importante garantir que (assim como
as tabelas) o gráfico receba um título adequado, cada um dos eixos sendo rotulado
e uma escala sensata utilizada. Isso para que um gráfico faça sentido e seja
facilmente compreensível, se nenhum dado acompanhá-lo.
Neste capítulo, serão consideradas as formas mais comuns de representação
gráfica utilizadas. Isso será feito, inicialmente, considerando-se um único conjunto
de dados e fazendo-se a correspondência do gráfico mais apropriado aos tipos de
dados (isto é, nominais, ordinais, discretos, contínuos).
5.3 – GRÁFICO DE BARRAS / COLUNAS
Este tipo de gráfico mais normalmente utilizado. Cada categoria é
representada por uma barra retangular distinta, sendo a freqüência indicada pelo
comprimento/altura da barra.
Esse gráfico pode ser utilizado para todos os tipos de dados, exceto dados
contínuos e dados ordinais na forma de uma série temporal.
32
Alunos de uma Escola "X"
25
Frequência
20
15
10
5
0
Masculino
Feminino
Gênero
5.4 - GRÁFICO DE SETORES / “PIZZA”
Aqui, todo conjunto de dados é representado por um círculo, e cada categoria
é representada por uma parte desse círculo (isto é, um setor). A freqüência é
representada pelo ângulo e 360° representa o total de dados.
De maneira análoga a um gráfico de barra/coluna, o gráfico de setores pode
ser utilizado para a maioria dos tipos de dados. Entretanto, como um gráfico de
setores é utilizado para mostrar que proporção todo é tomada por uma categoria, ele
somente será útil se o número de categorias for pequeno e cada uma for uma
proporção significativa do total de dados. Também é possível enfatizar determinada
categoria “cortando a fatia” do gráfico principal.
Preferência por produto de limpeza
7%
13%
33%
A
B
C
20%
D
E
27%
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
33
5.5 – HISTOGRAMA
O histograma é utilizado para fornecer o equivalente ao gráfico de barras para
dados contínuos que foram agrupados em uma tabela de distribuição de freqüência,
isto é, ele fornece uma representação comparativa dos dados.
Deve-se observar que existem muitas situações em que os histogramas são
representados imprecisamente e que poucos pacotes de computador possuem a
capacidade de representá-los com precisão. Tome muito cuidado ao falar de
histogramas; geralmente, é um gráfico de barras que foi utilizado.
Embora um histograma se pareça muito com um gráfico de barras, existem
duas diferenças principais:
1 – O eixo na parte inferior (o eixo x) possui uma escala contínua, e os blocos são
dispostos juntos.
2 - Mais importante, a área de cada bloco representa a freqüência.
Se os intervalos de classe dos dados tiverem todos a mesma amplitude, isto
não apresenta nenhum problema, e a altura de um bloco será igual à freqüência.
Entretanto, quando as amplitudes de classe forem desiguais, constrói-se um
histograma com a altura do bloco igual a uma medida conhecida como densidade de
freqüência, onde:
Densidade de freqüência = freqüência dividida pela amplitude da categoria.
A construção de um histograma em ambas essas circunstâncias é ilustrada
nos dois próximos exemplos.
Exemplo 1:
A Rowell Graphics é uma pequena que emprega 25 artistas gráficos
permanentes. A empresa opera com horário de trabalho flexível. Sob esse sistema,
cada mês um funcionário pode acumular até 10 horas de crédito ou quatro horas de
débito para o próximo mês de trabalho. A tabela abaixo resume o número de horas
acumuladas para o mês de janeiro deste ano.
Horas de crédito dos funcionários da Rowell Garphics.
Horas de crédito acumuladas
-4 a menos de -2
-2 a menos de 0
0 a menos de 2
2 a menos de 4
4 a menos de 6
6 a menos de 8
8 a menos de 10
Total
Fonte: Registros da empresa
Número de funcionários
2
3
5
8
4
2
1
25
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
34
Nesse caso, todas as categorias cobrem a mesma faixa de tempo de duas
horas. Portanto, ao construir o histograma, a freqüência (isto é, o número de
funcionários) de cada grupo pode ser utilizada para representar a altura de um único
bloco (lembrando que, como os dados são contínuos, os blocos são unidos no eixo
x, que representa o tempo).
O histograma resultante é exibido na figura abaixo.
Exemplo 2:
A Rowell Graphics também emprega em torno de 50 funcionários que
trabalham em casa, durante períodos particularmente ativos. Esses artistas recebem
por hora, e seu pagamento é feito retrospectivamente no final de cada mês. A tabela
abaixo resume o número de horas apresentadas por esses funcionários no final de
janeiro deste ano. Ilustre esses dados em um histograma.
Como a amplitude das categorias é desigual, é necessário o cálculo da
densidade da freqüência para representar a altura de cada bloco. Como esse cálculo
é feito dividindo-se a freqüência pela amplitude das categorias, encontrar o valor da
última categoria em aberto não é possível no momento.
Horas reivindicadas pelos funcionários da Rowell Graphics que trabalham em casa
Horas reivindicadas
Menos de 30
De 30 a menos de 50
De 50 a menos de 75
De 75 a menos de 100
De 100 a menos de 125
De 125 a menos de 150
150 ou mais
Total
Número de funcionários
3
5
8
10
15
7
2
50
Fonte: Registros da empresa
É bem comum que os dados sejam representados dessa maneira, e não
existem regras fixas sobre a maneira pela qual se trata esse assunto. Neste texto,
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
35
recomenda-se que a amplitude de uma categoria aberta seja o dobro da categoria
mais comum utilizada para resumir os dados.
Portanto, nesse exemplo, a amplitude da última categoria será de 50, gerando
um ponto final em 200 horas. Veja a nova tabela abaixo, com a densidade da
freqüência.
Encontro da densidade freqüência.
Horas reivindicadas
Número de
funcionários
Menos de 30
3
De 30 a menos de 50
5
De 50 a menos de 75
8
De 75 a menos de 100
10
De 100 a menos de 125
15
De 125 a menos de 150
7
De 150 a menos de 200
2
Fonte: Registros da empresa
Amplitude da
Classe
30
20
25
25
25
25
50
Densidade da
freqüência
3/30=0,1
5/20=0,25
8/25=0,32
10/25=0,25
15/25=0,6
7/25=0,28
2/50=0,04
O histograma é, então, construído plotando-se as horas reivindicadas sobre
os eixo x com os valores da densidade da freqüência sendo plotados no eixo y. Veja
a figura abaixo.
Fonte: Registro da empresa
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
36
EXERCÍCIO PROPOSTO
1) Ilustre os dados fornecidos na tabela abaixo em um histograma.
Aluguel mensal pago por alunos do curso de bacharelado em Ciências Contábeis.
Aluguel mensal ($)
Freqüência(f)
De 100 a menos de 110
1
De 110 a menos de 120
4
De 120 a menos de 130
7
De 130 a menos de 140
13
De 140 a menos de 150
7
De 150 a menos de 160
3
160 ou mais
1
Fonte: Questionário Aplicado aos alunos.
5.6 – GRÁFICO DE FREQÜÊNCIA ACUMULADA
O gráfico de freqüência acumulada, ou ogiva, é outro gráfico utilizado em
particular com dados contínuos. O gráfico fornece uma representação proporcional
dos dados e seu principal uso é para encontrar mediana, cujo cálculo veremos nos
capítulos posteriores.
Para construir um gráfico de freqüência acumulada, geralmente é necessário
mudar a maneira como os dados foram tabulados, para que se calculem as
freqüências acumuladas (isto é, o número total de observações que são menores do
que determinada observação). Esses valores da freqüência acumulada tornam-se
pontos do eixo y. Gráfico de freqüência acumulada.
Exemplo:
Construa uma nova tabela com a freqüência acumulada para os dados dos
aluguéis mensais mostrados na tabela abaixo.
Aluguel mensal pago por alunos do curso de bacharelado em Ciências Contábeis.
Aluguel mensal ($)
Freqüência(f)
De 100 a menos de 110
1
De 110 a menos de 120
4
De 120 a menos de 130
7
De 130 a menos de 140
13
De 140 a menos de 150
7
De 150 a menos de 160
3
160 ou mais
1
Fonte: Questionário Aplicado aos alunos.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
37
Duas novas colunas são adicionadas. Essas duas últimas colunas de dados
são plotados nos eixos horizontal (x) e vertical (y) respectivamente, e então ligados
com linhas retas ou curvas para produzir a ogiva. Isto é mostrado na figura abaixo.
Aluguel mensal ($)
Freqüência
Aluguel mensal
menor que
100
110
120
130
140
150
160
180*
1
4
7
13
7
3
1
De 100 a menos de 110
De 110 a menos de 120
De 120 a menos de 130
De 130 a menos de 140
De 140 a menos de 150
De 150 a menos de 160
160 ou mais
Freqüência
Acumulada
0
1
5
12
25
32
35
36
Fonte: Questionário aplicado aos alunos
Frequência Acumulada
Aluguel mensal pago por alunos
40
35
30
25
20
15
10
5
0
100
110
120
130
140
150
160
180
Aluguel
5.7 – GRÁFICO DE LINHAS
Novamente, este é um gráfico que normalmente é utilizado para um propósito
específico, isto é, apresentar dados de uma série temporal. Ele simplesmente
consiste na variável do tempo plotada no eixo horizontal (x) e na segunda variável
(seja ela vendas, lucros, custos de produção etc.) plotada no eixo (y). Cada ponto
individual é representado por uma cruz ou um ponto, e cada um desses pontos é
ligado ao seguinte por uma linha reta. Então, por exemplo, se o aluguel mensal
médio pago pelos alunos tivesse sido coletado ao longo do período de 10 anos,
então o gráfico de linhas seria a escolha de apresentação mais adequada.
A figura abaixo mostra o gráfico de linhas que, apesar de uma tabela de
dados não ter sido fornecida, as informações do gráfico são facilmente obtidas.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
38
Por exemplo, qual foi o aluguel mensal médio pago pelos alunos do bacharel
em Ciências Contábeis em 1992?
Aluguel mensal médio pago pelos alunos.
160
150
Aluguel
140
130
120
110
100
90
80
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
Anos
Para os gráficos de linhas, se dois ou mais conjuntos de dados estiverem
sendo exibidos, então diferentes padrões, cores e indicadores de pontos podem ser
utilizados para distingui-los e uma chave ou legenda de acompanhamento fornecida.
Isso naturalmente nos leva a observar as alternativas que estão disponíveis para
exibir mais de um conjunto de dados.
Para dados nominais e discretos, existem duas alternativas que se baseiam
no gráfico de barras/colunas, e, para dados contínuos, um gráfico conhecido como
polígono de freqüência é utilizado.
5.8 – GRÁFICO DE BARRAS MÚLTIPLAS
Um gráfico de barras múltiplas é utilizado quando é necessária uma
comparação da distribuição de dois ou mais grupos de dados. Em muitas ocasiões,
o número total de observações em cada um dos grupos será diferente, portanto, as
freqüências não podem ser comparadas diretamente. Se isso for necessário,
freqüências percentuais serão calculadas, e os valores resultantes serão plotados no
gráfico.
A figura abaixo é um gráfico de barras múltiplas que foi utilizado para mostrar
os dados sobre as acomodações e gêneros dos alunos do curso de bacharelado em
Ciências Contábeis.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
39
Tipo de acomodações dos alunos.
Frequência percentual
35
30
25
20
15
10
5
0
Alojamento
Estudantil
Hospedaria
Casa Própria/
dos Pais
Apartamento /
Casa alugada
Outro
Acomodação
Homens
Mulheres
Neste caso os dois grupos comparados possuem tamanhos diferentes, isto é,
15 homens versus 21 mulheres, foram utilizados as freqüências percentuais. Os
cálculos necessários para isso são exibidos na tabela abaixo.
Acomodações dos alunos do curso de bacharelado em Ciências Contábeis.
Acomodação
Homens
Freqüência % Mulheres Freqüência %
Alojamento Estudantil
4
26,6
6
28,57
Hospedaria
3
20
5
23,80
Casa Própria/ dos Pais
3
20
2
9,52
Apartamento / Casa
4
26,6
7
33,33
alugada
Outro
1
6,6
1
4,76
Total
100%
100%
Fonte: Questionário aplicado aos alunos
5.9 – GRÁFICO DE BARRAS EMPILAHDAS
De maneira similar aos gráficos de setores para um único conjunto de dados,
um gráfico de barras empilhadas é utilizado para ilustrar uma representação
proporcional dentro de um conjunto de dados. Os gráficos de barras empilhadas são
mais eficazes quando existe um pequeno número de divisões (duas ou três) dentro
de uma categoria. Nos casos em que a comparação dá-se entre um número de
subdivisões, um simples gráfico de linhas ou um gráfico de barras múltiplas são mais
adequados.
Portanto para a tabulação cruzada dos dados de acomodações por gênero,
ambas as formas de representação são igualmente válidas. Entretanto, o gráfico de
barras empilhadas possui uma pequena vantagem de não exigir o cálculo das
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
40
freqüências percentuais. Um gráfico de barras empilhadas desses dados pode ser
visto na figura abaixo.
Acomodação dos alunos
12
Frequência
10
8
Feminino
6
Masculino
4
2
0
Alojamento
estudantil
Hospedaria Casa própria Apartamento
/ dos pais
/ casa
alugada
Outro
5.10 – POLÍGONO DE FREQUÊNCIA
Como o histograma utiliza uma escala contínua ao longo do eixo x, não é
possível traçar dois histogramas sobre o mesmo gráfico, porque eles ficariam
sobrepostos um ao outro. Portanto, para comprar a distribuição de dois ou mais
grupos de dados contínuos, um polígono de freqüência (similar a um gráfico de
linhas) é utilizado.
Com base nos dados dos alunos do bacharelado em Ciências Contábeis, um
polígono de freqüência seria necessário para comparar a distribuição da idade
dentro de cada gênero.
Idade e gênero dos alunos do bacharelado em Ciências Contábeis.
Idade
Número de alunos
Masculino
Feminino
De 18 a menos de 19
7
De 19 a menos de 20
2
De 20 a menos de 21
3
De 21 a menos de 22
1
22 ou mais
2
Total
15
Fonte: Questionário aplicado aos alunos.
9
5
4
2
1
21
Total
16
7
7
3
3
36
Os dois grupos de alunos são de tamanhos diferentes (Masculino: 15 e
Feminino: 21), então, para se fazer uma comparação direta, e necessário primeiro
calcular as freqüências percentuais, como é mostrado na tabela abaixo.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
41
Idade dos alunos do bacharelado em Ciências Contábeis, mostrando as freqüências
percentuais.
Idade
Freqüência em % de homens
Freqüência em % de mulheres
De 18 a menos de 19
De 19 a menos de 20
De 20 a menos de 21
De 21 a menos de 22
22 ou mais
46,66
13,33
20
6,66
13,33
42,85
23,80
19,04
9,52
4,76
Essas freqüências percentuais são então plotadas contra os pontos médios
das classes para produzir o diagrama do polígono de freqüência. Veja a figura
abaixo.
Frequência percentual
Polígono de frequência, comparando idade e gênero.
50
45
40
35
30
25
20
15
10
5
0
De 18 a menos de 19
De 19 a menos de 20
De 20 a menos de 21
Homens
De 21a menos de 22
22 ou mais
Mulheres
Fonte: Questionário aplicado aos alunos.
Nesse capítulo, somente as maneira mais comuns pelas quais os dados
podem ser apresentados foram cobertas. Basta dar uma olhada em um jornal,
assistir a um noticiário na televisão ou olhar publicações científicas para ver a ampla
variedade disponível.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
42
5.11 – PONTOS CHAVES A SEMREM LEMBRADOS
Gráficos
1. Assim como as tabelas, certifique-se de que os gráficos possuam um título
adequado e dê rótulos aos eixos.
2. Os gráficos devem ser compatíveis com seu tipo de dados:
a) Gráfico de barra/coluna – adequado para todos, exceto dados contínuos ou de
séries temporais.
b) Gráfico de setores – como o anterior bom para enfatizar proporções.
c) Histograma – para um único conjunto de dados contínuos.
d) Ogiva – dados contínuos
e) Gráfico de Linhas – dados de séries temporais.
3. Para categorias contínuas desiguais, utilize a densidade da freqüência ao
construir um histograma.
5.12 - EXERCÍCIOS PROPOSTOS
1) A autoridade local encomendou um estudo para examinar as distâncias que os
motoristas de carro viajam até o centro da cidade como parte de estudo de
exeqüibilidade de um esquema proposto de estacionamento e trajetos. Um lote
de 50 resultados (distâncias em milhares) é fornecido a seguir.
15
9
17
18
23
21
9
6
19
12
8
11
8
8
4
3
14
2
8
9
7
19
5
22
10
9
2
9
7
8
2
3
32
8
3
3
6
5
4
6
20
9
23
8
13
15
17
40
3
2
a) Construa a distribuição de freqüência com base nesses dados, utilizando oito
intervalos de classes de mesma amplitude.
2) Os números a seguir são relativos à quantidade de visitantes em um museu
local:
Ano
Visitantes (x 10.000)
1991
34,5
1992
33,6
1993
39,9
1994
40,7
1995
40,6
1996
46,5
a) Desenhe um gráfico apropriado para representar esses dados.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
1997
57,8
43
3) A tabela abaixo mostra os resultados de uma amostra aleatória de 100
declarações de despesas diárias feitas pelos executivos de uma empresa.
Declarações de despesas feitas pelos executivos de uma empresa.
Valor da declaração ($)
Freqüência
Abaixo de 15,00
12
De 15,00 a menos de 17,50 23
De 17,50 a menos de 20,00 26
De 20,00 a menos de 22,50 18
De 22,50 a menos de 25,00 13
De 25,00 a menos de 30,00 8
a) Desenhe um histograma para representar esses dados.
b) Construa um diagrama de freqüência acumulada (ogiva) e utilize-o pra estimar a
porcentagem de declarações acima de $21,00.
4) A tabela abaixo mostra a freqüência e porcentagem dos empregados da
Empresa MB, segundo o número de filhos.
Número de filhos
Freqüência
Porcentagem
0
4
20
1
5
25
2
7
35
3
3
15
5
1
5
Com base nos dados acima, construa o gráfico mais indicado para essa
representação.
5) Os dados abaixo refere-se a produção nacional de petróleo – Brasil de 1982 à
1986.
Período
100 Barris/Dia
1982
268
1983
339
1984
474
1985
563
1986
593
Com base nos dados acima, construa o gráfico mais indicado para essa
representação.
6) A revista EXAME/Set-2006 publicou alguns resultados em parceria com o Banco
Mundial a respeito da qualidade de ensino no Brasil. Entre alguns estudos está o
nível de escolaridade dos brasileiros. A tabela abaixo nos mostra os dados desta
pesquisa.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
44
Nível de escolaridade
Porcentagem
Fundamental incompleto
27%
Fundamental completo
16,4%
Médio incompleto
8,7%
Médio completo
29,5%
Superior incompleto
3,8%
Superior completo
14,7%
Com base nos dados acima, construa o gráfico mais indicado para essa
representação.
7) A bolsa na vida dos brasileiros. O bom momento da economia e os recordes da
Bovespa fazem aumentar o número de investidores. Veja os dados abaixo extraídos
da revista Exame do mês de Abril de 2007.
Ano
Pessoa física (em milhares)
2000
76,5
2001
75
2002
85
2003
85,5
2004
117
2005
155
2006
219,5
2007
245
Com base nos dados da tabela acima responda:
a) Qual a representação gráfica mais indicada para representação dessa tabela.
Justifique sua resposta e construa o gráfico.
b) Qual foi o aumento percentual do número de investidores nos últimos sete anos?
8) Melhores empresas para os executivos trabalharem; esse é o resultado de uma
pesquisa com base em 8287 respostas de supervisores, gerentes e diretores das
150 empresas classificadas pela VOCÊ-S/A – EXAME. Vejam abaixo as cinco
empresas com maior número de funcionários, total de executivos e o índice de IFT
(índice de felicidade no trabalho).
EMPRESA
Caixa Econômica Federal
Bradesco
ABN Amro Real
Maganize Luiza
Bunge Alimentos
Total de
Funcionários
68257
61348
28135
8165
5317
Total de
Executivos
13933
17486
4083
904
826
IFT
67,02
73,00
77,81
79,89
64,62
Com base nos dados acima responda:
a) Qual a representação gráfica mais indicada para cada uma das variáveis
(Total de funcionário, total de executivos e IFT)? Justifique sua resposta.
b) Construa o gráfico do problema acima.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
CAPÍTULO 6
Medidas de Posição
6.1 - OBJETIVO DO CAPÍTULO
Este capítulo te como objetivo considerar várias medidas estatísticas que
fornecem uma medida de tendência central de um conjunto de dados. Interpretar
essas medidas e utilizá-las para localizar a maior concentração de valores de uma
distribuição, isto é, se ela se localiza no início, no meio ou no final, ou ainda se há
uma distribuição por igual.
6.2 INTRODUÇÃO
As medidas de posição são aquelas que podem ser identificadas no eixo das
abscissas. As medidas de tendência central visam fornecer ao pesquisador
informações representativas do núcleo das observações de um fenômeno relativo a
qualquer campo da atividade administrativa, econômica, contábil, social e
psicológica. Também é importante saber como os dados se espalham ou quão
variadas são as observações e as estatísticas utilizadas para fazer isso; geralmente
são chamadas de medidas de dispersão, que veremos no capítulo posterior.
Pesquisadores em muitos campos têm usado o termos “média” em questões
tais como qual a renda média de universitários já graduados? Quantos fumam em
média, o adolescente? Qual a nota média de uma universitária? Em média, quantos
são os acidentes automobilísticos que resultam diretamente da ingestão de bebidas
alcoólicas, ou drogas?
Uma forma útil de descrever um grupo como um todo consiste em encontrar
um único número que represente o que é “médio” naquele conjunto particular de
dados. Em pesquisa tal valor é conhecido por media de tendência central, uma vez
que ela geralmente se localiza em torno do meio ou centro de uma distribuição, onde
a maior parte dos dados tende a se concentrar-se.
A idéia que o leigo faz do termo “média” é quase sempre vaga e mesmo
confusa. A concepção do pesquisador é muito mais precisa do que a do público em
geral; ela expressa numericamente como uma das várias espécies de “medidas
médias” ou de tendência central que, para um mesmo conjunto de dados, pode
assumir diferentes valores. Somente as três medidas de tendência central mais
conhecida são aqui discutidas: a média aritmética, a mediana e a moda,
6.3 - MEDIDAS SIMPLES DE TENDÊNCIA CENTRAL
Média Aritmética: A média aritmética é o ponto de equilíbrio de um conjunto
numérico. Ela é o ponto de sustentação de um conjunto, sendo definida, como o
valor de melhor representatividade de um conjunto.
Mediana: A mediana é uma medida de tendência central que determina um
valor que divide um conjunto numérico, e duas partes iguais. Praticamente, é a
46
posição abaixo ou acima da qual se situam 50% dos casos. Dividindo-se um
conjunto em duas partes iguais, aquela parte central é denominada mediana.
Moda: A moda é uma medida de tendência central definida como o valor de
maior freqüência. A moda é aquele valor que mais se repete dentre os diversos
valores de um conjunto. A moda é o valor preponderante, o valor dominante de um
conjunto. Pode-se haver um rol que não possua moda como também pode haver um
que possua mais de uma moda, mas toda a filosofia dos estatísticos está em
conjuntos uni modais.
6.3.1 MÉDIA ARITMÉTICA SIMPLES
A média aritmética simples de número não tabulados é definida como o
quociente entre a soma destes números e a sua quantidade. A média aritmética é
representada por X , que lê-se “x barra”.
Sejam os valores x1,x2,...,xn então se defini a média aritmética deste
conjunto como a razão existente entre a soma destes valores e a sua
quantidade, desta maneira temos:
X =
x1 + x 2 + ... + x n
=
n
∑x
i
n
Onde xi representa cada um dos valores do conjunto e n a quantidade de números.
Observe que a média aritmética de um conjunto, multiplicada pelo tamanho da
amostra, é igual à soma dos valores deste conjunto e n representa o tamanho da
amostra.
Exemplo 1: A variável aleatória X assume os seguintes valores 5, 7, 8, 10 e 15e a
variável aleatória Y assume os valores 4, 7, 11, 15, 20, e 21. Determine a média
aritmética de cada uma dessas variáveis.
6.3.2 - MEDIANA SIMPLES
A mediana Md é uma medida de tendência central cuja definição é um valor
que se localiza na posição central tal que 50% dos valores são menores que a
mediana, e os demais 50% são maiores.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
47
Depois de ordenar os n valores da variável de forma crescente, a Md é
determinada de acordo com o tipo de n:
• Se n for um número ímpar, a Md será o valor da variável situado na
(n + 1)
posição
.
2
• Se n for um número par, a Md será igual ao resultado da divisão por
⎛n⎞ ⎛n⎞
dois da soma dos valores das posições ⎜ ⎟ e ⎜ ⎟ + 1 . Nesse caso, a
⎝2⎠ ⎝2⎠
mediana poderá não ser um valor da variável.
Exemplo 2: Determine a mediana da variável aleatória que assume os seguintes
valores 2, 5, 10, 9, 6, 8 e 4.
Exemplo 3: Determine a mediana da variável aleatória que assume os seguintes
valores 1, 3, 5, 6, 7 e 8.
6.3.3 MODA SIMPLES
No caso de dados isolados ou simples, a moda (Mo)é aquele valor de
maior freqüência, valor preponderante, valor dominante, dentre os diversos
valores de um conjunto.
Exemplo 4: Determine a moda do conjunto de dados de valores: 2, 2, 5, 6, 7, 9, 9, 9,
10, 10, 11, 12 e 18.
Exemplo 5: Determine a moda do conjunto de dados de valores: 2, 2, 2, 5, 6, 7, 9, 9,
9, 10, 10, 11, 12 e 18.
6.4 - MEDIDAS PONDERADAS DE TENDÊNCIA CENTRAL
6.4.1 - Média Aritmética Ponderada
Se os valores x1,x2,...xn ocorrem com freqüências f1,f2,...fn vezes,
respectivamente, a média aritmética ponderada deste conjunto é dada por:
X =
f1 x1 + f 2 x 2 + " + f n x n
=
f1 + f 2 + " + f n
∑fx
i
n
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
i
48
Exemplo 6: Os valores 5, 8, 6 e 2 ocorrem com freqüências 3, 2,4 e 1,
respectivamente. Calcule a média aritmética destes valores.
Exemplo 7: Você foi encarregado de comprar vários lotes para construir a sede de
sua empresa. Você conseguiu comprar 8 lotes à $70.000,00 cada, depois 15 à
$90.000,00 cada e por fim 7 lotes à $100.000,00 cada. Qual é o preço médio de um
lote?
Exemplo 8: A tabela abaixo define a distribuição das vendas das diversas filiais da
Empresa Batuilk, Fevereiro de 2004, Minas Gerais, em milhões de reais. Calcule o
faturamento médio da empresa.
Vendas por filiais Empresa Batuilk
FEV/2004 – BH – Em milhões de reais.
Vendas
fi
xi
6 I─ 14
3
10
14 I─ 23
7
19
23 I─ 32
9
28
32 I─ 41
5
37
41 I─ 50
4
46
Total
28
6.4.2 – Mediana nas Distribuições de Freqüências
Se o número total de freqüências for n, a mediana será um número tal
que 50% dos valores de n, caiam abaixo dele e 50% acima dele. A mediana vai
dividir o nosso conjunto de observações em duas partes iguais. Para determinar
a classe que contém a mediana, basta verificar qual é a primeira classe cuja
freqüência acumulada crescente contém 50% dos casos, isto é, 50% de n, e
através da fórmula:
Md = l ir +
50%n − Faca
.h
fi
Onde:
lir = limite inferior real
f i = freqüência de classe
n = tamanho da amostra
Faca = Freqüência acumulada anterior à classe que contém a mediana
h = Intervalo de classe
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
49
Exemplo 9: No primeiro trimestre de 2004, a empresa Mares do Sul realizou 80
importações, cujos valores estão registrados na tabela a seguir, expressos em
milhões de dólares.
IMPORTAÇÕES REALIZADAS – EMPRESA MARES DO SUL
1° TRIMESTRE DE 2004 - PARANÁ - MILHOES DE DÓLARES.
Importações
150 I─ 170
170 I─ 190
190 I─ 210
210 I─ 230
230 I─ 250
250 I─ 270
270 I─ 290
Total
fi
8
12
20
16
12
8
4
80
fac
8
20
40
56
68
76
80
Determine a importação mediana, isto é, qual é o valor onde abaixo dele ou acima
dele encontraremos 50% das importações.
6.4.3 – Moda nas Distribuições de Freqüências
Em uma distribuição de freqüências, a moda se encontra na classe de
maior freqüência simples ou relativa. Neste caso, a moda é calculada pela
fórmula de Czuber ou de King. Pela fórmula de Czuber, a moda é definida por:
Mo = l ir +
Δ1
.h
Δ1 + Δ 2
Onde:
lir = limite inferior real da classe modal
Δ 1 = Diferença entre a freqüência modal e a freqüência da classe imediatamente
anterior à classe modal: Δ1 = f m − f a
Δ 2 = Diferença entre a freqüência modal e a freqüência da classe imediatamente
posterior à classe modal: Δ1 = f m − f p
h = Intervalo de classe modal
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
50
Exemplo 10: Determinar o valor modal das exportações realizadas pela Empresa
Mares do Sul, no primeiro trimestre de 2004, conforme a tabela acima dada.
6.5 - ANÁLISE DAS MEDIDAS DE TENDÊNCIA CENTRAL.
Embora a média, mediana e moda sejam medidas importantes de tendência central
por serem fácies de serem obtidas e úteis para obter informações sobre uma
amostra, elas devem ser utilizadas de acordo com a análise desejadas.
Analisaremos primeiro, as principais vantagens e desvantagens dessas medidas.
MODA
Vantagens
Desvantagens
Fácil de calcular
Pode ser afastada do centro dos dados.
Não é afetada pelos dados extremos da Difícil de incluir em funções matemáticas
amostra
Pode ser aplicada em qualquer escala: Não utiliza todos os dados da amostra.
nominal,
ordinal,
intervalar
e
proporcional.
A mostra pode ter mais de uma moda
Algumas amostras podem não ter moda.
MEDIANA
Vantagens
Fácil de calcular.
Desvantagens
Difícil
de
incluir
em
funções
matemáticas.
Não é afetada pelos dados extremos da Não utiliza todos os dados da amostra.
amostra.
É um valor único.
Pode ser aplicada nas escalas: ordinal,
intervalar e proporcional.
MÉDIA
Vantagens
Fácil de compreender e aplicar.
Utiliza todos os dados da amostra.
Desvantagens
É afetada pelos dados extremos da
amostra.
É necessário conhecer todos os dados
da amostra.
É um valor único.
Fácil de incluir em funções matemáticas.
Pode ser aplicada nas escalas:
Intervalar e proporcional.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
51
6.6 - EXERCÍCIOS POSPOSTOS
1) Encontre a nota média dos alunos mostrados na tabela abaixo
Notas
Nº. de
alunos
3,0
2
4,0
3
5,0
10
6,0
15
7,0
10
8,0
6
9,0
4
10
3
2) Encontre a moda das notas dos alunos mostrados na tabela abaixo
Notas
Nº. de
alunos
3,0
2
4,0
3
5,0
10
6,0
15
7,0
10
8,0
6
9,0
4
10
3
3) Calcule a média, moda e mediana da distribuição abaixo:
Classes ( i )
41
45
45
49
49
53
53
57
57
61
Freqüências ( fi )
7
3
4
1
5
Σ = 20
xi
Fi
fi xi
Σ=
4) Dada a distribuição abaixo, calcule a média, a moda e a mediana.
.
i
Estaturas (cm)
fi
xi
Fi
fi xi
1
2
3
4
5
6
150
154
158
162
166
170
154
158
162
166
170
174
5) Dada a distribuição abaixo:
.
i
Estaturas (cm)
1
150
154
2
154
158
3
158
162
4
162
166
5
166
170
6
170
174
4
9
11
8
5
3
Σ = 40
fi
6
8
10
15
12
8
Σ = 60
Σ=
xi
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
Fi
fi xi
Σ=
52
Calcule:
a) a média;
b) a moda;
c) a mediana;
6) A média aritmética de um grupo de 120 pessoas é de 40 anos. Se a média
aritmética das idades das mulheres é de 35 anos e dos homens é de 50 anos,
qual o número em porcentagem de pessoas do sexo feminino?
7) Ao escrever as notas de 10 alunos, o professor omitiu uma nota, achando uma
média igual a 6,8. As notas foram: 4,0; 4,5; 5,0; 6,0; 6,0; 7,0; 7,5; 8,0; 8,5.
Calcule a nota omitida.
8) No mês de Janeiro, a Empresa Atlântico Norte realizou quinze exportações,
cujos valores foram de 12, 14, 16, 16, 18, 18, 20, 20, 20, 20, 20, 22, 24, 25
milhões de dólares. As experiências mostram que os meses de janeiro, fevereiro
e março envolvem 20%, 30% e 50% das exportações do trimestre. Por outro
lado, os 1°, 2°, 3° e 4° trimestre participam com 15%, 20%, 25% e 40% das
exportações do ano.
a) Calcule a exportação média, mediana e modal desta Empresa, em Janeiro.
b) Calcule as perspectivas de exportação para os meses de fevereiro e março.
c) Calcule as tendências das exportações para os 1°, 2°, 3° e 4° trimestres.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
CAPÍTULO 7
Medidas de Dispersão ou de Variabilidade
7.1 - OBJETIVO DO CAPÍTULO
Este capítulo te como objetivo considerar várias medidas estatísticas que
fornecem uma medida de dispersão de um conjunto de dados. Interpretar essas
medidas e saber como esses dados se espalham ou o quão são variadas as
observações e as estatísticas utilizadas para fazer isso; geralmente são chamadas
de medidas de dispersão ou de variabilidade.
7.2 – INTRODUÇÃO
Quase nunca uma única medida é suficiente para descrever de modo
satisfatório um conjunto de dados. Tomemos como exemplo a caso da média
aritmética, que é uma medida de locação, ou seja, de tendência central, largamente
empregada, e consideremos os dois conjuntos de observações dados por:
A = {25,28,31,34,37} e
B = {17,23,30,39,46}
Qual a média aritmética dos dois conjuntos?
Observação: O conjunto B apresenta maior dispersão de dados que o conjunto A.
Torna-se então necessário estabelecer medidas que indiquem o grau de dispersão
ou variabilidade, em relação ao valor central.
7.3 – VARIÂNCIA - DESVIO PADRÃO
A variância e o desvio-padrão são medidas de dispersão mais normalmente
aplicadas e relacionam-se uma com a outra, já que a variância é o desvio padrão ao
quadrado. A variância considera a posição de cada observação em relação ao valor
médio do conjunto de dados, e define-se como a média do quadrado do desvio em
relação à média.
Como com a média, para certos cálculos, saber se os dados são provenientes
de uma população ou de uma amostra é vital.
54
Agora, dois símbolos separados serão utilizados:
σ 2 (variância) e σ
•
(desvio-padrão) indicam que os dados são
provenientes de uma população;
• s 2 (variância) e s (desvio-padrão) indicam que os dados provêm de uma
amostra.
σ é a letra grega sigma.
7.3.1 - Fórmulas para o cálculo da variância e desvio padrão.
σ
2
∑ (x − μ )
=
2
n
Onde μ é a média da população e n é o tamanho da população.
Podemos reescrever essa fórmula de outra maneira, para simplificar o cálculo.
Vejamos:
σ
2
∑x
=
2
n
⎡∑ x⎤
−⎢
⎥
⎣⎢ n ⎥⎦
2
Se os dados estiverem agrupados em uma tabela de distribuição de freqüência, a
fórmula será levemente corrigida para se tornar:
σ2
∑ fx
=
n
2
⎡ ∑ fx ⎤
−⎢
⎥
⎣⎢ n ⎦⎥
2
Podemos facilmente calcular o desvio padrão para uma população da seguinte
forma:
σ = σ2
Os dados que se originam de uma amostra (por razões práticas) geralmente
são utilizadas para fornecer uma estimativa do que acontece com a população
inteira.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
55
Ao calcular a variância de dados que se originam de uma amostra, a fórmula
da variância da população é utilizada e um ajuste é feito ao valor resultante para
encontrar a variância da amostra. Veja como pode ser feito esse ajuste:
⎛ n ⎞ 2
s2 = ⎜
⎟.σ
⎝ n −1⎠
7.4 – SIGNIFICADO DO DESVIO PADRÃO
O desvio padrão depende da soma dos quadrados dos desvios dos dados da
variável com relação a sua média. Portanto, quanto menor for o desvio padrão, mais
valores da variável se aproximarão da média. Analisando a expressão do desvio
padrão, podemos chegar a conclusões importantes:
•
Qualquer dado da amostra ou variável com desvio menor dói que o desvio
padrão da variável estará mais próximo da média do que qualquer outro valor
com desvio maior;
•
Quanto mais dados se afastarem da média, maior serão os desvios e,
consequentemente, maior será o desvio padrão da variável;
•
Duas variáveis com média iguais e desvios padrão diferentes têm
distribuições de freqüência com formas diferentes. A distribuição da variável
com maior desvio padrão será mais aberta do que a da variável com menor
desvio padrão.
Exemplo1:
Dado o seguinte conjunto de tempos de reação (em segundos) de seis indivíduos a
um estímulo.
{4,2,3,3,6,3}
Calcule a média, a variância e o desvio padrão dessa amostra.
Exemplo 2:
Consideremos a seguinte distribuição de idades de 200 homens em
determinada situação. Calcule a média, a variância e o desvio padrão dessa
amostra.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
56
Distribuição de freqüência das idades de 200 homens
Classes (anos)
xi
ni
xi2
xi ni
xi2 ni
14,5 6 19,5
19,5 6 24,5
24,5 6 29,5
29,5 6 34,5
34,5 6 39,5
Total
17
22
27
32
37
18
74
62
26
20
200
289
484
729
1024
1369
306
1628
1674
832
740
5180
5202
35816
45198
26624
27380
140220
No contexto de um único conjunto de dados, o desvio padrão pode ser
interpretado intuitivamente como uma unidade natural de dispersão de dados. Essa
interpretação é utilizada na construção de “escores padronizados”, de larga
utilização em medidas educacionais.
Em uma escala de 0 a 10, a nota 6 em uma prova que a nota máxima foi 6 é
muito mais que a mesma nota 6 em uma prova em que a nota máxima foi 9. Um
forma de captar essa diferença é considerar a nota do aluno como a sua posição
relativa no grupo, e é medida por:
Zi =
xi − x
s
Onde Z, é chamado de “escore padronizado”.
Observação:
1. Comparando a nota do aluno com a média do grupo, estamos considerando o
afastamento da nota em relação à média.
2. Ao dividirmos aquela diferença pelo desvio padrão, estamos tomando o
desvio como a unidade padrão de medida. Daí o surgimento do nome desvio
padrão.
Exemplo 3:
Em uma turma de nove alunos, as notas em matemática e história foram as
seguintes:
N° do aluno
Matemática
História
1
6
7
2
4
8
3
5
9
4
7
10
5
8
6
6
3
7
7
5
8
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
8
5
9
9
7
5
57
O aluno de número 6 saiu-se relativamente melhor em história ou matemática?
⎧ x = 5,56
⎧ x = 7,67
Matemática⎨
História ⎨
⎩ s = 1,59
⎩ s = 1,58
O aluno de número 6 teve nota inferior à média em ambas as disciplinas.
Matemática: Z =
3 − 5,56
= −1,61
1,59
História: Z =
7 − 7,67
= −0,42
1,58
O aluno de número 6 saiu-se melhor em História, pois seu “escore padronizado” foi
de − 0,42 que é maior que − 1,61 .
Observação: Um escore Z i negativo indica que a observação x i está à esquerda da
média, enquanto um escore positivo indica que a observação está à direita da
média.
Pergunta-se:
O aluno de número 7 saiu-se relativamente melhor em história ou matemática?
7.5 – OUTLIERS
Nos trabalhos de coleta de dados, podem ocorrer observações que fogem das
dimensões esperadas – os outliers. Para detectá-los, pode-se calcular o escore
padronizado (Z i ) e considerar outliers as observações cujos escores, em valor
absoluto (em módulo), sejam maiores do que 3.
Exemplo 4: Os dados de uma pesquisa revelaram média igual a 0,243 e desvio
padrão de 0,052 para determinada variável. Verificar se os dados 0,380 e 0,455
podem ser considerados observações da referida variável.
Solução:
x = 0,243 e s = 0,052
Logo temos:
0,380 − 0243
= 2,63
0,052
0,455 − 0243
= 4,08
Para x = 0,455 um escore padronizado de Z =
0,052
Desta maneira podemos ver que o dado 0,380 pode ser considerado normal, por
outro lado, 0,455 pode ser considerado um outliers, portanto descartável.
Para x = 0,380 um escore padronizado de Z =
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
58
7.6 – COEFICIENTE DE VARIAÇÃO DE PEARSON
Muitas vezes é conveniente exprimir a variabilidade em termos relativos
(porcentagem). Então, toma-se uma medida relativa de variabilidade, comparando o
desvio padrão com a média. Essa medida recebe o nome de coeficiente de variação,
e é denotada por:
cv =
s
x
Exemplo 4:
Testes de resistência à tração, aplicados os dois tipos de aços deram os seguintes
resultados:
Tipo 1: x = 27,45kg / mm 2 s = 2,0 Kg / mm 2
s = 17,25Kg / mm 2
Tipo 2: x = 147 Kg / mm 2
Coeficiente de variação é dado por:
cv1 =
2
= 0,0729 = 7,29%
27,45
cv 2 =
17,25
= 0,1173 = 11,73%
147
Conclui-se que, embora menos resistente, o Tipo 1 se apresenta relativamente mais
estável que o Tipo 2.
7.7 – ASSIMETRIA E CURTOSE
A média e o desvio padrão definem muito bem uma distribuição. A assimetria
e a curtose acrescentam informações a esta descrição.
7.7.1 – ASSIMETRIA
Uma distribuição é simétrica quando o eixo que passa pela média divide em
duas partes simetricamente iguais; caso contrário, fala-se assimetria.
Podem apresentar três casos, conforme se observa na figura abaixo.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
59
Para o calculo do coeficiente de assimetria existem diversos procedimentos.
Utilizaremos a seguinte fórmula para o cálculo do coeficiente de assimetria:
⎛ xi − x ⎞
n
⎜
⎟
As =
∑
(n − 1)(n − 2) ⎜⎝ s ⎟⎠
3
O processo mecânico para o cálculo deste coeficiente é muito trabalhoso, no
entanto pode ser feito por pacotes estatísticos ou com o auxílio do Excel. O que
interessa mais aqui é conhecer a interpretação deste coeficiente:
•
•
•
As > 0 Assimetria positiva. Significa valores concentrados à esquerda da
média. Como é mostrado na curva A da figura acima.
As = 0 Simetria perfeita. Os valores estão distribuídos de forma normal
em torno da média. Como é mostrado na curva B da figura acima.
As < 0 Assimetria negativa. Significa valores concentrados à direita da
média. Como é mostrado na curva C da figura acima.
7.7.2 – CURTOSE
A curtose é o grau de achatamento da parte central de uma distribuição.
Também como na assimetria podem ocorrer três casos, como mostra a figura
abaixo.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
60
O cálculo deste coeficiente é dado da seguinte maneira:
2
⎛ xi − x ⎞
3(n − 1)
n(n + 1)
⎜
⎟
C=
−
(n − 1)(n − 2)(n − 3) ∑ ⎝⎜ s ⎟⎠ (n − 2)(n − 3)
4
O processo mecânico para o cálculo deste coeficiente também é muito
trabalhoso, no entanto pode ser feito por pacotes estatísticos ou com o auxílio do
Excel. O que interessa mais aqui é conhecer a interpretação deste coeficiente:
•
•
•
C > 0 Curtose positiva. Significa que a curva A é mais “afunilada” que a
normal padrão. Como mostra a figura acima.
C = 0 Curtose perfeita. Significa que temos a curva normal padrão (mais
detalhes sobre esta curva serão vistos em capítulos posteriores). A curva
normal padrão é mostrada na curva B da figura acima.
C < 0 Curtose negativa. Significa que a curva C é mais “achatada” do que
a curva normal padrão. Como mostra a figura acima.
7.8 - EXERCÍCIOS DE PROPOSTOS
1. Calcule a média, a moda, a mediana, variância e desvio padrão da distribuição
de freqüência a seguir, que representa o número de erros cometidos por dia pelo
sistema de computador de um departamento contábil, registrados por um período
de 100 dias.
Erros
Dias
0
15
1
18
2
19
3
19
4
10
5
8
6
7
7
2
8
1
9
1
2. O fabricante de solventes químicos JFS registra dados de todos os funcionários
relacionados ao número de anos em que eles estão na empresa. Isso se
encontra na tabela a seguir.
Anos de serviço
065
5 6 15
15 6 25
25 6 35
35 6 50
Número de funcionários
105
231
173
85
31
Determine a média e o desvio padrão do número de anos de serviço na empresa.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
61
3. Foi feito um estudo em um shopping center de BH no qual se perguntou a 81
pessoas quanto elas gastavam em artigos de luxo por semana. O resultado é
apresentado na tabela a seguir. Calcule a média e o desvio padrão dos gastos.
Valor (R$)
0 6 15
15 6 25
25 6 40
40 6 60
60 6 80
Número de participantes
10
20
25
15
11
4. Em cinco testes, um estudante obteve média de 63,2 com desvio padrão 3,1.
Outro estudante teve média de 78,5 com desvio padrão de 5,5. Qual dos dois é
mais consistente?
5. Dois grupos de pessoas acusavam os seguintes dados:
Grupo
A
B
Peso Médio (kg)
66,5
72,9
Desvio Padrão (kg)
6,38
7,75
Se nesses dois grupos há pessoas que pesam, respectivamente, 81,2 Kg e 88 Kg ;
qual delas revela maior excesso relativo de peso?
6. Por engano, um professor omitiu uma nota no conjunto de notas de 10 alunos.
Se as nove notas restantes são 48, 71, 79, 95, 45, 57, 75, 83, 97 e a média das
10 notas é 72, calcule:
a) o valor da nota omitida;
b) o desvio padrão do conjunto de notas dos 10 alunos.
7. Dada a tabela abaixo:
Estaturas (cm)
150 6 154
154 6 158
158 6 162
162 6 166
166 6 170
170 6 174
Total
Calcule:
a) Desvio padrão
xi
xi2
ni
xi ni
xi2 ni
4
9
11
8
5
3
b) Coeficiente de variação.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
Capítulo 8
Amostragem
8.1- OBJETIVO DO CAPÍTULO
O objetivo desse capítulo é de apresentar ferramentas que possibilitam o
cálculo do tamanho da amostra de populações finitas e infinitas.
8.2 – INTRODUÇÃO
Geralmente as pesquisas são realizadas por meio de estudos que compõem
uma mostra extraída da população que se pretende analisar. O conceito de
população é bem intuitivo, sabemos de capítulos anteriores que se trata de um
conjunto de indivíduos ou objetos que apresentam em comum determinadas
características definidas para o estudo. Amostra é um subconjunto da população.
Tais conceitos foram vistos em capítulos anteriores. Na realização de qualquer
estudo, quase nunca é possível examinar todos os elementos da população de
interesse. Por exemplo, para responder à pergunta “Qual a idade média da frota de
ônibus de Belo Horizonte?”, por várias razões inclusive as de custo operacional
nunca poderíamos obter a idade de todos os ônibus.
É errôneo pensar que, caso tivéssemos acesso a todos os elementos da
população seríamos mais precisos. Os erros em processos de coletas de coleta e
manuseio de um grande número de dados geram imprecisões não-mensuráveis no
resultado final do trabalho.
Em se tratando de amostra, a preocupação central é de que ela seja
representativa. Existem alguns procedimentos, descritos sucintamente nas próximas
seções, que garantem, quando usados apropriadamente, essa propriedade. Ao
descrevê-los estaremos sempre tratando de escolher uma amostra de tamanho n
em uma população de tamanho N .
8.3 – POPULAÇÃO-ALVO
A população-alvo é a população sobre a qual vamos fazer inferências baseadas na
amostra. A especificação da população-alvo pode parecer trivial, mas na verdade e
que, em todos os levantamentos, aparecem casos dúbios em que exigem atenção
especial. No caso da pergunta da introdução, provavelmente não estamos
interessados em todos os ônibus, mas apenas naqueles das linhas regulares de
transporte de passageiros. Isso exclui, por exemplo, os ônibus escolares. Uma
causa freqüente de levantamentos ruins é a falta de clareza na definição da
população-alvo.
8.4 – CARACTERÍSTICAS DE INTERESSE
Caracterizada a população-alvo, o próximo passo é escolher as características que
iremos medir. Aqui, o erro freqüente é querer incluir muitas características. A
qualidade da mensuração cai com o aumento do número de perguntas. Devemos,
63
portanto, fixa-nos apenas em perguntas que contribuam para a quantificação da
característica populacional de real interesse para o estudo.
8.5 – TAMANHO DA AMOSTRA PARA ESTIMAR A MÉDIA UMA POPULAÇÃO
INFINTA
Procedimento:
1º) Analise o questionário, ou roteiro da entrevista, e escolha a variável intervalar
mais importante para o estudo. Se possível escolha mais do que uma variável.
Calcule o tamanho para cada variável, escolhendo o maior n .
2º) Se a variável escolhida for intervalar 1 e a população considerada infinita você
poderá determinar o tamanho da amostra pela fórmula:
⎛ Z .σ ⎞
n=⎜
⎟
⎝ d ⎠
Onde: Z =abscissa da distribuição normal padrão, fixado um nível de (1 − α ) %
confiança.
Se o nível for de 95,5%, Z = 2 .
Se o nível for de 95%, Z = 1,96 .
Se o nível for de 99%, Z = 2,57 .
Para outros valores, consultar a tabela de distribuição normal.
σ = Desvio padrão da população, expresso na unidade variável. Você poderá avaliálo de, pelo menos, uma das três maneiras:
• Especificações técnicas
• Resgatar o valor de estudos semelhantes
• Fazer conjecturas com base em amostras piloto
2
d = Erro amostral expresso na unidade da variável. O erro amostral é a máxima
diferença que o investigador admite suportar entre μ e x , isto é: μ − x ≤ d , onde
μ é a verdadeira média populacional e x será a média a ser calculada com base na
amostra.
n = Tamanho da amostra aleatória simples a ser selecionada da população.
Exemplo 1: Suponha que a variável escolhida em um estudo seja o peso de certa
peça e que a população seja infinita. Pelas especificações do produto, o desvio
padrão é de 10 kg. Logo admitindo um nível de confiança de 95,5% e um erro
amostral de 1,5kg, temos:
1
Trata-se de uma escala verdadeiramente quantitativa com possibilidades de aplicação a todas as estatísticas
paramétricas comuns. São exemplos de variáveis como nível intervalar: peso, altura, volume, etc.
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
64
σ = 10Kg
d = 1,5 Kg
(1 − α ) % = 95,5%
ou seja; Z = 2
2
⎛ 2.10 ⎞
n=⎜
⎟ = 177, 77 ≅ 178 peças
⎝ 1,5 ⎠
Com uma amostra aleatória simples de 178 peças, tem-se um erro máximo de 1,5Kg
para o peso médio, com nível de confiança de 95,5%.
8.6 – TAMANHO DA AMOSTRA PARA ESTIMAR A MÉDIA DE UMA
POPULAÇÃO FINITA
Procedimento:
1º) Analise o questionário, ou roteiro da entrevista, e escolha a variável intervalar
mais importante para o estudo. Se possível escolha mais do que uma variável.
Calcule o tamanho para cada variável, escolhendo o maior n .
2º) Se a variável escolhida for intervalar e a população considerada finita você
poderá determinar o tamanho da amostra pela fórmula:
Z 2 .σ 2 .N
n= 2
d ( N − 1) + Z 2σ 2
Onde:
Z = Abscissa da normal padrão
σ = Desvio padrão da população
N = Tamanho da população
d = Erro amostral
n = Tamanho da amostra aleatória simples a ser selecionada da população.
Exemplo 2: Suponha os mesmos dados do exemplo anterior e uma população finita
de 600 peças.
σ = 10Kg
d = 1,5 Kg
(1 − α )% = 95,5% ou seja, Z = 2
N = 600
Logo, temos:
n=
22.102.600
= 137,10 ≅ 138
1,52 (600 − 1) + 22.102
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
65
Com uma amostra aleatória simples de 138 peças, tem-se um erro máximo de 1,5Kg
para o peso médio, com nível de confiança de 95,5% considerando uma população
de 600 peças.
.
8.7 – TAMANHO DA AMOSTRA PARA ESTIMAR A PROPORÇÃO (p) DE UMA
POPULAÇÃO INFINITA
Se a variável escolhida for nominal ou ordinal e a população considerada infinita,
você poderá determinar o tamanho da amostra pela fórmula:
Z 2 .l
p.q
n=
d2
Onde:
Z = Abscissa da normal padrão
lp = Estimativa da verdadeira proporção de um dos níveis da variável escolhida. Por
exemplo, se a variável escolhida for porte da empresa, p poderá ser a estimativa da
verdadeira proporção de grandes empresas do setor que está sendo estudado.
Será expresso em decimais. Assim, se lp = 30% , teremos: lp = 0,30 . Caso não haja
estimativas prévias para lp , admita lp = 50% , obtendo assim o maior tamanho de
amostra possível considerando constantes os valores de d e Z .
q = 1 − lp ;
d = Erro amostral expresso em decimais. O erro amostral nesse caso será a máxima
diferença que o investigador admite suportar entre p e lp , isto é: p − lp ≤ d em que
p é a verdadeira proporção e lp será a proporção (freqüência relativa) do evento a
ser estudado com base na amostra.
n = Tamanho da amostra aleatória simples a ser selecionada da população.
Exemplo 3: Suponha que a variável escolhida em um estudo seja a proporção de
eleitores favoráveis ao candidato X e que o investigador tenha elementos para
suspeitar que essa porcentagem seja de 30%. Admita a população infinita, um nível
de confiança de 99% e um erro amostral de 2% (ou seja: que a diferença entre a
verdadeira proporção de eleitores do candidato X e a estimativa a ser calculada na
amostra seja no máximo de 2%). Assim, temos:
(1 − α )% = 99%
Z = 2,57
lp = 30% = 0,30
q = 1 − 30 = 0, 70
d = 2% = 0, 02
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
66
(2,57) 2 .(0,30).(0, 70)
= 3.467,57 ≅ 3.468
(0, 02)2
Ou seja, consultando, aleatoriamente, 3.468 eleitores, poderemos inferir sobre a
verdadeira proporção de eleitores do candidato X, com erro máximo de 2%.
n=
8.8 – TAMANHO DA AMOSTRA PARA ESTIMAR A PROPORÇÃO (p) DE UMA
POPULAÇÃO FINITA.
Se a variável escolhida for nominal ou ordinal e a população finita, temos:
n=
Z 2 .l
p.q .N
d 2 ( N − 1) + Z 2 .l
p.q
Onde:
N = Tamanho da amostra
Z = Abscissa da normal padrão
lp = Estimativa da proporção
q = 1 − lp ;
d = Erro amostral
n = Tamanho da amostra aleatória simples a ser selecionada da população.
Exemplo 3: Suponha os mesmos dados do exemplo anterior e que a população de
eleitores seja finita de 20.000 eleitores. Logo:
n=
(2,57) 2 .(0,30).(0, 70).(20.000)
= 2.955,33 ≅ 2.956
(0, 02) 2 .(20.000 − 1) + (2,57) 2 (0,30).(0, 70)
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
67
TABELA - Distribuição Normal Padrão Z~N(0,1)
P(0 ≤ Z ≤ zc)
zc
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0
0,1
0,2
0,3
0,4
0,0000
0,0398
0,0793
0,1179
0,1554
0,0040
0,0438
0,0832
0,1217
0,1591
0,0080
0,0478
0,0871
0,1255
0,1628
0,0120
0,0517
0,0910
0,1293
0,1664
0,0160
0,0557
0,0948
0,1331
0,1700
0,0199
0,0596
0,0987
0,1368
0,1736
0,0239
0,0636
0,1026
0,1406
0,1772
0,0279
0,0675
0,1064
0,1443
0,1808
0,0319
0,0714
0,1103
0,1480
0,1844
0,0359
0,0753
0,1141
0,1517
0,1879
0,5
0,6
0,7
0,8
0,9
0,1915
0,2257
0,2580
0,2881
0,3159
0,1950
0,2291
0,2611
0,2910
0,3186
0,1985
0,2324
0,2642
0,2939
0,3212
0,2019
0,2357
0,2673
0,2967
0,3238
0,2054
0,2389
0,2704
0,2995
0,3264
0,2088
0,2422
0,2734
0,3023
0,3289
0,2123
0,2454
0,2764
0,3051
0,3315
0,2157
0,2486
0,2794
0,3078
0,3340
0,2190
0,2517
0,2823
0,3106
0,3365
0,2224
0,2549
0,2852
0,3133
0,3389
1,0
1,1
1,2
1,3
1,4
0,3413
0,3643
0,3849
0,4032
0,4192
0,3438
0,3665
0,3869
0,4049
0,4207
0,3461
0,3686
0,3888
0,4066
0,4222
0,3485
0,3708
0,3907
0,4082
0,4236
0,3508
0,3729
0,3925
0,4099
0,4251
0,3531
0,3749
0,3944
0,4115
0,4265
0,3554
0,3770
0,3962
0,4131
0,4279
0,3577
0,3790
0,3980
0,4147
0,4292
0,3599
0,3810
0,3997
0,4162
0,4306
0,3621
0,3830
0,4015
0,4177
0,4319
1,5
1,6
1,7
1,8
1,9
0,4332
0,4452
0,4554
0,4641
0,4713
0,4345
0,4463
0,4564
0,4649
0,4719
0,4357
0,4474
0,4573
0,4656
0,4726
0,4370
0,4484
0,4582
0,4664
0,4732
0,4382
0,4495
0,4591
0,4671
0,4738
0,4394
*0,4505
0,4599
0,4678
0,4744
0,4406
0,4515
0,4608
0,4686
0,4750
0,4418
0,4525
0,4616
0,4693
0,4756
0,4429
0,4535
0,4625
0,4699
0,4761
0,4441
0,4545
0,4633
0,4706
0,4767
2,0
2,1
2,2
2,3
2,4
0,4772
0,4821
0,4861
0,4893
0,4918
0,4778
0,4826
0,4864
0,4896
0,4920
0,4783
0,4830
0,4868
0,4898
0,4922
0,4788
0,4834
0,4871
0,4901
0,4925
0,4793
0,4838
0,4875
0,4904
0,4927
0,4798
0,4842
0,4878
0,4906
0,4929
0,4803
0,4846
0,4881
0,4909
0,4931
0,4808
0,4850
0,4884
0,4911
0,4932
0,4812
0,4854
0,4887
0,4913
0,4934
0,4817
0,4857
0,4890
0,4916
0,4936
2,5
2,6
2,7
2,8
2,9
0,4938
0,4953
0,4965
0,4974
0,4981
0,4940
0,4955
0,4966
0,4975
0,4982
0,4941
0,4956
0,4967
0,4976
0,4982
0,4943
0,4957
0,4968
0,4977
0,4983
0,4945
0,4959
0,4969
0,4977
0,4984
0,4946
0,4960
0,4970
0,4978
0,4984
0,4948
0,4961
0,4971
0,4979
0,4985
0,4949
0,4962
0,4972
0,4979
0,4985
*0,4951
0,4963
0,4973
0,4980
0,4986
0,4952
0,4964
0,4974
0,4981
0,4986
3,0
0,4987
0,4987
0,4987
0,4988
0,4988
0,4989
0,4989
0,4989
0,4990
0,4990
3,10 ou +
0,4999
NOTA: Para valores de Z acima de 3,09, use 0,4999 como área.
* Use esses valores comuns resultantes de interpolação:
Escore z
Área
1,645
0,4500
2,575
0,4950
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
68
EXERCÍCIOS PROPOSTOS
1) Dada a população (rendas em R$1.000,00)
29
8
30
31
13
10
32
5
34
26
6
15
4
20
19
21
17
12
22
25
34
24
16
12
30
18
15
32
30
22
12
22
21
18
17
7
13
21
48
30
15
35
14
12
25
16
8
10
19
33
31
31
21
25
29
14
12
30
12
14
34
25
16
26
25
11
23
30
8
17
20
26
18
13
28
22
25
10
7
13
8
20
20
10
32
21
13
14
15
10
30
10
12
5
15
36
21
17
20
9
a) calcule o tamanho da amostra para estimar a média, sendo d = R$2.000, 00 ,
σ = R$7.000, 00 e (1 − α )% = 95,5% ;
b) retire uma mostra aleatória simples; considerando o tamanho amostral obtido em
(a);
c) agrupe os elementos da amostra em classes;
d) calcule a média;
e) calcule o desvio padrão amostral;
f) calcule a media da população e verifique se μ − x ≤ d
2) Calcule o tamanho da amostra de colegas desta faculdade, para estimar a
proporção dos usuários de óculos. Admita três alternativas para o erro amostral e
nível de confiança 95,5%.
3) Sendo lp = q = 0,50 , população infinita, d = 0, 05 e (1 − α )% = 95,5% , determine o
tamanho amostral.
4) Sendo lp = q = 0,50 , população de 200.000, d = 0, 05 e Z = , determine o tamanho
amostral. Compare com o resultado do exercício anterior.
5) Qual o tamanho da mostra que o Departamento de Trânsito de uma grande
cidade deve tomar para estimar a porcentagem de semáforos defeituosos, se o
objetivo é ter 95,5% de confiança em não errar em mais de 3%?
6) Estudos anteriores mostram que o desvio padrão da altura dos homens que
cursam essa faculdade é de 10 cm. Querendo estimar a altura média de todos os
homens desta faculdade, com tolerância de 3 cm e probabilidade de 0,9555,quantas
observações deverão ser utilizadas?
Estatística - Teoria e Aplicações.
Prof. Anderson Dias Gonçalves
Download