Para dados agrupados

Propaganda
ESTATÍSTICA I
Prof.: Viviane Carla Fortulan
1
Vamos conhecer um pouco mais de Estatística
Leia o texto abaixo e veja como o ensino de estatística vem crescendo em todos os
aspectos.
PROJETO ENSINAR
CONVERSA DE PROFESSORES: MÚLTIPLAS FACES, EXPERIÊNCIAS PLURAIS
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO / VICE-REITORIA ACADÊMICA
_____________________________________________________________________
Um ensino significativo de Estatística
RICARDO ROBERTO PLAZA TEIXEIRA
Doutor em Ciências
Professor do Departamento de Métodos e Técnicas/Faculdade de Psicologia da PUCSP
_____________________________________________________________________
Durante julho de 2003, aconteceu no Rio de Janeiro o XI Seminário IASI (Inter American Statistical Institute) de
Estatística Aplicada. O seu tema foi “Estatística na Educação e Educação em Estatística”. Estiveram presentes
pesquisadores de diversos países e a discussão central girou em torno de como desenvolver o Raciocínio
Estatístico e a Alfabetização Matemática, já que o dia-a-dia do nosso mundo está “transbordante” de dados
estatísticos que muitas vezes são analisados erroneamente, levando a decisões equivocadas, devido justamente à
falta de um raciocínio estatístico mais elaborado!
A questão naturalmente é: como desenvolver em nossos alunos esse raciocínio estatístico, como alfabetizá-los na
matemática? A matemática é - ou foi, na infância e na adolescência - algo de traumatizante na vida de uma
grande parcela da população em nosso país. A sua desvinculação da realidade, a abstração pela abstração e a
focalização no mais rígido formalismo, tudo isso transformou a matemática na mais odiada das disciplinas
escolares!
É claro que, por trás disso, há um círculo que se auto-alimenta: as crianças têm uma educação matemática
descontextualizada, sofrem com isto, crescem aprendendo a evitar a matemática, não vendo finalidade alguma na
sua aprendizagem e, muitos daqueles que mais a evitam, resolvem fazer um curso de graduação em Pedagogia,
usando o argumento de que, nesse curso, não precisariam estudar matemática! Mas esse curso poderia ser um
bom espaço para essas pessoas superarem os seus percalços se houvesse uma preocupação grande com a
educação matemática.
Infelizmente, espaços para isso acontecer são cada vez mais raros: diversos cursos de graduação em Pedagogia,
pelo país afora, estão retirando de seu currículo, por exemplo, a Estatística, uma disciplina que poderia ajudar a
viabilizar a tarefa de permitir que esses universitários superem os seus problemas com a Matemática. E a
Estatística cai como uma luva para esse objetivo, já que, por ser a mais “impura” das Matemáticas, é, de certa
maneira, aquela com maior potencial de contextualização do “impuro” mas real mundo em que vivemos!
Essa expulsão da Estatística de muitos cursos de Pedagogia não aconteceu por acaso. Em muitos casos pelo país
afora, professores universitários que ministravam essa disciplina para cursos superiores das Humanidades faziam
um verdadeiro “estrago”, uma política de terra arrasada, ensinando uma Estatística “dura”, formal e sem vínculos
com o cotidiano. Após reprovações em massa, conflitos repetidos, ressentimentos acumulados, muitos diretores e
coordenadores de graduação devem ter resolvido tirar o “sofá” da sala, fazendo sumir a “Estatística” do currículo
de seus cursos.
O outro lado dessa moeda é o penúltimo lugar que o Brasil obteve no levantamento das habilidades em
matemática do PISA (Programa Internacional de Avaliação de Estudantes), um “exame” realizado com
adolescentes de 15 anos, em 41 países do globo. Portanto, é importante resgatar a Estatística em muitos cursos
das chamadas Humanidades e, particularmente, no curso de Pedagogia, mas sem “terrorismos”, pois o excesso
de dose no remédio, por melhor que seja a intenção, pode matar o paciente.
2
O problema aqui também se relaciona às Licenciaturas em Matemática que, em muitas das Universidades do
país, são desprivilegiadas com relação ao bacharelado, como de resto acontece também com outras
Licenciaturas. O “locus” da Licenciatura perde-se e, em muitos casos, os seus professores ministram cursos
desvinculados totalmente do futuro profissional como educador daquele aluno de licenciatura. Conclusão:
formação em massa de professores de matemática para a educação básica que agirão como seus professores
universitários agiram com eles.
Portanto, o problema da educação matemática permeia toda a nossa educação “de ponta a ponta” e só será
resolvido com uma verdadeira mudança de cultura sobre o que seja ensinar matemática na educação
fundamental, no ensino médio e na educação superior, mudança que não se faz da noite para o dia, mas que
necessita, como toda caminhada, dos seus primeiros passos.
Um dos grandes argumentos contrários aos pontos de vista aqui expostos é o de que todas essas outras ênfases,
contextualizações e preocupações baixariam o nível dos conteúdos de matemática trabalhados com os alunos,
diminuindo os padrões de nossa educação. Isso como se esses já não fossem catastróficos!
É claro que ninguém está aqui propondo a diminuição desses “standards” mas, de forma concreta, será que não é
pela falta de contextualização, que os alunos deixam de aprender e aprendem a odiar a matemática e tudo a ela
relacionado, inclusive a estatística? O rigor a todo custo; o conteúdo “maximizado”, goela abaixo do aluno, de
acordo com a máxima “quanto mais melhor”; a abstração sem retorno à realidade; tudo isto não estaria por trás
dos nossos baixos índices de alfabetização matemática?
Há níveis de rigor e há níveis de abstração que devem ser dosados conforme o público. Ou será que, para muitos
professores, a matemática está acima do seu público? Essa desumanização dos alunos é também uma
desumanização da própria matemática, já que ela acaba de nada tendo serventia para a maioria da população!
O problema é: como mudar?
Os próprios Parâmetros Curriculares Nacionais da Educação Básica apontam para a importância da Estatística,
ressaltando inclusive que ela deve estar diluída em toda a formação básica de nossos jovens, desde as primeiras
séries do Ensino Fundamental até o fim do Ensino Médio e, porque não, até a formação universitária dos que
trilharem esse caminho. Isso com razão, pois é por meio de dados estatísticos que, muitas vezes, nós temos
acesso a números e a quantificações em geral. Ensinar a interpretá-los corretamente é uma tarefa importante na
educação de todo cidadão.
Como contextualizar, então?
Em primeiro lugar, usando criticamente a mídia: jornais, revistas, internet, TV, todos estão cheios de tabelas,
gráficos e dados interessantes, motivadores e que permitirão, com solidez, enfoques didáticos que privilegiem o
desenvolvimento e o conhecimento das técnicas estatísticas para tratamento de dados em geral.
Em segundo lugar, utilizando os instrumentos tecnológicos disponíveis: “calculadoras de dez reais” que têm
funções estatísticas básicas, programas acessíveis de computadores como a “Calculadora” da Microsoft e o
Excel, ou mesmo programas mais sofisticados, quando possível, como o SPSS - que usamos com bons
resultados na disciplina de Estatística para o curso de Psicologia da PUC-SP.
Finalmente, valendo-se da História da Matemática e da própria Estatística, já que, sem conhecer a sua história, o
conhecimento de nenhuma disciplina é realmente pleno e se perde todo o sabor da descoberta sobre o como as
idéias científicas surgiram.
Facilitar a aprendizagem da matemática pelo aluno jamais pode ser considerado equivalente a “facilitar na
matéria para aprovar em massa os alunos”. Conseguir que um aluno aprenda a raciocinar matemática e
estatisticamente deveria ser, sim, o nosso objetivo supremo, mesmo que não consigamos cumprir 100% do
conteúdo planejado. Planejamento é planejamento; execução é outra coisa e exige flexibilidade!
3
ESTATÍSTICA
1 - INTRODUÇÃO:
1.1 Definições:
Definição 1: A Estatística trata dos métodos científicos para coleta, organização, descrição,
análise e interpretação (conclusão) dos dados experimentais visando a tomada de decisões.
“Estatística”, palavra de origem latina, significou por muito tempo “ciência dos
negócios do Estado”.
A Estatística pode ser dividida basicamente em 3 etapas:
-
-
1ª etapa: Coleta de dados a partir de uma amostra escolhida da população. Para
esta primeira etapa estudaremos as técnicas de Amostragem.
2ª etapa: Análise descritiva (ou Estatística Dedutiva), que envolve a parte de
resumo e interpretação dos dados por meio de tabelas, gráficos e medidas
descritivas (quantidades).
3ª etapa: Escolha de um possível modelo explicativo para o comportamento do
objeto em estudo, afim de se fazer, numa etapa posterior, a análise confirmatória
dos dados, conhecida como inferência (ou Estatística Indutiva). Para esta última
etapa, faz-se necessário a linguagem das probabilidades, para o esclarecimento de
conclusões.
Definição 2: Estatística Dedutiva trata da organização, sumário e apresentação gráfica dos
dados.
Definição 3: Estatística Indutiva consiste de métodos para tirar conclusões sobre uma
população baseados em informações obtidas a partir de uma amostra da população.
1.2 População e Amostra
Ao se coletar dados sobre as características de um conjunto de elementos, como por
exemplo, os brinquedos produzidos por uma indústria, os carros que passam por um
determinado farol ou as preferências da população sobre candidatos a uma determinada
eleição, nem sempre é possível considerar todos os elementos, ou seja, toda a população ou
universo. Considera-se, então, apenas uma pequena parte do todo, chamada amostra. No caso
da eleição, a população é formada por todos os cidadãos com direito a voto e a amostra é
formada pelos eleitores que serão entrevistados.
Para se coletar uma amostra é preciso usar técnicas eficientes denominadas Técnicas
de Amostragem que veremos mais adiante.
Definição 4: População: População estatística é a coleção completa e total dos elementos
(pessoas, medidas, itens, etc.) a serem considerados em um estudo estatístico.
Definição 5: Amostra: é um subconjunto de uma população de interesse.
4
1.3 Variáveis:
A cada fenômeno corresponde um número de resultados possíveis. Assim por
exemplo:
- para o fenômeno “sexo” são dois os resultados possíveis: sexo masculino e
feminino;
- para o fenômeno “nº de filhos” há um nº de resultados possíveis expresso através
dos números naturais: 0, 1, 2, 3, ... , n;
- para o fenômeno “estatura” temos uma situação diferente, pois os resultados
podem tomar um nº infinito de valores numéricos dentro de um determinado
intervalo.
Definição 6: Variável é, convencionalmente, o conjunto de resultados possíveis de um
fenômeno.
Tipos de variáveis: - variável qualitativa (ou categórica);
- variável quantitativa (ou numérica).
Definição 7: Variável qualitativa é quando seus valores são expressos por atributos, por
exemplo: sexo (masculino – feminino), cor da pele ( branca, preta, amarela, vermelha, parda,
etc.), tipo de sangue (A, B, AB, O), etc.
Definição 8: Variável quantitativa é quando seus valores são expressos em números, por
exemplo: salários dos operários, idade dos alunos de uma escola, peso, altura, nº de filhos por
família, etc.
Tipos de variável quantitativa: - Discreta;
- Contínua.
-
Variável quantitativa discreta: é uma variável que só pode assumir valores
pertencentes a um conjunto enumerável, ou seja, só assume valores inteiros.
-
Variável quantitativa contínua: é uma variável que pode assumir qualquer valor
dentro de dois limites, ou seja, pode assumir valores “quebrados” (decimais).
5
1ª LISTA DE EXERCÍCIOS DE ESTATÍSTICA
1-) Classifique as variáveis em qualitativas ou quantitativas (discretas ou contínuas)
a-) cor dos olhos
b-) número de filhos
c-) o ponto obtido em uma jogada
d-) número de peças produzidas por hora
e-) diâmetro externo
2-) Sugira uma população a cada uma das variáveis citadas no exercício 1.
3-) Ligue as variáveis abaixo com sua possível população de interesse:
Variáveis
a-) cor dos olhos
b-) precipitação pluviométrica, (1 ano)
c-) número de ações negociadas
d-) salários
e-) tamanho
f-) sexo dos filhos
g-) produção de algodão
h-) comprimento
i-) número de volumes
j-) número de defeitos por unidade
População
1-) aparelhos produzidos por uma linha de montagem
2-) seguimentos de reta
3-) casais residentes em uma cidade
4-) funcionários de uma empresa
5-) estação meteorológica de uma cidade
6-) alunos de uma escola
7-) bolsa de valores de uma escola
8-) pregos produzidos por uma máquina
9-) propriedades agrícolas do Brasil
10-) bibliotecas da cidade de São Paulo
Em relação as variáveis, diga quais são qualitativas, quantitativas discretas e
quantitativas contínuas.
4-) Defina com suas palavras:
a-) Estatística
b-) Variável, variável quantitativa e variável qualitativa
c-) População
d-) Amostra
6
2 – DISTRIBUIÇÃO POR FREQÜÊNCIAS
Definição 9: Distribuição por freqüência é a tabela em que se resumem grandes quantidades
de dados, determinando o nº de vezes que cada dado ocorre (freqüência) e a porcentagem com
que aparece (freqüência relativa).
Tipos de freqüência:
-
Freqüência absoluta ou simplesmente freqüência (F): é o nº de vezes que cada
dado aparece na pesquisa.
Freqüência relativa ou percentual (Fr): é o cociente da freqüência absoluta pelo
número total de dados.
Freqüência acumulada (Fa): é a soma de cada freqüência com as que lhe são
anteriores na distribuição.
Exemplo 1: Dada a tabela abaixo, defina qual é a variável em estudo e qual o tipo de variável.
Depois, complete a tabela de distribuição de freqüências encontrando as freqüências relativa e
acumulada.
Distribuição de renda no Brasil - 1971
Faixa de renda
Habitações
Até um salário mínimo
224.740
De 1 a 3 salários mínimos
363.860
De 4 a 8 salários mínimos
155.700
Mais de 8 salários mínimos
47.500
Total
791.800
Fonte: Brasil em dados. Coutinho, M. T. e Cunha, S.E.
Iniciação à Estatística. Belo Horizonte, 1979, p. 40
Solução:
2.1 Agrupamento em classes
Como vimos no exemplo 1, para representar a variável contínua “renda” foi necessário
organizar os dados em classes. Portanto podemos dizer que a variável renda foi dividida em
“4 classes de freqüências”.
O agrupamento em classes acarreta uma perda de informações, uma vez que não é
possível a volta aos dados originais a partir da tabela. Assim, quando necessitarmos de
informações mais detalhadas sobre os dados da tabela, devemos usar algumas medidas obtidas
a partir das classes de freqüências. São elas:
7
-
-
Limite inferior (Li): é o menor valor que a variável pode assumir em uma classe de
freqüências;
Limite superior (Ls): é o maior valor que a variável pode assumir em uma classe
de freqüências;
Ponto médio (Pm): o ponto médio de uma classe de freqüências é a média
Li  Ls
aritmética entre o Li e o Ls da mesma (classe), ou seja, Pm 
;
2
Amplitude (h): é a diferença entre o Ls e o Li da classe, ou seja: h = Ls – Li;
Amplitude Total (ht): è a diferença entre o LS da última classe de freqüência com
o LI da primeira classe, ou seja: ht = LS – LI.
Exemplo: Considerando o exemplo 1, temos:
2ª LISTA DE EXERCÍCIOS DE ESTATÍSTICA
1-) A partir das idades dos alunos de uma escola, fazer uma distribuição por freqüência,
agrupando os dados em classes e depois tire as informações:
- ponto médio para cada classe;
- amplitude para cada classe;
- amplitude total.
8 8
11 11
7
9
6
7
9
8
Idades (dados brutos)
9 7 8 10 10 12 15 13 12
6 5 10 6 9 8 6 7 11
9
2-) Em uma escola tomou-se a medida da altura de cada um de quarenta estudantes, obtendose os seguintes dados (em centímetros):
160
163
155
163
152
156
151
167
155
162
158
157
154
161
166
152
161
161
169
178
162
171
170
165
162
160
158
156
161
170
160
155
150
156
168
153
160
164
164
155
Fazer a distribuição de freqüência e usar 6 classes. (iniciando por 150cm e terminando
em 180cm) e responder as questões abaixo:
a-) Quantos são os estudantes com estatura inferior a 160cm?
b-) Que porcentagem de estudantes tem estatura igual ou superior a 175cm?
c-) Quantos são os estudantes com estatura maior ou igual a 160cm e ao mesmo tempo
menor que 175cm?
d-) Qual a porcentagem de estudantes com estatura abaixo de 170cm?
8
3. MÉTODOS GRÁFICOS
Objetivo: Facilitar a compreensão do fenômeno estatístico por meio do efeito visual imediato
que lhe é próprio.
3.1 Tipos de gráficos: Existem vários tipos de gráficos, os mais usados são:
-
Gráficos de linha;
Diagramas de área:
- Gráficos de coluna;
- Gráficos de barras;
- Gráficos de setores (ou gráfico de Pizza).
Representação gráfica para as distribuições de freqüências:
- Polígono de freqüências;
- Histograma e
- Ogiva.
3.3.1 Gráficos de linha: Sempre que as categorias utilizadas representarem um intervalo de
tempo, assim como sucede com os dados do exemplo 1 – Figura 1, os dados podem ser
descritos também através de um gráfico de linha. Um gráfico de linha retrata as mudanças nas
quantidades com respeito ao tempo através de uma série de segmentos de reta
3.3.2 Gráfico (ou Diagrama) de barras (ou colunas): O diagrama de barras representa por
meio de uma série de barras, quantidades ou freqüências para diferentes categorias de dados.
(Ver Exemplo 1 – Figura 2) A diferença entre um diagrama de barras e um histograma é que o
histograma refere-se sempre aos dados de uma distribuição de freqüências, enquanto o
diagrama de barras ilustra quantidades para qualquer tipo de categorias.
OBS: O gráfico de barras, quando as barras estão dispostas no sentido vertical, também é
chamado de gráfico de colunas.
3.3.3 Gráfico (ou Diagrama) de setores: O diagrama de setores, também conhecido como
gráfico de Pizza, é uma gráfico particularmente apropriado para representar as divisões de um
montante total. (Ver Exemplo 2 – Figura 3).
3.3.4 Histograma: Um Histograma é um diagrama de barras de uma distribuição de
freqüência com uma diferença: não há espaços entre as barras. Os intervalos de classe são
colocados no eixo horizontal enquanto as freqüências são colocadas no eixo vertical. (Ver
Exemplo 3 – Figura 4).
3.3.5 Polígonos de Freqüência: O polígono de freqüência é um gráfico de linha de uma
distribuição de freqüência. Os eixos de um Polígono de freqüência são similares ao do
Histograma, exceto que no eixo horizontal são colocados os pontos médios de cada intervalo
de classe. (Ver Exemplo 3 – Figura 5)
3.3.6 Ogiva: Um Ogiva é um gráfico de uma distribuição de freqüência acumulada. (Ver
Exemplo 3 – Figura 6)
9
Exemplo 1: De acordo com os dados dos censos demográficos do FIBGE, temos os seguintes
dados, em termos percentuais, sobre o analfabetismo no Brasil:
ANO
%
1872
82,3
1890
82,6
1920
71,2
1940
61,1
1950
57,1
1960
46,7
1970
38,7
1980
31,9
1990
26,5
Construa:
a-) um gráfico de linha;
b-) um gráfico de barras (ou colunas);
Exemplo 2: De 75.200 mortes por acidentes nos EUA, em um ano recente, 43.500 foram
causadas por veículos motorizados, 12.200 por quedas, 6.400 por envenenamento, 4.600 por
afogamento, 4.200 por incêndios, 2.900 por ingestão de alimentos ou de um objeto, e 1.400
por armas de fogo (com base em dados do Conselho de Segurança Nacional). Descrever estes
dados através de um gráfico de setores.
GRÁFICO DE SETORES
Armas de f ogo; 1400;
Veiculo Mot orizado;
2%
43500; 57%
Ingest çao de
aliment os ou objet o;
2900; 4%
Incêndio; 4200; 6%
Quedas; 12200; 16%
Af ogament o; 4600; 6%
Envenenament o;
6400; 9%
10
Exemplo 3: A tabela abaixo representa o salário de famílias de uma pequena comunidade.
Salário (em reais)
Freq. Absoluta (F)
8000,00 |- 9000,00
9000,00 |- 10000,00
10000,00 |- 11000,00
11000,00 |- 12000,00
12000,00 |- 13000,00
13000,00 |- 14000,00
14000,00 |- 15000,00
Total
18
31
15
3
1
1
1
70
Freq. Acumulada
(Fa)
18
49
64
67
68
69
70
Construa com estes dados:
a-) um Histograma;
b-) Um polígono de freqüências
c-) Um Ogiva
11
4. MEDIDAS DE POSIÇÃO
Definição 11: As medidas de posição mais importantes são as medidas de tendência central,
que recebem tal denominação pelo fato de os dados observados tenderem, em geral, a se
agrupar em torno dos valores centrais. Dentre as medidas de tendência central, destacamos:
- a média aritmética;
- a mediana;
- a moda.
As outras medidas de posição são as separatrizes, que englobam:
- a própria mediana;
- os quartis;
- os percentis.
Para dados não-agrupados
(Quando os dados não estiverem na forma de distribuição de freqüência)
4.1 Média aritmética ( x ): é o quociente da divisão da soma dos valores (dados,
observações) da variável pelo número deles:
n
x
x
i 1
i
n
sendo:
x = a média aritmética;
x i = os valores da variável;
n = o número de valores.
4.2 Moda (Mo): Denominamos moda de um conjunto de dados o valor (ou valores) que
ocorre com maior freqüência.
Por ex..: o salário modal dos empregados de uma indústria é o salário mais comum,
isto é, o salário recebido pelo maior número de empregados dessa indústria.
4.3 Mediana (Md).: A mediana é outra medida de posição definida como o número que se
encontra no centro de uma série de números, estando estes dispostos segundo uma ordem. Em
outras palavras, a mediana de um conjunto de valores, ordenados, é o valor situado de tal
forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos.
Obs: - Se o nº de elementos for ímpar, então a mediana será exatamente o valor “do meio”
- Se o nº de elementos for par, então a mediana será exatamente a média “dos dois
valores do meio”.
Emprego da Mediana
Empregamos a mediana quando:
- desejamos obter o ponto que divide a distribuição em partes iguais;
- há valores extremos que afetam de uma maneira acentuada a média;
- a variável em estudo é salário.
12
Exemplo: Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de:
10, 14, 13, 15, 16, 18 e 12 litros, pergunta-se: Encontre a média, a moda e a mediana para a
produção diária de leite desta vaca.
Média:
n
x
x
i 1
n
i

10  14  13  15  16  18.  12 98

 14
7
7
Logo, x = 14 litros de leite em média por dia que representa uma produção de 98 litros de
leite em média por semana.
OBS.: a média pode ser um número diferente de todos os valores da amostra que ela
representa.
Moda: Como não existe um valor que aparece com maior freqüência que os outros, não há
valor de moda para este exemplo.
Mediana: Ordenando os dados temos:
10 12 13 14 15 16 18
Desta forma, o valor mediano é o valor central dos dados, ou seja, 14 litros de leite por
dia
Para dados agrupados
(Quando os dados estiverem na forma de distribuição de freqüência)
Quando os dados estiverem agrupados, ou seja, na forma de distribuição de
freqüências a forma de calcular a média aritmética muda um pouco. Nestes casos, como as
freqüências são números indicadores da intensidade de cada valor da variável, elas funcionam
como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada, dada
pela fórmula:
n
x
x f
i 1
n
i i
f
i 1
i
OBS.: A moda e a mediana são encontradas teoricamente da mesma forma citada
anteriormente.
13
Exemplos:
1-) Consideremos a distribuição relativa a 34 famílias de quatro filhos, tomando para variável
o número de filhos do sexo masculino:
Nº de
meninos
0
1
2
3
4
xifi
fi
2
6
10
12
4
 f i  34
Qual é a média, a moda e a mediana do nº de meninos por família?
Solução:
Média:
n
Devemos usar a fórmula x 
x f
i 1
n
i i
f
i 1
, já que estamos trabalhando com dados
i
agrupados, assim temos:
n
x f
n
f
i 1
=
i i
i 1
i

n
Portanto, x 
x f
i 1
n
i i
f
i 1

78
 2,29  2,3 .
34
i
Interpretação: Sendo x uma variável discreta, como interpretar o resultado obtido, 2 filhos e
3 décimos (ou 0,3) de menino?
O valor médio 2,3 meninos sugere, que o maior número de famílias com 4 filhos tem 2
meninos e 2 meninas, sendo, porém, a tendência geral de uma leve superioridade numérica em
relação ao número de meninos.
Moda: O valor encontrado com maior freqüência para este conjunto de dados é de 3 meninos
por família de 4 filhos.
Mediana: Geralmente, quando os dados estão tabelados, a variável de interesse já está
ordenada. Portanto, basta encontrar o valor central dos dados. Neste exemplo temos que a
mediana é de 2 meninos.
14
2-) Calcule a média, a moda e a mediana da seguinte distribuição de freqüência e interprete os
resultados obtidos:
Custos R$
Classes de fr.
450 |- 550
550 |- 650
650 |- 750
750 |- 850
850 |- 950
950 |- 1050
1050 |- 1150
Total
Pm
( xi )
500
600
700
800
900
1000
1100
fi
xifi
8
10
11
16
13
5
1
64
Solução
15
3ª LISTA DE EXERCÍCIOS DE ESTATÍSTICA
1-) Considere a distribuição de freqüências das estaturas de 40 alunos de uma determinada
classe de 8ª série.
Estaturas
(cm)
150 |- 154
154 |- 158
158 |- 162
162 |- 166
166 |- 170
170 |- 174
Total
fi
xifi
4
9
11
8
5
3
40
Pergunta-se: qual a estatura média, a estatura mediana e a moda dos alunos desta sala?
2-) Num estudo sobre consumo de combustível, 200 automóveis do mesmo ano e modelo
tiveram seu consumo observado durante 1000 quilômetros. A informação obtida é
apresentada na tabela abaixo em Km/litro.
Faixas
7 |- 8
8 |- 9
9 |-10
10 |- 11
11 |- 12
Freqüência
27
29
46
43
55
Determine:
a-) Qual a variável em estudo? Esta variável é discreta ou contínua?
b-) A média aritmética, a mediana e a moda da variável em estudo. Interprete os resultados.
c-) Construa um histograma para os dados.
3-) Os salários-hora de sete funcionários de uma companhia são: R$180,00, R$220,00,
R$253,00, R$220,00 e R$192,00 R$1200,00 e R$750,00. Determine a média a moda e a
mediana e interprete os resultados.
4-) A pulsação de 10 estudantes após exercícios físicos foram as seguintes (em batimentos por
minuto): 80, 91, 84, 86, 80, 89, 85 e 86. Determine a média a moda e a mediana e interprete
os resultados.
16
4.4 As Separatrizes
Definição 12: Além das medidas de posição, há outras que, consideradas individualmente,
não são medidas de tendência central, mas estão ligadas à mediana relativamente à sua
Segunda característica, já que se baseiam em sua posição na série (no conjunto de dados). São
elas:
- os quartis;
- os percentis;
- Os decis.
4.4.1 Quartis: denominamos quartis os valores de uma série que a dividem em quatro partes
iguais.
Há, portanto, três quartis:
-
-
-
O primeiro quartil (Q 1 ) : é o valor situado de tal modo na série que uma quarta
parte (25%) dos dados é menor que ele e as três quartas partes restantes (75%) são
maiores.
O segundo quartil (Q 2 ) : é exatamente o valor da mediana, ou seja, o valor
situado de tal modo na série que deixa metade (50%) dos dados a esquerda dele e a
outra metade à direita (Q 2 =Md).
O terceiro quartil (Q 3 ) : é o valor situado de tal modo na série que as três quartas
partes (75%) dos dados são menores que ele e uma quarta parte restante (25%) é
maior.
4.4.2 Percentis: denominamos percentis os noventa e nove valores que separam uma série em
100 partes iguais, ou seja:
P1 , P2 , P3 ,, P99 , onde P 50 = Md = Q 2 , P 25 = Q 1 e P 75 = Q 3
4.4.3 Decis: os decis por sua vez, são os dez valores que dividem a série em 10 partes iguais,
onde, cada uma delas contém 10% dos dados.
5. MEDIDAS DE DISPERSÃO OU DE VARIABILIDADE
Definição 13: Vimos que a moda a mediana e a média podiam ser usadas para resumir, num
único número, aquilo que é “médio” ou “típico” de um conjunto de dados. Mas a informação
contida fornecida pelas medidas de posição necessita em geral ser complementada pelas
medidas de dispersão. Estas servem para indicar o quanto os dados se apresentam dispersos
em torno da região central. Caracterizam, portanto, o grau de variação existente no conjunto
de valores. As medidas de dispersão que nos interessam são:
- a amplitude total;
- o desvio-padrão;
- a variância;
- e o coeficiente de variação.
17
OBS: Quanto maior as medidas de dispersão, mais heterogêneos são os dados, e ao contrário,
quanto menor essas medidas, mais homogêneo o conjunto.
Para ilustrar a necessidade de conhecermos as medidas de dispersão de um conjunto de
dados iremos introduzir alguns exemplos:
Exemplo 1:
Sabe-se que em Honolulu (Havaí) e Houston (Texas) a temperatura média diária é
quase a mesma em torno de aproximadamente 23,9ºC. Pergunta-se: Será que, por isso,
podemos admitir que a temperatura é basicamente a mesma em ambas as localidades? Ou não
será possível que enquanto uma cidade é melhor para natação a outra o seja para atividades
externas?
Como ilustra a figura 1, a Temperatura em Honolulu varia muito pouco ao longo do
ano, oscilando, em geral, entre 21,1ºC e 26,7ºC. Por outro lado, a temperatura em Houston
pode diferir estacionalmente, isto é, apresentar-se baixa em janeiro (cerca de 4,4ºC) e alta em
julho e agosto (bem perto de 37,8ºC). Desnecessário dizer que as praias em Houston não estão
abarrotadas de gente o ano todo!
Exemplo 2:
Suponham que, numa particular cidade, tanto ladrões quanto professores secundários
tenham uma renda média anual de R$ 900,00. Será que essa informação indica que as duas
distribuições de renda são necessariamente semelhantes? Muito ao contrário, poder-se-ia
descobrir que elas diferem, e muito, num outro aspecto importante que é o fato de as rendas
dos professores concentrar-se ao redor de R$ 900,00 (serem constantes, homogêneas),
enquanto que as dos ladrões espalham-se mais (são descontínuas, heterogêneas), o que reflete,
portanto, maiores oportunidades para prisões, desemprego, pobreza e, em alguns casos,
fortunas excepcionais.
Tais fatos demonstram que necessitamos, além de uma medida de tendência central, de
um índice que indique o grau de dispersão dos dados em torno da média. Este “índice” é uma
medida indicativa do que costumamos chamar de variabilidade (ou dispersão).
18
Voltando ao exemplo 1, poderíamos dizer que a distribuição de temperatura em
Houston (Texas) tem maior variabilidade do que a distribuição de temperaturas em Honolulu
(Havaí). Da mesma forma podemos dizer que a distribuição de rendas entre professores
apresenta menos variabilidade do que a distribuição de rendas entre ladrões.
Assim sendo, vejamos as definições das medidas de dispersão e uma aplicação simples
dela para exemplificar.
Considere os seguintes conjuntos de valores das variáveis X, Y e Z:
X: 70, 70, 70, 70, 70.
Y: 68, 69, 70, 71, 72.
Z: 5, 15, 50, 120, 160.
Calculando a média aritmética de cada um destes conjuntos, obtemos:
X  70
Y  70
Z  70
Vemos então, que os três conjuntos apresentam a mesma média aritmética: 70, entretanto é
fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z. Para quantificar o
quão os dados são heterogêneos precisamos encontrar algumas medidas de posição. São elas:
5.1 Amplitude total (R): a amplitude total é a diferença entre o maior e o menor valor
observado:
R = x (máx .)  x (mín .)
OBS: A amplitude só leva em conta dois valores de todo o conjunto de dados e, assim, seria
mais conveniente considerarmos uma medida que utilizasse todas as observações. Uma idéia
inicial é considerar o desvio de cada observação em relação a média aritmética do conjunto de
dados. Daí surgem as outras medidas de variabilidade.
Vamos definir a palavra desvio em estatística:
Definição 14: o desvio é definido como sendo a distância entre qualquer valor do conjunto de
dados em relação a média aritmética do conjunto de dados. Existem várias medidas de
dispersão que envolvem os desvios, são elas: o desvio-padrão, a variância e o coeficiente de
variação.
5.2 Desvio-Padrão (S): o desvio-padrão é a medida mais usada na comparação de diferenças
entre grupos, por ser mais precisa e estar na mesma medida do conjunto de dados. Ele
determina a dispersão dos valores em relação a média. Sua formulação é dada pela raiz
quadrada da média aritmética dos quadrados dos desvios, ou seja:
n
S
 (x
i 1
i
 x) 2
n 1
(x1  x) 2  (x 2  x) 2    (x n  x) 2
=
n 1
19
onde, x i é cada uma das observações do conjunto de dados, x é a média do conjunto de
dados e n é o número total de observações do conjunto de dados.
5.3 Variância ( S 2 ): a variância nada mais é do que o valor do desvio-padrão elevado ao
quadrado, ou seja,



2
2
S  (S)  



2

(x i  x) 


i 1
 
n 1



n
2
n
 (x
i 1
i
 x) 2
n 1
A variância não é uma medida conveniente de ser usada pois expressa o seu resultado numa
medida ao quadrado. Portanto não vamos trabalhar com esta medida constantemente.
Por último, temos:
5.4 Coeficiente de Variação (cv):.O coeficiente de variação (cv) é definido como o quociente
entre o desvio-padrão e a média. É freqüentemente expresso em porcentagem. (Ele mede o
“grau” de variabilidade do conjunto de dados).
cv 
S
x
Vamos exemplificar o cálculo da amplitude, do desvio-padrão, da variância e do coeficiente
de variação utilizando os mesmos exemplos anteriores (aqueles utilizados para exemplificar
as medidas de posição).
Para dados não-agrupados
(Quando os dados não estiverem na forma de distribuição de freqüência)
Exemplo: Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de:
10, 14, 13, 15, 16, 18 e 12 litros, pede-se calcular a amplitude, o desvio-padrão (S), a
variância ( S 2 ) e o coeficiente de variação (cv).
Solução:
Amplitude:
R= 18 – 10 = 8 litros de leite
ou seja, a maior variação do número de litros de leite produzidos por dia pela vaquinha A é de
8 litros.
OBS: Sabemos que a média para estes dados é: x = 14 litros de leite por dia
20
Desvio-padrão:
n
 (x
S


i 1
i
 x) 2
n 1
(x1  x) 2  (x 2  x) 2    (x n  x) 2
=
n 1
=
(10  14) 2  (14  14) 2  13  14 2  15  14 2  16  14 2  18  14 2  12  14 2

7 1
 42  02   12  12  22  42   22
6

16  0  1  1  4  16  4

6
42

6
 7  2,65 litros de leite por semana
Variância:
S 2  (S ) 2  2,652  7(litros de leite) 2
Coeficiente de variação:
S 2,65

 0,1893 ou seja, existe uma variabilidade de 18,93% dos dados em
x
14
relação a média.
cv 
Para dados agrupados
(Quando os dados estiverem na forma de distribuição de freqüência)
Para o Exemplo 1 temos:
Exemplo 1: Consideremos a distribuição relativa a 34 famílias de quatro filhos, tomando para
variável o número de filhos do sexo masculino:
Nº de
meninos
( xi )
0
1
2
3
4
x i  x 
fi
2
6
10
12
4
f
i
 34
x i  x 2
(0-2,3)=-2,3 (-2,3) 2 =5,29
(1-2,3)=-1,3 (-1,3) 2 =1,69
(2-2,3)=-0,3 (-0,3) 2 =0,09
(3-2,3)=0,7 (0,7) 2 =0,49
(4-2,3)=1,7 (1,7) 2 =2,89
f i x i  x 
2
2(5,29)=10,58
6(1,69)=10,14
10(0,09)=0,9
12(0,49)=5,88
4(2,89)=11,56
 f x
i
 x =
39,06
2
i
Calcule a amplitude, o desvio-padrão (S), a variância ( S 2 ) e o coeficiente de variação (cv).
21
Solução:
Amplitude:
R= 4 – 0 = 4 meninos
ou seja, a maior variação encontrada neste conjunto de dados é de 4 meninos.
OBS: Sabemos que a média para este conjunto de dados é x =2,3 filhos
Desvio-padrão:
n
 f (x
S
i 1
i
i
 x)2
f1 ( x 1  x ) 2  f 2 ( x 2  x ) 2    f n ( x n  x ) 2
=
n 1
=
n 1

2(0  2,3) 2  6(1  2,3) 2  102  2,3  123  2,3  44  2,3

34  1

2 2,3  6 1,3  10 0,3  120,7   41,7 

33

2(5,29)  6(1, ,69)  10(0,09)  12(0,49)  4(2,89)

33

10,58  10,14  0,9  5,88  11,56
39,06

 1,1836  1,088  1 filho
33
33
2
2
2
2
2
2
2
2
ou seja, o número médio de filhos homens por família de 4 filhos é de 2,3 com uma
variabilidade de aproximadamente 1 filho, ou seja, a maior parte das famílias com 4 filhos
têm entre:
2,3  1 = (1,3 e 3,3)  (1 e 3) filhos homens.
Variância:
S 2  (S) 2  1,088  1,1837 (filhos homens) 2
2
Coeficiente de variação:
S 1,088

 0,4730 ou seja, existe uma variabilidade de 47,30% dos dados em
x
2,3
relação a média. (variabilidade alta).
cv 
22
Exemplo 2: Considere a seguinte distribuição de freqüência referente aos salários de
operários de uma determinada fábrica:
Custos R$ Pm ( x i )
Classes de fr.
fi
x i  x 
x i  x 2
450 |- 550
500
8
(500-754,68)=
-254,68
(-254,68) =
64861,90
550 |- 650
600
10
(600-754,68)=
-154,68
(-154,68) =
23925,90
650 |- 750
700
11
(700-754,68)=
-54,68
(-54,68) =
2989,90
750 |- 850
800
16
(800-754,68)=
45,32
(45,32) =
2053,90
850 |- 950
900
13
(900-754,68)=
145,32
(145,32) =
21117,90
950 |- 1050
1000
5
(1000-754,68)=
245,32
(245,32) =
60181,90
1050 |- 1150
1100
1
(1100-754,68)=
345,32
(345,32) =
119245,90
Total
f i x i  x 
2
2
8(64861,90)=
518895,2
2
10(23925,90)=
239259,0
2
11(2989,90)=
32888,9
2
16(2053,90)=
32862,4
2
13(21117,90)=
274532,7
2
5(60181,90)=
300909,5
2
1(119245,90)=
119245,9
 f x
64
i
i
 x
2
=1518593,6
Calcule a amplitude, o desvio-padrão (S), a variância ( S 2 ) e o coeficiente de variação (cv).
Solução:
Amplitude:
R= 1150 – 450 = 700
ou seja, a maior diferença existente entre os salários dos operários desta determinada fábrica é
de R$ 700,00.
OBS: Sabemos que a média para este conjunto de dados é x =754,69 filhos
Desvio-padrão:
n
 f i (x i  x) 2
S
i 1
n 1
=
f1 ( x 1  x ) 2  f 2 ( x 2  x ) 2    f n ( x n  x ) 2
n 1
=

8500  754,682  10600  754,682  11700  754,682  16800  754,682  13900  754,682  51000  754,682  11100  754,682

64  1

8 254,682  10 154,682  11 54,682  1645,322  13145,322  5245,322  1345,322

63

8(64861,90)  10(23925,90)  11(2989,90  16(2053,90  13(21227,90)  5(60181,90)  1(119245,90)

63
518895,2  239259,0  32888,90  32862,40  274532,70  300909,5  119245,90
1518593,60


63
63
24104,66  155,26 (reais)
23
ou seja, o número médio de salários é de R$754,68 com uma variabilidade de
aproximadamente R$155,26, ou seja, a maior parte dos operários recebem entre: 754,68 
155,26 = (599,42 e 909,94) reais.
Variância:
S 2  (S) 2  155,26  24104,66 (reais) 2
2
Coeficiente de variação:
S 155,26

 0,2057 ou seja, existe uma variabilidade de 20,57% dos dados em
x 754,68
relação a média.
cv 
4ª LISTA DE EXERCÍCIOS DE ESTATÍSTICA
1-) Para todos os exercícios da 3ª lista, encontre:
a-) A amplitude;
b-) O desvio-padrão;
c-) A variância e
d-) O coeficiente de variação.
e-) Interprete os resultados obtidos nos itens a), b), c) e d).
24
6. TÉCNICAS DE AMOSTRAGEM
Em amostragem, é necessário garantir que a amostra seja representativa da população,
ou seja, no processo de amostragem, a amostra deve possuir as mesmas características básicas
da população.
Tipos de amostragem: probabilística e não-probabilística.
Definição 15: A amostragem será probabilística se todos os elementos da população tiverem
probabilidade conhecida e diferente de zero, de pertencer à amostra. Caso contrário a
amostragem será não probabilística.
6.1 Tipos de técnicas de amostragem probabilística:
- Amostragem casual simples
- Amostragem sistemática
- Amostragem por meio de conglomerados
- Amostragem estratificada
6.2 Tipos de técnicas de amostragem não-probabilística:
- Inacessibilidade a toda população
- Amostragem a esmo ou sem norma
- Amostragens intencionais
Definições das técnicas de amostragem probabilística
6.1.1 Amostragem casual simples
É feita quando todos os elementos da população têm a mesma chance (ou
probabilidade igual) de pertencer à amostra.
Na prática a amostragem casual simples é realizada numerando-se a população de 1 a
N e sorteando-se, a seguir, de forma aleatória, n números dessa sequência, os quais
corresponderão aos elementos sorteados para a amostra.
Ex: Seja uma população de 800 elementos da qual desejamos tirar uma amostra casual
simples de 50 elementos.
Procedimento:
- numeramos a população de 001 a 800, sendo os números tomados sempre de 3
algarismos.
- Usar uma tabela de números aleatórios escolhendo (ou sorteando) uma linha e uma
coluna da tabela e pegando os números com 3 algarismos subsequentes, os quais
irão indicar os elementos da amostra.
OBS: Se o número 856 for sorteado, devemos substituí-lo pois não existe o elemento de
número 856 na população.
6.1.2 Amostragem sistemática
É feita quando os elementos da população se apresentam ordenados e a retirada dos
elementos da amostra é feita periodicamente.
25
Ex: Usando o exemplo anterior, onde a população é composta de 800 elementos
ordenados, poderíamos utilizar a amostragem sistemática da seguinte forma:
800
 16  que será o 1º elemento da amostra, os 49 que faltarão serão encontrados,
50
a partir do 16º elemento, retirados de 16 em 16.
OBS: Cuidados com ciclos de variação.
6.1.3 Amostragem por meio de conglomerados
Quando a população apresenta uma subdivisão em pequenos grupos, chamados
conglomerados, é possível e até conveniente fazer-se a amostragem por meio desses
conglomerados, a qual consiste em sortear um número suficiente de conglomerados, cujos
elementos constituirão a amostra.
Ex: Suponhamos que desejamos estudar alguma característica dos indivíduos que
moram na favela da Rocinha.
População: todos os indivíduos que moram na favela da Rocinha
Conglomerado: cada barraco da favela
Amostra: ordeno os barracos e sorteio (amostragem casual simples) um determinado
número deles. Cada indivíduo de dentro do barraco sorteado fará parte da minha amostra.
6.1.4 Amostragem estratificada
Muitas vezes a população se divide em subpopulações ou estratos. A amostragem
estratificada consiste em especificar quantos elementos da amostra serão retirados em cada
estrato. Geralmente, o número de elementos sorteados em cada estrato é proporcional ao
número de elementos existente no extrato.
Ex: Estudar uma determinada característica do povo brasileiro, por exemplo, renda
familiar.
População: todo cidadão que mora no Brasil
Estrato: cada Estado do Brasil
Amostra: nº x de elementos proporcional a cada estado
Definições das técnicas de amostragem não-probabilística
6.2.1: Inacessibilidade a toda população
Nem sempre temos acesso a toda população, então somos obrigados a realizar o
trabalho estatístico somente na parte acessível.
Ex: Suponha a produção de peças por uma máquina
População: todas as peças produzidas por esta máquina.
26
Problema: não tenho acesso a todas as peças, pois existem peças que já foram
repassadas, peças que estão sendo produzidas (tenho acesso) e peças que ainda serão
produzidas.
Amostra: pode-se usar amostra casual simples, ou sistemática na parte da população
que tenho acesso.
6.2.2 Amostragem a esmo ou sem norma
É a amostragem em que o amostrador, para simplificar o processo, procura ser
aleatório sem, no entanto, usar algum dispositivo aleatório confiável.
Ex: Suponha que desejamos retirar uma amostra de 100 parafusos de uma caixa
contendo 10.000, evidentemente não faremos uma amostragem casual simples, pois seria
extremamente trabalhosa, desta forma faríamos a retirada a esmo.
6.2.3 Amostragens Intencionais
É quando o amostrador deliberadamente escolhe certos elementos para pertencer à
amostra, por julgar tais elementos bem representativos da população.
Ex: Avaliar o quanto determinada disciplina está sendo bem dada.
População: todos os alunos que fazem determinada disciplina.
Amostra: os melhores alunos da sala.
27
5ª LISTA DE EXERCÍCIOS DE ESTATÍSTICA
1-) Os números seguintes representam as notas de Estatística de trinta alunos. Construa o
histograma, polígono de frequências, a média e o desvio-padrão dos dados. A variável é
contínua ou discreta?
5,5
6,5
4,5
7,0
8,0
2,5
3,0
3,5
0,0
9,0
9,5
2,0
4,0
4,5
4,5
6,0
4,5
5,0
4,5
3,0
3,5
4,0
4,5
6,0
7,0
7,5
4,5
5,0
4,5
4,5
2-) Uma população se encontra dividida em três estratos, com tamanhos respetivamente,
N1  80 , N 2  120 e N3  60. Ao se realizar uma amostragem estratificada proporcional, doze
elementos da amostra foram retirados do primeiro estrato. Qual o número total de elementos
da amostra?
3-) Uma amostragem entre os moradores de uma cidade é realizada da seguinte forma: em
cada subdistrito, sorteia-se um certo número de quarteirões proporcional à área do subdistrito;
de cada quarteirão, são sorteadas cinco residências, cujos moradores são entrevistados.
a) Essa amostra será representativa da população ou poderá apresentar algum vício?
b) Que tipos de amostragem foram usados no procedimento?
4-) Uma indústria especializada em montagem de grandes equipamentos industriais recebeu
setenta dispositivos de controle do fornecedor A e outros trinta dispositivos do fornecedor B.
O aspecto relevante, que se deseja controlar, relativo a esses dispositivos, é a resistência
elétrica de certo componente crítico. Vamos admitir que os cem dispositivos foram
numerados de 1 a 100 ao darem entrada no almoxarifado, e que os setenta primeiros foram os
recebidos do fornecedor ª Vamos admitir, também, que os valores reais da variável de
interesse (a resistência elétrica do componente crítico) dos cem dispositivos recebidos sejam
os dados seguintes, respectivamente na ordem de entrada no almoxarifado (lê-se segundo as
linhas, tal como se lê um livro):
33
35
35
34
34
33
36
39
40
39
38
34
33
35
34
32
36
40
41
40
34
30
33
34
36
34
33
40
45
41
34
37
34
33
35
35
34
42
41
40
34
36
31
31
34
37
33
39
40
40
31
33
32
35
33
35
32
38
39
42
36
34
36
35
32
35
31
40
41
39
35
34
33
35
38
30
37
40
41
39
32
32
29
37
34
35
35
40
40
38
37
39
36
32
33
34
34
40
42
40
a-) Uma amostra simples, ao acaso, de dez dispositivos foi retirada da população de 100
dispositivos, com auxílio dos números aleatórios da Tab. A6.7. O processo de utilização da
tabela foi o usual, com início no dígito situado na interseção da Quinta linha com a oitava
coluna da referida tabela. A seguir, foi calculada a resistência elétrica média da amostra de
dez dispositivos. Que valor você acha que foi obtido para essa média?
28
b-) Suponha agora que se pensasse em fazer amostragem estratificada. Em sua opinião,
seria isso razoável, no caso? Caso afirmativo, indique como você procederia , ainda
utilizando os números aleatórios. Suponha que o numero total de dispositivos a examinar
na amostra continue sendo dez.
c-) Suponha agora que tivesse sido utilizada amostragem estratificada uniforme, num total
ainda de dez dispositivos examinados, e que tivessem sido obtidos, no primeiro e no
segundo estratos, respectivamente, x1  33,8 e x 2  40,2 . Em quanto você estimaria a média da
população de cem dispositivos?
d-) Suponha agora que, dos setenta dispositivos provenientes do fornecedor A, tenha sido
colhida uma amostra sistemática de dez dispositivos, sendo constante o período de retirada
dos elementos para a amostra, e sendo conhecido que o segundo dispositivo a entrar no
almoxarifado (cujo valor da resistência elétrica é 38) pertencia a essa amostra. Calcule a
média dos valores da resistência elétrica observados nessa amostra.
5-) Os registros de uma companhia de seguros mostram que, entre 3800 sinistros reportados
‘a companhia durante certo tempo, 2600 são sinistros pequenos (inferiores a $200), enquanto
os outros 1200 são sinistros grandes ($200 ou mais). Para estimar o valor médio desses
sinistros, a companhia extrai uma amostra de 1%, alocada proporcionalmente aos dois
estratos, com os resultados seguintes (arredondados para o dólar mais próximo):
Sinistros pequenos
42 115 63 78 45 148
195 66 18 73 55 89
170 41 92 103 22 138
49 62 88 113 29 71
58 83
Sinistros grandes
246 355 872 649 253
338 491 860 755 502
488 311
Determine as médias dessas duas amostras e, em seguida, sua média ponderada,
tomando como pesos os dois tamanhos de estratos N1 = 2600 e N2 = 1200.
6-) Consideremos um estudo realizado em propriedades rurais de um município, composto
por 1000 propriedades rurais, distribuídas, quanto a sua área, conforme Tabela 1 e que neste
município sejam amostrados 50 propriedades.
Tabela 1: Distribuição do n° de propriedades rurais de um município qualquer, quanto a área e
n° de propriedades a serem amostradas por estrato (classes).
Área (ha)
0 ├ 20
20 ├50
50 ├ 100
100 ├ 200
200 ├ 400
Total
N° de
propriedades
500
320
100
50
30
1000
Amostra estratificada (n=50)
Uniforme
Proporcional
50
50
a-) Qual deverá ser o tamanho da amostra dentro de cada estrato no caso uniforme e no
proporcional?
29
b-) Determine a média amostral obtida para a amostragem estratificada uniforme e para a
amostragem estratificada proporcional. Comente os resultados.
7-) Em uma amostra de 32 elementos de uma população ordenada formada por 2432
elementos, qual dos elementos abaixo seria escolhido para pertencer a amostra, sabendo que o
elemento de ordem 1420 a ela pertence?
1648, 290, 725, 2025, 1120
8-) Ordene uma amostra de 15 elementos de uma população ordenada formada por 210
elementos, sabendo que o elemento de ordem 149 a ela pertence.
30
ANEXOS
ESTATÍSTICA USANDO O EXCEL
A palavra estatística provém do latim status, que significa estado. A primitiva utilização da estatística
envolvia compilações de dados e gráficos que descreviam vários aspectos de um estado ou país. Em 1662, John
Graunt publicou informes estatísticos sobre nascimentos e mortes. O trabalho de Graunt foi secundado por
estudos de mortalidade, tamanho de populações, rendas e taxas de desemprego. As famílias, os governos e as
empresas se apóiam largamente em dados estatísticos. Assim é que as taxas de desemprego, de inflação, os
índices do consumidor, as taxas de natalidade e mortalidade são calculadas cuidadosamente a intervalos
regulares, e seus resultados são utilizados por empresários para tomarem decisões que afetam a futura
contratação de empregados, níveis de produção e expansão para novos mercados.
1. INTRODUÇÃO
Primeiramente devemos instalar o módulo de Estatística que se encontra na opção Ferramentas. Se
Análise de Dados não aparecer como uma escolha no menu Ferramentas, a opção Suplementos, deste mesmo
menu, deve ser selecionada e dentro da caixa de diálogo Suplementos deve-se selecionar Ferramentas de
Análise, se existir tal caixa de verificação na lista “Suplementos Disponíveis”. Seguindo estes passos, a opção
Análise de Dados será incluída no menu Ferramentas.
Figura 1.1. Seleção de Ferramentas de Análise na caixa de diálogo “Suplementos”.
Figura 1.2. Algumas técnicas estatísticas disponíveis na Análise de Dados.
31
2. GRÁFICOS E TABELAS
2.1 TIPOS DE GRÁFICOS
1-) Porcentagem de votos (Gráfico de Linhas)
Lula
31,7
38,3
37,9
30,1
27,6
21,0
22,8
Meses
Abril
Maio
Junho
Julho
Agosto
Setembro
Outubro
FHC
20,2
23,5
22,8
30,5
36,3
42,8
43,5
PORCENTAGEM DE VOTOS PARA
PRESIDENTE
VOTOS
50
40
30
20
10
0
m
ab
r
il
ai
o
ju
nh
o
ju
lh
ag o
os
se
t
te o
m
br
ou o
tu
br
o
VOTOS
MESES
50
40
30
20
10
0
MESES
2-) A tabela abaixo apresenta os percentuais de reprovação de uma determinada disciplina no ano letivo (Gráfico
de Colunas):
Bimestres
1º
2º
3º
4º
Porcentuais
45%
35%
55%
15%
32
3-) A Próxima tabela apresenta a avaliação dos estudantes, em porcentagens, com relação à
UNE (união Nacional dos Estudantes) (Gráfico de Barras)
4%
25%
27%
9%
13%
22%
Ótimo
Bom
Regular
Ruím
Péssimo
Não avaliaram
4-) Situação conjugal dos presos de um determinada cadeia (Gráfico de Setores)
Solteiros
Casados
Namorados
55%
18%
27%
Gráfico de setores
Solteiros
Casados
Namorados
Namorados
27%
Casados
18%
Solteiros
55%
33
Considere agora o exemplo A para desenvolver as próximas ferramentas
estatísticas no Microsoft EXCEL
Exemplo A: Em uma escola tomou-se a medida da altura de cada um de quarenta estudantes,
obtendo-se os seguintes dados (em centímetros):
160
163
155
163
152
156
151
167
155
162
158
157
154
161
166
152
161
161
169
178
162
171
170
165
162
160
158
156
161
170
160
155
150
156
168
153
160
164
164
155
Fazer a distribuição de freqüência e usar 6 classes. (iniciando por 150cm e terminando
em 180cm) e responder as questões abaixo:
a) Quantos são os estudantes com estatura inferior a 160cm?
b) Que porcentagem de estudantes tem estatura igual ou superior a 175cm?
c) Quantos são os estudantes com estatura maior ou igual a 160cm e ao mesmo tempo
menor que 175cm?
d) Qual a porcentagem de estudantes com estatura abaixo de 170cm?
2.2 TABELAS DE FREQÜÊNCIAS
No Microsoft EXCEL, para obter tabelas de freqüências, a opção do Histograma da ferramenta Análise
de Dados, encontrada no menu Ferramentas, pode ser utilizada. Para isto, os limites superiores dos intervalos de
classe devem ser inseridos na planilha que contém os dados a serem analisados.
Passo 1: Após ter digitado os dados do exemplo A na coluna A da planilha 1 do Excel, digite os limites
superiores desejados da tabela de freqüências na coluna C da mesma planilha.
Passo 2: Depois disso selecione a opção Histograma da ferramenta Análise de Dados, encontrada no
menu Ferramentas e preencha a caixa Histograma. (ver figura 2.1).
Figura 2.1. Seleção do intervalo de dados e dos limites superiores das classes para a construção da tabela de
freqüência.
34
Passo 3: Agora criamos uma tabela de freqüências na planilha 4 do Excel que é a
seguinte:
Tabela 2.1.Tabela de Freqüência para a variável altura
Bloco
Freqüência
155
10
160
10
165
12
170
6
175
1
180
1
Mais
0
A freqüência relativa e a percentagem de cada classe podem ser incluídas na tabela acima, através da
inserção das seguintes funções:
Tabela 2.2. Tabela de Freqüência Completa para a variável altura
Percentagem
Bloco
155
160
165
170
175
180
Mais
Total
Freqüência
10
10
12
6
1
1
0
40
Freq. Relativa
0,25
0,25
0,3
0,15
0,025
0,025
0
1
25
25
30
15
2,5
2,5
0
100
=(B2/$B$9)
=(C2*100)
=SOMA(B2:B8)
Através da tabela acima verifica-se que o intervalo com maior concentração dos dados é o intervalo
entre 165 e 170, com 30% das observações, enquanto que nenhuma observação foi coletada acima de 180.
2.3 GRÁFICOS PARA TABELA DE FREQÜÊNCIA
Como vimos, para uma distribuição de freqüências, o gráfico mais apropriado é o Histograma
O histograma é uma importante ferramenta de análise porque fornece visualmente uma
idéia da variação dos dados, da tendência central e indica a quantidade de dados que está fora
das especificações.
No Microsoft EXCEL, um histograma pode ser construído da seguinte maneira:
35
2.3.1 HISTOGRAMA
Passo1: Selecione os comandos Ferramentas, Análise de Dados, Histograma e clique em OK;
Passo2: Defina o intervalo com os dados da variável a ser analisada e o intervalo com os limites
superiores dos intervalos, digitando-os ou clicando no botão ao lado direito da caixa de edição e
selecionando, na planilha, o intervalo de dados. Selecione, também, as opção Resultado do Gráfico como na
figura a seguir e clique em OK;
Figura 2.2. Construção do Histograma.
O gráfico construído conterá dois erros. Existem lacunas entre as barras que correspondem aos
intervalos de classe, e existe uma classe adicional, denominada Mais pelo Excel. Para eliminar as falhas, o
seguinte procedimento deve ser realizado:
Passo 3: Com um clique duplo sobre uma barra do gráfico, abra a caixa de diálogo Formatar
Seqüências de Dados, selecione a aba Opções;
Passo 4: Na caixa de edição Espaçamento, modifique o valor para zero (0). Clique no botão OK. O
Histograma conterá, assim, barras contínuas.
Para remover a classe adicional, o procedimento a seguir deve ser feito:
Passo 5: Aparecerá um segundo conjunto de pontos de dados sobrepostos às barras junto com uma
fórmula que começa com a palavra Seqüências na caixa de edição acima das planilhas de trabalho, na Barra
de Fórmulas;
Passo 6: Na Barra de Fórmulas, modifique a célula final de $B$8 para $B$7 e tecle Enter;
Passo 7: O gráfico resultante tem agora o número apropriado de classes.
36
Freqüência
Histograma
14
12
10
8
6
4
2
0
Freqüência
155 160 165 170 175 180
Bloco
Figura 2.3. Histograma para a variável altura
Pelo Histograma acima, verifica-se que as observações de altura variam entre 150cm e 180cm. A
maioria das observações esta entre 150cm e 165cm. O intervalo com maior número de observações é o terceiro
que varia de 160cm a 165cm.
Se desejarmos ainda, podemos modificar os “títulos” do gráfico e das variáveis, inclusive o tamanho da
letra (fonte) e a cor das barras. Para isso, basta clicarmos no cantinho do gráfico (ainda no excel) e depois que
estiver marcado com uns quadradinhos pretos, basta clicarmos em cima de cada item a ser modificado (título do
gráfico, título das variáveis, valores das variáveis e também na barra do histograma).
2.3.2
POLÍGONO DE FREQÜÊNCIA
No polígono de freqüências, cada intervalo de valores é representado pelo seu ponto médio.
Resumidamente, este gráfico é construído pela conexão, através de uma série de linhas retas, da seqüência de
pontos médios em seus respectivos percentuais de intervalo.
Como no histograma, o fenômeno de interesse é exibido ao longo do eixo horizontal e o eixo vertical
representa a freqüência relativa ou absoluta de cada intervalo.
No Microsoft EXCEL, o polígono de freqüência pode ser construído através do Assistente de Gráfico,
através do seguinte procedimento:
Passo 1: Selecione na tabela de freqüências, descrita na seção 2.1., as colunas que contêm os limites
superiores dos intervalos e as freqüências de cada intervalo de dados, como na figura abaixo;
37
Figura 2.4. Seleção dos intervalos de dados.
Passo 2: Selecione Inserir, Gráficos e Linhas. Selecione, então, o formato do gráfico de linhas na etapa
1 das 4 etapas do assistente de gráficos e clique em Avançar, como na Figura 2.5.
Figura 2.5. Definição do formato do Polígono de Freqüência.
38
Passo 3: Como os intervalos de dados já foram definidos, clique também em Avançar na etapa 2;
Passo 4: A etapa 3 consiste na definição estrutural do gráfico, na qual são definidos o título, a ausência
ou não de legenda e linhas de grade, título dos eixos, entre outras opções. Realizadas as escolhas sobre o
formato do gráfico, clique em Avançar e Concluir na etapa 4.
Se o polígono de freqüências for examinado, será possível verificar que as marcações de categorias no
eixo X referem-se aos limites superiores das classes, não aos pontos médios. Para alterar estas marcações, clique
duas vezes no eixo X a caixa de diálogo Formatar Eixos aparecerá. Selecione a aba Escala e selecione os
cruzamentos do Eixo dos Valores (Y) entre as categorias da caixa de verificação. Clique no botão OK. Altere,
na planilha da tabela de freqüências, os limites superiores pelos pontos médios de cada classe, automaticamente
estes valores serão trocados no gráfico.
Dessa forma, o polígono de freqüência, construído como definido acima, para estes dados é o seguinte:
Freqüências
Polígono de Freqüência
14
12
10
8
6
4
2
0
152,5
157,5
162,5
167,5
172,5
177,5
Altura
Figura 2.6. Polígono de Freqüências para a variável altura
Pelo polígono de freqüência acima, verifica-se que o intervalo de dados mais freqüente é o intervalo
com ponto médio igual a 162.5cm.
3
RESUMO E DESCRIÇÃO DOS DADOS ATRAVÉS DE MEDIDAS
No Microsoft EXCEL, as medidas de tendência central e dispersão podem ser calculadas através da
inserção de funções na planilha de dados, como será discutido em cada tópico específico.
3.1 MEDIDAS DE TENDÊNCIA CENTRAL
A maioria dos dados apresenta uma tendência de se agrupar ou concentrar em torno de um ponto
central, caracterizado pelo valor típico da variável observada. Determinar este valor típico é uma maneira de
resumir a informação contida nos dados, pois um único valor será escolhido para representar todos os outros.
Nesta seção serão apresentados três tipos de medidas de posição: a média, a mediana e a moda.
39
3.1.1
MÉDIA ARITMÉTICA
Vários tipos de médias de um conjunto de dados podem ser definidas. Neste texto, porém, apenas a
média aritmética, representada por X , será apresentada por ser o tipo de média mais utilizada.
No Microsoft EXCEL, a média aritmética pode ser calculada através da inserção de função na planilha
de dados, como será feito com o Exemplo A.
Então, voltando a planilha de dados do Excel, vamos considerar a coluna E como receptora dos resumos
dos dados (como a média, mediana, moda, amplitude, desvio-padrão e coeficiente de variação), assim, devemos
inserir, na célula E1 a função = MEDIA(A1:A40) e teclar enter.
O valor dessa média será 160,525. Embora nenhum aluno apresente altura igual a 160,525cm, este é o
valor da média aritmética, ou seja, o valor típico ou médio de altura, para este conjunto de dados.
3.1.2
MEDIANA
Usada como alternativa, em relação à média, para caracterizar o centro do conjunto de dados, a mediana
não é influenciada por pontos extremos ou discrepantes, por isso quando uma observação extrema está presente
no conjunto de dados é mais conveniente o uso da mediana do que da média para descrever o conjunto de
valores.
Para o Exemplo A, devemos inserir, na célula E2 a função = MED(A1:A40) e teclar enter.
O valor encontrado para a mediana será 160,5cm, ou seja, podemos dizer que 50% dos alunos têm
estatura maior que 160,5cm.
3.1.3
MODA
A moda também não é afetada pela ocorrência de valores extremos. A moda é também a única das
medidas de tendência central que faz sentido no caso de variáveis qualitativas. Assim, a categoria dessas
variáveis que aparecer com maior freqüência é chamada de categoria modal.
Um conjunto de dados pode ser classificado como unimodal, bimodal, multimodal ou amodal quando
possuir, respectivamente, uma, duas, mais de duas ou nenhuma moda.
Para o nosso exemplo, devemos inserir, na célula E3 a função = MODO(A1:A40) e teclar enter.
O valor encontrado para a moda será 160cm, ou seja, é mais freqüente encontrar alunos (nesse conjunto
de dados) com estatura igual a 160cm.
3.2 MEDIDAS DE DISPERSÃO
Sabemos que as informações fornecidas pelas medidas de posição necessita, em geral, ser
complementada pelas medidas de dispersão. Estas servem para indicar o quanto os dados se apresentam
dispersos em torno da região central. As medidas de dispersão caracterizam, portanto, o grau de variação
existente no conjunto de valores.
Vamos então encontrar as principais medidas de dispersão (amplitude, o desvio-padrão e o coeficiente
de variação) com o auxílio do Excel.
40
3.2.1
AMPLITUDE
No Microsoft Excel, a amplitude para o nosso exemplo será dada pela inserção de funções
=MÁXIMO(A1:A40)-MÍNIMO(A1:A40).
Assim, as alturas dos alunos diferem entre si por, no máximo, 28cm.
3.2.2
DESVIO PADRÃO
O desvio padrão, será definido, no Excel, pela função =DESVPAD(A1:A40).
Então, o desvio padrão encontrado foi de aproximadamente 6,23cm, ou seja, houve uma dispersão
“média” em torno da média aritmética de 6,23cm. Isto significa que a maioria das estaturas, nesse conjunto de
dados, concentra-se entre (160,525  6,23).
3.2.3
COEFICIENTE DE VARIAÇÃO
Como o coeficiente de variação, denotado por CV, é definido como o quociente entre o desvio padrão e
a média, freqüentemente expresso em porcentagem, devemos, no Excel, inserir a expressão =(E5/E1)*100, onde
E5 é a célula que contém o valor do desvio-padrão e E1 a célula que contém o valor da média aritmética e *100
para expressarmos o mesmo em porcentagem.
Sua vantagem, é caracterizar a dispersão dos dados em termos relativos a seu valor médio. Assim, uma
pequena dispersão absoluta pode ser, na verdade, considerável quando comparada com a ordem de grandeza dos
valores da variável e vice-versa.
O valor obtido para o CV foi de aproximadamente 3,88%, isto dizer que este conjunto de dados é
homogêneo, ou seja, não há grandes diferenças entre as estaturas dos alunos com relação a média.
OBS.: Algumas das principais medidas de tendência central e de dispersão podem ser calculadas
conjuntamente no Microsoft EXCEL, sem a necessidade da inserção de funções na planilha de dados. Esta
análise descritiva do conjunto de dados pode ser realizada através dos comandos Ferramentas, Análise de
Dados e Estatística Descritiva. Selecionadas estas opções, a caixa de diálogo Estatística Descritiva, apresentada
na Figura 3.1, será aberta para a especificação do intervalo de dados a ser analisado e das estatísticas de
interesse, que serão calculadas.
41
Figura 3.1. Módulos para realização da Análise Descritiva dos dados.
Especifique, então, o intervalo de dados a ser analisado na caixa de edição Intervalo de Dados,
digitando-o ou selecionando-o diretamente na planilha através do botão ao lado direito da caixa de edição.
Escolha a opção de saída das estatísticas e selecione a opção Resumo Estatístico. O resultado será uma nova
tabela contendo várias das medidas descritas nas seções anteriores.
Figura 3.2. Caixa de Diálogo “Estatística Descritiva”.
Logo, teremos a seguinte Tabela-Resumo
42
Coluna1
Média
160,525
Erro padrão
0,985138
Mediana
160,5
Modo
160
Desvio padrão
6,23056
Variância da amostra
38,81987
Curtose
0,216636
Assimetria
0,542412
Intervalo
28
Mínimo
150
Máximo
178
Soma
6421
Contagem
40
Tabela 3.1. Análise Descritiva da variável altura
Pela tabela acima, verifica-se que foram observados 40 valores de altura, variando entre 150 e 178 e
resultando em uma amplitude de 28cm. O valor mais freqüente (moda) é 160 e a média dos dados coletados
(160,525) é muito próxima ao valor da mediana (160,5), indicando a não existência de pontos muito extremos e
discrepantes que afetam o valor da média. A maioria dos valores de altura, neste conjunto de dados, concentra-se
entre 6,23cm em torno da média aritmética, situação evidenciada pelo desvio padrão.
43
44
Download