Estatística aplicada à engenharia

Aula 1
Introdução
A Estatística consiste de um conjunto de técnicas utilizadas em diversas situações
com o propósito de simplificar e facilitar a interpretação de um determinado fenômeno que
está sendo estudado. O método estatístico surge com a necessidade da ciência em satisfazer
uma série de indagações que não era possível com o método experimental. Neste contexto,
este método atua como uma ferramenta importante nos trabalhos de pesquisa das mais
diversas áreas do conhecimento como: Engenharia, Ciências Sociais, Educação, Medicina
entre outras.
A expansão da aplicação das técnicas estatísticas foi possível graças ao grande
avanço da Ciência na área de Informática a partir do Século XX que possibilitou a criação de
softwares que facilitaram a execução de cálculos e forneceram visualizações gráficas a
respeito do fenômeno estudado. O impacto da evolução tecnológica faz-se, sobretudo, sentir
na rapidez com que se analisa uma base de dados de grande dimensão e relativa
complexidade. Em um período anterior ao desenvolvimento de softwares estatísticos, muitas
técnicas, sobretudo as multivariadas, eram evitadas devido a complexidade de seus cálculos e
na demora na obtenção dos resultados.
O desenvolvimento da Estatística se deu principalmente a partir do Século XV
juntamente com outras áreas científicas. Levantamento de dados estatísticos para censos
populacionais e avaliações de produções agrícolas já eram utilizados na Europa no Século XI,
no entanto, passou a ter um papel importante com o desenvolvimento da teoria da
probabilidade, pois interagiu de forma intensa com diversos ramos da ciência (GADELHA,
2004).
Contribuições importantes foram dadas à Estatística por pesquisadores de Ciências
Sociais. No Século XVII, John Grunt e Willian Petty utilizaram a Estatística para analisar os
índices de natalidade e mortalidade em Londres. Mais tarde, em 1693, Edmond Halley
construiu a primeira tabela de sobrevivência elaborada com registros vitais da cidade alemã
de Breslaw (atual Wroclaw, Polônia) referente ao período de 1687 a 1691 (MEMORIA, 2004).
Christian Huygen, mais conhecido por suas importantes contribuições à
astronomia, à ótica e à teoria ondulatória da luz publicou a primeira obra sobre teoria da
probabilidade. Ele foi o primeiro a utilizar o termo esperança matemática e com dados
estatísticos levantados por John Grunt, em 1662, construiu uma curva de mortalidade e
definiu a noção de vida média e probabilidade de sobrevida (GADELHA, 2004).
Matemáticos como Blaise Pascal (1623-1662) e Pierre Fermat (1601-1665) deram
valiosas contribuições na aplicação sistemática de análise matemática e estabelecimento de
regras gerais para a solução de jogos de azar que deu origem a teoria da probabilidade.
Nicolo Fontana Tartáglia (1499-1557), Girolano Cardano (1501-1576) e Galileu Galilei
(1564-1642) também deram contribuições importantes desenvolvendo princípios estatísticos
de probabilidade. Cardano definiu probabilidade de um evento como sendo a razão entre o
número de resultados favoráveis e o número de resultados possíveis. Galileu fez um estudo
completo sobre resultados possíveis em jogos de dados e Tartáglia realizou estudos de
calculo de probabilidade e combinatoriais. Jacob Bernoulli (1654-1705) provou a lei dos
grandes números, o que marcou o início de uma nova era na teoria da probabilidade. Essa lei
foi o primeiro teorema limite de probabilidade, fundamental para a moderna teoria de
amostragem. DeMoivre (1667-1754), matemático francês, propõe técnicas para reduzir
problemas de probabilidade a equações diferenciais e usar funções geratrizes para resolver
estes problemas. Estas equações foram, mais tarde aperfeiçoadas por Laplace (1749-1827)
que obteve para as seqüências de Bernoulli o Teorema Central do Limite. Em 1733, DeMoivre
publicou um trabalho no qual introduz pela primeira vez a distribuição normal que usou
como aproximação para a distribuição binomial. Daniel Bernoulli (1700-1782), outro
membro de uma família de grandes matemáticos, foi o primeiro a propor o uso de
estimativas de máxima verossimilhança e aplicar o cálculo diferencial ao invés de
combinatoriais na solução de problemas de probabilidade. Computou também a primeira
tabela da distribuição normal em 1738 (cinco anos após DeMoivre tê-la descoberta). O
matemático e físico suíço Leonard Euler (1707–1783) também deu contribuições
importantes na aplicação de probabilidade na análise de loterias, demografia e seguros. Uma
contribuição significativa à combinatória foi feita pelo filósofo e matemático alemão
Gottfried W. Leibniz (1646-1716) (o primeiro a criar, em 1684, o cálculo diferencial e
integral). Os estudos de Leibniz contribuíram para o desenvolvimento de linguagens
modernas de lógica de computação e teoria da probabilidade (STINGLER, 2002).
O naturalista francês George-Louis Leclerc, o conde de Buffon, (1707–1788), abriu
caminho para o desenvolvimento da paleontologia e investigou a origem dos planetas como
produto de colisões para o qual fez estudos de probabilidades. Thomas Bayes (1702–1761),
teólogo e matemático inglês, contribuiu muito para a Estatística. LaPlace (1749-1827)
deduziu a fórmula hoje conhecida como regra de Bayes, nome dado mais tarde por Poincaré
(MEMORIA, 2004).
No Século XIX o alemão Carl Friedrich Gauss (1777–1855), um dos maiores gênios
da matemática, estabeleceu a relação da distribuição de erros de medidas com a curva
normal e desenvolveu o método dos mínimos quadrados. Entretanto, o matemático francês
André Marie Legendre (1752–1833), já havia proposto a aplicação desse método ao
combinar observações astronômicas e geodésicas baseado em critério intuitivo (STINGLER,
2002).
Siméon-Denis Poisson (1781–1840), outro grande personagem no desenvolvimento
da estatística propôs a aplicação da teoria da probabilidade em correções de decisões
judiciais para o qual deduziu a distribuição que hoje leva seu nome. A distribuição de Poisson
é utilizada na análise de vários problemas relativos a ocorrências de eventos aleatórios no
tempo e no espaço (estudo de filas, radioatividade entre outros) (GADELHA, 2004).
Outras contribuições dadas à Estatística pelas ciências sociais e biológicas foram
feitas através de Adolphe Jacques Quetelet (1796–1874) e Sir Francis Galton (1822–1911)
respectivamente. As maiores contribuições de Quetelet na análise estatística de dados sociais
foram o conceito de homem médio e o ajustamento da distribuição normal conjugados com a
interpretação de regularidade estatística. Quetelet usou a curva normal no ajuste de
medidas de peso estatura e perímetro torácico em recrutas franceses. Coletou também dados
sobre criminalidade e delinqüência agrupando-os de acordo com o sexo, idade, escolaridade
e o tipo de delito, introduzindo a idéia de predisposição ao crime. As contribuições mais
notáveis de Galton foram a enunciação do conceito de regressão e correlação (MEMORIA,
2004).
Karl Pearson (1857–1936) focou seus estudos em problemas de Biologia e teoria
evolucionista. Em 1883 inventou o nome desvio padrão para representar a média quadrática
dos afastamentos a partir da média de uma distribuição de freqüências. Seus trabalhos
deram contribuições importantes à teoria da regressão, coeficiente de correlação e o teste de
significância estatística chamado de Qui-quadrado. Entre 1906 e 1914, Pearson fundou e
desenvolveu um centro de pós-graduação em Estatística como extensão da disciplina de
Matemática Aplicada. Pearson é conhecido por seus importantes trabalhos em diferentes
campos do conhecimento humano como Antropologia, Biometria, Genética, Métodos
Científicos e outros. Inicialmente, ganhou fama devido aos seus estudos sobre o
comportamento assimétrico das distribuições de freqüências, seus estudos levaram ao
desenvolvimento da regressão e correlação múltiplas. (STINGLER, 2002)
Willian Sealey Gosset (1876-1937), conhecido pelo pseudônimo de Student, estudou
Matemática e Química e deu contribuições importantes a Estatística com seus trabalhos
sobre pequenas amostras. Estes trabalhos foram continuados por Sir Ronald Aylmer Fisher
(1890-1962). O interesse de Fisher pela Estatística decorreu do interesse pela Genética e pelo
estudo da teoria da evolução de Darwin. Fisher correspondeu-se com Gosset para conhecer
mais a respeito de sua equação sobre o desvio padrão, chegando a conclusões importantes
sobre a diferença entre as médias amostrais e populacionais. Formulou a teoria dos graus de
liberdade e provou ser verdadeira a formulação matemática de Gosset sobre o assunto.
Fisher desenvolveu a teoria do teste de hipótese chamada de análise de variância. Em 1922 e
1925 publicou dois importantes estudos a respeito de estimações (Inferência Estatística) a
partir de pequenas amostras. Rao relatou que Fisher foi também o arquiteto da análise
multidimensional servindo como base para diversos trabalhos. (STINGLER, 2002)
A teoria clássica dos testes de hipóteses foi fruto da colaboração de dois eminentes
estatísticos, Jerzy Neyman (1894–1981) e Egon Sharpe Pearson, filho de Karl Pearson.
Neyman é considerado um dos grandes fundadores da Estatística moderna teorizando sobre
probabilidades, teste de hipóteses, intervalo de confiança, teste de qui-quadrado e outras
áreas da Estatística. As idéias de Neyman e E. Pearson foram disputadas por matemáticos da
época, incluindo Fisher (MEMÓRIA, 2004).
É oportuno registrar que nessa época ainda não havia sido axiomatizado o cálculo
de probabilidades que só se deu em 1933 com a obra do matemático russo Andrei
Nikolaevich Kolmogorov (1903-1987). Kolmogorov foi um dos mais importantes
matemáticos do Século XX com trabalhos em várias áreas da Matemática. Em 1929, publicou
o trabalho Teoria Geral de Medidas e Teoria de Probabilidades, neste foi apresentada pela
primeira vez uma descrição da construção axiomática de probabilidade baseada na teoria de
medidas que havia sido criada em torno de 1901 por Henry Lebesgue (1875-1941) e Émile
Borel (1871-1956). Em 1933, desenvolveu em seu trabalho a teoria de probabilidade de
forma bastante rigorosa a partir de fundamentos da axiomatização. Obteve-se então, a base
para o desenvolvimento da teoria dos processos estocásticos e definição rigorosa de
esperança condicional (STINGLER, 2002).
Pode-se observar, a partir do relato histórico acima, que durante o desenvolvimento
da Ciência, sobretudo a partir do Século XV, floresceram numerosas pesquisas estatísticas
cobrindo domínios tão diversos como ciências sociais, biológicas e outros. Progressivamente,
a finalidade “social e política” da Estatística se desdobrou em uma finalidade científica.
A década de 70 foi marcada pelo agravamento dos problemas ambientais, e,
conseqüentemente, pela maior conscientização desses problemas em todo o mundo.
Pesquisadores de diversas áreas do conhecimento voltaram sua atenção para o estudo do
meio ambiente relatando problemas de contaminação do ar, nas bacias hidrográficas e na
litosfera. O uso de técnicas estatísticas tornou-se importante no conhecimento dos fenômenos
que permeiam a contaminação do meio ambiente e suas conseqüências sociais, auxiliando na
obtenção de respostas e tomada de decisões (YABE et al., 1998).
O uso de técnicas estatísticas multivariadas, no início do Século XX, eram bastante
restritas devido a complexidade dos cálculos. Graças ao desenvolvimento da informática,
sobretudo a partir da II Guerra Mundial tornou-se possível a análise de qualquer tipo de
dados, sejam eles, ambientais, econômicos, sociais, comportamentais e outros. A evolução
tecnológica facilitou a execução de cálculos, oferecendo rapidez e confiança nos resultados.
As limitações metodológicas deixaram de ser uma preocupação, existindo uma bibliografia
extensa e variada sobre métodos de análises estatísticas (REIS, 2001).
Estatística aplicada à engenharia
A Estatística aplicada à engenharia é um ramo da estatística que estuda as suas
aplicações à engenharia, onde o maior uso seja talvez no controle de processos de produtos e
serviços. Mas também é usada, por exemplo, no planejamento de novas estratégias de
produção, vendas, etc. Existe uma preocupação da Estatística aplicada à Engenharia que se
localiza no Controle de Processos e Manufatura, analisando distribuições e lotes para
padrões de qualidade nos produtos. Por exemplo, para a Engenharia de Alimentos, há certa
estatística na Análise Sensorial, para observar a aceitação de um produto manufaturado em
relação ao público. A estatistica é aplicada na produção para acompanhar a estabilidade dos
processos, esta estabilidade é analisada por cartas de acompanhamento conhecida como
cartas de controle estatistico de processo. Também se utiliza a estatistica para analisar
ensaios tanto destrutivos como não destrutivos, verificando a porcentagem de peças não
conforme ou probabilidade de vida de equipamentos ou peças. Utiliza-se estatistica em
calibração de equipamentos de medição e na analise dos mesmos também na verificação da
condição de uso dos mesios de medição, esta analise esta definida no M.S.A. da norma
QS9000.
Fases do Trabalho Estatístico
O trabalho estatístico é um método científico, que consiste das cinco etapas básicas
seguintes:
1- Coleta com crítica dos dados
2- Tratamento dos dados (Tabulação)
3- Apresentação dos dados
4- Análise e conclusão dos resultados
Vamos tratar cada uma dessas etapas:
Coleta com crítica dos dados
Após definirmos cuidadosamente o problema que se quer pesquisar, damos início á coleta dos
dados numéricos necessários à sua descrição. A coleta pode ser direta ou indireta. A coleta é
direta quando feita sobre elementos informativos de registro obrigatório (nascimentos,
casamentos e óbitos, importação e exportação de mercadorias), elementos pertinentes aos
prontuários dos alunos de uma escola ou, ainda, quando os dados são coletados pelo próprio
pesquisador através de inquéritos e questionários.
A coleta direta de dados pode ser classificada relativamente ao fator tempo em:
a) Contínua – quando feita continuamente, tal como a de nascimentos e óbitos e a de
freqüência dos alunos às aulas.
b) Periódica – quando feita em intervalos constantes de tempo, como os censos e as
avaliações mensais dos alunos.
c) Ocasional – Quando feita extemporaneamente, a fim de atender a uma conjuntura ou a
uma emergência, como no caso de epidemias que assolam ou dizimam rebanhos inteiros.
A crítica é externa quando visa às causas dos erros por parte do informante, por distração ou
má interpretação das perguntas que lhe foram feitas; è interna quando visa observar os
elementos originais dos dados da coleta.
Tratamento dos dados
Nada mais é do que a soma e o processamento dos dados obtidos e a disposição mediante
critérios de classificação Pode ser manual ou eletrônica.
Apresentação dos dados
Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser
apresentados sob forma adequada – tabelas e gráficos – tornando mais fácil o exame daquilo
que está sendo objeto de tratamento estatístico.
Análise dos resultados
Após a apresentação dos dados devemos calcular as medidas típicas convenientes para
fazermos uma análise dos resultados obtidos, através dos métodos da Estatística Indutiva ou
Inferencial, e tirarmos desses resultados conclusões e previsões.
Conclusão
É de responsabilidade de um especialista no assunto que está sendo pesquisado, que não é
necessariamente um estatístico, relatar as conclusões de maneira que sejam facilmente
entendidas por quem as for usar na tomada de decisões.
População: é o conjunto de dados que possui as características de interesse. A população
pode ser todos os funcionários de uma empresa, todos os colaboradores de uma obra ou
todas as peças produzidas por uma máquina.
Amostra: é qualquer subconjunto da população. Muitas vezes não podemos acessar toda a
população e precisamos de um conjunto de valores representativos para inferir sobre ela.
Não podemos, por exemplo, testar todas as lâmpadas produzidas por uma empresa,
coletamos amostras e inferimos sobre a qualidade de toda a população de lâmpadas.
TABELAS
Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis
podem assumir, para que tenhamos uma visão global da variação dessa ou dessas variáveis.
E isto ela consegue, inicialmente, apresentando esses valores em tabelas e gráficos, que irão
nos fornecer rápidas e seguras informações a respeito das variáveis em estudo, permitindonos determinações administrativas e pedagógicas mais coerentes e científicas. Então
podemos dizer que as tabelas são quadros que resumem um conjunto de observações.
Uma tabela deve apresentar a seguinte estrutura:


Cabeçalho
o
O que? (referente ao fato)
o
Quando? (corresponde à época)
o
Onde? (relativo ao lugar)
Corpo
o
Colunas, sub-colunas dentro dos quais serão registrados os dados números e
informações.

Rodapé
o
Utilizado para informações pertinentes a tabela ou gráfico, bem como para
o registro e identificação da fonte de dados.
VARIÁVEIS  É, convencionalmente, o conjunto de resultados possíveis de um fenômeno.
Podem ser contínuas ou discretas. Contínua quando se refere a variáveis que são medidas
como temperatura, peso, comprimento, podendo assumir qualquer valor; e Discretas
quando se tratam de dados registrados, como exemplo, número de acidentes
automobilísticos, número de insetos que morrem por inseticidas, número de filhos de uma
família, resultado de lançamento de dados, etc.
Estatística descritiva: é em geral um conjunto de técnicas utilizadas em uma etapa inicial
da análise dos dados. O objetivo é tirar conclusões de modo informal e direito. Estas técnicas
permitem descrever e resumir os dados.
Interferência estatística: refere-se a um conjunto de técnicas que permitem inferir sobre
um grande conjunto de dados. Utilizamos a interferência quando existe a impossibilidade de
acesso a todo o conjunto de dados, por razões de natureza econômica, ética ou física.
Diante da população de interesse, uma ou mais amostras são coletada e os dados são
analisados descritivamente. Se o objetivo for estender o resultado para toda a população
devemos utilizar técnicas de inferência adequadas.
2. Organização dos dados
Considere um conjunto de dados, onde devemos extrair informações a respeito de uma
ou mais características.
Basicamente, definimos as variáveis de interesse e obtemos os dados brutos. O próximo
passo é resumir os dados em tabelas de freqüências e gráficos e descrever sobre o
comportamento desses dados.
Com o objetivo de investigar a ocorrência de acidentes de trabalho em um canteiro de
obras um pesquisador selecionou aleatoriamente 20 trabalhadores envolvidos em acidentes
para um estudo. As variáveis selecionadas para estudo são:
Idade (I): (em anos)
Escolaridade (Ec): Fundamental (F), Médio (M), Superior (S)
Sexo: M (masculino), F (feminino)
Estado civil: Solteiro (S), Casado(C), Divorciado (D).
Renda: (em salários mínimos)
T. Trabalho: (em anos)
H. Trabalho até a ocorrência do acidente: (em horas inteiras)
A tabela de dados brutos (Tabela 1), mostra revela algumas informações a respeito da
amostra selecionada
Tabela 1: Dados Brutos
Idade
Escolaridade
Sexo
E.Civil
Renda
T.Trabalho
H.Trabalho
25
19
20
23
30
22
42
20
19
26
32
23
18
19
20
21
26
22
20
19
M
F
F
F
S
M
M
F
F
F
M
F
F
F
M
F
S
M
F
F
F
M
M
M
F
M
M
F
F
M
M
F
M
M
M
M
F
M
F
M
S
S
C
S
S
S
C
S
S
S
C
C
S
S
S
S
C
S
S
S
3,5
1,5
1,5
2,0
5,0
1,8
1,8
1,5
1,8
1,6
2,0
1,4
1,5
1,5
3,0
1,4
5,2
4,5
2,0
2,4
3
1
1
2
5
3
1
2
1
3
2
1
1
2
4
3
1
4
2
3
8
5
10
9
4
6
9
10
8
7
7
9
10
10
6
2
10
9
3
6
Note que torna-se difícil uma análise da tabela de dados brutos e para facilitar o
estudo resumimos as informações em tabelas de freqüências.
Cada uma das características apontadas é chamada de variável.
O conjunto de informações obtidas após a tabulação dos dados é denominado tabela de
dados brutos. Note que as variáveis podem assumir valores numéricos ou não. Podemos
então classificar essas variáveis em:
Nominal - ex.: sexo (masculino ou feminino
Qualitativas
(valores não numéricos)
(não tem uma ordem natural)
Ordinal - ex: escolaridade (fundamental, médio, superior)
(ordem natural)
Discreta: ex.: horas de trabalho
Quantitativas
(valores numéricos)
(valores inteiros)
Contínua: ex.: renda
(assumem valores em intervalos reais)
Gráficos Estatísticos:
São representações visuais dos dados estatísticos que devem corresponder, mas nunca
substituir as tabelas estatísticas. Os mais utilizados são:
I – Gráficos em barras horizontais
II – Gráficos em barras verticais (Colunas)
III – Gráficos em barras compostas
IV – Gráficos em colunas superpostas.
V – Gráficos em linhas ou lineares
VI – Gráficos em setores (Pizza)
Acompanhe os exemplos abaixo:
I – Em barras horizontais
II – Em barras verticais (colunas)
III – Em barras compostas
IV – Em colunas superpostas
V – Em linhas ou lineares
VI – Em setores (pizza)
VII - Gráfico especial: O pictograma
São construídos a partir de figuras representativas da intensidade do fenômeno. Este
tipo de gráfico tem a vantagem de despertar a atenção do publico leigo, pois sua fora é
atraente e sugestiva. Os símbolos devem ser auto-explicativos. A desvantagem dos
pictogramas é que apenas mostram uma visão geral do fenômeno, e não de detalhes
minuciosos.
Vamos discorrer um pouco mais sobre três tipos de gráficos mais utilizados: barras,
setores e histograma.
O gráfico de barras utiliza o plano cartesiano com valores da variável nos eixos das
abscissas e as freqüências ou porcentagens no eixo das ordenadas. Este tipo de gráfico se
adapta melhor às variáveis discretas ou qualitativas ordinais. Na figura 1 temos o gráfico de
barras para a variável escolaridade.
Escolaridade
14
12
10
8
ni
6
4
2
0
F
M
S
Grau de Escolaridade
Figura 1 – Gráfico de barras para variável escolaridade
O gráfico de setores, também chamado de
pizza, se adapta bem às variáveis
qualitativas nominais. As dimensões das fatias podem ser calculadas multiplicando-se a
freqüência relativa (fi) por 360 (uma volta inteira da circunferência). A figura 2 mostra a
representação gráfica da variável sexo em estudo.
F
35%
126
º
Sexo
M
F
Total
0
M
65%
2340
º
ni
13
7
N = 20
fi
0,65
0,35
1
Graus
234o
126o
360o
Tamanho do setor
Figura 2 – Gráfico de setores para variável sexo.
O histograma consiste em retângulos contíguos com base na faixa de valores. Ele é
normalmente utilizado em variáveis quantitativas contínuas. A altura de cada retângulo é
denominada densidade de freqüência ou simplesmente densidade. A densidade é
determinada pelo quociente da freqüência relativa de classe fr pela amplitude da classe. O
histograma da variável renda é apresentado na figura 3.
Renda
0,8
0,6
55%
0,4
20%
0,2
10%
0
1,0
2,0
3,0
4,0
10%
5%
5,0
6,0
Figura 3 – Gráfico histograma da variável renda
O uso da densidade na construção do histograma evita distorções nos casos em que as
amplitudes das classes são desiguais.
AMOSTRAGEM
Como sabemos, a Estatística indutiva tem por objetivo tirar conclusões sobre as populações,
com base em resultados verificados em amostras retiradas dessa população.
Mas, para as inferências serem corretas, é necessário garantir que a amostra seja
representativa da população, isto é, a amostra deve possuir as mesmas características
básicas da população, no que diz respeito ao fenômeno que desejamos pesquisar. É preciso,
pois, que a amostra ou as amostras que vão ser usadas sejam obtidas por processos
adequados.
Isso pode ser feito de três formas:
1. Amostragem casual ou aleatória
Este tipo de amostragem é equivalente a um sorteio lotérico. Na prática, a amostragem
casual pode ser realizada numerando-se a população de 1 a n, sorteando-se, a seguir, por
meio de um dispositivo aleatório qualquer, K números dessa seqüência , os quais
corresponderá aos elementos pertencentes a amostra.
Exemplo:
Obtenha uma amostra representativa para a pesquisa da estatura de 90 alunos de uma
escola.
Passos: 1o – Numeramos os alunos de 01 a 90
2o – Escrevemos os números, 01 a 90, em pedaços iguais de um mesmo papel,
colocando-os dentro de uma caixa. Agitamos sempre a caixa para misturar bem os pedaços
de papel e retiramos, um a um, nove números que formarão a amostra. Nesse caso, 10% da
população.
Exemplos: Sorteio lotérico, bingo, etc.
2. Amostragem proporcional estratificada
Muitas vezes a população divide-se em sub-populações, estratos. Como, provavelmente, a
variável em estudo apresente, estrato em estrato, um comportamento heterogêneo e, dentro
de cada estrato, um comportamento homogêneo, convém que o sorteio dos elementos da
amostra leve em consideração tais estratos. È exatamente isso que fazemos quando
empregamos a amostragem proporcional estratificada, que além de considerar a existência
dos estratos, obtém os elementos da amostra proporcional ao número de elementos dos
mesmos.
Exemplo:
Supondo, no exemplo anterior, que, dos 90 alunos, 54 são meninos e 36 são meninas, obtenha
a amostra proporcional estratificada.
São, portanto, dois estratos diferentes, (sexo masculino e feminino) e queremos uma amostra
de 10% da população. Logo temos:
Sexo
População
10%
amostras
M
54
5,4
5
F
36
3,6
4
Totais
90
9,0
9
3. Amostragem sistemática
Quando os elementos da população já se acham ordenados, não há necessidade de construir
o sistema de referencia. São exemplos os prontuários médicos de um hospital, os prédios de
uma rua, as linhas de produção, etc. Nestes casos, a seleção dos elementos que constituirão a
amostra pode ser feita por um sistema imposto pelo pesquisador. A esse tipo de amostragem
denominamos sistemática.
Assim, no caso de uma linha de produção, podemos, a cada dez itens produzidos, retirar um
para pertencer a uma amostra da produção diária. Neste caso estaríamos fixando o
tamanho da amostra em 10% da população.
Elementos de uma distribuição em intervalos de freqüência
I. Classe  Classe ou classes de uma freqüência, são intervalos de variação da variável
observada.
II. Limite de uma classe  São os extremos de uma classe.
III. Amplitude de um intervalo de classe  É a medida do intervalo que define a classe. De
quanto em quanto os valores estão agrupados.
IV. Amplitude total da distribuição  È a diferença entre o limite superior da última
classe e o limite inferior da primeira classe.
V. Amplitude amostral  È a diferença entre o valor máximo e o mínimo da amostra.
Lembre-se que a amostra são os dados que realmente existem não os valores dos intervalos
montados.
VI. Ponto médio de uma classe (xi) È a média da classe. È o ponto exatamente no meio da
classe. È indicado por xi.
Exercícios
1. A tabela abaixo apresenta as vendas diárias de passagens para fora do Brasil
durante um mês, por certa agência:
14 12 21 13 24 13
12 24 13 14 11 12
12 14 10 23 15 11
15 19 16 17 14 14
a. Faça uma distribuição de freqüência com amplitude igual a três e limite inferior da
primeira classe 10, mostrando o ponto médio de cada classe.
b. Qual a amplitude total da distribuição?
c. Qual a amplitude amostral?
Quantidade de Classes de uma tabela: Como calcular?
O número de classes é representado por K. É importante que a distribuição tenha um número
adequado de classes. Para determinar o número de classes há diversos métodos. Um é
utilizando a regra de Sturges onde estabelece que: K = 1+3,23.log n, onde n é igual a
somatória de Fi. Uma vez utilizando essa fórmula, devemos sempre arredondar o resultado.
Vamos calcular para um total de 50 pesquisados. Temos então que n = 50, então  K =
1+3,23.log 50, temos então:
K = 1+ 3,23. 1,602
K = 1 + 5,17
K = 6,17
K = 6 ou 7 (arredondando conforme a conveniência. Acostuma-se arredondar para o
inteiro mais próximo, nesse caso, para 6)
Outro método mais simples é fazer K = k  n , ou seja, k = 6,32.
Amplitude do intervalo de uma classe (h): Como calcular?
Uma vez calculado a quantidade de classes, devemos determinar a amplitude do intervalo de
cada classe através da seguinte expressão:
h=
Amplitude _ Amostral
número _ de _ classes
Mais sobre freqüências:
Observe a tabela abaixo observando o teor de cada coluna:
i
1
2
3
4
5
6
Estaturas (cm)
150
154
154
158
158
162
162
166
166
170
170
174
Total
40
i  as classes
fi
4
9
11
8
5
3
xi
152
156
160
164
168
172
fi  a freqüência absoluta observada
xi  o ponto médio
Fac  a freqüência acumulada
Fri  a freqüência relativa observada
Frac  a freqüência relativa acumulada
Fac
4
13
24
32
37
40
100,0
Fri
10,0
22,5
27,5
20,0
12,5
7,5
Frac
10,0
32,5
60,0
80,0
92,5
100,0