Estatística - UNIPVirtual

Propaganda
Estatística
Professor conteudista: Maurício Martins do Fanno
Sumário
Estatística
Unidade I
1 COLETA DE DADOS .............................................................................................................................................7
1.1 Dados e variáveis estatísticas .............................................................................................................7
1.2 Classificações das variáveis .............................................................................................................. 10
1.3 Amostragem ............................................................................................................................................11
1.4 Processos estatísticos ......................................................................................................................... 15
1.5 Coletas de dados................................................................................................................................... 16
2 REPRESENTAÇÃO DOS DADOS COLETADOS ......................................................................................... 19
2.1 Conceito de frequência ...................................................................................................................... 19
2.2 Distribuições ou tabelas de frequências ..................................................................................... 20
2.2.1 Dados isolados ou dados não agrupados em classes ............................................................. 20
2.2.2 Dados agrupados em classes ............................................................................................................ 21
2.3 Frequências acumuladas ................................................................................................................... 26
2.4 Representações gráficas .................................................................................................................... 28
2.4.1 Histogramas .............................................................................................................................................. 28
2.4.2 Gráfico de colunas ................................................................................................................................. 30
2.4.3 Gráfico de barras ..................................................................................................................................... 31
2.4.4 Diagrama de ogiva ................................................................................................................................. 32
2.4.5 Setorgrama ................................................................................................................................................ 34
2.4.6 Gráficos de dispersão ............................................................................................................................ 36
Unidade II
3 MEDIDAS OU PARÂMETROS ESTATÍSTICOS .......................................................................................... 39
3.1 Média......................................................................................................................................................... 40
3.2 Mediana ................................................................................................................................................... 43
3.3 Moda ......................................................................................................................................................... 49
4 MEDIDAS DE DISPERSÃO ............................................................................................................................. 55
4.1 Medidas de dispersão absolutas ..................................................................................................... 55
4.1.1 Amplitude total ....................................................................................................................................... 55
4.1.2 Desvio médio ............................................................................................................................................ 56
4.1.3 Variância ..................................................................................................................................................... 59
4.1.4 Desvio padrão........................................................................................................................................... 60
4.2 Medidas de dispersão relativas ....................................................................................................... 66
4.3 Relações gráficas entre as medidas estatísticas ...................................................................... 68
4.3.1 Assimetria .................................................................................................................................................. 70
4.3.2 Curtose ........................................................................................................................................................ 71
ESTATÍSTICA
Unidade I
Apresentação da disciplina
Prezado aluno,
Este texto foi produzido para apresentar os principais
conceitos de estatística da maneira mais aproximada da prática
administrativa possível, evitando-se, portanto, aprofundamento
5 desnecessário na área de cálculo. É necessária, no entanto, uma
base matemática já adquirida em disciplinas anteriores. Na
medida do possível, procurou-se rever os conceitos matemáticos
necessários.
O estudo da estatística, como de todas as ciências exatas,
10 obriga à repetição, o maior número de vezes possível, de exercícios
de fixação. No presente material, os cálculos definidos são
mostrados uma única vez, como exemplo, mas o aluno deve se
lembrar de que terá à disposição nos materiais complementares
uma grande quantidade de exercícios e problemas e que o
15 aprendizado somente será garantido caso eles sejam feitos em
sua totalidade.
Objetivamente, o primeiro passo do nosso caminhar é
entender o que é, como se divide e são quais os objetivos da
estatística, algo que faremos imediatamente.
20
Define-se estatística como o conjunto de métodos e
processos destinados a permitir o entendimento de um universo
submetido a certas condições de incerteza, ou seja, de não
determinismo matemático. Por exemplo, o dimensionamento do
diâmetro das hastes do amortecedor de um automóvel é feito
1
Unidade I
por meio de cálculos matemáticos de elevada precisão estudados
num capítulo da física chamado de resistência de materiais.
No entanto, a vida útil deste mesmo amortecedor
depende não só de seu dimensionamento, mas também de
5 uma série de condições em que impera a incerteza que pode,
resumidamente, ser chamada de condições de uso. Neste
último caso, entraríamos no campo da estatística. De modo
mais sintético, poderíamos dizer que a estatística é a ciência
que se ocupa de descrever, analisar e interpretar dados
10 experimentais.
Para entendermos melhor o processo estatístico, é
necessário definir dois conceitos básicos: população e
amostra. Considera-se população o conjunto formado por
todos os elementos que têm em comum a característica que
15 estamos estudando. Por exemplo, se estamos pesquisando
sobre o aprendizado de música, a população é formada por
todas as pessoas que aprendem ou aprenderam música em
algum momento.
Deve-se notar que a população estatística normalmente é
20 muito numerosa, às vezes infinita, e eventualmente formada
por elementos ainda não existentes. Assim, quando queremos
saber qual é a expectativa de vida de um brasileiro, estamos
diante de uma população muito extensa (todos os brasileiros)
e formada por elementos prováveis, visto que as pessoas que
25 estão sendo estudadas ainda não morreram.
Em razão dessas características da população, o processo
estatístico começa pelo estudo de uma amostra, que é um
pedaço da população. Mas um pedaço coerente com a população,
ou seja, que siga todas as características da população. Assim,
30 por exemplo, se determinada população tem 62% de mulheres,
as amostras tiradas dela terão que ter 62% de mulheres se o
sexo for fator importante no comportamento da característica
estudada.
2
ESTATÍSTICA
Uma amostra é finita e tem relativamente poucos elementos,
de valores definidos. Deste modo, se quisermos definir a
expectativa de vida de todos os brasileiros, pegaríamos uma
amostra finita de poucos brasileiros já mortos. Assim, haveria
5 poucos elementos a se estudar e de valor definido (a idade em que
morreram). Deve-se ressaltar que essa amostra retirada deveria
reproduzir todas as condições importantes para a duração da
vida da população, tais como sexo, posição socioeconômica,
educação, etc.
10
Tanto os elementos das populações quanto os elementos das
amostras assumem valores para a característica que estamos
estudando; por exemplo, a população formada pelos seguidores
religiosos pode apresentar católicos, evangélicos, espíritas, etc.
Esses são alguns dos valores que a variável religião pode assumir.
15 Assim, a característica da população ou da amostra que estamos
estudando pode ser expressa em termos de uma variável, que
pode assumir diferentes valores. Podemos distinguir as variáveis
em dois grupos:
20
25
30
• variáveis qualitativas: apresentam atributos como valor,
por exemplo, cor de cabelos, opções sexuais, times de
futebol etc.;
• variáveis quantitativas: apresentam valores numéricos,
tais como peso de pessoas, idade, número de defeitos na
produção de uma peça, etc. Também podem ser divididas
em duas categorias:
- discretas: são variáveis que podem apresentar apenas
valores predeterminados dentro de um conjunto, ou
seja, não existirão valores intermediários. Exemplo:
números de filhos de um casal; número de defeitos
numa linha de produção; quantidade de ações em
alta numa bolsa de valores, etc. Essas variáveis estão
ligadas às contagens;
3
Unidade I
5
- contínuas: apresentam teoricamente qualquer valor
dentro de um faixa possível. Por exemplo: pesos dos
estudantes desta faculdade, diâmetros dos eixos
produzidos por certa máquina; índices de inflação em
vários períodos, etc. Essas variáveis estão ligadas às
medições.
Deve-se notar que essa diferenciação entre variáveis
discretas e contínuas pode ser tênue, em função da quantidade
de elementos envolvidos e da precisão de medida. Por exemplo:
10 se medirmos o diâmetro de uma peça com paquímetro, iremos
obter medidas em centésimos de milímetro, quer dizer, a medida
18,56 mm na verdade é um valor entre 18,555 e 18,564; não é
possível saber, a menos que troquemos o paquímetro por um
micrômetro. Assim sendo, a variável contínua diâmetro da peça
15 se comporta como discreta após a precisão de centésimos de
milímetro.
A existência dos conceitos de população e de amostra nos
conduz à diferenciação entre dois campos da estatística: a
estatística descritiva e a estatística indutiva.
20
A estatística descritiva cuida da coleta, da organização, do
resumo e da apresentação dos dados de um conjunto (no fundo,
é um tratamento das variáveis estatísticas). Evidentemente,
esse conjunto tem que ser finito e com elementos com valores
definidos e determináveis, ou seja, uma amostra.
25
Já a estatística indutiva procura inferir conclusões e respaldar
decisões coerentes acerca de uma população, normalmente
respaldadas em dados obtidos pela estatística descritiva de uma
amostra.
Vamos supor que queiramos determinar a expectativa de
30 vida dos brasileiros. A população, evidentemente, é todos os
brasileiros vivos. O que nos conduz a dois entraves: a quantidade
de elementos da população é muito grande e os valores da
4
ESTATÍSTICA
variável, idade de morte, são prováveis, não reais. A maneira
de se contornar isso é através de amostragem: pegamos
uma amostra (segundo regras estatísticas que veremos) que
represente a população brasileira, ou seja, mesma divisão por
5 sexos, classes sociais, regiões geográficas etc., e cujos elementos,
já tendo morrido, permitam a coleta das idades de morte. Essa
coleta, bem como todo o tratamento posterior da amostra, é
feita através da estatística descritiva, e os resultados deste
tratamento estatístico da amostra são estendidos à população
10 toda, através de ferramentas da estatística indutiva.
Desta forma, podemos determinar a expectativa de vida de
todos os brasileiros, com algumas ressalvas:
15
• a indução vale para a população como um todo
homogêneo; não é possível aplicá-la para um indivíduo
específico;
20
• a previsão é de um valor provável, portanto, sujeito a
um erro estatístico, ou seja, a uma faixa de incerteza,
determinada estatisticamente, em torno do resultado
esperado. Esse erro depende das condições da população
e da amostra.
Note que quando falamos de um resultado obtido para uma
população, falamos em valor provável, e não num valor exato.
Isso nos remete ao campo da matemática que estuda a teoria
das probabilidades.
25
O estudo da teoria das probabilidades com os estudos da
estatística descritiva e da amostragem são as ferramentas
necessárias para a utilização da estatística indutiva.
Neste curso de estatística, trataremos da estatística descritiva,
ficando para o curso de estatística para administradores o estudo
30 de probabilidades e da estatística indutiva.
5
Unidade I
O curso de estatística foi dividido em duas unidades,
totalizando quatro módulos. No módulo I, trataremos dos
assuntos referentes à seleção e à coleta de dados, ponto de
partida para qualquer estudo estatístico.
5
No módulo II, iremos verificar como esses dados coletados
são inicialmente tratados através da tabulação, do resumo e
da representação dessas informações, tanto do ponto de vista
gráfico quanto analítico.
Os módulos III e IV (unidade II) tratam dos parâmetros ou
10 das medidas estatísticas. O primeiro, das medidas de posição, e
o segundo, das medidas de dispersão.
Terminados esses assuntos, estaremos aptos a entender o
comportamento estatístico de amostras e iniciarmos os estudos
da indução estatística, predizendo características de populações
15 estatísticas.
Esperamos que, com esse material, você tenha a oportunidade
de aprender os conceitos básicos de estatística e esteja apto para
continuar os estudos nessa área quando necessário for.
Bons estudos!
20
6
Prof. Maurício Martins do Fanno
ESTATÍSTICA
ANÁLISE EXPLORATÓRIA DE DADOS
1 COLETA DE DADOS
Objetivos
Entende-se por estatística o conjunto de conceitos,
técnicas e ferramentas destinados a organizar, descrever,
analisar e interpretar dados. Dados são valores apresentados
5 por um determinado fenômeno ou observação, como, por
exemplo, as alturas dos alunos de uma classe, o salário dos
funcionários de um departamento, o volume de vendas de
uma empresa ou a cor dos olhos das modelos de uma agência.
Esses dados são coletados em estado bruto e submetidos a
10 sucessivos tratamentos no sentido de organizá-los, resumi-los
e analisá-los. Neste primeiro momento, iremos nos ater à
coleta e à organização dos dados.
1.1 Dados e variáveis estatísticas
Entendemos como conjunto de dados o objeto de trabalho
da estatística. Esses dados são valores assumidos pelos
15 elementos de um conjunto de indivíduos que apresentam em
comum uma característica estudada. Caso você olhe à sua volta
na empresa em que trabalha, verá uma grande quantidade
de indivíduos, todos eles dotados de infinitas características,
tais como cor dos olhos e cabelos, altura e peso, salário e
20 idade, time de futebol do coração ou religião. Dessas infinitas
características, estaremos atentos a uma delas, objeto do nosso
estudo estatístico.
Digamos que estamos, no momento, desejando entender
como se comporta a remuneração dos funcionários dessa
25 sua empresa. Iremos então coletar dados relativos a essa
remuneração, ou seja, os salários. Salário, portanto, será a
característica que estamos estudando e que poderá assumir um
determinado valor dentro de uma faixa lógica.
7
Unidade I
Dizemos, assim, que nesse referido estudo salário é a
variável estudada. Perceba que todos os funcionários da
empresa têm uma série de outras características, mas a
característica que nos interessa é o salário. As outras poderão
5 ter importância para nós, mas não será nossa variável de
estudo. Coletar dados é obter os diversos valores que a variável
estudada assume.
Outro fator importante de ser observado é a quantidade
de elementos com que temos condição de trabalhar e a
10 possibilidade ou não de se medir seu valor. Dependendo dessas
duas observações, deveremos utilizar ferramentas diferentes de
organização e análise dos dados. Observe os seguintes exemplos,
para tornarmos mais claro o raciocínio:
15
20
25
30
8
a. desejamos saber se os chefes de família das casas da
rua em que moramos são mais ou menos altos em
relação ao conjunto de brasileiros de modo geral. A
primeira providência a se tomar seria medir todos os
chefes de família, para obter os valores da variável
estudada (altura). Perceba que, a não ser que moremos
numa rua muito extensa, o processo de coleta de
dados não será tão trabalhoso assim, principalmente
pelo fato de que todos saberão responder a altura que
têm. No entanto, caso,
b. desejarmos saber se os chefes de família de todas as
casas de nossa cidade são mais ou menos altos em
relação aos brasileiros, passaremos a ter um primeiro
inconveniente: a quantidade de elementos que deverão
ser medidos. Mesmo que moremos numa cidade
pequena, a quantidade de dados a serem coletados
pode atingir facilmente a casa dos milhares. Perceba
que o trabalho que teremos em levantar esses dados
possivelmente não será compensado pela informação
obtida. Por outro lado, imagine a seguinte situação, em
que
ESTATÍSTICA
5
c. desejamos saber se as crianças da nossa rua serão
mais ou menos altas em relação aos brasileiros quando
crescerem. Nesse caso, a quantidade de crianças não
deve ser tão grande, mas, em compensação, não teremos
como medi-las no dia de hoje; elas ainda estão crescendo,
portanto, a altura delas quando adultas não é um valor
definido, e sim provável.
Perceba, pelos exemplos acima, que, dependendo da situação,
teremos dificuldades (ou facilidades) diferentes. Em estatística,
10 costuma-se dividir as situações descritas em dois grandes
campos: amostra e população.
Amostra é um conjunto que tem relativamente poucos
elementos, e o valor da variável estudada para esses elementos
é real e verificável. É o caso do item a acima. População é o
15 conjunto que tem relativamente muitos elementos e/ou cujos
valores da variável estudada não são reais e verificáveis, casos
dos itens b e c acima.
Observe que, para configurarmos uma amostra, é necessário
que a quantidade de elementos seja pequena e o valor seja real;
20 em casos contrários, estaremos configurando uma população.
Note também que é evidente o fato de que situações envolvendo
amostras terão tratamentos diferentes daquelas envolvendo
populações.
É importante também notar que, quando falamos em
25 quantidades grandes ou pequenas, estamos relativizando-as,
ou seja, trabalhar com mil elementos pode ser uma grande
quantidade ou uma pequena quantidade, depende dos recursos
(monetários, de tempo, de espaço etc.) disponíveis.
Exemplificando: suponha que queiramos levantar as
30 idades de todos os alunos que estão cursando estatística
neste semestre. Caso nós tenhamos ao nosso dispor os
cadastros dos alunos no sistema de informação da instituição,
9
Unidade I
a quantidade de alunos será relativamente pequena, pois
temos recursos suficientes, mas, se tivermos que consultar
um por um dos alunos, a quantidade será relativamente
grande, pois não teremos recursos para tanto.
5
De modo geral, podemos dizer que informações
envolvendo amostras são obtidas através da estatística
descritiva, enquanto aquelas envolvendo populações,
através da estatística indutiva, e que, para conhecermos o
comportamento estatístico das populações, retiramos delas
10 amostras para estudo.
1.2 Classificações das variáveis
Vimos anteriormente que entendemos por variável a
característica envolvida em nosso estudo estatístico. Essa
variável pode se apresentar de vários tipos diferentes, os quais
determinarão os estudos estatísticos possíveis.
15
Algumas variáveis expressam atributos ou qualidades dos
indivíduos como, por exemplo, religião, sexo, estado civil etc.
São as chamadas variáveis qualitativas. Outras variáveis
apresentam como resultados possíveis valores numéricos; por
exemplo, o número de filhos, a altura, salário, idade etc. São as
20 chamadas variáveis quantitativas.
As variáveis qualitativas podem ser divididas, por sua
vez, em duas categorias: variáveis qualitativas nominais,
quando não é possível fazer qualquer tipo de ordenação, e
variáveis qualitativas ordinais, quando alguma ordenação
25 é possível. Podemos citar como exemplo a pergunta: “Você
pratica esportes?”. Há duas respostas possíveis: sim e não.
Trata-se, portanto, de uma variável qualitativa nominal.
Caso a pergunta fosse: “Com que intensidade você pratica
esportes?”, a resposta poderia ser: nenhuma, pequena, média
30 ou grande. Estaríamos tratando de uma variável qualitativa
ordinal.
10
ESTATÍSTICA
As variáveis quantitativas, por seu lado, também podem
apresentar duas categorias: as variáveis quantitativas
discretas são aquelas em que os resultados formam um
conjunto finito e previsível de números, enquanto que
5 as variáveis quantitativas contínuas apresentam como
resultados todos os valores numéricos dentro de um
intervalo de números reais. A pergunta “Quantos irmãos
você tem?” produz uma variável quantitativa discreta
(0,1,2,3,... irmãos). Já a pergunta “Quanto você pesa?” gera
10 uma variável quantitativa contínua (qualquer valor dentro
de uma faixa lógica para um ser humano). Para simplificar,
costumamos dizer que, quando contamos, estamos diante
de uma variável quantitativa discreta e, quando medimos,
estamos diante de uma variável quantitativa contínua.
15 Perceba que eu conto o número de irmãos que tenho e
meço o meu peso numa balança.
É importante observar que os estudos estatísticos
apresentam quantidade de informação diferente para cada
tipo de variável na seguinte sequência crescente: variáveis
20 qualitativas nominais; variáveis qualitativas ordinais;
variáveis quantitativas discretas e variáveis quantitativas
contínuas.
1.3 Amostragem
Falamos anteriormente que amostra e populações são
tratadas de maneira diversa na estatística e também que
25 os elementos de um conjunto de indivíduos têm inúmeras
características, uma das quais está sendo estudada e é
chamada de variável. Falta falarmos das demais características
desses elementos e de algumas relações entre as populações
e amostras.
30
Frequentemente, quando desejamos saber algo a respeito
de uma população, utilizamos uma amostra como campo
de estudo do fenômeno e expandimos (extrapolamos) as
11
Unidade I
conclusões para a população. A situação mais conhecida e
mais didática que podemos usar são as pesquisas eleitorais.
Meses ou dias antes de uma eleição, desejamos saber (antever
ou prever ou predizer) o resultado dessa eleição. Isso é possível
5 com certa margem de erro através de um processo conhecido
como amostragem.
Esse processo de amostragem inicia-se a partir do
planejamento da amostra, que deve reproduzir em pequena
escala todas as características da população. A ideia é a mesma
10 do enólogo (aquele que prova vinhos): ele não precisa beber
uma garrafa inteira de vinho (ou um tonel) para dizer se o vinho
é bom ou ruim; basta uma pequena dose, a amostra. Ocorre
que o vinho é uma substância totalmente homogênea, todas as
partes dele são idênticas. Já se fosse uma feijoada, não teríamos
15 a mesma homogeneidade. A feijoada é heterogênea.
Isso significa que não podemos usar o mesmo princípio
de amostragem do vinho para a feijoada? Não. Podemos
usar sim, mas com alguns cuidados! Na amostra de
feijoada que iremos provar, é necessário que todas as suas
20 partes sejam representadas, ou seja, precisamos pegar um
prato em que estejam representados todos os pertences
da feijoada (linguiças, paio, toucinho etc.). Note que é
mais fácil definir a qualidade do vinho do que de uma
feijoada, ou seja, termos maior margem de erro no teste
25 da feijoada que do vinho. Por quê? Justamente devido à
heterogeneidade da feijoada. Anote isso; voltaremos a
esse assunto oportunamente.
No caso da pesquisa eleitoral, a situação é a mesma da
feijoada. A população eleitoral (todos os eleitores inscritos em
determinada região eleitoral) é heterogênea, logo, a amostra
retirada deverá representar essa heterogeneidade naquilo que
30 é importante para a definição do voto. Vamos exemplificar
numericamente. Suponha que os dados do quadro a seguir
representam algumas das características da população de
12
ESTATÍSTICA
eleitores de uma determinada cidade na qual o próximo prefeito
será eleito em novembro.
Sexo
Idade
Homens
48,2%
Mulheres
51,8%
16 a 20 anos
12,3%
20 a 30 anos
24,6%
30 a 40 anos
26,9%
40 a 50 anos
15,8%
50 a 60 anos
14,6%
acima de 60 anos
5,8%
Classe
econômica
Time
preferido
de
futebol
A
8%
B
22%
C
43%
D
27%
Arranca Toco FC
45%
Se Deixa que xuto
32%
CA Avezesobrio
23%
Dados fictícios
Perceba que, quando fazemos uma pesquisa eleitoral,
queremos saber em quem o leitor irá votar, ou seja, a
5 característica que nos interessa é a intenção de voto.
Portanto, a variável de uma pesquisa eleitoral é a intenção de
voto. Mas essa não é a única característica com a qual iremos
nos preocupar.
Sabemos por experiência anterior que, por exemplo, homens
10 e mulheres têm comportamentos diferentes na hora de votar,
quer dizer, utilizam critérios diferentes para escolher suas
preferências. Desta forma, quando tomarmos uma amostra, nós
precisaremos tomar cuidado com a quantidade de homens e
mulheres que farão parte da amostra. Não podemos pegar uma
15 amostra na qual só temos homens ou mulheres. Digamos que
na cidade vamos fazer uma pesquisa eleitoral a partir de uma
amostra de 1.000 eleitores. Essa amostra deverá ser formada por
482 homens (48,2% de 1.000) e por 518 mulheres (51,8% de
1.000).
20
Do mesmo modo, nós deveríamos nos comportar com
relação às outras características que têm importância na
definição dos votos. Isso quer dizer que deveríamos manter a
proporcionalidade de eleitores com relação à idade e à classe
econômica, características que sabidamente influem na
13
Unidade I
definição de voto. Caso não fosse feito assim, introduziríamos
uma falha no nosso processo estatístico, introduziríamos um
viés estatístico.
E a característica “time de futebol preferido”? Precisamos
5 nos preocupar com ela? Evidentemente que não. A
preferência por um time de futebol não interfere na opção
de voto (a não ser em casos muito especiais, dos quais a
estatística não consegue se encarregar).
Note que nós podemos, portanto, dividir as características
10 dos elementos de uma população ou de uma amostra em
três categorias: a(s) características(s) estudada(s), chamada(s)
variável(eis) estatística(s); características principais, que
definem a proporcionalidade das populações e suas amostras e
as características secundárias, que não interferem nos nossos
15 estudos estatísticos.
Assim sendo, é possível assumir que, a partir de uma amostra
corretamente estabelecida, é possível conhecer uma população,
por maior que seja ou menos real que sejam seus elementos. O
princípio é o mesmo do enólogo. Conhecermos o todo por uma
20 pequena parte dele.
É claro que esse conhecimento não será composto de
certezas absolutas; deverá haver alguma incerteza, em
outras palavras, certa tolerância com as nossas conclusões.
Assim, se numa amostra colhida para uma pesquisa eleitoral
25 for revelada a preferência de 46% para o candidato A,
poderemos afirmar que a população provavelmente
também terá 46% de eleitores para esse candidato. Mas isso
não é uma certeza, pode haver alguma variação, para mais
ou para menos.
30
14
Essa tolerância é chamada de margem de erro e depende
basicamente de três fatores:
ESTATÍSTICA
1. O grau de homogeneidade da população. Quer dizer,
quanto mais homogênea for uma população, menor será
a margem de erro.
5
10
2. O tamanho da amostra tomada. Tamanho da amostra é
a quantidade de elementos pela qual é composta. Desta
forma, uma pesquisa com 1.000 eleitores tem maior
margem de erro do que uma feita com 5.000 eleitores.
3. O grau de confiabilidade com o qual queremos trabalhar.
Podemos optar por ter maior ou menor confiança nas
respostas obtidas. Quanto maior confiança quiser ter,
maior será a margem de erro.
1.4 Processos estatísticos
Utilizando os conceitos dos itens anteriores, podemos definir
os passos do processo estatístico:
15
1. Definir o objeto do estudo, as populações e as amostras
envolvidas. Planejar amostras de modo que representem
corretamente, sem vieses, as populações de que foram
retiradas.
2. Coletar os dados amostrais, ou seja, medir a variável
estatística de cada um dos elementos da amostra.
20
3. Tabular e representar os dados colhidos na forma de
tabelas e gráficos, que permitam visualizar de modo
amigável as informações disponíveis.
4. Cálculo dos parâmetros estatísticos. Esses parâmetros
são medidas que “resumem” as informações coletadas de
modo mais imediato.
25
5. Indução de parâmetros amostrais em parâmetros
populacionais ou vice-versa. Consiste em fazer a relação
entre populações e amostras, conforme descrito acima.
15
Unidade I
Os passos de um a cinco acima constituem o campos da
estatística descritiva, objeto de estudo desta apostila. O passo
cinco é o campo da estatística indutiva, assunto que veremos
na disciplina Estatística para Administradores.
5
Passaremos, então, a nos preocupar com cada um dos
passos acima visando percorrer todo o processo estatístico.
1.5 Coletas de dados
A coleta de dados é uma operação típica de campo na
qual identificamos os valores da variável estatística para
todos os elementos de uma amostra previamente definida.
10 Frequentemente, essa amostra tem seus elementos
definidos por escolha aleatória, ou seja, sorteamos um
elemento da população para fazer parte da amostra. Como
exemplo, imagine que eu, pesquisador de campo, precise
entrevistar um eleitor com as seguintes características:
15 mulher; classe econômica B; grau de instrução superior;
idade entre 30 e 35 anos; moradora da zona leste.
Para cumprir minha tarefa, irei a um local em que mais
provavelmente encontrarei alguém nessas condições e, após
algumas pré-entrevistas, determinarei um elemento com
20 exatamente essas características. Esse elemento fará parte da
minha amostra e para ele irei fazer as perguntas desejadas; por
exemplo, em quem ele pretende votar.
As respostas dos elementos escolhidos para a amostra
constituirão os dados brutos ou rol do meu estudo, ou seja,
25 uma relação de respostas às minhas questões sem nenhum tipo
de ordenação, classificação ou elaboração. A tabela 1 exemplifica
os dados brutos de uma pesquisa feita entre 42 alunos de uma
universidade a respeito de vários assuntos:
16
ESTATÍSTICA
Tabela 1 - Dados brutos de uma amostra de alunos de uma universidade
Ordem
Nome do
Aluno
Estado civíl
Curso
matriculado
Qualidade
atribuída à
instituição
Sexo
Idade em
anos
Renda
familiar
nº de DPs.
1
Daiane
solteiro
Jornalismo
Ótima
F
19
R$ 3.220,00
2
2
Alberto
solteiro
Administração
Boa
M
20
R$ 4.050,00
0
3
Rui
casado
Direito
Regular
M
25
R$ 1.950,00
4
4
Carolina
casado
Engenharia
Ruim
F
21
R$ 1.682,00
6
5
Joaquim
divorciado
Marketing
Péssima
M
28
R$ 7.850,00
8
6
Rubens
solteiro
Engenharia
Ótima
M
23
R$ 4.567,00
0
7
Jéssica
solteiro
Administração
Boa
F
20
R$ 10.567,00
0
8
Luis Carlos
solteiro
Engenharia
Regular
M
20
R$ 2.687,00
2
9
Fernando
casado
Direito
Ótima
M
27
R$ 3.654,00
1
10
Mayra
solteiro
Marketing
Ruim
F
19
R$ 956,00
1
11
Cristina
solteiro
Administração
Boa
F
18
R$ 1.350,00
0
12
Walter
casado
Direito
Péssima
M
30
R$ 4.560,00
2
13
Leonardo
solteiro
Jornalismo
Boa
M
34
R$ 5.892,00
3
M
29
R$ 7.652,00
5
14
Guilherme
divorciado
Engenharia
Regular
15
Paula
solteiro
Administração
Ruim
F
20
R$ 1.950,00
5
16
Danilo
solteiro
Marketing
Boa
M
20
R$ 1.386,00
2
17
Camila
solteiro
Administração
Ótima
F
20
R$ 9.560,00
2
18
Pedro
solteiro
Direito
Regular
M
18
R$ 4.325,00
2
19
Vinicius
casado
Administração
Péssima
M
26
R$ 1.956,00
1
20
José
solteiro
Engenharia
Boa
M
24
R$ 2.654,00
3
21
Carlos
solteiro
Administração
Ótima
M
23
R$ 1.965,00
0
22
Vanessa
solteiro
Administração
Ruim
F
22
R$ 3.645,00
0
23
Samantha
casado
Jornalismo
Boa
F
21
R$ 2.987,00
0
24
Mauro
casado
Administração
Regular
M
29
R$ 3.652,00
0
25
Mariana
solteiro
Engenharia
Ruim
F
23
R$ 1.978,00
0
26
Juliana
casado
Administração
Boa
F
24
R$ 5.478,00
1
27
Arnaldo
solteiro
Marketing
Regular
M
26
R$ 6.352,00
4
28
Marília
solteiro
Administração
Péssima
F
24
R$ 4.231,00
2
29
Neiva
solteiro
Administração
Boa
F
27
R$ 1.289,00
3
30
Roberto
solteiro
Direito
Regular
M
23
R$ 2.987,00
4
31
Wilson
divorciado
Administração
Ótima
M
28
R$ 3.645,00
5
32
Manoel
casado
Direito
Regular
M
22
R$ 9.564,00
3
17
Unidade I
33
Marina
solteiro
Engenharia
Boa
F
21
R$ 6.523,00
4
34
Gustavo
solteiro
Direito
Ruim
M
19
R$ 4.235,00
1
35
Maicon
solteiro
Administração
Ótima
M
18
R$ 5.634,00
0
36
Ladyjane
casado
Administração
Péssima
F
34
R$ 1.965,00
0
37
Maria
solteiro
Direito
Boa
F
36
R$ 1.932,00
1
38
Gabriel
solteiro
Administração
Regular
M
27
R$ 1.002,00
0
39
Karina
solteiro
Jornalismo
Ótima
F
20
R$ 2.342,00
1
40
Diego
solteiro
Direito
Ruim
M
21
R$ 2.569,00
2
41
Marcos
solteiro
Engenharia
Boa
M
21
R$ 3.789,00
2
42
Valquiria
casado
Administração
Ruim
F
29
R$ 4.675,00
3
Observe que as características arroladas no quadro são
variáveis de diferentes tipos, como mostrado abaixo:
Variável
Ordem
Nome do aluno
Estado civil
Curso
matriculado
Qualidade
atribuída à
instituição
Sexo
Idade
Renda familiar
Número de
DPs
18
Significado
É a ordem com que
coletamos os dados.
Relaciona a entrevista à
sequência utilizada.
Tipo de variável
Variável qualitativa nominal.
É apenas um atributo
qualitativo.
Variável qualitativa nominal.
É apenas um atributo
qualitativo.
Variável qualitativa nominal.
Estado civil do aluno.
É apenas um atributo
qualitativo.
Variável qualitativa nominal.
Curso ao qual o aluno
É apenas um atributo
pertence.
qualitativo.
Variável qualitativa ordinal. É
Qual é a qualidade do curso apenas
um atributo qualitativo
percebida pelo aluno.
que mostra intensidade.
Variável qualitativa nominal.
M significa Masculino; F
É
apenas um atributo
significa Feminino.
qualitativo.
Variável quantitativa contínua.
Apesar de ser dada em anos,
Quantos anos cada aluno
permitiria que fosse medida
tem.
em valores fracionários (meses,
dias, até horas).
Variável quantitativa
Qual é a renda da família
continua. É medida em valores
nuclear do aluno.
fracionários.
Variável quantitativa
Quantas dependências o
discreta. Os valores são
aluno tem para cursar.
obrigatoriamente inteiros. Não
existe “meia DP”.
O primeiro nome de cada
um dos entrevistados.
ESTATÍSTICA
A tabela 1 relaciona uma grande quantidade de dados que
dificilmente poderão ser entendidos se não forem agrupados,
organizados, resumidos e apresentados de modo minimamente
atraente.
5
As maneiras mais comuns de trabalharmos esses dados é o
assunto do nosso próximo módulo.
2 REPRESENTAÇÃO DOS DADOS COLETADOS
Objetivos
Os dados brutos trazem toda informação necessária para
se entender estatisticamente determinado assunto, mas como
10 o próprio nome indica, a ausência de algum refinamento faz
com que não seja possível chegar-se a conclusões de qualidade.
Para permitir essas conclusões e mesmo o entendimento das
informações, devemos representar esses dados de uma forma
mais imediata, seja analiticamente, através de quadros e tabelas,
15 seja graficamente, aproveitando-se do impacto visual que
os gráficos nos trazem. Faremos isso com uma sequência de
definições e procedimentos objetos deste módulo.
2.1 Conceito de frequência
É o número de vezes que determinado valor (ou faixa de
valores) se repete dentro da amostra. Inicialmente, podemos
20 citar:
25
• Frequência simples (fi): é o número de vezes em que
determinado valor aparece, contado diretamente. O
símbolo mencionado significa a frequência do iésimo valor,
ou seja, de um determinado valor que será numerado em
sequência. Deste modo, o primeiro valor terá a frequência f1,
o segundo, a frequência f2 e assim por diante. Essa notação
do iésimo termo será utilizada em todas as definições
posteriores. A somatória de todas as frequências gerará
19
Unidade I
a frequência total (ft), que corresponderá, evidentemente,
ao número total de elementos da amostra (N). A fórmula
matemática envolvendo essas definições é:
n
n
i=1
i=1
ft = ∑ fi ou N = ∑ fi
5
10
• Frequência relativa (fri): é a frequência simples dividida pela
frequência total, ou seja, é o “peso” que cada valor tem na
amostra total. Pode ser apresentada em valor decimal ou
em valor percentual. Evidentemente que a somatória das
frequências relativas de todos os valores é igual a 1 ou 100%.
fri =
fi
∑
n
i=1fi
ou fri % =
fi
∑
n
i=1fi
x 100
Com essa duas definições, podemos começar a agrupar os
dados coletados em tabelas mais resumidas; são as chamadas
tabelas ou distribuições de frequências.
2.2 Distribuições ou tabelas de frequências
É o quadro que resume os valores da variável estudada na
15 amostra, através do relacionamento do valor com sua frequência.
Pode assumir dois formatos diferentes:
2.2.1 Dados isolados ou dados não agrupados em classes
Neste caso, os valores dos dados são tomados como foram
colhidos, sem nenhum tipo de agrupamento, relacionados à
sua frequência. Como os valores são exatamente como foram
20 colhidos, não há perda de precisão. O inconveniente é que
pode-se gerar uma tabela de frequências com muitos dados, o
que dificulta o tratamento estatístico. Normalmente, é utilizado
este formato quando trabalhamos com variáveis qualitativas
ou variáveis quantitativas discretas. A tabela 2 mostra alguns
20
ESTATÍSTICA
exemplos de distribuições de frequências deste tipo produzidas
a partir dos dados brutos constantes da tabela 1 (página 17).
Perceba que ela foi construída unicamente pela contagem e
pelo relacionamento dos dados coletados.
Tabela 2 - Distribuições de Frequências - dados não agrupados
Distribuição de frequências
Distribuição de frequências
Estados civis
Cursos matriculados
Estado
Frequências relativas
Curso
Frequências relativas
Matriculado
Frequência
simples
Decimal
Percentual
fri%
xi
fi
fri
fri%
Civil
Frequência
simples
Decimal
Percentual
xi
fi
fri
Casados
11
0,262
26,2%
Administração
17
0,405
40,5%
Divorciados
3
0,071
7,1%
Direito
9
0,214
21,4%
Solteiros
28
0,667
66,7%
Engenharia
8
0,190
19,0%
Total
42
1,000
100,0%
Jornalismo
4
0,095
9,5%
Marketing
4
0,095
9,5%
Total ft
42
1,000
100,0%
Distribuição de frequências
Número de dependências
Frequências relativas
Número de
dependências
Frequência
simples
Decimal
Percentual
xi
fi
fri
fri%
0
12
0,286
28,6%
1
7
0,167
2
9
3
Distribuição de frequências
Sexo
Frequências relativas
Sexo
Frequência
simples
Decimal
Percentual
16,7%
xi
fi
fri
fri%
0,214
21,4%
Masculino
24
0,571
57,1%
5
0,119
11,9%
Feminino
18
0,429
42,9%
4
4
0,095
9,5%
Total ft
42
1,000
100,0%
5
3
0,071
7,1%
6
1
0,024
2,4%
8
1
0,024
2,4%
Total ft
42
1,000
100,0%
Agrupamento de dados brutos
relacionados na tabela 1
2.2.2 Dados agrupados em classes
5
Neste caso, os valores são agrupados por classes, o que
reduz a quantidade de informações trabalhadas, mas provoca,
21
Unidade I
consequentemente, uma perda de precisão. Esse formato é o
indicado quando trabalhamos com variáveis quantitativas
contínuas.
A construção dessa tabela é mais trabalhosa que a
5 anterior e se justifica pelo fato de que apresenta os dados
de modo mais resumido. Caso não a utilizássemos, iríamos
produzir uma tabela de frequências muito extensa, com
excesso de valores diferentes, cada um deles com baixa
frequência. Para construí-la, necessitamos definir alguns
10 conceitos e tomar algumas decisões.
A primeira providência que devemos tomar é escolher
o número de classes (n) em que iremos agrupar os dados.
Deve-se notar que, se utilizarmos muitas classes, estaremos
aumentando o trabalho no tratamento dos dados, e se
15 utilizarmos poucas, estaremos prejudicando a precisão das
conclusões. Existem muitas recomendações diferentes para
a adoção do número de classes; iremos adotar a relação de
Sturges:
n = 1+1,44 lnN
20
Onde n é o número de classe recomendado e N é o número
de total de elementos da nossa amostra. Lembre-se de que:
N = ft
Na tabela 1, nós temos uma amostra de 42 alunos, portanto,
caso queiramos montar a tabela de frequências das rendas
25 familiares deles (que é uma variável quantitativa contínua),
deveremos usar 7 classes:
n = 1+1,44 ln42 => n = 1+1,44 x 3,74 => n = 6,4
Obs.: evidentemente, não podemos usar 6,4 classes.
Optamos então pelo valor inteiro mais próximo acima ou
22
ESTATÍSTICA
abaixo. Optamos por usar 7 classes porque assim teremos mais
precisão do que com 6.
Essas sete classes devem abranger todos os valores do rol
que está sendo estudado, desde o menor até o maior; deste
5 modo, devemos determinar estes valores, que são chamados,
respectivamente, de limite mínimo da distribuição (Lmin) e limite
máximo da distribuição (Lmax).
Em tese, o valor do limite inferior da distribuição coincide
com o valor inicial da primeira classe da tabela (esses valores
10 iniciais de cada classe são chamados de limites inferiores de
classe (lii)), e o limite superior da distribuição coincide com o
valor final da última classe da distribuição (esses valores finais
de cada classe são chamados de limites superiores de classe (lsi)).
Na prática, pode ser necessário algum ajuste desses últimos dois
15 valores para podermos trabalhar com dados arredondados.
Entre o limite superior e o limite inferior de cada classe,
existe um intervalo chamado de intervalo de classe (h), e ele
deve ser determinado a partir da amplitude total (At), que é a
diferença entre o maior e o menor valor do rol e do número de
20 classes, utilizando as seguintes fórmulas:
At
n
A t = Lmax − Lmin
h=
Deste modo, o limite superior de cada classe será o valor
inferior dela mesma mais a amplitude de classe, ou seja:
25
lsi = lii+h
Observemos os 42 valores relacionados na tabela 1 na coluna
“Renda familiar”. Iremos agrupá-los em 7 classes conforme os
passos a seguir.
23
Unidade I
Podemos determinar o intervalo (ou a amplitude) de classes,
desde que tenhamos a amplitude total, e para tanto precisamos
determinar os valores máximos e mínimos da distribuição, que,
no nosso exemplo, são, respectivamente:
5
Lmax = R$ 10.567,00
Lmin = R$ 956,00
Logo, a amplitude total será:
At = Lmax - Lmin => At =10.567 - 956 => At = R$ 9.611,00
Consequentemente, a amplitude de cada classe1 será:
10
h=
At
9611
=> h =
=> h = R$1.373, 00
n
7
Definidos o número de classes e a amplitude de classe,
podemos montar a tabela de frequências. O limite inferior da
primeira classe coincide com o limite inferior da distribuição, e o
limite da oitava (e última classe) coincide com o limite superior
15 da distribuição (ressalvando o exposto no rodapé).
Os demais limites superiores de classe são obtidos somandose o limite inferior da classe com a amplitude da classe. O limite
inferior de uma classe tem o mesmo valor do limite superior da
classe inferior. Assim, o limite superior da primeira classe é dado
20 por:
ls1 = 956 + 1373 = > ls1 = 2329
E o limite inferior da segunda classe é dado por:
li2 = ls1 = > li2 = 2329
Neste exemplo, a amplitude de classe é um valor exato dentro
da quantidade de casas decimais utilizadas; se isso não ocorresse, seria
necessário ajustar a amplitude total de modo que a amplitude de classe
assumisse um valor exato. Assim sendo, o limite superior da distribuição ou
o limite inferior ou ambos deveriam ser alterados para corresponderem à
nova amplitude total, quando da montagem da tabela de frequências.
1
24
ESTATÍSTICA
Devemos definir também qual dos limites será aberto e qual
será fechado de modo que não haja possibilidade de algum valor
ficar sem sua classe perfeitamente definida.
Entende-se por limite fechado aquele que inclui o valor
5 nominal, e por limite aberto, aquele que não inclui. Uma barra
vertical indica o limite fechado, e sua ausência, o limite aberto.
A simbologia para um e para outro é a seguinte:
|------- Limite fechado (obviamente à esquerda)
------- Limite aberto (tanto à direita quanto à esquerda)
10
Note, na tabela 3, que a primeira classe é limitada pelos
valores 956 e 2329, sendo o valor 956 um limite fechado e 2329,
aberto. Isso quer dizer que o valor 956 está incluído nesta classe,
e o 2329, na classe seguinte.
Pode-se fixar de modo arbitrário os limites aberto ou
fechado,
desde que para cada valor exista uma e apenas uma
15
classe possível.
Definidas as classes, procedemos à contagem dos elementos
abrangidos por cada uma delas. O número de elementos
encontrados em cada uma delas é a já definida frequência
20 simples.
Tabela 3 - Distribuições de frequências - dados agrupados
Renda familiar
Classe Limites de classes em R$
número
li
ls
Frequências relativas
Contagem
Frequência
simples
Decimal
Percentual
1
956
|-----
2329
IIIII IIIII III
13
0,310
31,0%
2
2329
|-----
3702
IIIII IIIII I
11
0,262
26,2%
3
3702
|-----
5075
IIIII III
8
0,190
19,0%
4
5075
|-----
6448
IIII
4
0,095
9,5%
5
6448
|-----
7821
II
2
0,048
4,8%
6
7821
|-----
9194
I
1
0,024
2,4%
7
9194
|-----
10567
III
3
0,071
7,1%
42
1,000
100,0%
Total ft
25
Unidade I
Perceba que transformamos 42 informações em 7, o que nos
poupará muito tempo e custo nos estudos estatísticos, além de
nos permitir uma melhor visualização dos dados.
2.3 Frequências acumuladas
Voltando aos dados da tabela 1, poderiam surgir questões do
5 tipo: quantos alunos têm idade superior a 23 anos? Ou então,
quantos alunos têm renda familiar acima de R$ 5.000,00? Ou
ainda, quantos alunos acham que a faculdade é acima de regular?
Essas questões são respondidas com as chamadas frequências
acumuladas, que podem ser crescentes e decrescentes.
10
Assim, podemos conceituar e calcular as frequências
acumuladas acima de (ou decrescentes), e as frequências
acumuladas, abaixo de (ou crescentes), respectivamente.
As frequências acumuladas acima de (ou decrescentes)
correspondem à quantidade total de elementos que existem
15 na amostra acima de dado valor. No caso de dados agrupados,
a frequência acumulada acima de determinada classe é a
somatória das frequências posteriores, incluindo a da própria
classe. Deste modo, a frequência acumulada acima da primeira
classe é a frequência total, e a da segunda classe é a frequência
20 total menos a frequência da primeira classe e assim por diante.
Notar que a frequência acumulada acima da última classe é a
frequência simples da própria classe.
Raciocínio oposto se faz para a frequência acumulada
abaixo de (ou frequência crescente). Nesse caso, a frequência
25 acumulada abaixo de uma classe (ou valor) é a somatória da
quantidade de elementos de menor valor, incluída a frequência
da própria classe. Assim sendo, a frequência acumulada abaixo
da primeira classe é a frequência dela mesma, a da segunda é
a soma das frequências da primeira e segunda classe e assim
30 por diante. Notar que a frequência acumulada abaixo da última
classe é a frequência total.
26
ESTATÍSTICA
A tabela 4 apresenta os cálculos feitos para a variável
“quantidade de dependências”, e a tabela 5, para a variável
“Idades”, sempre a partir dos dados da tabela 1.
Tabela 4 - Distribuições de frequências - dados não agrupados
Número de dependências
Frequências relativas
Frequências acumuladas
Número de
dependências
Frequência
simples
Decimal
Percentual
Abaixo de
ou
crescente
Acima de
ou
decrescente
xi
fi
fri
fri%
fac↓
fac↑
0
12
0,286
28,6%
12
42
1
7
0,167
16,7%
19
30
2
9
0,214
21,4%
28
23
3
5
0,119
11,9%
33
14
4
4
0,095
9,5%
37
9
5
3
0,071
7,1%
40
5
6
1
0,024
2,4%
41
2
8
1
0,024
2,4%
42
1
Total ft
42
1,000
100,0%
Tabela 5 - Distribuições de frequências - dados agrupados
Idades
Classe
número
Limites de
classes em
anos
li
Frequência
simples
Frequências relativas
Frequências
acumuladas
Decimal Percentual
Abaixo
Acima de
de ou
ou
crescente decrescente
ls
fi
fri
fri%
fac↓
fac↑
1
18 |--- 21
13
0,310
31,0%
13
42
2
21 |--- 24
11
0,262
26,2%
24
29
3
24 |--- 27
6
0,143
14,3%
30
18
4
27 |--- 30
8
0,190
19,0%
38
12
5
30 |--- 33
1
0,024
2,4%
39
4
6
33 |--- 36
3
0,071
7,1%
42
3
42
1,000
100,0%
Total
27
Unidade I
2.4 Representações gráficas
Os dados agrupados em tabelas de frequências mantêm
basicamente a mesmas informações do rol, com a diferença
de que são mais resumidos, fáceis de entender e mais
impactantes. Mais impactantes ainda são os dados organizados
5 e apresentados na forma de gráficos. A visualização da
informação é normalmente um meio de comunicação mais
eficaz dos que as tabelas e os quadros analíticos, apesar de
que haverá sempre uma perda parcial das informações, que
será largamente compensada pela concisão e pela facilidade
10 de interpretação dos gráficos.
Existe uma infinidade de gráficos diferentes, cada um
deles adequando-se a determinadas finalidades. Os recursos
eletrônicos, em especial planilhas como o Excel, tornaram mais
simples a elaboração e mais atrativo o uso de informações
15 gráficas. Essa enorme variedade pode, no entanto, ser agrupada
em alguns tipos principais dos quais os outros são variações
estéticas e artísticas. A seguir, mostraremos os tipos mais comuns
e usados de gráficos
2.4.1 Histogramas
São dos mais simples e utilizados gráficos na estatística.
20 Representam, normalmente, a frequência simples através de
linhas verticais ou colunas cuja altura é proporcional à frequência
do valor na qual está centrada.
Para dados quantitativos não agrupados, utilizam-se linhas
verticais posicionadas no valor correspondente e desenhadas
25 sobre um plano cartesiano.
A tabela 6 e o gráfico 1 mostram o histograma do número
de dependências entre os alunos da tabela 1.
28
ESTATÍSTICA
Tabela 6 - Distribuição de frequência
Número de dependências
Número de dependências
Frequência simples
0
12
1
7
2
9
3
5
4
4
5
3
6
1
8
1
Total
42
Gráfico 1
14
12
10
8
6
4
2
0
0
1
2
3
4
5
6
7
Número de dependências por aluno
8
9
Para dados agrupados em classes, as linhas verticais
transformam-se em colunas cuja largura da base é proporcional
ao intervalo de classe. A tabela 7 e o gráfico 2 referem-se à
renda familiar dos alunos da amostra relacionada na tabela 1.
Tabela 7 - Distribuições de frequências - dados agrupados
Renda familiar
Classe
Frequência
Limites de classes em R$
número
simples
1
2
3
4
5
6
7
Total ft
li
956
2329
3702
5075
6448
7821
9194
|----|----|----|----|----|----|-----
ls
2329
3702
5075
6448
7821
9194
10567
fi
13
11
8
4
2
1
3
42
29
Unidade I
Frequência simples
Gráfico 2 - Renda familiar
14
12
10
8
6
4
2
0
956 2329 3702 5075 6448 7821 9194 10567
Renda mensal
2.4.2 Gráfico de colunas
É muito semelhante ao histograma, mas, normalmente, é
utilizado para representar variáveis qualitativas, nominais ou ordinais.
A frequência continua sendo colocada no eixo vertical, mas, no eixo
horizontal, são colocados os atributos. Além disso, como regra, as
5 colunas são desenhadas separadas umas das outras. A tabela 8 e
o gráfico 3 são exemplos do gráfico de colunas, representando os
cursos em que os alunos da tabela 1 estão matriculados.
Tabela 8 - Distribuição de frequência
Cursos matriculados
Curso matriculado
Frequência simples
xi
fi
Administração
17
Direito
9
Engenharia
8
Jornalismo
4
Marketing
4
Total ft
42
Frequência simples
Gráfico 3 - Cursos matriculados
18
16
14
12
10
8
6
4
2
0
Administração
Direito
Engenharia
Cursos
30
Jornalismo
Marketing
ESTATÍSTICA
2.4.3 Gráfico de barras
Este gráfico é uma variação dos gráficos de colunas e
dos histogramas. Nele, as frequências são representadas no
eixo horizontal, e os atributos ou valores das variáveis são
representados no eixo vertical. Os gráficos 4 e 5 e as tabelas 9 e
5 10 representam, respectivamente, as variáveis sexo e idade dos
alunos relacionados na tabela 1.
Tabela 9 - Distribuição de frequência
Sexos
Sexo
Frequência simples
xi
fi
Masculino
24
Feminino
18
Total ft
42
Gráfico 4 - Sexos
Sexos
Feminino
Masculino
0
5
10
15
20
Quantidade de aluno
25
30
Tabela 10 - Distribuições de frequências - dados agrupados
Idades
Classe
número
Limites de classes em R$
li
Frequência
simples
ls
fi
1
18
|-----
21
13
2
21
|-----
24
11
3
24
|-----
27
6
4
27
|-----
30
8
5
30
|-----
33
1
6
33
|-----
36
3
Total ft
42
31
Unidade I
Gráfico 5 - Idades
33|----36
Idades
30|----33
27|----30
24|----27
21|----24
18|----21
0
2
4
6
8
10
Número de alunos
12
14
2.4.4 Diagrama de ogiva
São gráficos frequentemente destinados a representar
as frequências acumuladas, apesar de que nada impede que
representem frequências simples ou frequências relativas.
Quando representam frequências acumuladas, recebem o nome
5 de ogivas de Galton.
A ogiva é formada pela sucessão de segmento de retas que
unem os pontos coordenados formados por (valor; frequência),
como no caso representado na tabela 11 e no gráfico 6, que
informam o comportamento acumulado da variável quantidade
10 de dependências dos nossos já conhecidos alunos da tabela 1.
Tabela 11 - Distribuição de frequência - dados não agrupados
Número de dependências
32
Número de dependências
Frequências acumuladas
Abaixo de ou crescente
Valor
Frequência
0
12
1
19
2
28
3
33
4
37
5
40
6
41
7
41
8
42
ESTATÍSTICA
Qtde. Acumulada de DPs
Gráfico 6 - Quantidade de dependências
45
40
35
30
25
20
15
10
5
0
0
1
2
3
4
5
Quantidade de alunos
6
7
8
Percebam que, no gráfico anterior, por ser uma variável
quantitativa discreta, cada ponto é facilmente determinado
pela sua coordenada y (quantidade de Dps) e pela coordenada
x (quantidade de alunos com Dps). Mas se nós formos trabalhar
5 com variáveis quantitativas contínuas, teremos dificuldades em
identificar a variável x porque ela não é mais um valor, mas uma
faixa de valores.
Para resolver esse impasse, introduziremos um novo
conceito que nos será importante sempre que estivermos
10 trabalhando com variáveis contínuas: o ponto médio de
classe.
O ponto médio de classe é o valor intermediário aos limites
superior e inferior de classe, ou seja:
pmi =
15
lsi + lii
2
Onde o índice i corresponde ao número da classe.
Na tabela 12, estão calculados os pontos médios para as
classes de rendas familiares dos nossos conhecidos alunos, e o
gráfico 7 representa as frequências acumuladas acima de (ou
decrescentes) da referida distribuição.
33
Unidade I
Tabela 12 - Distribuições de frequências - dados agrupados
Renda familiar
Classe
número
Limites de classes
em R$
li
Pontos médios
de classe
Frequências acumuladas
Abaixo de ou crescente
ls
pmi
fac↑
1
956
|----
2329
1642,5
13
2
2329
|----
3702
3015,5
24
3
3702
|----
5075
4388,5
32
4
5075
|----
6448
5761,5
36
5
6448
|----
7821
7134,5
38
6
7821
|----
9124
8507,5
39
7
9124
10567
9880,5
42
Freq. acumulada de alunos
Gráfico 7 - Rendas familiares
45
40
35
30
25
20
15
10
5
0
1642,5
3015,5
4388,5
5761,5
Renda em R$
7134,5
8507,5
2.4.5 Setorgrama
É também chamado de gráfico de setores ou, mais
vulgarmente, de gráfico de pizza. É a representação típica das
frequências relativas, pois é como essas mostram a participação
da parte no todo. O todo, no caso, é representado pelo círculo
5 (a pizza), e cada valor ou classe de valores, por um setor circular
(a fatia da pizza) de ângulo proporcional à participação deste
valor ou classe de valores. O cálculo do setor circular é feito por
regra de três, ou seja, 100% está para 360º assim como x% está
para yº.
34
ESTATÍSTICA
Os gráficos 8 e 9 são os setorgramas das distribuições
de cursos matriculados e de idade, respectivamente, dos
nossos tradicionais alunos da tabela 1. As tabelas 13 e 14
apresentam os valores dos ângulos calculados, para efeito
5 de demonstração; atualmente, este cálculo não é mais
necessário porque usaremos sempre recursos computacionais
para gerar os gráficos.
Tabela 13 - Distribuição de frequências
Cursos matriculados
Curso
matriculado
Frequência
simples
Frequências relativas
Decimal
Ângulo do setor
circular
Percentual
αº
Administração
17
0,405
40,5%
146
Direito
9
0,214
21,4%
77
Engenharia
8
0,190
19,0%
69
Jornalismo
4
0,095
9,5%
34
Marketing
4
0,095
9,5%
34
Total
42
1,000
100,0%
360
Gráfico 8 - Cursos matriculados
10%
10%
Administração
Direito
40%
19%
Engenharia
Jornalismo
Marketing
21%
35
Unidade I
Tabela 14 - Distribuições de frequências - dados agrupados
Idades
Limites de
classes em
anos
Classe
número
li
Frequência
simples
Frequências relativas
Decimal
Percentual
Ângulo do
Setor
Circular
αº
ls
1
18 |---- 21
13
0,310
31,0%
111
2
21
|---- 24
11
0,262
26,2%
94
3
24 |---- 27
6
0,143
14,3%
51
4
27 |---- 30
8
0,190
19,0%
69
5
30 |---- 33
1
0,024
2,4%
9
6
33 |---- 36
3
0,071
7,1%
26
42
1,000
100,0%
360
Total
3%
7%
Gráfico 9 - Idades dos alunos
18 |---- 21
21 |---- 24
19%
24 |---- 27
31%
27 |---- 30
30 |---- 33
14%
33 |---- 36
26%
2.4.6 Gráfico de dispersão
É o gráfico que relaciona duas variáveis numéricas
diferentes, como, por exemplo, salários e idades. Utilizaremos
esse gráfico principalmente quando discutirmos regressão e
correlação. Neste momento, daremos apenas um exemplo
5 dele utilizando os dados da tabela 15 e mostrando-o no
gráfico 10.
36
ESTATÍSTICA
Tabela 15
Saláríos e tempos na função de gerente
de 1ª linha
Tempo de exercício na
função (em anos)
Ganho médio
2
R$ 2.650
3
R$ 3.350
4
R$ 4.100
5
R$ 4.321
6
R$ 4.600
7
R$ 5.725
8
R$ 6.240
9
R$ 7.450
10
R$ 7.500
11
R$ 7.900
12
R$ 8.200
Ganhos médios
Gráfico 10 - Salários x tempo
R$ 9.000
R$ 8.000
R$ 7.000
R$ 6.000
R$ 5.000
R$ 4.000
R$ 3.000
R$ 2.000
R$ 1.000
R$ 0
0
2
4
6
8
10
Tempo em anos na função
12
14
Como falado anteriormente, os gráficos têm uma grande
aplicação porque apresentam os dados estatísticos de maneira
agradável e impactante, permitindo que o leitor ou o assistente
de uma apresentação compreenda com facilidade e rapidez as
5 informações apresentadas. Deve-se, no entanto, tomar cuidado
para que essas informações sejam mostradas com qualidade, em
especial evitando-se os seguintes vícios:
1. Gráficos atulhados com muitas figuras e informações pobres.
37
Unidade I
2. Ausência de escala correta, que induza o leitor a dar maior
ou menor importância a determinado elemento do gráfico
do que o real.
5
3. Eixos comprimidos, de modo que muitas informações
fiquem concentradas em pequeno espaço do gráfico.
4. Ausência da origem, ou seja, do ponto zero, que pode
induzir o leitor a erro.
38
Download