Estatística - UNIPVirtual

Propaganda
Estatística
Professora conteudista: Ângela Pizzo
Sumário
Estatística
Unidade I
1 INTRODUÇÃO À ESTATÍSTICA .........................................................................................................................1
1.1 Introdução ..................................................................................................................................................1
1.2 Importância da estatística ...................................................................................................................2
1.3 Grandes áreas da estatística ...............................................................................................................2
1.4 Fases do método estatístico............................................................................................................. 10
1.5 Dados estatísticos ................................................................................................................................ 13
1.6 Formas iniciais de tratamento dos dados .................................................................................. 15
1.7 Notação por índices ............................................................................................................................ 15
1.7.1 Notação sigma (∑) ................................................................................................................................. 16
1.8 Séries estatísticas – simples e compostas .................................................................................. 19
1.8.1 Tipos de séries estatísticas .................................................................................................................. 20
1.8.2 Tabelas de dupla entrada ..................................................................................................................... 23
1.9 Apresentação de dados – gráficos e tabelas ............................................................................. 25
2 MEDIDAS DE TENDÊNCIA CENTRAL PARA DADOS SIMPLES ......................................................... 29
2.1 A média aritmética simples (µ,x) ................................................................................................... 31
2.2 A média aritmética ponderada ....................................................................................................... 34
2.3 A mediana ............................................................................................................................................... 35
2.4 A moda ..................................................................................................................................................... 37
3 MEDIDAS DE DISPERSÃO PARA DADOS SIMPLES.............................................................................. 38
3.1 Amplitude total ..................................................................................................................................... 42
3.2 Desvio médio absoluto ....................................................................................................................... 43
3.3 Variância .................................................................................................................................................. 45
3.4 Desvio padrão ........................................................................................................................................ 49
Unidade II
4 DISTRIBUIÇÃO DE FREQUÊNCIAS ............................................................................................................. 53
4.1 A construção de uma distribuição de frequências para dados contínuos.................... 54
4.2 A construção de uma distribuição de frequências para dados discretos ...................... 61
4.3 Representação gráfica de dados agrupados ............................................................................. 62
5 AS MEDIDAS DE POSIÇÃO E VARIABILIDADE EM UMA DISTRIBUIÇÃO
DE FREQUÊNCIA....................................................................................................................................................71
5.1 As medidas de posição ....................................................................................................................... 72
5.1.1 A média ....................................................................................................................................................... 72
5.1.2 A mediana .................................................................................................................................................. 74
5.1.3 A moda ........................................................................................................................................................ 75
5.2 As medidas de dispersão numa distribuição de frequência................................................ 76
5.2.1 O desvio médio ........................................................................................................................................ 76
5.2.2 Variância ..................................................................................................................................................... 77
5.2.3 Desvio padrão........................................................................................................................................... 78
6 CORRELAÇÃO E REGRESSÃO LINEAR ...................................................................................................... 83
6.1 Introdução ............................................................................................................................................... 83
6.2 Coeficientes de correlação entre duas variáveis ..................................................................... 85
6.3 Coeficiente de correlação linear .................................................................................................... 87
6.4 Na prática ................................................................................................................................................ 90
ESTATÍSTICA
Unidade I
1 INTRODUÇÃO À ESTATÍSTICA
1.1 Introdução
A palavra estatística lembra, à maioria das pessoas,
recenseamentos. Os censos existem há milhares de anos e
constituem um esforço imenso e caro feito pelos governos
com o objetivo de conhecer seus habitantes, sua condição
5 socioeconômica, sua cultura, religião etc. Portanto, associar
estatística ao censo é perfeitamente correto do ponto de vista
histórico, sendo interessante salientar que as palavras estatística
e estado têm a mesma origem latina: status.
A estatística é também comumente associada às pesquisas de
opinião
pública, aos vários índices governamentais, aos gráficos
10
e médias publicadas diariamente na imprensa. Na realidade,
entretanto, a estatística engloba muitos outros aspectos, sendo
fundamental na análise de dados provenientes de quaisquer
processos em que exista variabilidade.
15
É possível distinguir duas concepções para a palavra
estatística:
No plural (estatísticas), indica qualquer coleção de dados
numéricos, reunidos com a finalidade de fornecer informações
acerca de uma atividade qualquer. Assim, por exemplo, as estatísticas
20 demográficas referem-se aos dados numéricos sobre nascimentos,
falecimentos, matrimônios, desquites etc. As estatísticas
econômicas consistem em dados numéricos relacionados com
emprego, produção, vendas e com outras atividades ligadas aos
1
Unidade I
vários setores da vida econômica. No singular (estatística), indica
a atividade humana especializada ou um corpo de técnicas, ou,
ainda, uma metodologia desenvolvida para a coleta, a classificação,
a apresentação, a análise e a interpretação de dados quantitativos
5 e a utilização desses dados para a tomada de decisões.
Estatística é um conjunto de
técnicas e métodos que nos auxiliam
no processo de tomada de decisão na
presença de incerteza.
1.2 Importância da estatística
O mundo está repleto de problemas. Para resolvermos a
maioria deles, necessitamos de informações. Mas que tipo de
informações? Quantas? E após obtê-las, o que fazer com elas? A
estatística lida com essas informações, associando os dados ao
10 problema, descobrindo como e o que coletar e obter conclusões
a partir de todas essas informações de tal forma que possam ser
entendidas por outras pessoas.
Portanto, os métodos estatísticos auxiliam o cientista social,
o economista, o engenheiro, o agrônomo e muitos outros
15 profissionais a realizarem o seu trabalho com mais eficiência.
Vejamos alguns exemplos:
Os estatísticos do governo conduzem censos de população,
moradia, produtos industriais, agricultura e outros. São feitas
compilações sobre vendas, produção, inventário, folha de
20 pagamento e outros dados das indústrias e empresas. Essas
estatísticas informam ao administrador como a sua empresa
está crescendo, seu crescimento em relação a outras empresas
e como planejar ações futuras. A análise dos dados é muito
importante para se fazer um planejamento adequado.
1.3 Grandes áreas da estatística
25
Para fins de apresentação, é usual dividir a estatística em
três grandes áreas, embora não se trate de ramos isolados:
• amostragem, que é o mecanismo de coleta de dados;
2
No serviço social:
Na área do serviço social, a estatística
tem dado uma contribuição efetiva no
levantamento e no relato da situação
social das diversas comunidades,
particularmente das carentes. A
relevância do trabalho estatístico é
de fundamental importância para o
planejamento de ações que busquem
o equilíbrio social. Entre as muitas
aplicações, podemos citar:
• caracterizar a população, sua
estrutura etária, de renda e perfil
socioeconômico;
• analisar
o
crescimento
do
contingente de idosos;
• avaliar a segurança social e
identificar violência familiar;
• analisar
a
evolução
da
alfabetização;
• levantar e acompanhar as condições
e tipos de moradia, ocupação
territorial e acesso aos serviços de
saneamento básico;
• entender o comportamento do
mercado de trabalho;
• pesquisar
dependência
de
substâncias psicoativas;
• entender as tábuas de mortalidade
e natalidade, entre outras.
ESTATÍSTICA
• estatística descritiva, que se ocupa da organização,
apresentação e sintetização de dados;
5
• estatística inferencial, que constitui o conjunto de métodos
para a tomada de decisões, nas situações em que existem
incerteza e variação.
Amostragem
É o processo de escolha da amostra. É a parte inicial de
qualquer estudo estatístico. Consiste na escolha criteriosa dos
elementos a serem submetidos ao estudo.
Exemplo 1: Pesquisas sobre tendências de votação - em
épocas de eleição, é comum a realização de pesquisas com o
objetivo de se conhecer as tendências do eleitorado. Para que
os resultados sejam, de fato, representativos, toma-se o cuidado
de entrevistar um conjunto de pessoas com características
15 socioeconômicas, culturais, religiosas etc. tão próximas quanto
possível da população à qual os resultados da pesquisa serão
estendidos. A escolha da amostra, a redação do questionário, a
entrevista, a codificação dos dados, a apuração dos resultados
são as etapas desse tipo de pesquisa.
10
20
Os tipos de metodologias de amostragem de dados que
podem ser utilizados são:
No caso do serviço social, a
amostragem e sua metodologia definem
o sucesso de um trabalho.
Métodos probabilísticos
Exigem que cada elemento da população possua determinada
probabilidade de ser selecionado. Normalmente, possuem a
25 mesma probabilidade. Assim, se N for o tamanho da população,
a probabilidade de cada elemento ser selecionado será 1/N.
Trata-se do método que garante cientificamente a aplicação
das técnicas estatísticas de inferências. Somente com base em
amostragens probabilísticas é que se pode realizar inferências
30 ou induções sobre a população a partir do conhecimento da
3
Unidade I
amostra. Trata-se de uma técnica especial para recolher amostras,
que garante, tanto quanto possível, o acaso na escolha.
Amostragem casual ou aleatória simples
É o processo mais elementar e frequentemente utilizado.
5 É equivalente a um sorteio lotérico. Pode ser realizado
numerando-se a população de 1 a n e sorteando-se, a seguir,
por meio de um dispositivo aleatório qualquer, x números dessa
sequência, os quais corresponderão aos elementos pertencentes
à amostra.
10
Exemplo 2. Pretende-se obter uma amostra de 10%,
representativa para a pesquisa da estatura de 90 alunos de uma
escola:
• 1º: numeramos os alunos de 1 a 90;
15
• 2º: escrevemos os números dos alunos, de 1 a 90, em
pedaços iguais de papel, colocamos na urna e, após misturar,
retiramos, um a um, nove números, que formarão a amostra.
Obs.: quando o número de elementos da amostra é muito
grande, esse tipo de sorteio torna-se muito trabalhoso. Nesse
caso, utiliza-se uma tabela de números aleatórios, construída de
20 modo que os algarismos de 0 a 9 são distribuídos ao acaso nas
linhas e colunas.
Amostragem proporcional estratificada
Quando a população se divide em estratos (subpopulações),
convém que o sorteio dos elementos da amostra leve em
25 consideração tais estratos, daí obtemos os elementos da amostra
proporcional ao número de elementos desses estratos.
Exemplo 3. Para obter uma amostra proporcional
estratificada, de 10%, do exemplo anterior, supondo que, dos 90
4
ESTATÍSTICA
alunos, 54 sejam meninos e 36 sejam meninas. São, portanto,
dois estratos (sexo masculino e sexo feminino). Logo, tem-se:
Sexo
Populacão
10 %
Amostra
Masculino
54
5,4
5
Feminino
36
3,6
4
Total
90
9,0
9
Numeramos então os alunos de 1 a 90, sendo 1 a 54 meninos
e 55 a 90 meninas, e procedemos ao sorteio casual com urna ou
5 tabela de números aleatórios.
Amostragem sistemática
Quando os elementos da população já se acham ordenados,
não há necessidade de construir o sistema de referência. São
exemplos os prontuários médicos de um hospital, os prédios
10 de uma rua etc. Nesses casos, a seleção dos elementos que
constituirão a amostra pode ser feita por um sistema imposto
pelo pesquisador.
Exemplo 4. Suponhamos uma rua com 900 casas, das
quais deseja-se obter uma amostra formada por 50 casas
15 para uma pesquisa de opinião. Podemos, neste caso, usar o
seguinte procedimento: como 900/50 = 18, escolhemos por
sorteio casual um número de 1 a 18, o qual indicaria o primeiro
elemento sorteado para a amostra; os demais elementos seriam
periodicamente considerados de 18 em 18. Assim, se o número
20 sorteado fosse 4, a amostra seria: 4ª casa, 22ª casa, 40ª casa, 58ª
casa, 76ª casa etc.
Amostragem por conglomerados (ou agrupamentos)
Algumas populações não permitem ou tornam extremamente
difícil que se identifiquem seus elementos. Não obstante isso,
25 pode ser relativamente fácil identificar alguns subgrupos da
5
Unidade I
população. Em tais casos, uma amostra aleatória simples desses
subgrupos (conglomerados) pode se colhida, e uma contagem
completa deve ser feita para o conglomerado sorteado.
Agrupamentos típicos são quarteirões, famílias, organizações,
5 agências, edifícios etc.
Exemplo 5. Em um levantamento da população de
determinada cidade, podemos dispor do mapa indicando cada
quarteirão e não dispor de uma relação atualizada dos seus
moradores. Pode-se, então, colher uma amostra dos quarteirões
10 e fazer a contagem completa de todos os que residem naqueles
quarteirões sorteados.
Métodos não-probabilísticos
São amostragens em que há uma escolha deliberada dos
elementos da amostra. Não é possível generalizar os resultados das
15 pesquisas para a população, pois as amostras não-probabilísticas
não garantem a representatividade da população.
Amostragem acidental
Trata-se de uma amostra formada por aqueles elementos
que vão aparecendo, que são possíveis de se obter até completar
20 o número de elementos da amostra. Geralmente utilizada em
pesquisas de opinião, em que os entrevistados são acidentalmente
escolhidos.
Exemplo 6. Pesquisas de opinião em praças públicas, ruas
de grandes cidades.
25 Amostragem intencional
De acordo com determinado critério, é escolhido
intencionalmente um grupo de elementos que irá compor
a amostra. O investigador se dirige intencionalmente a grupos
de elementos dos quais deseja saber a opinião.
6
ESTATÍSTICA
Exemplo 7. Em uma pesquisa sobre preferência por
determinado cosmético, o pesquisador se dirige a um grande
salão de beleza e entrevista as pessoas que ali se encontram.
Amostragem por quotas
5
Um dos métodos de amostragem mais comumente usado
em levantamentos de mercado e em prévias eleitorais. Ele
abrange três fases:
1ª: classificação da população em termos de propriedades
que se sabe, ou presume, serem relevantes para a característica
10 a ser estudada;
2ª: determinação da proporção da população para cada
característica, com base na constituição conhecida, presumida
ou estimada da população;
3ª: fixação de quotas para cada entrevistador, a quem tocará
a
responsabilidade
de selecionar entrevistados, de modo que a
15
amostra total observada ou entrevistada contenha a proporção
e cada classe tal como determinada na 2ª fase.
Exemplo 8. Em uma pesquisa sobre o “trabalho das
mulheres na atualidade”, provavelmente se terá interesse em
20 considerar: a divisão cidade e campo, a habitação, o número
de filhos, a idade dos filhos, a renda média, as faixas etárias
etc.
A primeira tarefa é descobrir as proporções (porcentagens)
dessas características na população. Imagina-se que haja 47%
25 de homens e 53% de mulheres na população. Logo, uma amostra
de 50 pessoas deverá ter 23 homens e 27 mulheres. Então o
pesquisador receberá uma “quota” para entrevistar 27 mulheres.
A consideração de várias categorias exigirá uma composição
amostral que atenda ao n determinado e às proporções
30 populacionais estipuladas.
7
Unidade I
População e amostra
O estudo de qualquer fenômeno, seja ele natural, social,
econômico ou biológico exige a coleta e a análise de dados
estatísticos. A coleta de dados é, pois, a fase inicial de qualquer
5 pesquisa.
População é a coleção de todas as observações potenciais
sobre determinado fenômeno. O conjunto de dados
efetivamente observados, ou extraídos, constitui uma amostra
da população. É sobre os dados da amostra que se desenvolvem
os estudos, visando a fazer inferências sobre a população.
Exemplo 9: Avaliação de um programa de ensino toma-se certo número de pares de turmas: a um conjunto de
turmas ensina-se um assunto por um novo método, e ao outro,
pelo método clássico. Aplica-se uma prova a ambos os grupos.
10 As notas observadas nesses conjuntos de turmas constituem a
nossa amostra. Se os resultados do novo método forem melhores,
iremos aplicá-lo a todas as turmas, isto é, à população. A partir da
amostra, estabelecemos o que é conveniente para a população,
ou seja, fazemos uma inferência sobre a população.
15
20
Exemplo 10: Renda média per capita em diversas regiões
do país - toma-se um conjunto de indivíduos em cada região,
escolhidos ao acaso, e sobre esse grupo fazem-se os estudos.
Os indivíduos assim escolhidos constituem a amostra, e os
resultados nela observados serão estendidos à população.
Estatística descritiva
É a parte mais conhecida. Quem vê o noticiário, na televisão
ou nos jornais, sabe o quão frequente é o uso de médias, índices
e gráficos nas notícias.
Exemplo 11: Índice Nacional de Preços ao Consumidor
25 (INPC) - sua construção envolve a sintetização, em um único
número, dos aumentos dos produtos de uma cesta básica.
8
ESTATÍSTICA
Exemplo 12: Anuário Estatístico Brasileiro - o IBGE
publica a cada ano este anuário, apresentando, em várias
tabelas, os mais diversos dados sobre o Brasil: educação, saúde,
transporte, economia, cultura etc. Embora simples, fáceis de serem
5 entendidas, as tabelas são o produto de um processo demorado e
extremamente dispendioso de coleta e apuração de dados.
Exemplo 13: Anuário Estatístico da Embratur - a
Embratur publica este anuário, apresentando, em várias tabelas
e gráficos, os mais diversos dados sobre turismo interno e dados
10 sobre entrada de turistas estrangeiros no Brasil.
Estatística inferencial (ou indutiva)
A tomada de decisões sobre a população, com base em
estudos feitos sobre os dados da amostra, constitui o problema
central da inferência estatística.
15
Exemplo 14: Análise financeira em investimentos sociais
- os analistas financeiros de instituições governamentais ou não,
estudam dados sobre a situação da economia, visando a explicar
tendências dos níveis de produção e de consumo, projetando-os
para o futuro.
Exemplo 15: Ocorrência de terremotos - os geólogos
estão continuamente coletando dados sobre a ocorrência de
terremotos. Gostariam de inferir quando e onde ocorrerão
tremores e qual a sua intensidade. Trata-se, sem dúvida, de uma
questão complexa, que exige longa experiência geológica, além
25 de cuidadosa aplicação de métodos estatísticos.
20
Probabilidade
O processo de generalização, que é característico do
método indutivo, está associado a uma margem de incerteza.
A existência da incerteza deve-se ao fato de que a conclusão,
30 que se pretende obter para o conjunto de todos os indivíduos
9
Unidade I
analisados quanto a determinadas características comuns,
baseia-se em uma parcela do total das observações. A medida
da incerteza é tratada mediante técnicas e métodos que se
fundamentam na teoria da probabilidade. Essa teoria procura
5 quantificar a incerteza existente em determinada situação.
1.4 Fases do método estatístico
Quando se pretende empreender um estudo estatístico
completo, existem diversas fases do trabalho que devem ser
desenvolvidas para se chegar aos resultados finais do estudo.
Fica claro assim que as três áreas
da estatística não são separadas ou
distintas, mas tendem a se entrelaçar. A
descrição e o resumo dos dados tende
a ser a primeira fase da análise dos
mesmos, já a teoria e os fundamentos
da amostragem se baseiam na teoria
da probabilidade, que nos leva à
uma inferência ou a uma tomada de
decisões baseada nas informações
apresentadas.
As fases principais são as seguintes:
10
• definição do problema;
• planejamento;
• coleta de dados;
• apuração dos dados;
• apresentação dos dados;
15
• análise e interpretação dos dados.
Descrevendo mais atentamente cada fase:
Definição do problema
A primeira fase do trabalho consiste em uma definição
ou formulação correta do problema a ser estudado. Além de
20 considerar detidamente o problema objeto do estudo, o analista
deverá examinar outros levantamentos realizados no mesmo
campo e análogos, uma vez que parte da informação de que se
necessita pode, muitas vezes, ser encontrada nesses últimos.
10
Observe quais são as fases principais
do método estatístico – compõem
a organização de um projeto, sua
execução e apresentação final.
ESTATÍSTICA
Planejamento
O passo seguinte, após a definição do problema, compreende
a fase do planejamento, que consiste em se determinar o
procedimento necessário para resolver o problema e, em especial,
5 como levantar informações sobre o assunto objeto do estudo.
É preciso planejar o trabalho a ser realizado, tendo em vista o
objetivo que se pretende atingir. É nesta fase que será escolhido
o tipo de levantamento a ser utilizado. Sob esse aspecto, pode
haver dois tipos de levantamento:
10
• levantamento censitário, quando a contagem for
completa, abrangendo todo o universo;
• levantamento por amostragem, quando a contagem for
parcial.
Outros elementos importantes que devem ser tratados nessa
15 mesma fase são:
• cronograma das atividades: através do qual são fixados os
prazos para as várias fases;
• custos envolvidos;
• exame das informações disponíveis;
20
• delineamento da amostra etc.
Coleta dos dados
O terceiro passo é essencialmente operacional,
compreendendo a coleta das informações propriamente ditas.
Nesta fase do método estatístico, é conveniente estabelecer
25 uma distinção entre duas espécies de dados:
• dados primários: quando são publicados ou comunicados
pela própria pessoa ou organização que os tenha escolhido;
11
Unidade I
• dados secundários: quando são publicados ou comunicados por outra organização.
Um conjunto de dados é, pois, primário ou secundário em
relação a alguém. As tabelas do censo demográfico são fontes
5 primárias. Quando determinado jornal publica estatísticas
extraídas de várias fontes e relacionadas com diversos setores
industriais, os dados são secundários para quem desejar utilizar-se
deles em alguma pesquisa que esteja desenvolvendo.
A coleta de dados pode ser realizada de duas maneiras:
10
15
• coleta direta: quando é obtida diretamente da fonte,
como no caso da empresa que realiza uma pesquisa para
saber a preferência dos consumidores pela sua marca.
• coleta indireta: quando é inferida a partir dos elementos
conseguidos pela coleta direta, ou através do conhecimento
de outros fenômenos que, de algum modo, estejam
relacionados com o fenômeno em questão.
Apuração dos dados
Antes de começar a analisar os dados, é conveniente que
lhes seja dado algum tratamento prévio, a fim de torná-los mais
20 expressivos. A quarta etapa do processo é, então, a da apuração
ou sumarização, que consiste em resumir os dados através de
sua contagem e agrupamento.
Apresentação dos dados
Há duas formas de apresentação ou exposição dos dados
25 observados, que não se excluem mutualmente:
• apresentação tabular: é uma apresentação numérica dos
dados. Consiste em dispor os dados em linhas e colunas
distribuídas de modo ordenado, segundo algumas regras
12
ESTATÍSTICA
5
10
práticas adotadas pelos diversos sistemas estatísticos. As
tabelas têm a vantagem de conseguir expor, sinteticamente
e em um só local, os resultados sobre determinado assunto,
de modo a se obter uma visão global mais rápida daquilo
que se pretende analisar.
• apresentação gráfica: constitui uma apresentação
geométrica dos dados numéricos. Embora apresentação
tabular seja de extrema importância, no sentido de facilitar
a análise numérica de dados, não permite ao analista obter
uma visão tão rápida, fácil e clara do fenômeno e sua
variação como conseguida através de um gráfico.
Observe em jornais e revistas que,
normalmente, as informações gráficas
têm assimilação mais rápida por parte
dos leitores.
Análise e interpretação dos dados
Nesta última etapa, o interesse maior reside em tirar
conclusões que auxiliem o pesquisador a resolver seu problema.
15 A análise dos dados estatísticos está ligada essencialmente
ao cálculo de medidas, cuja finalidade principal é descrever o
fenômeno. Assim, o conjunto de dados a ser analisado pode ser
expresso por números-resumos, as estatísticas, que evidenciam
características particulares desse conjunto. O significado exato
20 de cada um dos valores obtidos através do cálculo das várias
medidas estatísticas disponíveis deve ser bem interpretado. É
possível mesmo, nessa fase, arriscar algumas generalizações, as
quais envolverão, como mencionado anteriormente, algum grau
de incerteza, porque não se pode estar seguro de que o que
25 foi constatado para aquele conjunto de dados (a amostra) se
verificará igualmente para a população.
1.5 Dados estatísticos
Quando se trabalha com a observação, a mensuração,
a análise e a interpretação de números, esses números nos
conduzem a índices inflacionários, índices de desemprego,
30 probabilidade de determinado candidato ganhar as eleições etc.
Esses números, portanto, serão chamados de dados estatísticos.
13
Unidade I
Esses dados precisarão ser organizados e sumarizados para sua
correta interpretação.
Dado bruto significa que os dados não estão numericamente
organizados e processados. O processamento e a organização
5 dos dados é que os transformam em informação, enfatizando
seus aspectos mais importantes. A informação, portanto, é
resultado de um tratamento dos dados.
Para organizar e processar os dados estatísticos, podemos
utilizar resumos visuais e numéricos, através de gráficos, mapas,
10 tabelas e modelos numéricos.
A mensuração ou a observação de itens como índices de
preços, renda mensal per capita de um Estado etc., dão origem
aos dados estatísticos. Como esses itens originam valores que
tendem a apresentar um certo grau de variabilidade quando são
15 medidos sucessivas vezes, chamamos, então de variáveis.
• Variáveis contínuas: são as variáveis que podem assumir
qualquer valor num intervalo contínuo (dado contínuo).
Exemplos: altura, peso, velocidade etc.
20
25
30
14
• Variáveis discretas: em geral, originam-se da contagem
de itens e só podem assumir valores inteiros. Exemplos:
número de alunos em sala de aula, número de professores
que trabalham na escola etc.
• Variáveis nominais: são aquelas que existem com
o objetivo de definir categorias, e as observações,
mensurações e análises são feitas levando-se em conta
essas mesmas categorias. Exemplos de categorias seriam:
a separação por sexo, idade, nível de escolaridade etc.
• Variáveis por posto: quando existe o desejo de
dispor os elementos observados segundo uma ordem
de preferência ou desempenho, atribuem-se valores
É importante identificar os quatro
tipos de variáveis: variáveis contínuas,
variáveis discretas, variáveis nominais e
variáveis por posto.
ESTATÍSTICA
relativos para indicar esta ordem. Exemplo: primeiro,
segundo, terceiro.
As variáveis discretas e contínuas são ditas variáveis
quantitativas, porque envolvem dados numéricos. Já as variáveis
5 nominais e por posto precisam ser transformadas em valores
numéricos para serem objeto da análise estatística, e são ditas
variáveis qualitativas.
• Variáveis discretas e contínuas =
variáveis quantitativas.
• Variáveis nominais e por posto =
variáveis qualitativas.
1.6 Formas iniciais de tratamento dos dados
Em geral, quando nos propomos a buscar, construir
informações a partir de dados, deparamo-nos, inicialmente, com
10 um conjunto de dados brutos que pouco nos dizem. É preciso
organizá-los minimamente para que eles comecem a fazer
algum sentido, viabilizando sua análise.
Uma primeira forma de organização dos dados é o chamado
rol. Obtemos o rol quando organizamos os dados brutos em
15 ordem crescente ou decrescente de grandeza. A amplitude do
rol é obtida pela diferença entre o maior e o menor número do
rol. Utiliza-se o rol quando o conjunto de dados for pequeno, ou
seja, for inferior a trinta observações.
Por outro lado, quando se trata de um conjunto grande
de
dados,
que seja superior a trinta observações, utilizamos
20
a distribuição de frequências, que consiste em organizar os
dados brutos em classes, a fim de identificar o número de itens
pertencentes a cada classe, denominado frequência de classe.
Os dados são assim organizados em intervalos de classes. Esse
25 assunto será estudado na Unidade II.
• Rol: inferior a trinta observações.
• Distribuição de frequências:superior
a trinta observações.
1.7 Notação por índices
A notação por índices é bastante utilizada na estatística,
sendo, assim, importante esclarecer seu significado. O símbolo xi
(onde se lê “x índice i”) irá representar qualquer um dos n valores
15
Unidade I
assumidos pela variável x, x1, x2, x3, x4, ..., xn. “n” é denominado
índice e poderá assumir qualquer dos números entre 1, 2, 3, 4,
..., n.
1.7.1 Notação sigma (∑)
A maioria dos processos estatísticos vai exigir o cálculo da
5 soma de um conjunto de números. A letra maiúscula grega
sigma (∑) é utilizada para representar tais somas.
Assim, se uma determinada variável y tiver os valores 3, 5, 7,
9 e 11, o ∑y será:
∑y = 3+5+7+9+11
10
∑y = 35.
Por outro lado, se o consumo semanal de arroz de x, durante
um mês, foi 2kg, 4kg, 3kg, 5kg, o total consumido por x no mês
teria sido:
∑x = 2+4+3+5
15
∑x = 14, x teria consumido 14kg de arroz durante o mês
referido.
A notação sigma possui algumas propriedades que
precisamos desenvolver, para facilitar os conteúdos que
estudaremos nesta disciplina.
20
a) ∑ i=1 x = ∑ xi = ∑ x ; isso significa que devemos
somar as n observações de x, começando com a primeira.
n
Por exemplo, num conjunto de dados em que xi = {2, 4, 6,
8, 10, 12}, em que n=6, temos:
∑ i=1xi = ∑ i=1xi = 2 + 4 + 6 + 8 + 10 + 12
∑ xi = 42.
n
25
16
6
ESTATÍSTICA
Por outro lado, é possível utilizar essa notação quando
se pretende analisar a soma de apenas uma parte dos dados
disponibilizados, podendo-se, portanto, abreviar a soma de um
conjunto de dados. Desta forma, podemos ter:
5
I) x1 + x2 + x 3 = ∑ i=1 xi
3
II) x8 + x 9 + x10 + x11 = ∑ xi .
i=8
11
b) Se cada valor da variável x é multiplicado ou dividido por
uma constante, temos que isso será igual ao valor da constante
multiplicado ou dividido pela somatória de x.
10
∑ c.x = c.∑ x
Assim,
4
∑ 4 xi = 4 x1 + 4 x2 + 4 x3 + 4 x4
i=1
4
= 4( x1 + x2 + x 3 + x 4 ) = 4 ∑ xi .
i=1
Por exemplo:
15
Se xi = {2, 4, 6, 8, 10, 12}, onde n=6 e cada valor de x é
multiplicado pela constante c=2, temos:
∑ cx = c∑ x
6
6
i=1
6
i=1
6
∑ cxi = c∑ xi = 2(2) + 2(4) + 2(6) + 2(8) + 2(10) + 2(12) = 2(2 + 4 + 6 + 8 + 10 + 12)
∑ 2xi = 2∑ xi = 2(42) = 84.
i=1
i=1
17
Unidade I
c) O somatório de uma constante c será igual ao produto
da constante pelo número de vezes (n) que ela se repete. Assim,
temos:
n
∑ ci = nc.
i=i
5
Por exemplo, se numa determinada observação o conjunto
de dados de xi = {7, 7, 7, 7, 7, 7}, onde n=6, temos que xi é uma
constante c que se repete, então temos:
xi = ci
6
6
i=1
i=1
∑ xi = ∑ ci = nc = 7 + 7 + 7 + 7 + 7 + 7 = 6(7) = 42 .
10
d) O somatório de uma soma ou de uma diferença de
duas variáveis será igual à soma ou diferença dos somatórios
individuais das duas variáveis. Assim, temos:
n
n
n
i=1
n
i=1
n
i=1
n
i=1
i=1
i=1
∑ ( xi + yi ) = ∑ xi + ∑ yi
∑ ( xi − yi ) = ∑ xi − ∑ yi .
15
20
Por exemplo:
i
X
Y (X-Y)
1
8
5
3
2
3
2
1
3
4
0
4
4
5 4
1
∑� 20 11
9
∑ (x − y) = 9
∑ x − ∑ y = 20 − 11 = 9 .
e) O somatório de um conjunto de dados xi ao quadrado nos
obriga a elevar cada elemento de xi ao quadrado para efetuar a
25 soma. Assim, temos:
n
∑ xi2 = x12 + x22 + x23 + ... + xn2 .
i=1
18
ESTATÍSTICA
Por exemplo, se numa dada observação o conjunto de dados
de xi = {2, 4, 6, 8, 10}, onde n=5, temos:
5
∑ xi2 = 22 + 42 + 62 + 82 + 102 = 4 + 16 + 36 + 64 + 100 = 220.
i=1
f) O somatório ao quadrado de um conjunto de dados será
obtido
tomando-se a soma dos valores de xi e elevando-se ao
5
quadrado. Assim, temos:
n
( ∑ xi )2 = ( x1 + x2 + x 3 + ... + xn )2 .
i=1
Por exemplo, se temos um mesmo conjunto xi = {2, 4, 6,
8, 10}, onde n=5, tal qual no exemplo do item e, teremos um
10 resultado distinto. Vejamos, neste caso:
Essa notação se encontra em
livros de matemática. Busque outros
exemplos.
5
( ∑ xi )2 = (2 + 4 + 6 + 8 + 10)2 = (30)2 = 900 .
i=1
1.8 Séries estatísticas – simples e compostas
Uma série estatística define-se como toda e qualquer
coleção de dados estatísticos referidos a uma mesma ordem
de classificação: quantitativa. No sentido mais amplo, série é
15 uma sucessão de números referidos a qualquer variável. Se os
números expressarem dados estatísticos, a série será chamada
de série estatística.
Em sentido mais estreito, pode-se dizer que uma série
estatística é uma sucessão de dados estatísticos referidos a
20 caracteres qualitativos, ao passo que uma sucessão de dados
estatísticos referidos a caracteres quantitativos configurará uma
serração. Em outros termos, a palavra série é usada normalmente
para designar um conjunto de dados dispostos de acordo com
um caráter variável, residindo a qualidade serial na disposição
19
Unidade I
desses valores, e não em uma disposição temporal ou espacial
de indivíduos.
As tabelas servem para apresentar séries estatísticas. Os
três caracteres presentes na tabela que as apresenta são:
5
• a época (fator temporal ou cronológico) – a que se refere
o fenômeno analisado;
• o local (fator espacial ou geográfico) – onde o fenômeno
acontece;
10
• o fenômeno (espécie do fato ou fator especificativo) – que
é descrito.
As séries são divididas em dois grupos:
15
• séries homógradas: aquelas em que a variável descrita
apresenta variação discreta ou descontínua. São séries
homógradas a série temporal, a série geográfica e a série
específica.
• séries heterógradas: aquelas nas quais o fenômeno
ou o fato apresenta gradações ou subdivisões. Embora
fixo, o fenômeno varia em intensidade. A distribuição de
frequências é uma série heterógrada.
1.8.1 Tipos de séries estatísticas
20
As séries estatísticas diferenciam-se de acordo com a variação
de um dos três elementos: época, local e fenômeno.
• Série temporal
Também chamada de série cronológica, série histórica, série
evolutiva ou marcha, identifica-se pelo caráter variável do fator
25 cronológico. Assim, deve-se ter:
20
ESTATÍSTICA
• elemento variável: época;
• elementos fixos: local e fenômeno.
Tabela 1.1
Operadora WKX – Venda de bilhetes aéreos –
Mercado interno – 2007
Meses
Vendas (em milhares de reais)
Janeiro
2.300
Fevereiro
1.800
Março
2.200
Abril
2.210
Maio
2.360
Junho
2.600
Julho
2.690
Agosto
3.050
Setembro
3.500
Outubro
3.440
Novembro
3.100
Dezembro
2.760
Total anual
31.510
Fonte: Departamento de Análise de Mercado.
• Série geográfica
Também chamada de série territorial, série espacial ou
5 série de localização, identifica-se pelo caráter variável do fator
geográfico. Assim, deve-se ter:
• elemento variável: local;
• elementos fixos: época e fenômeno.
21
Unidade I
Tabela 1.2
Operadora WKX – Vendas por unidade da federação – 2007
Unidades da federação
Vendas (em milhares de reais)
Minas Gerais
4.000
Paraná
2.230
Rio Grande do Sul
6.470
Rio de Janeiro
8.300
São Paulo
10.090
Outros
420
Total Brasil
31.510
Fonte: Departamento de Análise de Mercado.
• Série específica
Também chamada de série categórica, série por categoria,
5 identifica-se pelo caráter variável de fator especificativo. Assim,
deve-se ter:
• elemento variável: fenômeno;
• elemento fixos: local e época.
10
Tabela 1.3
Operadora WKX – Venda de bilhetes aéreos por linha – 2007
Linha do produto
Vendas (em milhares de reais)
Linha A
6.450
Linha B
9.310
Linha C
15.750
Todas as linhas
31.510
Fonte: Departamento de Análise de Mercado.
22
ESTATÍSTICA
Tabela 1.4
Número de empregados das várias classes de salários no estado
de São Paulo – 2007
Classes de salários (R$)
Número de empregados
Até 80
41.326
De 80 a 119
123.236
De 120 a 159
428.904
De 160 a 199
324.437
De 200 a 399
787.304
De 400 a 599
266.002
De 600 a 799
102.375
De 800 a 999
56.170
1000 e mais
103.788
Total
2.233.542
Fonte: Serviço de Estatística da Previdência e Trabalho (dados alterados para
melhor compreensão).
1.8.2 Tabelas de dupla entrada
As tabelas apresentadas anteriormente são tabelas
estatísticas simples, em que apenas uma série está representada.
É comum, todavia, haver necessidade de apresentar, em uma
única tabela, mais do que uma série. Quando as séries aparecem
5 conjugadas, tem-se uma tabela de dupla entrada.
Exemplos:
• série específico-temporal;
• série geográfico-temporal.
23
Unidade I
Tabela 1.5
População economicamente ativa por setor de atividades – Brasil
Setor
População (1 000 Hab.)
1940
1950
1960
Primário
8.968
10.255
12.163
Secundário
1.414
2.347
2.962
Terciário
3.620
4.516
7.525
Fonte: IPEA.
Tabela 1.6
População indígena brasileira
Unidade de Produção
Produção
1937
1938
1939
Acre
5.007
4.765
4.727
Amazonas
6.858
5.998
5.631
Pará
4.945
4.223
4.500
Mato Grosso
1.327
1.285
1.235
333
539
337
Outros Estados
Fonte: Anuário Estatístico do Brasil – IBGE (dados alterados para melhor
compreensão).
Observação: nem sempre uma tabela representa uma
série estatística. Por vezes, os dados reunidos não revelam
uniformidade, sendo meramente um aglomerado de informações
gerais sobre determinado assunto, as quais, embora úteis, não
apresentam a consistência necessária para se configurar uma
10 série estatística.
5
24
ESTATÍSTICA
Tabela 1.7
Situação dos espetáculos cinematográficos no Brasil – 1967
Especificação
Dados numéricos
Número de cinemas
2.488
Lotação dos cinemas
1.722.348
Sessões por dia
3.933
Filmes de longa metragem
131.330.488
Meia entrada
89.581.234
Fonte: Anuário Estatístico do Brasil – IBGE.
1.9 Apresentação de dados – gráficos e
tabelas
A representação gráfica das séries estatísticas tem por
finalidade representar os resultados obtidos, permitindo
5 chegar-se à conclusões sobre a evolução do fenômeno ou sobre
como se relacionam os valores da série. A escolha do gráfico mais
apropriado ficará a critério do analista. Contudo, os elementos
simplicidade, clareza e veracidade devem ser considerados
quando da elaboração de um gráfico.
10
Diretrizes para a construção de um gráfico:
• o título do gráfico deve ser o mais claro e completo possível,
sendo necessário, acrescentem-se subtítulos;
• a orientação geral dos gráficos deve ser da esquerda para
a direita;
25
Unidade I
• as quantidades devem ser representadas por grandezas
lineares;
• sempre que possível, a escala vertical há de ser escolhida
de modo a aparecer a linha 0 (zero);
5
• só devem ser incluídas no desenho as coordenadas
indispensáveis para guiar a vista na leitura, um tracejado
muito cerrado dificulta o exame do gráfico;
• a escala horizontal deve ser lida da esquerda para a direita,
e a vertical, de baixo para cima;
10
• os títulos e marcações do gráfico dispor-se-ão de maneira
que sejam facilmente legíveis, partindo da margem
horizontal inferior ou da margem esquerda.
Leitura e interpretação de um gráfico:
15
• declarar qual o fenômeno ou fenômenos representados, a
região considerada, o período de tempo, a fonte dos dados
etc.;
• examinar o tipo de gráfico escolhido, verificar se é o mais
adequado, criticar a sua execução, no conjunto e nos
detalhes;
20
• analisar cada fenômeno separadamente, fazendo notar
os pontos mais em evidência, o máximo e o mínimo, as
mudanças mais bruscas;
• investigar se há uma “tendência geral” crescente ou
decrescente ou, então, se o fato exposto é estacionário;
25
26
• procurar descobrir a existência de possíveis ciclos periódicos,
qual o período aproximado etc.
ESTATÍSTICA
Eis os tipos mais comuns de gráficos:
Gráfico em linhas
500
400
300
Sequência 1
200
Sequência 2
100
0
1
2
3
4
5
6
7
Gráfico em colunas
População
100
80
60
40
20
0
População
1940
1950
1960
1970
Gráfico em barras
É semelhante ao gráfico em colunas, porém, os retângulos
são dispostos horizontalmente.
População do Brasil
1970
1960
População
do Brasil
1950
1940
0
20
40
60
80
100
27
Unidade I
Gráfico em setores
Anos
Receita (em R$ 1.000.000,00)
1975
90
1976
120
1977
150
Total
360
Fonte: Departamento da Fazenda, Município X.
É a representação gráfica de uma série estatística, em
círculo, por meio de setores. É utilizado principalmente quando
se pretende comparar cada valor da série com o total.
5
10
15
Total __________360º
Parte___________ xº
• Para 1975:
360 – 360º
90 – xº
x = 90º
• Para 1976:
360 – 360º
120 – xº
x = 120º
• Para 1977:
360 – 360º
150 – xº
x = 150º
Receita do Município X
1975
1976
1977
28
ESTATÍSTICA
Gráfico polar
É a representação de uma série por meio de um polígono.
Movimento mensal de gastos com saúde em
um pequeno município
Meses
Valores (R$1.000,00)
Janeiro
Fevereiro
Março
Abril
Maio
Junho
Julho
Agosto
Setembro
Outubro
Novembro
Dezembro
12
13
14
12
15
19
17
18
14
16
12
18
Dez
Nov
Out
Jan
20
15
10
5
0
Fev
Mar
Abr
Sequência 1
Mai
Set
Ago
Jul
Jun
Resumindo:
• a estatística utiliza métodos
matemáticos
para
solucionar
problemas reais de tomada de
decisão quando há incerteza;
• em situações nas quais poderíamos
contar unicamente com a sorte,
temos um instrumento que nos
possibilita aumentar as chances de
tomar a melhor decisão;
• utiliza ferramentas matemáticas
definidas. Mesmo lidando com um
grande número de dados, essas
ferramentas resumem a análise em
tabelas ou gráficos;
• na prática, a estatística pode ser
empregada como base conceitual
e fundamental em várias outras
ciências, inclusive em análises
gerenciais.
2 MEDIDAS DE TENDÊNCIA CENTRAL PARA
DADOS SIMPLES
Na realização de qualquer estudo, quase nunca é possível
examinar todos os elementos da população de interesse. Temos,
5 usualmente, de trabalhar com uma amostra da população. A
29
Unidade I
inferência estatística nos dá elementos para generalizar, de maneira
segura, as conclusões obtidas da amostra para a população.
É errôneo pensar que, caso tivéssemos acesso a todos os
elementos da população, seríamos mais precisos. Os erros
5 de coleta e manuseio de um grande número de dados são
maiores do que as imprecisões a que estamos sujeitos quando
generalizamos, via inferência, as conclusões de uma amostra
bem selecionada.
Em se tratando de amostra, a preocupação central é que ela
10 seja representativa.
Assim que decidimos obter informações através de um
levantamento amostral, temos imediatamente dois problemas:
• definir cuidadosamente a população de interesse;
• selecionar a característica que iremos pesquisar.
15
Portanto, temos situações profissionais em que nos bastam
poucos dados ou estatísticas de dados simples. Por outro
lado, há também situações em que um número maior de
elementos deve ser investigado e tratado como distribuições
de frequência.
Quando estamos diante de um conjunto de dados, seja ele
pequeno ou grande, em geral buscamos medidas que possam
ser usadas para indicar um valor que tende a representar melhor
aquele determinado conjunto de números. E as medidas mais
usadas neste sentido são as chamadas medidas de tendência
25 eventual ou central, que são: a média, mediana e moda.
20
Sabe-se que esses valores serão medidos de forma distinta
conforme um grande conjunto de dados ou um pequeno
conjunto de dados. Também o cálculo desses valores irá ser
afetado caso as variáveis sejam discretas ou contínuas.
30
ESTATÍSTICA
Distribuição por frequência é a tabela em que se resumem
grandes quantidades de dados, determinando o número de
vezes que cada dado ocorre (frequência) e a porcentagem com
que aparece (frequência relativa).
5
Atenção: nesta unidade trataremos do cálculo destas
estatísticas para os chamados dados simples ou conjuntos de
dados com menos de trinta elementos.
Em estatística, a média é o valor
médio de uma distribuição ou de
um conjunto de dados, determinado
segundo uma regra estabelecida a priori
e que se utiliza para representar todos
os valores da distribuição. Existem
diversas formas de se calcular a média
de um conjunto de números. Por
exemplo, algumas delas são: aritmética,
geométrica e harmônica.
2.1 A média aritmética simples (µ,x)
A média aritmética é um dos valores mais representativos de
um conjunto de dados. Obtém-se o valor da média aritmética
10 dividindo-se o somatório dos valores do conjunto de dados pelo
número de valores total deste conjunto.
Assim, temos que:
n
média =
∑ xi
i=1
n
.
Para a população, calcula-se a média aritmética através dos
15 seguintes parâmetros:
N
µ=
∑ Xi
i=i
µ ⇒ Média aritmética da população (parâmetro)
, onde
N
N ⇒ Total de observações da população (total da
população)
Xi ⇒ Cada variável populacional
Para a amostra, calcula-se o valor médio utilizando-se os
seguintes parâmetros:
x ⇒ Média aritmética da amostra (estimativa)
n
x=
∑ xi
i=1
n
, onde
n ⇒ Número de dados da amostra
xi ⇒ Cada variável da amostra
31
Unidade I
Vamos agora tomar um exemplo de média aritmética.
Supondo um conjunto de dados xi = {2, 4, 6, 8, 10, 12}, onde
N=6, temos:
N
µ=
5
∑ Xi
i=1
N
=
2 + 4 + 6 + 8 + 10 + 12
= 7.
6
Embora tenhamos destacado uma
diferença na notação utilizada para o
cálculo da média aritmética em uma
amostra e numa população, a expressão
para o cálculo da média é a mesma tanto
no cálculo da média de uma população
quanto de uma amostra.
Para simplificar o nosso estudo, padronizaremos a notação
para o cálculo da média e passaremos a usar sempre a notação
utilizada para o cálculo da média aritmética simples em conjuntos
de dados amostrais, como no exemplo abaixo:
Uma amostra das notas das provas de matemática dos
estudantes
da sétima série de uma grande escola de São Paulo
10
xi, onde xi = {87, 42, 64, 58, 90, 90, 85, 63, 47, 74, 100, 94} e
n=12, temos:
n
x=
∑ xi
i=1
n
=
87 + 42 + 64 + 58 + 90 + 90 + 85 + 63 + 47 + 74 + 100 + 94
= 74, 5 .
12
A nota média na prova de matemática dos estudantes da
15 sétima série desta escola de São Paulo, por amostragem, é 74,5.
São propriedades da média aritmética:
1.-em um conjunto de dados, é sempre possível o cálculo
da média, independentemente de quais os elementos que
compõem esse conjunto de dados.
20
2.-em um determinado conjunto de dados, o valor da média
será único e corresponderá a uma constante.
3.-todos os valores de um determinado conjunto de dados
irão afetar a média. Se um valor se modifica, a média
aritmética também irá modificar-se.
32
São as propriedades que a média
aritmética simples possui que a fazem
a medida de tendência central mais
usada e mais importante de todas.
ESTATÍSTICA
5
10
4.-somando-se ou subtraindo-se uma determinada constante
c a cada elemento de um determinado conjunto de dados
xi = x1, x2, x3, ..., xn, a média aritmética ficará aumentada
ou diminuída desta constante c. Se, por outro lado,
multiplicarmos cada elemento deste conjunto de dados por
uma constante c, a nova média será também multiplicada
por esta constante c; se dividirmos cada elemento do
conjunto de dados por esta mesma constante c, a média
será dividida por c.
Assim, se temos um conjunto xi = x1, x2, x2, ..., xn, a média
será:
n
∑ x1
i=1
x1 =
n
, logo
n
n
x2 =
15
∑ (c + x i )
i=1
n
⇒ x2 =
∑ xi
i=1
n
+
nc
⇒ x2 = x1 + c .
n
5.-A soma algébrica dos desvios dos números de um
conjunto de dados em torno da média é zero. Isso pode ser
representado da seguinte forma:
∑ xi − x = 0
Por exemplo, se temos um conjunto de dados xi = 2, 4, 6, 8,
10, onde n=5, temos que:
5
20
∑ xi
2 + 4 + 6 + 8 + 10
=6,
5
5
Se aplicarmos a fórmula acima, temos:
x=
i=1
=
∑ xi − x = ∑ xi − 6 = (2 − 6) + (4 − 6) + (6 − 6) + (8 − 6) + (10 − 6)
∑ xi − x = −4 − 2 + 0 + 2 + 4
∑ xi − x = 0 .
A média aritmética é a mais utilizada
no nosso dia a dia. É obtida dividindo-se
a soma das observações pelo número
delas.
33
Unidade I
2.2 A média aritmética ponderada
Num conjunto de dados em que cada elemento ou cada
observação possua a mesma importância, o cálculo da média
aritmética simples mostrará bem a população ou a amostra
estudada. Mas, se queremos atribuir pesos distintos ou
5 importâncias distintas aos elementos de um conjunto de dados,
a estatística a ser adotada é a média aritmética ponderada, em
que a cada valor xi deverá ser atribuído um determinado peso wi.
A expressão estatística para o cálculo da média ponderada é:
n
xp =
∑ wixi
i =1
n
∑ wi
i=1
10
Supondo que um estudante tenha que efetuar uma série de
quatro exames para obter sua média final para passar de ano.
Cada exame possui um peso diferente na composição desta
média, conforme a tabela abaixo:
Exame
1
2
3
4
Nota
68
89
45
100
Peso
0,30
0,20
0,40
0,10
1,00
n
xp =
∑ wixi
i=1
n
∑ wi
, logo
i=1
xp =
(0, 30)68 + (0, 20)89 + (0, 40)45 + 0,10(100)
0, 30 + 0, 20 + 0, 40 + 0,10
xp = 20, 4 + 17, 8 + 18 + 10 = 66, 2
34
ESTATÍSTICA
A nota média será então 66,2, resultado diferente do que
seria obtido se utilizássemos a média aritmética simples.
Exemplificando média aritmética e ponderada:
5
10
Num conjunto de dados em que
cada elemento ou cada observação
possua importância diferente, utilizamos
a média aritmética ponderada.
• Um aluno tirou as notas 5, 7, 9 e 10 em quatro provas. A
sua média será (5 + 7 + 9 + 10) / 4 = 7,75.
• Um aluno fez um teste (peso 1) e uma prova (peso
2), tirando 10 no teste e 4 na prova. A sua média
(ponderada) será (10 + 2 x 4) / 3 = 6. Se o teste e a prova
tivessem mesmo peso (e não importa qual o valor do
peso, importa apenas a relação entre os pesos), a média
seria 7.
2.3 A mediana
Uma outra medida importante de um conjunto de dados é
a mediana.
A mediana divide um determinado conjunto de dados, que
15 deverá estar ordenado, em dois grupos iguais, em que metade
terá valores menores que a mediana e metade terá valores
maiores que a mediana.
Antes de calcular a mediana, é preciso organizar os valores em
um rol em ordem crescente, para então contar até a metade dos
20 valores para encontrar a mediana. Em geral, após organizarmos
os dados em um rol, podemos calcular a posição da mediana
com a fórmula abaixo:
posmed =
(n + 1)
,
2
onde n é o número de dados observados.
25
Por exemplo, para um conjunto de dados xi = {6, 9, 3, 5, 2,
9, 5, 5, 8, 7, 1, 7, 2}, onde n = 13, temos primeiro que organizar
35
Unidade I
os dados em um rol, depois encontrar a posição da mediana e
então saber qual será a mediana. Vejamos:
rolxi = {1, 2, 2, 3, 5, 5, 5, 6, 7, 7, 8, 9, 9}
posiçãomediana =
5
(n + 1) 13 + 1
=
=7
2
2
mediana = 5
Para um conjunto de dados xi = {6, 4, 8, 3, 2, 9, 7, 1}, onde
n=8, temos então:
rolxi = {1, 2, 3, 4, 6, 7, 8, 9}
posiçãoomediana =
10
A mediana será o valor que está a meio caminho dos dois
valores médios, neste caso entre 4 e 6. Como fazer? Deve-se
tirar a média entre os dois valores do meio para obter o valor da
mediana. Assim, temos:
mediana =
15
(n + 1) 8 + 1
=
= 4, 5.
2
2
4 +6
=5
2
Quando usamos a mediana?
Empregamos a mediana quando:
• desejamos obter o ponto que divide a distribuição em
partes iguais;
20
• há valores extremos que afetam de uma maneira acentuada
a média;
• a variável em estudo é salário.
36
A mediana é outra medida de posição
definida como o número que se encontra
no centro de uma série de números,
estando estes dispostos segundo uma
ordem. Em outras palavras, a mediana
de um conjunto de valores, ordenados, é
o valor situado de tal forma no conjunto
que o separa em dois subconjuntos de
mesmo número de elementos.
Obs.: se o número de elementos for
ímpar, então a mediana será exatamente
o valor “do meio”; se o número de
elementos for par, então a mediana será
exatamente a média “dos dois valores
do meio”.
Para determinar a mediana:
• organize o conjunto de dados em
um rol;
• para um conjunto de dados cujo n
= ímpar, a mediana será o valor do
meio;
• para um conjunto de dados cujo n
= par, a mediana será a média dos
dois valores do meio.
ESTATÍSTICA
2.4 A moda
Muitas vezes, em um conjunto de dados, existem valores que
se repetem com uma frequência maior. A moda é justamente
este valor ou estes valores que mais se repetem em um conjunto
de dados. É possível haver estatísticas que não possuam moda
5 ou que possuam mais de uma moda.
No exemplo que demos acima, para um conjunto de dados xi
= {1, 2, 3, 4, 6, 7, 8, 9}, não existe moda e diz-se que o conjunto
ou distribuição é amodal.
A moda é uma estatística muito mais descritiva, e sua
10 importância cresce na medida em que um valor ou grupo de
valores se repete mais que outros, e neste sentido a moda
indicaria o valor “típico” daquele conjunto de dados com maior
ocorrência.
Por exemplo, o conjunto de dados xi = 2, 2, 7, 9, 9, 9, 10, 10,
15 11, 12, 18} tem moda igual a 9, porque o número 9 é aquele
com maior frequência, repetindo-se três vezes.
Repetindo: denominamos moda a um conjunto de dados ou
valores que ocorre com maior frequência.
Então, em teoria da probabilidade
e em estatística, a mediana é uma
medida de tendência central, um
número que caracteriza as observações
de uma determinada variável de tal
forma que este número (a mediana) de
um grupo de dados ordenados separa a
metade inferior da amostra, população
ou probabilidade de distribuição, da
metade superior. Mais concretamente,
1/2 da população terá valores inferiores
ou iguais à mediana e 1/2 da população
terá valores superiores ou iguais à
mediana.
Em casos de populações (n) ímpares,
a mediana será o elemento central
(n+1)/2. Para os casos de populações
(n) pares, a mediana será o resultado
da média simples dos elementos n/2 e
(n/2)+1.
Para a seguinte população:
1, 3, 5, 7, 9 – a mediana é 5 (igual à
média); no entanto, para a população 1,
2, 4, 10, 13, a mediana é 4 (enquanto a
média é 6).
Para populações pares: 1, 2, 4, 7, 9,
10 – a mediana é (4+7)/2, que é 5,5.
Por exemplo: o salário modal dos empregados de uma
20 indústria é o salário mais comum, isto é, o salário recebido pelo
maior número de empregados dessa indústria.
Exemplo:
Sabendo que o número de casos de alergia em crianças de
uma comunidade, durante uma semana, foi de 10, 14, 13, 15,
25 16, 18 e 12, encontre a média, a moda e a mediana para esses
registros da doença.
37
Unidade I
Média:
n
x=
∑ xi
i=1
n
=
10 + 14 + 13 + 15 + 16 + 18 + 12 98
= = 14.
7
7
Logo, x = 14 casos em média por dia, que representa um
atendimento de 98 casos em média por semana.
5
Obs.: a média pode ser um número diferente de todos os
valores da amostra que ela representa.
Moda: como não existe um valor que aparece com maior
frequência que os outros, não há valor de moda para esse
exemplo.
10
Mediana: ordenando os dados, temos:
10 12 13 14 15 16 18
Desta forma, o valor mediano é o valor central dos dados,
ou seja, 14 casos de alergia por dia.
3 MEDIDAS DE DISPERSÃO PARA DADOS
SIMPLES
Vimos que a moda, a mediana e a média podiam ser usadas
15 para resumir, num único número, aquilo que é “médio” ou “típico”
de um conjunto de dados. Mas a informação contida fornecida
pelas medidas de posição necessita em geral ser complementada
pelas medidas de dispersão. Estas servem para indicar o quanto
os dados se apresentam dispersos em torno da região central.
20 Caracterizam, portanto, o grau de variação existente no conjunto
de valores. As medidas de dispersão que nos interessam são:
• a amplitude total;
• o desvio padrão;
38
Em estatística descritiva, a moda
é o valor que detém o maior número
de observações, ou seja, o valor ou
valores mais frequentes. A moda não é
necessariamente única, ao contrário da
média ou da mediana. É especialmente
útil quando os valores ou observações
não são numéricos, uma vez que a
média e a mediana podem não ser
bem-definidas.
A moda de {maçã, maçã, banana,
laranja, laranja, laranja, pêssego} é
laranja.
A série {1, 3, 5, 5, 6, 6} apresenta
duas modas (bimodal): 5 e 6.
A série {1, 3, 2, 5, 8, 7, 9} não
apresenta moda.
ESTATÍSTICA
• a variância;
• o coeficiente de variação.
Observe: quanto maior as medidas de dispersão, mais
heterogêneos são os dados, e, ao contrário, quanto menor essas
5 medidas, mais homogêneo o conjunto.
Para ilustrar a necessidade de conhecermos as medidas de
dispersão de um conjunto de dados, iremos introduzir alguns
exemplos.
Exemplo 1
10
Sabe-se que em Honolulu (Havaí) e Houston (Texas) a
temperatura média diária é quase a mesma, em torno de
aproximadamente 23,9ºC. Pergunta-se: será que, por isso,
podemos admitir que a temperatura é basicamente a mesma
em ambas as localidades? Ou não será possível que enquanto
15 uma cidade é melhor para natação a outra o seja para atividades
externas?
Sabemos que a temperatura em Honolulu varia muito
pouco ao longo do ano, oscilando, em geral, entre 21,1ºC e
26,7ºC. Por outro lado, a temperatura em Houston pode diferir
20 sazonalmente (nas estações do ano), isto é, apresentar-se baixa
em janeiro (cerca de 4,4ºC) e alta em julho e agosto (bem perto
de 37,8ºC). Desnecessário dizer que as praias em Houston não
estão abarrotadas de gente o ano todo!
Exemplo 2
25
Suponham que, numa particular cidade, tanto ladrões
quanto professores secundários tenham uma renda média
mensal de R$ 900,00. Será que essa informação indica
que as duas distribuições de renda são necessariamente
semelhantes? Muito ao contrário, poder-se-ia descobrir que
39
Unidade I
elas diferem, e muito, num outro aspecto importante, que é
o fato de as rendas dos professores concentrarem-se ao redor
de R$ 900,00 (serem constantes, homogêneas), enquanto
que as dos ladrões espalham-se mais (são descontínuas,
5 heterogêneas), o que reflete, portanto, maiores oportunidades
para prisões, desemprego, pobreza e, em alguns casos, fortunas
excepcionais.
Tais fatos demonstram que necessitamos, além de uma
medida de tendência central, de um índice que indique o grau
10 de dispersão dos dados em torno da média. Este índice é uma
medida indicativa do que costumamos chamar de variabilidade
(ou dispersão).
Voltando ao exemplo 1, poderíamos dizer que a distribuição
de temperatura em Houston (Texas) tem maior variabilidade do
15 que a distribuição de temperaturas em Honolulu (Havaí). Da
mesma forma, podemos dizer que a distribuição de rendas entre
professores apresenta menos variabilidade do que a distribuição
de rendas entre ladrões.
Exemplo 3
20
Considere os seguintes conjuntos de valores das variáveis X,
Y e Z:
X: 70, 70, 70, 70, 70.
Y: 68, 69, 70, 71, 72.
Z: 5, 15, 50, 120, 160.
25
Calculando a média aritmética de cada um destes conjuntos,
obtemos:
X = 70
Y = 70
Z = 70
40
ESTATÍSTICA
Vemos, então, que os três conjuntos apresentam a mesma
média aritmética: 70; entretanto, é fácil notar que o conjunto
X é mais homogêneo que os conjuntos Y e Z. Para quantificar o
quão heterogêneos os dados são, precisamos encontrar algumas
5 medidas de posição.
Assim, quando se deseja entender, analisar e descrever de
forma adequada um determinado conjunto de dados, faz-se
necessário dispor não apenas de informações relativas às
medidas de posição, vistas anteriormente. É preciso que se
10 disponha de informações relativas à variabilidade (dispersão)
daqueles números que compõem o referido conjunto de dados.
Essas medidas de variabilidade ou dispersão indicam se os dados
observados estão próximos ou separados uns dos outros.
Diferente das medidas de posição, as medidas de dispersão
15 não são autoexplicativas; sua aplicabilidade depende da
comparação de populações ou amostras de mesmo tamanho e
mesmas características para que se obtenha alguma informação
importante a partir daquela determinada variabilidade.
As principais medidas de dispersão são: a amplitude total (ou
20 intervalo), o desvio médio, a variância e o desvio padrão. A média
serve de referência para todas essas medidas, exceto para o
intervalo (ou amplitude total). À proporção que essas medidas se
elevam, isso representa um aumento da dispersão. Isso significa
que se a medida for igual a zero, não existe dispersão.
Medidas de dispersão não são
autoexplicativas,
dependem
de
suas aplicações em tratamentos
comparativos de dados.
As medidas de variabilidade que têm a média aritmética
como ponto de referência são importantes porque nos permitem
avaliar o grau de dispersão das observações em relação a esta
mesma média, isto é, permitem-nos avaliar o quão distante
os dados de um determinado grupo de observações estão
30 da média calculada, dando-nos uma noção mais precisa da
situação de determinada população ou amostra e condições
de tirar conclusões e informações importantes daqueles dados
disponíveis.
25
41
Unidade I
Exemplo 4
Um estudante de economia resolve fazer uma pesquisa
sobre os salários médios dos funcionários de determinado setor
industrial em São Paulo. Na pesquisa, o estudante conseguiu os
5 seguintes dados em termos de salários mínimos mensais:
xi = {1.0, 1.5, 2.0, 2.0, 2.0, 2.5, 3.0, 3.0, 80.0, 85.0}.
Ao calcular o salário médio desse setor, ele chegou ao valor
médio de 18,2 salários mínimos por mês. Ora, mas este dado, sem
o cálculo de sua dispersão, em relação à média aritmética, pouco
10 nos diz sobre a realidade dessa população, e acabamos por ter uma
visão distorcida do padrão de vida da maior parte dos funcionários
deste setor analisado pelo estudante. As medidas de variabilidade
ou dispersão nos permitem perceber essa distorção.
Temos como principais medidas de dispersão, intervalo,
15 desvio médio, variância e desvio padrão.
3.1 Amplitude total
O intervalo ou amplitude total de um determinado
conjunto de dados é obtido pela diferença entre o maior e o
menor valor neste conjunto de números. Indica, portanto, a
distância entre a maior e a menor observação de um conjunto
20 de dados. Assim, temos:
Amplitudetotal = Valormáximo ~ Valormínimo
Por exemplo, para um conjunto de dados xi = {2, 3, 3, 5, 5, 5,
8, 10 12}, onde n=9, a amplitude total será:
Atotal = Vmáximo - Vmínimo ⇒ Atotal = 12-2 = 10.
25
42
Em alguns casos, o intervalo ou amplitude total pode ser
expresso simplesmente pela indicação do menor e do maior
As medidas mais comuns de
variabilidade para dados quantitativos
são a variância, a sua raiz quadrada,
o desvio padrão. A amplitude total,
a distância interquantílica e o desvio
absoluto são mais alguns exemplos de
medidas de dispersão.
ESTATÍSTICA
número do conjunto de dados. No caso do exemplo anterior,
a amplitude total poderia ser expressa simplesmente pela
identificação do menor e do maior número, indicada como
sendo de 2 a 12 ou 2-12.
A grande vantagem da amplitude total é que ela apresenta
uma certa facilidade de ser calculada, mesmo quando o conjunto
de dados observados é relativamente grande. No entanto, como
a amplitude total apenas leva em conta os dois extremos do
conjunto de números, em alguns casos, ela pode ser uma medida
10 enganosa quanto à indicação da dispersão de um conjunto de
números, tendo, portanto, uma utilidade limitada.
5
O intervalo de um determinado
conjunto de dados é obtido pela
diferença entre o maior e o menor valor
neste conjunto de números.
3.2 Desvio médio absoluto
O desvio médio absoluto inaugura o estudo das medidas de
variabilidade que têm a média como ponto de referência.
O chamado desvio nada mais é que a diferença entre cada
15 valor de um determinado conjunto de dados e a média deste
mesmo conjunto de números (xi - x). O valor absoluto de um
número será ele próprio, sem o sinal que lhe é associado, e é
indicado por meio de duas linhas verticais que o enquadram.
Assim, |-67|=67;|9|=9 É preciso calcular primeiro a média
20 aritmética dos dados disponíveis, que em geral se apresentam
como dados amostrais.
O desvio médio absoluto será calculado pela média dos
desvios dos valores a contar da média, ignorando o sinal (+ ou
-) do desvio, ou seja, convertendo os valores dos desvios em
25 valores absolutos, considerando-os todos desvios positivos.
Assim, temos:
n
∑ xi − x
,
n
onde n é o número de observações.
Dmédio =
i=1
43
Unidade I
Vamos agora tomar um exemplo de desvio médio. Para um
conjunto de dados amostrais xi = 2, 4, 6, 8, 10, 12, onde n=6,
determine o desvio médio. Temos, então:
Dmédio =
∑ xi − x
.
n
Precisamos primeiro calcular a média, para então passarmos
5
ao cálculo do desvio médio. Relembrando a fórmula do cálculo
da média aritmética, temos:
x=
∑ xi ⇒ x = 2 + 4 + 6 + 8 + 10 + 12 = 7 ⇒ x = 7.
n
6
Agora podemos calcular os desvios para cada valor do
conjunto
de dados. Assim, temos:
10
xi - x
2-7
4-7
6-7
8-7
10-7
12-7
-5
-3
-1
1
3
5
0
Dmédio =
∑ xi − x = −5 + −3 + −1 + 1 + 3 + 5
n
5 + 3 + 1+ 1+ 3 + 5
=3
Dmédio =
6
Dmédio = 3
6
O valor encontrado acima representa a diferença média de
15 cada observação e a média da distribuição. Mas também neste
caso só seria possível obter mais informações, a partir do desvio
médio, comparando com outras populações ou amostras de
mesmas características.
Por exemplo, se um outro conjunto de dados, com as mesmas
20 características e tamanho, apresentasse um desvio médio absoluto
igual a 2,4, ou seja, menor que o desvio médio absoluto calculado
no exemplo acima, poderíamos dizer que este segundo conjunto
de valores é mais homogêneo do que o nosso exemplo, já que a
diferença de cada um dos seus elementos em relação à média
25 aritmética é menor. Teríamos, assim, uma dispersão menor.
44
O desvio é a diferença entre cada
valor de um determinado conjunto de
dados e a média deste mesmo conjunto
de números.
ESTATÍSTICA
3.3 Variância
Como no cálculo do desvio médio, para o cálculo da
variância precisaremos utilizar o desvio de cada elemento de
um conjunto de dados em relação à média aritmética (xi - x).
No entanto, ao invés de trabalharmos com os valores absolutos
5 (em módulo), agora os desvios são elevados ao quadrado antes
da soma. Para o caso de dados amostrais, ao invés de dividirmos
por n, dividimos por n-1 (que é o total da amostra menos uma
unidade).
A variância irá nos dizer o grau de dispersão de um
10 determinado grupo de dados com relação à média aritmética
destes números.
Assim, a variância populacional poderá ser calculada da
seguinte forma:
2
σ
15
( xi − µ)2 , onde
∑
=
N
de dados populacionais;
A variância amostral poderá ser calculada pela fórmula que
se segue:
s2 =
Em vez de trabalharmos com os
valores em módulo, agora os desvios
são elevados ao quadrado antes da
soma. Para o caso de dados amostrais,
em vez de dividirmos por n, dividimos
por n-1.
∑ (xi − x)2 , onde
n −1
45
Unidade I
Por exemplo, seja um determinado conjunto de dados
xi = {1, 3, 5, 7, 9, 11, 13}, onde n=7. Calcule a variância deste
conjunto de dados, supondo:
• que este conjunto de dados representa toda uma
população;
5
• que este conjunto de dados representa uma amostra.
a) Para calcular a variância deste conjunto de dados,
considerando que ele representa toda uma população,
devemos utilizar a seguinte fórmula:
10
2
σ
( xi − µ)2
∑
, onde devemos considerar n=N.
=
N
Devemos passar ao cálculo da média deste conjunto de
dados, para então proceder ao cálculo da variância. Sendo assim,
temos:
µ=
15
∑ xi ⇒ µ = 1 + 3 + 5 + 7 + 9 + 11 + 13 = 7.
N
7
(média populacional)
µ =7
Partindo da média, podemos agora calcular os desvios, e então
partir para o cálculo da variância populacional, já que supomos que
o conjunto de dados representava toda a população. Assim, temos:
20
46
µ
xi - µ
(xi - µ)2
7
7-1=6
62
7
7-3=4
42
7
7-5=2
22
7
7-7=0
0
7
7-9=-2
(-2)2
7
7-11=-4
(-4)2
7
7-13=-6
(-6)2
Σ�
0
112
2
σ
( xi − µ)2
∑
=
N
2
6 + 42 + 22 + ( −2)2 + ( −4)2 + ( −6)2
σ =
7
36 + 16 + 4 + 4 + 16 + 36
σ2 =
= 16
7
2
σ2 = 16 .
ESTATÍSTICA
Assim, a variância populacional deste conjunto de dados
seria igual a 16.
b) Se, por outro lado, temos o mesmo conjunto de dados
e supondo que ele representa apenas dados amostrais,
devemos calcular a variância amostral de outra forma.
Devemos partir do cálculo da média, para então calcularmos
a variância.
5
Como vimos no módulo 2, a expressão para o cálculo da
média aritmética em uma amostra é a mesma do cálculo da
10 média para uma população, mas utilizaremos para as amostras
uma outra notação. Vejamos:
x=
∑ xi ⇒ x = 7 (média amostral).
n
Normalmente, a média amostral aproxima-se da média
populacional quanto maior o tamanho da amostra, mas não se
15 iguala a ela.
Passemos, então, ao cálculo da variância amostral. Utilizaremos
os mesmos passos do cálculo da variância populacional.
Desta forma:
s
20
2
( xi − x )2
∑
=
n −1
x
xi - x
(xi - x)2
7
7-1=6
62
7
7-3=4
42
7
7-5=2
22
s
2
( xi − x )2
∑
=
n −1
2
7
7-7=0
0
7
7-9=-2
(-2)2
7
7-11=-4
(-4)2
7
7-13=-6
(-6)2
6 + 42 + 22 + ( −2)2 + ( −4)2 + ( −6)2
s =
7 −1
36 + 16 + 4 + 4 + 16 + 36 112
s2 =
=
7 −1
6
Σ�
0
112
s2 = 18, 666...
2
47
Unidade I
A variância amostral deste conjunto de dados é igual a
18,666...
Como a média aritmética, a variância possui algumas
propriedades importantes que devemos colocar em
5 destaque e que facilitam o cálculo de alguns problemas mais
complexos.
1) Somando-se ou subtraindo-se uma constante a cada
elemento de um conjunto de dados, o valor da variância
não se altera.
10
Por exemplo, um conjunto de dados xi = {2, 4, 6, 8}, em que
n=4 e a média é igual a 5. A variância deste conjunto será dada
como segue:
2
σ
2
σ
15
2
2
2
2
( xi − µ)2
∑
2 (2 − 5) + (4 − 5) + (6 − 5) + (8 − 5)
=
⇒σ =
N
4
2
2
−3) + ( −1) + 1 + 32 9 + 1 + 1 + 9 20
(
=
= =5 .
=
4
4
4
Se somarmos uma constante c=4 a cada um dos elementos
do conjunto de dados, temos um novo conjunto de dados
yi = {6, 8, 10, 12}, em que a média será igual a 9. A variância
será então:
σ22
2
2
2
2
2
( yi − µ2 ) ( 6 − 9 ) + ( 8 − 9 ) + (10 − 9 ) + (12 − 9 )
∑
=
=
N
4
20 σ2 = ( −3) + ( −1) + (1) + ( 3) = 9 + 1 + 1 + 9 = 20 = 5 .
2
4
4
4
2
2
2
2
2
Sendo assim, demonstramos que σ = σ2 , ou seja, ao
somarmos uma constante a cada elemento de um conjunto de
dados, a variância permanece a mesma.
48
ESTATÍSTICA
2) Ao multiplicarmos uma constante c a cada elemento
de um conjunto de dados, temos uma nova variância ao
multiplicarmos a variância do conjunto de dados original
por c2.
5
Assim, a nova variância será representada da seguinte
forma:
σ22 = c2 .σ12
10
3) Ao dividirmos cada elemento de um conjunto de dados
por uma constante arbitrária c, obtém-se a nova variância,
dividindo-se a antiga variância por c2.
Assim, podemos apresentar a nova variância da seguinte
forma:
σ22 =
σ12
c2
4) A variância de uma constante é igual a zero.
15
Existe uma fórmula alternativa e reduzida para o cálculo da
variância populacional, deduzida da fórmula original, que é:
σ
xi2
∑
=
− µ2
s2x
xi2 − ( ∑ xi )2
∑
=
2
N
Para a variância amostral também existe uma fórmula
alternativa bastante utilizada e que não exige o cálculo da
20 média, e que decorre da fórmula acima:
Relembrando as propriedades de
variância:
• ao somarmos uma constante a cada
elemento de um conjunto de dados,
a variância permanece a mesma;
• ao multiplicarmos uma constante c
a cada elemento de um conjunto de
dados, temos uma nova variância
ao multiplicarmos a variância do
conjunto de dados original por c2;
• ao dividirmos cada elemento de
um conjunto de dados por uma
constante arbitrária c, obtém-se a
nova variância dividindo-se a antiga
variância por c2;
• variância de uma constante é igual
a zero.
n
n −1
3.4 Desvio padrão
Obtém-se o desvio padrão extraindo-se a raiz quadrada da
variância. Assim como a variância e o desvio médio, o desvio
49
Unidade I
padrão também representa uma medida de variabilidade
absoluta e indica o desvio de cada um dos números xi de
um dado conjunto de observações em relação à média µ. É
também chamado por alguns autores de desvio da raiz média
5 quadrática.
Matematicamente, o desvio padrão poderá ser representado
da seguinte forma:
Desvio padrão populacional:
σ=
10
∑ (xi − µ)2
N
Desvio padrão amostral:
s=
∑ (xi − x)2
n −1
Por exemplo, um conjunto de dados amostrais xi = {2, 4, 6},
onde n=3 e a média é igual a 4. Vamos então calcular o desvio
padrão para a amostra:
s=
∑ (xi− x)2 =
n −1
(2 − 4 )2 + (4 − 4 )2 + (6 − 4 )2
=
3 −1
( −2)2 + 0 + 22
8
= 4 =2
s=
=
2
2
15
Este conjunto de dados irá apresentar um desvio padrão
igual a 2.
As propriedades da variância também são aplicáveis ao desvio
padrão. Mas existem duas propriedades que serão distintas
no caso do desvio padrão, devido a sua característica de raiz
20 quadrada média positiva da variância.
Assim, ao multiplicarmos cada elemento de um conjunto de
dados por uma constante c, o novo desvio padrão será igual ao
antigo multiplicado pela constante. Temos, então:
σ2 = c.σ1
50
ESTATÍSTICA
Por outro lado, se dividirmos cada elemento de um
conjunto de dados por uma constante c, o novo desvio padrão
será igual ao anterior dividido pela constante c. Assim, temos
então:
5
σ2 =
σ1
c
As demais propriedades da variância serão as mesmas para
o desvio padrão.
Em probabilidade e estatística, o desvio padrão é a
medida mais comum da dispersão estatística. O desvio padrão
10 define-se como a raiz quadrada da variância. É definido
desta forma de maneira a dar-nos uma medida da dispersão
que:
As propriedades da variância se
aplicam ao desvio padrão, exceto:
• quando
multiplicarmos
cada
elemento de um conjunto de
dados por uma constante c, o novo
desvio padrão será igual ao antigo
multiplicado pela constante;
• quando dividirmos cada elemento
de um conjunto de dados por uma
constante c, o novo desvio padrão
será igual ao anterior dividido pela
constante c.
• seja um número não negativo;
• use as mesmas unidades de medida que os nossos dados.
15
Faz-se uma distinção entre o desvio padrão σ� (sigma) do
total de uma população ou de uma variável aleatória, e o desvio
padrão s de um sub-conjunto em amostra.
O termo desvio padrão foi introduzido na estatística por
Karl Pearson, no seu livro de 1894: Sobre a dissecção de curvas
20 de frequência assimétricas.
Exemplo
Sabendo-se que o número de casos atendidos em uma
unidade social, durante uma semana, foi de 10, 14, 13, 15, 16,
18 e 12, pede-se calcular a amplitude, o desvio padrão (S), a
25 variância (S2) e o coeficiente de variação (cv).
51
Unidade I
Solução
Amplitude:
R= 18 – 10 = 8 casos,
ou seja, a maior variação do número de casos atendidos por
5 dia pela unidade social A é de 8.
Obs.: sabemos que a média para estes dados é x = 14 casos
ao dia.
Desvio padrão:
n
∑ (xi − x)2
i=1
s=
10
=
n −1
=
( x1 − x )2 + ( x2 − x )2 + ... + ( xn − x )2
=
n −1
(10 − 14 )2 + (14 − 14 )2 + (13 − 14 )2 + (15 − 14 )2 + (16 − 14 )2 + (18 − 14 )2 + (12 − 14 )2
=
7 −1
16 + 0 + 1 + 1 + 4 + 16 + 4
42
( −4 )2 + (0)2 + ( −1)2 + (1)2 + (2)2 + (4 )2 + ( −2)2
=
=
=
=
6
16
6
= 7 ≅ 2, 65 casos atendidos por semana.
Variância:
15
S2 = (S)2=(2,65)2 ≅ 7(casos)2
Coeficiente de variação:
S 2, 65
=
= 0,1893 , ou seja, existe uma variabilidade
x 14
de 18,93% dos dados em relação à média.
cv =
52
Download