ce 003 - estatística ii

Propaganda
CE 003 - ESTATÍSTICA II
Estas notas seguem muito perto a bibliografia referenciada abaixo e que correspondem
aos livros texto deste curso, sugerindo-se sua leitura.
•
MORETTIN, L. G. Estatística Básica. Ed. Pearson Makron Books. São Paulo,
2000.
•
TRIOLA, Mario F. Introdução a Estatística. Ed. Livros Técnicos e Científicos
Editora S. A. 1999
•
BUSSAB, W. O. MORETTIN, P. A. Estatística Básica. Ed. Saraiva. São Paulo,
2006.
•
MAGALHÃES, Marcos Nascimento, LIMA, Antonio Carlos Pedroso de. Noções
de Probabilidade e Estatística. Ed. Universidade de São Paulo – Edusp. 2005
Obs: para tirar dúvidas sobre os exercícios, me procurem no 3º andar, no prédio da
administração (aquele com a bandeira do Brasil na frente)
Prof. Ricardo Valgas
SUMÁRIO
1 INTRODUÇÃO ............................................................................4
2 ESTATÍSTICA DESCRITIVA ...................................................5
2.1 Termos básicos..............................................................................................................5
2.2 Natureza dos dados .......................................................................................................5
2.3 Resumo de dados com tabelas de freqüência................................................................6
2.4 Apresentação de dados em gráficos..............................................................................9
2.5 Tipos de gráficos.........................................................................................................10
a) Gráficos em barras horizontais................................................................................10
b) Gráficos em colunas .................................................................................................10
c) Gráfico em colunas superpostas...............................................................................11
d) Gráfico em colunas agrupadas ................................................................................12
e) Histograma ...............................................................................................................12
f) Polígono de freqüências ............................................................................................13
g) Gráficos Pictóricos (Pictogramas)...........................................................................14
h) Gráficos em Linhas...................................................................................................14
i) Diagrama de pontos ..................................................................................................15
j) Gráficos em Setores...................................................................................................15
l) Gráficos em Coordenadas Polares ...........................................................................16
2.6 Apresentação de dados em tabelas..............................................................................16
2.7 Medidas de posição ou tendência central....................................................................18
2.8 Medidas de dispersão..................................................................................................21
3 NOÇÕES DE PROBABILIDADEERRO! INDICADOR NÃO DEFINIDO.
3.1 Conjuntos ..................................................................... Erro! Indicador não definido.
3.2 Conceitos Fundamentais .............................................. Erro! Indicador não definido.
Propriedades.................................................................. Erro! Indicador não definido.
3.3 Probabilidade condicional e independência de eventosErro! Indicador não definido.
3.3.1 Probabilidade condicional.................................... Erro! Indicador não definido.
3.3.2 Independência de eventos ..................................... Erro! Indicador não definido.
3.3.3 Teorema da probabilidade total ........................... Erro! Indicador não definido.
3.3.4 Teorema de Bayes ................................................. Erro! Indicador não definido.
4 VARIÁVEL ALEATÓRIAERRO! INDICADOR NÃO DEFINIDO.
4.1 Variável aleatória discreta............................................ Erro! Indicador não definido.
4.2 Variável aleatória contínua .......................................... Erro! Indicador não definido.
4.3 Função de probabilidade e função densidade de probabilidadeErro! Indicador não definido.
4.4 Função de distribuição ................................................. Erro! Indicador não definido.
4.5 Distribuição de Probabilidade...................................... Erro! Indicador não definido.
4.5.1 Distribuição de Bernoulli ..................................... Erro! Indicador não definido.
4.5.2 Distribuição Binomial........................................... Erro! Indicador não definido.
4.5.3 Distribuição Hipergeométrica .............................. Erro! Indicador não definido.
4.5.4 Distribuição de Poisson........................................ Erro! Indicador não definido.
4.5.5 A Distribuição Normal de Probabilidade............. Erro! Indicador não definido.
4.5.6 Distribuição Normal Padronizada ....................... Erro! Indicador não definido.
5 TORIA ELEMENTAR DA AMOSTRAGEMERRO! INDICADOR NÃO DE
5.1 Técnicas de amostragem .............................................. Erro! Indicador não definido.
5.1.1 Amostragem aleatória simples.............................. Erro! Indicador não definido.
5.1.2 Amostragem sistemática ....................................... Erro! Indicador não definido.
5.1.3 Amostragem estratificada ..................................... Erro! Indicador não definido.
5.1.4 Amostragem por conglomerado............................ Erro! Indicador não definido.
5.1.5 Amostragem por conveniência.............................. Erro! Indicador não definido.
5.2 Distribuições amostrais................................................ Erro! Indicador não definido.
5.2.1 Distribuição amostral das médias ........................ Erro! Indicador não definido.
5.2.2 Distribuição amostral das proporções ................. Erro! Indicador não definido.
5.2.3 Distribuição amostral das diferenças e somas ..... Erro! Indicador não definido.
5.3 Exemplos.................................................................. Erro! Indicador não definido.
6 ESTIMAÇÃO................ ERRO! INDICADOR NÃO DEFINIDO.
6.1 Estimativa de uma média populacional: grandes amostrasErro! Indicador não definido.
6.2 Estimativa de uma média populacional: pequenas amostrasErro! Indicador não definido.
6.3 Estimativa de uma proporção populacional................. Erro! Indicador não definido.
6.3.1 Determinação do tamanho de amostra................. Erro! Indicador não definido.
6.4 Estimativa de uma variância populacional .................. Erro! Indicador não definido.
6.4.1 Determinação do tamanho de amostra................. Erro! Indicador não definido.
7 TESTE DE HIPÓTESEERRO! INDICADOR NÃO DEFINIDO.
7.1 Introdução .................................................................... Erro! Indicador não definido.
7.2 Definição...................................................................... Erro! Indicador não definido.
7.3 Componentes de um teste de hipótese formal.............. Erro! Indicador não definido.
Exemplo.............................................................................. Erro! Indicador não definido.
7.3.1 Exercícios.............................................................. Erro! Indicador não definido.
7.3.2 Dados emparelhados ............................................. Erro! Indicador não definido.
7.3.3 Dados não emparelhados ...................................... Erro! Indicador não definido.
7.3.4 Exercícios.............................................................. Erro! Indicador não definido.
7.4 Testes de Aderência ..................................................... Erro! Indicador não definido.
7.4.1 Exemplo ................................................................ Erro! Indicador não definido.
7.5 Tabelas de contingência............................................... Erro! Indicador não definido.
7.5.1 Exemplos............................................................... Erro! Indicador não definido.
8 CORRELAÇÃO E REGRESSÃOERRO! INDICADOR NÃO DEFINIDO.
8.1 Correlação .................................................................... Erro! Indicador não definido.
8.1.1 Suposições............................................................. Erro! Indicador não definido.
8.2 Regressão ..................................................................... Erro! Indicador não definido.
9 PLANEJANDO UM EXPERIMENTOERRO! INDICADOR NÃO DEFINID
9.1 Exemplos...................................................................... Erro! Indicador não definido.
9.2 Delineamento Experimental......................................... Erro! Indicador não definido.
9.2.1 Experimento completamente casualizado................. Erro! Indicador não definido.
9.2.2 Experimento em blocos casualizados ....................... Erro! Indicador não definido.
9.2.3 Experimento em Quadrado Latino............................ Erro! Indicador não definido.
9.3 Análise de Variância .................................................... Erro! Indicador não definido.
9.3.1 Exemplo..................................................................... Erro! Indicador não definido.
10 ANÁLISE DE DADOSERRO! INDICADOR NÃO DEFINIDO.
1 INTRODUÇÃO
O objetivo deste curso é consolidar uma base de conhecimentos estatísticos
possibilitando o aluno analisar e extrair uma série de informações sobre um conjunto de
dados. Todos os dias lidamos com uma série de informações que muitas vezes devem ser
analisadas e aproveitadas para a tomada de decisões. Isso faz parte do cotidiano de nossas
vidas graças a popularização dos computadores. Antigamente analisar um conjunto de
dados era uma tarefa difícil, trabalhosa e demorada. Atualmente, uma grande quantidade
de dados podem ser analisados rapidamente por uma pessoa qualificada utilizando um
computador. Assim, o computador foi essencial para a difusão dos métodos estatísticos.
Por outro lado, um indivíduo sem preparo pode acabar utilizando uma técnica inadequada
para resolver um problema. Por isso a compreensão dos conceitos básicos de Estatística é
fundamental. Entendemos por Estatística como um conjunto de técnicas que permite, de
forma sistemática, organizar, descrever, analisar e interpretar um conjunto de dados
provenientes de estudos ou experimentos, realizados em qualquer área do conhecimento.
De uma maneira bem superficial podemos descrever a estatística em três áreas:
Estatística descritiva, Probabilidade e Inferência estatística.
A estatística descritiva é, em geral, utilizada na etapa inicial da análise, a fim de
retirar conclusões rápidas e diretas. Em outras palavras, a estatística descritiva se ocupa
da organização, apresentação e sintetização dos dados.
Probabilidade é utilizada nos problemas onde existe incerteza oriunda de
fenômenos da natureza de caráter aleatório.
A inferência estatística é o estudo de técnicas que possibilitam a extração de
resultados de um grande conjunto de dados, através das informações e conclusões obtidas
a partir de subconjuntos usualmente de dimensão muito menor.
2 ESTATÍSTICA DESCRITIVA
2.1 Termos básicos
População ou Universo Estatístico - É o conjunto constituído por todos os indivíduos
(valores, pessoas, medidas, etc) que apresentam pelo menos uma característica comum,
cujo comportamento interessa ser analisado. Ex: as idades dos cidadãos brasileiros
constituem uma população; as mulheres fumantes com idade entre 20 e 30 anos que
residem em Curitiba.
Amostra - É um subconjunto extraído da população, através da qual se faz inferência
sobre as características da população. Ex: uma pesquisa de mercado realizada em uma
cidade utiliza uma amostra de 1000 automóveis e, com base nos resultados, obtém
conclusões sobre a população de todos os 30000 automóveis dessa cidade.
Parâmetro - É uma medida numérica que descreve uma característica de uma população.
Estatística - É uma medida numérica que descreve uma característica de uma amostra.
2.2 Natureza dos dados
Uma variável é uma característica da população a ser estudada. Ex: sexo dos
pacientes de um hospital, idade média das crianças de uma escola, marca de cerveja mais
vendida em um supermercado.
Variáveis qualitativas nominal - São variáveis que resultam de uma classificação ou
atributo, e não podem ser dispostas segundo uma ordenação. Consistem apenas em
nomes, rótulos ou categorias. Ex: religião dos funcionários de uma lanchonete, estado
civil, respostas do tipo “sim” ou “não”.
Variáveis qualitativas ordinal - São variáveis que apresentam valores em uma ordenação
natural. Ex: colocação em uma prova de natação, carros classificados como compactos,
intermediários ou grandes.
Variáveis quantitativas discreta - São variáveis que apresentam valores provenientes de
contagem. Ex: número de inscrições no vestibular de 2006 da UFPR, números de
automóveis produzidos por uma fábrica, número de internações em um hospital.
Variáveis quantitativas contínua - São variáveis que assumem valores em um intervalo,
resultando em uma mensuração. Ex: peso corporal, preço de um produto, altura média
dos jogadores de basquete.
Nominal
Qualitativa
Ordinal
Variável
Discreta
Quantitativa
Contínua
2.3 Resumo de dados com tabelas de freqüência
Uma tabela de freqüências relaciona categorias (ou classes) de valores,
juntamente com contagens (ou freqüências) do número de valores que se enquadram em
cada categoria. Quando a variável objeto do estudo for contínua, será sempre conveniente
agrupar os valores observados em classes. Se, por outro lado, a variável for discreta e o
número de valores representativos dessa variável for muito grande, recomenda-se o
agrupamento dos dados em classes.
Para construir uma tabela de freqüências é necessário conhecer alguns termos
próprios, bem como o procedimento técnico mais adequado. Esses termos são listados a
seguir:
Dados brutos – São os dados originais, ainda não estão prontos para análise por não
estarem numericamente organizados.
Ex: tempo de atendimento (min) por um vendedor de uma loja.
3,4
1,0
0,8
0,7
1,9
1,4
1,1
1,7
2,1
1,8
0,5
1,4
1,6
1,2
2,5
1,3
3,1
1,3
1,3
1,6
Rol – É uma lista em que os valores estão dispostos em uma determinada ordem,
crescente ou decrescente.
0,5
1,2
1,6
1,9
0,7
1,3
1,6
2,1
0,8
1,3
1,7
2,5
1,0
1,4
1,8
3,1
1,1
1,4
1,9
3,4
Número de classes (k)– Fórmula de Sturges.
Amplitude total (AT) – É a diferença entre o maior e o menor valor observado da variável
em estudo.
Limites inferiores de classe (Li) - São os menores números que podem efetivamente
pertencer às diferentes classes.
Limites superiores de classe (Ls) - São os maiores números que podem efetivamente
pertencer às diferentes classes.
Marcas de classe (xi) - São os pontos médios das classes.
Amplitude de classe (AC) – É a diferença entre dois limites de classe inferiores
consecutivos ou entre duas marcas de classes consecutivas. Para calcular a amplitude de
classe basta dividir a amplitude total pelo número de classes encontradas pela fórmula de
Sturges.
Freqüência simples absoluta (fi) – É o número de repetições de um valor individual ou de
uma classe de valores. A soma das freqüências simples é chamada de freqüência total e
corresponde ao número total de observações.
Freqüência simples relativa (fr) – Representa a proporção de um valor individual ou de
uma classe, em relação ao número total de observações. Para calcular a freqüência
relativa, basta dividir a freqüência absoluta da classe ou do valor individual pelo número
total de observações.
Freqüência absoluta acumulada “abaixo de” (Fi↓) – É a soma da freqüência simples
absoluta da classe ou valor individual observado com as freqüências simples absolutas
das classes anteriores ou dos valores anteriores. Toda vez que se deseja procurar saber
quantas observações existem até uma determinada classe ou valor individual, recorre-se à
freqüência acumulada “abaixo de”.
Freqüência absoluta acumulada “acima de” (Fi↑) – Representa o número de observações
existentes além do valor ou da classe observada, incluindo no cálculo as observações
correspondentes a esse valor ou a essa classe. Para obtermos a freqüência absoluta
acumulada “acima de” basta somar a freqüência simples absoluta da classe ou do valor
individual as freqüências simples absolutas das classes ou valores individuais posteriores.
Freqüência relativa acumulada “abaixo de” (Fri↓) – É igual a soma da freqüência
simples relativa da classe ou valor individual observado com as freqüências simples
relativas das classes ou dos valores anteriores.
Freqüência relativa acumulada “acima de” (Fri↑) – É igual a soma da freqüência
simples relativa da classe ou valor individual observado com as freqüências simples
relativas das classes ou dos valores posteriores.
Classe
Freqüência - fi
0,5 ├ 1,1
1,1 ├ 1,7
1,7 ├ 2,3
2,3 ├ 2,9
2,9 ├ 3,5
Total
4
8
5
1
2
20
Ponto médio de
classe - xi
0,8
1,4
2,0
2,6
3,2
Freq Absoluta
Acumulada ↓
4
12
17
18
20
Freq Relativa
(%)
20
40
25
5
10
2.4 Apresentação de dados em gráficos
O objetivo de um gráfico é apresentar os resultados obtidos, permitindo chegar-se
a conclusões sobre a evolução ou relação entre os dados analisados.
Podemos classificar os gráficos de acordo com sua forma:
1. Diagramas: são gráficos geométricos dispostos em duas dimensões. (os mais
utilizados na representação de séries estatísticas).
2. Cartogramas: ilustrações relativas a cartas geográficas.(largamente usadas em
Geografia, história e demografia)
3. Estereogramas: representam volumes e são apresentados em três dimensões.
Classificação dos gráficos segundo o objetivo:
1. Gráficos de informação: são usados para apresentar visualmente dados numéricos,
proporcionando maior facilidade e rapidez de compreensão dos mesmos.
2. Gráficos de análise: são usados para apresentar conclusões ou resultados de uma
análise. São os que se prestam melhor ao trabalho estatístico, freqüentemente vêm
acompanhados de uma tabela. Inclui-se, muitas vezes, um texto chamando a atenção
do leitor para pontos principais revelados pelo gráfico ou tabela.
2.5 Tipos de gráficos
a) Gráficos em barras horizontais
Sua finalidade é comparar grandezas, através de retângulos de igual largura e
alturas proporcionais às respectivas grandezas. No eixo das abcissas encontramos os
valores da variável, e no eixo das ordenadas encontramos as frequências ou porcentagens.
Cada barra representa a intensidade de uma modalidade do atributo. Características:
•
As barras só diferem em comprimento (arbitrário) e não em largura;
•
As barras devem ser igualmente espassadas umas das outras, afim de evitar que os
rótulos que identificam as diferentes barras não tragam confusão ao leitor.
(espaçamento igual a metade ou 2/3 de suas larguras).
•
As barras devem ser desenhadas observando sua ordem de grandeza, para facilitar a
leitura e análise comparativa dos valores. Preferencialmente, decrescente e categorias
como “outros”, “demais”, etc. aparecerão na barra inferior.
•
Um gráfico, construído para mostrar grandezas absolutas, deverá ter uma linha zero
claramente definida e uma escala de quantidades ininterrupta, caso contrário a leitura
e a interpretação do gráfico poderão ficar distorcidas.
1972
1971
Externas
Internas
1970
1969
0
10
20
30
40
50
60
70
b) Gráficos em colunas
Ou gráficos em barras verticais, só diferem pela direção dos retângulos. Possuem
as mesmas características dos gráficos em barras. Para construir este tipo de gráfico
devemos primeiro traçar os eixos x e y. Em seguida colocamos, no eixo das abcissas, as
categorias da variável e suas respectivas barras retangulares com altura igual a freqüência
ou a porcentagem da respectiva categoria. Ex:
Estudantes do colegial segundo o tabagismo
Hábito
Freq
Freq relativa
Não-Fumantes
3985
76%
Fumantes
1257
24%
Total
5242
100%
80%
70%
Porcentagem
60%
50%
40%
30%
20%
10%
0%
Não-Fumantes
Fumantes
c) Gráfico em colunas superpostas
Utilizado para comparar dois ou mais atributos. Vejamos o exemplo:
Vendas internas e externas efetuadas pela empresa Y
Vendas
1969
1970
1971
1972
Internas
45
55
68
90
Externas
12
19
27
39
Total
57
74
95
129
140
120
100
80
Externas
60
Internas
40
20
0
1969
1970
1971
1972
d) Gráfico em colunas agrupadas
Neste gráfico não dividimos as colunas, e sim agrupamos duas ou mais para
comparar dois valores numa mesma categoria da variável.
90
80
70
60
50
Internas
40
Externas
30
20
10
0
1969
1970
1971
1972
e) Histograma
Representa graficamente os dados presentes em tabelas de distribuição de
freqüências. Para construir um histograma, primeiro traçamos os eixos cartesianos.
Depois, se os intervalos das classes forem iguais, traçamos barras retangulares com bases
iguais, correspondendo aos intervalos de classe, com alturas determinadas pelas
respectivas freqüências. Ex:
Distribuição dos empregados de uma fábrica, segundo a idade
Classe
10 ├ 20
20 ├ 30
30 ├ 40
40 ├ 50
50 ├ 60
Total
Ponto médio de classe - xi
15
25
35
45
55
fi
3
7
10
6
4
30
12
10
8
6
4
2
0
Idade
f) Polígono de freqüências
Os dados apresentados em uma tabela de distribuição de freqüências também
podem ser apresentados em gráficos denominados polígonos de freqüências. Para
construí-lo traçamos os eixos x e y, depois marcamos nas abcissas aos pontos médios das
classes e nas ordenadas as respectivas freqüências. Fazer isso no gráfico abaixo:
12
10
8
6
4
2
0
Idade
g) Gráficos Pictóricos (Pictogramas)
São construídos a partir de figuras ou conjunto de figuras representativas da
intensidade ou das modalidades do fenômeno.
Características:
•
Símbolos auto-explicativos;
•
As diferentes quantidades devem expressar-se mediante maior ou menor número de
símbolos, e não num aumento ou diminuição do tamanho do símbolo básico;
•
Devem dar uma visão geral do fenômeno, e não detalhes minuciosos;
•
Estabelecem comparações gerais, devendo ser evitados para interpretar afirmações ou
dados isolados.
Exemplos no livro Noções de Probabilidade e Estatística, pág. 12.
h) Gráficos em Linhas
São freqüentemente usados para a representação de séries de tempo. As linhas são
particularmente mais eficientes do que as colunas, quando existem intensas flutuações
nas séries ou quando há necessidade de se representarem várias séries em um mesmo
gráfico.
70
60
50
40
Internas
30
Externas
20
10
0
1969
1970
1971
1972
i) Diagrama de pontos
Utilizado para representar um ponto (x, y) do sistema de coordenadas cartesianas,
é conhecido como diagrama de dispersão. Usado principalmente em estudos de
correlação, ou seja, estudos que têm por finalidade medir o grau de associação entre as
variáveis observadas. Vamos supor que os valores da variável x correspondem as idades
das pessoas de determinada classe social e os valores da variável y, o tempo médio de
duração do banho diário dessas pessoas. Construir esse gráfico:
j) Gráficos em Setores
São usados para representar valores absolutos ou porcentagens complementares.
Para construí-lo, parte-se do fato de que o número total de graus de um arco de
circunferência é 360°. Cada uma das parcelas componentes do total dos valores poderá
ser expressa em graus, e a correspondência se fará através de regra de três simples.
A legenda pode ser dispensada inscrevendo-se no interior de cada setor a
porcentagem ou a quantidade correspondente de cada um. Pode-se usar um semicírculo
ou um quarto de circunferência, desde que seja usada para a representação completa do
fenômeno.
24%
Não-Fumantes
Fumantes
76%
l) Gráficos em Coordenadas Polares
É a representação de uma série por meio de um polígono. Geralmente presta-se
para apresentação de séries temporais. Para construí-lo, divide-se uma circunferência em
tantos arcos iguais quantos forem os dados a representar. Pelos pontos de divisas traçamse raios. Em cada raio é representado um valor da série, marcando-se um ponto cuja
distância ao centro é diretamente proporcional a esse valor; a seguir unem-se os pontos.
1969
60
40
20
1972
0
1970
Internas
Externas
1971
2.6 Apresentação de dados em tabelas
As tabelas são constituídas pelos seguintes elementos: título, corpo, cabeçalho e
coluna indicadora. O título explica o que a tabela contém. O corpo é formado pelas linhas
e colunas de dados. O cabeçalho especifica o conteúdo das colunas, e a coluna indicadora
especifica o conteúdo das linhas.
Nível de alfabetização dos funcionários da creche B
Alfabetização
Freqüência
Analfabetos
25
Alfabetizados
38
Sem declaração
3
Total
66
Fonte: Administração da creche
Título: Nível de alfabetização dos funcionários da creche B
Cabeçalho:
Alfabetização
Freqüência
Coluna indicadora:
Analfabetos
Alfabetizados
Sem declaração
Corpo da tabela:
25
38
3
Além disso, as tabelas ainda podem conter os seguintes elementos:
Fonte: dá indicação da entidade, ou do pesquisador, ou dos pesquisadores que publicaram
ou forneceram os dados. A fonte é dada no rodapé da tabela.
Notas: devem esclarecer aspectos relevantes do levantamento dos dados ou da apuração.
São colocadas no rodapé da tabela, logo após a fonte, se houver
Chamadas: dão esclarecimento sobre os dados, colocada após a nota. Devem ser feitas
através de algarismos arábicos escritos entre parênteses, e colocados a direita da coluna.
Nascidos vivos registrados
Ano
Freq
1984
25
1985
38
1986 (1)
3
Fonte: IBGE (1988)
(1) Até julho de 1986
Nota: Nascimentos ocorridos no ano de registro
Exercício: Considere o seguinte conjunto de dados (número de aportes realizados em um
fundo de previdência durante 30 meses consecutivos):
16
20
25
28
24
22
8
16
31
27
21
12
15
30
23
17
13
14
22
23
26
11
14
19
15
17
18
17
18
20
Classe
8 ├ 12
12 ├ 16
16 ├ 20
20 ├ 24
24 ├ 28
28 ├ 32
Total
fi
xi
Fi↑
Fii↓
Fri↓
fr
Fri↑
2.7 Medidas de posição ou tendência central
São medidas que servem para dar uma idéia acerca dos valores médios da variável
em estudo. São utilizados para sintetizar em um único número o conjunto de dados
observados. Podem-se apresentar de várias formas, dependendo daquilo que se pretende
conhecer a respeito dos dados estatísticos.
Média aritmética: dados brutos ( x ) – É a medida de tendência central mais utilizada
para descrever resumidamente um conjunto de dados.
Média aritmética: dados agrupados em classes – É a soma dos pontos médio de classe
multiplicado pela sua respectiva freqüência, dividido pelo total de observações.
Ex: calcule a média aritmética de uma amostra de 20 preços de um produto importado
(em dólares).
140
165
140
165
140
180
140
180
140
190
140
200
140
205
140
225
155
230
155
240
Ex: calcule a idade média dos funcionários hipertensos de uma multinacional
Anos de idade
Número de
hipertensos - fi
Ponto médio de
classe - xi
Produto (xi . fi)
20 ├ 30
30 ├ 40
40 ├ 50
50 ├ 60
60 ├ 70
Total
Média geométrica ( x g ) – É definida como a raiz n-ésima do produto de todos os n
elementos do conjunto de dados. Utilizada principalmente para calcular médias de razões,
de taxas de variação, e de índices econômicos. Pode ser:
Média geométrica simples:
Ex: calcule a xg dos valores: 2, 3, 5 e 10.
Mediana - dados brutos (Md) – É o valor que ocupa a posição central de um conjunto de
dados (crescente ou decrescente) de tal forma que 50% dos valores estão abaixo da
mediana e os outros 50% estão acima. O número que indica a ordem ou posição em que
se encontra o valor correspondente à mediana é denominado elemento mediano (EMd).
Se o tamanho da amostra for ímpar, a mediana será o valor da variável que ocupa
a posição:
Toda vez que a amostra tiver um número par de observações teremos dois valores
centrais. O problema é resolvido por uma convenção que consiste em tomar como
mediana a média aritmética dos valores que ocupam as posições:
Ex: qual a mediana dos aluguéis abaixo?
a)
120
Rol
180
160
125
150
195
140
120
125
140
150
160
180
195
b)
125
130
160
120
150
170
120
125
130
150
160
170
Rol
Mediana - dados agrupados em classes – Neste caso admitimos que os valores da
variável na distribuição de freqüências distribuem-se continuamente. A mediana será o
valor da variável para o qual 50% da freqüência total (n/2) fica situada abaixo e 50%
acima dele. Geometricamente, isso equivale a dizer que a mediana é o valor de x
(abcissas) que corresponde à perpendicular que divide o histograma em duas partes que
apresentam áreas iguais.
Ex: determinar a mediana.
Classes
10 ├ 20
20 ├ 30
30 ├ 40
40 ├ 50
50 ├ 60
60 ├ 70
70 ├ 80
Total
fi
10
20
35
40
25
15
5
150
Fi↓
A mediana é:
Moda: dados brutos (Mo) – Definida como o que ocorre com maior freqüência e mais de
uma vez. Quando dois valores ocorrem com a mesma freqüência máxima, cada um deles
é uma moda e o conjunto é bimodal. Se mais de dois valores ocorrem com a mesma
freqüência máxima, cada uma deles é uma moda, e o conjunto é multimodal.
Moda: dados agrupados em classes
Método de King
Método de Czuber
2.8 Medidas de dispersão
A sumarização de um conjunto de dados, através de uma única medida
representativa de posição central, esconde toda a informação sobre a variabilidade do
conjunto de valores. Assim, nem sempre uma única medida é suficiente para descrever de
modo satisfatório um conjunto de dados. Suponhamos dois conjuntos de observações:
A = {25 28 31 34 37}
B = {17 23 30 39 46}
Ambos possuem a mesma média, 31. No entanto, percebemos intuitivamente que
o conjunto B apresenta uma dispersão muito maior do que o conjunto A. Torna-se
necessário mostrar uma medida que indique o grau de dispersão, ou variabilidade, em
relação ao valor central.
Assim, as medidas de dispersão ou medidas de variabilidade de uma distribuição
são valores que indicam o grau de afastamento dos valores da variável em relação a
alguma medida de posição central.
Amplitude total (AT): diferença entre o maior e o menor valor do conjunto de dados. Para
dados agrupados em classe, pode ser calculado de duas maneiras: a diferença entre o
limite superior da última classe e o limite inferior da primeira classe, ou então a diferença
entre o ponto médio da última classe e o ponto médio da primeira classe.
Desvio Médio (DM) – o desvio médio ou média dos desvios é igual a média aritmética
dos valores absolutos dos desvios tomados em relação a uma das medidas de posição
central: média ou mediana. Note que para o cálculo do desvio médio são tomados os
valores absolutos dos desvios, pois a soma dos desvios em relação a média é zero.
Coeficiente de Variação (CV) – é uma medida de dispersão utilizada na comparação de
diferentes distribuições. Sabemos que o desvio padrão é uma medida de dispersão em
relação a média e que duas distribuições podem possuir médias diferentes, tornando o
desvio padrão dessas distribuições incomparáveis. A solução é utilizar o coeficiente de
variação, representado por:
O CV:
a) representa a variabilidade em torno da média. Quanto menor seu valor, mais
homogêneo é a distribuição.
b) é adimensional (não sofre influência de escala)
c) é usualmente expresso em porcentagem.
Variância (s2): a variância amostral de um conjunto de dados é dada por:
A variância é uma medida de dispersão dos valores em torno da média. Indica o
quão afastado da média encontram-se os valores da amostra. Não existe uma
interpretação física para a variância, contudo é possível analisá-la de forma analítica. Sua
interpretação é dificultada porque seus valores não são expressos nas mesmas unidades
que o conjunto de dados.
Normalmente, quando os dados estiverem agrupados em classes, ocorrem erros
resultantes desse agrupamento. Isto porque admitimos que esses dados agrupados se
distribuem simetricamente dentro da classe, razão pela qual é adotado o ponto médio de
classe no cálculo de outras medidas. Porém, nem sempre essa distribuição ocorre. A
conseqüência desse erro é aumentar o valor da variância, tanto quanto mais extensos
forem os intervalos e menor o total de observações. Para corrigir esse erro, utilizamos um
termo corretivo proposto por Sheppard. Com isso temos a seguinte fórmula para a
variância corrigida:
Rendimento (%)
Nº de dias
1,0 ├ 1,2
1,2 ├ 1,4
1,4 ├ 1,6
1,6 ├ 1,8
1,8 ├ 2,0
2,0 ├ 2,2
Total
60
160
280
260
160
80
1000
Desvio padrão (s): é uma medida quadrática dos desvios em relação a média aritmética
de um conjunto de dados, isto é, a raiz quadrada da média aritmética dos quadrados dos
desvios, estes tomados em relação a média.
Calculem o desvio padrão dos dois alunos e digam qual aluno acredita-se se melhor:
Aluno A: 30 55
81
74
66
93
Aluno B: 56 68
46
51
60
70
Download