CE 003 - ESTATÍSTICA II Estas notas seguem muito perto a bibliografia referenciada abaixo e que correspondem aos livros texto deste curso, sugerindo-se sua leitura. • MORETTIN, L. G. Estatística Básica. Ed. Pearson Makron Books. São Paulo, 2000. • TRIOLA, Mario F. Introdução a Estatística. Ed. Livros Técnicos e Científicos Editora S. A. 1999 • BUSSAB, W. O. MORETTIN, P. A. Estatística Básica. Ed. Saraiva. São Paulo, 2006. • MAGALHÃES, Marcos Nascimento, LIMA, Antonio Carlos Pedroso de. Noções de Probabilidade e Estatística. Ed. Universidade de São Paulo – Edusp. 2005 Obs: para tirar dúvidas sobre os exercícios, me procurem no 3º andar, no prédio da administração (aquele com a bandeira do Brasil na frente) Prof. Ricardo Valgas SUMÁRIO 1 INTRODUÇÃO ............................................................................4 2 ESTATÍSTICA DESCRITIVA ...................................................5 2.1 Termos básicos..............................................................................................................5 2.2 Natureza dos dados .......................................................................................................5 2.3 Resumo de dados com tabelas de freqüência................................................................6 2.4 Apresentação de dados em gráficos..............................................................................9 2.5 Tipos de gráficos.........................................................................................................10 a) Gráficos em barras horizontais................................................................................10 b) Gráficos em colunas .................................................................................................10 c) Gráfico em colunas superpostas...............................................................................11 d) Gráfico em colunas agrupadas ................................................................................12 e) Histograma ...............................................................................................................12 f) Polígono de freqüências ............................................................................................13 g) Gráficos Pictóricos (Pictogramas)...........................................................................14 h) Gráficos em Linhas...................................................................................................14 i) Diagrama de pontos ..................................................................................................15 j) Gráficos em Setores...................................................................................................15 l) Gráficos em Coordenadas Polares ...........................................................................16 2.6 Apresentação de dados em tabelas..............................................................................16 2.7 Medidas de posição ou tendência central....................................................................18 2.8 Medidas de dispersão..................................................................................................21 3 NOÇÕES DE PROBABILIDADEERRO! INDICADOR NÃO DEFINIDO. 3.1 Conjuntos ..................................................................... Erro! Indicador não definido. 3.2 Conceitos Fundamentais .............................................. Erro! Indicador não definido. Propriedades.................................................................. Erro! Indicador não definido. 3.3 Probabilidade condicional e independência de eventosErro! Indicador não definido. 3.3.1 Probabilidade condicional.................................... Erro! Indicador não definido. 3.3.2 Independência de eventos ..................................... Erro! Indicador não definido. 3.3.3 Teorema da probabilidade total ........................... Erro! Indicador não definido. 3.3.4 Teorema de Bayes ................................................. Erro! Indicador não definido. 4 VARIÁVEL ALEATÓRIAERRO! INDICADOR NÃO DEFINIDO. 4.1 Variável aleatória discreta............................................ Erro! Indicador não definido. 4.2 Variável aleatória contínua .......................................... Erro! Indicador não definido. 4.3 Função de probabilidade e função densidade de probabilidadeErro! Indicador não definido. 4.4 Função de distribuição ................................................. Erro! Indicador não definido. 4.5 Distribuição de Probabilidade...................................... Erro! Indicador não definido. 4.5.1 Distribuição de Bernoulli ..................................... Erro! Indicador não definido. 4.5.2 Distribuição Binomial........................................... Erro! Indicador não definido. 4.5.3 Distribuição Hipergeométrica .............................. Erro! Indicador não definido. 4.5.4 Distribuição de Poisson........................................ Erro! Indicador não definido. 4.5.5 A Distribuição Normal de Probabilidade............. Erro! Indicador não definido. 4.5.6 Distribuição Normal Padronizada ....................... Erro! Indicador não definido. 5 TORIA ELEMENTAR DA AMOSTRAGEMERRO! INDICADOR NÃO DE 5.1 Técnicas de amostragem .............................................. Erro! Indicador não definido. 5.1.1 Amostragem aleatória simples.............................. Erro! Indicador não definido. 5.1.2 Amostragem sistemática ....................................... Erro! Indicador não definido. 5.1.3 Amostragem estratificada ..................................... Erro! Indicador não definido. 5.1.4 Amostragem por conglomerado............................ Erro! Indicador não definido. 5.1.5 Amostragem por conveniência.............................. Erro! Indicador não definido. 5.2 Distribuições amostrais................................................ Erro! Indicador não definido. 5.2.1 Distribuição amostral das médias ........................ Erro! Indicador não definido. 5.2.2 Distribuição amostral das proporções ................. Erro! Indicador não definido. 5.2.3 Distribuição amostral das diferenças e somas ..... Erro! Indicador não definido. 5.3 Exemplos.................................................................. Erro! Indicador não definido. 6 ESTIMAÇÃO................ ERRO! INDICADOR NÃO DEFINIDO. 6.1 Estimativa de uma média populacional: grandes amostrasErro! Indicador não definido. 6.2 Estimativa de uma média populacional: pequenas amostrasErro! Indicador não definido. 6.3 Estimativa de uma proporção populacional................. Erro! Indicador não definido. 6.3.1 Determinação do tamanho de amostra................. Erro! Indicador não definido. 6.4 Estimativa de uma variância populacional .................. Erro! Indicador não definido. 6.4.1 Determinação do tamanho de amostra................. Erro! Indicador não definido. 7 TESTE DE HIPÓTESEERRO! INDICADOR NÃO DEFINIDO. 7.1 Introdução .................................................................... Erro! Indicador não definido. 7.2 Definição...................................................................... Erro! Indicador não definido. 7.3 Componentes de um teste de hipótese formal.............. Erro! Indicador não definido. Exemplo.............................................................................. Erro! Indicador não definido. 7.3.1 Exercícios.............................................................. Erro! Indicador não definido. 7.3.2 Dados emparelhados ............................................. Erro! Indicador não definido. 7.3.3 Dados não emparelhados ...................................... Erro! Indicador não definido. 7.3.4 Exercícios.............................................................. Erro! Indicador não definido. 7.4 Testes de Aderência ..................................................... Erro! Indicador não definido. 7.4.1 Exemplo ................................................................ Erro! Indicador não definido. 7.5 Tabelas de contingência............................................... Erro! Indicador não definido. 7.5.1 Exemplos............................................................... Erro! Indicador não definido. 8 CORRELAÇÃO E REGRESSÃOERRO! INDICADOR NÃO DEFINIDO. 8.1 Correlação .................................................................... Erro! Indicador não definido. 8.1.1 Suposições............................................................. Erro! Indicador não definido. 8.2 Regressão ..................................................................... Erro! Indicador não definido. 9 PLANEJANDO UM EXPERIMENTOERRO! INDICADOR NÃO DEFINID 9.1 Exemplos...................................................................... Erro! Indicador não definido. 9.2 Delineamento Experimental......................................... Erro! Indicador não definido. 9.2.1 Experimento completamente casualizado................. Erro! Indicador não definido. 9.2.2 Experimento em blocos casualizados ....................... Erro! Indicador não definido. 9.2.3 Experimento em Quadrado Latino............................ Erro! Indicador não definido. 9.3 Análise de Variância .................................................... Erro! Indicador não definido. 9.3.1 Exemplo..................................................................... Erro! Indicador não definido. 10 ANÁLISE DE DADOSERRO! INDICADOR NÃO DEFINIDO. 1 INTRODUÇÃO O objetivo deste curso é consolidar uma base de conhecimentos estatísticos possibilitando o aluno analisar e extrair uma série de informações sobre um conjunto de dados. Todos os dias lidamos com uma série de informações que muitas vezes devem ser analisadas e aproveitadas para a tomada de decisões. Isso faz parte do cotidiano de nossas vidas graças a popularização dos computadores. Antigamente analisar um conjunto de dados era uma tarefa difícil, trabalhosa e demorada. Atualmente, uma grande quantidade de dados podem ser analisados rapidamente por uma pessoa qualificada utilizando um computador. Assim, o computador foi essencial para a difusão dos métodos estatísticos. Por outro lado, um indivíduo sem preparo pode acabar utilizando uma técnica inadequada para resolver um problema. Por isso a compreensão dos conceitos básicos de Estatística é fundamental. Entendemos por Estatística como um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar um conjunto de dados provenientes de estudos ou experimentos, realizados em qualquer área do conhecimento. De uma maneira bem superficial podemos descrever a estatística em três áreas: Estatística descritiva, Probabilidade e Inferência estatística. A estatística descritiva é, em geral, utilizada na etapa inicial da análise, a fim de retirar conclusões rápidas e diretas. Em outras palavras, a estatística descritiva se ocupa da organização, apresentação e sintetização dos dados. Probabilidade é utilizada nos problemas onde existe incerteza oriunda de fenômenos da natureza de caráter aleatório. A inferência estatística é o estudo de técnicas que possibilitam a extração de resultados de um grande conjunto de dados, através das informações e conclusões obtidas a partir de subconjuntos usualmente de dimensão muito menor. 2 ESTATÍSTICA DESCRITIVA 2.1 Termos básicos População ou Universo Estatístico - É o conjunto constituído por todos os indivíduos (valores, pessoas, medidas, etc) que apresentam pelo menos uma característica comum, cujo comportamento interessa ser analisado. Ex: as idades dos cidadãos brasileiros constituem uma população; as mulheres fumantes com idade entre 20 e 30 anos que residem em Curitiba. Amostra - É um subconjunto extraído da população, através da qual se faz inferência sobre as características da população. Ex: uma pesquisa de mercado realizada em uma cidade utiliza uma amostra de 1000 automóveis e, com base nos resultados, obtém conclusões sobre a população de todos os 30000 automóveis dessa cidade. Parâmetro - É uma medida numérica que descreve uma característica de uma população. Estatística - É uma medida numérica que descreve uma característica de uma amostra. 2.2 Natureza dos dados Uma variável é uma característica da população a ser estudada. Ex: sexo dos pacientes de um hospital, idade média das crianças de uma escola, marca de cerveja mais vendida em um supermercado. Variáveis qualitativas nominal - São variáveis que resultam de uma classificação ou atributo, e não podem ser dispostas segundo uma ordenação. Consistem apenas em nomes, rótulos ou categorias. Ex: religião dos funcionários de uma lanchonete, estado civil, respostas do tipo “sim” ou “não”. Variáveis qualitativas ordinal - São variáveis que apresentam valores em uma ordenação natural. Ex: colocação em uma prova de natação, carros classificados como compactos, intermediários ou grandes. Variáveis quantitativas discreta - São variáveis que apresentam valores provenientes de contagem. Ex: número de inscrições no vestibular de 2006 da UFPR, números de automóveis produzidos por uma fábrica, número de internações em um hospital. Variáveis quantitativas contínua - São variáveis que assumem valores em um intervalo, resultando em uma mensuração. Ex: peso corporal, preço de um produto, altura média dos jogadores de basquete. Nominal Qualitativa Ordinal Variável Discreta Quantitativa Contínua 2.3 Resumo de dados com tabelas de freqüência Uma tabela de freqüências relaciona categorias (ou classes) de valores, juntamente com contagens (ou freqüências) do número de valores que se enquadram em cada categoria. Quando a variável objeto do estudo for contínua, será sempre conveniente agrupar os valores observados em classes. Se, por outro lado, a variável for discreta e o número de valores representativos dessa variável for muito grande, recomenda-se o agrupamento dos dados em classes. Para construir uma tabela de freqüências é necessário conhecer alguns termos próprios, bem como o procedimento técnico mais adequado. Esses termos são listados a seguir: Dados brutos – São os dados originais, ainda não estão prontos para análise por não estarem numericamente organizados. Ex: tempo de atendimento (min) por um vendedor de uma loja. 3,4 1,0 0,8 0,7 1,9 1,4 1,1 1,7 2,1 1,8 0,5 1,4 1,6 1,2 2,5 1,3 3,1 1,3 1,3 1,6 Rol – É uma lista em que os valores estão dispostos em uma determinada ordem, crescente ou decrescente. 0,5 1,2 1,6 1,9 0,7 1,3 1,6 2,1 0,8 1,3 1,7 2,5 1,0 1,4 1,8 3,1 1,1 1,4 1,9 3,4 Número de classes (k)– Fórmula de Sturges. Amplitude total (AT) – É a diferença entre o maior e o menor valor observado da variável em estudo. Limites inferiores de classe (Li) - São os menores números que podem efetivamente pertencer às diferentes classes. Limites superiores de classe (Ls) - São os maiores números que podem efetivamente pertencer às diferentes classes. Marcas de classe (xi) - São os pontos médios das classes. Amplitude de classe (AC) – É a diferença entre dois limites de classe inferiores consecutivos ou entre duas marcas de classes consecutivas. Para calcular a amplitude de classe basta dividir a amplitude total pelo número de classes encontradas pela fórmula de Sturges. Freqüência simples absoluta (fi) – É o número de repetições de um valor individual ou de uma classe de valores. A soma das freqüências simples é chamada de freqüência total e corresponde ao número total de observações. Freqüência simples relativa (fr) – Representa a proporção de um valor individual ou de uma classe, em relação ao número total de observações. Para calcular a freqüência relativa, basta dividir a freqüência absoluta da classe ou do valor individual pelo número total de observações. Freqüência absoluta acumulada “abaixo de” (Fi↓) – É a soma da freqüência simples absoluta da classe ou valor individual observado com as freqüências simples absolutas das classes anteriores ou dos valores anteriores. Toda vez que se deseja procurar saber quantas observações existem até uma determinada classe ou valor individual, recorre-se à freqüência acumulada “abaixo de”. Freqüência absoluta acumulada “acima de” (Fi↑) – Representa o número de observações existentes além do valor ou da classe observada, incluindo no cálculo as observações correspondentes a esse valor ou a essa classe. Para obtermos a freqüência absoluta acumulada “acima de” basta somar a freqüência simples absoluta da classe ou do valor individual as freqüências simples absolutas das classes ou valores individuais posteriores. Freqüência relativa acumulada “abaixo de” (Fri↓) – É igual a soma da freqüência simples relativa da classe ou valor individual observado com as freqüências simples relativas das classes ou dos valores anteriores. Freqüência relativa acumulada “acima de” (Fri↑) – É igual a soma da freqüência simples relativa da classe ou valor individual observado com as freqüências simples relativas das classes ou dos valores posteriores. Classe Freqüência - fi 0,5 ├ 1,1 1,1 ├ 1,7 1,7 ├ 2,3 2,3 ├ 2,9 2,9 ├ 3,5 Total 4 8 5 1 2 20 Ponto médio de classe - xi 0,8 1,4 2,0 2,6 3,2 Freq Absoluta Acumulada ↓ 4 12 17 18 20 Freq Relativa (%) 20 40 25 5 10 2.4 Apresentação de dados em gráficos O objetivo de um gráfico é apresentar os resultados obtidos, permitindo chegar-se a conclusões sobre a evolução ou relação entre os dados analisados. Podemos classificar os gráficos de acordo com sua forma: 1. Diagramas: são gráficos geométricos dispostos em duas dimensões. (os mais utilizados na representação de séries estatísticas). 2. Cartogramas: ilustrações relativas a cartas geográficas.(largamente usadas em Geografia, história e demografia) 3. Estereogramas: representam volumes e são apresentados em três dimensões. Classificação dos gráficos segundo o objetivo: 1. Gráficos de informação: são usados para apresentar visualmente dados numéricos, proporcionando maior facilidade e rapidez de compreensão dos mesmos. 2. Gráficos de análise: são usados para apresentar conclusões ou resultados de uma análise. São os que se prestam melhor ao trabalho estatístico, freqüentemente vêm acompanhados de uma tabela. Inclui-se, muitas vezes, um texto chamando a atenção do leitor para pontos principais revelados pelo gráfico ou tabela. 2.5 Tipos de gráficos a) Gráficos em barras horizontais Sua finalidade é comparar grandezas, através de retângulos de igual largura e alturas proporcionais às respectivas grandezas. No eixo das abcissas encontramos os valores da variável, e no eixo das ordenadas encontramos as frequências ou porcentagens. Cada barra representa a intensidade de uma modalidade do atributo. Características: • As barras só diferem em comprimento (arbitrário) e não em largura; • As barras devem ser igualmente espassadas umas das outras, afim de evitar que os rótulos que identificam as diferentes barras não tragam confusão ao leitor. (espaçamento igual a metade ou 2/3 de suas larguras). • As barras devem ser desenhadas observando sua ordem de grandeza, para facilitar a leitura e análise comparativa dos valores. Preferencialmente, decrescente e categorias como “outros”, “demais”, etc. aparecerão na barra inferior. • Um gráfico, construído para mostrar grandezas absolutas, deverá ter uma linha zero claramente definida e uma escala de quantidades ininterrupta, caso contrário a leitura e a interpretação do gráfico poderão ficar distorcidas. 1972 1971 Externas Internas 1970 1969 0 10 20 30 40 50 60 70 b) Gráficos em colunas Ou gráficos em barras verticais, só diferem pela direção dos retângulos. Possuem as mesmas características dos gráficos em barras. Para construir este tipo de gráfico devemos primeiro traçar os eixos x e y. Em seguida colocamos, no eixo das abcissas, as categorias da variável e suas respectivas barras retangulares com altura igual a freqüência ou a porcentagem da respectiva categoria. Ex: Estudantes do colegial segundo o tabagismo Hábito Freq Freq relativa Não-Fumantes 3985 76% Fumantes 1257 24% Total 5242 100% 80% 70% Porcentagem 60% 50% 40% 30% 20% 10% 0% Não-Fumantes Fumantes c) Gráfico em colunas superpostas Utilizado para comparar dois ou mais atributos. Vejamos o exemplo: Vendas internas e externas efetuadas pela empresa Y Vendas 1969 1970 1971 1972 Internas 45 55 68 90 Externas 12 19 27 39 Total 57 74 95 129 140 120 100 80 Externas 60 Internas 40 20 0 1969 1970 1971 1972 d) Gráfico em colunas agrupadas Neste gráfico não dividimos as colunas, e sim agrupamos duas ou mais para comparar dois valores numa mesma categoria da variável. 90 80 70 60 50 Internas 40 Externas 30 20 10 0 1969 1970 1971 1972 e) Histograma Representa graficamente os dados presentes em tabelas de distribuição de freqüências. Para construir um histograma, primeiro traçamos os eixos cartesianos. Depois, se os intervalos das classes forem iguais, traçamos barras retangulares com bases iguais, correspondendo aos intervalos de classe, com alturas determinadas pelas respectivas freqüências. Ex: Distribuição dos empregados de uma fábrica, segundo a idade Classe 10 ├ 20 20 ├ 30 30 ├ 40 40 ├ 50 50 ├ 60 Total Ponto médio de classe - xi 15 25 35 45 55 fi 3 7 10 6 4 30 12 10 8 6 4 2 0 Idade f) Polígono de freqüências Os dados apresentados em uma tabela de distribuição de freqüências também podem ser apresentados em gráficos denominados polígonos de freqüências. Para construí-lo traçamos os eixos x e y, depois marcamos nas abcissas aos pontos médios das classes e nas ordenadas as respectivas freqüências. Fazer isso no gráfico abaixo: 12 10 8 6 4 2 0 Idade g) Gráficos Pictóricos (Pictogramas) São construídos a partir de figuras ou conjunto de figuras representativas da intensidade ou das modalidades do fenômeno. Características: • Símbolos auto-explicativos; • As diferentes quantidades devem expressar-se mediante maior ou menor número de símbolos, e não num aumento ou diminuição do tamanho do símbolo básico; • Devem dar uma visão geral do fenômeno, e não detalhes minuciosos; • Estabelecem comparações gerais, devendo ser evitados para interpretar afirmações ou dados isolados. Exemplos no livro Noções de Probabilidade e Estatística, pág. 12. h) Gráficos em Linhas São freqüentemente usados para a representação de séries de tempo. As linhas são particularmente mais eficientes do que as colunas, quando existem intensas flutuações nas séries ou quando há necessidade de se representarem várias séries em um mesmo gráfico. 70 60 50 40 Internas 30 Externas 20 10 0 1969 1970 1971 1972 i) Diagrama de pontos Utilizado para representar um ponto (x, y) do sistema de coordenadas cartesianas, é conhecido como diagrama de dispersão. Usado principalmente em estudos de correlação, ou seja, estudos que têm por finalidade medir o grau de associação entre as variáveis observadas. Vamos supor que os valores da variável x correspondem as idades das pessoas de determinada classe social e os valores da variável y, o tempo médio de duração do banho diário dessas pessoas. Construir esse gráfico: j) Gráficos em Setores São usados para representar valores absolutos ou porcentagens complementares. Para construí-lo, parte-se do fato de que o número total de graus de um arco de circunferência é 360°. Cada uma das parcelas componentes do total dos valores poderá ser expressa em graus, e a correspondência se fará através de regra de três simples. A legenda pode ser dispensada inscrevendo-se no interior de cada setor a porcentagem ou a quantidade correspondente de cada um. Pode-se usar um semicírculo ou um quarto de circunferência, desde que seja usada para a representação completa do fenômeno. 24% Não-Fumantes Fumantes 76% l) Gráficos em Coordenadas Polares É a representação de uma série por meio de um polígono. Geralmente presta-se para apresentação de séries temporais. Para construí-lo, divide-se uma circunferência em tantos arcos iguais quantos forem os dados a representar. Pelos pontos de divisas traçamse raios. Em cada raio é representado um valor da série, marcando-se um ponto cuja distância ao centro é diretamente proporcional a esse valor; a seguir unem-se os pontos. 1969 60 40 20 1972 0 1970 Internas Externas 1971 2.6 Apresentação de dados em tabelas As tabelas são constituídas pelos seguintes elementos: título, corpo, cabeçalho e coluna indicadora. O título explica o que a tabela contém. O corpo é formado pelas linhas e colunas de dados. O cabeçalho especifica o conteúdo das colunas, e a coluna indicadora especifica o conteúdo das linhas. Nível de alfabetização dos funcionários da creche B Alfabetização Freqüência Analfabetos 25 Alfabetizados 38 Sem declaração 3 Total 66 Fonte: Administração da creche Título: Nível de alfabetização dos funcionários da creche B Cabeçalho: Alfabetização Freqüência Coluna indicadora: Analfabetos Alfabetizados Sem declaração Corpo da tabela: 25 38 3 Além disso, as tabelas ainda podem conter os seguintes elementos: Fonte: dá indicação da entidade, ou do pesquisador, ou dos pesquisadores que publicaram ou forneceram os dados. A fonte é dada no rodapé da tabela. Notas: devem esclarecer aspectos relevantes do levantamento dos dados ou da apuração. São colocadas no rodapé da tabela, logo após a fonte, se houver Chamadas: dão esclarecimento sobre os dados, colocada após a nota. Devem ser feitas através de algarismos arábicos escritos entre parênteses, e colocados a direita da coluna. Nascidos vivos registrados Ano Freq 1984 25 1985 38 1986 (1) 3 Fonte: IBGE (1988) (1) Até julho de 1986 Nota: Nascimentos ocorridos no ano de registro Exercício: Considere o seguinte conjunto de dados (número de aportes realizados em um fundo de previdência durante 30 meses consecutivos): 16 20 25 28 24 22 8 16 31 27 21 12 15 30 23 17 13 14 22 23 26 11 14 19 15 17 18 17 18 20 Classe 8 ├ 12 12 ├ 16 16 ├ 20 20 ├ 24 24 ├ 28 28 ├ 32 Total fi xi Fi↑ Fii↓ Fri↓ fr Fri↑ 2.7 Medidas de posição ou tendência central São medidas que servem para dar uma idéia acerca dos valores médios da variável em estudo. São utilizados para sintetizar em um único número o conjunto de dados observados. Podem-se apresentar de várias formas, dependendo daquilo que se pretende conhecer a respeito dos dados estatísticos. Média aritmética: dados brutos ( x ) – É a medida de tendência central mais utilizada para descrever resumidamente um conjunto de dados. Média aritmética: dados agrupados em classes – É a soma dos pontos médio de classe multiplicado pela sua respectiva freqüência, dividido pelo total de observações. Ex: calcule a média aritmética de uma amostra de 20 preços de um produto importado (em dólares). 140 165 140 165 140 180 140 180 140 190 140 200 140 205 140 225 155 230 155 240 Ex: calcule a idade média dos funcionários hipertensos de uma multinacional Anos de idade Número de hipertensos - fi Ponto médio de classe - xi Produto (xi . fi) 20 ├ 30 30 ├ 40 40 ├ 50 50 ├ 60 60 ├ 70 Total Média geométrica ( x g ) – É definida como a raiz n-ésima do produto de todos os n elementos do conjunto de dados. Utilizada principalmente para calcular médias de razões, de taxas de variação, e de índices econômicos. Pode ser: Média geométrica simples: Ex: calcule a xg dos valores: 2, 3, 5 e 10. Mediana - dados brutos (Md) – É o valor que ocupa a posição central de um conjunto de dados (crescente ou decrescente) de tal forma que 50% dos valores estão abaixo da mediana e os outros 50% estão acima. O número que indica a ordem ou posição em que se encontra o valor correspondente à mediana é denominado elemento mediano (EMd). Se o tamanho da amostra for ímpar, a mediana será o valor da variável que ocupa a posição: Toda vez que a amostra tiver um número par de observações teremos dois valores centrais. O problema é resolvido por uma convenção que consiste em tomar como mediana a média aritmética dos valores que ocupam as posições: Ex: qual a mediana dos aluguéis abaixo? a) 120 Rol 180 160 125 150 195 140 120 125 140 150 160 180 195 b) 125 130 160 120 150 170 120 125 130 150 160 170 Rol Mediana - dados agrupados em classes – Neste caso admitimos que os valores da variável na distribuição de freqüências distribuem-se continuamente. A mediana será o valor da variável para o qual 50% da freqüência total (n/2) fica situada abaixo e 50% acima dele. Geometricamente, isso equivale a dizer que a mediana é o valor de x (abcissas) que corresponde à perpendicular que divide o histograma em duas partes que apresentam áreas iguais. Ex: determinar a mediana. Classes 10 ├ 20 20 ├ 30 30 ├ 40 40 ├ 50 50 ├ 60 60 ├ 70 70 ├ 80 Total fi 10 20 35 40 25 15 5 150 Fi↓ A mediana é: Moda: dados brutos (Mo) – Definida como o que ocorre com maior freqüência e mais de uma vez. Quando dois valores ocorrem com a mesma freqüência máxima, cada um deles é uma moda e o conjunto é bimodal. Se mais de dois valores ocorrem com a mesma freqüência máxima, cada uma deles é uma moda, e o conjunto é multimodal. Moda: dados agrupados em classes Método de King Método de Czuber 2.8 Medidas de dispersão A sumarização de um conjunto de dados, através de uma única medida representativa de posição central, esconde toda a informação sobre a variabilidade do conjunto de valores. Assim, nem sempre uma única medida é suficiente para descrever de modo satisfatório um conjunto de dados. Suponhamos dois conjuntos de observações: A = {25 28 31 34 37} B = {17 23 30 39 46} Ambos possuem a mesma média, 31. No entanto, percebemos intuitivamente que o conjunto B apresenta uma dispersão muito maior do que o conjunto A. Torna-se necessário mostrar uma medida que indique o grau de dispersão, ou variabilidade, em relação ao valor central. Assim, as medidas de dispersão ou medidas de variabilidade de uma distribuição são valores que indicam o grau de afastamento dos valores da variável em relação a alguma medida de posição central. Amplitude total (AT): diferença entre o maior e o menor valor do conjunto de dados. Para dados agrupados em classe, pode ser calculado de duas maneiras: a diferença entre o limite superior da última classe e o limite inferior da primeira classe, ou então a diferença entre o ponto médio da última classe e o ponto médio da primeira classe. Desvio Médio (DM) – o desvio médio ou média dos desvios é igual a média aritmética dos valores absolutos dos desvios tomados em relação a uma das medidas de posição central: média ou mediana. Note que para o cálculo do desvio médio são tomados os valores absolutos dos desvios, pois a soma dos desvios em relação a média é zero. Coeficiente de Variação (CV) – é uma medida de dispersão utilizada na comparação de diferentes distribuições. Sabemos que o desvio padrão é uma medida de dispersão em relação a média e que duas distribuições podem possuir médias diferentes, tornando o desvio padrão dessas distribuições incomparáveis. A solução é utilizar o coeficiente de variação, representado por: O CV: a) representa a variabilidade em torno da média. Quanto menor seu valor, mais homogêneo é a distribuição. b) é adimensional (não sofre influência de escala) c) é usualmente expresso em porcentagem. Variância (s2): a variância amostral de um conjunto de dados é dada por: A variância é uma medida de dispersão dos valores em torno da média. Indica o quão afastado da média encontram-se os valores da amostra. Não existe uma interpretação física para a variância, contudo é possível analisá-la de forma analítica. Sua interpretação é dificultada porque seus valores não são expressos nas mesmas unidades que o conjunto de dados. Normalmente, quando os dados estiverem agrupados em classes, ocorrem erros resultantes desse agrupamento. Isto porque admitimos que esses dados agrupados se distribuem simetricamente dentro da classe, razão pela qual é adotado o ponto médio de classe no cálculo de outras medidas. Porém, nem sempre essa distribuição ocorre. A conseqüência desse erro é aumentar o valor da variância, tanto quanto mais extensos forem os intervalos e menor o total de observações. Para corrigir esse erro, utilizamos um termo corretivo proposto por Sheppard. Com isso temos a seguinte fórmula para a variância corrigida: Rendimento (%) Nº de dias 1,0 ├ 1,2 1,2 ├ 1,4 1,4 ├ 1,6 1,6 ├ 1,8 1,8 ├ 2,0 2,0 ├ 2,2 Total 60 160 280 260 160 80 1000 Desvio padrão (s): é uma medida quadrática dos desvios em relação a média aritmética de um conjunto de dados, isto é, a raiz quadrada da média aritmética dos quadrados dos desvios, estes tomados em relação a média. Calculem o desvio padrão dos dois alunos e digam qual aluno acredita-se se melhor: Aluno A: 30 55 81 74 66 93 Aluno B: 56 68 46 51 60 70