ESTATÍSTICA Panorama Histórico Desde a Antiguidade, vários povos já registravam o número de habitantes, de nascimentos, de óbitos, faziam estimativas das riquezas individual e social realizando levantamentos quantitativos por processos que, hoje, chamaríamos de “estatísticas”. Há mais de 3000 anos antes de Cristo, os egípcios deixaram dados estatísticos gravados nas pirâmides. Os chineses realizaram um censo demográfico no ano 2275 a.C. e bem mais tarde, os romanos no ano 556 a.C., também realizaram trabalho bastante semelhante. Na Idade Média colhiam-se informações, geralmente com finalidades tributárias ou bélicas. Só no século XVIII a Estatística passa a ser estudada por matemáticos e filósofos adquirindo, aos poucos, feições verdadeiramente científicas. Atualmente, existem duas visões divergentes e igualmente errôneas quanto à validade das conclusões estatísticas: ou crê-se em sua infalibilidade ou afirma-se que elas nada provam. Os que assim pensam ignoram os objetivos, o campo e o rigor do método estatístico; ignoram a Estatística, quer teórica quer prática, ou a conhecem muito superficialmente. O que é Estatística? Estatística é um conjunto de técnicas e processos que permite, de forma sistemática, coletar, organizar, descrever, analisar e interpretar dados para a tomada de decisões. OBS.: Dados é um conjunto de valores, numéricos ou não. A Estatística é utilizada em uma grande variedade de situações, que acumulam grande quantidade de dados numéricos e que necessitam de meios de comunicação claros, sintéticos e objetivos: eventos sociais, econômicos, científicos, esportivos, etc. No mercado financeiro, os métodos estatísticos são empregados para previsões de taxas de juros e preços de diferentes bens e para desenvolvimento de estratégias de investimentos que maximizem os lucros. No comércio, a Estatística pode ser usada para previsão de demandas, planejamento da produção e implantação de técnicas administrativas eficientes que garantam o melhor lucro. Em Administração, a análise estatística funciona como uma importante ferramenta para se diagnosticar problemas de gerenciamento em diferentes setores de uma empresa e para propor políticas de investimento mais eficientes dentro da própria empresa. A Estatística pode ser usada para simplesmente coletar, organizar, descrever e resumir dados, fazendo as interpretações iniciais (ESTATÍSTICA DESCRITIVA) ou para analisar e interpretar esses dados, com a utilização de probabilidades, que permitam conclusões que extrapolam os dados obtidos inicialmente (ESTATÍSTICA INDUTIVA ou INFERENCIAL). OBS.: A Estatística Descritiva resume os dados para facilitar interpretações. Porém, se não forem tomadas muitas precauções, os resultados podem ficar distorcidos, com perda de informações. Método estatístico Método estatístico é um processo para se obter, apresentar e analisar características ou valores numéricos para uma melhor tomada de decisão em situações de incerteza. Fases do Método Estatístico: definição dos objetivos, planejamento, coleta de dados, sondagem, crítica dos dados, apuração dos dados, exposição ou apresentação dos dados, análise dos resultados e relatório final. –1– População e Amostra População (ou universo) é um conjunto de elementos portadores de, pelo menos, uma característica comum. Essa característica comum deve delimitar inequivocamente quais os elementos que pertencem à população e quais os que não pertencem. Os dados que observaremos, na tentativa de tirar conclusões sobre o fenômeno que nos interessa, serão referentes a elementos dessa população. Exemplos: população dos alunos matriculados nas escolas públicas estaduais; população dos livros da biblioteca da ETESP; população das lâmpadas fabricadas pela Empresa L, no mês de janeiro. O tamanho de uma população é o número de elementos que a compõem. Censo Levantamento estatístico que abrange todos os elementos de uma população. Amostra, fixada uma população, é qualquer subconjunto finito formado exclusivamente por elementos dessa população. A amostra deve ser representativa da população, isto é, a amostra deve possuir as mesmas características básicas da população, no que diz respeito à(s) característica(s) que desejamos pesquisar. A Estatística Indutiva busca obter resultados sobre as populações a partir das amostras, dizendo também qual a precisão desses resultados e com que probabilidade se pode confiar nas conclusões obtidas. Amostragem é o processo de seleção de uma amostra, que possibilitará o estudo das características da população. Os problemas de amostragem podem ser mais ou menos complexos e sutis, dependendo das populações e das características que se deseja estudar. Na indústria,onde amostras são freqüentemente retiradas para efeito de controle de qualidade dos produtos e materiais, em geral os problemas de amostragens são mais simples. de resolver. Por outro lado, em pesquisas sociais, econômicas ou de opinião, a complexidade dos problemas de amostragem é normalmente bastante grande. A caracterização da população e a técnica de amostragem são fundamentais para garantir a representatividade da amostra. Fonte Após planejar quais os dados a coletar e que amostra utilizará, o pesquisador (estatístico) deve decidir como e onde fará a coleta. Fonte primária: as informações são obtidas diretamente pelo pesquisador. Fonte secundária: as informações são obtidas de relatórios, revistas, arquivos, livros ou instituições especializadas. A fonte de dados é de grande importância para uma pesquisa. Dados imprecisos, amostras viciadas, populações mal definidas e critérios subjetivos levam a resultados igualmente imprecisos, que a estatística não pode e não deve tentar salvar. –2– Variáveis Suponha que um questionário foi aplicado às famílias residentes no bairro B da cidade de São Paulo. Após a tabulação do questionário foi construída a tabela de dados brutos, que contém os dados da maneira que foram coletados inicialmente. Em cada família investigada existe uma característica (ou mais) em estudo que pode assumir diferentes valores. Família Idade do pai Grau de instrução do pai Religião Classe social Renda mensal (em salário mínimo) Nº de filhos em idade escolar Região de procedência 1 2 3 4 5 35 33 42 28 38 fundamental médio médio superior nenhuma evangélica budista espírita nenhuma católica baixa média média alta baixa 4 10 12 16,5 6 3 0 1 2 4 Interior Capital outro Estado Capital outro Estado Variável: Característica dos elementos de uma população ou de uma amostra, que pode assumir diferentes valores (numéricos ou não). Uma variável é dividida em categorias que devem ser: unívocas (apresenta uma única forma de interpretação, homogênea) bem definidas mutuamente exclusivas exaustivas No exemplo tem-se Variável “número de filhos” assumindo os valores: 0, 1, 2, 3, .... Variável “nível de instrução” assumindo as categorias: fundamental, médio, superior, nenhuma Variável “religião” assumindo as categorias: católica, espírita, evangélica, .... Variável “renda mensal” assumindo os valores: 1,7 salário mínimo; 3,2 salários mínimos, etc. Uma variável pode ser 1. Qualitativa: quando os valores são expressos por atributos ou qualidades (não-numérico). a) Variável qualitativa ordinal: os atributos ou qualidades tem uma ordenação natural. Exemplo: nível de instrução, classe social b) Variável qualitativa nominal: os atributos ou qualidades não são ordenáveis. Exemplo: sexo, raça, religião, naturalidade 2. Quantitativa: quando seus valores são expressos numericamente. a) Variáveis quantitativas discretas: variáveis que podem assumir apenas determinados valores, e resultam de uma contagem (números inteiros). Exemplo: número de filhos b) Variáveis quantitativas contínuas: variável que pode assumir qualquer valor entre dois limites, e resultam de uma medição (números reais). Exemplo: idade, estatura, peso, etc No estudo feito, temos que: Variáveis qualitativas: grau de instrução (O), religião (N), classe social (O), região de procedência (N) Variáveis quantitativas: idade do pai (C), renda mensal (C), número de filhos (D) –3– EXERCÍCIOS 1. Pretendia-se fazer um estudo sobre o número de irmãos dos alunos da 8ª série do Ensino Fundamental da Escola E. Para isso, efetuou-se uma pesquisa com 60 alunos. Indique: a) a população em estudo; b) a amostra escolhida; c) a variável em estudo e classifique-a. 2. Identifique as variáveis em qualitativa e quantitativa. Se for qualitativa, classifique em ordinal ou nominal. Se for quantitativa, classifique em discreta ou contínua. a) massa; e) número de irmãos; b) altura; f) gosto musical; c) sexo; g) cor dos olhos; d) idade; h) grau de instrução. 3. Para as situações descritas nos itens, determine a população. a variável em estudo. a classificação da variável em qualitativa ou quantitativa. a) Na cidade “C” verificou-se que 28% dos carros são movidos a álcool e 72%, a gasolina. b) Pesquisa sobre o consumo de energia elétrica mensal nas residências do bairro “B”. c) Ocorrência de hipertensão pré-natal em grávidas com mais de 35 anos. d) O número de filmes disponíveis num hotel, por dia, a seus hóspedes. 4. Classifique as variáveis quantitativas abaixo em discretas ou contínuas a) População: alunos de uma cidade h) P.: bibliotecas da cidade de São Paulo Variável: número de irmãos V.: número de volumes. b) P.: estação meteorológica de uma cidade i) P.: aparelhos produzidos em uma linha de V.: precipitação pluviométrica, durante um montagem. ano. V.: número de defeitos por unidade. c) P.: funcionários de uma empresa j) P.: Rede de Lanches ABC V.: salários. V.: número de sanduíches vendidos por d) P.: pregos produzidos por uma máquina dia. V.: comprimento. k) P.: Frota de automóveis da cidade C e) P.: casais residentes em uma cidade V.: capacidade do tanque de combustível. V.: número de filhos l) P.: Restaurante Arroz e Feijão f) P.: propriedades agrícolas do Brasil V.: “peso” de cada refeição servida por V.: produção de algodão, em toneladas. quilograma. g) P.: segmentos de reta V.: comprimento. 5. Admita que será feita uma pesquisa com cada população descrita abaixo. Associe a cada população uma variável qualitativa, quantitativa discreta e quantitativa contínua, analisada na pesquisa: a) Turistas estrangeiros no Brasil. b) Restaurante “Comida boa”. c) Caixas de um supermercado. d) Escritório de contabilidade “Contas certas”. e) Provedoras de acesso à Internet. f) Produção de parafusos da fábrica “Rosca”. –4– TABELAS TABELA é um quadro que resume um conjunto de observações. Uma tabela compõe-se de: 1. título – conjunto de informações, claras e objetivas, respondendo às perguntas: O quê? (natureza do fato), Quando? (tempo), Onde? (lugar), localizado no topo da tabela. 2. corpo – conjunto de linhas e colunas que contém informações sobre a variável em estudo; a) cabeçalho – parte superior da tabela que especifica o conteúdo das colunas; b) coluna indicadora – parte da tabela que especifica o conteúdo das linhas; c) linhas – retas imaginárias que facilitam a leitura, no sentido horizontal, de dados que se inscrevem nos seus cruzamentos com as colunas; d) casa ou célula – espaço destinado a um só número; 3. fonte – deve entrar no rodapé, sendo obrigatória; 4. notas – explicações escritas no rodapé. (opcional) 5. total – as tabelas podem apresentar um total ou não. Aparece entre traços horizontais. PRODUÇÃO DE CAFÉ BRASIL – 1991-1995 ANOS Coluna indicadora 1991 1992 1993 1994 1995 PRODUÇÃO (1 000 t) 2 535 2 666 2 122 3 750 2 007 Título Cabeçalho Fonte: IBGE Rodapé OBS.: Resolução 886 da Fundação IBGE: nas casa ou células (--) traço horizontal quando o valor é zero, sem arredondamento. (...) três pontos quando não dispomos dos dados. (?) ponto de interrogação quando temos dúvida quanto à exatidão de determinado valor (0) 0; 0,0; 0,00; 0,000; ...(zero) quando o valor é muito pequeno para ser expresso pela unidade utilizada. A tabela não deve ser fechada lateralmente. As colunas muito extensas devem ter, de cinco em cinco ou de dez em dez linhas, uma linha em branco. Série Estatística Série estatística é a organização dos dados coletados em uma pesquisa, de acordo com critérios específicos, e que tem como principal objetivo o agrupamento de um conjunto de dados de mesma natureza com um caráter variável, facilitando a sua interpretação e análise. A representação de uma série estatística pode ocorrer por meio de tabelas ou gráficos. A variável deverá inicialmente ser classificada em categorias (de forma unívoca, bem definidas, mutuamente exclusivas e exaustivas). Feita a categorização procede-se à contagem que constituíra as frequências das casas nas séries. -5– Conforme a natureza da variável, a série toma uma denominação especial: Série temporal, histórica ou cronológica: quando a variável é o tempo. Neste caso, ficam fixos o espaço e a espécie. Série específica ou categórica: quando a variável é a espécie (categoria/fenômeno). Neste caso, ficam fixos o tempo e o espaço. TAXA DE ESCOLARIZAÇÃO ENSINO FUNDAMENTAL BRASIL – 1994 - 2000 ALUNOS Anos (%) 1994 89,1 1995 90,0 1996 90,8 1997 91,2 1998 95,3 1999 96,3 2000 97,0 Utilização do 13º salário Cidade de São Paulo Dezembro 2008 Opções Valor percentual (%) Pagar dívidas 53 Fazer compras 14 Poupar/guardar 14 Investir/aplicar 7 Gastar nas férias 6 Outros 6 Fonte: dados fictícios Fonte: Ministério da Educação/INEP Série geográfica, territorial ou de espaço: quando a variável é o espaço (País, Estado, Município, Cidade, etc.). Neste caso, ficam fixos o tempo e a espécie. DISTRIBUIÇÃO DE FREQUÊNCIAS: Quando a variável é um número. Neste caso, todos os elementos – tempo, espaço e espécie – são fixos. Embora fixa, a espécie varia em intensidade (variação quantitativa do fenômeno). A IDADE MAIS PROVÁVEL NO PEDIDO DE SEPARAÇÃO BRASIL - 1997 Idade Homem Mulher Menos de 20 0,2% 3% De 20 a 29 25% 36% De 30 a 39 41% 38% De 40 a 49 23,5% 18% Mais de 50 10% 5% DURAÇÃO MÉDIA DOS ESTUDOS SUPERIORES 1994 PAÍSES Nº DE ANOS Itália 7,5 Alemanha 7,0 França 7,0 Holanda 5,9 Inglaterra menos de 4 Fonte: IBGE Fonte: Revista Veja Séries conjugadas As séries poderão ser conjugadas, resultando daí uma série de dupla entrada. Em uma tabela desse tipo ficam criadas duas ordens de classificação: uma horizontal (linha) e uma vertical (coluna). Série geográfica – histórica Observação: Se os dados reunidos numa tabela não apresentarem uniformidade, sendo apenas um aglomerado de informações gerais sobre determinado assunto, a tabela não representa uma série estatística. Eleitorado do Estado de São Paulo Região 1998 2000 2002 Capital 7 131 722 7 135 170 7 531 597 Interior 16 193 067 17 133 381 18 123 956 Estado 23 324 789 24 268 551 25 655 553 Assolan – Lã de Aço Dezembro de 2002 Participação no mercado 16,5% Produção 2 100 (em toneladas por mês) Número de Funcionários 670 Pontos-de venda 200 000 Fonte: Tribunal Regional Eleitoral de São Paulo - setembro/2002 Fonte: Revista Veja 05/MAR/2003 -6– Dados Estatísticos Dados absolutos: dados estatísticos resultantes da coleta direta da fonte, sem outra manipulação senão a contagem ou medida. Os dados absolutos traduzem um resultado exato e fiel, mas não têm a virtude de ressaltar de imediato as suas conclusões numéricas. Dados relativos são aqueles que passaram por algum tipo de tratamento, como por exemplo: índices, coeficientes e taxas. Índices Definição: Índice é a razão entre duas grandezas independentes. Exemplos: população total Densidade demográfica: superfície total Índices econômicos: Produção per capita = valor total da produção população Consumo per capita = consumo do bem população Renda per capita = receita população Coeficientes Definição: Coeficiente é razão entre o número de ocorrências e o número total. Exemplos: Coeficiente de natalidade: número de nascimentos população total Coeficiente de mortalidade: número de óbitos população total Coeficiente de evasão escolar: número de alunos evadidos número inicial de matrículas Taxa Definição: Taxa é o coeficiente multiplicado por uma potência de 10 (1, 10, 100,1 000, etc.). Exemplos: Taxa de mortalidade = coeficiente de mortalidade x 1 000 Ex.: Suponha que, em uma determinada região o coeficiente de mortalidade é 0,159, o que significa 0,159 óbitos por habitante. Pode-se dizer que há 159 óbitos por 1 000 habitantes. Taxa de natalidade = coeficiente de natalidade x 1 000 Taxa de evasão escolar = coeficiente de evasão escolar x 100 -7– Taxa unitária e Taxa percentual Taxa unitária é o próprio coeficiente obtido. Suponha que em uma escola o coeficiente de aprovação é 0,87, isso significa que há 0,87 aprovados para cada aluno. Taxa percentual ou porcentagem é o coeficiente obtido multiplicado por 100. No exemplo anterior, a taxa percentual de aprovação nessa escola é 87% 0,87 100% . Complete a tabela da série estatística a seguir: Matrículas nas Escolas da Cidade A - 2009 Dados absolutos Dados Relativos Ensino Número de Alunos taxa unitária taxa percentual Fundamental 19 286 Médio 1 681 Superior 234 Total 21 201 1,0000 100,00 Fonte: Dados fictícios OBS.: Taxa unitária: considerar 4 casas decimais. Taxa percentual: considerar 2 casas decimais. Exemplo: Complete a tabela ESCOLAS Nº DE ALUNOS taxa unitária A B C D E F TOTAL 175 222 202 362 280 540 1 781 1,0000 taxa percentual 100,00 Arredondamento Arredondamento de Números Quando o primeiro algarismo a ser abandonado é 0, 1, 2, 3 ou 4, fica inalterado o último algarismo a permanecer. Exemplo: 1,4378 1,4 258,871 258,87 Quando o primeiro algarismo a ser abandonado é 6, 7, 8 ou 9, aumenta-se uma unidade ao último algarismo a permanecer. Exemplo: 36,3624 36,4 15,99 16,0 Quando o primeiro algarismo a ser abandonado é 5, há dois procedimentos: Se após o algarismo 5 seguir em qualquer casa um algarismo diferente de 0, aumenta-se em uma unidade o algarismo que antecede o 5. Exemplo: 369,45001 369,5 54,6251 54,63 Se após o algarismo 5 não seguir (em qualquer casa) um algarismo diferente de zero, ao algarismo que antecede o 5 será acrescentada uma unidade, se for ímpar, e permanecerá como está, se for par. Exemplo: 26,35 26,4 159,65 159,6 -8– Arredondamento de Soma Na soma deve-se arredondar primeiro o total, e posteriormente as parcelas. Há dois casos a considerar: Quando a soma das parcelas da série arredondada é superior ao total, deve-se voltar à série original, arredondando-se, por falta, tantas parcelas quantas forem as unidades excedentes. Serão escolhidas as maiores parcelas. Série Original Série Arredondada Série Corrigida 6,51 7 7 7,50 8 8 14,63 15 15 20,10 20 20 24,73 25 24* 26,52 27 26* 99,99 102 > 100 100 Total *Arredondamentos refeitos Quando a soma das parcelas da série arredondada é inferior ao total, deve-se voltar à série original, arredondando-se, por excesso, tantas parcelas quantas forem as unidades em falta. Serão escolhidas as maiores parcelas. Total Série Original Série Arredondada Série Corrigida 5,34 5 5 7,45 7 7 18,50 18 18 19,90 20 20 22,37 22 23* 26,43 26 27* 99,99 98 < 100 100 * Arredondamentos refeitos EXERCÍCIOS 1. Procure exemplos de séries estatísticas em jornais e revistas e copie-os/recorte-os, classificando essas séries. 2. Representar os dados abaixo em uma série estatística. Classifique-a. “Estabelecimentos de ensino da região Norte do Brasil em 1982. A região Norte subdivide-se em: Rondônia, Acre, Amazonas, Roraima, Pará e Amapá e possuem um total de 29, 13, 78, 4, 110 e 9 estabelecimentos de ensino, respectivamente, segundo o SEEC-MEC.” 3. Uma escola apresentava, no final do ano, o seguinte quadro: SÉRIES 1ª 2ª 3ª 4º Total Calcule a taxa percentual de a) evasão por série. b) evasão da escola. MATRÍCULAS MARÇO NOVEMBRO 480 475 458 456 436 430 420 420 1 794 1 781 4. Suponha que em 2008, o Estado A apresentou no início do ano 159 753 matrículas 1ª série do Ensino Médio e no fim do ano 153 753 matrículas. Já o Estado B apresentou, respectivamente, 456 753 e 432 951 matrículas. Qual o estado que apresentou maior evasão escolar? -9– 5. São Paulo tinha, em 2000, uma população de 37 032 403 habitantes. Sabendo que sua área terrestre é de 248 809 km2 , calcule a sua densidade demográfica em 2000. 6. Considerando que Minas Gerais, em 1992, apresentou (dados fornecidos pelo IBGE): População: 15 957,6 mil habitantes Calcule 2 Superfície: 586 624 km Nascimentos: 292 036 Óbitos: 99 281 c) a densidade demográfica; d) a taxa de natalidade (por 1 000 habitantes); e) o coeficiente de mortalidade. 7. A tabela refere-se aos resultados de uma pesquisa, realizada com 400 adolescentes, a respeito do seu lazer preferido. Complete a tabela. 8. A tabela refere-se aos resultados de uma pesquisa, realizada com os 357 funcionários da empresa A, a respeito do seu salário, que foram agrupados de 500 em 500 reais a partir do valor R$ 500,00. Complete a tabela. Lazer Internet Esporte Música Ler Dançar Outros Total Salário (em reais) de 500 a 1 000 de 1 000 a 1 500 de 1 500 a 2 000 de 2 000 a 2 500 de 2 500 a 3 000 de 3 000 a 3 500 Total Dados absolutos Número de adolescentes Dados relativos taxa taxa unitária percentual 123 56 35 26 158 2 1,0000 Dados absolutos Número de funcionários 100,00 Dados relativos taxa taxa unitária percentual 154 0,2437 56 36 4,20 9 9. Considere a tabela a seguir, referente à parte das peças fabricadas por uma determinada empresa, classificadas por tipo. Observe que a filosofia de trabalho da empresa é a busca da qualidade total, portanto qualquer defeito nas peças que possa comprometer a sua imagem perante o público consumidor, é automaticamente rejeitado. FABRICAÇÃO DE PEÇAS PARA CARRO MODELO C Mês – novembro/97 Porcentagem Quantidade Porcentagem Quantidade por tipo fabricado Discriminação rejeitada por de peças defeituosas fabricada em relação ao total defeito por tipo geral de peças Lanterna traseira direita 2 000 80 Palheta do limpador de pára-brisa 1 800 100 Cinzeiro 3 000 200 Cinto de segurança 2 500 100 Pára-choque dianteiro 600 30 Lanterna de teto 700 25 Trinco da porta 1 200 120 Total --------------Fonte: Dados fictícios Determine a porcentagem de peças defeituosas em relação ao total geral. - 10 – REPRESENTAÇÃO GRÁFICA DE VARIÁVEIS QUALITATIVAS Gráfico estatístico: forma de apresentação dos dados estatísticos para produzir uma impressão mais rápida e viva do fenômeno. Tipos de gráficos: diagramas, pictogramas e cartogramas. A representação gráfica deve se caracterizar pela: Simplicidade – o gráfico deve ser destituído de detalhes de importância secundária, assim como de traços desnecessários que possam levar o observador a uma análise morosa ou com erros. Clareza – o gráfico deve possibilitar uma correta interpretação dos valores representativos do fenômeno em estudo. Veracidade – o gráfico deve expressar a verdade sobre o fenômeno em estudo. Os gráficos estatísticos devem apresentar: Título (“o que”, “onde”, “quando”) Escalas e respectivas unidades de medidas Indicações das convenções adotadas (legendas) fonte OBS.: Para a moldura do gráfico, recomenda-se manter a proporção: largura com 1,25 a 1,75 da altura. a b 1,25b < a < 1,75b Gráfico em linha ou em curva ou de tendência O gráfico em linha constitui uma aplicação do processo de representação das funções num sistema de coordenadas cartesianas. Neste tipo de gráfico uma linha poligonal é usada para representar a série estatística. O gráfico em linha representa, exclusivamente, uma série temporal com um número significativo de informações ( 5 ou mais), sendo que o tempo é colocado no eixo das abscissas e os valores observados no eixo das ordenadas. Para um número menor de ocorrências um outro tipo de gráfico de ser construído. Exemplo: Taxa de Mortalidade Infantil Brasileira (por 1 000 nascidos vivos) Taxa de Mortalidade Infantil Brasil – 1994-2000 Mortalidade Anos (por 1 000 nascidos vivos) 1994 39,6 1995 38,4 1996 37,5 1997 36,7 1998 36,1 1999 35,6 2000 35,3 40 39 38 37 36 35 1993 1994 1995 1996 1997 1998 1999 2000 Fonte: IBGE e Ministério da Saúde Taxa de Mortalidade Infantil Brasileira (por 1 000 nascidos vivos) 39,6 Fonte: IBGE e Ministério da Saúde 38,4 37,5 36,7 36,1 1994 1995 1996 1997 Fonte: IBGE e Ministério da Saúde - 11 – 1998 35,6 1999 35,3 2000 Gráfico em colunas ou em barras Representa praticamente qualquer tipo de série estatística, por meio de retângulos, dispostos verticalmente (em colunas) ou horizontalmente (em barras). Adequado para comparar variáveis diferentes ou valores diferentes da mesma variável. Quando em colunas, os retângulos têm a mesma base e as alturas são proporcionais aos respectivos dados. Quando em barras, os retângulos têm a mesma altura e os comprimentos são proporcionais aos respectivos dados. Notas: Sempre que os dizeres a serem inscritos são extensos, devemos dar preferência ao gráfico em barras (séries geográficas e específicas). Porém, se ainda assim preferimos o gráfico em colunas, os dizeres deverão ser dispostos de baixo para cima, nunca ao contrário. A ordem a ser observada é a cronológica, se a série for histórica, e a decrescente, se for geográfica ou categórica. A distância entre as colunas (ou barras), por questão estética, não deverá ser menor que a metade nem maior que os dois terços da largura (ou da altura) dos retângulos. Exemplos a) Extensão das linhas de Metrôs - 2001 (em quilômetros) Extensão das linhas de Metrôs Brasil -- 2001 49,2 Extensão Cidade (km) Salvador 11,9 Fortaleza 43,0 São Paulo 49,2 Rio de Janeiro 34,9 Porto Alegre 34,0 Belo Horizonte 21,3 43 34,9 34 21,3 11,9 Fonte: Revista Veja/2001 Fonte: Revista Veja/2001 b) Número de Homicídios 1º trimestre/2002 Cidade Número de Homicídios 1º trimestre/2002 Nº Homicídios (em cada 100 000 habitantes) (em cada 100 000 habitantes) Medellín (Colômbia) Johanesburgo (África do Sul) São Paulo Rio de Janeiro Rio de Janeiro 152 São Paulo 148 53 39 Johanesburgo (África do Sul) M edellín (Colômbia) Fonte: Revista Veja 27/03/2002 0 50 Fonte: Revista Veja 27/03/2002 - 12 – 100 150 Gráfico em colunas ou em barras múltiplas Este tipo de gráfico é geralmente empregado quando queremos representar, simultaneamente, dois ou mais fenômenos estudados com o propósito de comparação (série conjugada). Exemplo CONSUMO DIÁRIO DE CALORIAS* POR SEXO, SEGUNDO O PAÍS 2001 Sexo Meninos Meninas Brasil 2 500 1 900 Alemanha 2 400 1 900 Estados Unidos 2 300 1 800 Inglaterra 2 300 1 700 França 2 300 1 400 Itália 2 100 1 450 Fonte: Instituto Sodexho * Jovens de 12 a 17 anos País Gráfico de área Geralmente utilizado quando se pretende comparar a participação de cada categoria em relação ao total. Este tipo de gráfico representa as séries geográficas e específicas, de poucas ocorrências. As figuras geométricas mais adequadas são o retângulo e o círculo. Mas, com cuidado, pode-se usar outras figuras. a) Gráfico em retângulo A construção do gráfico consiste em dividir um retângulo, de dimensões quaisquer, em retângulos menores de mesma altura (largura) com larguras (alturas) variando proporcionalmente às ocorrências das categorias. Exemplo: Onde trabalham os cientistas e engenheiros 2001 Local Brasil EUA Universidade 73% 13% Instituto de pesquisa 11% 7% Empresa privada 16% 80% Fonte: Revista Época 27/Agosto/2001 Fonte: Revista Época 27/Agosto/2001 - 13 – b) Gráfico em setores A construção do gráfico consiste em dividir um círculo, que representa o total, em tantos setores quantas são as categorias.da variável em estudo. Os setores são tais que suas áreas são respectivamente proporcionais aos dados da série. Obtemos cada setor por meio de uma regra de três simples e direta, lembrando que o total da série corresponde a 360°. Notas: O gráfico em setores só deve ser empregado quando há, no máximo, sete categorias. Recomenda-se que o início da contagem dos ângulos seja feito a partir do raio correspondente à indicação do norte na bússola e marca-se os setores em ordem crescente no sentido horário. (não é obrigatório). Exemplo As Quatro Categorias entre 1 200 usuários de computador, as senhas escolhidas recaem sobre quatro categorias As quatro categorias entre 1 200 usuários de computador, as senhas escolhidas recaem sobre quatro categorias – em %. Categoria Porcentagem Familiar 47,5 Fanática 32,0 Fantasiosa 11,0 Criptográfica 9,5 Familiar Fanática Fantasiosa Criptográfica 10% 11% 47% Fonte: Revista Época 27/ago/2001 32% Fonte: Revista Época 27/ago/2001 Cartograma Representação sobre uma carta geográfica. É empregado quando o objetivo é o de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas. Pictograma Representação gráfica utilizando figuras alusivas ao assunto da série estatística em estudo. De modo geral, são muito atrativos e perdem na precisão. Só devem ser usados para comparações visuais. Estereograma Representação gráfica por sólidos. - 14 – EXERCÍCIOS 1. Represente a série abaixo usando o gráfico em linha. Índice de Satisfação com o País e com as Instituições Brasil – Mar/98-Jan/00 Período Mar/98 Jun/98 Set/98 Dez/98 Mar/99 Jul/99 Out/99 Jan/00 Índice de Satisfação com o País com as Instituições 102,70 101,04 106,81 101,00 108,62 104,26 106,38 103,82 97,58 101,18 99,27 102,78 94,91 97,09 102,48 101,74 Fonte: Vox Populi Brasil/CNT Compare os gráficos e faça uma interpretação dos fenômenos. 2. Construa um gráfico de colunas que represente a cada série abaixo. Queda Livre Desde 1994, a Varig só fechou dois anos com lucro. No primeiro semestre deste ano o prejuízo foi o maior de sua história. Resultado Financeiro Ano (em milhões de reais) 1994 170 1995 7 1996 64 1997* 28 1998 25 1999 95 2000 178 2001** 509 Venda de eletrodomésticos Casas Alemãs - 1993-97 Anos 1993 1994 1995 1996 1997 Quantidade (em milhares) 70 85 98 120 270 Fonte: Dados fictícios Fonte: Revista Veja 22/ago/2001 * Vendeu aviões para evitar prejuízo ** Primeiro semestre 3. Estudo do Ibope e-Ratings revela quais foram os banners mais vistos da internet brasileira em janeiro de 2001, em número de vezes. (Revista Veja) 1º StarMedia 2º Cadê? 3º Shopping BOL 4º Terra 5º Usina do Som Construa o gráfico de barras da série. - 15 – 33,0 milhões 25,5 milhões 23,0 milhões 20,5 milhões 17,0 milhões 4. O interesse dos jovens por política foi objeto de um levantamento realizado pela Fundação Perseu Abramo em nove regiões metropolitanas do país. Ao todo, foram ouvidos 1 806 rapazes e moças, entre 15 e 24 anos. Perguntas Sempre Você assiste ao noticiário ou lê sobre política? 20% Conversa sobre política? 10% Em época de eleição, faz propaganda para candidato? 4% Participa de reuniões de partidos políticos? 2% Assina manifestos de protesto ou de reivindicações? 7% De vez em quando 47% 42% 10% 6% 17% Nunca 33% 48% 86% 92% 76% Para cada pergunta, construa um gráfico em setor ou em em retângulo. 5. Construa o gráfico de barras múltiplas para a série abaixo. TAXA NATALIDADE POR REGIÂO DO BRASIL Regiões Norte Nordeste Sudeste Sul Centro-Oeste 6. As áreas e a população, em 1970, de cada região no Brasil estão na tabela seguinte: Região Norte Nordeste Sudeste Sul Centro-Oeste Total Taxa de Natalidade (em %) 1940 1960 1980 54,4 57,4 43,6 53,5 52,6 41,5 43,7 42,5 28,9 39,2 41,7 29,4 46,8 47,0 35,9 Área (km2) 3 581 180 1 548 672 924 935 577 732 1 879 455 8 511 974 População 3 603 860 28 111 927 39 853 498 16 496 493 5 073 259 93 139 037 a) Represente as porcentagens de áreas de cada região num gráfico de setores. b) Represente as porcentagens de população de cada região num gráfico de barras. Fonte: jornal Folha de S. Paulo, 21/07/88 7. O gráfico por setores representado ao lado mostra os resultados de um estudo da ATP (Associação dos Tenistas Profissionais), com 198 tenistas, sobre as lesões mais freqüentes nos tenistas. a) Quantos tenistas tiveram lesão no cotovelo? b) Qual o ângulo do setor correspondente a lesão no ombro ? c) Qual o tipo de lesão mais freqüente? d) Dos 18 tenistas espanhóis, que estão entre os 100 melhores no atual ranking de entradas da ATP, quantos, possivelmente, já tiveram lesão no ombro? e) Construa uma tabela para o gráfico. - 16 – Coluna 20% Pé e tornozelo 17% Cotovelo 9% Joelho 11% Bacia e quadris 11% Mão e punho 3% Ombro 29% Tabelas de frequência para variável qualitativa Feita uma coleta dos dados, para cada variável, pode-se construir uma tabela com as informações resumidas. Essa tabela será denominada de tabela de frequência e, como o nome indica, conterá os valores da variável e suas respectivas contagens, as quais são denominadas frequências absolutas ou simplesmente, frequência. A tabela de frequência consiste em listar os valores possíveis da variável e fazer a contagem do número de ocorrências. Representa-se por fi a frequência do valor i e por n a frequência total. Para efeito de comparação com outros grupos ou conjuntos de dados, será conveniente acrescentarmos uma coluna na tabela de frequência contendo o cálculo da frequência f relativa, definida por fri i . n Exemplo: Em uma turma de 50 alunos foi aplicado um questionário, sendo que uma das perguntas era: Qual a sua opinião a respeito da qualidade da programação na TV? ( ) Ruim ( ) Média ( ) Boa ( ) Não sabe Os valores obtidos para esta variável estão apresentados abaixo (tabela de dados brutos): R N R N B M R R M R R R M R N R N M R R M R N B R R M R R R M N R N R R R M M R M M R R R R M R R B Aplicando técnicas de contagem, obtém-se as frequências dos valores e constrói-se a tabela de frequência: Opinião frequência Frequência relativa Porcentagem (fi) (fri) (%) Ruim Média Boa Não sabe Total - 17 – Distribuição de Freqüência Variável Quantitativa Discreta Coleta de dados: Pesquisa sobre o número de irmãos dos alunos da .......... Dados brutos ou tabela primitiva é o conjunto dos dados numéricos, obtidos após a crítica dos valores coletados, cujos elementos não foram numericamente organizados. Através dos dados brutos é difícil formar uma idéia exata do comportamento do fenômeno em estudo. Número de irmãos da .............. Rol é a organização dos dados iniciais em certa ordem, crescente ou decrescente. É a maneira mais simples de organizar os dados. Número de irmãos da .............. A organização feita, ainda não está boa, pois pode implicar em obter uma tabela com numerosas linhas. Feita a contagem, podemos construir uma tabela em que para cada valor da variável (número de irmãos) a respectiva freqüência (quantidade de vezes em que o número de irmãos é repetido). Essa tabela recebe o nome de distribuição de frequência . da variável número de irmãos dos alunos da ....... i 1 2 Número de irmãos xi Frequência fi i = 1, 2, …., k, onde k é a quantidade de valores distintos (categorias) que a variável assume. xi: indentifica as categorias da variável. fi: freqüência absoluta ou, simplesmente, freqüência de xi é o número de ocorrências ou repetições deste dado k Se n é o número total de dados, então fi n , i 1 havendo possibilidade de engano, apenas Total Para a distribuição de em estudo, temos que: x1 e f1 , x2 e f2 , x3 e f3 k , ..... , e fi i 1 - 18 – fi n . ou não Frequência relativa ( fri ) são os valores das razões da frequência absoluta ( fi ) pelo número de elementos da população. f fri i n fi fi É claro que, a porcentagem correspondente a cada valor será fri 100% . A frequência relativa é conveniente para comparações e permitir a análise. Voltando para a distribuição em estudo, temos que: i Número de irmãos Frequência absoluta Frequência relativa xi fi fri Porcentagem ( fri 100% ) Frequência acumulada Fi Frequência acumulada relativa Fri Porcentagem acumulada (%) 1,0000 100,00 1 2 Total 1,0000 100,00 Frequência absoluta acumulada (Fi) é a soma das frequências dos valores inferiores ou iguais ao valor considerado. Fi f1 f 2 fi i fj , em que i = 1, 2, …., k j1 A finalidade da frequência acumulada é informar quantos casos ocorreram até aquela determinada categoria. Fi Frequência acumulada relativa (Fri): Fri n O conhecimento dos vários tipos de frequência auxilia a responder muitas questões com relativa facilidade. a) b) c) d) e) Quantos alunos têm até 3 irmãos? Quantos alunos têm mais de 3 irmãos? Qual a porcentagem de alunos que têm menos de 3 irmãos? Qual o valor da variável mais freqüente? Qual o valor da variável que reparte o conjunto ordenado dos dados observados em dois subconjuntos com a mesma quantidade de elementos? - 19 – Representação gráfica da distribuição de frequência de uma variável discreta. A representação gráfica da distribuição de frequência de uma variável discreta é feita por um diagrama onde cada valor da variável é representado por um segmento de reta vertical e de comprimento proporcional à respectiva frequência. Para a distribuição em estudo, construir o gráfico das frequências relativas. Exercícios 1. Em um prédio residencial com 45 apartamentos, o número de moradores de cada apartamento foi coletado, resultando os seguintes dados: 4 2 4 4 4 3 a) b) c) d) 1 1 2 2 0 2 4 5 4 5 3 5 2 3 4 1 3 1 4 2 3 4 2 0 5 4 1 2 4 5 3 4 2 4 3 4 4 2 4 Construir a distribuição de frequência, determinando as frequências relativas e acumuladas; Construir o gráfico da frequência absoluta; Qual é a porcentagem de apartamentos que têm 5 moradores? Qual é a porcentagem de apartamento que têm 2 ou 3 moradores? 2. Numa caixinha de fósforos, vem grafada a seguinte informação: “contém 40 palitos”. Para averiguar esta informação, foram adquiridas 60 caixinhas de fósforos e foi feita uma contagem do número de palitos contidos em cada uma delas. Os resultados obtidos foram: 41 41 41 40 40 43 40 41 40 40 40 43 42 39 40 40 40 40 40 40 39 40 44 40 42 40 40 40 41 40 40 39 43 38 41 41 42 41 39 41 40 40 39 40 39 40 40 42 41 43 42 40 40 41 40 41 40 42 40 41 Organize esses dados em uma distribuição de frequência sem intervalos de classe e construa um gráfico de frequência absoluta. 3. A distribuição abaixo indica o número de acidentes ocorridos com 70 motoristas de uma empresa de ônibus: Nº ACIDENTES 0 1 2 3 4 5 6 7 Nº MOTORISTAS 20 10 16 9 6 5 3 1 Determine: a) o número de motoristas que não sofreram nenhum acidente; b) o número de motoristas que sofreram pelo menos 4 acidentes; c) o número de motoristas que sofreram menos de 3 acidentes; d) o número de motoristas que sofreram no mínimo 3 e no máximo 5 acidentes; e) a percentagem dos motoristas que sofreram no máximo 2 acidentes. - 20 – Distribuição de frequência em classes No caso das variáveis quantitativas contínuas, ou mesmo no caso de uma variável discreta com grande quantidade de categorias, o modo de resumir bem o conjunto é apurar os valores da variável em intervalos, denominados classes, que permitem uma grande condensação dos dados em estudo. A maior vantagem da apuração dos em classes é o posterior trabalho numérico dos dados e a construção de gráficos. A desvantagem é que há perda de informação, porque os valores originais não mais aparecem individualmente. Coleta de dados: Pesquisa sobre a estatura, em cm, dos alunos da .......... Dados Brutos: dados originais Estatura dos alunos da .............. (em cm) Rol: é a ordenação dos dados brutos em ordem crescente ou decrescente. Amplitude total (AT) é a diferença entre o maior e o menor valor observado: AT = xmáx - xmín No exemplo: AT = Classes: intervalos da reta real. Um requisito essencial é que as classes sejam mutuamente excludentes e exaustivas. Frequência da classe (fi): número de elementos de cada classe. Quantidade de classes (k): Não há uma fórmula exata para o cálculo do número de classes. Existem vários critérios para se estabelecer o número de classes. A escolha depende do problema em questão, de tal forma que os valores não fiquem muito compactados ou muito dispersos. Alguns critérios: OBS. nº de elementos número de classes k deve ser aproximado para o observados mínimo máximo maior inteiro. até 50 5 10 não se trabalha com classes 51 a 100 8 16 vazias. 101 a 200 10 20 201 a 300 12 24 Menor valor inteiro de k, tal que 2k n . k = 5, se n 25 e k No nosso exemplo, k = n , para n > 25 - 21 – Limites de classe são os extremos de cada classe. Notação: Se l i = limite inferior da classe e L i = limite superior da classe, então li x L i li | L i . Amplitude ( h i ) de um intervalo de classe é a medida do intervalo que define a classe: h i L i li Uma característica desejável, mas não essencial, é que as amplitudes das classes sejam iguais, porém em algumas situações, classes com amplitudes diferentes possam ser utilizadas ou classes com limites indeterminados (geralmente a 1ª ou a última). Quando todas as classes têm a mesma amplitude, temos que: h i A , i = 1, 2, ..., k k (quando o resultado não é exato devemos arredondá-lo para o maior inteiro). Resumo: 1. achar a amplitude total; 2. escolher o número de classes; 3. escolher a amplitude de classes (h); 4. organizar os limites de classe, podendo começar ou terminar em números não pertencentes ao conjunto, mas em torno dos limites extremos (maior e menor ocorrências). A distribuição de freqüência da variável em estudo é Estatura dos alunos da .............. (em cm) i 1 2 3 4 classes fi Total Nota: Ao agruparmos os valores da variável em classes, ganhamos em simplicidade mas perdemos em pormenores. Ponto médio classe i (xi) é o ponto que divide o intervalo de classe em duas partes iguais: l Li xi i 2 O ponto médio de uma classe é o valor que a representa. Em nosso exemplo, temos que: x1 = x2 = x3 = x4 = f Frequência relativa da classe i ( fri ): fri i , em que fi é a frequência absoluta da classe i e n é o n número de valores estudados. - 22 – Porcentagem da classe i: fri 100% . Frequência absoluta acumulada da classe i (Fi) como já foi definido Frequência relativa acumulada da classe i (Fri) como já foi definido i classes xi fi fri Porcentagem (%) Fi Fri 1 2 3 4 5 1,000 Total 1,0000 100,00 xi = ponto médio da classe i; fi = frequência absoluta da classe i; fri = frequência relativa da classe i; Fi = frequência absoluta acumulada da classe i; Fri = frequência relativa acumulada da classe i Representações Gráficas da Distribuição de Frequência em classes Histograma é o gráfico formado por um conjunto de retângulos justapostos, no qual os extremos da base do retângulo i são definidos pelos limites da classe i, e a altura é proporcional à frequência (absoluta ou relativa). A área do histograma é proporcional ao número de dados total. Roteiro 1. Obtenha a distribuição de frequência a partir dos dados, agrupando-os em classes; 2. Desenhe os eixos ortogonais; 3. Divida o eixo horizontal em tantas partes quanto for o número de classes mais dois, e marque os números correspondentes aos limites inferior e superior de cada classe; 4. Identifique a maior frequência da classe na tabela de frequência; escolha um número adequado, maior ou igual àquela frequência; marque esse número na extremidade do eixo vertical; divida o eixo vertical em algumas partes e marque os números correspondentes; 5. Para cada classe, desenhe um retângulo com largura igual à amplitude da classe e com altura igual à frequência da classe; 6. Hachure ou preencha os retângulos com padrões ou cores; 7. Por fim, coloque o título do gráfico, o nome da variável no eixo horizontal e a palavra frequência no eixo vertical. Polígono de frequência é um gráfico em linha, onde a abscissa é o ponto médio da classe e a ordenada é proporcional à frequência dessa classe. Para realmente obtermos um polígono (linha fechada), devemos completar a figura, ligando os extremos da linha obtida aos pontos médios da classe anterior à primeira e posterior à última, da distribuição. - 23 – Podemos também considerar a poligonal que une os pontos médios das bases superiores dos retângulos do histograma (pontos médios das classes). A área delimitada pela poligonal e o eixo horizontal é igual à área total dos retângulos. O polígono de frequência é importante pois podemos comparar duas ou mais distribuições de frequência, traçando os polígonos em um mesmo plano cartesiano. Exercícios 1. São dadas as vendas de uma firma, expressas em milhares de reais, durante 100 semanas, segundo o quadro abaixo: 26 34 31 27 33 30 33 31 27 28 39 30 37 34 23 32 29 33 33 30 26 29 34 29 29 26 30 30 31 27 29 32 30 31 27 30 24 32 27 30 34 21 27 27 30 27 30 30 31 31 27 24 28 32 29 36 28 33 28 30 Determinar a) rol; b) amplitude máxima; c) número de classes; d) amplitude das classes; e) distribuição em classes de frequência. 28 23 33 33 30 33 30 27 27 33 30 29 28 36 31 31 27 27 29 30 29 30 30 32 37 28 30 31 31 33 32 36 34 30 27 33 30 33 24 34 Elaborar f) histograma; g) polígono de frequências. - 24 – 2. Considerando as notas de um teste de inteligência aplicado a 100 alunos: 64 73 78 86 76 82 68 71 95 94 78 95 86 84 80 90 96 73 94 75 66 82 74 103 78 82 89 73 92 85 78 101 85 98 75 86 76 76 83 103 92 102 73 87 70 83 81 85 72 81 86 70 72 74 84 63 105 74 98 78 88 62 91 83 98 67 95 108 98 71 86 103 80 81 73 90 86 84 85 79 96 81 99 81 78 83 93 83 92 72 87 90 86 85 93 89 85 96 76 73 Determinar a) rol; b) amplitude máxima; c) número de classes; d) amplitude das classes; e) distribuição em classes de freqüência. Elaborar f) histograma; g) polígono de freqüências relativas. 3. As alturas, em metros, dos 100 alunos de uma faculdade estão apresentadas na distribuição de frequência a seguir: Complete a tabela com a freqüência acumulada, a freqüência relativa acumulada e a porcentagem Fi Classe fi acumulada e responda: 1,55 |--- 1,60 3 1,60 |--- 1,65 12 b) a amplitude total da distribuição é 1,65 |--- 1,70 24 c) a freqüência absoluta da 5ª classe é 1,70 |--- 1,75 36 d) a freqüência acumulada até a 4ª classe é 1,75 |--- 1,80 15 1,80 |--- 1,85 8 e) a classe que acumulada 50% dos elementos da distribuição é 1,85 |--- 1,90 2 f) Total a) a classe que tem maior freqüência é 100 o número de alunos cuja altura não atinge 1,70m é g) a porcentagem de alunos cuja altura é maior ou igual a 1,75m é 4. A tabela abaixa apresenta uma distribuição de frequência das áreas de 400 lotes: i 1 2 3 4 5 6 7 8 9 Áreas (m2) 300 |--- 400 400 |--- 500 500 |--- 600 600 |--- 700 700 |--- 800 800 |--- 900 900 |--- 1 000 1 000 |--- 1 100 1 100 |--- 1 200 Total Nº de Lotes 14 46 58 76 68 62 48 22 6 fri Complete a tabela e determine: a) a amplitude total; b) o limite superior da quinta classe; c) o limite inferior da oitava classe; d) o ponto médio da sétima classe; - 25 – Porcentagem (%) Fi Fri e) a amplitude do intervalo da segunda classe; f) a frequência da quarta classe; g) a frequência relativa da sexta classe; h) o número de lotes cuja área não atinge 700 m2 ; i) o número de lotes cuja área atinge e ultrapassa 800 m2 ; j) a percentagem dos lotes cuja área não atinge 600 m2 ; k) a percentagem dos lotes cuja área seja maior ou igual a 900 m2 ; l) m) n) o) a percentagem dos lotes cuja área é de 500 m2 , no mínimo, mas inferior a 1 000 m2 ; a classe do 72º lote; a classe que acumula 50% dos lotes. a classe que apresenta a maior frequência. Existem casos em que é mais adequado agrupar os dados em classes com larguras desiguais. A representação gráfica dos dados em forma de um histograma requer a transformação dos valores de f frequência em densidade de frequência i , pois devemos manter a área dos retângulos do histograma x proporcionais à frequência. A densidade de frequência será dada por: fi freqüência absoluta da classe i x amplitude da classe i densidade de freqüência 5. O histograma abaixo descreve a distribuição das massas, em quilogramas, dos alunos do 2ª série do Ensino Médio da Escola “E”. 9 8 7 6 5 4 3 2 1 0 a) Qual é a frequência da classe 65,5 |--- 70,5? b) Qual é a frequência da classe 70,5 |--- 80,5? c) Quantos alunos fazem parte dessa amostra? 59,5 65,5 70,5 80,5 Massas (kg) 95,5 6. Em um campeonato de dominó, existem 12 atletas na categoria mirim, 5 na infantil, 8 na juvenil, 30 na adulto, 12 na pré-sênior, 10 na sênior e 12 na veterano. Considerando que as faixas etárias correspondentes a cada categoria sejam as mostradas na tabela abaixo: Categoria mirim infantil juvenil adulto pré-sênior sênior veterano Idade (anos) de 5 a 12 de 13 a 14 de 15 a 17 de 18 a 29 de 30 a 39 de 40 a 59 de 60 a 95 Obter a distribuição de frequência agrupando os dados em classes de acordo com a categoria à qual os atletas pertencem e construa um histograma. - 26 – Medidas de Posição Medidas de Tendência Central: Média, Moda e Mediana Na análise e na interpretação do conjunto de dados recolhidos, alguns números são utilizados para mostrar como e em torno de que se distribuem os dados do conjunto. As medidas de posição estudam como a distribuição se comporta em relação ao eixo horizontal. Média Aritmética ( x ) Considere uma variável com observações representadas por x1, x2, ...., xn. A média aritmética desse conjunto é a soma dos valores dividida pelo número total de observações. x x2 x3 xn x 1 n xi n sendo: x a média aritmética; xi os valores da variável; n o número de valores. Dados não agrupados Exemplo; Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de 10, 14, 13, 15, 16, 18 e 12 litros, temos para a produção média da semana: x 10 14 13 15 16 18 12 98 14 7 7 Logo, x 14 litros Dados agrupados (I) Sem intervalos de classe Exemplo Consideremos a distribuição relativa a 34 famílias de quatro filhos, tomando para variável o número de filhos do sexo masculina. Tabela 1 Nº DE fi MENINOS 0 2 1 6 2 10 3 12 4 4 Total 34 A média aritmética da distribuição de frequência é dada pela fórmula: x f x 2 f2 x3 f3 xn fn x 1 1 n xi fi xi fi n fi (média aritmética ponderada) - 27 – O modo mais prático de obtenção da média aritmética é abrir, na tabela, uma coluna correspondente aos produtos xi.fi: xi 0 1 2 3 4 Logo, x xi fi fi x fi 2 6 10 12 4 34 xi.fi 0 6 20 36 16 78 78 2,29 x 2,3 meninos 34 OBS.: A média não precisa ser necessariamente um número inteiro. O valor médio 2,3 meninos sugere, neste caso, que o maior número de famílias tem 2 meninos e 2 meninas, sendo, porém, a tendência geral de uma leve superioridade numérica em relação ao número de meninos. Exercício: A média aritmética do número de irmãos dos alunos ________________ é (II) Com intervalos de classe Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio, e determinamos a média aritmética por meio da fórmula x xi fi , onde x é o ponto médio da classe. fi i Exercício: Calcular a média aritmética das estaturas (cm) dos alunos __________ Tabela 2: Estatura (em cm) dos alunos ___________ i classes xi Total --- fi xifi 1 2 3 4 5 6 Logo, x xi fi fi x OBS.: A média não pode ser calculada para distribuições com limites indeterminados. - 28 – Notas: 1. A média aritmética expressa um certo “centro” da série de dados, mas informa pouco como o conjunto é formado. Se os valores da série não são constantes, existem valores maiores e menores que a média aritmética, mas não informa mais nada do que isso. 2. A média aritmética pode ser um número diferente de todos os números da série de dados que ela representa. A média aritmética pertence obrigatoriamente ao intervalo entre a maior e a menor ocorrência dos dados. 3. A média aritmética é uma medida de tendência central que, por uniformizar os valores da série, não representa bem os conjuntos que revelam tendências extremas. Deste modo, é grandemente influenciada pelos valores extremos da série, sendo desaconselhável o seu emprego para as distribuições de frequências representadas pelas curvas abaixo. Moda (Mo) Denominamos moda o valor que ocorre com maior frequência em uma série de valores. Aplicação Pequeno produtor de calçados tem interesse na fabricação de sapatos de tamanho modal. Dados não-agrupados Quando lidamos com valores não-agrupados, a moda é facilmente reconhecida: basta, de acordo com a definição, procurar o valor que mais se repete. Exemplo: a) A série de dados: 7, 8, 9, 10, 10, 10, 11, 12, 13, 15 tem moda igual a 10. b) A série 3, 5, 8, 10, 12, 13 não apresenta moda (amodal) c) A série 2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9 tem duas modas 4 e 7 (bimodal) Dados agrupados Sem intervalos de classe Exemplo: Na distribuição da tabela 1, à frequência máxima (12) corresponde o valor 3 da variável. Logo, Mo = 3. Com intervalos de classe A classe que apresenta a maior frequência é denominada classe modal. O método mais simples para o cálculo da moda consiste em tomar o ponto médio da classe modal. Damos a esse valor a denominação de moda bruta. Exemplo: Na distribuição da tabela 2, à frequência máxima ( |--. Logo, Mo = ) corresponde a classe modal Nota: A moda não é afetada por dados extremos e não se utiliza todos os dados para sua determinação. - 29 – Mediana (Md) Mediana (Md) é o valor da variável que ocupa a posição central dos dados ordenados. Considerando os dados ordenados, 50% estão abaixo e 50% estão acima da mediana. Aplicação: Medida conveniente para representar a distribuição de renda. Dados não-agrupados Exemplos: a) Dada a série 5, 13, 10, 2, 18, 15, 6, 16, 9 o primeiro passo a ser dado é o de ordenação (crescente ou decrescente) dos valores: 2, 5, 6, 9, 10, 13, 15, 16 18 logo, Md = 10. b) A série de valores: 2, 6, 7, 10, 12, 13, 18, 21 tem para mediana a média aritmética entre 10 e 12. Logo, Md = 11. Sendo n o número de elementos de uma série ordenada, n 1 se n for ímpar, o termo de ordem será a mediana. 2 se n for par, a mediana é a média aritmética dos termos de ordem n n e 1 . 2 2 Exemplo Considere as notas de 10 alunos em uma prova: 1, 1, 2, 2, 2, 3, 9, 10, 10, 10. Md = 2,5 (50% dos alunos tiveram notas inferiores a 2,5) e x 5,0 Dados agrupados Sem intervalos de classe Exemplo: Nº DE MENINOS 0 1 2 3 4 fi Fi 2 6 10 12 4 34 2 8 18 30 34 --- Em que Fi é a frequência acumulada. Como n = 34 é par, então a mediana é a média aritmética dos termos de ordem 17 34 e 2 34 1. 2 A menor frequência acumulada que supera esse valor é 18, que corresponde ao valor 2 da variável. Logo, Md = 2 meninos. 18 - 30 – Nota: No caso em que n é par e existe uma frequência acumulada (F i), tal que Fi fi , a mediana será 2 x x i 1 dada por Md i , isto é, a mediana será a média aritmética entre o valor da variável 2 correspondente a essa frequência acumulada e o valor seguinte. Com intervalos de classe Primeiro vamos determinar a classe na qual se acha a mediana – classe mediana. Tal classe será, evidentemente, aquela correspondente à frequência acumulada imediatamente superior a ESTATURAS (cm) 150 |--- 154 154 |--- 158 158 |--- 162 162 |--- 166 166 |--- 170 170 |--- 174 Total i 1 2 3 4 5 6 Porcentagem (%) 10,0 22,5 27,5 20,0 12,5 7,5 100,0 fi 4 9 11 8 5 3 40 fi . 2 Fi 4 13 24 32 37 40 temos fi 2 40 20 => a 3ª classe é a classe mediana. (158 |--- 162). 2 Para calcular a mediana da variável estatura através do histograma, admiti-se que as observações da variável em cada classe são homogeneamente distribuídas, e que para um mesmo retângulo, fatias de mesmo tamanho contém uma mesma porcentagem de observações. Considerando o retângulo que deve conter a mediana (a base do retângulo corresponde a classe mediana), temos que 50% dos dados 50% dos dados 27,5% 22,5% 20,0% 12,5% 10,5% 150 154 7,5% 158 162 166 170 174 Md Logo, de 158 cm até a mediana Md temos 17,5% (= 50% - 32,5%) das observações, e podemos estabelecer a seguinte proporção - 31 – 27,5% (Md 158) 17,5% (162 158) 27,5% 17,5% 150 154 158 162 166 170 Md 158 162 158 17,5% 27,5% 174 Md Logo, a mediana da variável estatura é 160,54 cm. OBS.: No caso de existir uma frequência acumulada exatamente igual a Md 160,54 fi , a mediana será o limite 2 superior da classe correspondente. Nota: A mediana depende da posição e não dos valores dos elementos na série ordenada, não sendo afetada por dados extremos e não utiliza todos os dados para ser calculada. Para a distribuição da tabela 2, observamos que A perpendicular ao eixo das abscissas passando pelo ponto correspondente à mediana Md, divide a 11 9 x 161,0 cm 8 Mo = 160 cm 5 4 Md = 160,54 cm 3 Mo< Md < x 150 154 158 162 166 170 174 x Md Mo área sob o histograma em duas partes de mesma área. A moda é o valor correspondente, no eixo das abscissas, ao ponto de ordenada máxima. Os valores das medidas de tendência central obtidos dos dados brutos e dos dados organizados em distribuição de frequência diferem, pois, quando agrupamos os dados em classes, perdemos informações dos dados originais. - 32 – Posição relativa da Média, Mediana e Moda Em uma distribuição com a curva de frequência em forma de sino, podemos ter x Md Mo , distribuição simétrica; Mo Md x , distribuição com assimetria positiva; x Md Mo , distribuição com assimetria negativa. Exemplo “Um estudante está procurando um estágio para o próximo ano. As companhias A e B têm programas de estágios e oferecem uma remuneração por 20 horas semanais com as seguintes características (em salários mínimos): Companhia A B Média 2,5 2,0 Mediana 1,7 1,9 Moda 1,5 1,9 Qual companhia é mais adequada? Inicialmente vamos discutir as informações fornecidas, supondo que o estudante terá seu salário “escolhido” de acordo com uma política salarial resumida na tabela anterior. A companhia A tem 50% dos seus estagiários recebendo até 1,7 salários mínimos e o valor com maior frequência de ocorrência é 1,5. Como a média é 2,5 deve haver alguns poucos estagiários com salário bem mais alto, isto é, valor alto de salário com frequência pequena de ocorrência. A companhia B tem as três medidas bem próximas indicando uma razoável simetria entre salários altos e baixos. A opção do estudante dependerá de sua qualificação. Se ele for bem qualificado, deve preferir a companhia A, pois terá mais chance de obter um dos altos salários. Se tiver qualificação próxima ou abaixo dos outros estudantes, deve preferir B que parece ter uma política mais homogênea de salários.” (Noções de Probabilidade e Estatística. Marcos N. Magalhães; Antonio C. P. de Lima. EDUSP) - 33 – Exercícios Refazer a lista de exerc´cios 1. Houve uma denúncia de intoxicação por mercúrio em uma remessa de 20 latas de certo produto que chegaram a um supermercado. Então, foi feita uma inspeção para determinar a massa de mercúrio (material tóxico) presente em cada lata. Os resultados da inspeção são dados a seguir (em g de mercúrio por 1 000 g do produto): 0,30 0,15 0,55 0,40 0,35 0,20 0,40 0,40 0,55 0,45 0,40 0,50 0,40 0,50 0,60 0,40 0,35 0,60 0,40 0,40 Uma remessa é confiscada quando, em média, a massa de mercúrio é superior a 0,4 g. a) Deve essa remessa ser confiscada? Justifique. b) Para evitar o confisco, o fornecedor propôs acrescentar cinco novas latas a essa remessa, garantindo que todas as novas latas contêm massas iguais de mercúrio. Qual é a massa máxima de mercúrio que cada lata pode conter, a fim de que a “nova” remessa não seja confiscada? 2. Num experimento, 15 coelhos foram alimentados com uma nova ração e seu peso avaliado ao fim de um mês. Os dados referentes ao ganho de peso (em quilogramas) foram os seguintes: 1,5; 1,6; 2,3; 1,7; 1,5; 2,0; 1,5; 1,8; 2,1; 2,1; 1,9; 1,8; 1,7; 2,5 e 2,2. a) Utilizando os dados brutos, determine média, moda e mediana desse conjunto. b) Organize uma tabela de frequência com faixas de amplitude 0,2 a partir de 1,5. c) Calcule, a partir da tabela de frequência, a média, a moda e a mediana. Comente as diferenças encontradas com o item (a). - 34 – MEDIDAS DE DISPERSÃO Considere as cidades A e B, em um determinado dia A temperatura média da cidade A é 24°C, sendo que a temperatura mínima foi de 12°C e a temperatura máxima foi de 32°C. A temperatura média da cidade B é 24°C, sendo que a temperatura mínima foi de 21°C e a temperatura máxima foi de 26°C. A maior variação de temperatura ocorreu na cidade A. A menor variação de temperatura ocorreu na cidade B. A cidade B apresenta um clima mais agradável, devido a pequena variação de sua temperatura. A média aritmética, isoladamente, nada informa sobre a variabilidade de um conjunto de dados observados. Logo, a média não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem um conjunto. Consideremos os seguintes conjuntos de valores das variáveis A e B: X: 70, 70, 70, 70, 70 x 70 Y: 68, 69, 70, 71, 72 y 70 z 70 Z: 5, 15, 50, 120, 160 Os três conjuntos apresentam a mesma média aritmética, entretanto, é fácil notar que: No conjunto X não houve dispersão. O conjunto X é mais homogêneo que o conjunto Y e que o conjunto Z. A dispersão no conjunto Y é menor que no conjunto Z (em Y os valores estão mais próximos da média do que em Z), dizemos que o conjunto Y é mais homogêneo que o conjunto Z. As medidas de dispersão (ou de variação) expressam o grau de dispersão ou concentração de um conjunto de dados em torno de um valor de tendência central tomado como ponto de comparação. As principais são Amplitude total Desvio médio Variância Desvio padrão Coeficiente de variação 1. Amplitude total A amplitude total é a diferença entre o maior e o menor valor observado. At = xmáx - xmín No exemplo 2, temos para X: At = 0 para Y: At = 4 para Z: At = 155 A amplitude total tem a sua importância, porém por considerar apenas dois valores da série, sem mencionar os demais, e não possibilitar verificar se existe concentração/dispersão de valores em torno de algum ponto da série, possui pouca sensibilidade estatística. - 35 – 2. Desvio relativo O desvio relativo (di) de cada valor xi é a diferença entre xi e a média aritmética dos dados. di x i x X 70 70 70 70 70 xi Y Z 68 5 69 15 70 50 71 120 72 160 Total X di Y Z 0 0 0 0 0 0 -2 -1 0 1 2 0 -65 -55 -20 50 90 0 Note que, se o desvio relativo de um elemento xi é positivo, então xi está acima da média; negativo, então xi está abaixo da média; zero, então xi é igual à própria média. Na determinação de cada di estamos medindo a dispersão entre cada xi e a média x . Propriedade: di 0 Para analisar todos os dados, devemos calcular a média dos desvios, porém a soma dos desvios é nula! Como estamos interessados na distância de um valor em relação à média, devemos considerar o módulo dos desvios relativos, evitando, deste modo, valores negativos de alguns dos desvios. Define-se, então o desvio absoluto xi x . 3. Desvio médio absoluto Desvio médio absoluto (DM) é a média aritmética dos desvios absolutos de cada dado. n DM x1 x x 2 x x 3 x x n x n xi x i 1 n Voltando ao exemplo 2, temos que: xi di = xi - x X Y Z |di| = |xi - x | X Y Z 0 0 0 0 0 0 0 0 0 0 0 0 logo, DM( X) 0 6 DM( Y) 1,2 5 280 DM( Z) 56 5 O desvio médio absoluto é uma medida associada à amostra como um todo; quando no exemplo dizemos que DMY = 1,2, estamos afirmando que, em média, os elementos da amostra se afastam 1,2 da média aritmética, para cima ou para abaixo. Como o desvio médio de Y é menor que o de Z, podemos dizer que Y é mais homogêneo do que Z. Os dados de Y estão mais agrupados em torno da média do que os de Z. X 70 70 70 70 70 Y Z 68 5 69 15 70 50 71 120 72 160 Total -2 -1 0 1 2 0 - 65 - 55 - 20 - 50 90 0 2 1 0 1 2 6 65 55 20 50 90 280 - 36 – Ao invés de trabalhar com os módulos dos desvios, pode-se considerar os quadrados dos desvios. 4. Variância A variância (v) é a média aritmética dos quadrados dos desvios; Va xi X 70 70 70 70 70 Y Z 68 5 69 15 70 50 71 120 72 160 Total ( x i x )2 n di = xi - x X Y Z di2 = (xi - x )2 X Y Z 0 0 0 0 0 0 0 0 0 0 0 0 -2 -1 0 1 2 0 -65 -55 -20 -50 90 0 4 1 0 1 4 10 4225 3025 400 2500 8100 18250 Logo, Var(X) = 0 Var ( Z) Var(Y) = 2 18250 3650 5 Quanto menor a variância, maior o grau de concentração dos dados em torno da média, e vice-versa; quanto maior a variância, maior o grau de dispersão dos dados em torno da média. No nosso exemplo, o conjunto X não tem dispersão e o conjunto Z tem uma dispersão maior que o conjunto Y. O inconveniente da variância é ser expressa no quadrado da unidade da variável em estudo, o que pode causar dificuldades de interpretação. Nota: Utilizaremos, no cálculo da variância, o dobro de casas decimais dos dados, arredondando o resultado no final. 5. Desvio Padrão O desvio padrão () é a raiz quadrada positiva da variância. ( x x ) 2 i n No nosso exemplo, temos que X 0 Z 60,42 Y 1,41 OBS.: Quando todos os valores da variável são iguais, o desvio padrão é 0. Quanto menor é o desvio padrão, mais homogênea é a distribuição dos valores da variável. O desvio padrão é expresso na mesma unidade da variável. Exemplos: (I) Dados não-agrupados Considere a seguinte série estatística: xi 40 45 48 52 54 62 70 371 di 40 – 53 = -13 45 – 53 = -8 48 – 53 = -5 52 – 53 = -1 54 – 53 = 1 62 – 53 = 9 70 – 53 = 17 ---- d2i 169 64 25 1 1 81 289 630 371 53 7 630 Var 90 7 x 90 9,487 - 37 – (II) Dados agrupados Neste caso, temos que: f ( x x ) i 2 i n a) Sem intervalos de classe Determine o desvio padrão variável __________________________________________ para o cálculo da variância e do desvio padrão para o cálculo da média aritmética i xi fi xi.fi xi x ( x i x )2 ----- ----- fi ( x i x ) 2 1 2 3 4 5 6 7 8 Total temos que: x e Var Var e c) Com intervalos de classe Determine o desvio padrão da variável para a distribuição de frequência _______________ ponto médio da classe i i Classes 1 2 3 4 5 6 |--|--|--|--|--|--- 7 |--- 8 |--- Total xi fi fi.xi ---- - 38 – xi - x (xi - x )2 ---- ---- fi . (xi - x )2 Logo, x e Var e Var 6. Coeficiente de Variação O desvio padrão não é suficiente para caracterizar a variabilidade de uma distribuição. Além disso, o fato do desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores expressos em unidades diferentes. O coeficiente de variação (CV) caracteriza a dispersão ou variabilidade dos dados em termos relativos em torno da média da série. É dado pela razão entre o desvio padrão e a média da distribuição: CV x Para efeitos práticos, costuma-se considerar que CV superior a 50% indica alto grau de dispersão e, conseqüentemente, pequena representatividade da média. Enquanto que para valores inferiores a 50%, a média será tanto mais representativa de fato quanto menor for o valor de seu CV. Exemplo Consideremos os resultados obtidos das medidas das estaturas e dos pesos de um mesmo grupo de indivíduos: x Estaturas Pesos CVE 175 cm 68 kg 5,0 cm 2,0 kg 5 0,0285 2,85% 175 CVP 2 0,0294 2,94% 68 Logo, nesse grupo de indivíduos, os pesos apresentam maior grau de dispersão que as estaturas. Exercícios 1. Um certo cruzamento tem alto índice de acidentes de trânsito, conforme pode ser constatado em uma amostra dos últimos 12 meses: 5, 4, 7, 8, 5, 6, 4, 7, 9, 7, 6 e 8. Determine a média e o desvio padrão do número de acidentes mensais nesse local. 2. Calcule o desvio padrão e o coeficiente de variação das distribuições de frequência dos exercícios 1, 3, 5 e 7 da página 37. 3. Um grupo de cem estudantes tem uma estatura média de 163,8 cm, com um coeficiente de variação de 3,3%. Qual o desvio padrão desse grupo? 4. Uma fábrica de iogurtes opera com duas máquinas e está colocando o produto dentro de embalagens, cujo peso nominal é de 100 ml. No entanto, um teste estatístico da produção apontou os seguintes números: Máquina 1 Máquina 2 média por embalagem = 100,34 ml média por embalagem = 100,41 ml desvio padrão = 0,4 ml desvio padrão = 0,7 ml Qual das duas máquinas está trabalhando melhor? Justifique. 5. Numa prova de Matemática, duas classes obtiveram as seguintes médias e desvios: Turma A Turma B - 39 – média = 5,5 desvio padrão = 2,5 média = 5,5 desvio padrão = 3,0 Se for sorteado um aluno de cada classe, em qual delas é mais provável sair um aluno com nota entre 4,5 e 6,0? Justifique. 6. Uma máquina empacotadora de leite está regulada para que cada embalagem contenha 1 000 ml. O controle de qualidade desse laticínio obteve amostras com suas respectivas frequências. Determine a porcentagem, em relação ao total das amostras, que está acima da média mais o desvio padrão. Capacidade (ml) Freqüência 994 6 995 6 998 8 1000 20 1010 10 1050 10 7. Duas indústrias, A e B, fabricam um mesmo tipo de rolamento. De cada indústria, uma amostra de 25 peças foi obtida e o diâmetro de cada rolamento foi medido, obtendo-se os seguintes dados (em mm): Indústria A 25,1 25,1 25,0 24,9 24,9 24,7 25,0 25,2 25,0 25,2 25,0 25,3 24,8 25,1 25,0 25,1 25,1 25,0 25,1 24,7 Indústria B 24,8 25,0 25,2 24,8 25,3 24,5 24,8 25,0 25,1 25,2 25,3 25,3 24,9 25,2 24,9 25,5 24,9 25,0 25,1 25,0 24,8 24,6 24,7 25,2 25,4 25,0 25,1 25,0 24,8 24,7 Qual das duas indústrias fabrica o rolamento com menor variação de diâmetro? 8. Considere, abaixo, a distribuição de frequência dos “pesos” de 20 alunos de uma classe. Massa (kg) 57 60 63 66 69 72 |--|--|--|--|--|--- 60 63 66 69 72 75 Freqüência absoluta 4 2 5 4 2 3 a) Calcule a média aritmética e o desvio padrão da distribuição. b) Desenhe o histograma. c) Represente no histograma a região que corresponde aos “pesos” pertencentes ao intervalo x ; x . d) Descubra a porcentagem de alunos que tiveram o “peso” na média ou a um desvio padrão da média, isto é, cujo “peso” está no intervalo x ; x . Determine, também, o número de alunos. Sugestão: A área do histograma é proporcional ao número total de dados e a área da região considerada no item c) é proporcional ao número de elementos do intervalo. 9. As pontuações dos 160 candidatos a um concurso estão tabeladas a seguir. A tabela (a) mostra as pontuações obtidas em 1996 e a tabela (b) mostra as de 1997. - 40 – a) Calcule a média e o desvio padrão dos dados de cada tabela. b) Determine a distribuição mais homogênea. c) Calcule a porcentagem de candidatos que estão nos intervalos para cada tabela. - 41 – x ; x e x 2 ; x 2