2 APRESENTANDO DADOS EM TABELAS E GRÁFICOS 3 MEDIDAS NUMERICAS DESCRITIVAS MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ CAMPUS PATO BRANCO Coordenação do Curso Análise e Desenvolvimento de Sistemas Sumário CAPITULO 2 ..........................................................................................................................3 2 APRESENTANDO DADOS EM TABELAS E GRÁFICOS..................................................3 2.1 ORGANIZANDO DADOS NUMÉRICOS.....................................................................4 2.1.1Exercicios .................................................................................................................4 2.2 DISPOSIÇÃO RAMO-e-FOLHA...............................................................................5 3) Exemplo:............................................................................................................................5 Diagrama de ramos e folhas...................................................................................................5 2.3 TABELAS E GRÁFICOS PARA DADOS NUMÉRICOS.....................................8 2.3.1Exercicios.............................................................................................................8 2.3.2 A Distribuição de Frequencia Relativa e a Distribuição de Percentagem................9 2.3.4 A Distribuição Acumulada........................................................................................9 2.3.5 Exercicios........................................................................................................10 2.3.6 Histograma............................................................................................................10 2.3.7 Exercicios..............................................................................................................10 2.4 ELABORANDO GRÁFICOS DE DADOS NUMÉRICOS BIVARIADOS.................11 2.4.1 Exercicios...............................................................................................................12 2.5 ELABORANDO TABELAS E GRÁFICOS DE DADOS CATEGÓRICOS........12 2.6 ELABORANDO TABELAS E GRÁFICOS DE DADOS CATEGÓRICOS BIVARIADOS......................................................................................................................14 2.6.1 Exercicios...............................................................................................................14 2.7 EXCELÊNCIA GRÁFICA.............................................................................................15 CAPITULO 3 .........................................................................................................................16 3 MEDIDAS NUMERICAS DESCRITIVAS..........................................................................16 3.1 MEDIDAS DE TENDENCIA CENTRAL, VARIAÇÃO E FORMATO......................16 3.1.1 Exercicios...............................................................................................................24 3.2 ANÁLISE EXPLORATÓRIA DE DADOS...................................................................27 3.3 O COEFICIENTE DE CORRELAÇÃO........................................................................28 3.4 ATIVIDADES PRÁTICAS PEDAGÓGICAS ..............................................................31 3.4.1 Apresentando Dados em Tabelas e Graficos...........................................................31 3.4.2 Medidas Numéricas Descritivas.........................................................................33 REFERENCIAS .......................................................................................................................35 Prof. Jorge Roberto Grobe 11/09/14 14:18:45 AD34S 2 CAPITULO 2 2 APRESENTANDO DADOS EM TABELAS E GRÁFICOS Estatística: é a ciência que coleta, organiza, analisa e interpreta dados para tomada de decisões. Dados consistem em informações que vem de observações, contagens, medições ou respostas. Dois tipos de dados: população e amostra. • População : é uma coleção de todos os resultados, respostas, medições ou contagens que são de interesse. • Amostra: é um subgrupo de uma população. Identificando conjunto de dados 1) O departamento de energia dos EUA conduz uma pesquisas semanais em aproximadamente 800 postos de gasolina para determinar o preço por galão de gasolina comum. Em 12 fevereiro de 2007, o preço médio era de $2,24 por galão. Identifique a população e a amostra. • Identificando a população: consiste dos preços por galão de gasolina comum em todos os postos de gasolina dos EUA. • Identifique a amostra: consiste dos preços por galão de gasolina comum em 800 postos pesquisados. • Do que consiste o conjunto de dados: o conjunto de dados consiste em 800 preços. Parâmetro: descrição numerica populacional Estatistica: descrição numérica amostral 2)Decida se o valor numérico descreve um parâmetro populacional ou estatistica amostral. • Uma pesquisa recente de uma amostra de MBAS reportou que o salário médio para uma MBA é mais do que $82000. • Resposta: em razão da média de $82000 ser baseada em um subgrupo de uma população é uma estatistica amostral. • Os salarios iniciais para 667 MBAS graduados na Escola de Negocios da Universidade de Chicago aumentaram 8,5 % em comparação ao ano anterior. • Resposta: devido ao fato de o aumento porcentual de 8,5% ser baseado em salarios iniciais de todos os 667 graduandos, é um parametro populacional. Estatistica descritiva: é o ramo da estatistica que envolve a organização, o resumo e a representação dos dados. Prof. Jorge Roberto Grobe 11/09/14 14:18:45 AD34S 3 Estatistica inferencial: é o ramo da estatistica que envolve o uso de uma amostra para chegar a conclusões sobre uma população. Uma ferramenta básica no estudo da estatistica inferencial é a probabilidade. Exemplo:FARBER(2009, p.6) Uma grande amostra de homens, com 48 anos de idade, foi estudada durante 18 anos. Conforme o gráfico estão vivos aos 65 anos de idade. solteiros casados FARBER(2009, p.3­9) Classificação dos dados Dados qualitativos: consistem em atributos, rótulos ou entradas não numericas. Dados quantitativos: consistem de medidas numéricas ou contagens. Dados qualitativos Dados quantitativos modelo Preço base fusion $17795 F150 $18710 FARBER(2009, p.29­30)Usando a tecnologia na estatistica • os números aleatóros pode ser uma lista gerada que serve para selecionar membros da amostra ou realizar simulações. • Na planilha Calc : • Sintaxe • ALEATÓRIOENTRE (Inferior; Superior) 2.1 ORGANIZANDO DADOS NUMÉRICOS • Para LEVINE (2005), uma disposição ordenada consiste em uma seqüência de dados brutos, com ordem de classificação partindo da menor observação para maior observação. • A disposição ordenada torna mais fácil a separação de extremos, de valores típicos e da área na qual a maioria dos valores encontra­se concentrada. Prof. Jorge Roberto Grobe 11/09/14 14:18:45 AD34S 4 2.1.1Exercicios 1) Um departamento de controle de qualidade esta testando 25 celulares de um carregamento de 300 telefones com cameras. Faça uma lista aleatória de 25 numeros de 1 a 300 e ordene a lista. * na classificação dos dados não vincular a formula ALEATÓRIOENTRE (Inferior; Superior) 2) Considere a população de 41 numeros inteiros de 0 a 40. Qual é a média desses numeros? Selecione tres amostras aleatórias de 7 numeros dessa lista. Encontre a média de cada amostra. Compare seus resultados com a média da população inteira. 2.2 DISPOSIÇÃO RAMO-e-FOLHA • Em LEVINE (2005), a disposição ramo e folha organiza um conjunto de dados e compreende melhor a maneira como os valores se distribuem e se agrupam ao longo da amplitude das observações no conjunto de dados. • Segundo MONTGOMERY (2003), é uma boa maneira de obter uma apresentação visual informativa de um conjunto de dados em que cada x I consiste no mínimo dois dígitos. • Para construir o diagrama de ramos e folhas dividimos cada número xi duas partes:ramo consiste em um ou mais dígitos e uma folha consiste nos dígitos restantes. • Geralmente é escolhido entre 5 e 20 ramos, uma vez escolhidos , eles são listados ao longo da margem esquerda do diagrama. . ramo folha freqüência Valor mínimo Valor máximo Maior concentração dos dados Menor concentração dos dados Distribuição da simetria em torno do valor central. Prof. Jorge Roberto Grobe 11/09/14 14:18:45 AD34S 5 3) Exemplo: Diagrama de ramos e folhas • Este tipo de gráfico é um modo simples de organizar os dados e que pode facilitar a construção de tabelas de freqüências. • Podem ser usados para dados quantitativos (numéricos), mas não qualitativos (por exemplo, dados nominais ou por categorias). • Seja o seguinte exemplo: considere que se tenha anotado 20 valores relativos ao tempo de uma atividade, e que se deseja organizá­los em um diagrama de ramos e folhas. • Os valores são os seguintes: 23 ­ 31 ­ 42 ­ 45 ­ 51 ­ 52 ­ 57 ­ 61 ­ 61 ­ 64 ­ 68 ­ 69 ­ 73 ­ 75 ­ 75 ­ 82 ­ 89 ­ 94 ­ 118 – 120, • (1) determina­se o menor e o maior valores; neste exemplo, 23 minutos o menor valor e 120 minutos o maior. • (2) constróem­se categorias nas quais se deseja agrupar os dados a partir menor dezena até a maior, ver Figura 1. • Nas colunas, o 2 representa a dezena dos "20" minutos and o 12 representa a dezena dos "120 minutos". Dezenas de minutos 2| 3| 4| 5| 6| 7| 8| 9| Prof. Jorge Roberto Grobe 11/09/14 14:18:45 AD34S 6 10| 11| 12| Figura 1. Passo inicial da construção de um gráfico de ramos e folhas (3) retorna­se aos dados originais e simplesmente coloca­se as unidades referentes às • dezenas em cada uma das linhas, ordenadamente. • Por exemplo, o número 23 é representado por um 3 colocado na linha 2, e 118 pode ser representado na linha 11 por um 8. • Uma vez feito para todos os valores, o diagrama fica com o aspecto da Figura 2. Dezenas de minutos Minutos 2| 3 3| 1 4| 2 5 5| 1 2 7 6| 1 1 4 8 9 7| 3 5 5 8| 2 9 9| 4 10| 11| 8 Prof. Jorge Roberto Grobe 11/09/14 14:18:45 AD34S 7 12| 0 Figura 2. Diagrama de ramos e folhas fonte: http://www.estatistica.eng.br/ramosefolhas.htm 2.2.1 Exercicios 4)FARBER(2009, p.30)O Securities and Excange Comission esta investigando uma empresa de serviços financeiros que tem 86 corretores.O SEC decide revisar os registros de uma amostra aleatória de 10 corretores. Gerar uma lista de 10 numeros aleatórios de 1 a 86 e construa o grafico de ramo e folha. 5) FARBER (2009, p.53)Notas de exames .Use um diagrama ramo­e­folha para representar os dados . O dados representam as notas de uma turma de biologia em um teste. 75 83 88 95 85 92 95 87 90 94 91 76 80 68 73 91 87 75 80 85 67 91 82 79 2.3 TABELAS E GRÁFICOS PARA DADOS NUMÉRICOS • FARBER (2009, p.32)Distribuição de freqüência: é uma tabela que mostra classes ou intervalos das entradas de dados com uma contagem do numero de entradas em cada classe. • A frequencia f de uma classe é o numero de dados em uma classe. • O numero de classes deve estar entre 5 e 20. Construção da distribuição de freqüência Número de grupos de classe para a tabela Intervalo ou amplitude de cada classe Limite de cada grupo. OBTENDO OS INTERVALOS DE CLASSES Amplitude do intervalo= Prof. Jorge Roberto Grobe valor máximo ­ valor mínimo número de grupos de classes desejado 11/09/14 14:18:46 AD34S 8 2.3.1Exercicios 6) FARBER (2009, p.40) Use as entradas de dados minimas e máximas e o numero de classes para encontrar a largura da classe, os limites inferiores e superiores da classe. a) minimo: 7 maximo:58 6 classes b)minimo: 11 maximo:94 8 classes 7) FARBER (2009, p.41) Use a distribuição de frequencia para construir uma distribuição de frequencia expandida: Cleveland, OH- temperaturas altas ( F) classe frequencia 20-30 19 31-41 43 42-52 68 53-63 69 64-74 74 75-85 68 86-96 24 Ponto médio Frequencia (%) relativa Frequencia acumulada Sintaxe FREQÜÊNCIA(Dados; Classes) Dados representa a referência para os valores que serão computados. Classes representa a matriz dos valores limites ou pode acrescentar também a matriz de dados para fazer uma contagem de quantos de cada dado amostra se repetem. Chamamos de freqüência os números de elementos da população ou amostra pesquisada que correspondem a cada faixa do fenômeno estudado. TROTTA(1988) 2.3.2 A Distribuição de Frequencia Relativa e a Distribuição de Percentagem Freqüência relativa : n = numero total de pesquisados , ni =freqüência correspondente , onde a freqüência relativa é dada em porcentagem (%). FARBER (2009, p.34) A frequência relativa de uma classe é a porção ou porcentagem de dados que está em determinada classe. Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 9 frequencia relativa= frequencia da classe tamanho da amostra 2.3.3 Exercicios 8) RANKING Veículos mais vendidos - outubro de 2012 frequencia 1º 2º 3º 4º 5º 6º 7º 8º 9º VOLKSWAGEN GOL FIAT UNO FIAT PALIO VOLKSWAGEN FOX FIAT SIENA CHEVROLET CELTA FIAT STRADA VOLKSWAGEN VOYAGE RENAULT SANDERO CHEVROLET CORSA SEDAN 10º frequencia relativa porcentagem acumulada 27737 21370 18824 13191 12512 12074 11643 9710 9429 8505 Fonte:http://carros.ig.com.br/ 8.1 Em 1982 no estado do Acre , havia 62279 alunos matriculados no 1 0 grau , 4221 no 2o grau e 1713 no ensino superior. Construa a tabela de distribuição de freqüências e o correspondente gráfico. Tipos de freqüência Freqüência relativa porcentagem Acumulada % ensino 1o grau 20 grau Superior total 2.3.4 A Distribuição Acumulada É uma tabela de percentagens acumuladas, conhecida como distribuição de percentagem acumulada. A distribuição acumulada e seu respectivo polígono acumulado fornecem informações sobre conjuntos de dados que não podem ser obtidas a partir da própria distribuição de freqüência. Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 10 2.3.5 Exercicios 9) FARBER (2009, p.42­43) Construa a distribuição de frequencia , o grafico em barras ou histograma , poligono de frequencia, para o conjunto de dados usando o numero de classes. Vendas: 6 classes 4278 3981 4105 5835 4608 1030 1643 3183 1512 2478 2000 1858 1931 1697 1077 1500 1355 2478 9.1 Saiba como calcular a mordida no 13º salário Veja simulações de quanto deve ser o desconto no caso de pessoas com mais e com menos de 65 anos Faixas do Imposto de Renda Parcela a deduzir do IR Categoria Benefício (em R$) Alíquota (em R$) 1ª faixa Até 1.637,11 isento isento 2ª faixa De 1.637,12 a 2.453,50 7,50% 122,78 3ª faixa De 2.453,51 a 3.271,38 15% 306,8 4ª faixa De 3.271,39 a 4.087,65 22,5% 552,15 5ª faixa Acima de 4.087,66 27,5% 756,53 Na prática Benefício (em R$) IR (abaixo de 65 anos) IR (acima de 65 anos) - R$ 622 isento isento 1637,11 isento isento 1638 R$ 0,07 (alíquota 7,5%) isento Benefício de R$ 3.600 para segurados com até 65 anos Alíquota IR cobrado sobre (R$) Valor Descontado (R$) 4ª faixa (22,5%) 810 257,85 Base de cálculo: R$ 3.600 x 22,5% = R$ 810 R$ 810 - R$ 552,15 (parcela a deduzir da 4ª faixa) = R$ 257,85 Benefício de R$ 3.600 para segurados com mais de 65 anos Alíquota IR Cobrado sobre (R$) Valor Descontado (R$) 2ª faixa (7,5%) 1962,89 24,44 Base de cálculo: R$ 3.600 - R$ 1.637,11 (parcela isenta) = R$ 1.962,89 R$ 1.962,89 x 7,5% = R$ 147,22 R$ 147,22 - R$ 122,78 (parcela a deduzir da 2ª faixa) = R$ 24,44 Fontes: Ministério da Previdência Social e Cenofisco (Centro de Orientação Fiscal) Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 11 a) faça um grafico em barras e histograma b) faça um grafico de pizza. 2.3.6 Histograma É um gráfico no qual as barras retangulares são construídas nos limites de cada classe. • PODE­SE CONSTRUIR AUTOMÁTICO SEM O LIMITE SUPERIOR 2.3.7 Exercicios 10) LEVINE(2005, p.56) Os dados daqui exibidos representam o custo de energia eletrica durante o mês de julho, para uma amostra aleatoria de dois quartos, em uma cidade grande. 102 153 197 127 82 157 185 90 116 172 Tarifas de Serviços ( em dólares) 111 141 128 148 149 144 213 206 168 130 175 109 165 123 167 95 163 150 154 130 143 187 166 139 149 108 119 183 151 114 135 191 137 129 158 a) forme uma distribuição de frequencia que possua : (1) cinco intervalos de classes. (2)seis intervalos de classes (3) sete intervalos de classes. Dica:para ajudar na decisão sobre a melhor forma de construir os limites de classe deve­se posicionar os dados brutos em uma disposição de ramo­e­folha ( deixando que as folhas sejam os dígitos secundarios) ou em uma disposição ordenada. b) forme uma distribuição de frequencia que possua sete intervalos de classe com limites de classes superiores iguais a $99, $119 e assim por diante. c) forme a distribuição de percentagem, com base na distribuição de frequência desenvolvida no item (b). d) desenhe o histograma ou grafico em barras da frequencia. * para fazer o grafico do histograma deixar o limite inferior e superior como texto e intervalo de dados em linhas. e)desenhe o poligono de percentagem. f) forme a distribuição de frequência acumulada. Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 12 g) forme a distribuição de percentagem acumulada. h) desenhar a ogiva ( poligono de percentagem acumulada). i) em torno de que valor o custo mensal de energia eletrica está concentrado? j) qual dos graficos que é melhor para representar a distribuição do custo de energia eletrica? 11) Forme uma distribuição de freqüência que possua 7 intervalos de classes com limites de classes superiores iguais a $ 99, $119 e assim por diante. Gerar uma lista de 20 numeros aleatorios entre o limite inferior da primeira classe e limite superior da ultima classe. limite inferior si 1 2 3 4 5 6 7 limite superior frequencia media das classes 99 119 2.4 ELABORANDO GRÁFICOS DE DADOS NUMÉRICOS BIVARIADOS • A partir de uma variável numérica, o histograma, o polígono e a ogiva ou polígono acumulado são ferramentas gráficas apropriadas para fins de utilização. • Para examinar duas variáveis pode­se utilizar outra ferramenta gráfica denominada diagrama de dispersão. • O desenho de duas variáveis numéricas foi popularizado no século 19 por Sir Francis Galton. • Quanto a relação das variáveis elas podem ser crescentes (positiva ) ou decrescentes (negativas) em que uma variável cresce e a outra decresce. 2.4.1 Exercicios 12) A tabela a seguir representa um conjunto de dados, a partir de uma amostra de n =11 itens: x 7 5 8 3 6 10 12 4 9 15 y 21 15 24 9 18 30 36 12 27 45 18 54 a) desenhe o diagrama de dispersão b) existe uma relação entre X e Y? Explique Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 13 13) Os dados a seguir representam o preço aproximado de varejo( em dólares), bem como o custo da energia elétrica por ano ( em dólares) de 10 refrigeradores do tipo dúplex de tamanho médio : preço custo da energia elétrica por ano ($) 850 760 900 870 1100 800 650 750 750 570 48 54 58 66 77 66 70 81 72 78 a) com custo de energia elétrica no eixo X e o preço no eixo Y, construa um gráfico de dispersão. b)parece haver uma relação entre o preço e o custo da energia?Em caso afirmativo, a relação é positiva ou negativa? c)você poderia supor que os refrigeradores com preços mais elevados tivessem maior eficácia no consumo de energia elétrica? Isto é identificado através de dados? 2.5 ELABORANDO TABELAS E GRÁFICOS DE DADOS CATEGÓRICOS Ao lidar com variáveis categóricas as observações são alocadas em tabelas resumidas e podem ser exibidas em gráficos de barras, pizzas ou diagrama de Pareto. Gráficos em barras : cada categoria é ilustrada por uma barra, cujo comprimento representa a freqüência ou porcentagem das observações que se enquadram na categoria Gráficos de pizza: expressam dados em dados categóricos a partir de uma tabela resumida. Ele se baseia no circulo de 360oe mostra a porcentagem de cada categoria .e que perfazem ao todo 100% O diagrama de Pareto : fornece mais informações que os dois gráficos citados acima. O diagrama de Pareto é um tipo especial de gráfico de barras verticais, no qual as respostas categóricas são desenhadas em ordem de classificação decrescente em relação as suas freqüências, e combinadas com um polígono acumulado no mesmo gráfico. Ele atinge sua máxima utilidade quando a variável categórica de interesse contem muitas categorias. No eixo vertical á esquerda pode conter as freqüências ou percentagens. Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 14 Uma característica importante que norteia este dispositivo é a capacidade de separar os “poucos dados vitais” e dos “muitos dados triviais”, possibilitando que seja dada a atenção as categorias importantes. • selecionar as duas colunas/dados/classificar/2a coluna/decrescente 2.5.1 Exercicios 14) Uma variável categórica possuía 4 categorias com as seguintes percentagens de ocorrência: categoria Percentagem Categoria Percentagem A 12 C 35 B 29 D 24 a) construa um gráfico de barras b)construa um gráfico de pizza 15) Um analista de rede registrou as causas que deram origem a quedas de sistemas de rede durante os últimos 6 meses: Motivo para a falha Conexão física Software do servidor Falha de energia Hardware do servidor Servidor sem memória Largura de banda inadequada Freqüência 1 29 3 2 32 1 * selecionar as duas colunas/dados/classificar/2a coluna/decrescente Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 15 a) elabore um diagrama de Pareto 35 30 Servidor sem memória Software do servidor Falha de energia Hardware do servidor Conexão física Largura de banda inadequada 25 20 15 10 5 0 b)discuta sobre os “poucos dados vitais“ em relação aos “muitos dados triviais” correspondentes às causas que dão origem a queda no sistema de rede. 2.6 ELABORANDO TABELAS E GRÁFICOS DE DADOS CATEGÓRICOS BIVARIADOS • Uma maneira de visualizar dados categóricos bivariados ao procurar padrões ou relações é pela construção de gráficos de barras paralelas ou agrupadas. 2.6.1 Exercicios 16)Os resultados de um estudo realizado como parte de um esforço para otimizar a produção em uma fábrica de semi condutores forneceram dados sobre defeitos para uma amostra de 450 placas. A tabela a seguir apresenta um resumo das respostas as duas perguntas: foi encontrada alguma partícula na matriz que produziu a placa? E a placa é adequada ou inadequada? Qualidade nenhuma da placa partícula adequada inadequada totais partícula 320 80 400 totais 14 36 50 334 116 450 * selecionar a tabela inteira ­ gráficos de barras Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 16 a) construa um gráfico de barras paralelas ou agrupadas da qualidade da placa baseada na condição da matriz? b)construa uma tabela de percentagens totais c)construa uma tabela de percentagens de linhas d)construa uma tabela de percentagens de colunas 17) Um banco de investimentos realizou uma pesquisa de satisfação uma pesquisa de satisfação de clientes numa base mensal, para medir a satisfação em relação a várias áreas de serviços oferecidos pelas suas agências. Os resultados a partir de uma amostra de 200 clientes se deram da seguinte forma: área de serviço tempo de espera no caixa caixa eletrônico aconselhamento sobre investimentos serviço de cheques de viagem segurança de depósitos serviços de manutenção de conta numero de pessoas satisfeitas 123 73 43 25 24 46 numero de pessoas insatisfeitas 65 7 6 11 5 4 Repare que, uma vez nem todos os clientes utilizaram todos os serviços, o número de respostas para cada área de serviço é diferente. a) construa a tabela de percentagens por linha. b) construa a tabela de percentagens por coluna c) construa a tabela de percentagens totais. d)que tipo de porcentagem­ de linha, de coluna ou total­ você acha que serve de maior auxilio na compreensão desses dados? Por que? R: os percentuais de linha são úteis para demonstrar diferentes taxas de satisfação em relação a vários serviços bancários. e)construa o gráfico de barras paralelas de satisfação do cliente por área de serviço. f)os clientes parecem igualmente satisfeitos com relação a todas as áreas de serviço? Quais áreas parecem precisar de melhorias mais do que as outras ? comente. R: os clientes não estão igualmente satisfeitos com todas as áreas de serviço do banco. Mais de 91% estão satisfeitos com os caixas eletrônicos, mas somente 65,4% estão satisfeitos com o tempo Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 17 de espera no caixa. O banco poderia melhorar o nível de satisfação geral dos clientes diminuindo o tempo de espera no caixa. 2.7 EXCELÊNCIA GRÁFICA Descreve e comunica informações estatísticas o Funções de dados gráficos o Mostrar os dados o Fazer com que o observador se concentre na essência do gráfico, e não forma como o gráfico foi desenvolvido. o Evitar distorções o Incentivar comparação de dados o Servir a um propósito claro. o Estar integrado com as descrições estatísticas e verbais do gráfico. Princípios da excelência gráfica Apresentações bem elaboradas de dados, que fornece substância, estatística e forma. Comunica idéias complexas com clareza, precisão e eficiência Fornece ao observador o maior número de idéias, no menor espaço de tempo, com menor volume de impressão. Envolve várias dimensões. Exige que seja transmitida a verdade sobre os dados. CAPITULO 3 3 MEDIDAS NUMERICAS DESCRITIVAS • Para CRESPO (1993),a coleta , a organização e a descrição dos dados estão a cargo da estatística descritiva. • Conforme WITTE(2005),a estatística descritiva, oferece uma serie de ferramentas, tais como tabelas, gráficos e médias, no sentido de organizar e resumir informações em relação a um conjunto de observações existentes . Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 18 3.1 MEDIDAS DE TENDENCIA CENTRAL, VARIAÇÃO E FORMATO FARBER (2009, p.55) é um valor que representa uma entrada típica ou central do conjunto • de dados. • As tres medidas da tendencia central mais comum são : • média , mediana e a moda A MEDIA ARITMÉTICA É a medida mais utilizada X= n X ∑ i=1 i n Xi = i-ésima observação da variável X n = numero de observações da variável X Quando utilizar a média aritmética • O calculo é baseado em todas as observações, a média aritmética é altamente afetada por um ou mais valores extremos. • Então a média aritmética apresenta distorções daquilo que os dados estão representados, assim sendo, a média aritmética não seria a melhor medida de tendência central a ser utilizada para descrever ou resumir um conjunto de dados que possua valores extremos. A MEDIANA é o valor do meio em uma seqüência ordenada de dados. Mediana é o valor para o qual 50% das observações são menores e 50% das observações são maiores. observações classificadas impar: par = media dos valores numéricos centrais n1 2 MED • Retorna a mediana de um conjunto de números. Em um conjunto contendo um número ímpar de valores, a mediana será o número do meio do conjunto e, em um conjunto contendo um número par de valores, ela será a média dos dois valores do meio do conjunto. Sintaxe Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 19 MED(Número 1; Número 2; ...Número 30) • Número 1; Número 2;...Número 30 são valores ou intervalos e representam um exemplo. Os números também podem ser substituídos por uma referência. A MODA • È o valor que aparece mais freqüentemente em um conjunto de dados. • A moda não é afetada pela ocorrência de quaisquer valores extremos. • Pode não existir a moda. MODO • Retorna o valor mais comum em um conjunto de dados. • Se houver vários valores com a mesma freqüência, o menor valor será retornado. Um erro ocorre quando um valor não aparece duas vezes. Sintaxe MODO(Número 1; Número 2; ...Número 30) Número 1; Número 2;...Número 30 são intervalos ou valores numéricos. Exemplo =MODO(A1:A50) Média ponderada e média de dados agrupados Definição: é a media de um conjunto de dados cujas entradas tem pesos variados. Onde w é o peso de cada entrada x. X= ∑ x∗w ∑w Percentis e outros fractis • quartis: divide um conjunto de dados em 4 partes iguais • decis:divide um conjunto de dados em 10 partes iguais • percentis:divide um conjunto de dados em 100 partes iguais • exemplo: se o peso de uma criança de 6 meses de idade esta no 78 percentil, a criança pesa mais 78% de todas as crianças da mesma idade. • Exemplo: o 72 percentil corresponde a uma nota no teste de 1700, significa que 72% dos estudantes teve uma nota de 1700 ou menos. FARBER (2004, p.89,90) QUARTIS Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 20 • São mais amplamente empregadas medidas de localização não central, e são utilizados para descrever as propriedades de grandes conjuntos de dados numéricos. • Os quartis são medidas que dividem os dados ordenados em 4 partes (quartos). O primeiro quartil Q1 observação ordenada Q1 é valor que faz com que 25% das observações sejam menores e 75% das observações sejam maiores. O Terceiro quartil Q3 Q3 é valor que faz com que 75% das observações sejam menores e 25% das observações sejam maiores. observação ordenada. As regras que são utilizadas para obter os valores de quartil: Se o ponto de posicionamento resultante for um numero inteiro, a observação numérica em questão, correspondente aquele ponto de posicionamento, é escolhida para ser o quartil. Se o ponto de posicionamento resultante estiver entre dois números inteiros, a media de seu respectivos valores é selecionada para ser o quartil. Se o ponto de posicionamento resultante não se tratar de um numero inteiro, nem corresponder ao valor equivalente a metade do caminho entre dois números inteiros, uma regra simples consiste em fazer arredondamento ate o numero inteiro mais próximo e, em seguida, selecionar o valor numérico relativo a observação correspondente. QUARTIL Retorna o quartil de um conjunto de dados. Sintaxe QUARTIL(Dados; Tipo) Dados representa o vetor de dados na amostra. Tipo representa o tipo de percentil. (0 = MÍN, 1 = 25%, 2 = 50% (MÉDIO), 3 = 75% e 4 = MÁX.) Exemplo QUARTIL(A1:A50; 2) retorna o valor do qual 25% da escala corresponde aos valores mais baixos e mais altos no intervalo A1:A50. AMPLITUDE INTERQUARTIL ( ou dispersão média) Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 21 Esta medida considera a dispersão nos dados que estão entre os 50% de observações centrais • ou seja chamados de termos do meio. VARIÂNCIA DA AMOSTRA • S 2= mede a variabilidade através dos desvios n X −X 2 ∑ i=1 i n−1 VAR Estima a variância com base em uma amostra. Sintaxe VAR(Número 1; número 2; ...número 30) Número 1,número 2,...número 30 são valores ou intervalos numéricos que representam um exemplo com base em uma população inteira. Calcule a variância da amostra e o desvio padrão. DESVIO PADRÃO DA AMOSTRA S= n X −X 2 ∑ i=1 i n−1 Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 22 O QUE É DESVIO PADRÃO? • Parâmetro que indica o grau de variação de um conjunto de elementos. • Exemplos: a) Dada a temperatura maxima durantes 3 dias em uma cidade A e obteve-se os seguintes valores, 28°, 29° e 30°, a média calcula é : X = 29°. b) Em outra cidade B foi coletado as temperaturas maxima 22°, 29° e 35°. E média calculada é de: X = 29°. • As médias têm o mesmo valor, mas os moradores da cidade A viveram três dias de calor, enquanto os cidade B tiveram dois dias de calor e um de frio. • Para diferenciar uma média da outra, foi criada a noção de desvio padrão, que serve para dizer o quanto os valores dos quais se extraiu a média são próximos ou distantes da própria média. • O desvio padrão da cidade B é muito maior que o da cidade A. Fonte:http://www.carlosescossia.com/2009/09/o-que-e-desvio-padrao.html *''menor o desvio padrão, mais homogênea é a minha amostra''. Fonte:http://fisioterapiahumberto.blogspot.com.br/2009/12/desvio-padrao-afinal-de-contas-para- que.html TAKAHASHI(2010, p.51) comparando duas amostras A e B, o desvio-padrão que for menor , indica que os valores estãos parecidos. O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados. Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são: o desvio padrão é sempre não negativo e será tanto maior, quanto mais variabilidade houver entre os dados. se s = 0, então não existe variabilidade, isto é, os dados são todos iguais. Interpretando a variância e o desvio padrão. • A variância e o desvio padrão medem a dispersão média em torno da média aritmética, isto é, como as observações maiores flutuam acima da média aritmética e como as observações menores se distribuem abaixo dela. Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 23 DESVPAD Estima o desvio padrão com base em um exemplo. Sintaxe DESVPAD(Número 1;número 2;...número 30) Número 1, número 2, ... número 30 são valores ou intervalos numéricos que representam uma amostra com base em uma população inteira. Exemplo =DESVPAD(A1:A50) retorna o desvio padrão estimado com base nos dados indicados. O que desvio padrão indica Neste exemplo 9,77 11,4 12,5 13,8 15,5 17,5 18,4 18,5 18,6 20,7 21,5 22,5 31,5 38,2 O desvio padrão é de 7,71, isto indica que eles estão se agrupando em torno deste valor e da sua média 19,29 ou seja e [19,29 – S (7,71); 19,29 + S (7,71)]=[11,58 ; 27] Entendendo a variação dos dados Quanto mais espalhados ou dispersos estiverem os dados, maior serão a amplitude, amplitude interquartil, a variância e o desvio padrão. Quanto menos espalhados ou dispersos estiverem os dados, menores serão a amplitude, amplitude interquartil, a variância e o desvio padrão. Se as observações forem todas as iguais (não exista variação dos dados) a amplitude, amplitude interquartil, a variância e o desvio padrão serão todos iguais a zero. Todas essas medidas são maiores que zero. COEFICIENTE VARIAÇÃO S CV = ∗100 % x S= desvio padrão X = media da amostra • Caracteriza a dispersão ou variabilidade dos dados em termos relativos a seu valor médio. • Mede a dispersão dos dados em relação a média aritmética FORMATO Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 24 regra empirica Significado de Empírico adj. Que se apóia exclusivamente na experiência e na observação, e não em uma teoria: medicina empírica. Fonte: http://www.dicio.com.br/ FARBER( 2004, p.73) , quando os dados estiverem uma distribuição simétrica com formato de curva, o desvio padrão tem as seguintes caracteristicas: • 68% dos dados esta dentro de 1 desvio padrão em relação a média; • 95% dos dados esta dentro 2 desvio padrão em relação a média; • 99,7% dos dados esta dentro 3 desvio padrão em relação a média: Estes percentuais estão descritos na figura 1 a seguir: FIGURA 1: DISTRIBUIÇÃO EM FORMA DE SINO Fonte:http://lauromartins.com/o-ibovespa-e-a-curva-normal/ FARBER (2004,p.74) Teorema de Chebychev • distribuição desconhecida • pode se aplicar as todas as distribuições que não estão em forma de sino (simétrica) • A porção de qualquer conjunto de dados que estejam dentro de k desvio padrao (k>1) 1 da média, pelo menos : 1− 2 k Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 25 • k=2 em qualquer conjunto de dados, 75% dos dados estão dentro de 2 desvios padrão em relação a média. • K=3 88,5% dos dados estao dentro de 3 desvios padrões em relação a média. LEVINE (2005, p.113) Uma outra maneira de verificar o conjunto de dados é seu formato( como os dados estão distribuidos). A distribuição pode ser simetrica ou assimétrica ( distorcida) i) Média aritmética > mediana ;positiva ou assimétrica à direita ( alongamento a direita) Quando a média aritmética é aumentada em função de alguns valores elevados incomuns. Longa cauda a direita, é causada por valores extremamente elevados. Empurram a média para cima. ii)Média aritmética = mediana ;simétrica Os valores baixos e altos estão equilibrados iii)Média aritmética < mediana ;negativa ou simétrica à esquerda (alongamento a esquerda) Quando a média aritmética é reduzida em função de alguns valores elevados incomuns Quando a média aritmética é reduzida em função de alguns valores extremamente baixos. Os valores baixos puxam a média aritmética para baixo. Fonte:http://aprendamatematica.com/site/wp-content/uploads/2012/02/assimetria.jpg Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 26 Curtose: o grau de achatamento de uma distribuição em relação a uma distribuição padrão, denominada curva normal (curva de sino), utilizada na distribuição de frequencia coeficiente percentílico de curtose C= Q3−Q1 2 P 90−P10 C = 0,263 calculo baseado na curva normal. Condições das curvas C = 0,263 curva mesocúrtica é a própria normal C < 0,263 curva leptocúrtica (apresenta uma curva de freqüência mais fechada que a normal ou mais aguda em sua parte superior) C > 0,263 curva platitúrtica (mais aberta que a normal ou mais achatada na sua parte superior). COEFICIENTE DE CURTOSE DO BR.OFFICE CALC MAGRINI (2008), o Coeficiente de Curtose do CALC (CC) é calculado pela fórmula abaixo, quando registramos a função CURT( ) (KURT() na versão em inglês). Esta função do Calc se aplica a Tabelas Primitivas ou Rol e não a Distribuição de freqüências. n n 1 CC n 1. n 2 . n 3 Xi X Sx 4 3 n 1 n 2. n 3 2 A interpretação dos valores assumidos pelo CC é mostrada a seguir, destacando-se que este coeficiente estabelece uma comparação da distribuição em estudo com a Distribuição Normal. CC = 0 CC < 0 CC > 0 Prof. Jorge Roberto Grobe Distribuição Mesocúrtica Distribuição Platicúrtica Distribuição Leptocúrtica 11/09/14 14:18:46 AD34S 27 CURT Retorna o valor de kurtosis de um conjunto de dados (são necessários ao menos 4 valores). Sintaxe CURT(Número 1; Número 2; ...Número 30) Número 1, Número 2,... Número 30 são argumentos numéricos ou intervalos que representam uma amostra de distribuição aleatória. Exemplo =curt(A1;A2;A3;A4;A5;A6) exemplo: 9,77 11,4 12,5 13,8 15,5 17,5 18,4 18,5 18,6 20,7 21,5 22,5 31,5 38,2 Calcule a curtose. CC > 0 • Coeficiente de Distribuição Leptocúrtica assimetria de Pearson: ou COMANDO DISTORÇÃO (ASSIMETRIA) : O valor enviesado caracteriza o grau de assimetria de uma distribuição em torno de sua média. • Um valor enviesado positivo indica uma distribuição com uma ponta assimétrica que se estende em direção a valores mais positivos. • Um valor enviesado negativo indica uma distribuição com uma ponta assimétrica que se estende em direção a valores mais negativos. exemplo: 9,77 11,4 12,5 13,8 15,5 17,5 18,4 18,5 18,6 20,7 21,5 22,5 31,5 38,2 Calcule a distorcao ou assimetria 3.1.1 Exercicios 1) FARBER (2009, p. 63-66) Encontre a média, a mediana e a moda dos dados, se possível. 30 35 19 22 20 20 23 21 35 25 2) Encontre a média ponderada dos dados das notas e porcentagens na nota final para um aluno de estatistica. Qual é a nota média do aluno? nota Porcentagem na nota final Dever de casa 85 5,00% testes 80 35,00% projetos 100 20,00% Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 28 apresentações 90 15,00% Teste final Resposta: 89 93 25,00% 3) Os salarios médios iniciais por graduação atingida para 25 funcionários em uma empresa são dados a seguir. Qual é a média dos salários iniciais para esses funcionários? 8 com MBA: $ 45500 Resposta : e 17 com bacharelado em administração :$32000. 8∗45500+ 17∗32000 =$ 36320 8+ 17 4) Estudantes em uma aula de psicologia experimental realizaram uma pesquisa sobre depressão como sinal de estresse. Um teste foi administrado com uma amostra de 30 estudantes. As notas são fornecidas: 44 51 11 90 76 36 64 37 43 72 53 62 36 74 51 72 37 28 38 61 47 63 36 41 22 37 51 46 85 13 a) encontre a média e a mediana. Resposta: media mediana 49,2333 46,5000 b) desenhe um grafico de ramo e folha para os dados usando uma fileira por ramo. Localize a média e a mediana no grafico. Resposta: ramo folha 1 1 2 2 3 6 4 1 5 1 6 1 7 2 8 5 9 0 3 8 6 3 1 2 2 6 4 1 2 4 7 6 3 3 6 c) descreva a forma da distribuição. Resposta: Média aritmética=49,23 é maior que mediana=46,5 ;positiva ou assimétrica à direita ( alongamento a direita) Prof. Jorge Roberto Grobe 11/09/14 14:18:46 AD34S 29 Quando a média aritmética é aumentada em função de alguns valores elevados incomuns. Longa cauda a direita, é causada por valores extremamente elevados. Empurram a média para cima. 5) FARBER (2009, p.78) Listamos uma amostra dos salários anuais em milhares de dólares para os funcionários municipais de Los Angeles e Long Beach: Los 20,2 26,1 20,9 32,1 35,9 23 28,2 31,6 18,3 20,9 18,2 20,8 21,1 26,5 26,9 24,2 25,1 22,2 Angeles Long Beach a) encontre a amplitude, a variância , desvio padrão , coeficiente de variação e formato dos dados. amplitude variancia desvio padrão media coeficiente de variação mediana 17,6000 37,3478 6,1113 26,2556 23,28% 26,100 8,7000 8,7144 2,9520 22,8778 12,90% 22,200 b) interprete os resultados no contexto de um cenário real. 6) FARBER (2004,p.79) O valor médio de terras e construções por acre de uma amostra de fazendas é $1500, com desvio padrão de $200. O conjunto de dados tem distribuição em forma de sino. Estime a porcentagem de fazendas cujos valores das construções e terras por acre estejam entre $1300 e $1700. * use a regra empírica resposta: 68% dos dados esta dentro de um desvio padrão em relação a média ou seja [1500-200; 1500+200] = [1300;1700]. Prof. Jorge Roberto Grobe 11/09/14 14:18:47 AD34S 30 7) FARBER (2004,p.80) Teorema de Chebychev.O tempo médio de mulheres em uma corrida de 400 metros rasos é de 57,07 segundos, com desvio padrão de 1,05. Aplique o teorema de Chebychev para dos dados usando k=2. Interprete os resultados. • k=2 em qualquer conjunto de dados, 75% dos dados estão dentro de 2 desvios padrão 1 1− 2 em relação a média. k 8) FARBER (2004,p.81) A tabela a seguir mostra as alturas em polegadas e pesos em libras dos membros de um time de basquete. Encontre o coeficiente de variação para cada conjunto de dados. Qual a conclusao? altura peso 72 180 74 168 68 225 76 201 74 189 69 192 72 197 70 162 69 174 77 185 73 210 9) FARBER (2004,p.81) Teorema de Chebychev Pelo menos 99% dos dados em qualquer conjunto de dados fica dentro de quantos desvios padrão da média? Explique como você obteve essa resposta. Solução: 0,99=1− 1 2 k=10 desvio padrões. k Prof. Jorge Roberto Grobe 11/09/14 14:18:47 AD34S 31 3.2 ANÁLISE EXPLORATÓRIA DE DADOS • LEVINE (2005) O resumo dos 5 números: X menor Q1 Mediana Q 3 X maior • • para serem perfeitamente simétricos as distâncias entres eles tem que ser o mesmo, caso contrário terá uma assimetria a esquerda ou a direita. • O BOX PLOT ( pode ser chamado de Box and Whisker Plot diagrama caixa e bigode; • Box é caixa representando a caixa do gráfico e whisker (bigode) representando as linhas laterais. • È uma representação gráfica que descreve simultaneamente várias características importantes de um conjunto de dados, tais como centro, dispersão, desvio de simetria e identificação das observações que estão longe dos dados.(outliers) • Maior variabilidade é indicado através da caixa de maior tamanho e pelas linhas mais longas. • Ela é valiosa quando se compara dois ou mais categorias. 10) FARBER (2004,p.90-91-92) Os gols marcados por um jogo de um time de futebol representam o primeiro quartil para todos os times da liga. O que podemos concluir sobre gols marcados pelo time por jogo? 11) O numero de dias de férias usadas por uma amostra de 20 funcionários em um ano recente. 3 9 2 1 7 5 3 2 2 6 4 0 10 0 3 5 7 8 6 5 a) encontrar o primeiro, o segundo e o terceiro quartis do conjunto de dados. TIPOS minimo Q1 Q2=MEDIANA Q3 maximo 0,000 2,000 4,500 6,250 10,000 0 1 2 3 4 b) desenhar grafico de caixa e bigode que representam o conjunto de dados. Prof. Jorge Roberto Grobe 11/09/14 14:18:47 AD34S 32 12) ASSISTINDO TV . O numero de horas que uma amostra de 28 pessoas assiste TV diariamente. 2 4 1 5 7 2 5 4 4 2 3 6 4 3 5 2 0 3 5 9 4 5 2 1 3 6 7 2 a) até quantas horas 75% das pessoas assistem TV diariamente? Resposta: até 5 horas tem 75% das pessoas que assistem televisão. b) qual a porcentagem de pessoas que assistem mais do que 4 horas de TV por dia? Resposta: ate 4 horas é 50% das pessoas que assistem televisao. c) se selecionarmos uma pessoa aleatoriamente a partir da amostra, qual é a probabilidade desta pessoa assistir menos do que 2 horas de TV por dia? Escreva a resposta em porcentagem. Resposta: 25% 3.3 O COEFICIENTE DE CORRELAÇÃO • Coeficiente de correlação (ρ) cujos valores se estendem para -1 para uma correlação perfeitamente negativa, se for +1 correlação perfeitamente positiva. • Perfeito significa se todos os pontos forem desenhados em um diagrama de dispersão, eles podem estar ligados a uma reta. • Então o coeficiente de correlação mede o grau de associação entre duas variáveis. as duas matrizes tem que ser do mesmo tamanho coeficiente aproximando de +1 ou -1 torna-se mais forte aproximando de zero , existe pouca ou nenhuma relação linear. Comandos : correl ou pearson Prof. Jorge Roberto Grobe 11/09/14 14:18:47 AD34S 33 Fórmula do coeficiente de correlação de Pearson Sejam xi e yi os valores das variáveis X e Y. e são respectivamente as médias dos valores xi e yi. A fórmula do coeficiente de correlação de Pearson é então, fonte: http://stat2.med.up.pt/cursop/regressao/imagens/formula_correlacao.html 13)Os dados a seguir, representam os valores relativos a tarifas cobradas em função de cheques devolvidos ($) em uma amostra de 23 bancos, correspondendo a clientes de conta corrente que mantém um saldo de $ 100, e as tarifas mensais ($) cobradas, caso o saldo médio do cliente permaneça abaixo do saldo mínimo exigido, correspondendo a uma amostra de 26 bancos, para clientes de conta corrente que mantém um saldo médio de $1500. tarifas de cheques devolvidos Prof. Jorge Roberto Grobe 26 28 20 20 21 22 25 25 18 25 15 20 18 20 25 25 22 30 30 15 20 29 0 11/09/14 14:18:51 AD34S 0 tarifas de serviços mensais 12 8 5 5 6 6 10 10 9 7 7 5 0 10 6 9 12 0 5 10 8 5 5 9 34 a) calcule a correlação entre as duas amostras. R: -0,0611 correlação fraca, não existe um grau de associação entre tarifas de cheques devolvidos e tarifas de serviços mensais. 14) O gerente de operações de uma industria que manufatura pneus deseja comparar o real diâmetro interno de dois tipos de pneus, cada um dos quais devendo ser igual a 575 mm. Uma amostra de 5 pneus de cada tipo foi selecionada , e os resultados, representando os diâmetros internos desses pneus, ordenados do menor para o maior ,são os seguintes: tipo x 568 570 575 578 584 tipo y 573 574 575 577 578 a) calcule o coeficiente de correlação . b)o quão forte é a relação entre x e y? Explique Prof. Jorge Roberto Grobe 11/09/14 14:18:51 AD34S 35 MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ CAMPUS PATO BRANCO Coordenação do Curso Análise e Desenvolvimento de Sistemas 3.4 ATIVIDADES PRÁTICAS PEDAGÓGICAS CAPITULO 2 3.4.1 Apresentando Dados em Tabelas e Graficos 1) Use as entradas de dados minimas e maximas e o numero de classes para encontrar a largura da classe ( amplitude da classe) , os limites inferiores e limites superiores. a) minimo=15 maximo=123 6 classes 2) Use a distribuição de frequência dada para encontrar: a) largura da classe ( amplitude da classe) b) pontos médios de classe c) as fronteiras das classes • são numeros que separam as classes sem formar lacunas entre elas • se as entradas de dados são numeros inteiros , subtraia 0,5 de cada limite inferior e superior. • Exemplo: 7-18 faça 7-0,5=6,5 e 18+0,5=18,5 Cleveland, OH – temperaturas altas (Farenheit) classes Frequência (f) 20-30 19 31-41 43 42-52 68 53-63 69 64-74 74 75-85 68 86-96 24 Prof. Jorge Roberto Grobe 11/09/14 14:18:51 AD34S 36 MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ CAMPUS PATO BRANCO Coordenação do Curso Análise e Desenvolvimento de Sistemas 3) Os dados aqui exibidos representam o custo de energia elétrica durante o mês de julho de 2000, para uma amostra aleatória de 50 apartamentos de dois quartos, em uma cidade grande. 96 157 141 95 108 171 185 149 163 119 dados brutos sobre tarifas de serviços em (reais) 202 178 147 102 90 116 172 111 206 175 123 128 150 154 130 143 183 151 114 135 153 148 144 187 191 197 213 168 139 129 127 130 109 139 129 82 165 167 149 158 a) faça a frequência de 5 classes e suas respectivas percentagens usando os seguintes blocos ou limites superiores 108,2;134,4;160,6;186,8;213. Numero da classes classe frequências Frequências acumulada porcentagem Porcentagem acumulada 1 2 3 4 5 4)Uma pesquisa de satisfação de pacientes, conduzida para uma amostra de 210 individuos que deixaram um grande hospital durante o mês de julho, gerou a seguinte lista com 384 reclamações: ( grafico em barras) Motivo da reclamação Impaciência com outros pacientes / visitantes Não atendimento ao chamado pela campainha Respostas inadequadas a dúvidas Atrasos em testes Barulho Serviço de alimentação precário Destrato da equipe do hospital Todos os outros Número 13 71 38 34 28 117 62 21 a) forme um diagrama de Pareto Prof. Jorge Roberto Grobe 11/09/14 14:18:51 AD34S 37 MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ CAMPUS PATO BRANCO Coordenação do Curso Análise e Desenvolvimento de Sistemas b)em quais motivos de reclamação você acha que o hospital deveria se concentrar, caso deseje reduzir o número de reclamações? Explique. 5) As vendas do modelo 1999 de caminhões leves e veículos utilitários esportivos (VUEs) da Ford Motor Company ultrapassaram, em muito, as vendas correspondentes a 1998, de acordo com um artigo do Wall Street Journal. A empresa indicou que vendas de caminhões leves e VUEs cresceram em único mês para 240918, em março de 1999. A tabela indica vendas unitárias para determinados veículos, em março de 1998 e março de 1999. março de março de 1998 1999 45931 26147 16570 13189 20704 16673 40019 34913 35069 34254 2784 3152 modelo ranger mustang expedition explorer taurus lincoln continental a) construa um gráfico de barras paralelas para os seis modelos. b) discuta sobre alterações na distribuição de vendas entre março de 1999 e março de 1998. 6) Use um diagrama de ramo e folhas para representar os dados. Os dados representam as idades de 25 pessoas mais ricas do mundo. 75 85 67 80 56 73 58 71 78 49 62 84 50 49 87 40 59 47 54 84 61 79 59 52 63 CAPITULO 3 3.4.2 Medidas Numéricas Descritivas 7) Encontre a média, a mediana e a moda dos dados, se possível. 6 6 9 9 Prof. Jorge Roberto Grobe 6 5 5 11/09/14 14:18:51 AD34S 5 7 5 5 5 8 38 MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ CAMPUS PATO BRANCO Coordenação do Curso Análise e Desenvolvimento de Sistemas 8) Aproxime a média dos dados agrupados da altura em polegadas de 18 estudantes do sexo feminino durante uma aula de educação fisica altura frequência 60-62 4 63-65 5 66-68 8 69-71 1 9) Construa uma distribuição de frequência e um histograma de frequência dos dados usando o numero indicado de classes. Descreva a forma do histograma como simétrico, uniforme , assimétrico negativo, assimétrico positivo ou nenhum deles. 6 97 14 4 5 6 8 4 11 10 6 8 6 6 5 7 6 6 3 11 Numero de classes: 6 10) Encontre a amplitude , a média , a variancia e desvio padrão do conjunto amostral 17 8 13 18 15 9 10 11 6 11) ASSISTINDO TV . O numero de horas que uma amostra de 28 pessoas assiste TV diariamente. a) encontra o primeiro, o segundo e o terceiro quartis do conjunto de dados. b) desenhar gráficos caixa-e-bigodes que representem o conjunto de dados. 2 4 1 5 7 2 5 4 4 2 3 6 4 3 5 2 0 3 5 9 4 5 2 1 3 6 7 2 Prof. Jorge Roberto Grobe 11/09/14 14:18:51 AD34S 39 MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ CAMPUS PATO BRANCO Coordenação do Curso Análise e Desenvolvimento de Sistemas REFERENCIAS • MONTGOMERY, D.C. e RUNGER,G.C. Estatística Aplicada e Probabilidade Para Engenheiros. 2a edição RJ. Editora LTC.2003. • LEVINE, David M. et. al. Estatística –Teoria e Aplicações Usando o Microsoft Excel em Português. 3a ed.RJ Editora LTC. 2005. • CRESPO, A. Estatística Fácil. 14a ed .SP. Editora Saraiva.1994 • LibreOffice 3.6.22 • disponível em http://technet.microsoft.com/pt-br/library/cc737478(WS.10).aspx acessado em 17/08/2009 • disponível em http://www.estatistica.eng.br/ramosefolhas.htm acessado em 17/08/2009. • disponível em < http://www.novagripe.pr.gov.br/modules/conteudo/conteudo.php? conteudo=19 >acessado em 18/08/2009 • FARBER, Betsy. LARSON, Ron. Estatística Aplicada. São Paulo. 4 edição.2009. Pearson. • Disponivel em www.magrini.eng.br/Disc_Estat/ Apoio/Apostilas/ CAP1.6_ Medidas _de_Forma.doc -acessado em 26/02/2008. • Disponível em http://info.abril.com.br/professional/ acessado em 03/09/2009 • Disponivel em http://stat2.med.up.pt/cursop/regressao/imagens/formula_correlacao.html acessado em 03/10/2010. • disponivel em http://lauromartins.com/o-ibovespa-e-a-curva-normal/, acessado em 29/03/2012. • disponivel em http://aprendamatematica.com/site/wpcontent/uploads/2012/02/assimetria.jpg, aessado em 29/03/2012. • disponivel em http://carros.ig.com.br/ acessado em 26/11/2012. Prof. Jorge Roberto Grobe 11/09/14 14:18:51 AD34S 40 MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ CAMPUS PATO BRANCO Coordenação do Curso Análise e Desenvolvimento de Sistemas • disponivel em http://www.carlosescossia.com/2009/09/o-que-e-desvio-padrao.html, acessado em 06/12/2012. • Takahashi, Shin. Guia Mangá de Estatistica. SP. Novatec Editora.2010. Prof. Jorge Roberto Grobe 11/09/14 14:18:51 AD34S 41