ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Sumário APRESENTAÇÃO .......................................................................... 2 1. CONCEITOS ......................................................................... 4 2. TABELAS DE FREQUÊNCIAS E HISTOGRAMAS ........................... 8 3. GRÁFICOS DE PARETO ........................................................ 12 4. MEDIDAS DE TENDÊNCIA CENTRAL ....................................... 16 5. ASSIMETRIA ...................................................................... 19 6. GRÁFICOS DE CAIXA (BLOXPLOT), QUARTIS E PERCENTIS ...... 21 7. MEDIDAS DE VARIABILIDADE .............................................. 22 8. FÓRMULA ABREVIADA DA VARIÂNCIA ................................... 26 9. PROPRIEDADES DA MÉDIA E DA VARIÂNCIA .......................... 27 10. EXERCÍCIOS RESOLVIDOS ................................................... 31 11. ENUNCIADOS DE EXERCÍCIOS ............................................. 79 12. GABARITOS ....................................................................... 93 13. FORMULÁRIO DESTA AULA ................................................... 95 14. TIPOS DE GRÁFICOS VISTOS ............................................... 97 15. RESUMÃO DE CONCEITOS ................................................... 99 Prof. André L. Santos www.passeicursos.com.br 1 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 APRESENTAÇÃO Futuros analistas, Em preparação ao nosso longo edital de Analista do Tesouro, é bom já ir se preparando em nossas matérias básicas. Tema Data imediata Estatística Descritiva 0 1 2 3 4 Estatística Probabilística Distribuição de Probabilidades Probabilidades Discretas Probabilidades Contínuas 18/02 28/02 10/03 20/03 30/03 Inferência Estatística 5 6 Teste de hipóteses 10/04 20/04 Correlação e Índices 7 Item do edital Descrição univariada: população e amostra; estatística descritiva e inferencial; classificação e caracterização de uma variável estatística; níveis de mensuração; dados em série e agrupados; distribuições de freqüências; histograma e polígono de freqüências; medidas de tendência central; medidas de variabilidade absoluta e relativa; medidas de assimetria e curtose. Fundamentos da Teoria de Probabilidades: experimento aleatório; espaço amostra e eventos; os principais conceitos de probabilidade e os teoremas fundamentais do cálculo; probabilidade condicional; independência de eventos; teorema de Bayes Técnicas de Contagem e Análise Combinatória. Distribuições de probabilidades discretas e contínuas (conceitos gerais e usos de descritiva). Proporções e regras de proporcionalidade de grandezas. Combinações, Arranjos e Permutação. Variáveis aleatórias unidimensionais discretas: conceito de variável aleatória; função de probabilidade e função de distribuição; valor esperado e desvio padrão de variável aleatória discreta; modelos probabilísticos discretos: Binomial e Poisson. . Variáveis aleatórias unidimensionais contínuas: função de densidade e função de distribuição; valor esperado e desvio padrão de variável aleatória contínua; modelos probabilísticos contínuos; distribuição Normal; Variáveis contínuas: distribuição T de Student; distribuição F de Snedecor e distribuição Qui-quadrado. Amostragem e estimação: estimador, estimativa e distribuições amostrais; distribuição amostral da média; distribuição amostral da proporção; características de um bom estimador. Intervalos de confiança: intervalo para a média populacional; intervalo para a proporção; cálculo do tamanho da amostra para os intervalos de confiança para média e proporção. Testes de Hipóteses: tipos de erros; significância e potência de um teste; testes sobre a média e a proporção populacionais Variável aleatória bidimensional: independência de variáveis aleatórias; covariância e independência linear; o coeficiente de correlação de Pearson Análise de variância de classificação simples. Modelo de Regressão Linear Simples e Múltipla: pressupostos básicos; estimadores de Mínimos Quadrados e suas propriedades; testes de significância; coeficientes de determinação; coeficiente de determinação ajustado; estimação de formas linearizáveis; predição por regressão simples e múltipla. Testes de hipóteses para médias e proporções. Correlação e Regressão Linear simples. Descrição de variações: índices, fatores e taxas; índices de preços e de quantidades pelo critério de Laspeyres e Paasche; poder aquisitivo e deflacionamento A banca provavelmente será a ESAF, e certamente as questões seguirão a linha da estatística para os concursos de fiscal. A ESAF, tradicional banca da Receita Federal, é bem heterodoxa na sua abordagem de estatística. Seu caminho das pedras só será entendido por quem tiver bastante prática. Por isso, além da ESAF, incluí exercícios de outras bancas como FGV e FCC, especialmente a FCC que tem se tornado o benchmarking em estatística fiscal. Faça exercícios de outras bancas, afinal, antes de entender como a ESAF pensa estatística, você precisa entender estatística. Quanto a mim, seu professor, Sou André Luiz dos Santos, sou formado engenheiro pela USP, com mestrado pelo IPT-SP. Fui aprovado nos concursos Prof. André L. Santos www.passeicursos.com.br 2 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 fiscais da prefeitura de Cotia (15º), Arujá (10º) e no Tribunal de Justiça do Estado de São Paulo (14º). Concluí um MBA pela notória FGV, estrela de tantos outros concursos. Como trabalho na área técnica, procuro ser bem “mão na massa” com matemática. Trabalho com Estatística na minha vida profissional, você está lendo material de quem lida com o que ensina. E em concursos temos que ser pragmáticos Sigo a abordagem tradicional, porque sei que a maioria de vocês não tem habilidade, e mesmo para tomar atalhos é requerida habilidade. No começo é melhor ir com segurança. A primeira parte da aula será a teoria explicada devagar e com exemplos bem simples. Depois teremos os exercícios resolvidos, ai vem a parte pesada. Não passe por ela sem fazer. Dificilmente alguém entende lendo apenas a teoria. Procurei fazer este curso com respeitando a dedicação, pragmatismo e senso de objetivo do candidato. Espero que vocês não só gostem, mas passem. Vamos lá, bons estudos! André L. Santos Prof. André L. Santos www.passeicursos.com.br 3 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Aula 0 ESTATÍSTICA DESCRITIVA 1. CONCEITOS Durante nossos exercícios de estatística para concurso, vamos ver diversos conceitos espalhados pelos enunciados. No início desta aula de estatística descritiva é prudente que repassemos os conceitos mais pedidos pelas bancas. Dessa forma, tendo visto o conceito com rigor, poderemos rapidamente compreender os enunciados. A Ciência da Estatística é a ramo da Matemática que se preocupa com a organização, descrição, análise e interpretação dos dados experimentais. Exemplo: Este curso visa ensinar a Ciência da Estatística População é uma coleção completa de todos os elementos a serem estudados. Exemplo que veio da vida para a matemática, o conjunto de todos os brasileiros é a população brasileira. O conjunto de todos os planetas do sistema solar é uma população. Censo é uma coleção de dados relativos a todos os elementos de uma população. Como exemplo, a contagem dos cidadãos do um país feito pelo Instituto Brasileiro de Geografia e Estatística (por que será que tem este nome, hein?) Amostra é uma subcoleção de elementos extraídos de uma população. Ao se sortear pessoas para uma entrevista, fazemos uma “amostra” da população. Ao se tirar 2 ml de sangue para um exame clínico com uma seringa, tiramos uma “amostra” de sangue para análise. Neste exemplo, a população seria todo o sangue do paciente. Rapidamente percebese que trabalhar com populações é inviável. Parâmetro é uma medida numérica que descreve uma característica de uma população. Por exemplo, o parâmetro de expectativa de vida do brasileiro (até agora) é 76 anos. Em média, a população de cidadãos brasileiros vive 76 anos. Prof. André L. Santos www.passeicursos.com.br 4 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Uma estatística no sentido estrito é uma medida numérica que descreve uma característica de uma amostra. No exemplo do sangue, se a análise resultar que o nível de glicose é de 86 mg/dl esta é uma estatística da amostra, e só se refere à amostra. No decorrer do curso, veremos como avaliar se a amostra é representativa da população. Pode não ser. Se tomarmos uma amostra de óbitos de cidadãos brasileiros de zonas notadamente carentes de saúde, teremos uma estatística de expectativa de vida menor que 76 anos, que é diferente do parâmetro da população brasileira. Um dado é uma unidade básica de informação, normalmente o resultado da experiência ou observação. Por exemplo, “este frasco de talco tem peso líquido de 199,8g” Uma informação é o conhecimento obtido pela comparação de diversos dados. Por exemplo, “Os frascos de talco desta marca tem peso líquido médio de 200g”. Nota-se que esta informação não poderia ter sido obtida do dado de um único frasco, ela veio de mais de um dado, seja da medição de uma amostra ou população de frascos. Mas estas definições não são escritas na rocha: No caso, se o fabricante tivesse afirmado, seria um dado. Uma proposição é o conjunto de palavras ou símbolos que exprimem um pensamento ou juízo de sentido completo. Por exemplo, “este frasco de talco tem peso líquido de 199,8g” ou 9<6. As proposições são expressas em linguagem. Nos exemplos, a primeira foi em bom português, a segunda em símbolos matemáticos. As proposições podem ser verdadeiras ou falsas. No exemplo dado, 9<6 é uma proposição falsa. As proposições podem ser simples (no caso os exemplos) ou compostas, por exemplo “este frasco de talco tem peso líquido de 199,8g e tem gipsita em sua composição”. A estatística lidará com proposições, mas a disciplina que lida com elas por excelência é o raciocínio lógico. Dados quantitativos consistem em números que representam contagens ou medidas. Por exemplo, “Alturas dos alunos de uma sala em metros: 1,52; 1,61; 1,54; 1,52; 1,85; 1,71” Dados qualitativos (ou dados categóricos ou dados atributos) podem ser separados em diferentes categorias que se distinguem por alguma característica não-numérica. Por exemplo, “Principais bancas no Brasil: CESPE, ESAF, FCC, FGV, Cesgranrio, Vunesp” Prof. André L. Santos www.passeicursos.com.br 5 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Dados discretos são dados quantitativos que resultam de um conjunto finito de valores possíveis, ou de um conjunto enumerável destes valores. Por exemplo, “Pontuações possíveis num concurso de 160 questões de alternativa de um ponto cada: 0,1,2,3... 157,158,159,160” Dados contínuos (numéricos) são dados quantitativos resultam de um número infinito de valores possíveis que podem ser associados a pontos em uma escala contínua de tal maneira que não haja interrupções. Por exemplo, “Velocidades instantâneas de carros num determinado ponto da estrada em km/h: 100,2; 110,5; 96,3” Importante: A mínima unidade de medição não significa que um dado contínuo é discreto. Se minha régua mede até milímetros, não quer dizer que minha medida de distância é discreta em milímetros. Se a régua mediu 25mm, a medida real bem poderia ter sido 25,46mm se tivesse um instrumento com mais precisão, como um micrômetro, por exemplo. Nível nominal de mensuração é caracterizado por dados que consistem apenas em nomes, rótulos ou categorias. Os dados não podem ser dispostos segundo um esquema ordenado. Exemplo, “Respostas possíveis a uma pesquisa eleitoral de segundo turno: Candidato Alfa, Candidato Beta, Branco, Nulos, Indecisos”. Nível ordinal de mensuração envolvem dados que podem ser dispostos em alguma ordem, mas as diferenças entre valores dos dados não podem ser determinadas ou não tem sentido. Exemplo, “Respostas possíveis a uma pergunta em uma pesquisa: Concordo fortemente, concordo, indiferente, discordo, discordo fortemente, não sei”. Dá para perceber que há uma ordem e hierarquia, mas não há uma medição precisa da distância entre elas. Nível intervalar de mensuração é análogo ao nível ordinal, com a propriedade de que podemos determinar diferenças significativas entre os dados. Todavia não existe um ponto de partida zero inerente ou natural onde não haja qualquer quantidade presente. Isto é muito comum em escalas com zero arbitrado. Exemplo, “temperaturas médias mensais em São Paulo em graus Celsius, 25; 24;20;16;18;22;25”. Não se pode dizer que 20ºC é 20% mais quente que 24ºC porque 0ºC foi determinado arbitrariamente no congelamento da água (isto não se aplica graus Kelvin, que parte do zero absoluto) Prof. André L. Santos www.passeicursos.com.br 6 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Nível de razão de mensuração é o nível de intervalo modificado de modo a incluir o ponto de partida zero inerente, onde zero significa nenhuma quantidade presente. Para valores neste nível, tanto as diferenças como as razões tem significado. Exemplo, “Receitas trimestrais de uma empresa em milhões de reais: 250, 300, 200, 180”. Pode-se dizer que R$ 200.000.000,00 é 20% menor que 240.000.000,00. Pode-se dizer que R$ 300.000.000,00 é cem milhões de reais maior que R$ 200.000.000,00. E que receita zero é receita nenhuma. Um estudo observacional verificam-se e medem-se características específicas, mas não se tenta manipular ou modificar os elementos a serem estudados. Por exemplo, “Peso total bruto de caminhões trafegando numa rodovia: 25t; 20t; 12t; 8t; 23t” Em um experimento aplica-se determinado tratamento e passa-se a observar seus efeitos a serem pesquisados. Exemplo “Teores de determinada substância na urina de pacientes submetidos a tratamento: 60mg/ml; 56 mg/ml; 80 mg/ml”. Ou seja, é uma condição não natural, houve um tratamento que podia ou não ter alterado os teores normais. Uma amostra aleatória os elementos da população são escolhidos de tal forma que cada um deles tenha igual chance de figurar na amostra. Exemplo, num tanque perfeitamente agitado, 100ml de líquido são retirados a título de amostra. Como é um granel misturado, pode-se considerar uma amostra aleatória. Outro exemplo, num tanque com uma população de peixes, uma rede é lançada e captura 3 peixes para exames. Supõe-se que os peixes estejam nadando aleatoriamente. Uma amostragem estratificada é uma amostragem que a população é subdividida em no mínimo duas subpopulações que compartilham das mesmas características e em seguida se extrai uma amostra aleatória de cada extrato. Por exemplo, os computadores da Receita Federal separam as declarações de renda de pessoas físicas em faixas de renda e sorteiam algumas de cada faixa para escrutínios dos fiscais. Uma amostragem por conglomerados é uma estratificada em que o espaço amostral é um dos conglomerados/extratos. Repetindo o exemplo anterior, os computadores da Receita Federal separam as declarações de IRPF em faixas de renda, mas especificamente os fiscais se interessam no escrutínio de amostras aleatórias na faixa de renda superior do estudo. A banca FGV considerou esta como uma definição de amostragem por conglomerados: “na amostragem por conglomerado a população é Prof. André L. Santos www.passeicursos.com.br 7 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 dividida em diferentes grupos, extraindo-se uma amostra apenas dos conglomerados selecionados” Uma amostragem sistemática escolhemos um ponto de partida e selecionamos um elemento a cada determinada distância ou frequência. Exemplo, uma tecelagem extrai uma amostra para análise de fio a cada 10000m de fio produzido. Um erro amostral é a diferença entre os resultados amostrais e o verdadeiro resultado populacional; tais erros resultam de flutuações amostrais aleatórias. Exemplo, uma linha de produção envasa um silo de 200t de dolomita em 200.000 sacos de 1000g por hora. Em uma amostra de 5 sacos retirados aleatoriamente dos produzidos, a média de peso foi de 995g. Este 5g é o erro amostral. Se todos os sacos, ie, a população pudesse ser medida, o peso médio seria de 1000g. Um erro não amostral ocorre quando os dados amostrais são coletados, registrados ou analisados incorretamente, é um erro que não se atribui à variação amostral aleatória, como a escolha de uma amostra não aleatória e tendenciosa ou a utilização de um instrumento de mensuração defeituoso. Por exemplo, no caso da linha de produção acima, os cinco sacos de amostra podem ser medidos numa balança descalibrada que dá média de peso deles de 975g. 25g é um erro não amostral. No caso, o amostrador também propositadamente podia ter escolhido os sacos mais murchos para retirar de amostra e subavaliar de caso pensado o peso do envase. Todas as definições acima deram precisas definições do que veremos ao longo do curso e das questões de estatística. 2. TABELAS DE FREQUÊNCIAS E HISTOGRAMAS Este tema é querido às bancas. Ele é bem básico, mas por que não tirar pontos preciosos dele? Só requer experiência para no dia da pressão da prova manipular os dados e extrair o ponto. Uma tabela de frequências relaciona categorias (ou classes) de valores juntamente com contagens (ou frequências) do número de valores que se enquadram em cada categoria. Vamos ao exemplo: Um grande fabricante de peças dividiu seus clientes em classes de faturamento anual de pedidos para determinar o nível de atendimento, pós-venda e assistência técnica a cada um deles. Prof. André L. Santos www.passeicursos.com.br 8 ESTATÍSTICA PARA ANALISTA DO TESOURO Classe de cliente Pedidos anuais # clientes Padrão Até R$ 100.000 80 Preferencial de R$ 100.000 até R$ 200.000 20 Premium de R$ 200.000 até R$ 300.000 5 Aula 0 Nesta tabela, os limites inferiores de classe são os menores números que podem efetivamente pertencer a cada classe. No caso, 0 (hipoteticamente. Quem fez R$0 de pedido não é cliente); 100.000 e 200.000. Os limites superiores de classe são os maiores números que podem efetivamente pertencer a cada classe. Ou seja, 100.000; 200.000 e 300.000. Uma questão que sempre pode surgir é o que fazer nas fronteiras. No caso, a tabela já explicou usando o de... até. “De“ pertence à classe, “até” não é da classe. Por exemplo, um cliente que tenha pedido R$ 200.000,00 exatos é cliente Premium, porque a categoriam Premium é “de 200.000” enquanto a Preferencial é “até 200.000”. Em linguagem matemática, 100.000<=Preferencial<200.000 O aluno também encontrará as seguintes notações nos enunciados, todas análogas: 100.000 <= x < 200.000 100.000 [ ---------------- [ 200.000 100.000 |----------------- 200.000 100.000 200.000 Todas elas significam a mesma coisa. Que 100.000 está incluso no intervalo, mas 200.000 não faz parte. Marcas de Classe ou Pontos Médios de Classe é auto explicativo, é o ponto médio da classe. No caso, Padrão 50.000; Preferencial 150.000; Premium 250.000. Finalmente, amplitude de classe é a diferença entre dois limites de classe. Na tabela é de R$ 100.000. O exemplo apresentou amplitudes iguais, mas nem sempre é assim. A empresa poderia ter dito que os Premium iam de 200.000 até 1.000.000. Ou até infinito, oras, alguém que quisesse fazer um bilhão em pedido seria um tremendo cliente Premium, não? Usualmente, a amplitude de classe para uma boa construção de classes é dada pela amplitude dos dados dividido pelo número de classes desejada. Amplitude é o maior menos o menor valor dos dados. A regra prática de histogramas é que o número de classes seja a raiz quadrada do número de Prof. André L. Santos www.passeicursos.com.br 9 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 valores. Sendo assim, para 50 valores termos 7 classes é um bom número a se trabalhar (√50=7,071067...) Finalmente, podemos montar o famoso gráfico de colunas de frequências por classes tão venerado da estatística chamado de HISTOGRAMA. Enquanto você ouvir falar de estatística na sua vida você ouvirá dos histogramas. 90 80 70 60 50 40 30 20 10 0 Histograma de clientes 80 20 5 R$ 0 Padrão Preferencial R$ 100.000 Premium R$ 300.000 R$ 200.000 Uma outra modalidade de tabela de frequência muito usada é a de frequência relativa. Ela tem a vantagem que os dados dela podem ser usados para cálculos de probabilidade, se desejar. Frequência relativa = frequência da classe / frequência total No exemplo dos clientes, a frequência total é a somatória do número de clientes, ie, 105 clientes. Dividindo cada classe de cliente pela somatória Classe de cliente Pedidos anuais # clientes Freq. Relativa Padrão Até R$ 100.000 80 0,76 Preferencial de R$ 100.000 até R$ 200.000 20 0,19 Premium de R$ 200.000 até R$ 300.000 5 0,05 Soma clientes 105 1,00 Também o histograma pode ser feito com frequências relativas Prof. André L. Santos www.passeicursos.com.br 10 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Histograma de freq. Relativa de clientes 0,80 0,76 0,70 0,60 0,50 0,40 0,30 0,19 0,20 0,10 0,05 0,00 Padrão Preferencial Premium Outra forma comum de expressar nestas tabelas é a frequência acumulada, que é a soma das frequências daquela classe e de suas precedentes, seja em termos absolutos, sejam em termos relativos. No caso do exemplo, a tabela fica trabalhada um pouco diferente: Pedidos anuais Número clientes Freq. Relativa Acumulada Até R$ 100.000 80 0,76 Até R$ 200.000 100 0,95 Até R$ 300.000 105 1,00 E o histograma vira uma escadinha: Freq. Relativa Acumulada 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 Até R$ 100.000 Prof. André L. Santos Até R$ 200.000 Até R$ 300.000 www.passeicursos.com.br 11 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 O aluno perspicaz que vai ganhar muitos pontos na prova já percebeu que forçosamente a última classe da frequência acumulada é a somatória da tabela, e tem frequência de 1. Um “irmão” do gráfico de histograma de frequência relativa é o famoso gráfico de pizza. No gráfico de pizza a área de um círculo é dividida radialmente de acordo com a frequência relativa de cada categoria. Portanto uma categoria com 50% da frequência ocupará uma meia-lua, e assim sucessivamente. Vermelha; 130; 7% Azul; 100; 5% Cores de automóveis vendidos Outras; 5; 0% Verde; 15; 1% Marrom; 50; 2% Prata; 1000; 50% Prata Preta Branca; 200; 10% Branca Marrom Verde Azul Vermelha Outras Preta; 500; 25% 3. GRÁFICOS DE PARETO Uma aplicação muito comum das tabelas de frequências e frequências acumuladas é o chamado gráfico de Pareto. Trata-se de dois gráficos num só. As barras são as frequências individuais das categorias, e uma linha expressa a frequência acumulada. Prof. André L. Santos www.passeicursos.com.br 12 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Pareto Chart of Campeoes 20 100 Count 60 10 40 5 0 Campeoes Count Percent Cum % Percent 80 15 20 Brasil 5 26,3 26,3 Italia 4 21,1 47,4 Alemanha Argentina 3 2 15,8 10,5 63,2 73,7 Uruguai 2 10,5 84,2 Other 3 15,8 100,0 0 No exemplo acima, podemos ver uma população de campeões das Copas do Mundo até 2013. As barras é a frequência absoluta da população de maneira ordenada decrescentemente (os últimos valores, para o bem da visão, costumam ser agrupados). Portanto lê-se diretamente das barras que foram 5 campeonatos do Brasil, 4 da Itália, 3 da Alemanha, por exemplo. A ordenação decrescente permite logo se perceber as maiores frequências. Qual país mais ganhou a Copa? O Brasil, a primeira barra. Os gráficos de Pareto servem por excelência para ressaltar as categorias mais frequentes. A linha vermelha é a frequência acumulada. Ela permite responder, por exemplo, a pergunta: “Quais países correspondem sozinhos à 50% das vitórias na Copa?”. A resposta é “Brasil e Itália correspondem sozinhos à metade dos campeonatos”. O gráfico tem duas escalas. A da esquerda é a frequência absoluta, já a porcentagem da direita pode ser tanto a frequência relativa (para as barras) quanto a acumulada (para a linha). Gráficos de pareto são especialmente usados como ferramentas da qualidade para avaliar as principais causas. Foram desenvolvidos pelo célebre Juran (quem estiver estudando Administração Industrial ou Geral provavelmente o conhece) baseado na conclusão atribuída ao economista italiano Pareto: “Em geral, 20% das pessoas/causas consomem/geram cerca 80% dos recursos/conseqüências”. Os 20% no caso seriam as barras absolutas, os 80% a linha acumulada. Prof. André L. Santos www.passeicursos.com.br 13 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Exemplo: Construa o gráfico de pareto das seguintes causas de interrupção de produção industrial: Causa de perda de produção Ocorrência Falta de matéria-prima 6 Falta de embalagem 5 Falta de demanda 4 Falta de mão de obra 2 Quebra do reator 10 Quebra da esteira 2 Acerto de estoque 1 Auditoria física 1 Força maior 1 Quedas de energia 3 Erro de instrumentação 2 Ordena-se decrescentemente as categorias pela frequência absoluta Causa de perda de produção Ocorrência Quebra do reator 10 Falta de matéria-prima 6 Falta de embalagem 5 Falta de demanda 4 Quedas de energia 3 Quebra da esteira 2 Falta de mão de obra 2 Erro de instrumentação 2 Força maior 1 Auditoria física 1 Acerto de estoque 1 Calcula-se a frequência relativa de cada categoria. Relembrando, frequência relativa = frequência absoluta/soma de frequências Prof. André L. Santos Causa de perda de produção Ocorrência Freq. Rel Quebra do reator 10 0,270 Falta de matéria-prima 6 0,162 Falta de embalagem 5 0,135 www.passeicursos.com.br 14 ESTATÍSTICA PARA ANALISTA DO TESOURO Falta de demanda 4 0,108 Quedas de energia 3 0,081 Quebra da esteira 2 0,054 Falta de mão de obra 2 0,054 Erro de instrumentação 2 0,054 Força maior 1 0,027 Auditoria física 1 0,027 Acerto de estoque 1 0,027 Aula 0 Calcula-se a frequência acumulada de cada categoria. Relembrando, frequência acumulada = frequência absoluta/soma de frequências + frequência relativa anterior. Se você fez certo as contas, a última categoria de frequência acumulada será igual a 1. Ocorrência Freq. Relativa Freq. Relativa acumulada Quebra do reator 10 0,270 0,270 Falta de matéria-prima 6 0,162 0,432 Falta de embalagem 5 0,135 0,568 Falta de demanda 4 0,108 0,676 Quedas de energia 3 0,081 0,757 Quebra da esteira 2 0,054 0,811 Falta de mão-de-obra 2 0,054 0,865 Erro de instrumentação 2 0,054 0,919 Força maior 1 0,027 0,946 Auditoria física 1 0,027 0,973 Acerto de estoque 1 0,027 1,000 Causa de perda de produção Num gráfico de dois eixos de colunas/linhas atribui-se as frequências absolutas às colunas e as frequências acumuladas à linha 12 10 8 6 4 2 0 10 6 0,432 0,270 5 0,676 0,757 0,811 0,865 0,919 0,946 0,973 1 1 1 0,568 4 3 2 2 2 1,000 0,800 0,600 0,400 0,200 0,000 Ocorrência Freq. Abs Prof. André L. Santos www.passeicursos.com.br 15 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Vê-se que é uma poderosa ferramenta estatística de qualidade. No exemplo acima, mais de 40% das paradas foram geradas pelas duas causas principais. Como os recursos são limitados, resolver estas duas únicas causas de parada prioritariamente geraria um grande ganho de produtividade. 4. MEDIDAS DE TENDÊNCIA CENTRAL Uma medida de tendência central é um valor no centro ou no meio de um conjunto de dados A média aritmética ou simplesmente média de um conjunto de valores é o valor obtido somando-se todos eles e dividindo o total pelo número de valores. É a medida de tendência central mais importante e mais usada. Notações Somatória de um conjunto de valores x Uma variável usada individuais dos dados para representar n Número de valores de uma amostra N Número de valores de uma população 𝑥̅ = ∑𝑥 = ∑𝑥 Média de um conjunto de valores de uma amostra 𝑛 𝑁 valores Média população de um conjunto de valores de uma Exemplo, qual a média do conjunto: 10; 20; 25; 75? ∑ 𝑥 = 10 + 20 + 25 + 75 = 130 Como n=4: 𝑥̅ = ∑𝑥 𝑛 = 130 4 = 32,5 Cuidado! Não confunda o símbolo “traço” da média com o símbolo NÃO do operador lógico! Prof. André L. Santos www.passeicursos.com.br 16 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 No exemplo acima, vê-se uma propriedade importante da média: valores extremos afetam a média. Naquela amostra há 3 números menores que a média, mas o 75 é tão grande comparado a eles que “puxa” a média para si. A média ponderada de um conjunto de valores é o valor obtido pela multiplicação dos dados pela sua proporção dividida pela soma total. É útil para misturas e quando componentes se mesclam 𝑥̅ = ∑ 𝑥. 𝑃(𝑥) ∑𝑥 Exemplo: Uma fábrica de suco mistura duas polpas concentradas de frutas, a primeira tem 300l e 50% de sólidos, a segunda tem 1000l e 30% de sólidos. Qual a concentração final? 𝑥̅ = ∑ 𝑥. 𝑃(𝑥) 𝑥1𝑃1 + 𝑥2𝑃2 300.0,50 + 1000.0,30 150 + 300 = = = = 0,3461 = 35% ∑𝑥 𝑥1 + 𝑥2 300 + 1000 1300 A média de teores finais é 35%. Os valores de concentração foram ponderados. Veremos mais detalhes da média ponderada na aula de distribuição de probabilidades. A mediana de um conjunto de valores é o valor que divide o conjunto em duas partes iguais quando os valores estão em ordem crescente. O símbolo da mediana é 𝑥̃ Quando o conjunto tem um número ímpar de elementos, a mediana é o elemento central. Se um número par, a média dos valores centrais. Exemplo, qual a mediana do conjunto: 500; 10; 17; 20; 19; 75; 40? O primeiro passo é ordenar o conjunto, portanto: 10 17 19 20 40 75 500 A mediana é o número do meio porque temos um número ímpar de elementos 10 17 19 20 40 75 500 portanto 𝑥̃= 20 Podemos perceber uma propriedade interessante da mediana, ela não é afetada por pontos extremos. O 500 não move a mediana. Podia ser 76 no lugar de 500, a mediana continuaria 20. Prof. André L. Santos www.passeicursos.com.br 17 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Exemplo, qual a mediana do conjunto: 10; 20; 25; 75? Já temos o conjunto ordenado, mas é um número par de elementos: 10 20 25 75 A mediana é a média dos elementos centrais, ie 20 e 25. Portanto 𝑥̃= (20+25)/2 = 22,5 A moda de um conjunto de dados é o valor que ocorre com mais frequência. Cuidado, não necessariamente a moda é única. Se há duas, o conjunto é bimodal. Se há mais, é multimodal. Histogram of a 30 moda 25 Frequency 20 15 10 5 0 -2,25 -1,50 -0,75 0,00 a 0,75 1,50 Abaixo, um conjunto bimodal: Prof. André L. Santos www.passeicursos.com.br 18 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Conjunto bimodal 12 moda moda Frequency 10 8 6 4 2 0 19,5 21,0 22,5 24,0 b 25,5 27,0 28,5 O ponto médio é o valor que está no meio do caminho entre o maior e o menor valor. A amplitude é a diferença entre o maior e o menor valor. Tecnicamente a amplitude não é uma medida de tendência central, e sim de variação. Mas como o ponto médio é a média da amplitude, explico aqui. Exemplo: calcule a amplitude e o ponto médio de 10; 50; 60; 100; 20 O maior valor é 100, o menor é 10. Portanto a amplitude é 90. O ponto médio é a média de 10 e 100, portanto (10+100)/2= 55 5. ASSIMETRIA Diz-se que uma distribuição é simétrica quando as metades esquerdas e direitas de seu histograma são iguais. Uma propriedade importantíssima de uma distribuição simétrica é que a mediana, a moda e a média são iguais, ie, coincidem. Prof. André L. Santos www.passeicursos.com.br 19 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Exemplo de distribuição simétrica 0 900 Média = Mediana = Moda 800 700 Frequency 600 500 400 300 200 100 0 -5,2 -3,9 -2,6 -1,3 0,0 1,3 2,6 3,9 A Diz-se que uma distribuição é assimétrica quando as metades esquerdas e direitas de seu histograma não são iguais e estendem-se mais para um lado que para o outro. As distribuições assimétricas podem ser à direta ou à esquerda, respectivamente positiva e negativa. Uma distribuição assimétrica à esquerda tem a média e a mediana à esquerda da moda. Já uma distribuição assimétrica à direita tem a média e a mediana à direita da moda. Distribuição assimétrica a direita 1 6000 1,89 2 Moda 1 Média 1,89 Mediana 2 5000 Frequency 4000 Assimetria a direita: Média > Moda Mediana > Moda 3000 2000 1000 0 0 2 4 6 8 10 B Prof. André L. Santos www.passeicursos.com.br 20 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Distribuição assimétrica a esquerda 8,98 9,29 9,8 1200 Moda 9,8 Mediana 9,29 Media 8,98 1000 Frequency 800 Assimetria a esquerda: Moda > Mediana Moda > media 600 400 200 0 1,2 2,4 3,6 4,8 6,0 7,2 8,4 9,6 d Assimétrica à esquerda ou negativamente assimétrica Simétrica Assimétrica à direta ou positivamente assimétrica Mediana < Moda Moda = Média = Mediana Mediana > Moda Média < Moda Média > Moda 6. GRÁFICOS DE CAIXA (BLOXPLOT), QUARTIS E PERCENTIS A mediana tem dois “irmãos”. São o primeiro quartil e o terceiro quartil. Se a mediana divide a distribuição ordenada em duas partes iguais, cada uma com 50% de elementos, o primeiro quartil divide no primeiro um quarto, ie, 25% antes versus 75% após. Analogamente, o terceiro quartil divide em 75% e 25%. Para calcular os quartis é da mesma maneira que a mediana. Ordena-se a distribuição e pega-se o elemento em 25/100 n-ésima posição para o primeiro quartil (Q1) e 75/100 n-ésima posição para o terceiro (Q3), lembrando sempre que n é o número de elementos na distribuição. Se os quartis ficarem entre dois elementos, adota-se o inteiro mais próximo. Em certo sentido, a mediana é o segundo quartil (Q2). Prof. André L. Santos www.passeicursos.com.br 21 ESTATÍSTICA PARA ANALISTA DO TESOURO Posição Q1 = 25/100 * n Mediana (Q2) = 50/100 * n Aula 0 ; Posição Q3 = 75/100 * n; Posição da A distância interquartílica é a diferença entre Q3 e Q1. Os percentis são análogos aos quartis e são calculados da mesma forma. Exemplo, O 10% percentil de uma distribuição é o elemento ordenado que ocupa a posição 10/100 * n. O 64% percentil de forma análoga é 64/100*n. O Q1 é o 25% percentil, o Q3 é o 75% percentil e a mediana é o 50% percentil. Posição 10% percentil = 10/100*n; Posição 64% percentil = 64/100*n Posição k percentil = k/100 * n; onde 0<k<100% Um gráfico muito comum em estatística para observar os quartis e medianas é o gráfico de caixa ou bloxplot. Trata-se de uma caixa dividida na mediana que vai do Q1 até o Q3. Veja o exemplo: Exemplo de Boxplot 250 Os pontos avulsos são "Outliers" Valores extremos acima ou abaixo dos limites Limite superior = Q3 + 1.5 (Q3 - Q1) 200 150 Q3 100 Distância interquartílica mediana Q1 50 0 Limite inferior = Q1- 1.5 (Q3 - Q1) Os boxplot também possuem uma linha ligando até 150% da distância interquartílica abaixo e acima de Q1 e Q3 respectivamente. Os pontos fora deste intervalo são os ditos “outliers”, os pontos famosos da expressão “pontos fora da curva”. Não se preocupe com outliers por hora, nunca vi caírem em prova alguma mesmo nos exercícios de boxplot, mas sempre é bom saber. 7. MEDIDAS DE VARIABILIDADE Prof. André L. Santos www.passeicursos.com.br 22 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 A amplitude de uma distribuição é a diferença entre o maior e o menor valor. Tem uso limitado, exceto para o cálculo do ponto médio. A medida de variação por excelência é o desvio-padrão: O desvio-padrão de um conjunto de dados é uma medida de variação dos valores em relação à média. É uma medida de dispersão absoluta. A variância de um conjunto de dados é a média dos quadrados das diferenças dos valores em relação à sua média. Na prática, o desvio-padrão (e sua mãe, a variância) representa o “grau de espalhamento” que os pontos estão da média. Veja o exemplo abaixo para entender. O histograma mais “espalhado” tem maior desvio-padrão. Histogram of a; b Normal 0,0016 A população "b" tem menor desvio padrão que "a". Os dados são menos "espalhados" ao redor das médias 0,0014 Density 0,0012 0,0010 0,0008 Variable a b Mean StDev N 5010 403,1 200 5003 275,2 200 0,0006 0,0004 0,0002 0,0000 4200 4500 4800 5100 Data 5400 5700 6000 Desvio-padrão é a raiz quadrada (√ ) da variância. Não posso deixar de reforçar a importância deste conceito. Porque se calcula a variância da distribuição em primeiro lugar e todas as operações com desvio devem ser feitas com a variância. Porém o desvio-padrão é realmente aquilo útil para se compreender a distribuição por ter a unidade dos elementos. Ou seja, fala-se em desvio-padrão, mas se mexe nele com a variância. Insisto, este conceito cai muito. Vamos revisar as notações e fórmulas. Algumas são novas, outras você já conhece: Prof. André L. Santos www.passeicursos.com.br 23 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Notações Somatória de um conjunto de valores x ∑x S2= n Número de valores de uma amostra N Número de valores de uma população ∑𝑥 = ∑𝑥 𝑛−1 𝑁 Uma variável usada para representar valores individuais dos dados 𝑥̅ = ∑(𝑥−𝑥̅ )2 1 x Média de um conjunto de valores de uma população 𝑁 n(∑ x2 )−(∑ x)2 = 𝑛(𝑛−1) ∑(𝑥−µ)2 𝑁 (∑ 𝑥2 − ∑(𝑥−𝑥̅ )2 s=√𝑆 2 =√ Média de um conjunto de valores de uma amostra 𝑛 𝑛−1 Variância de um conjunto de valores de uma população 2 (∑ 𝑥) 𝑁 ) n(∑ x2 )−(∑ x)2 =√ Variância de um conjunto de valores de uma amostra 𝑛(𝑛−1) Desvio-padrão de um conjunto de valores de uma amostra √𝜎 2 = ∑(𝑥−µ)2 𝑁 1 √𝑁 (∑ 𝑥2 − 2 (∑ 𝑥) 𝑁 ) Desvio-padrão (sigma) de valores de uma população um conjunto de A mesma distinção entre amostra e população deve ser feita com mais rigor no cálculo de desvio-padrão que no cálculo das médias e as bancas cobram nas questões este conhecimento. Quando é uma amostra, a divisão é por n-1, quando é população, por N. Por quê? Porque uma amostra perde um grau de liberdade. Ela é uma partição de um sistema, é algo a menos que um sistema, é um grau de liberdade a menos, portanto n-1. Ora, como a divisão é feita por um número menor, percebemos que o desvio-padrão de uma amostra é MAIOR que o de uma população. Lógico! A amostra é uma tentativa de previsão da população por um subconjunto, naturalmente tem medidas mais imprecisas. Usualmente, o desvio-padrão “padrão” é o amostral, isto é, o s, calculado com n-1. Inclusive é o padrão das maiorias das calculadoras científicas. Mas cuidado, elas também tem o botão sigma N. O candidato deve ficar esperto para perceber quando se fala de desvio-padrão se é o amostral ou populacional. Dá para perceber que quanto maior for o tamanho da amostra, menos importante será o desvio-padrão amostral e populacional. Natural, Prof. André L. Santos www.passeicursos.com.br 24 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 porque se uma amostra começa a crescer, fica menos imprecisa perante o todo da população, que a perda de um grau de liberdade é irrelevante. Chega de papo! Vamos a um exemplo bem simples: Calcule o desvio-padrão da amostra: 2; 10; 3; 6 ;8; 2; 3 : O procedimento é simples e pode ser usada uma tabela que nem precisa ser ordenada: Calcule a média 𝑥̅ = ∑𝑥 𝑛 Calcule cada um dos quadrados (𝑥 − 𝑥̅ )2 Faça a somatória ∑(𝑥 − 𝑥̅ )2 Calcule a variância S2= ∑(𝑥−𝑥̅ )2 𝑛−1 Calcule o desvio-padrão s=√𝑆 2 x x-𝑥̅ (x-𝑥̅ ) 2 -2,9 8 10 5,1 26 3 -1,9 3 6 1,1 1 8 3,1 10 2 -2,9 8 3 -1,9 3 34 - 61 n 7 média 𝑥̅ 4,9 n-1 6 Variância s 2 Desvio-padrão s 2 10 3 O desvio-padrão sempre tem o número de algarismos depois da vírgula da média. Portanto arredondamos para 27, porque esta amostra não tem algarismos depois da vírgula. Podemos dizer que a amostra acima tem média 𝑥̅ = 126 ± 11. O desvio-padrão tem as mesmas unidades da média, e é sempre um “mais ou menos” de dispersão em torno da média Prof. André L. Santos www.passeicursos.com.br 25 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 O coeficiente de variação é definido como o quociente entre o desviopadrão e a média. Sua vantagem é caracterizar a dispersão dos dados em termos relativos. CV= 𝑠 𝑥̅ Exemplo, uma amostra com média de 100 e desvio padrão de 20 tem coeficiente de variação de 0,2 É uma medida de dispersão relativa. CUIDADO! As bancas muitas vezes chamam sem critério o coeficiente de variação de VARIABILIDADE, pura e simplesmente, e fazem uma confusão danada entre variabilidade relativa (o CV) e absoluta (o desvio). Fique atento. 8. FÓRMULA ABREVIADA DA VARIÂNCIA Aqui vai um macete precioso para a sua prova. Na aula anterior, vimos a fórmula usual para o cálculo do desvio-padrão: ∑(𝑥−𝑥̅ )2 s=√ 𝑛−1 Esta fórmula requer que se faça uma tabela para o cálculo da média. Muitas vezes esta fórmula agrega erros de truncamentos nas médias. Esta fórmula pode ser expressa de um segundo modo, que é interessante por não precisar da média. É usada pelas calculadoras, porque permite que o desvio seja recalculado a cada dado novo que se coloca na amostra. É importante conhecê-la porque algumas bancas pedem exercícios em que ela é usada. Variância: s2= n(∑ x2 )−(∑ x)2 𝑛(𝑛−1) n(∑ x2 )−(∑ x)2 Desvio: s=√ 𝑛(𝑛−1) Ela é um desenvolvimento da primeira fórmula. Ambas resultam no mesmo valor. Pode fazer a conta. Antes que me perguntem... e para populações? 1 Variância: 2=𝑁 (∑ 𝑥 2 − Prof. André L. Santos (∑ 𝑥)2 𝑁 ) www.passeicursos.com.br 26 ESTATÍSTICA PARA ANALISTA DO TESOURO 1 Desvio: =√𝑁 (∑ 𝑥 2 − (∑ 𝑥)2 𝑁 Aula 0 ) Qual fórmula você usa na prova? Ora, veja o jeitão da questão. Se der somatórias ou seus quadrados, pimba, use a abreviada. Variância de Populações Fórmula clássica Fórmula abreviada - Usa a média - - Usa os quadrados - σ2 = ∑(𝑥 − µ)2 𝑁 1 2=𝑁 (∑ 𝑥 2 − ∑(𝑥−𝑥̅ )2 Variância de Amostras s2= (∑ 𝑥)2 𝑁 ) n(∑ x2 )−(∑ x)2 s2= 𝑛−1 𝑛(𝑛−1) 9. PROPRIEDADES DA MÉDIA E DA VARIÂNCIA As bancas adoram cobrar propriedades das medidas de distribuições. As propriedades da média são: 9.1 Multiplicando-se todos os valores de uma variável por uma constante, a média do conjunto fica multiplicada por esta constante; 𝑥̅ Elementos População 10 20 Multiplicando por 2 Nova População 30 10 10 16 20 20 32 X2 20 40 60 9.2 Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a média do conjunto fica acrescida ou diminuída dessa constante 𝑥̅ Elementos População 10 20 Somando 4 Nova População 30 10 10 16 14 14 20 +4 14 24 34 Fique atento. Especialmente porque como sempre estou reforçando aqui, não se faz cálculos com desvio, e sim com a variância. Portanto as propriedades da variância são: 9.3 Multiplicando-se todos os valores de uma variável por uma constante, a variância do conjunto fica multiplicada pelo quadrado desta constante Prof. André L. Santos www.passeicursos.com.br 27 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 𝜎2 Elementos População 10 20 30 Multiplicando por 2 10 10 64 X2 256 Nova População 20 40 60 20 20 (64 X 2^2) 9.4 Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a variância não se altera. (Natural, porque a média se move, não a dispersão dos valores) 𝜎2 Elementos População 10 20 30 Somando 4 10 10 64 14 14 64 +4 Nova População 14 24 34 Agora vamos num exemplo com desvio-padrão amostral e variância para o aluno ver que estas propriedades são da variância, não do desvio. S s 1670 41 2 Elementos Amostra 10 5 Multiplicando por 2 Nova amostra 10 10 100 X2 20 10 20 X 4 (ie, 2^2) 20 6680 200 82 4X41= 164 A propriedade da variância não se conservou no desvio! 9.5 Variância combinada ocorre na combinação de duas populações: 2 (𝐴 + 𝐵) = (∑ 𝐴 + ∑ 𝐵)2 1 {(∑ 𝐴2 + ∑ 𝐵 2 ) − } 𝑁𝐴 + 𝑁𝑏 𝑁𝑎 + 𝑁𝑏 1 Onde 𝑎 2=𝑁 (∑ 𝐴2 − 𝐴 (∑ 𝐴)2 𝑁𝐴 ) 1 𝑏 2=𝑁 (∑ 𝐵 2 − 𝐵 (∑ 𝐵)2 𝑁𝐵 ) Cuidado: 𝝈𝟐𝑨 + 𝝈𝟐𝑩 <> 𝝈𝟐𝑨+𝑩 Não tem mistério, é pura equação e decoreba. Mas a banca adora esta fórmula e não foram poucas provas em que cobrou. Se você olhar com cuidado, verá que é pura e simplesmente a fórmula de desvios de população abreviada somada. ADVERTÊNCIA: O desvio-padrão combinado é a raiz da variância combinada. Mais uma vez digo e repito, não se faz contas com desvio, e sim com a variância. Prof. André L. Santos www.passeicursos.com.br 28 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Calcule o desvio-padrão combinado das populações A e B abaixo: A 0 0 0 1 0 0 2 2 B 4 6 5 9 4 2 6 6 7 1 6 8 Vamos fazer os cálculos necessários A 0 0 0 1 0 0 2 2 5 A A2 Na A2 0 0 0 1 0 0 4 4 B 4 6 5 9 4 2 6 6 7 1 6 8 64 9 8 B B2 400 Nb 2 (𝐴 + 𝐵) = = B2 16 36 25 81 16 4 36 36 49 1 36 64 12 (∑ 𝐴 + ∑ 𝐵)2 1 {(∑ 𝐴2 + ∑ 𝐵 2 ) − } 𝑁𝐴 + 𝑁𝑏 𝑁𝑎 + 𝑁𝑏 (5 + 64)2 (69)2 1 1 {(9 + 400) − }= {(409) − } = 8,5475 = 8 8 + 12 8 + 12 20 20 E o desvio: 𝜎 = √𝜎 2 =√8,5475=2,9236=3 Quer fazer o tira teima? Vamos juntar as duas populações e calcular a variância: AUB 0 0 0 1 0 0 2 2 4 Prof. André L. Santos (A U B)2 0 0 0 1 0 0 4 4 16 www.passeicursos.com.br 29 ESTATÍSTICA PARA ANALISTA DO TESOURO 6 5 9 4 2 6 6 7 1 6 8 69 2 N 2 Aula 0 36 25 81 16 4 36 36 49 1 36 64 409 20 8,5475 Como queríamos demonstrar Cuidado: 𝝈𝟐𝑨 + 𝝈𝟐𝑩 <> 𝝈𝟐𝑨+𝑩 2 No exemplo acima também vale: 𝜎𝐴2 + 𝜎𝐵2 <> 𝜎𝐴+𝐵 Sabendo que 𝜎𝐴2 = 0,73 𝜎𝐵2 = 4,42 0,73 + 4,42 <> 8,55 Prof. André L. Santos www.passeicursos.com.br 30 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 EXERCÍCIOS RESOLVIDOS 10. EXERCÍCIOS RESOLVIDOS ESAF/Analista STN/ 2013 - Suponha que X seja uma variável aleatória com valor esperado 10 e variância 25. Para que a variável Y dada por Y = p - q x, com p e q positivos, tenha valor esperado 0 e variância 625, é necessário que p + q seja igual a: 1. a) 50 b) 250 c) 55 d) 100 e) 350 Para resolver este exercício precisamos fazer que 𝑦̅ = 0 e 𝜎 2 𝑦 = 625. Isso nos dará duas equações capazes de resolver as duas incógnitas p e q. Estas equações serão dadas pelas propriedades. Propriedades das variâncias: Multiplicando-se todos os valores de uma variável por uma constante, a variância do conjunto fica multiplicada pelo quadrado desta constante; somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a variância não se altera. (Natural, porque a média se move, não a dispersão dos valores) 𝑦 = 𝑝 − 𝑞𝑥 logo: 𝜎𝑦2 = (−𝑞)2 𝜎𝑥2 625 = 𝑞 2 25 𝑞 2 = 25 𝑞=5 Lembrem-se que a soma p não afeta as variâncias Propriedades das médias: Multiplicando-se todos os valores de uma variável por uma constante, a média do conjunto fica multiplicada por esta constante; Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a média do conjunto fica acrescida ou diminuída dessa constante. Ou seja, a média de y,𝑦̅ , será multiplicada por –q e somada a p. O exercício quer 𝑦̅ = 𝑝 − 𝑞𝑥̅ 0 = 𝑝 − 5.10 Prof. André L. Santos www.passeicursos.com.br 31 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 0 = 𝑝 − 50 𝑝 = 50 Agora é fazer a soma q+p = 5+50=55 GABARITO: C ESAF/Receita Federal/2014 - A variância da amostra formada pelos valores 2, 3, 1, 4, 5 e 3 é igual a 2. a) 3. b) 2. c) 1. d) 4. e) 5. Variância de Populações Fórmula clássica Fórmula abreviada - Usa a média - - Usa os quadrados - σ2 = ∑(𝑥 − µ)2 𝑁 1 2=𝑁 (∑ 𝑥 2 − ∑(𝑥−𝑥̅ )2 Variância de Amostras s2= (∑ 𝑥)2 𝑁 ) n(∑ x2 )−(∑ x)2 s2= 𝑛−1 𝑛(𝑛−1) É uma amostra, portanto atento às fórmulas! Soma x 3 2 1 4 5 3 x2 9 4 1 16 25 9 18 64 n(∑ x2 )−(∑ x)2 s2= 𝑛(𝑛−1) = 6.64−182 6.(6−1) =2 GABARITO: B Prof. André L. Santos www.passeicursos.com.br 32 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 ESAF/Receita Federal/2005 Para dados agrupados representados por uma curva de frequências, as diferenças entre os valores da média, da mediana e da moda são indicadores da assimetria da curva. Indique a relação entre essas medidas de posição para uma distribuição negativamente assimétrica. 3. a) A média apresenta o maior valor e a mediana se encontra abaixo da moda. b) A moda apresenta o maior valor e a média se encontra abaixo da mediana. c) A média apresenta o menor valor e a mediana se encontra abaixo da moda. d) A média, a mediana e a moda são coincidentes em valor. e) A moda apresenta o menor valor e a mediana se encontra abaixo da média. Distribuição assimetricamente negativa. Assimetria negativa ou “a esquerda” Mediana < Moda E Média < Moda Vamos retornar ao nosso exemplo de curva assimetricamente negativa. Distribuição assimétrica a esquerda 8,98 9,29 9,8 1200 Moda 9,8 Mediana 9,29 Media 8,98 1000 Frequency 800 Assimetria a esquerda: Moda > Mediana Moda > media 600 400 200 0 1,2 2,4 3,6 4,8 6,0 7,2 8,4 9,6 d Prof. André L. Santos www.passeicursos.com.br 33 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 a) A média apresenta o maior valor e a mediana se encontra abaixo da moda. – ERRADA. Nas assimétricas negativas ou “a esquerda” a média e a mediana estão a esquerda/abaixo da moda. Então não tem como a média apresentar o maior valor. b) A moda apresenta o maior valor e a média se encontra abaixo da mediana. – ERRADA. Não necessariamente a media e mediana definem assimetria. c) A média apresenta o menor valor e a mediana se encontra abaixo da moda. – CERTA. Pela definição de assimetria negativa ou “à esquerda” Mediana < Moda d) A média, a mediana e a moda são coincidentes em valor. – ERRADA. Só seria verdade em distribuições simétricas e) A moda apresenta o menor valor e a mediana se encontra abaixo da média. – ERRADA. Pela definição, a moda é o valor mais frequente. Se a curva é assimétrica à esquerda, a média e mediana estão abaixo da moda. GABARITO: C ESAF/ Receita Federal/2005 - Em uma determinada semana uma empresa recebeu as seguintes quantidades de pedidos para os produtos A e B: 4. Produto A Produto B 39 33 50 52 25 47 30 49 41 54 36 40 37 43 Assinale a opção que apresente os coeficientes de variação dos dois produtos: a) CVA = 15,1% e CVB = 12,3% b) CVA = 16,1% e CVB = 10,3% c) CVA = 16,1% e CVB = 12,3% d) CVA = 15,1% e CVB = 10,3% e) CVA = 16,1% e CVB = 15,1% Este exercício pede o coeficiente de variação, que é a razão entre o desvio-padrão e a média. Prof. André L. Santos www.passeicursos.com.br 34 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 O pulo do gato é saber se a banca se refere ao desvio-padrão da população ou da amostra. Faz toda a diferença porque no primeiro caso é dividido por n, no segundo é n-1. A banca julgou que era o da amostra. Eu não estou satisfeito, porque poderia ser considerada a população da semana, o exercício dá a entender que é a totalidade dos pedidos. Cabia recurso, até porque maquiavelicamente a alternativa que considera a população é a D, enquanto a que foi o gabarito é a B, a da amostra. Cabia um belíssimo recurso. CV=s/𝑥̅ . Para a média 𝑥̅𝐴 = 39+33+25+30+41+36+37 𝑥̅𝐵 = 50+52+47+49+54+40+43 7 7 =34 =48 Agore use a fórmula que você achar melhor para a variância: Fórmula clássica Fórmula abreviada - Usa a média - - Usa os quadrados - Variância de Populações σ2 = ∑(𝑥 − µ)2 𝑁 1 2=𝑁 (∑ 𝑥 2 − ∑(𝑥−𝑥̅ )2 Variância de Amostras s2= (∑ 𝑥)2 𝑁 ) n(∑ x2 )−(∑ x)2 s2= 𝑛−1 𝑛(𝑛−1) Eu sempre prefiro a fórmula abreviada para a variância, mas nos exercícios que se faz necessário calcular CV é melhor ir pela clássica, porque temos de calcular a média de qualquer jeito, então na clássica passamos pela média 𝑥̅ 34 48 m 2 2 A A- 𝑥̅ (A-𝑥̅ ) B B- 𝑥̅ (B- 𝑥̅ ) 39 5 21 50 2 5 33 -1 2 52 4 17 25 -9 89 47 -1 1 30 -4 20 49 1 1 41 7 43 54 6 38 36 2 2 40 -8 62 37 3 7 43 -5 24 184 147 n 7 n 7 Prof. André L. Santos www.passeicursos.com.br 35 ESTATÍSTICA PARA ANALISTA DO TESOURO n-1 s 2 s 6 n 31 s 6 s Aula 0 6 2 24 5 Quer ainda assim calcular com a abreviada para ver? Vamos lá: A2 1521 1089 625 900 1681 1296 1369 Cálculo da Média n A 39 33 25 30 41 36 37 n ̅ 𝑥 (A)2 (A2) n-1 2 241 7 34 ̅ 𝑥 B 50 52 47 49 54 40 43 335 7 48 Cálculo da Variância (B)2 112225 2 8481 (B ) n-1 6 2 31 6 58081 6 B2 2500 2704 2209 2401 2916 1600 1849 16179 24 5 𝐶𝑉𝐴 ==6/34=0,1765=17,6% 𝐶𝑉𝐵 ==5/48=0,104=10% Atenção! Aqui vai uma lição poderosa para você, candidato. A resposta é letra D, mas vejam que por causa de meu arredondamento prematuro nas médias e sigmas eu não cheguei exatamente à resposta pedida, CVA = 16,1% e CVB = 10,3%. Só arredonde ao chegar ao fim!!! Fazendo sem arredondar: 𝑥̅ A 39 33 25 30 41 36 Prof. André L. Santos A-𝑥̅ 4,6 -1,4 -9,4 -4,4 6,6 1,6 34,4 (A-𝑥̅ )2 20,9 2,0 88,9 19,6 43,2 2,5 www.passeicursos.com.br 36 ESTATÍSTICA PARA ANALISTA DO TESOURO 37 n s2 s 2,6 Aula 0 6,6 183,7 7,0 30,6 5,5 𝐶𝑉𝐴 ==5,5/34,4=0,1598=16,0% Só de tira-teima, à alternativa se chega usando duas casas: 𝐶𝑉𝐴 ==5,53/34,43=0,1606=16,1% Temos que sempre chegar ao valor aproximado da alternativa. Mas fica a cargo da consciência dos examinadores quem no meio da prova vai fazer divisões e raízes até a segunda decimal para chegar na alternativa, tsc, tsc, tsc... GABARITO: B ESAF / ISS Recife / 2003 - Em uma amostra, realizada para se obter informação sobre a distribuição salarial de homens e mulheres, encontrou-se que o salário médio vale R$ 1.200,00. O salário médio observado para os homens foi de R$ 1.300,00 e para as mulheres foi de R$ 1.100,00. Assinale a opção correta. 5. a) O número de homens na amostra é igual ao de mulheres. b) O número de homens na amostra é o dobro do de mulheres. c) O número de homens na amostra é o triplo do de mulheres. d) O número de mulheres é o dobro do número de homens. e) O número de mulheres é o quádruplo do número de homens. Esta questão se resolve com mais com malícia que matemática. Vamos desenhar Média mulheres: 1100 Prof. André L. Santos Média geral: 1200 Média homens: 1300 www.passeicursos.com.br 37 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Ora, se houvesse 100 homens e 2 mulheres, a “gangorra” não penderia para os homens? A média é justamente o ponto que equilibra a gangorra. Se houvesse 1000 mulheres e 30 homens não penderia mais para a média das mulheres? Portanto não importa muito nem quanto vale os homens e as mulheres individualmente, como a média central é exatamente o ponto médio deles, naturalmente há tantos homens quanto mulheres. GABARITO: A FCC/ICMS-RJ/2014 - O Departamento de Pessoal de certo órgão público fez um levantamento dos salários, em número de salários mínimos (SM), dos seus 400 funcionários, obtendo os seguintes resultados: 6. Sabe-se que a mediana dos salários desses funcionários calculada por meio dessa tabela pelo método da interpolação linear é igual a 8,8 SM. Nessas condições, o salário médio desses 400 funcionários, em número de salários mínimos, considerando que todos os valores incluídos em um intervalo de classe são coincidentes com o ponto médio do intervalo, é igual a a) 8,54 b) 8,83 c) 8,62 d) 8,93 e) 8,72 O enunciado deu uma informação muito preciosa, de que a mediana foi interpolada em 8,8, ou seja, e está no intervalo [8,10[. Ou seja, está em x. Outra informação é que temos 400 elementos. Se a mediana divide meio a meio, quando chegarmos ao 8,8 temos 200 de cada lado. Vamos entender o intervalo x Prof. André L. Santos www.passeicursos.com.br 38 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Ora, se até 8 temos a frequência acumulada de 148 e até 8,8 temos de 200, por divisão simples vemos que temos 200-148 em 8,8-8,0 Ou seja, 52 em 0,8 Como a classe de x tem uma extensão de 2, pela regra de 3 8,8 − 8,0 0,8 2 = = 200 − 148 52 𝑥 x= 130 Como a somatória dos intervalos é 400, temos uma equação onde chegamos à y 48 + 100 + x+ y+40=400 x+y=212 Se temos x, teremos y 130 + y = 212 y = 82 Refazendo nossa tabela Inf (contém) Sup (não contém) PM Freq abs 4 6 5 48 6 8 7 100 8 10 9 130 10 12 11 82 12 16 14 40 Prof. André L. Santos www.passeicursos.com.br 39 ESTATÍSTICA PARA ANALISTA DO TESOURO Total Aula 0 400 E a média? Ora, é aplicar a fórmula da média ponderada, usando como x os pontos médios dos intervalos 𝑥̅ = ∑ 𝑥. 𝑓 𝑛 Melhor fazer esta conta com uma tabela Inf (contém) Sup (não contém) PM (x) Freq abs (f) PM X Freq (x.f) 4 6 5 48 240 6 8 7 100 700 8 10 9 130 1170 10 12 11 82 902 12 16 14 40 560 Total (n) 400 xf 3572 médiaxf/n 8,93 GABARITO: D FCC/ICMS-RO/2010 - Em uma cidade é realizado um levantamento referente aos valores recolhidos de determinado tributo estadual no período de um mês. Analisando os documentos de arrecadação, detectou-se 6 níveis de valores conforme consta no eixo horizontal do gráfico abaixo, em que as colunas representam as quantidades de recolhimentos correspondentes. 7. Prof. André L. Santos www.passeicursos.com.br 40 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Com relação às medidas de posição deste levantamento tem-se que o valor da a) média aritmética é igual a metade da soma da mediana e a moda. b) média aritmética é igual ao valor da mediana. c) média aritmética supera o valor da moda em R$ 125,00. d) moda supera o valor da mediana em R$ 500,00. e) mediana supera o valor da média aritmética em R$ 25,00. Qual é a moda? A moda é 1500. É o valor de maior ocorrência, é o valor da maior barra. E a boa e velha média? Vamos calcular na marra. 𝑥̅ =x/n=(30X500+50X1000+60X1500+30X2000+20X2500+10X3000)/( 30+50+60+30+20+10)=(15000+50000+90000+60000+50000+30000)/200 =295000/200=2950/2=1475 Observe aqui que o histograma dá a frequência dos eventos. Sendo assim, se fôssemos escrever a população, seriam trinta linhas de 500, cinquenta linhas de 1000, sessenta de 1500 e assim vai. O número de linhas, ie, a somatória das frequências, é o número de elementos, n. A mediana é um cálculo interessante. Se temos 200 elementos (n) e o histograma está ordenado, amediana é o número entre o 99º e 100º elemento. Ora, se temos 30 de 500, 50 de 1000 e 60 de 1500, raciocine comigo graficamente: 1500 500 0 1000 30º 99º-100º elemento é um 1500 80º 140º 200º Portanto a mediana ẋ =1500 Agora é comentarmos as questões: a) média aritmética é igual a metade da soma da mediana e a moda. – Nananinanão. A média é 1475, e a soma da mediana e da moda é 1500+1500=3000 b) média aritmética é igual ao valor da mediana. – Negativo. 𝑥̅ =1475 <> 𝑥̇ =1500 c) média aritmética supera o valor da moda em R$ 125,00. – Hum... A moda é 1500, a média é 1475. A moda supera a média em 25, não 125. Errada Prof. André L. Santos www.passeicursos.com.br 41 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 d) moda supera o valor da mediana em R$ 500,00. – A moda é 1500, a mediana é 1500. Elas são iguais. Errada e) mediana supera o valor da média aritmética em R$ 25,00. – Opa, certa, certíssima. A 𝑥̇ =1500 e 𝑥̅ =1475, portanto 𝑥̇ - 𝑥̅ = R$ 25,00 GABARITO: E 8. FCC/ICMS-SP/2013 - Considere: I. O coeficiente de variação de uma variável é uma medida de dispersão absoluta que é o resultado da divisão entre a média e o desvio padrão da variável em questão. II. Um dispositivo útil quando se deseja verificar se existe correlação linear entre duas variáveis é o gráfico de colunas justapostas. III. O desvio padrão é mais apropriado do que o coeficiente de variação quando se deseja comparar a variabilidade de duas variáveis. IV. Na amostragem aleatória estratificada, a população é dividida em estratos, usualmente, de acordo com os valores ou categorias de uma variável, e, depois, uma amostragem aleatória simples é utilizada na seleção de uma amostra de cada estrato. Está correto o que se afirma APENAS em a) I. b) II. c) III. d) I e IV. e) IV. Ah, questões teóricas não são pontos dados não! São terríveis às vezes! I - O coeficiente de variação de uma variável é uma medida de dispersão absoluta que é o resultado da divisão entre a média e o desvio padrão da variável em questão. – ERRADA. O CV é a divisão do desvio pela média. E é uma medida relativa. II. Um dispositivo útil quando se deseja verificar se existe correlação linear entre duas variáveis é o gráfico de colunas justapostas. – ERRADA. Você coloca duas colunas justapostas e faz o quê com elas? Gráfico de colunas é útil para populações e amostras, não variáveis. Prof. André L. Santos www.passeicursos.com.br 42 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 III. O desvio-padrão é mais apropriado do que o coeficiente de variação quando se deseja comparar a variabilidade de duas variáveis. – ERRADA. Sem levar em conta a questão subjetiva de ser apropriado ou não, o desvio-padrão não fala nada em relação à média. Veja o exemplo abaixo. Ambas populações tem =100, dá para perceber que b é menos dispersa que a. Porém o CV de B é menor que A. Histogram of a; b 0 a 800 1600 2400 3200 4000 4800 b 700 600 Frequency 500 400 300 200 100 0 0 800 1600 2400 3200 4000 4800 IV. Na amostragem aleatória estratificada, a população é dividida em estratos, usualmente, de acordo com os valores ou categorias de uma variável, e, depois, uma amostragem aleatória simples é utilizada na seleção de uma amostra de cada estrato. – CERTA. Impecável. É praticamente a definição. GABARITO: E FCC/ISS-SP/2007 - No presente mês, o salário médio mensal pago a todos os funcionários de uma firma foi de R$ 530,00. Sabe-se que os salários médios mensais dos homens e mulheres são respectivamente iguais a R$ 600,00 e R$ 500,00. No próximo mês, todos os homens receberão um adicional de R$ 20,00 e todas as mulheres um reajuste salarial de 10%, sobre os salários atuais. Supondo que o quadro de funcionários não se alterou, após esses reajustes o salário médio mensal de todos os funcionários passará a ser igual a: 9. Prof. André L. Santos www.passeicursos.com.br 43 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 a) R$ 540,00 b) R$ 562,00 c) R$ 571,00 d) R$ 578,00 e) R$ 580,00 Esta é uma questão de propriedades da média requer um certo pensamento para sair do problema da ponderação. Porque mesmo que seja simples aplicar os reajustes aos salários, depois não vai se conseguir sair para a soma ponderada 𝑥̅ ℎ = 600; 𝑥̅ 𝑚 = 500 𝑥̅ todos = 530 Aumento homens + R$20 Novo 𝑥̅ℎ = 600 + 20 = 620 Aumento mulheres X R$1,10 Novo 𝑥̅𝑚 = 500 X 1,1 = 550 E ai? Temos que chegar à proporção de homens e mulheres na firma! 𝑥̅todos = 𝑥̅ℎ . PropH + 𝑥̅ 𝑚 . PropM 530 = 600. PropH + 500. PropM A Proporção de homens e mulheres dá 1. Então temos a segunda equação: PropH + PropM = 1 PropH = 1 − PropM Voltando acima 530 = 600. PropH + 500. PropM 530 = 600. (1 − PropM) + 500. PropM 530 = 600 − 600PropH + 500. PropM −70 = −100. PropM PropM = 0,7 in consequentiam PropH=0,3 Agora vai: Nova media = Novo 𝑥̅𝑚 X 0,7 + Novo 𝑥̅ℎ X 0,3 = 550 X0,7 + 620 X0,3 Prof. André L. Santos www.passeicursos.com.br 44 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 = 385 + 186 = 571 GABARITO: C 10. FCC/ISS-SP/2012 - Considere as seguintes afirmações: I. Um dispositivo útil quando se quer verificar a associação entre duas variáveis quantitativas é o gráfico de dispersão entre essas duas variáveis. II. O coeficiente de variação é uma medida de dispersão relativa que depende da unidade de medida da variável que está sendo analisada. III. Dentre as medidas de posição central, a média é considerada uma medida robusta pelo fato de não ser afetada por valores aberrantes. IV. Se o coeficiente de correlação linear de Pearson entre duas variáveis for igual a zero, não haverá associação linear entre elas, implicando a ausência de qualquer outro tipo de associação. Está correto o que se afirma APENAS em a) II e III. b) I e II. c) I e III. d) II e IV. e) I. I. Um dispositivo útil quando se quer verificar a associação entre duas variáveis quantitativas é o gráfico de dispersão entre essas duas variáveis. CERTA Vamos a um exemplo de gráfico de dispersão, vulgo X versus Y Prof. André L. Santos www.passeicursos.com.br 45 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Dispersão de A versus C 10 8 6 a Aparentemente há correlação 4 2 0 5 10 15 20 25 c II. O coeficiente de variação é uma medida de dispersão relativa que depende da unidade de medida da variável que está sendo analisada. – ERRADA – De jeito nenhum. Média e desvio-padrão que compõe o CV tem a mesma unidade. III. Dentre as medidas de posição central, a média é considerada uma medida robusta pelo fato de não ser afetada por valores aberrantes. – ERRADA – Uma das propriedades e desvantagens da média é justamente ser afetada por valores extremos. IV. Se o coeficiente de correlação linear de Pearson entre duas variáveis for igual à zero, não haverá associação linear entre elas, implicando a ausência de qualquer outro tipo de associação. – ERRADA – Veremos com mais detalhes na última aula. O coeficiente linear de Pearson, como o nome mesmo já diz, mede correlações lineares. OU seja, quando é zero, significa que a correlação não é linear, mas pode haver outra correlação. Prof. André L. Santos www.passeicursos.com.br 46 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 O exemplo abaixo é uma correlação quadrática. Observem que o coeficiente linear é bem próximo de zero, mas HÁ correlação. Scatterplot of a vs d Regression fit; a = 2,176 + 0,08634 d 12 Indica quase nenhuma correlação LINEAR 10 a 8 6 4 2 0 0 20 40 60 80 100 d GABARITO: E FCC/ICMS-RO/2010 - A média aritmética de todos os salários dos funcionários em uma repartição pública é igual a R$ 1.600,00. Os salários dos funcionários do sexo masculino apresentam um desvio padrão de R$ 90,00 com um coeficiente de variação igual a 5%. Os salários dos funcionários do sexo feminino apresentam um desvio padrão de R$ 60,00 com um coeficiente de variação igual a 4%. Escolhendo aleatoriamente um funcionário desta repartição, a probabilidade dele ser do sexo feminino é igual a 11. a) 1/2 b) 1/3 c) 3/4 d) 3/5 e) 2/3 Vamos colocar os dados do enunciado: Prof. André L. Santos www.passeicursos.com.br 47 ESTATÍSTICA PARA ANALISTA DO TESOURO Homens Mulheres 𝜎𝐻 = 90 𝜎𝑀 = 60 𝐶𝑉𝐻 =0,05 Aula 0 População µ=1600 𝐶𝑉𝑀 =0,04 Pela definição de CV: CV= 𝜎𝐻 = 90 𝐶𝑉𝐻 = 𝜎𝐻⁄𝜇𝐻 ---> 0,05=90/𝜇𝐻 𝜇𝐻 = 90 = 1800 0,05 𝜎𝑀 = 60 𝐶𝑉𝑀 = 𝜎𝑀⁄𝜇𝑀 ---> 0,04=90/𝜇𝐻 𝜇𝑀 = Homens 𝜎𝐻 = 90 60 = 1500 0,04 Mulheres 𝜎𝑀 = 60 𝐶𝑉𝐻 =0,05 𝐶𝑉𝑀 =0,04 𝜇𝐻 =1800 𝜇𝐻 =1500 População µ=1600 A média da população é a média (ponderada) de homes e mulheres 𝑥𝐻 𝜇𝐻 + 𝑥𝑀 𝜇𝐻 = 𝜇 𝑥𝐻 1800 + 𝑥𝑀 1500 = 1600 Como homens e mulheres são frequências relativas a somatória precisa ser 1 𝑥𝐻 + 𝑥𝑀 = 1 Temos duas equações e duas incógnitas 𝑥 1800 + 𝑥𝑀 1500 = 1600 { 𝐻 𝑥𝐻 + 𝑥𝑀 = 1 Arrumando a segunda equação e a colocando na primeira: 𝑥𝐻 + 𝑥𝑀 = 1 Prof. André L. Santos 𝑥𝑀 = 1 − 𝑥𝐻 www.passeicursos.com.br 48 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 𝑥𝐻 1800 + 𝑥𝑀 1500 = 1600 𝑥𝐻 1800 + (1 − 𝑥𝐻 )1500 = 1600 1800𝑥𝐻 + 1500 − 1500𝑥𝐻 = 1600 300𝑥𝐻 = 1600 − 1500 = 100 𝑥𝐻 = 100 = 1/3 300 Em consequência da complementaridade 𝑥𝑀 = 1 − 𝑥𝐻 = Gênero x Homens 1/3 Mulheres 2/3 2 3 As mulheres corresponde a 2/3 do total, portanto P(Mulher)=2/3 GABARITO: E FCC/ICMS-BA/2004 - O gráfico abaixo é o histograma de frequências absolutas de uma amostra de valores arrecadados de determinado tributo em um município. 12. Com relação aos dados dessa amostra, é verdade que a) 60% dos valores são maiores ou iguais a R$ 1 500,00 e menores que R$ 3 000,00. b) mais de 30% dos valores são maiores ou iguais a R$ 2 500,00 e menores que R$ 3 500,00. c) a porcentagem dos valores iguais ou superiores a R$ 3 500,00 é maior que a porcentagem dos valores inferiores a R$ 1 500,00. d) a frequência relativa de valores inferiores a R$ 1 500,00 é menos que 10%. Prof. André L. Santos www.passeicursos.com.br 49 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 e) a amplitude da amostra é igual a R$ 4 000,00. Neste caso temos que fazer a frequência acumulada numa tabela. Vou abrir os limites para enxergar melhor os valores Limite Inferior 500 1.000 1.500 2.000 2.500 3.000 3.500 Limite superior 1.000 1.500 2.000 2.500 3.000 3.500 4.000 Soma Frequencia absoluta 100 100 200 400 300 300 200 1600 Frequencia acumulada 100 200 400 800 1100 1400 1600 Frequencia acumulada relativa 6% 13% 25% 50% 69% 88% 100% Vamos lá, alternativa por alternativa: a) 60% dos valores são maiores ou iguais a R$ 1 500,00 e menores que R$ 3 000,00. – ERRADA. Vamos a nossa tabela Limite Inferior 500 1.000 1.500 2.000 2.500 3.000 3.500 Limite superior 1.000 1.500 2.000 2.500 3.000 3.500 4.000 Soma Frequencia absoluta 100 100 200 400 300 300 200 1600 Frequencia acumulada 100 200 400 800 1100 1400 1600 Frequencia acumulada relativa 6% 13% 25% 50% 69% 88% 100% Ora, até R$ 3000 temos 69%, mas depois de R$ 1500 temos valores acima de 13%. Fazendo graficamente: 1500 3000 13% 69% Diferença 69%-13%=43% b) mais de 30% dos valores são maiores ou iguais a R$ 2 500,00 e menores que R$ 3 500,00. – CORRETA. Veja por quê: Prof. André L. Santos www.passeicursos.com.br 50 ESTATÍSTICA PARA ANALISTA DO TESOURO Limite Inferior 500 1.000 1.500 2.000 2.500 3.000 3.500 Limite superior 1.000 1.500 2.000 2.500 3.000 3.500 4.000 Soma Frequencia absoluta 100 100 200 400 300 300 200 1600 Frequencia acumulada 100 200 400 800 1100 1400 1600 Aula 0 Frequencia acumulada relativa 6% 13% 25% 50% 69% 88% 100% 2500 3500 50% 88% Diferença 88%-50%=38% c) a porcentagem dos valores iguais ou superiores a R$ 3 500,00 é maior que a porcentagem dos valores inferiores a R$ 1 500,00. – ERRADA. Vamos diretamente a nossa régua: 3500 4000 88% 100% Diferença 100%-88%=12% 0 1500 0% 13% Diferença 13%-0%=13% 12% (>=3500) é MENOR que 13% (<=1500). d) a frequência relativa de valores inferiores a R$ 1 500,00 é menos que 10%. – ERRADA. Pela coluna das frequências relativas já se vê que é 13% e) a amplitude da amostra é igual a R$ 4 000,00. – ERRADA. Amplitude é máximo – mínimo Prof. André L. Santos www.passeicursos.com.br 51 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Amplitude = Max – Min = 4000-500= R$ 3.500 <> R$ 4.000 GABARITO:B FCC/Analista FHEMIG/2013 conjunto de dados, 13. - Na análise descritiva de um a) a média corresponde sempre ao valor que divide os dados ordenados ao meio. b) o desvio padrão representa uma medida de tendência central. c) se existem valores diferentes uns dos outros em um conjunto de dados, sempre teremos valores abaixo e acima da média. d) a mediana é sempre diferente da média. e) o desvio padrão corresponde ao quadrado da variância. a) a média corresponde sempre ao valor que divide os dados ordenados ao meio. – ERRADA. Esta é a definição de mediana. b) o desvio padrão representa uma medida de tendência central. – ERRADA. O desvio-padrão é uma medida de dispersão. c) se existem valores diferentes uns dos outros em um conjunto de dados, sempre teremos valores abaixo e acima da média. – CORRETA. Nem precisa saber estatística para acertar esta. O nome até já diz “média“. Quem está “na média” está “no meio”, mas NÃO É EXATAMENTE O MEIO COMO É A MEDIANA!!! d) a mediana é sempre diferente da média. – ERRADA. Em distribuições simétricas ela é igual à média. e) o desvio padrão corresponde ao quadrado da variância. – ERRADA. É ao contrário. A variância é o quadrado do desvio-padrão. GABARITO:C FCC/Analista FHEMIG/2013 - A respeito do boxplot é correto afirmar: 14. a) Medidas descritivas como a mediana e o intervalo interquartil são utilizadas para se obter o gráfico, entre outros elementos. b) Entre os percentis 25% e 50% há metade dos valores do conjunto de dados representado. Prof. André L. Santos www.passeicursos.com.br 52 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 c) O intervalo interquartil é construído a partir do 1o e 2o quartis. d) É usual se considerar um valor aberrante àquele que exceda 2 intervalos interquartis, para cima ou para baixo dos limites da caixa definida pelo intervalo interquartil. e) Não se permite a visualização da variabilidade dos dados Vamos relembrar o boxplot: Exemplo de Boxplot 250 Os pontos avulsos são "Outliers" Valores extremos acima ou abaixo dos limites Limite superior = Q3 + 1.5 (Q3 - Q1) 200 150 Q3 100 Distância interquartílica 50 0 mediana Q1 Limite inferior = Q1- 1.5 (Q3 - Q1) a) Medidas descritivas como a mediana e o intervalo interquartil são utilizadas para se obter o gráfico, entre outros elementos. – CORRETA – Sim. Basta ver o gráfico. b) Entre os percentis 25% e 50% há metade dos valores do conjunto de dados representado. – ERRADA – Há na verdade um quarto. Abaixo de 50% (a mediana) que há metade c) O intervalo interquartil é construído a partir do 1º e 2º quartis. – ERRADA – É construído a partir do 3º e 1º quartis d) É usual se considerar um valor aberrante àquele que exceda 2 intervalos interquartis, para cima ou para baixo dos limites da caixa definida pelo intervalo interquartil. – ERRADA – Esta não é a definição de outlier, que fica nos 10% finais (ie, o 90%-ésimo) Prof. André L. Santos www.passeicursos.com.br 53 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 e) Não se permite a visualização da variabilidade dos dados – ERRADA – Como não? Um boxplot bem espalhado fala muito sobre a variabilidade! GABARITO:A FCC/Analista Legislativo/Contador da Câmara dos Deputados/2007 - Se a média e a variância da variável aleatória X são 12 e 80 respectivamente, então a média e a variância da variável aleatória Y = X/4 + 1 são dadas respectivamente por 15. a) 4 e 20 b) 4 e 5 c) 3 e 20 d) 4 e 21 e) 3 e 5 Questão clássica de propriedades da média (𝑥̅ =12) e variância (s2=80). Temos em Y uma multiplicação por constante (ie, dividir por 4 é multiplicar por 1/4=0,25) e uma soma por constante. Vamos relembrar as propriedades da média: Somando-se uma constante a todos os valores de uma variável, a média do conjunto fica acrescida dessa constante Multiplicando-se todos os valores de uma variável por uma constante, a média do conjunto fica multiplicada por esta constante; Ora, Y é X multiplicado por ¼ e somado 1. Então a nova média terá estas mesmas operações 𝑥̅𝑛𝑜𝑣𝑎 = 𝑥̅ 12 +1= +1= 3+1 =4 4 4 Vamos relembrar as propriedades da variância: Prof. André L. Santos www.passeicursos.com.br 54 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Somando-se uma constante a todos os valores de uma variável, a variância não se altera Multiplicando-se todos os valores de uma variável por uma constante, a variância do conjunto fica multiplicada pelo quadrado desta constante Portanto a única operação que mudará a variância será a multplicação por ¼, que na variância será a multiplicação por 1/16 1 2 1 4 16 2 𝑠𝑛𝑜𝑣𝑎 =𝑠 2 . ( ) = 𝑠 2 . =80/16=5 GABARITO: B FCC/Analista Legislativo & Contador da Câmara dos Deputados/2007 - Para se estudar o desempenho das corretoras de ações A e B, selecionou-se de cada uma delas amostras aleatórias das ações negociadas. Para cada ação selecionada computou-se a porcentagem de lucro apresentada durante o período de um ano. Os gráficos a seguir apresentam os desenhos esquemáticos relativos à porcentagem de lucro das amostras de A e B durante o período citado. 16. Relativamente à porcentagem corretoras pode-se afirmar que de lucro obtida por essas a) exatamente 25% dos valores de A são inferiores a 55. b) menos de 50% dos valores de B são superiores a 55. c) o maior valor de A é 60. Prof. André L. Santos www.passeicursos.com.br 55 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 d) os valores de A apresentam maior variabilidade que os de B. e) os valores de B apresentam assimetria positiva. Vamos relembrar: Valor máximo Mediana Q3 quartil – terceiro Q1 quartil – primeiro Valor mínimo Até o Q1; temos 25% dos valores Até a mediana (seria o Q2); 50% dos valores Até o Q3; 75% dos valores a) exatamente 25% dos valores de A são inferiores a 55. – ERRADA. Dá para ler no gráfico que Q1 de A está em +- 52 b) menos de 50% dos valores de B são superiores a 55. – ERRADA. Dá para ver no gráfico que a mediana de B está em +- 56/57 c) o maior valor de A é 60. – ERRADA. O maior valor de A é 70 d) os valores de A apresentam maior variabilidade que os de B. – CERTA. Ainda que eu odeie o termo variabilidade solto assim, os dados de A são mais espalhados Prof. André L. Santos www.passeicursos.com.br 56 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 e) os valores de B apresentam assimetria positiva. - ERRADA Sem entrar em muita conta, vemos que a assimetria de B está mais à esquerda/inferior (negativa em relação à mediana) que a direita. GABARITO: D FCC/Analista Bacen/2006 - O histograma de frequências absolutas a seguir foi elaborado com base nas informações contidas na revista “O Empreiteiro”, de junho de 2005, que demonstra o comportamento das empresas construtoras do ramo da construção civil no Brasil que obtiveram faturamento em 2004 maior ou igual a 15 milhões de reais e menor ou igual a 120 milhões de reais 17. Com base nestas informações, obteve-se a média aritmética do faturamento das empresas deste estudo, considerando que todos os valores incluídos num certo intervalo de classe são coincidentes com o ponto médio deste intervalo. Com relação ao total de empresas deste histograma, o valor encontrado para esta média pertence ao intervalo de classe que contém a) 24% das empresas. b) 16% das empresas. c) 9% das empresas. d) 7% das empresas. e) 5% das empresas. Bem, vamos transformar este histograma em tabela? Prof. André L. Santos Classes Frequencia Absoluta 15 - 30 31 30 - 45 24 45 - 60 16 60 - 75 9 www.passeicursos.com.br 57 ESTATÍSTICA PARA ANALISTA DO TESOURO 75 - 90 5 90 - 105 7 105 - 120 8 Aula 0 O exercício diz que “todos os valores incluídos num certo intervalo de classe são coincidentes com o ponto médio deste intervalo”. Portanto vamos considerar os pontos médios para as classes Classes Pontos Medios Frequencia Absoluta 15 - 30 22,5 31 30 - 45 37,5 24 45 - 60 52,5 16 60 - 75 67,5 9 75 - 90 82,5 5 90 - 105 97,5 7 105 - 120 112,5 8 Agora há dois métodos para resolver. O simples e brutal, útil se você tiver uma planilha Excel, que é o que é mostrado abaixo... mas, haja conta! Você perderá minutos preciosos na prova! Classes Pontos Medios Frequencia Absoluta x.f 15 - 30 22,5 31 697,5 30 - 45 37,5 24 900 45 - 60 52,5 16 840 60 - 75 67,5 9 607,5 75 - 90 82,5 5 412,5 90 - 105 97,5 7 682,5 105 120 112,5 8 900 100 5040 f xf ̅=xf/f 𝒙 50,4 ∑ E o método esperto e sem muita conta, que é útil numa prova de concurso. Este método consiste em atribuir índices aos pontos médios, já que os intervalos são naturalmente espaçados de 15 em 15. (Veremos mais sobre escore z nas aulas 3 e 4) Prof. André L. Santos www.passeicursos.com.br 58 ESTATÍSTICA PARA ANALISTA DO TESOURO Pontos Médios ìndice Z 22,5 -3 37,5 -2 52,5 -1 67,5 0 82,5 1 97,5 2 112,5 3 Aula 0 Ou seja, quando x=67,5; z=0. Quando x=52,5; z=-1. E por simetria, quando x=82,5, z=1 Na verdade, nosso histograma ficaria assim, o que é essencialmente o mesmo: 35 30 25 20 15 10 5 0 -3 -2 -1 0 1 2 3 A diferença é que usamos o índice z. E como é o índice z? z=(x-62,5)/15 onde 62,5 é o ponto escolhido para 0 e 15 a amplitude das classes Com o índice z fica facílimo fazer as contas na prova! Veja: Prof. André L. Santos Pontos Médios Índice Z Frequencia Absoluta z.f 22,5 -3 31 -93 37,5 -2 24 -48 52,5 -1 16 -16 67,5 0 9 0 82,5 1 5 5 97,5 2 7 14 112,5 3 8 24 www.passeicursos.com.br 59 ESTATÍSTICA PARA ANALISTA DO TESOURO 100 -114 f zf 𝒛̅=zf/f -1,14 Aula 0 Opa, opa, opa, você deve estar dizendo. No método simples e brutal deu 50,4 e no índice z deu -1,14??? Claro, a média está expressa em índice z. Vamos desconverter de volta para x 𝑧̅=(𝑥̅ -62,5)/15 -1,14 = (𝑥̅ -62,5)/15 𝑥̅ =-1,14*15+62,5 𝑥̅ =50,4 Ohhhh... E onde está este 50,4 no Histograma? A classe da média tem 16 empresas num universo de 100 (que é f). Então 16/100=16%, nossa resposta. GABARITO: B FCC/ Analista Bacen/2006 - Em uma instituição bancária, o salário médio dos 100 empregados do sexo masculino é de R$ 1.500,00, com desvio padrão de R$ 100,00. O salário médio dos 150 empregados do sexo feminino é de R$ 1.000,00, com desvio padrão de R$ 200,00. A variância em (R$)2 dos dois grupos reunidos é de: 18. a) 25.600,00 b) 28.000,00 c) 50.000,00 Prof. André L. Santos www.passeicursos.com.br 60 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 d) 62.500,00 e) 88.000,00 Exercício de variância combinada 2 (𝐴 + 𝐵) = (∑ 𝐴 + ∑ 𝐵)2 1 {(∑ 𝐴2 + ∑ 𝐵 2 ) − } 𝑛𝐴 + 𝑛𝑏 𝑛𝑎 + 𝑛𝑏 O grande segredo aí é tentar obter as somatórias do enunciado 𝑥̅ℎ =1500; 𝑁ℎ =100 ∑𝐻 ⁄𝑁 ℎ Ora, 𝑥̅ℎ = 1500 = ∑ 𝐻⁄ 100 ∑ 𝐻 = 150.000 De maneira análoga com as mulheres: 𝑥̅𝑚 =1000; 𝑁𝑚 =150 portanto ∑ 𝑀 = 150.000 Mas não temos as somatórias ao quadrado ainda. Porém temos as variâncias individuais pelos desvios-padrão: 𝜎ℎ = 100 portanto 𝜎ℎ2 = 10000 2 𝜎𝑚 = 200 portanto 𝜎𝑚 = 40000 Agora usamos a seguinte equação da variância: 𝑁1 (∑ 𝑥2 − (∑𝑁𝑥) 𝜎ℎ 10000 = 10000 = 1 100 (∑ 𝐻 1 100 2 − (∑ 𝐻) 100 2 2 ) 1 (150000) )100 (∑ 𝐻2 − 100 2 ) 2 2 (∑ 𝐻 − (150000) 100 ) ∑ 𝐻 2 = 226.000.000 De maneira análoga para as mulheres Prof. André L. Santos www.passeicursos.com.br 61 ESTATÍSTICA PARA ANALISTA DO TESOURO 𝜎𝑚 40000 = 40000 = 1 150 (∑ 𝑀2 − 1 150 (∑ 𝑀) 150 2 1 (150000) )150 (∑ 𝐻2 − 100 Aula 0 2 ) 2 (∑ 𝑀2 − (150000) 100 ) ∑ 𝑀2 = 156.000.000 Agora juntamos todos estes números na equação combinada e fazemos uma tremenda calculeira: 2 (𝐻 = (300.000)2 250 (∑ 𝐻 + ∑ 𝑀)2 1 2 2 + 𝑀) = {(∑ 𝐻 + ∑ 𝑀 ) − } 𝑛𝐻 + 𝑛𝑀 𝑛𝐻 + 𝑛𝑀 1 {(226.000.000 + 156.000.000) − 100+150 (150.000+150.000)2 100+150 1 }=250 {(382.000.000) − }= 88.000 GABARITO: E FCC – Analista Legislativo/Contador da Câmara dos Deputados 2007 – Numa pesquisa realizada com 300 famílias levantaram-se as seguintes informações. 19. Número de filhos Proporção das famílias 0 0,17 1 0,20 2 0,24 3 0,15 4 0,10 5 0,10 6 0,04 Com base nestas informações, a média e a mediana do número dos filhos são dadas, respectivamente, por: a) 2,27 e 3 b) 3 e 2 c) 2,27 e 2 d) 2,5 e 3,5 Prof. André L. Santos www.passeicursos.com.br 62 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 e) 2,5 e 3 Como estamos lidando com proporções, a média desta distribuição não será a média aritmética, mas a média ponderada (mais detalhes veremos na aula de Distribuição de Probabilidades) Média: 𝑥̅ = ∑ 𝑓.𝑥 ∑𝑓 = ∑𝑥 . 𝑃 (𝑥) Portanto vamos fazer uma nova tabela para calcular a média: Número de filhos x Proporção das famílias P(X) x . P(X) 0 0,17 0 1 0,20 0,2 2 0,24 0,48 3 0,15 0,45 4 0,10 0,4 5 0,10 0,5 6 0,04 0,24 Média= x P(x) 2,27 Metade da questão foi resolvida. Agora vamos calcular a mediana. Para calcular a mediana, o valor que divide a amostra/população ordenada crescentemente em 50%, vamos calcular a frequência acumulada: Número de filhos x Proporção das famílias P(X) P acumulada (X) 0 0,17 0,17 1 0,20 0,37 2 0,24 0,61 3 0,15 0,76 4 0,10 0,86 5 0,10 0,96 6 0,04 1,00 Prof. André L. Santos www.passeicursos.com.br 63 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Ora, o valor de 50% só é alcançado em 2. Como estamos lidando com uma tabela de frequência e números discretos, não podemos interpolar. Sendo assim, por aproximação, a mediana é dois, 2. GABARITO: C CESPE/ Analista Superior Tribunal Militar - STM/2010 - A partir do histograma mostrado na figura abaixo, é correto inferir que a distribuição da variável X é simétrica. 20. Se a distribuição fosse simétrica, “um lado” é igual ao outro. Simples assim. Ponto médio Se fosse simétrico seria assim GABARITO: ERRADA Para as duas questões a seguir, considere o seguinte conjunto de dados composto por cinco elementos: {82,93; 94,54; 98,40; 115,41; Prof. André L. Santos www.passeicursos.com.br 64 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 123,07}. Com base nesses dados, julgue os próximos dois itens subsequentes (3 – 4) acerca das medidas de tendência central. CESPE / Analista Superior Tribunal Militar / 2010 - A média do conjunto de dados em questão é 102,87 e a mediana é 98,40. Se o valor 123,07 for alterado para 200, a média irá aumentar, mas a mediana continuará sendo 98,40. 21. Ou seja, de: 82,93 94,54 98,40 115,41 123,07 Como já está ordenado, é fácil perceber que 98,40 é a mediana. Aliás o exercício até já fala Vira: 82,93 94,54 98,40 115,41 200,00 A média de fato muda, mas a mediana não sofre a influência de pontos extremos. A mediana continua 98,40. Questão correta GABARITO: CERTA CESPE / Analista Superior Tribunal Militar / 2010 - Se o valor de um dos elementos do conjunto não for fornecido, esse valor pode ser determinado se a média do conjunto for conhecida, mas não será possível obter esse valor conhecendo-se apenas a mediana. 22. E então? Questão deveras interessante. Vamos tirar um elemento do conjunto e chamar de incógnita Y 82,93 94,54 98,40 y 123,07 com 𝑥̅ =102,87 Ora, vamos aplicar a fórmula da média 𝑥̅ = ∑𝑥 𝑛 (82,93+94,54+98,40+y+123,07)/5=102,87 Uma equação e uma incógnita. Podemos resolvê-la: 398,94+y=514,35 y = 115,41 Portanto pudemos chegar ao elemento faltante tendo a média. E no caso da mediana? 82,93 94,54 98,40 y 123,07 com 𝑥̇ =102,87 Vamos raciocinar indutivamente imaginando um y entre 98,40 e 123,07. Se y=99 Prof. André L. Santos www.passeicursos.com.br 65 ESTATÍSTICA PARA ANALISTA DO TESOURO 82,93 94,54 98,40 99 123,07 com 𝑥̇ =102,87 Aula 0 OK Se y=102 82,93 94,54 98,40 102 123,07 com 𝑥̇ =102,87 OK Então eis o ponto! A mediana não envolve fórmula, e sim posição do elemento! Qualquer y tal que 98,40<y<123,07 faz uma mediana de 102,87. Portanto de fato não é possível determinar o elemento faltante se a mediana for dada. GABARITO: CERTA COPS/ICMS-PR/2013 - Os preços, em reais, de uma máquina de lavar roupas e de um ferro de passar roupas de marcas e modelos idênticos variam em sete lojas, conforme mostra a tabela a seguir. 23. Em relação aos preços desses produtos, assinale a alternativa correta.– a) A mediana dos preços da máquina de lavar roupas é R$ 787,14. b) A variabilidade dos preços é igual para os dois produtos. c) A variabilidade dos preços da máquina de lavar roupas é maior do que a variabilidade dos preços do ferro de passar roupas. d) A variabilidade dos preços da máquina de lavar roupas é menor do que a variabilidade dos preços do ferro de passar roupas. e) O escore padronizado, z, do maior preço do ferro de passar roupas é 0,208 e isso indica que o preço é excepcionalmente alto em relação aos preços das demais lojas. Vamos alternativa por alternativa: a) A mediana dos preços da máquina de lavar roupas é R$ 787,14. ERRADA Basta ordenar os preços e tirar a mediana. Como há sete preços, a mediana será o quarto preço. Prof. André L. Santos www.passeicursos.com.br 66 ESTATÍSTICA PARA ANALISTA DO TESOURO Posição Preço 1 750,00 2 760,00 3 780,00 4 - MEDIANA 790,00 5 800,00 6 810,00 7 8200,00 Aula 0 b) A variabilidade dos preços é igual para os dois produtos. - ERRADA c) A variabilidade dos preços da máquina de lavar roupas é maior do que a variabilidade dos preços do ferro de passar roupas. . - ERRADA d) A variabilidade dos preços da máquina de lavar roupas é menor do que a variabilidade dos preços do ferro de passar roupas. - CERTA Particularmente detestei estas alternativas e são dignas de recurso. A banca chamou de variabilidade o coeficiente de variação que é dispersão relativa. Mas o desvio-padrão mede a dispersão absoluta e desvio-padrão para o ferro é menor que da máquina de lavar roupa. Se fosse por uma medida de dispersão absoluta, ie, o desvio, a resposta correta seria a letra C. Quem foi por esta interpretação errou sonoramente. Injusto. CV máquina = s máquina / 𝑥̅ máquina = 25,63 / 1841 = 0,013 CV ferro = s ferro / 𝑥̅ ferro = 4,81 / 1841 = 0,098 Portanto é a alternativa D, já que o CV máquina < CV ferro e) O escore padronizado, z, do maior preço do ferro de passar roupas é 0,208 e isso indica que o preço é excepcionalmente alto em relação aos preços das demais lojas. - ERRADA Blá, Blá, blá para enrolar o candidato. Veremos escore padronizado na aula de distribuição normal. E daí que haja um preço excepcionalmente alto em relação às outras lojas? Estatisticamente esta afirmação não tem significado. Se se dissesse que é um “outlier” aí teria um certo significado estatístico. GABARITO: D Prof. André L. Santos www.passeicursos.com.br 67 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 FGV/ICMS-AP/2011 - Os dados a seguir são as quantidades de empregados de cinco pequenas empresas: 6, 5, 8, 5, 6. A variância da quantidade de empregados dessas cinco empresas é igual a: 24. a) 0,8. b) 1,2. c) 1,6. d) 2,0. e) 2,4. Apesar de simples, aqui há um poço em que o aluno pode cair. Se ele usar a variância de amostras (não é o caso) ele dividira por n-1, não n. Vamos usar as duas fórmulas possíveis. Você concluirá sozinho qual é a melhor de se usar na prova. Fórmula clássica: 2= x (x-)2 6 0,16 5 1,96 8 2,56 5 1,96 8 2,56 x 32 n 5 6,4 (x-)2 ∑(𝑥−µ)2 𝑁 9,2 ∑(𝑥−µ)2 1,840=2 𝑁 2 Fórmula abreviada: 𝑁1 (∑ 𝑥2 − ( 𝑁𝑥) ) ∑ Prof. André L. Santos x x2 6 36 5 25 8 64 5 25 8 64 www.passeicursos.com.br 68 ESTATÍSTICA PARA ANALISTA DO TESOURO x x2 2 Aula 0 32 214 2 𝑁1 (∑ 𝑥2 − ( 𝑁𝑥) )15 (214 − 325 )(o desvio deve ser expresso no mesmo ∑ número dos dados) Veja que a tal “fórmula abreviada” é abreviada para calcular, não para se expressar. É melhor na prova ir pela fórmula abreviada. Vejam como as contas ficaram mais simples! Ai algum aluno me dirá no fórum: “PROFESSOOOOR, EU FIZ NO EXCEL PARA CONFERIR E NÃO DEU O MESMO VALOR. DEU 2,3 ” Porque você usou VAR() ou VARA() que calculam a variância amostral (divide por n-1). Neste caso é população, e tinha que ser a função VARP (). GABARITO: B FGV/ICMS-RJ/2011 - A respeito das técnicas de amostragem probabilística, NÃO é correto afirmar que 25. a) na amostragem por conglomerado a população é dividida em diferentes grupos, extraindo-se uma amostra apenas dos conglomerados selecionados. b) na amostragem estratificada, se a população pode ser dividida em subgrupos que consistem em indivíduos bastante semelhantes entre si, pode-se obter uma amostra aleatória em cada grupo. c) na amostragem aleatória simples se sorteia um elemento da população, sendo que todos os elementos têm a mesma probabilidade de serem selecionados. d) na amostragem por voluntários a população é selecionada de forma a estratificar aleatoriamente os grupos selecionados. e) na amostragem sistemática os elementos da população se apresentam ordenados, e a retirada dos elementos da amostra é feita periodicamente. a) na amostragem por conglomerado a população é dividida em diferentes grupos, extraindo-se uma amostra apenas dos conglomerados selecionados. – CORRETA. É a definição de amostragem por conglomerados. Uma amostragem por conglomerados é uma estratificada em que o espaço amostral é um dos conglomerados/estratos. Prof. André L. Santos www.passeicursos.com.br 69 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 b) na amostragem estratificada, se a população pode ser dividida em subgrupos que consistem em indivíduos bastante semelhantes entre si, pode-se obter uma amostra aleatória em cada grupo. – CORRETA Uma amostragem estratificada é uma amostragem que a população é subdividida em no mínimo duas subpopulações que compartilham das mesmas características e em seguida se extrai uma amostra aleatória de cada extrato. Por exemplo, os computadores da Receita Federal separam as declarações de renda de pessoas físicas em faixas de renda e sorteiam algumas de cada faixa para escrutínios dos fiscais. c) na amostragem aleatória simples se sorteia um elemento da população, sendo que todos os elementos têm a mesma probabilidade de serem selecionados. – CORRETA. Nem há muito que comentar. Se um elemento tivesse mais chance não seria aleatória. d) “na amostragem por voluntários a população é selecionada de forma a estratificar aleatoriamente os grupos selecionados” – ERRADA. Ora, se são “voluntários” houve vontade e arbítrio de se “voluntariar”, então não pode ser aleatório. Façamos um exemplo, suponha que algum instituto de pesquisa eleitoral deseje fazer uma pesquisa eleitoral baseada em voluntários. Ora, ela nunca seria válida nem representativa, porque os partidários de algum candidato poderiam acorrer em massa para se voluntariar e os resultados seriam favoráveis para seu candidato. e) “na amostragem sistemática os elementos da população se apresentam ordenados, e a retirada dos elementos da amostra é feita periodicamente”. CORRETA. É uma paráfrase de nossa definição: Uma amostragem sistemática escolhemos um ponto de partida e selecionamos um elemento a cada determinada distância ou frequência. Exemplo, uma tecelagem extrai uma amostra para análise de fio a cada 10000m de fio produzido. GABARITO: D Prof. André L. Santos www.passeicursos.com.br 70 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 CESPE/Tecnologista Jr/ 2010 - Dado é definido como um valor quantitativo referente a um fato ou circunstância, número bruto que não sofreu qualquer espécie de tratamento estatístico ou a matériaprima da produção de informação. 26. Um dado é uma unidade básica de informação, normalmente o resultado da experiência ou observação. Se o dado vem da experiência ou observação, ele não sofreu tratamento de fato GABARITO: CERTO CESPE/Tecnologista Jr/ 201 - Entende-se como informação o conhecimento obtido a partir dos dados, o dado trabalhado ou o resultado da análise e combinação de vários dados, sem haver, no entanto, nenhuma interferência por parte do analista. 27. Uma informação é o conhecimento obtido pela comparação de diversos dados Em um experimento aplica-se determinado tratamento e passa-se a observar seus efeitos a serem pesquisados. Pode haver sim interferência, Experimentos geram informação. como no caso de experimentos. GABARITO:ERRADA CETRO/ISS-SP/2014 - Foram obtidos os seguintes dados para a idade dos filhos de uma amostra aleatória de 50 pessoas: 28. 4, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 12, 12, 13, 13, 14, 15, 15, 15, 16, 16, 18, 23 Dessa amostra, conclui-se que a distribuição: Prof. André L. Santos www.passeicursos.com.br 71 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 a) tem assimetria negativa. b) indica subpopulações com assimetria negativa. c) é simétrica. d) tem assimetria positiva. e) é parte assimétrica positiva e parte simétrica. Vamos já descartar a alternativa E. Se é “A”-simétrico não pode ser simétrico, é um paradoxo. Bem, você pode desenhar um histogramazinho na sua prova (logicamente não precisa ser tão bonito e caprichoso quanto este feito por software): Histogram of Questão Cetro 2014 16 14 Frequency 12 10 8 6 4 2 0 4 8 12 16 Questão Cetro 2014 20 Ou fazer uma tabela. Na prática você fará a tabela antes do histograma. Valores Frequencia 4 1 5 2 6 4 7 6 8 9 10 8 11 2 12 2 13 2 14 1 15 3 16 2 18 1 Prof. André L. Santos www.passeicursos.com.br 72 ESTATÍSTICA PARA ANALISTA DO TESOURO 23 Aula 0 1 Parece simétrico? Não, né? Simétrico tem os dois lados iguais. Elimina-se a alternativa C Histogram of Simetrico 6 Frequency 5 4 3 2 1 0 4 5 6 Simetrico 7 8 Finalmente há que se verificar se a distribuição é assimétrica à direta, ou positiva, ou à esquerda, ou negativa. Você poderia calcular moda, a média e a mediana para concluir. Mas isso dá muito trabalho. Ora, é só verificar no seu histograma para onde a cauda da distribuição se estende. Dá para ver que ela se estende para a direita, ou seja, é positiva. Nisso já se acerta a alternativa D e se descaram as A e B Histogram of Questão Cetro 2014 16 14 Frequency 12 10 8 6 4 2 0 4 Prof. André L. Santos 8 12 16 Questão Cetro 2014 www.passeicursos.com.br 20 73 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Nesta questão o que dá trabalho é fazer um histograma na prova, mas, uma vez feito, a resposta é evidente. Na prova, apesar do tempo, certos esforços valem a pena pela segurança e rapidez da resposta. GABARITO: D CETRO – Ministério das Cidades – Estatístico/ 2013 - Tomada uma amostra de medidas de comprimento de um tipo de inseto, obtiveram-se os resultados abaixo, em três medições: 2,21cm; 2,23cm; 2,26cm. Com base nesses dados, é correto afirmar que a variância populacional da amostra é: 29. a) 0,0015. b) 0,00065. c) 0,0011. d) 0,0009. e) 0,0007. Variância de Populações Fórmula clássica Fórmula abreviada - Usa a média - - Usa os quadrados - σ2 = ∑(𝑥 − µ)2 𝑁 ∑(𝑥−𝑥̅ )2 Variância de Amostras s2= 𝑛−1 1 2=𝑁 (∑ 𝑥 2 − (∑ 𝑥)2 𝑁 ) n(∑ x2 )−(∑ x)2 s2= 𝑛(𝑛−1) Vamos lá. O enunciado pediu a variância populacional, atento para usar a fórmula certa! Como são apenas 3 elementos, preferi usar a fórmula clássica. Você pode usar a fórmula abreviada ∑(𝑥 − µ)2 σ = 𝑁 Mas primeiro se calcula a média 2 = ∑𝑥 𝑁 = 2,21+2,23+2,26 3 Prof. André L. Santos = 6,7 3 = 2,23333 … = 2,23 www.passeicursos.com.br 74 ESTATÍSTICA PARA ANALISTA DO TESOURO σ2 = Aula 0 ∑(𝑥 − µ)2 (2,21 − 2,23)2 + (2,23 − 2,23)2 + (2,26 − 2,23)2 = 𝑁 3 (−0,02)2 + (0)2 + (0,03)2 0,0004 + 0,0009 0,0013 = = = = 0,00065 3 3 3 Você pode usar a fórmula abreviada e se poupar de calcular a média também: 1 2=𝑁 (∑ 𝑥 2 − (∑ 𝑥)2 𝑁 1 ) = 3 ((2,21)2 + (2,23)2 + (2,26)2 − (2,21+2,23+2,26)2 3 ) = 0,00065 Neste exercício em específico é melhor usar a fórmula clássica e se poupar de calcular os quadrados que a mão são complicados. Em outros casos a fórmula abreviada é melhor. Você ganhará experiência para decidir qual fórmula usar apenas fazendo exercícios. GABARITO: B CETRO – Ministério das Cidades – Estatístico/ 2013 - Dada a sequência de números: 71; 24; 36; 10; 12; 41; 52, o número que define o 3º quartil é: 30. a) 12 b) 24 c) 36 d) 41 e) 52 Basta ordenar os números e checar o que divide em (3:1)=(75%:25%) a distribuição: 75% 25% Terceiro Quartil 10 12 24 36 41 52 71 O terceiro quartil, o 75/100 número estaria entre 41 e 52, que deixa “5 pra lá e 2 pra cá”, um hipotético número que dividisse “6 pra lá e 2 pra cá” seria maior que 41 e menor que 52. Porém esta é uma distribuição discreta e questão não aceita quebrados. A banca arredondou a menor, para 41. Mas se usarmos softwares estatísticos, eles optam pelo 52. Mesmo a função Prof. André L. Santos www.passeicursos.com.br 75 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 QUARTIL.EXC do Excel programada para o 3º quartil. Penso que caberia recurso. GABARITO: D FUNCAB/ Estatístico pref Serra-ES/2011 - A seguir estão os valores das médias salariais anuais, em salários mínimos, correspondendo a um período de 25 anos, para uma amostra de funcionários aposentados de uma prefeitura. 31. 12, 11, 19, 16, 22, 20, 14, 17, 14, 15, 21, 21, 16, 9, 15, 8, 13, 16, 17, 15, 26, 9, 20, 16, 18. A mediana deste conjunto de números é: a) igual à moda. b) desconhecida. c) um número primo. d) maior que a média. e) igual a 15. Temos que ordenar os dados para chegar à mediana 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Posição 1 2 3 Elemento 8 9 9 11 12 13 14 14 15 15 15 16 16 16 16 17 17 18 19 20 20 21 21 22 26 a) A mediana é 16. E é o elemento com maior ocorrência, 4, portanto é a moda. A mediana é igual à moda. - CERTA b) Não há como a mediana ser desconhecida se os elementos são conhecidos. - ERRADA c) 16 não é número primo, pois é divisível por 2,4 e 8. - ERRADA d) A média é 16 que é igual à mediana e a moda, portanto não há como sr maior. - ERRADA e) A mediana é igual a 16, não 15. - ERRADA GABARITO: A FUNCAB/ Estatístico pref Serra-ES/2011 - Para os três conjuntos de números a seguir, assinale a opção FALSA. 32. Prof. André L. Santos www.passeicursos.com.br 76 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 X - 70, 70, 70, 70, 70 Y - 68, 69, 70, 71, 72 Z - 5, 15, 50, 120, 160 a) As médias dos três conjuntos são iguais. b) As medianas são números pares. c) As variâncias são desiguais. d) Os conjuntos são unimodais. e) As amplitudes são menores que 157. a) “As médias dos três conjuntos são iguais”. – Fazendo as contas, as médias são 70 mesmo - CERTA b) “As medianas são números pares” – As medianas são 70,70 e 50- CERTA c) “As variâncias são desiguais” – Nem perca tempo em fazer as contas, a variância de Z é zero, e as de Y e Z nunca podem ser zero – CERTA d) “Os conjuntos são unimodais” – X é unimodal, mas Y e Z não têm moda, porque todos os elementos tem o mesmo número de frequência. - ERRADA e) “As amplitudes são menores que 157” – A amplitude de X é zero, a de Y é 4 e a de Z é 155 - CERTA GABARITO: D FUNCAB/ Estatístico pref Serra-ES/2011 - Após verificar que as notas obtidas em sua última prova haviam sido muito baixas, um professor do ginásio municipal resolveu desconsiderar cada questão que não houvesse sido respondida corretamente por algum dos alunos. Isto feito, ele percebeu que as notas foram todas aumentadas de 3 (três) pontos. Pode-se afirmar que: 33. a) a média aritmética e a mediana das notas se alteraram. b) somente a média aritmética das notas se alterou. c) somente a mediana das notas se alterou. d) nem a média, nem a mediana das notas se alteraram. e) o efeito sobre as notas depende Propriedades da média Multiplicando-se todos os valores de uma variável por uma constante, a Prof. André L. Santos www.passeicursos.com.br 77 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 média do conjunto fica multiplicada por esta constante Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a média do conjunto fica acrescida ou diminuída dessa constante Ou seja, a média aumentou em 3 pontos. E a mediana? É tentador responder que a mediana não se alterou, mas lembro que em números absolutos, sendo a mediana um elemento do conjunto na posição 50%-ésimo, como todos os membros do conjunto de notas aumentou, a mediana aumentou também em 3 pontos. GABARITO: A Prof. André L. Santos www.passeicursos.com.br 78 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 ENUNCIADO DE EXERCÍCIOS AGORA FAÇA VOCÊ 11. ENUNCIADOS DE EXERCÍCIOS 1. ESAF/Analista STN/ 2013 - Suponha que X seja uma variável aleatória com valor esperado 10 e variância 25. Para que a variável Y dada por Y = p - q x, com p e q positivos, tenha valor esperado 0 e variância 625, é necessário que p + q seja igual a: a) 50 b) 250 c) 55 d) 100 e) 350 2. ESAF/Receita Federal/2014 - A variância da amostra formada pelos valores 2, 3, 1, 4, 5 e 3 é igual a a) 3. b) 2. c) 1. d) 4. e) 5. 3. ESAF/Receita Federal/2005 Para dados agrupados representados por uma curva de frequências, as diferenças entre os valores da média, da mediana e da moda são indicadores da assimetria da curva. Indique a relação entre essas medidas de posição para uma distribuição negativamente assimétrica. a) A média apresenta o maior valor e a mediana se encontra abaixo da moda. b) A moda apresenta o maior valor e a média se encontra abaixo da mediana. c) A média apresenta o menor valor e a mediana se encontra abaixo da moda. d) A média, a mediana e a moda são coincidentes em valor. e) A moda apresenta o menor valor e a mediana se encontra abaixo da média. Prof. André L. Santos www.passeicursos.com.br 79 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 4. ESAF/ Receita Federal/2005 - Em uma determinada semana uma empresa recebeu as seguintes quantidades de pedidos para os produtos A e B: Produto A Produto B 39 33 50 52 25 47 30 49 41 54 36 40 37 43 Assinale a opção que apresente os coeficientes de variação dos dois produtos: a) CVA = 15,1% e CVB = 12,3% b) CVA = 16,1% e CVB = 10,3% c) CVA = 16,1% e CVB = 12,3% d) CVA = 15,1% e CVB = 10,3% e) CVA = 16,1% e CVB = 15,1% 5. ESAF / ISS Recife / 2003 - Em uma amostra, realizada para se obter informação sobre a distribuição salarial de homens e mulheres, encontrou-se que o salário médio vale R$ 1.200,00. O salário médio observado para os homens foi de R$ 1.300,00 e para as mulheres foi de R$ 1.100,00. Assinale a opção correta. a) O número de homens na amostra é igual ao de mulheres. b) O número de homens na amostra é o dobro do de mulheres. c) O número de homens na amostra é o triplo do de mulheres. d) O número de mulheres é o dobro do número de homens. e) O número de mulheres é o quádruplo do número de homens. 6. FCC/ICMS-RJ/2014 - O Departamento de Pessoal de certo órgão público fez um levantamento dos salários, em número de salários mínimos (SM), dos seus 400 funcionários, obtendo os seguintes resultados: Sabe-se que a mediana dos salários desses funcionários calculada por meio dessa tabela pelo método da interpolação linear é igual a 8,8 SM. Nessas condições, o salário médio desses 400 funcionários, em número de salários mínimos, considerando que todos Prof. André L. Santos www.passeicursos.com.br 80 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 os valores incluídos em um intervalo de classe são coincidentes com o ponto médio do intervalo, é igual a a) 8,54 b) 8,83 c) 8,62 d) 8,93 e) 8,72 7. FCC/ICMS-RO/2010 - Em uma cidade é realizado um levantamento referente aos valores recolhidos de determinado tributo estadual no período de um mês. Analisando os documentos de arrecadação, detectou-se 6 níveis de valores conforme consta no eixo horizontal do gráfico abaixo, em que as colunas representam as quantidades de recolhimentos correspondentes. Com relação às medidas de posição deste levantamento tem-se que o valor da a) média aritmética é igual a metade da soma da mediana e a moda. b) média aritmética é igual ao valor da mediana. c) média aritmética supera o valor da moda em R$ 125,00. d) moda supera o valor da mediana em R$ 500,00. e) mediana supera o valor da média aritmética em R$ 25,00. 8. FCC/ICMS-SP/2013 - Considere: I. O coeficiente de variação de uma variável é uma medida de dispersão absoluta que é o resultado da divisão entre a média e o desvio padrão da variável em questão. Prof. André L. Santos www.passeicursos.com.br 81 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 II. Um dispositivo útil quando se deseja verificar se existe correlação linear entre duas variáveis é o gráfico de colunas justapostas. III. O desvio padrão é mais apropriado do que o coeficiente de variação quando se deseja comparar a variabilidade de duas variáveis. IV. Na amostragem aleatória estratificada, a população é dividida em estratos, usualmente, de acordo com os valores ou categorias de uma variável, e, depois, uma amostragem aleatória simples é utilizada na seleção de uma amostra de cada estrato. Está correto o que se afirma APENAS em a) I. b) II. c) III. d) I e IV. e) IV. 9. FCC/ISS-SP/2007 - No presente mês, o salário médio mensal pago a todos os funcionários de uma firma foi de R$ 530,00. Sabe-se que os salários médios mensais dos homens e mulheres são respectivamente iguais a R$ 600,00 e R$ 500,00. No próximo mês, todos os homens receberão um adicional de R$ 20,00 e todas as mulheres um reajuste salarial de 10%, sobre os salários atuais. Supondo que o quadro de funcionários não se alterou, após esses reajustes o salário médio mensal de todos os funcionários passará a ser igual a: a) R$ 540,00 b) R$ 562,00 c) R$ 571,00 d) R$ 578,00 e) R$ 580,00 10. FCC/ISS-SP/2012 - Considere as seguintes afirmações: I. Um dispositivo útil quando se quer verificar a associação entre duas variáveis quantitativas é o gráfico de dispersão entre essas duas variáveis. Prof. André L. Santos www.passeicursos.com.br 82 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 II. O coeficiente de variação é uma medida de dispersão relativa que depende da unidade de medida da variável que está sendo analisada. III. Dentre as medidas de posição central, a média é considerada uma medida robusta pelo fato de não ser afetada por valores aberrantes. IV. Se o coeficiente de correlação linear de Pearson entre duas variáveis for igual a zero, não haverá associação linear entre elas, implicando a ausência de qualquer outro tipo de associação. Está correto o que se afirma APENAS em a) II e III. b) I e II. c) I e III. d) II e IV. e) I. 11. FCC/ICMS-RO/2010 - A média aritmética de todos os salários dos funcionários em uma repartição pública é igual a R$ 1.600,00. Os salários dos funcionários do sexo masculino apresentam um desvio padrão de R$ 90,00 com um coeficiente de variação igual a 5%. Os salários dos funcionários do sexo feminino apresentam um desvio padrão de R$ 60,00 com um coeficiente de variação igual a 4%. Escolhendo aleatoriamente um funcionário desta repartição, a probabilidade dele ser do sexo feminino é igual a a) 1/2 b) 1/3 c) 3/4 d) 3/5 e) 2/3 12. FCC/ICMS-BA/2004 - O gráfico abaixo é o histograma de frequências absolutas de uma amostra de valores arrecadados de determinado tributo em um município. Prof. André L. Santos www.passeicursos.com.br 83 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Com relação aos dados dessa amostra, é verdade que a) 60% dos valores são maiores ou iguais a R$ 1 500,00 menores que R$ 3 000,00. b) mais de 30% dos valores são maiores ou iguais a R$ 2 500,00 menores que R$ 3 500,00. c) a porcentagem dos valores iguais ou superiores a R$ 3 500,00 maior que a porcentagem dos valores inferiores a R$ 1 500,00. d) a frequência relativa de valores inferiores a R$ 1 500,00 menos que 10%. e) a amplitude da amostra é igual a R$ 4 000,00. e e é é 13. FCC/Analista FHEMIG/2013 - Na análise descritiva de um conjunto de dados, a) a média corresponde sempre ao valor que divide os dados ordenados ao meio. b) o desvio padrão representa uma medida de tendência central. c) se existem valores diferentes uns dos outros em um conjunto de dados, sempre teremos valores abaixo e acima da média. d) a mediana é sempre diferente da média. e) o desvio padrão corresponde ao quadrado da variância. 14. FCC/Analista FHEMIG/2013 - A respeito do boxplot é correto afirmar: a) Medidas descritivas como a mediana e o intervalo interquartil são utilizadas para se obter o gráfico, entre outros elementos. b) Entre os percentis 25% e 50% há metade dos valores do conjunto de dados representado. c) O intervalo interquartil é construído a partir do 1o e 2o quartis. d) É usual se considerar um valor aberrante àquele que exceda 2 intervalos interquartis, para cima ou para baixo dos limites da caixa definida pelo intervalo interquartil. e) Não se permite a visualização da variabilidade dos dados Prof. André L. Santos www.passeicursos.com.br 84 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 15. FCC/Analista Legislativo/Contador da Câmara dos Deputados/2007 - Se a média e a variância da variável aleatória X são 12 e 80 respectivamente, então a média e a variância da variável aleatória Y = X/4 + 1 são dadas respectivamente por a) 4 e 20 b) 4 e 5 c) 3 e 20 d) 4 e 21 e) 3 e 5 16. FCC/Analista Legislativo & Contador da Câmara dos Deputados/2007 - Para se estudar o desempenho das corretoras de ações A e B, selecionou-se de cada uma delas amostras aleatórias das ações negociadas. Para cada ação selecionada computou-se a porcentagem de lucro apresentada durante o período de um ano. Os gráficos a seguir apresentam os desenhos esquemáticos relativos à porcentagem de lucro das amostras de A e B durante o período citado. Relativamente à porcentagem corretoras pode-se afirmar que de lucro obtida por essas a) exatamente 25% dos valores de A são inferiores a 55. b) menos de 50% dos valores de B são superiores a 55. Prof. André L. Santos www.passeicursos.com.br 85 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 c) o maior valor de A é 60. d) os valores de A apresentam maior variabilidade que os de B. e) os valores de B apresentam assimetria positiva. 17. FCC/Analista Bacen/2006 - O histograma de frequências absolutas a seguir foi elaborado com base nas informações contidas na revista “O Empreiteiro”, de junho de 2005, que demonstra o comportamento das empresas construtoras do ramo da construção civil no Brasil que obtiveram faturamento em 2004 maior ou igual a 15 milhões de reais e menor ou igual a 120 milhões de reais Com base nestas informações, obteve-se a média aritmética do faturamento das empresas deste estudo, considerando que todos os valores incluídos num certo intervalo de classe são coincidentes com o ponto médio deste intervalo. Com relação ao total de empresas deste histograma, o valor encontrado para esta média pertence ao intervalo de classe que contém a) 24% das empresas. b) 16% das empresas. c) 9% das empresas. d) 7% das empresas. e) 5% das empresas. 18. FCC/ Analista Bacen/2006 - Em uma instituição bancária, o salário médio dos 100 empregados do sexo masculino é de R$ 1.500,00, com desvio padrão de R$ 100,00. O salário médio dos 150 empregados do sexo feminino é de R$ 1.000,00, com desvio padrão de R$ 200,00. A variância em (R$)2 dos dois grupos reunidos é de: Prof. André L. Santos www.passeicursos.com.br 86 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 a) 25.600,00 b) 28.000,00 c) 50.000,00 d) 62.500,00 e) 88.000,00 19. FCC – Analista Legislativo/Contador da Câmara dos Deputados 2007 – Numa pesquisa realizada com 300 famílias levantaram-se as seguintes informações. Número de filhos Proporção das famílias 0 0,17 1 0,20 2 0,24 3 0,15 4 0,10 5 0,10 6 0,04 Com base nestas informações, a média e a mediana do número dos filhos são dadas, respectivamente, por: a) 2,27 e 3 b) 3 e 2 c) 2,27 e 2 d) 2,5 e 3,5 e) 2,5 e 3 20. CESPE/ Analista Superior Tribunal Militar - STM/2010 - A partir do histograma mostrado na figura abaixo, é correto inferir que a distribuição da variável X é simétrica. Prof. André L. Santos www.passeicursos.com.br 87 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Para as duas questões a seguir, considere o seguinte conjunto de dados composto por cinco elementos: {82,93; 94,54; 98,40; 115,41; 123,07}. Com base nesses dados, julgue os próximos dois itens subsequentes acerca das medidas de tendência central. 21. CESPE / Analista Superior Tribunal Militar / 2010 - A média do conjunto de dados em questão é 102,87 e a mediana é 98,40. Se o valor 123,07 for alterado para 200, a média irá aumentar, mas a mediana continuará sendo 98,40. 22. CESPE / Analista Superior Tribunal Militar / 2010 - Se o valor de um dos elementos do conjunto não for fornecido, esse valor pode ser determinado se a média do conjunto for conhecida, mas não será possível obter esse valor conhecendo-se apenas a mediana. 23. COPS/ICMS-PR/2013 - Os preços, em reais, de uma máquina de lavar roupas e de um ferro de passar roupas de marcas e modelos idênticos variam em sete lojas, conforme mostra a tabela a seguir. Em relação aos preços desses produtos, assinale a alternativa correta.– a) A mediana dos preços da máquina de lavar roupas é R$ 787,14. b) A variabilidade dos preços é igual para os dois produtos. Prof. André L. Santos www.passeicursos.com.br 88 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 c) A variabilidade dos preços da máquina de lavar roupas é maior do que a variabilidade dos preços do ferro de passar roupas. d) A variabilidade dos preços da máquina de lavar roupas é menor do que a variabilidade dos preços do ferro de passar roupas. e) O escore padronizado, z, do maior preço do ferro de passar roupas é 0,208 e isso indica que o preço é excepcionalmente alto em relação aos preços das demais lojas. 24. FGV/ICMS-AP/2011 - Os dados a seguir são as quantidades de empregados de cinco pequenas empresas: 6, 5, 8, 5, 6. A variância da quantidade de empregados dessas cinco empresas é igual a: a) 0,8. b) 1,2. c) 1,6. d) 2,0. e) 2,4. 25. FGV/ICMS-RJ/2011 A respeito das técnicas amostragem probabilística, NÃO é correto afirmar que de a) na amostragem por conglomerado a população é dividida em diferentes grupos, extraindo-se uma amostra apenas dos conglomerados selecionados. b) na amostragem estratificada, se a população pode ser dividida em subgrupos que consistem em indivíduos bastante semelhantes entre si, pode-se obter uma amostra aleatória em cada grupo. c) na amostragem aleatória simples se sorteia um elemento da população, sendo que todos os elementos têm a mesma probabilidade de serem selecionados. d) na amostragem por voluntários a população é selecionada de forma a estratificar aleatoriamente os grupos selecionados. e) na amostragem sistemática os elementos da população se apresentam ordenados, e a retirada dos elementos da amostra é feita periodicamente. 26. CESPE/Tecnologista Jr/ 2010 - Dado é definido como um valor quantitativo referente a um fato ou circunstância, número bruto Prof. André L. Santos www.passeicursos.com.br 89 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 que não sofreu qualquer espécie de tratamento estatístico ou a matéria-prima da produção de informação. 27. CESPE/Tecnologista Jr/ 201 - Entende-se como informação o conhecimento obtido a partir dos dados, o dado trabalhado ou o resultado da análise e combinação de vários dados, sem haver, no entanto, nenhuma interferência por parte do analista. 28. CETRO/ISS-SP/2014 - Foram obtidos os seguintes dados para a idade dos filhos de uma amostra aleatória de 50 pessoas: 4, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 12, 12, 13, 13, 14, 15, 15, 15, 16, 16, 18, 23 Dessa amostra, conclui-se que a distribuição: a) tem assimetria negativa. b) indica subpopulações com assimetria negativa. c) é simétrica. d) tem assimetria positiva. e) é parte assimétrica positiva e parte simétrica. 29. CETRO – Ministério das Cidades – Estatístico/ 2013 Tomada uma amostra de medidas de comprimento de um tipo de inseto, obtiveram-se os resultados abaixo, em três medições: 2,21cm; 2,23cm; 2,26cm. Com base nesses dados, é correto afirmar que a variância populacional da amostra é: a) 0,0015. b) 0,00065. c) 0,0011. d) 0,0009. e) 0,0007. 30. CETRO – Ministério das Cidades – Estatístico/ 2013 - Dada a sequência de números: 71; 24; 36; 10; 12; 41; 52, o número que define o 3º quartil é: a) 12 b) 24 Prof. André L. Santos www.passeicursos.com.br 90 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 c) 36 d) 41 e) 52 31. FUNCAB/ Estatístico pref Serra-ES/2011 - A seguir estão os valores das médias salariais anuais, em salários mínimos, correspondendo a um período de 25 anos, para uma amostra de funcionários aposentados de uma prefeitura. 12, 11, 19, 16, 22, 20, 14, 17, 14, 15, 21, 21, 16, 9, 15, 8, 13, 16, 17, 15, 26, 9, 20, 16, 18. A mediana deste conjunto de números é: a) igual à moda. b) desconhecida. c) um número primo. d) maior que a média. e) igual a 15. Temos que ordenar os dados para chegar à mediana 32. FUNCAB/ Estatístico pref Serra-ES/2011 - Para os três conjuntos de números a seguir, assinale a opção FALSA. X - 70, 70, 70, 70, 70 Y - 68, 69, 70, 71, 72 Z - 5, 15, 50, 120, 160 a) As médias dos três conjuntos são iguais. b) As medianas são números pares. c) As variâncias são desiguais. d) Os conjuntos são unimodais. e) As amplitudes são menores que 157. 33. FUNCAB/ Estatístico pref Serra-ES/2011 - Após verificar que as notas obtidas em sua última prova haviam sido muito baixas, um professor do ginásio municipal resolveu desconsiderar cada questão que não houvesse sido respondida corretamente por algum dos alunos. Isto feito, ele percebeu que as notas foram todas aumentadas de 3 (três) pontos. Pode-se afirmar que: Prof. André L. Santos www.passeicursos.com.br 91 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 a) a média aritmética e a mediana das notas se alteraram. b) somente a média aritmética das notas se alterou. c) somente a mediana das notas se alterou. d) nem a média, nem a mediana das notas se alteraram. e) o efeito sobre as notas depende Prof. André L. Santos www.passeicursos.com.br 92 ESTATÍSTICA PARA ANALISTA DO TESOURO 12. Aula 0 GABARITOS Questão Banca Cargo/Órgão Ano Resposta 1 ESAF Analista STN 2013 C 2 ESAF Receita 2014 B 3 ESAF Receita 2005 C 4 ESAF Receita 2005 B 5 ESAF ISS Recife 2003 A 6 FCC ICMS-RJ 2014 D 7 FCC ICMS-RO 2010 E 8 FCC ICMS-SP 2013 E 9 FCC ISS-SP 2007 C 10 FCC ISS-SP 2012 E 11 FCC ICMS-RO 2010 E 12 FCC ICMS-BA 2004 B 13 FCC Analista FHEMIG 2013 C 14 FCC Analista FHEMIG 2013 A 15 FCC Analista Câmara 2007 B 16 FCC Analista Câmara 2007 D 17 FCC Analista Bacen 2006 B 18 FCC Analista Bacen 2006 E 19 FCC Analista Câmara 2007 C 20 Cespe Analista Tribunal Militar 2010 Errada 21 Cespe Analista Tribunal Militar 2010 Certa 22 Cespe Analista Tribunal Militar 2010 Certa 23 COPS ICMS-PR 2013 D 24 FGV ICMS-AP 2011 B 25 FGV ICMS-RJ 2011 D 26 Cespe Tecnologista 2010 Certo 27 Cespe Tecnologista 2010 Errada Prof. André L. Santos www.passeicursos.com.br 93 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 28 CETRO ISS-SP 2014 D 29 CETRO Ministério das Cidades 2013 B 30 CETRO Ministério das Cidades 2013 D 31 FUNCAB Pref. Serra-ES 2011 A 32 FUNCAB Pref. Serra-ES 2011 D 33 FUNCAB Pref. Serra-ES 2011 A Prof. André L. Santos www.passeicursos.com.br 94 ESTATÍSTICA PARA ANALISTA DO TESOURO 13. Aula 0 FORMULÁRIO DESTA AULA ∑x Somatória de um conjunto de valores x Uma variável usada para representar valores individuais dos dados n Número de valores de uma amostra N Número de valores de uma população 𝑥̅ = ∑𝑥 = ∑𝑥 𝑥̅ = Média (aritmética) de um conjunto de valores de uma amostra 𝑛 Média (aritmética) de um conjunto de valores de uma população 𝑁 ∑ 𝑥. 𝑃(𝑥) ∑𝑥 Média (ponderada) de uma tabela de frequências Divide 50%/50% Mediana 𝑥̃ 𝑥̃ =50%_ésimo valor (Segundo Quartil) Divide 25%/75% Primeiro quartil 𝑄1 =25%_ésimo valor Divide 75%/25% Terceiro quartil 𝑄3 =75%_ésimo valor Dinter=Q3-Q1 Distância interquartílica Valor que ocorre com mais frequência moda 𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 = 𝑀á𝑥 − 𝑀í𝑛 amplitude 𝑃𝑜𝑛𝑡𝑜 𝑚é𝑑𝑖𝑜 = 𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒/2 Ponto médio S2= ∑(𝑥−𝑥̅ )2 𝑛−1 1 𝑁 n(∑ x2 )−(∑ x)2 = 𝑛(𝑛−1) ∑(𝑥−µ)2 𝑁 2 (∑ 𝑥 − ∑(𝑥−𝑥̅ )2 s=√𝑆 2 =√ 𝑛−1 Variância de um conjunto de valores de uma amostra Variância de um conjunto de valores de uma população 2 (∑ 𝑥) 𝑁 ) n(∑ x2 )−(∑ x)2 =√ Desvio-padrão de um conjunto de valores de uma amostra 𝑛(𝑛−1) √𝜎 2 = ∑(𝑥−µ)2 𝑁 1 √𝑁 (∑ 𝑥2 − 2 (∑ 𝑥) 𝑁 Prof. André L. Santos Desvio-padrão (sigma) de um conjunto de valores de uma população ) www.passeicursos.com.br 95 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Diferentes maneiras de calcular a variância Variância de Populações Variância de Amostras Fórmula clássica Fórmula abreviada - Usa a média - - Usa os quadrados - σ2 = ∑(𝑥 − µ)2 𝑁 ∑(𝑥−𝑥̅ )2 s2= 𝑛−1 1 2=𝑁 (∑ 𝑥 2 − (∑ 𝑥)2 𝑁 ) n(∑ x2 )−(∑ x)2 s2= 𝑛(𝑛−1) Assimetria Assimétrica a esquerda ou negativamente assimétrica Simétrica Assimétrica a direta ou positivamente assimétrica Mediana < Moda Moda = Média = Mediana Mediana > Moda Média < Moda Média > Moda Propriedades da média (aritmética) Multiplicando-se todos os valores de uma variável por uma constante, a média do conjunto fica multiplicada por esta constante Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a média do conjunto fica acrescida ou diminuída dessa constante Propriedades da Variância Multiplicando-se todos os valores de uma variável por uma constante, a variância do conjunto fica multiplicada pelo quadrado desta constante Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a variância não se altera. (Natural, porque a média se move, não a dispersão dos valores) 2 (𝐴 (∑ 𝐴 + ∑ 𝐵)2 1 2 2 + 𝐵) = {(∑ 𝐴 + ∑ 𝐵 ) − } 𝑁𝐴 + 𝑁𝑏 𝑁𝑎 + 𝑁𝑏 Equação da variância combinada Cuidado: 𝝈𝟐𝑨 + 𝝈𝟐𝑩 <> 𝝈𝟐𝑨+𝑩 Prof. André L. Santos www.passeicursos.com.br 96 ESTATÍSTICA PARA ANALISTA DO TESOURO 14. Aula 0 TIPOS DE GRÁFICOS VISTOS Histograma 100 Histograma de clientes 80 80 60 40 20 20 5 0 Padrão R$ 0 R$ PreferencialR$ Premium R$ Histograma de frequência acumulada Freq. Relativa Acumulada 1,00 0,80 0,60 0,40 0,20 0,00 Até R$ 100.000 Até R$ 200.000 Até R$ 300.000 Gráfico de Pareto Gráfico de Pareto: Lançamentos por bairros paulistanos 160 100 140 100 80 60 80 60 40 20 0 bi ão ros na zes nia da kl in pa ma ntã ga de her La oe uta iran S aú O t um olaç hei ar ia edi S ô Fun oo r o P ila r a M B Ip Br M ons Pin a M r V l C Ba Vi Lançamentos 18 15 14 14 13 13 12 11 11 11 9 6 4 7 Percent 11 9 9 9 8 8 8 7 7 7 6 4 3 4 Cum % 11 21 30 39 47 55 63 70 77 84 89 93 96 100 Bairros Gráfico de Pizza Prof. André L. Santos www.passeicursos.com.br % Lançamentos 120 40 20 0 97 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 Cores de automóveis vendidos Vermelha; 130; 7% Azul; 100; 5% Outras; 5; 0% Verde; 15; 1% Prata Marrom; 50; 2% Preta Branca; 200; 10% Branca Marrom Verde Azul Vermelha Outras Preta; 500; 25% Prata; 1000; 50% Dispersão XY Dispersão de A versus C 10 8 6 a Aparentemente há correlação 4 2 0 5 10 15 20 25 c Boxplot Exemplo de Boxplot 250 Os pontos avulsos são "Outliers" Valores extremos acima ou abaixo dos limites Limite superior = Q3 + 1.5 (Q3 - Q1) 200 150 Q3 100 50 0 Prof. André L. Santos Distância interquartílica mediana Q1 Limite inferior = Q1- 1.5 (Q3 - Q1) www.passeicursos.com.br 98 ESTATÍSTICA PARA ANALISTA DO TESOURO 15. Aula 0 RESUMÃO DE CONCEITOS Conceito Definição Ciência da Estatística Ramo da Matemática que se preocupa com a organização, descrição, análise e interpretação dos dados experimentais. População Uma coleção completa de todos os elementos a serem estudados Censo Uma coleção de dados relativos a todos os elementos de uma população Amostra Uma subcoleção de elementos extraídos de uma população Parâmetro Uma medida numérica que descreve uma característica de uma população estatística Medida numérica que descreve uma característica de uma amostra. dado uma unidade básica de informação informação conhecimento obtido pela comparação de diversos dados proposição conjunto de palavras ou símbolos que exprimem um pensamento ou juízo de sentido completo Dados quantitativos números que representam contagens ou medidas Dados qualitativos / dados categóricos / dados atributos Dados separados em diferentes categorias que se distinguem por alguma característica não-numérica Dados discretos Dados quantitativos que resultam de um conjunto finito de valores possíveis Dados contínuos Dados quantitativos resultam de um número infinito de valores possíveis que podem ser associados a pontos em uma escala contínua de tal maneira que não haja interrupções Nível nominal de mensuração Dados que consistem apenas em nomes, rótulos ou categorias Nível ordinal de mensuração Dados que podem ser dispostos em alguma ordem, mas as diferenças entre valores dos dados não podem ser determinadas ou não tem sentido Nível intervalar de mensuração Dados que podem ser dispostos em alguma ordem com a propriedade de que podemos determinar diferenças significativas entre os dados. Não existe um ponto de partida zero Nível de razão de mensuração Nível de intervalo modificado de modo a incluir o ponto de partida zero inerente, onde zero significa nenhuma quantidade presente estudo observacional Estudo em que se verificam e medem-se características específicas, mas não se tenta manipular ou modificar os elementos a serem estudados experimento Aplicação de determinado tratamento para Prof. André L. Santos www.passeicursos.com.br 99 ESTATÍSTICA PARA ANALISTA DO TESOURO Aula 0 observar seus efeitos a serem pesquisados amostra aleatória Amostra em que elementos da população são escolhidos de tal forma que cada um deles tenha igual chance de figurar na amostra amostragem estratificada Amostragem que a população é subdividida em no mínimo duas subpopulações que compartilham das mesmas características e em seguida se extrai uma amostra aleatória de cada extrato amostragem por conglomerados a população é dividida em diferentes grupos, extraindo-se uma amostra apenas dos conglomerados selecionados amostragem sistemática Amostragem em que define-se um ponto de partida e seleciona-se um elemento a cada determinada distância ou frequência erro amostral Diferença entre os resultados amostrais e o verdadeiro resultado populacional atribuido à variação amostral aleatória erro não amostral Diferença entre os resultados amostrais e o verdadeiro resultado populacional quando os dados amostrais são coletados, registrados ou analisados incorretamente Prof. André L. Santos www.passeicursos.com.br 100