Estatística Descritiva Prof. Henrique Dantas Neder Instituto de Economia Universidade Federal de Uberlândia – Typeset by FoilTEX – 1 Tópicos introdutórios • A estatística descritiva trata dos métodos estatísticos empregados para descrever os dados. • Em geral quando os dados são coletados ou organizados em uma tabela existe grande dificuldade em observar ou detectar quais são as suas principais características. • A estatística descritiva subdivide-se em três importantes seções: 1) os métodos de apresentação gráfica dos dados e os métodos; 2) métodos de apresentação tabular de dados e 3) os métodos de construção de indicadores estatísticos. – Typeset by FoilTEX – 2 • No primeiro grupo são tratados os distintos tipos de gráficos. Entre eles temos os gráficos gerais, tais como gráficos de barras, gráficos de setor, etc e os gráficos mais propriamente voltados para a análise estatística tais como histograma, diagrama Box-Plot, diagrama de dispersão. • No segundo grupo são tratadas as formas tabulares de apresentação de dados, indicando os principais tipos de frequencia. • No terceiro grupo são propostos diversos indicadores de posição, de dispersão e de forma das distribuições estatísticas. Iremos tratar incialmente deste último grupo. Os principais indicadores de posição são a média, a mediana e a moda da distribuição. A média amostral é indicada pelo símbolo x. – Typeset by FoilTEX – 3 A fórmula matemática para indicar o cálculo de uma média amostral é: P x̄ = xi n (1) Muitas vezes os dados podem ser apresentados na forma agrupada, tal como: intervalo 1-50 50-100 100-150 150-200 200-250 250-300 frequência (fi) 20 30 40 50 35 25 A partir destes dados podemos calcular a média da seguinte forma: – Typeset by FoilTEX – 4 intervalo 1-50 50-100 100-150 150-200 200-250 250-300 soma frequência (fi) 20 30 40 50 35 25 200 ponto médio da classe (mi) 25 75 125 175 225 275 fi × mi 500 2250 5000 8750 7875 6875 31250 Neste caso, para o caso do cálculo da média da amostra, vamos aplicar a seguinte expressão: P x= – Typeset by FoilTEX – fipmi n (2) 5 P x= fi pmi 20 × 25 + 30 × 75 + 40 × ×125 + 50 × 175 + 35 × 225 + 25 × 275 = = 156, 25 n 200 Outro indicador importante da estatística descritiva. Neste caso iremos distinguir entre dois tipos de variância: a variância calculada a partir de uma amostra e a variância calculada a partir de uma população. As expressões matemáticas que representam estas duas variâncias são respectivamente: – Typeset by FoilTEX – P (xi − x̄)2 2 s = n−1 (3) P (xi − µ)2 2 σ = N (4) 6 Os valores dos desvio-padrões são iguais a raiz quadrada dos valores das respectivas variâncias. Por exemplo, se tivermos uma sequencia de valores para uma variável correspondente a uma amostra, digamos: 3, 10, 15, 17, 15, 5, 10, 12 xi 3 10 15 17 15 5 10 12 soma (xi − x)2 (3 − 10.875)2 = 62.015625 (10 − 10.875)2 = .765625 (15 − 10.875)2 = 17.015625 (17 − 10.875)2 = 37.515625 (15 − 10.875)2 = 17.015625 (5 − 10.875)2 = 34.515625 (10 − 10.875)2 = .765625 (12 − 10.875)2 = 1.265625 170.875 – Typeset by FoilTEX – 7 Como estamos supondo que os dados da primeira coluna da tabela acima referem-se a uma amostra, então utilizaremos a expressão (3): 2 s = P (Xi −X̄)2 n−1 = 170.875 8−1 = 24.4107 √ s = 24.4107 = 4.94072 Fazemos uma demostração deste cálculo através do Stata. Em um primeiro passo, utilizamos o comando summarize para calcular a média da variável. Observe que através deste comando já obtemos o valor do desvio padrão amostral que é 4,94072. Depois pedimos através do comando generate para calcular uma variável igual aos valores dos desvios da primeira variável em relação a média elevados ao quadrado. Em terceiro lugar, através do comando tabstat, calculamos a soma destes desvios e o resultado é 170.875 (que é a soma dos quadrados dos desvios). Finalmente, através do comando display pedimos para o Stata mostrar o resultado da raiz quadrada da divisão desta soma de desvios ao quadrado pelo valor de n-1. – Typeset by FoilTEX – 8 . summ var1 variable var1 obs 8 mean 10.875 Std.dev. 4.94072 min 3 max 17 . gen var2 = (var1 - r(mean))^2 . tabstat var2, s(sum) variable var2 sum 170.875 . disp sqrt(170.875/(8-1)) 4.94072 O cálculo da variância quando temos os dados apresentados na forma agrupada em classes de frequencias segue um procedimento semelhante ao adotado para – Typeset by FoilTEX – 9 a média quando os dados estão neste formato. Vamos usar o mesmo exemplo anterior para o cálculo da média: intervalo frequência (fi) ponto médio da classe (pmi) fi(pmi − x̄)2 1-50 50-100 100-150 150-200 200-250 250-300 20 30 40 50 35 25 25 75 125 175 225 275 20.(25-34,72)2 30.(75-34,72)2 40.(125-34,72)2 50.(175-34,72)2 35.(225-34,72)2 25.(275-34,72)2 soma =4071096 2 s = P (xi −x̄)2 n−1 = 4071096 199 = 20457.768 Existem também métodos que podem ser empregados para calcular valores da mediana, quartis, decis e percentis. A mediana é uma medida de posição – Typeset by FoilTEX – 10 que indica o valor da variável correpondente a um valor de frequencia relativa acumulada igual a 0.50 (ou 50%). Em outras palavras, a mediana é o valor da variável que supera 50% dos valores desta variável quando são ordenados do manor para o maior (ordem crescente). Vejamos um exemplo - a seguinte sequencia de números já ordenada: 3,4,4,4,7,10,17,17,23,2425,31,33 Como temos um número ímpar (13) de observações, o valor da mediana é igual ao valor do elemento central na sequencia, ou seja, o sétimo elemento. Por tanto a mediana é igual a 17. Se a sequencia incluir mais um elemento: 3,4,4,4,7,10,17,17,23,24,25,31,33,50 A mediana é igual a semi-soma dos dois elementos centrais da sequencia. – Typeset by FoilTEX – 11 Neste caso a mediana é também igual a 17. Pode-se perceber que a mediana tem uma caracteristica curiosa que a média não possui: o valor da mediana não é afetado pelos valores extremos de uma distribuição. Por exemplo, se trocarmos, na sequência anterior, o valor 50 por 1000, a mediana continuará a ser 17. No entanto, o valor da média ficará bastante alterado. O cálculo da mediana para dados agrupados segue uma idéia distinta do cálculo da média para dados agrupados. Suponhamos o mesmo exemplo do quadro anterior: – Typeset by FoilTEX – 12 intervalo frequencia (fi) frequencia acumulada (Fi) frequencia relativa acumulada 1-50 50-100 100-150 150-200 200-250 250-300 20 30 40 45 40 25 20 50 90 135 175 200 0,100 0,250 0,450 0,675 0.875 1.000 Vamos introduzir uma expressão para a determinação aproximada da mediana para os dados acima: X.5 = Linf + (n/2 − Fa) ×a fi,.5 (5) onde: – Typeset by FoilTEX – 13 X.5 é o valor da mediana, Linf é o limite inferior da classe de frequência que contem a mediana, Fa é a frequência acumulada da classe que contém a mediana, n é o tamanho da amostra, f i,.5 é a frequencia absoluta da classe que contem a mediana e a é a amplitude do intervalo de frequência que contém a mediana. No caso do exemplo anterior: X.5 = 150 + 100−90 × 50 = 161.111 45 Os valores dos quartis, decis e percentis podem ser determinados através de um cálculo semelhente utilizando a mesma idéia. Vamos agora desenvolver algumas expressões referentes ao cálculo da variância e do desvio padrão. A expressão para o cálculo da variância de uma população pode ser manipulada da seguinte forma: σ2 = P (Xi −µ)2 N – Typeset by FoilTEX – = P (Xi2 −2Xi µ+µ2 N = P P P Xi2 − 2Xi µ+ X̄ 2 N = 14 P P ¯ Xi2 −2µ Xi +N µ2 N = P Xi2 −2µ×N µ+N µ2 N σ2 = = Xi2 − µ2 N P Xi2 −N µ2 N = Xi2 N P − µ2 P (6) Na sequencia de dados de um exemplo anterior - 3, 10, 15, 17, 15, 5, 10, 12, podemos calcular a variância de duas formas, de acordo com a tabela abaixo: – Typeset by FoilTEX – 15 Xi 3 10 15 17 15 5 10 12 soma X2i 9 100 225 289 225 25 100 144 1117 (Xi − µ) -7,785 -0,875 4,125 6,125 4,125 -5,875 -0,875 1,125 0 (Xi − µ)2 62.015625 0.765625 17.015625 37.515625 17.015625 34.515625 0.765625 1.265625 170.875 A média µé igual a 10,875. A primeira forma de calcular a variância é: 2 σ = P (Xi −µ)2 N = 170,875 8 = 21.359375 A segunda forma é: – Typeset by FoilTEX – 16 2 σ = Xi2 N P − µ2 = 1117 8 − 10, 8752 = 21.359375 As mesmas relações podem ser deduzidas para a variância amostral e para as expressões referentes ao cálculo da variância para dados agrupados.Neste último caso, a variância pode ser calculada de duas formas distintas. Vejamos um exemplo anterior: intervalo frequência(fi) ponto médio (mi) fi × mi fi × m2i fi × (mi − µ)2 1-50 50-100 100-150 150-200 200-250 250-300 soma 20 30 40 50 35 25 200 25 75 125 175 225 275 500 2250 5000 8750 7875 6875 31250 12500 168750 625000 1531250 1771875 1690625 6000000 344531.25 198046.875 39062.5 17578.125 165429.6875 352539.0625 1117187.5 Cálculo da média: – Typeset by FoilTEX – 17 µ= P Xi N = P fi ×mi N = 31250 200 = 156.25 Primeira forma de calcular a variância: 2 σ = P fi ×(mi −µ)2 N = 1117187.5 200 = 5585.9375 Segunda forma de calcular a variância: 2 σ = P fi ×m2i 2 -µ N 2 = 6000000 − 156.25 = 5585.9375 200 EXERCÍCIOS Exercicio 1)Em um ensaio para o estudo da distribuição de um atributo financeiro (X) foram examinados 200 itens de natureza contábil do balanço de uma empresa. Esse exercício produziu a tabela de freqüências abaixo. A coluna Classes representa intervalos de valores de X em reais e a coluna P representa a freqüência relativa acumulada. Não existem observações coincidentes com os extremos das classes. – Typeset by FoilTEX – 18 classes 70-90 90-110 110-130 130-150 150-170 170-190 190-210 P(%) 5 45 40 70 85 95 100 Assinale a opção que corresponde à estimativa da freqüência relativa de observações de X menores ou iguais a 145. a) 62,5% b) 70,0% c) 50,0% d) 45,0% e) 53,4% Exercicio 2)Para a solução da próxima questão utilize o enunciado que se segue. O atributo do tipo contínuo X, observado como um inteiro, numa amostra – Typeset by FoilTEX – 19 de tamanho 100, obtida de uma população de 1000 indivíduos, produziu a tabela de freqüências seguinte: classes 29,5-39,5 39,5-49,5 49,5-59,5 59,5-69,5 69,5-79,5 79,5-89,5 89,5-99,5 frequencia (f) 4 8 14 20 26 18 10 Assinale a opção que corresponde à estimativa do número de indivíduos na população com valores do atributo X menores ou iguais a 95,5 e maiores do que 50,5. – Typeset by FoilTEX – 20 a) 700 b) 638 c) 826 d) 995 e) 900 Exercício 3) A média e a variância do conjunto dos salários pagos por uma empresa eram de $285.000 e 1,1627x1010, respectivamente. O valor da variância do conjunto dos salários após o corte de três zeros na moeda é: a) 1,1627x107 b) 1,1627x106 c) 1,1627x105 d) 1,1627x104 Exercício 4) Em certa empresa, o salário médio era de $90.000,00 e o desvio padrão dos salários era de $10.000,00. Todos os salários receberam um aumento de 10%. O desvio padrão dos salários passou a ser de: a) 10.000, b) 10.100, c) 10.500, d)10.900, e) 11.000 Exercício 5) Os dados seguintes, ordenados do menor para o maior, foram obtidos de uma amostra aleatória, de 50 preços (Xi) de ações, tomada numa bolsa de valores internacional. A unidade monetária é o dólar americano. 4, 5, 5, 6, 6, – Typeset by FoilTEX – 21 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 12, 12, 13, 13,14, 15, 15, 15, 16, 16, 18, 23 Os valores seguintes foram calculados para a amostra: P Xi = 490 e P Xi2 − ( P Xi)2/50 = 668 Assinale a opção que corresponde à mediana e à variância amostral, respectivamente (com aproximação de uma casa decimal). a) (9,0 13,6) b) (9,5 14,0) c) (8,0 15,0) d) (8,0 13,6) e) (9,0 14,0) Exercício 6) Numa amostra de tamanho 20 de uma população de contas a receber, representadas genericamente por X, foram determinadas a média amostral M = 100 e o desvio-padrão S =13 da variável transformada (X-200)/5. Assinale a opção que dá o coeficiente de variação amostral de X. – Typeset by FoilTEX – 22 a) 3,0 % b) 9,3% c) 17,0% d)17,3% e) 10,0% Exercício 7) Um atributo W tem media amostral a6=0 e desvio padrao positivo b6=1. Considere a transformacao Z=(W-a)/b. Assinale a opcao correta. a) A media amostral de Z coincide com a de W. b) O coeficiente de variacao amostral de Z e unitario. c) O coeficiente de variacao amostral de Z nao esta definido. d) A media de Z e a/b. e) O coeficiente de variacao amostral de W e o de Z coincidem. Exercício 8) Os dados seguintes, ordenados do menor para o maior, foram obtidos de uma amostra aleatória, de 50 preços (Xi) de ações, tomada numa bolsa de valores internacional. A unidade monetária é o dólar americano.4, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 12, 12, 13, 13,14, 15, 15, 15, 16, 16, 18, 23 Pode-se afirmar que: a) a distribuição amostral dos preços tem assimetria negativa. b) a distribuição – Typeset by FoilTEX – 23 amostral dos preços tem assimetria positiva. c) a distribuição amostral dos preços é simétrica. d) a distribuição amostral dos preços indica a existência de duas sub-populações com assimetria negativa. e) nada se pode afirmar quanto à simetria da distribuição amostral dos preços. Exercício 9) Assinale a opção correta. a) Para qualquer distribuição amostral, se a soma dos desvios das observações relativamente à média for negativa, a distribuição amostral terá assimetria negativa. b) O coeficiente de variação é uma medida que depende da unidade em que as observações amostrais são medidas. c) O coeficiente de variação do atributo obtido pela subtração da média de cada observação e posterior divisão pelo desvio padrão não está definido. – Typeset by FoilTEX – 24 d) Para qualquer distribuição amostral pode-se afirmar com certeza que 95% das observações amostrais estarão compreendidas entre a média menos dois desvios padrões e a média mais dois desvios padrões. e) As distribuições amostrais mesocúrticas em geral apresentam cauda pesada e curtose excessiva. Exercício 10) Os montantes de venda a um grupo de clientes de um supermercado forneceram os seguintes sumários: média aritmética=$1,20 , mediana=$0,53 e moda=$0,25. Com base nestas informações, assinale a opção correta: a) A distribuição é assimétrica à direita. b) A distribuição é assimétrica à esquerda. c) A distribuição é simétrica. – Typeset by FoilTEX – 25 d) Entre os três indicadores de posição apresentados, a média aritmética é a melhor medida de tendência central. e) O segundo quartil dos dados acima é dado por $0,25. TEOREMA DE CHEBYSHEV (OU DESIGUALDADE DE CHEBYSHEV) Enunciando de forma livre (e nem um pouco rigorosa) o enunciado poderia ser: “Para qualquer distribuição estatística de uma variável X(tendo esta variável qualquer forma de distribuição, simétrica ou assimétrica) , pode-se afirmar que: P (|X − µ| ≥ kσ) ≤ 1 k2 ou P (|X − µ| ≤ kσ) ≤ 1 − k12 Vamos exemplificar com o seguinte exercício resolvido: – Typeset by FoilTEX – 26 Exercício 10) As realizações anuais Xi dos salários anuais de uma firma com N empregados produziram as estatísticas: X P 2 0.5 1 1 Xi = R$14300, 00 e σ = [ N (Xi − X̄) ] = R1200, 00 µ=N Seja P a proporção de empregados com salários fora do intervalo {R$12.500,00 ; R$16.100,00}. Assinale a opção correta: a) P é no máximo ½ b) P é no máximo 1/1,5 c) P é no mínimo ½ d) P é no máximo 1/2,25 e) P é no máximo 1/20 – Typeset by FoilTEX – 27 Solução: Vemos que o limite inferior 12500 = 14300 - k*1200 e k = (14300-12500)/1200=1,5 Pela desigualdade de Chebyshev acima podemos afirmar que: P (|X − 14300| ≥ 1, 5 ∗ 1200) ≤ 1 1,52 Exercício 11) Tem-se um conjunto de N mensuracoes X1, ... , XN com media P aritmetica µ e variancia σ 2, onde µ = (X1 + ... + XN )/ N e σ 2 = N1 (Xi −µ)2. Seja θ a proporcao dessas mensuracoes que diferem de µ, em valor absoluto, por pelo menos 2σ. Assinale a opção correta. a) Apenas com o conhecimento de µ e σ nao podemos determinarθ exatamente, mas sabe-se que 0,25 ≥θ. b) O conhecimento de µe σe suficiente para determinar θexatamente, na realidade tem-se θ= 5% para qualquer conjunto de dados X1, ... , XN . – Typeset by FoilTEX – 28 c) O conhecimento de µe σe suficiente para determinar θ exatamente, na realidade tem-se θ = 95% para qualquer conjunto de dados X1, ... , XN . d) O conhecimento de µ e σ e suficiente para determinar θ exatamente, na realidade tem-se θ = 30% para qualquer conjunto de dados X1, ... , XN . e) O conhecimento de µ e S e suficiente para determinar θexatamente, na realidade tem-se θ= 15% para qualquer conjunto de dados X1, ... , XN . Exercício 12) Numa amostra de tamanho 20 de uma população de contas a receber, representadas genericamente por X, foram determinadas a média amostral M = 100 e o desvio-padrão S =13 da variável transformada (X-200)/5. Assinale a opção que dá o coeficiente de variação amostral de X. a) 3,0 % b) 9,3% – Typeset by FoilTEX – 29 c) 17,0% d)17,3% e) 10,0% Exercício 13) Em um ensaio para o estudo da distribuição de um atributo financeiro (X) foram examinados 200 itens de natureza contábil do balanço de uma empresa. Esse exercício produziu a tabela de freqüências abaixo. A coluna Classes representa intervalos de valores de X em reais e a coluna P representa a freqüência relativa acumulada. Não existem observações coincidentes com os extremos das classes. A próxima questão refere-se a esses ensaios. – Typeset by FoilTEX – 30 classes 70-90 90-110 110-130 130-150 150-170 170-190 190-210 P(%) 5 15 40 70 85 95 100 a transformação Z=(X-140)/10. Para o atributo Z encontrou-se P Considere Zi2fi = 1680 , onde fi é a freqüência simples da classe i e Zi o ponto médio de classe transformado. Assinale a opção que dá a variância amostral do atributo X. a) 720,00 – Typeset by FoilTEX – 31 b) 840,20 c) 900,10 d) 1200,15 e) 560,30 Exercício 14) Um atributo W tem média amostral a6=0 e desvio padrão positivo b6=1. Considere a transformação Z=(W-a)/b. Assinale a opção correta. a) A média amostral de Z coincide com a de W. b) O coeficiente de variação amostral de Z é unitário. c) O coeficiente de variação amostral de Z não está definido. d) A média de Z é a/b. – Typeset by FoilTEX – 32 e) O coeficiente de variação amostral de W e o de Z coincidem. Exercício 15) O atributo Z=(X-2)/3 tem média amostral 20 e variância amostral 2,56. Assinale a opção que corresponde ao coeficiente de variação amostral de X. a) 12,9% b) 50,1% c) 7,7% d) 31,2% e) 10,0% Exercício 16) A média e variância de uma primeira série de 15 observações são respectivamente: x̄1 = 30 s21 = 25, e a média e variância de uma segunda – Typeset by FoilTEX – 33 série de 20 observações são: x̄2 = 40 s22 = 36. Qual a média e a variância do conjunto das 35 observações? Exercício 17) Numa série de n = 25 medições obteve-se x̄ = 56 m e s = 2 m. Depois de obtidos estes resultados descobriu-se que tinha sido cometido um engano numa das medições, que foi registada com o valor 64m. Determine a média e o desvio padrão, admitindo que a medição incorrecta é omitida. Exercício 18) A média e o desvio-padrão obtidos num lote de produção de 100 peças mecânicas são respectivamente, 16 Kg e 40g. Uma peça particular do lote pesa 18Kg. Assinale a opção que dá o valor padronizado do peso dessa peça. a) –50 b) 0,05 c) 50 – Typeset by FoilTEX – 34 d) –0,05 e) 0,02 – Typeset by FoilTEX – 35