Determinação de medidas de variabilidade a partir de dados agrupados Rinaldo Artes Discutiremos como obter estimativas de medidas de variabilidade a partir de dados agrupados. Admitimos que o leitor já conheça as medidas descritivas utilizadas neste texto, deste modo, o foco estará em aspectos operacionais ligados a obtenção dos coeficientes. Este texto é uma continuação do material exibido no arquivo: Determinação de medidas de posição para dados agrupados.pdf. A leitura prévia desse material é recomendada. O exemplo apresentado naquela material é reproduzido abaixo. Exemplo: Uma instituição financeira (IF) utiliza um indicador do grau de endividamento para avaliar a situação de suas carteiras de empréstimo. O indicador é calculado para cada participante da carteira e, grosseiramente, quanto maior o valor do indicador, pior é a situação do cliente. A IF está interessada em descrever a situação de duas carteiras distintas: Carteira Alfa – com empréstimos concedidos em 2012 e Carteira Beta – com empréstimos concedidos em 2013. Para tanto, conta com uma amostra de 500 clientes de cada carteira. As Tabelas 1 e 2 resumem os resultados desta pesquisa. Notação: : número de classes da tabela; frequência absoluta (contagem) da classe ; frequência relativa (proporção) da classe ; frequência (relativa) acumulada da classe e : densidade de frequência da classe , sendo a amplitude (largura) da classe; 1 Tabela 1: Distribuição de frequências e densidades de frequência do grau de endividamento de clientes da carteira Alfa Grau de Endividamento 0 |-- 5 5 |-- 10 10 |-- 15 15 |-- 20 20 |-- 30 30 |-- 50 50 |-- 75 Total 61 107 97 77 77 63 18 500 12,2 21,4 19,4 15,4 15,4 12,6 3,6 1,000 12,2 33,6 53,0 68,4 83,8 96,4 100 0,02440 0,04280 0,03880 0,03080 0,01540 0,00630 0,00144 2. Obtenção de medidas de variabilidade a partir de dados agrupados Medidas de variabilidade também podem ser obtidas a partir de dados agrupados. Discutiremos o cálculo do desvio-médio e variância (desviopadrão). 2.1. Desvio Médio Absoluto ( ). O desvio médio absoluto, ou simplesmente desvio médio, de um conjunto de dados é definido por ∑ ( ) | ̅| Trata-se da distância média entre cada observação e a média aritmética dos dados. Quanto maior a dispersão dos dados, maior será o desvio médio. A determinação deste coeficiente para dados agrupados segue a mesma lógica apresentada para o cálculo da média aritmética (Seção 1.1). Admitiremos que as observações de uma classe estejam uniformemente distribuídas e assim, ∑ | ̅| ∑ | ̅| Equivalentemente: ∑ | ̅| ∑| ̅| ∑| ̅| 2 Para a Carteira Alfa (Tabela 1), havíamos obtido ̅ . A partir disso, apresentamos na Tabela 4 os passos para a determinação de . Tabela 4: Determinação do desvio médio absoluto para os dados da Carteira Alfa. ∑ ̅| | 0 |-- 5 5 |-- 10 10 |-- 15 15 |-- 20 20 |-- 30 30 |-- 50 50 |-- 75 Total 2.2. Variância ( 2,5 7,5 12,5 17,5 25,0 40,0 62,5 15,67 10,67 5,67 0,67 6,83 21,83 44,33 ̅| 955,87 1141,69 549,99 51,59 525,91 1.375,29 797,94 5.398,28 5.398,28/500 = 10,80 61 107 97 77 77 63 18 500 ) e Desvio Padrão ( ̅| ∑| ̅| | Endividamento | | 0,122 0,214 0,194 0,154 0,154 0,126 0,036 ̅| 1,91 2,28 1,10 0,10 1,05 2,75 1,60 10,80 ) A variância é uma medida de dispersão dada por ∑ ( ̅) O desvio padrão é obtido extraindo-se a raiz quadrada da variância. Analogamente á Seção 2.1., podemos obter a variância por meio de ∑ ( ̅) ∑ ( ̅) ∑( ̅) A Tabela 5 resume os passos para a obtenção dessa estatística a partir dos dados da Tabela 1. 3 Tabela 5: Determinação da variância para os dados da Carteira Alfa. ∑ Endividamento 0 |-- 5 5 |-- 10 10 |-- 15 15 |-- 20 20 |-- 30 30 |-- 50 50 |-- 75 Total ( ( ̅) 2,5 245,55 7,5 113,85 12,5 32,15 17,5 0,45 25,0 46,65 40,0 476,55 62,5 1.965,15 61 107 97 77 77 63 18 500 | ̅| 14978,48 12181,83 3118,44 34,57 3591,97 30022,58 35372,68 99300,55 99.300,55/500 = 198,60 Como a variância é 198,60, o desvio-padrão é ̅) ∑( ̅) √ | 0,122 0,214 0,194 0,154 0,154 0,126 0,036 ̅| 29,96 24,36 6,24 0,07 7,18 60,05 70,75 198,60 . 4