Padronização Seja X1, ..., Xn uma amostra de uma variável com com média ̅ e desvio-padrão S. Então a variável Z, definida como ̅ , tem as seguintes propriedades: a) b) c) ̅ ( ) é uma variável adimensional. Dizemos que a variável Z é uma variável padronizada, construída a partir de X. Momentos Definição 1: Seja um conjunto de dados, definem-se: a) momento amostral de ordem k dos dados ao valor: ∑ b) momento central amostral de ordem k dos dados ao valor: dividir o somatório por ( e ∑ ( ̅) . Alguns autores preferem ). Coeficiente de Assimetria A Figura 1 traz histogramas estilizados de distribuições que diferem em relação à forma; mais especificamente, ao tipo de assimetria. Nosso objetivo é mensurar o grau de assimetria de um conjunto de dados de modo que possamos intuir o tipo de assimetria e sua intensidade (o quanto de afasta de uma situação simétrica). Na Tabela 1 estão dispostas sete observações de três variáveis hipotéticas. Todas têm a mesma média e mesmo desvio-padrão amostral (pelo menos até a segunda casa decimal), no entanto, elas claramente apresentam comportamentos diferentes. A distribuição dos dados da variável X apresenta assimetria positiva; de Y negativa e a de W é simétrica. Iremos apresentar o desenvolvimento do Coeficiente de Assimetria utilizando esses dados. 1 Simetria Assimetria Positiva Assimetria Negativa Numa distribuição Numa distribuição assimétrica positiva, a Numa distribuição assimétrica negativa, a perfeitamente simétrica, se tendência é que hajam desvios positivos tendência é que hajam desvios negativos existir um ponto a uma muito maiores do que os negativos muito maiores do que os positivos distância a acima da média existirá um outro ponto, localizado à mesma distância abaixo da média. Figura 1: Histogramas estilizados de distribuições com diferentes tipos de assimetria Tabela 1: Conjunto de dados hipotético Observação 1 2 3 4 5 6 7 Média Desvio-padrão 10 10,2 10,8 11 12 14 16 12 2,06 14 13,8 13,2 13 12 10 8 12 2,06 8,87 10 11 12 13 14 15,13 12 2,06 Obs: O desvio-padrão foi calculado como a raiz quadrada do segundo momento central amostral de ordem 2 dos dados. A intuição que norteia a construção do Coeficiente de Assimetria vem dos histogramas da Figura 1. Os valores a e b indicam desvios em relação à média amostral. Na Tabela 2, apresentamos esses desvios para os dados da Tabela 1. Note que: a) para a variável X, há mais desvios negativos, no entanto, de magnitude menor do que os positivos; b) para a variável Y, ocorre o oposto, há mais desvios positivos, no entanto, de magnitude menor do que os negativos; c) em W, para cada desvio negativo, existe um positivo com o mesmo módulo. Poderíamos, então, propor o cálculo da média dos desvios. Esperaríamos que os sinais dos desvios de maior magnitude predominassem e indicassem o tipo de assimetria presente nos dados. No entanto, pode-se provar que a soma dos desvios em relação á média amostral sempre será zero. Para eliminar esse problema, e ainda preservar os sinais dos desvios, poderíamos elevá-lo a qualquer potência ímpar e então calcular sua média. A Tabela 3 descreve essa operação utilizando-se a potência 3. 2 Tabela 2: Desvios em relação a média dos dados da Tabela 1. ̅ 1 2 3 4 5 6 7 Média DP 10 10,2 10,8 11 12 14 16 12 2,06 ̅ -2 -1,8 -1,2 -1 0 2 4 14 13,8 13,2 13 12 10 8 12 2,06 2 1,8 1,2 1 0 -2 -4 8,87 10 11 12 13 14 15,1 12 2,06 ̅ -3,13 -2 -1 0 1 2 3,13 Os valores das médias dos desvios ao cubo para X, Y e W são, respectivamente, 7,92; -7,92 e 0. Notem que o sinal indica o tipo de assimetria presente nos dados e que esses valores correspondem ao momento central amostral de ordem 3. Em geral, os momentos , sendo um número ímpar podem ser utilizados como indicadores do tipo de assimetria presente nos dados. Os momentos , no entanto, têm um inconveniente. Eles dependem da unidade de medida dos dados. Imagine uma amostra de preços em dólares convertida para reais. Obviamente nada mudou em termos da assimetria, ( ) ( ) ( ) todavia, os terceiros momentos amostrais não irão coincidir, já que Tabela 3: Desvios em relação a média dos dados da Tabela 1. ̅ 1 2 3 4 5 6 7 Média DP 10 10,2 10,8 11 12 14 16 12 2,06 -2 -1,8 -1,2 -1 0 2 4 ( ̅) -8 -5,83 -1,73 -1 0 8 64 7,92 ̅ 14 13,8 13,2 13 12 10 8 12 2,06 2 1,8 1,2 1 0 -2 -4 ( ̅) 8 5,832 1,728 1 0 -8 -64 -7,92 ̅ 8,87 10 11 12 13 14 15,1 12 2,06 -3,1 -2 -1 0 1 2 3,13 ( ̅) -30,66 -8 -1 0 1 8 30,66 0 Um modo de contornar esse problema é refazer os cálculos utilizando-se os dados padronizados. A Tabela 4 apresenta essas contas. Agora, mesmo que mudemos a escala de uma coluna o terceiro momento amostral da variável padronizada não sofrerá alterações. 3 Tabela 4: Desvios em relação a média dos dados da Tabela 1, dados padronizados. 1 2 3 4 5 6 7 Média DP 10 10,2 10,8 11 12 14 16 12 2,06 Definição 2: Seja -0,97 -0,87 -0,58 -0,49 0,00 0,97 1,94 -0,92 -0,67 -0,20 -0,11 0,00 0,92 7,33 0,91 14,00 13,80 13,20 13,00 12,00 10,00 8 12 2,06 0,97 0,87 0,58 0,49 0,00 -0,97 -1,9 ̅ um conjunto de dados e √ 0,92 0,67 0,20 0,11 0,00 -0,92 -7,3 -0,91 , 8,87 10,00 11,00 12,00 13,00 14,00 15,1 12 2,06 -1,52 -0,97 -0,49 0,00 0,49 0,97 1,52 -3,53 -0,92 -0,12 0,00 0,12 0,92 3,53 0 . Define-se o Coeficiente de Assimetria (Amostral) dos dados por ∑ Alternativamente, pode ser reescrito como ∑ (√ ) Em resumo temos: a) se a distribuição é assimétrica positiva ⇒ b) se a distribuição é assimétrica negativa ⇒ c) se a distribuição é (perfeitamente) simétrica ⇒ 4 Coeficiente de Curtose A Figura 2 ilustra as funções densidade de probabilidades associadas a duas distribuições, ambas com média zero, desvio-padrão um e simétricas; apesar disso, as distribuições diferem bastante. A Figura 3 destaca o comportamento de uma das caudas dessas distribuições. Note que, em relação à f.d.p. de Y (vermelha), a f.d.p. de X (azul) aproxima-se mais rapidamente de zero. Isso sugere que um conjunto de dados gerado por Y apresentaria um número maior de observações distantes do centro da distribuição do que um conjunto de dados gerados por X. Uma vez que X e Y possuem mesmas médias e variâncias, podemos afirmar que a distribuição de Y possui caudas mais pesadas (maior curtose) do que a de X. Voltando aos conjuntos de dados gerados por X e Y, seria de se esperar que os momentos centrais de ordem par (superior a 2, uma vez que as variâncias são iguais) de Y fossem superiores aos de X, como um efeito direto da quantidade de desvios de maior magnitude (lembre que os momentos nada mais são do que médias e que as médias sofrem grande influência de valores muito elevados). Esse é o raciocínio básico que leva à definição de um coeficiente de curtose. Figura 2: F.d.p. de duas distribuições 5 Figura 3: Destaque da cauda esquerda dos histogramas representados na Figura2. Definição 3: Seja ̅ um conjunto de dados e √ , . Define-se o Coeficiente de Curtose (Amostral) dos dados por ∑ Alternativamente, pode ser reescrito como ∑ (√ ) Os coeficientes de assimetria e curtose são utilizados para verificar se um conjunto de dados podem ter sido gerados a partir de um modelo normal. Assim se, um conjunto de dados foi de fato gerado a partir de uma normal esperaríamos ter próximo a zero e próximo a 3. A partir disso, foi proposta uma alteração no coeficiente de curtose para facilitar sua interpretação. 6 Definição 7: Define-se o coeficiente Excesso de Curtose por Temos que a) se b) se c) se dizemos que a distribuição tem caudas mais leves do que a normal (platicúrtica), dizemos que a distribuição tem caudas com o mesmo peso das de uma normal (mesocúrtica) e dizemos que a distribuição tem caudas mais pesadas do que a normal (leptocúrtica) 7