Análise Discriminante: Critérios para alocação de novas observações às populações correspondentes Josemir R. de Almeida 1 Elisângela da S. Rodrigues 1 1. Introdução Diversos profissionais fazem uso de fatores que são capacidades inatas e outros que são técnicas para a tomada de decisões, tais técnicas podem ser definidas como habilidades desenvolvidas ao longo de sua experiência profissional. De uma maneira geral o interesse do pesquisador está em construir, com base em uma amostra de dados, uma regra de classificação e utilizá-la para classificar novas observações as suas correspondentes populações. A análise Discriminante é uma técnica de Análise Multivariada frequentemente utilizada com o objetivo de diferenciar populações e/ou classificar objetos em populações prédefinidas (BARROSO e ARTES, 2003). Uma das finalidades da Análise Discriminante é obter funções que permitam classificar um indivíduo x, com base em medidas de um número p de características do mesmo, em uma de várias populações πi, (i = 1,2,...,g), distintas, buscando minimizar a probabilidade de classificar erroneamente um indivíduo, em uma população πi , quando ele realmente pertence à população πj, (i ≠ j = 1,2,...,g) (JUNIOR, 2006). Este trabalho tem o objetivo de abordar, de forma clara e direta, meios que possibilitem o leitor classificar novos elementos às populações em estudo. Para esta classificação o mesmo traz a definição de escores críticos e de zona de indefinição. 2. Material e métodos Segundo Corrar et al. (2009) os pressupostos para uso da análise discriminante são: normalidade multivariada, linearidade, ausência de outliers, ausência de multicolinearidade, homogeneidade da matriz de variância-covariância. No entanto, há outros enfoques em que não se faz necessário a validação de todas as suposições acima citadas, como por exemplo, o atribuído por Ronald Aylmer Fisher (1936). Segundo REGAZZI (2000), Fisher quem inicialmente abordou o problema da discriminação entre dois ou mais grupos, visando posterior classificação. Segundo o mesmo autor, o modelo da função linear discriminante é dado por: Z = a + b1X1 + b2X2 + ...+ bnXn, ________________________ 1 UFRN – email: [email protected] email: [email protected] sendo: Z a variável dependente (categórica); a o intercepto da função discriminante; bn o peso (grau de impacto) de cada variável independente na função discriminante e Xn as variáveis independentes do modelo. Escores críticos O escore de corte (escore crítico) é o critério em relação ao qual o escore discriminante de cada objeto é comparado para determinar em qual grupo (população) o objeto deve ser classificado (HAIR et al., 2005). Escore crítico (ECpm) Quando as populações possuem a mesma quantidade de elementos, então o escore crítico pode ser calculado utilizando os centróides de cada população. Podemos utilizar como ponto centróide o ponto médio, logo o escore crítico para populações de mesma dimensão é dado pela média das médias de cada população. Ou seja, EC pm = Z1 + Z 2 , 2 onde: ECpm é o valor do escore crítico; Z1 é a média dos valores da função discriminante da população 1 e Z2 é média dos valores da função discriminante da população 2. Escore crítico ponderado (ECp) Se as populações possuem tamanhos diferentes (n1 e n2), porém são representativos das proporções de cada população em que foram retirados, então o escore crítico para a função discriminante é dado pela média ponderada das médias de cada população com segue abaixo. EC p = n 2 Z1 + n 1 Z 2 , n1 + n 2 onde: n1 é o número de elementos da população 1; n2 o número de elementos da população 2; Z1 a média dos valores da função discriminante da população 1 e Z2 a média dos valores da função discriminante da população 2. O conceito de um escore de corte ótimo para populaçõess de tamanhos iguais ou diferentes é ilustrado pelas Figuras 1 e 2, respectivamente. respectivamente. A Figura 1 aborda o caso cas em que o escore crítico é encontrado ontrado pela média das médias das da duas populações. Figura 1: 1 Tamanhos das populações iguais. Fonte: Mário (2002). No entanto, a Figura 2,, traz o caso em que o escore crítico não é igual ao escore ótimo de corte. Neste caso, é sugerida uma ponderação para o cálculo do ponto ótimo de corte, ou seja, atribuição de pesos àss médias das populações em função dos tamanhos de cada uma delas. Figura 2: 2 Tamanhos das populações iguais. Fonte:: Mário (2002). Escore crítico refinado (ECr) As abordagens acima não levam em consideração os custos de classificar erroneamente um elemento em determinada determinad população quando na verdade ele é de outra outr e também não leva em consideração as probabilidades a priori de dado elemento pertencer a uma das populações em estudo. O critério doo escore crítico refinado se torna mais robusto ao considerar o custo de classificação bem como as probabilidades a priori. Segundo Corrar et al. (2009), Ragsdale (1995) ( ) e Elisabetsky (1976), o escore crítico refinado pode ser calculado pela expressão abaixo. EC r = cp µ 1 +µ 2 σ2 + .ln 1 1 , 2 µ1 − µ 2 c 2 p 2 onde: µ1 é a média dos escores discriminantes da população 1; µ2 a média dos escores discriminantes da população 2; 2 ln o logaritmo natural; c1 o custo de classificar um elemento na população 1 quando este na verdade pertence a população 2; c2 o custo de classificar um elemento na população 2 quando este na verdade pertence a população 1; p1 a probabilidade a priori de um elemento pertencer a população 1; p2 a probabilidade a priori de um elemento pertencer a população 2 e σ2 a variância combinada das duas populações, que é dada por: (n − 1)σ 12 + (n2 − 1)σ 22 σ2 = 1 , n1 + n2 − 2 sendo: σ 12 a variância dos escores da população 1; σ 22 a variância dos escores da população 2; n1 o número de elementos da população 1, n2 o número de elementos da população 2. Zona de indefinição ou superposição (Overlap Area) O pesquisador pode se deparar com problemas que impossibilitem a obtenção das probabilidades a priori (p1,p2) bem como os custos de classificação (c1,c2). Neste caso, uma abordagem utilizada é estabelecer estabele uma região de confiança na qual se inserem os elementos que se encontrarem classificados nesta região. Conhecida como região egião de dúvida (overlap area) ou Zona de Indefinição é definida como a interseção das curvas de distribuição das amostras das duas populações e seus limites podem ser definidos através de um intervalo de confiança. A Figura 3 mostra a região citada. citada Figura 3: 3 zona de indefinição/região de dúvida. Fonte:: Mário (2002). Segundo Corrar ar et al. (2009), os valores x1 e x2 podem ser encontrados através das seguintes expressões: x1 = z 2 − 1 + 1 . t (α;gl ) . σ n2 ; x 2 = z1 − 1 + 1 . t (α;gl ) . σ n1 onde: z1 a média dos escores (Z) calculados para os elementos de cada população dada a função discriminante da população 1; z 2 a média dos escores (Z) calculados para os elementos de cada população dada a função discriminante da população 2; n1 o número de elementos da população 1; n2 o número de elementos da população 2; t (α;gl ) é o valor crítico da distribuição de probabilidade t, dado um nível de significância α e os graus de liberdade (gl = n1 + n2 -2); σ o desvio padrão obtido pela variância ponderada dos valores dos escores discriminantes (Z) de cada população. Regra de classificação A dúvida que pode surgir ao leitor é como classificar (alocar) uma nova observação, digamos x0, a partir dos escores críticos já calculados,, ou seja, como a função discriminante pode ser utilizada para a alocação desta nova observação em uma das populações em estudo. estudo Dados os escores críticos (ECpm, ECp, ECr), que serão chamados de m1, m2 e m3 respectivamente, e z0 o valor da função discriminante para a nova observação x0, então é possível mostrar que, E(Z0|π1) ≥ mi e E(Z0|π2) < mi , (para mais detalhes ver JOHNSON & WICHERN, 1998 ou BARROSO, L. P. & ARTES, 2003). Ou seja, se a nova observação x0 pertence a π1, espera-se que z0 seja maior ou igual a mi, e se a observação x0 pertence π2 espera-se que z0 seja menor que mi. Portanto, de forma geral a regra de alocação baseada na função discriminante linear de Fisher é dada por: alocar x0 em π1 se z0 ≥ 0 ou alocar x0 em π2 se z0 < 0. 3. Conclusões A abordagem do referido trabalho traz consigo os critérios baseados em escores críticos, para, a partir da função linear discriminante, auxiliar em tomadas de decisão quanto a classificação de novas observações, e consequentemente a sua alocação nas populações correspondentes. Como continuidade a esse trabalho, destaca-se que um estudo mais detalhado está sendo conduzido com aplicação a uma base de dados reais para a melhoria da obtenção de escores críticos. Bibliografia [1] BARROSO, L. P.; ARTES, R. Análise multivariada. Lavras: Universidade Federal de Lavras, 2003. [2] CORRAR, L.J.; PAULO, E.; FILHO, J.M.D. Análise multivariada: para os cursos de administração, ciências contábeis e economia. 1ª ed. São Paulo: Atlas, 2009. [3] ELISABETSKY, R. Um modelo matemático para decisões de crédito no banco comercial. Escola Politécnica da Universidade de São Paulo. São Paulo, 1976. Pernambuco. Recife, 2007 (dissertação de Mestrado). [4] HAIR Jr, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. Análise Multivariada de dados. Trad. Adonai Schlup Sant’Anna e Anselmo Chaves Neto. 5ª ed. Porto Alegre, Bookman, 2005. [5] JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis, 4th. edn, Prentice-Hall, New York, 1998. [6] JUNIOR, L. M. L. Utilização de técnicas multivariadas na classificação de fases de crescimento da leucena. UFRPE – Universidade Federal Rural de Pernambuco. Recife, 2006 (Dissertação de Mestrado). [7] MÁRIO, P. C. Contribuição ao estudo da solvência empresarial: um análise de modelo de previsão – estudo exploratório aplicado em empresas mineiras. São Paulo: FEA/USP, 2002 (Dissertação de mestrado). [8] REGAZZI, A.J. Análise multivariada, notas de aula INF 766, Departamento de Informática da Universidade Federal de Viçosa, v.2, 2000. [9] RAGSDALE, C. T. Spreadsheet modeling and decision analysis: a practical introduction to management science. Course Technology, Inc., 1995.