Análise Discriminante: Critérios para alocação de novas

Propaganda
Análise Discriminante: Critérios para alocação de novas observações às
populações correspondentes
Josemir R. de Almeida 1
Elisângela da S. Rodrigues 1
1. Introdução
Diversos profissionais fazem uso de fatores que são capacidades inatas e outros que
são técnicas para a tomada de decisões, tais técnicas podem ser definidas como habilidades
desenvolvidas ao longo de sua experiência profissional. De uma maneira geral o interesse do
pesquisador está em construir, com base em uma amostra de dados, uma regra de
classificação e utilizá-la para classificar novas observações as suas correspondentes
populações.
A análise Discriminante é uma técnica de Análise Multivariada frequentemente
utilizada com o objetivo de diferenciar populações e/ou classificar objetos em populações prédefinidas (BARROSO e ARTES, 2003).
Uma das finalidades da Análise Discriminante é obter funções que permitam
classificar um indivíduo x, com base em medidas de um número p de características do
mesmo, em uma de várias populações πi, (i = 1,2,...,g), distintas, buscando minimizar a
probabilidade de classificar erroneamente um indivíduo, em uma população πi , quando ele
realmente pertence à população πj, (i ≠ j = 1,2,...,g) (JUNIOR, 2006).
Este trabalho tem o objetivo de abordar, de forma clara e direta, meios que
possibilitem o leitor classificar novos elementos às populações em estudo. Para esta
classificação o mesmo traz a definição de escores críticos e de zona de indefinição.
2. Material e métodos
Segundo Corrar et al. (2009) os pressupostos para uso da análise discriminante são:
normalidade multivariada, linearidade, ausência de outliers, ausência de multicolinearidade,
homogeneidade da matriz de variância-covariância.
No entanto, há outros enfoques em que não se faz necessário a validação de todas as
suposições acima citadas, como por exemplo, o atribuído por Ronald Aylmer Fisher (1936).
Segundo REGAZZI (2000), Fisher quem inicialmente abordou o problema da discriminação
entre dois ou mais grupos, visando posterior classificação.
Segundo o mesmo autor, o modelo da função linear discriminante é dado por:
Z = a + b1X1 + b2X2 + ...+ bnXn,
________________________
1 UFRN – email: [email protected]
email: [email protected]
sendo:
Z a variável dependente (categórica); a o intercepto da função discriminante; bn o peso (grau
de impacto) de cada variável independente na função discriminante e Xn as variáveis
independentes do modelo.
Escores críticos
O escore de corte (escore crítico) é o critério em relação ao qual o escore
discriminante de cada objeto é comparado para determinar em qual grupo (população) o
objeto deve ser classificado (HAIR et al., 2005).
Escore crítico (ECpm)
Quando as populações possuem a mesma quantidade de elementos, então o escore
crítico pode ser calculado utilizando os centróides de cada população. Podemos utilizar como
ponto centróide o ponto médio, logo o escore crítico para populações de mesma dimensão é
dado pela média das médias de cada população. Ou seja,
EC pm =
Z1 + Z 2
,
2
onde:
ECpm é o valor do escore crítico; Z1 é a média dos valores da função discriminante da
população 1 e Z2 é média dos valores da função discriminante da população 2.
Escore crítico ponderado (ECp)
Se as populações possuem tamanhos diferentes (n1 e n2), porém são representativos
das proporções de cada população em que foram retirados, então o escore crítico para a
função discriminante é dado pela média ponderada das médias de cada população com segue
abaixo.
EC p =
n 2 Z1 + n 1 Z 2
,
n1 + n 2
onde:
n1 é o número de elementos da população 1; n2 o número de elementos da população 2; Z1 a
média dos valores da função discriminante da população 1 e Z2 a média dos valores da função
discriminante da população 2.
O conceito de um escore de corte ótimo para populaçõess de tamanhos iguais ou
diferentes é ilustrado pelas Figuras 1 e 2, respectivamente.
respectivamente. A Figura 1 aborda o caso
cas em que o
escore crítico é encontrado
ontrado pela média das médias das
da duas populações.
Figura 1:
1 Tamanhos das populações iguais.
Fonte: Mário (2002).
No entanto, a Figura 2,, traz o caso em que o escore crítico não é igual ao escore ótimo
de corte. Neste caso, é sugerida uma ponderação para o cálculo do ponto ótimo de corte, ou
seja, atribuição de pesos àss médias das populações em função dos tamanhos de cada uma
delas.
Figura 2:
2 Tamanhos das populações iguais.
Fonte:: Mário (2002).
Escore crítico refinado (ECr)
As abordagens acima não levam em consideração os custos de classificar
erroneamente um elemento em determinada
determinad população quando na verdade ele é de outra
outr e
também não leva em consideração as probabilidades a priori de dado elemento pertencer a
uma das populações em estudo. O critério doo escore crítico refinado se torna mais robusto ao
considerar o custo de classificação bem como as probabilidades a priori.
Segundo Corrar et al. (2009), Ragsdale (1995)
(
) e Elisabetsky (1976), o escore crítico
refinado pode ser calculado pela expressão abaixo.
EC r =
cp 
µ 1 +µ 2
σ2
+
.ln 1 1  ,
2
µ1 − µ 2  c 2 p 2 
onde:
µ1 é a média dos escores discriminantes da população 1; µ2 a média dos escores
discriminantes da população 2;
2 ln o logaritmo natural; c1 o custo de classificar um elemento
na população 1 quando este na verdade pertence a população 2; c2 o custo de classificar um
elemento na população 2 quando este na verdade pertence a população 1; p1 a probabilidade a
priori de um elemento pertencer a população 1; p2 a probabilidade a priori de um elemento
pertencer a população 2 e σ2 a variância combinada das duas populações, que é dada por:
(n − 1)σ 12 + (n2 − 1)σ 22
σ2 = 1
,
n1 + n2 − 2
sendo:
σ 12 a variância dos escores da população 1; σ 22 a variância dos escores da população 2; n1 o
número de elementos da população 1, n2 o número de elementos da população 2.
Zona de indefinição ou superposição (Overlap Area)
O pesquisador pode se deparar com problemas que impossibilitem a obtenção das
probabilidades a priori (p1,p2) bem como os custos de classificação (c1,c2). Neste caso, uma
abordagem utilizada é estabelecer
estabele
uma região de confiança na qual se inserem os elementos
que se encontrarem classificados nesta região. Conhecida como região
egião de dúvida (overlap
area) ou Zona de Indefinição é definida como a interseção das curvas de distribuição das
amostras das duas populações e seus limites podem ser definidos através de um intervalo de
confiança. A Figura 3 mostra a região citada.
citada
Figura 3:
3 zona de indefinição/região de dúvida.
Fonte:: Mário (2002).
Segundo Corrar
ar et al. (2009), os valores x1 e x2 podem ser encontrados através das
seguintes expressões:
x1 = z 2 − 1 +
1
. t (α;gl ) . σ
n2
;
x 2 = z1 − 1 +
1
. t (α;gl ) . σ
n1
onde:
z1 a média dos escores (Z) calculados para os elementos de cada população dada a função
discriminante da população 1; z 2 a média dos escores (Z) calculados para os elementos de
cada população dada a função discriminante da população 2; n1 o número de elementos da
população 1; n2 o número de elementos da população 2; t (α;gl ) é o valor crítico da distribuição
de probabilidade t, dado um nível de significância α e os graus de liberdade (gl = n1 + n2 -2);
σ o desvio padrão obtido pela variância ponderada dos valores dos escores discriminantes (Z)
de cada população.
Regra de classificação
A dúvida que pode surgir ao leitor é como classificar (alocar) uma nova observação,
digamos x0, a partir dos escores críticos já calculados,, ou seja, como a função discriminante
pode ser utilizada para a alocação desta nova observação em uma das populações em estudo.
estudo
Dados os escores críticos (ECpm, ECp, ECr), que serão chamados de m1, m2 e m3
respectivamente, e z0 o valor da função discriminante para a nova observação x0, então é
possível mostrar que,
E(Z0|π1) ≥ mi
e
E(Z0|π2) < mi ,
(para mais detalhes ver JOHNSON & WICHERN, 1998 ou BARROSO, L. P. & ARTES,
2003).
Ou seja, se a nova observação x0 pertence a π1, espera-se que z0 seja maior ou igual a
mi, e se a observação x0 pertence π2 espera-se que z0 seja menor que mi. Portanto, de forma
geral a regra de alocação baseada na função discriminante linear de Fisher é dada por:
alocar x0 em π1 se z0 ≥ 0
ou
alocar x0 em π2 se z0 < 0.
3. Conclusões
A abordagem do referido trabalho traz consigo os critérios baseados em escores
críticos, para, a partir da função linear discriminante, auxiliar em tomadas de decisão quanto a
classificação de novas observações, e consequentemente a sua alocação nas populações
correspondentes.
Como continuidade a esse trabalho, destaca-se que um estudo mais detalhado está
sendo conduzido com aplicação a uma base de dados reais para a melhoria da obtenção de
escores críticos.
Bibliografia
[1] BARROSO, L. P.; ARTES, R. Análise multivariada. Lavras: Universidade Federal de
Lavras, 2003.
[2] CORRAR, L.J.; PAULO, E.; FILHO, J.M.D. Análise multivariada: para os cursos de
administração, ciências contábeis e economia. 1ª ed. São Paulo: Atlas, 2009.
[3] ELISABETSKY, R. Um modelo matemático para decisões de crédito no banco
comercial. Escola Politécnica da Universidade de São Paulo. São Paulo, 1976.
Pernambuco. Recife, 2007 (dissertação de Mestrado).
[4] HAIR Jr, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. Análise
Multivariada de dados. Trad. Adonai Schlup Sant’Anna e Anselmo Chaves Neto. 5ª ed. Porto
Alegre, Bookman, 2005.
[5] JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis, 4th. edn,
Prentice-Hall, New York, 1998.
[6] JUNIOR, L. M. L. Utilização de técnicas multivariadas na classificação de fases de
crescimento da leucena. UFRPE – Universidade Federal Rural de Pernambuco. Recife, 2006
(Dissertação de Mestrado).
[7] MÁRIO, P. C. Contribuição ao estudo da solvência empresarial: um análise de modelo
de previsão – estudo exploratório aplicado em empresas mineiras. São Paulo: FEA/USP,
2002 (Dissertação de mestrado).
[8] REGAZZI, A.J. Análise multivariada, notas de aula INF 766, Departamento de
Informática da Universidade Federal de Viçosa, v.2, 2000.
[9] RAGSDALE, C. T. Spreadsheet modeling and decision analysis: a practical
introduction to management science. Course Technology, Inc., 1995.
Download