Previsão de Falência de Empresas:Estudo de

Propaganda
Previsão de Falência de Empresas: Estudo de Generalização de Redes Neurais
Autoria: Gerson Lachtermacher e Dilson Godoi Espenchitt
Resumo
O objetivo deste trabalho é comparar o desempenho de um modelo de previsão de
insolvência utilizando rede neural apresentando topologia do tipo multicamada perceptron parafrente, que adquire conhecimento empírico através do algoritmo de aprendizagem “weightelimination”, ao desempenho de um modelo tradicional que utiliza a técnica estatística de análise
discriminante, aplicados à empresas prestadoras de serviços à Petrobrás/ S.A.
Foi empregado o universo de empresas de construção civil de projetos de engenharia e de
montagem industrial do Estado do Rio de Janeiro.
A fim de verificarmos o poder de generalização dos modelos de redes neurais, foram feitas 5
simulações distintas, com conjuntos de inicialização aleatoriamente gerados a partir de uma
distribuição uniforme. Foram considerados os números de acertos individuais dos modelos para
medir a performance global.
Realizamos a comparação entre os modelos de rede neural (individualmente e em grupo) e o
de análise discriminante para o mesmo conjunto de exemplos reais coletados. Os resultados
obtidos pelos modelos de rede neural foram superiores aos apresentados pelo modelo de análise
discriminante em um conjunto de teste “out of sample”.
1. Introdução
Após alguns períodos consecutivos de euforia e cepticismo marcaram a área de pesquisa de
redes neurais. Alguns dos marcos destes períodos foram nos anos 40 o modelo matemático que
represntava um neurônio biológico de McCulloch & Pitts (1943); na década de 60 com o teorema
da convergência do perceptron com Rosenblatt (1959) e a contestação de Minsky & Papert
(1969); o processo de energia de Hopfield (1982-1984). A era moderna de redes neurais foi
iniciada com a vasta utilização de estruturas multicamadas com algoritmo de aprendizagem de
retropropagação, divulgado por Rumelhart et al. (1986) e suas extensões. Desde então o interesse
em redes neurais teve um crescimento explosivo, sendo cada vez maior seu campo de aplicação.
Redes Neurais, como método de previsão, já utilizada por diversos autores, entre eles:
Lapedes & Faber (1987, 1988), Weigend (1990), Weigend et al. (1990, 1991), Nowlan & Hinton
(1992) e Lachtermacher (1993).
Em problemas que envolvem atividades financeiras, as redes neurais têm se constituído em
nova e importante alternativa, sendo utilizada em previsões de fluxo de caixa, estimativa de
índice de estoque de mercado, administração de portifólios, análise de crédito e previsões de
falência (Baestaens,1994), Chapetta et al.(1997,1999) e Espenchitt et al.(2000).
O crescimento do número empresas comerciais que decretaram falência com a crise
econômica vivida nos últimos tempos, tem recebido especial atenção. A necessidade de um bom
sistema de tomada de decisão, que possibilite previsões confiáveis sobre o futuro do
comportamento das empresas tornou-se desejável e justificável. Novas técnicas de previsão que
possam prover advertências antecipadas, que permitam os ajustes necessários para a estabilidade
econômica destas empresas tem sido testadas, entre elas as redes neurais.
Muitas destas técnicas de previsão consistem em classificar uma observação em um entre
vários grupos. Um caso específico deste problema é classificação binária em que o número de
grupos é limitado a dois. Farta literatura tem se dedicado ao assunto (Trippi & Turban, 1993 1
editores). Uma das tradicionais ferramentas nestes estudos tem sido análise discriminante técnica estatística usada para classificar uma observação em um ou mais grupos determinados
anteriormente. Em geral estes métodos possuem uma amostra aleatória de observações definida
por um conjunto de variáveis e gera uma função discriminante que funciona como um
classificador.
O nosso objetivo é comparar um modelo de previsão de insolvência utilizando redes neurais
ao modelo tradicional que utiliza técnicas estatísticas de análise discriminante. Para tal, os índices
contábeis selecionados através de técnicas estatísticas, serão tomados como variáveis de entrada
na rede neural proposta, permitindo uma justa comparação dos modelos.
2. ANÁLISE DISCRIMINANTE
Análise Discriminante, que foi originalmente desenvolvida por Fisher (Cooley & Lohnes,
1971) inclui técnicas de inferências multivariadas e preditivas, objetivando a análise de mais de
um grupo de elementos, buscando encontrar uma regra (combinação de variáveis) baseada na
medição desses elementos, que possibilite diferenciar otimamente os subgrupos e determinar se
essa regra pode ser usada para decidir a qual subgrupo um novo elemento pertence. É apropriada
se as seguintes condições podem ser assumidas: os grupos analisados são discretos e
identificáveis; cada elemento pode ser caracterizado por algumas variáveis; e as variáveis tem
uma distribuição normal multivariada em cada população.
A interpretação geométrica de análise discriminante pode ser vista, para o caso de dois
subgrupos e duas variáveis, através da Figura 1.
Figura 1 – Interpretação Geométrica da Técnica de Análise Discriminante
Os dois conjuntos de elipses concêntricas representam a população bivariada para duas subamostras, A e B, em forma idealizada (supondo todas as condições iniciais). Cada elipse é local
de pontos de igual densidade (ou freqüência) para uma amostra. Os dois pontos a que
correspondem de interseção das elipses definem uma linha reta, II. O objetivo é então, construir
uma outra linha (I), de tal forma que a sobreposição entre as duas amostras seja a menor possível.
Desta forma, se a linha I é construída perpendicular a linha II, a projeção dos dois pontos no
2
espaço bidimensional sobre a linha I, possibilitará menor sobreposição entre os elementos que
para qualquer outra possível reta. A função discriminante transforma as observações
multivariadas das duas populações em observações univariadas de tal forma que os valores destas
observações univariadas sejam discriminadas o máximo possível. O ponto “b” onde II intercepta
I dividirá o espaço discriminante unidimensional em duas regiões, cada uma indicando a região
provável dos elementos da amostra A e a outra região provável para o amostra B. Podemos
observar que a hipótese da igualdade das dispersões das duas amostras tem que ser mantida ou
poderíamos ter as elipses com formas e orientações diferentes e a linha II poderia não ser uma
linha reta.
2.1
Coleta do Conjunto de Exemplos
Consistindo este experimento de duas fases: modelagem e teste, foi escolhida para amostra,
uma população homogênea em relação às características, setor, ramo, região e tempo. O espaço
amostral é o conjunto de empresas de construção civil, montagem industrial e de projetos de
arquitetura/engenharia pesquisadas no período de 1983 a 1993, do Estado do Rio de Janeiro,
prestadoras de serviços à PETROBRÁS S.A.
Da população foram extraídas duas amostras:
G1 - Grupo de empresas com falência requerida ou decretada nesse período.
G2 - Grupo de empresas com excelentes resultados no mesmo período.
O tamanho do conjunto de exemplos de modelagem de analise discriminante ficou restrito a
um total de 83 observações, devido à enorme dificuldade em se obter informações sobre as
empresas pertencentes ao grupo G1, sendo 48 observações do Grupo G2 e 35 do grupo G1 (Costa,
1994).
2.2
O Modelo de Análise Discriminante
Para fins de modelagem utilizando a técnica de analise discriminante, foram replicados os
procedimentos apresentados por Costa (1994), que apresenta uma metodologia estatísticofinanceira para o desenvolvimento de modelo matemático de previsão de falência. Foram
analisados diversos índices financeiros, calculados a partir dos diversos elementos da estrutura do
balanço patrimonial de cada empresa, classificados em três categorias básicas: estrutura, liquidez
e rentabilidade. Primeiramente foram selecionadas as variáveis a partir dos índices econômicosfinanceiros abaixo, encontrados nos dados contábeis disponíveis, definidos pelas equações (1) a
(24).
3
LL (1)
PL
PL (5)
V5 =
AT
RES + LS
V9 =
AT
V1 =
PC (13)
AT
FIC
V17 =
PC + ELP
AC (21)
V21 =
PC
AC + RLP
AT
AP (6)
V6 =
PL
ELP (10)
V10 =
CAP
V2 =
(9)
V13 =
EST (14)
AT
FIC (18)
V18 =
AC
AC − PC
V22 =
AT
(2)
V14 =
(17)
AC − EST (3)
PC
PC + ELP (7)
V7 =
PC
FORN (11)
V11 =
DISP
AC + RLP (4)
PC + EXLP
PC + ELP (8)
V8 =
AT
DISP (12)
V12 =
AT
PC
PC + ELP
FIC (19)
V19 =
PL
LL
(23)
V23 =
AT
FIC (16)
AT
DISP (20)
V20 =
AP
LB (24)
V24 =
AT
V3 =
V15 =
(22)
V4 =
(15)
V16 =
onde as siglas são descritas por:
PL
PC
= Passivo Circulante RLP
AT
= Ativo Total
EST
EXLP = Exigível a L.Prazo AP
LS
= Lucros suspensos CAP
DISP = Disponível
FIC
LL
= Lucro Liquido
= Patrimônio Líquido
AC
= Ativo Circulante
= Recuperável à Longo Prazo RCP = Recup. à C. Prazo
= Estoques
DA
= Desp.Antecipadas
= Ativo Permanente
RES = Reserva
= Capital
FORN = Fornecedores
= Financ.de Instit.de Crédito LB
= Lucro Bruto
Foram selecionadas as seguintes variáveis quantitativas: V2, V5, V6, V9, V12, V1 3, V16, V17,
V20 e V22, a partir dos índices financeiros descritos acima, dando origem ao seguinte modelo de
análise discriminante linear, definido através da equação (25).
Z = k0+ k1V02+k2V05+k3V06+k4V09+k5V12+k6V13+k7V16+k8V17+k9V20+k10V22
(25)
sendo os valores dos coeficientes Ki são apresentados na tabela I.
Coef.
Valor
Coef.
Valor
Coef.
Valor
Coef.
Valor
Ko
-4,7695175
K3
0,8445401
K6
4,6183464
K9
1,1066149
K1
-0,3728222
K4
3,5382459
K7
8,6222643
K10
-0,4526973
K2
3,2959519
K5
-2,6797205
K8
-3,3500516
Tabela I – Coeficientes do Modelo de Análise Discriminante
Definido o modelo de análise discriminante, resta demonstrar a validade da previsão dos
elementos de cada amostra, através dos modelos de classificação.
A regra de alocação mais simples, consiste em calcular os valores médios de y para cada
amostra (centróide) e depois o ponto médio entre elas. O valor yki correspondente a uma
4
determinada observação de Xki é comparado ao valor deste ponto médio. Se yki estiver entre o
ponto médio das amostras e o y correspondente ao centróide da k-ésima amostra, aloca-se yki a
essa amostra (Costa, 1994).
O emprego do modelo consiste em aplicar a equação (25), a partir dos índices obtidos dos
dados contábeis da empresa sob avaliação e comparar o valor obtido com média total dos
centróides dos grupos 1 (empresas falidas) e 2 (empresas saudáveis). Firmas que obtivessem
valores acima da média dos centróides apresentariam tendência a falência, caso contrário, não
apresentariam tendência a falir.
3. REDES NEURAIS
Redes neurais artificiais representam uma modelagem simplificada do mecanismo de
aprendizagem do cérebro humano. Nenhum cérebro humano pode resolver problemas complexos,
como inverter matrizes, com a velocidade comparada à dos computadores. Da mesma forma a
nenhum computador atualmente, pode se comparar a habilidade humana de por exemplo,
reconhecer imagens e sons. A performance da atual tecnologia de reconhecimento de fala estaca
quando comparada a performance do humano adulto, que facilmente reconhece a fala de várias
pessoas, em diferentes tons e intensidade, mesmo quando imperfeitas.
Esta característica do cérebro deve-se ao fato deste usar um alto grau de paralelismo de
neurônios, altamente agrupados e interconectados, formando redes, trabalhando juntas para
resolver problemas. Cada um destes neurônios biológicos realiza uma tarefa simples. A resolução
de problemas complexos advém do alto grau de paralelismo da rede.
Baseado nestas características verificou-se existirem razões que justificassem o uso de
computação paralela na resolução de certos problemas, que envolvem processos, como o de
aprendizado, memória, percepção, visão e pensamento, apropriados do sistema nervoso das
criaturas humanas. O que necessariamente não significa copiar na íntegra as funções cerebrais, e
sim tentar modelá-las de uma forma simplificada, uma vez que não existe ainda conhecimento
total das atividades cerebrais humanas.A analogia mais elementar entre o sistema nervoso
biológico e as redes neurais artificiais é que cada um consiste de grande número de elementos neurônio (biológico e artificial) - que “aprendem” e quando agrupados são capazes resolver
problemas considerados complexos.
Certos tipos de redes neurais, como a utilizada neste artigo, usam forma de aquisição e
representação do conhecimento via treinamento (aprendizado) supervisionado, ou seja, é
realizado mediante o fornecimento de um conjunto de exemplos representativos de um problema
que permita a associação entre variáveis dependentes e independentes do mesmo (Haykin, 1999).
Em 1943, McCulloch & Pitts, propuseram um modelo simplificado de um neurônio
biológico. Este neurônio artificial é um simples operador que primeiro calcula o valor líquido (h)
de suas entradas, através da equação (26), e a seguir verifica se o valor ultrapassa o limite de
ativação, gerando uma saída O (Figura 2).
n
h = ∑ Wi I i
(26)
i =1
onde
Wi são chamados de pesos nos modelos artificiais;
Ii são exemplos de entrada (variáveis independentes) fornecidos aos neurônios artificiais;
n é a dimensão do espaço das entradas;
h é chamada entrada líquida (somatório ponderado das entradas) do neurônio i.
5
I1
I2
.
In
∑
Função
Líquida
h
O
Função de
Ativação
Figura 2 – Neurônio Artificial
Este somatório “h” é a entrada para a segunda parte da unidade, a da função de ativação
“g”, que é descrita como uma função de decisão (ativação) e as saídas “O” são expressas como
g(h).
3.1
Função de Ativação
A regra de ativação se refere ao tipo de transferência usada para descrever a saída de uma
unidade, dada sua entrada líquida h. A seleção da função de ativação (g) é, então, determinada
pela natureza dos dados e natureza do que a rede está modelando. Há diferentes tipos de função
de ativação (Baestaens, 1994). As funções semilineares, são funções contínuas tendo primeira
derivada contínua, sendo as mais importantes as sigmóides, entre elas, a função logística e a
tangente hiperbólica: Esta preferência se deve ao fato destas funções serem contínuas com
imagem limitadas a um intervalo fixo, possibilitando a utilização em procedimentos de
otimização não lineares tradicionais, tais como gradiente decrescente e gradiente conjugado.
Neste trabalho foi empregada como função de ativação, a função logística.
Se “g’” é função logística, suas saídas estão no intervalo [0, 1] e é definida pela equação
(27), com representação gráfica apresentada na Figura 3. A popularidade desta função de ativação
também se deve ao fato de sua derivada poder ser expressa em função da própria função, como
pode ser verificado através da equação (28), o que contribui para a agilização do algoritmo de
treinamento.
1
(27)
1 + e − 2 βh
g ′(h) = 2 β g (h) [ 1 − g ( h )] (28)
g ( h) =
Figura 3 - Gráfico da Função Logística
6
3.2
Conceitos e Representações Gráficas dos Elementos da Arquitetura da Rede
Os seguintes termos são utilizados ao se fazer referência a elementos da estrutura da Rede
Neural, tais como:
• Elementos de processamento = neurônios artificiais ou unidades
• Topologia = número de camadas + número de unidades por camada
• Arquitetura = Topologia + tipo de unidades + Conjunto de parâmetros livres (pesos e “bias”).
Temos então que representar um conjunto de entradas que são aplicadas a uma unidade, que
baseada nestas, responde com uma saída, sendo a importância de cada entrada na saída,
representada nos pesos e “bias”. As conexões dos diversos elementos de processamento
(neurônios artificiais) arrumados em diversas camadas formam a estrutura de uma rede neural
artificial. Essas camadas podem ser classificadas como de entrada, saída ou escondida. A
camada de entrada, comumente conhecida como camada “0” recebe as informações do meio
ambiente, apenas difundindo estas entradas para as camadas seguintes. A camada de saída
transmite a resposta da rede neural para o meio externo, de acordo com a entrada aplicada na
camada “0”. As camadas escondidas são as que não se comunicam com meio externo. Suas
entradas são saídas de outras unidades de processamento e suas saídas se constituem em entradas
para outras unidades da rede. As redes neurais podem não possuir camadas escondidas e, neste
caso, são denominadas redes de camadas simples. A arquitetura de rede neural utilizada neste
trabalho é denominada de “feedforward” pura., por apenas apresentar ligações de unidades de
uma camada e a imediatamente superior.
3.3. Aprendizagem
A “aprendizagem” da rede é realizada na fase da modelagem denominada treinamento.
Destina-se a aquisição de conhecimento, através da determinação dos parâmetros do modelo
(pesos e “bias”) que são atribuídos à rede, de modo a esta representar uma função de
transferência entre entradas e saídas. O algoritmo utilizado neste trabalho foi o algoritmo
Eliminação de Pesos (Weight Elimination) que teve sua técnica descrita por Weigend (1991),
com as modificações introduzidas por Oliveira (1999) e Carvalho (1999).
Esta classe de soluções de redes neurais, parte do princípio que a realização do treinamento
deve ser iniciada com uma rede maior do que a necessária e que esta será dinamicamente podada
(removendo partes da rede) das ligações e unidades desnecessárias, facilitando assim a resolução
dos problemas de dimensionamento da rede e escolha de variáveis explicativas relevantes ao
modelo.
Como inicialmente a rede é grande, possui graus de liberdade suficientes para acomodar
rapidamente as características gerais dos dados de entrada de uma forma pouco sensível às
condições iniciais e aos mínimos locais. Após a acomodação inicial então a rede pode ser podada
de forma a realizar um “trade-off” entre a complexidade da rede e seu poder de generalização,
eliminando as características não relevantes do conjunto de treinamento, favorecendo a
generalização.
Como a hipótese dos algoritmos de poda é de que a menor rede, que seja capaz de
responder aos padrões de treinamento, é a que apresentará a melhor generalização, surgiu a idéia
de dividir a função de custo em uma soma de dois termos, um representando o custo devido ao
erro (performance) e outro representando o custo devido à complexidade da rede. Esse termo
adicional é chamado de termo de penalização, na medida que representa a penalização que a
função de custo sofre devido à complexidade da rede. A tendência é que, após o período de
7
acomodação, haja uma redução na complexidade da rede, forçada pela tendência de que pesos
sejam levados para zero para atender à minimização do custo de complexidade.
Weigend (1991) propôs um termo de penalização da forma
wi2 w02
λ∑
(29)
2
2
i∈C 1 + wi w0
onde
C é o conjunto de conexões;
w0 é uma constante que objetiva ponderar o valor dos pesos (fator de escala);
wi é um elemento do conjunto de conexões.
λ é um parâmetro que representa o grau de importância de um termo em relação ao outro.
Para wi >> w0 o custo de complexidade se aproxima de λ. Para wi << w0 o custo de
complexidade se aproxima de zero. λ é um parâmetro que dá maior ou menor relevância ao custo
de complexidade de acordo com uma heurística escolhida durante o treinamento (Carvalho,1999
e Oliveira 1999).
4. Metodologia
As seções seguintes descrevem os vários passos da fase de experimento deste trabalho:
Coletar o conjunto de exemplos; Pré-processar-lo; Escolher a arquitetura da rede neural;
Parametrizar o modelo.
4.1 - Coleta do Conjunto de Exemplos
A coleta do conjunto de exemplos, evitando a presença de ruídos, se constitui em importante
aspecto na modelagem de processos coneccionistas. Os exemplos coletados antes de processados
deverão ser analisados, o que pode ser realizado através de uma inspeção visual dos exemplos, ou
por outros métodos estatísticos (Azoff, 1994). O objetivo é identificar as características
específicas do conjunto, eliminando aqueles considerados erráticos (“outliers”).
Neste experimento apresentou duas fases: treinamento (modelagem) e teste (performance). O
conjunto de exemplos foi o mesmo utilizado na modelagem com analise discriminante (Costa
1994), permitindo a melhor análise comparativa entre os modelos, que se constitui um dos
objetivos deste trabalho.
Foi escolhida para a amostra, uma população homogênea em relação às características, setor,
ramo, região e tempo. O espaço amostral é o conjunto de empresas de construção civil,
montagem industrial e de projetos de arquitetura/engenharia pesquisadas no período de 1983 a
1993, no Estado do Rio de Janeiro, prestadoras de serviços à PETROBRÄS.
Da população foram extraídas duas amostras:
G1 - Grupo de empresas com falência requerida ou decretada nesse período.
G2 - Grupo de empresas com excelentes resultados no mesmo período.
4.2. Pré-processamento do Conjunto de Exemplos
4.2.1. Identificação das Variáveis
Uma importante decisão no processo de modelagem é determinar que indicadores (variáveis
explicativas) são relevantes ao modelo, sendo fundamental identificar se existe alguma relação
8
entre eles. Isto significa investigar se uma variável é significante por si ou se a presença de outra
variável a torna significante ao processo.
Foram selecionadas as seguintes variáveis quantitativas: V2, V5 , V6 , V9 ,V12 , V13, V16, V17,
V20 e V22, anteriormente descritos, a partir dos índices financeiros descrito selecionadas nos
procedimentos de modelagem por analise discriminante, realizado por Costa (1994)
4.2.2. Tratamento Numérico das Variáveis
Como a função de ativação, usada no algoritmo de aprendizagem foi a função logística, que
tem valores de saída variando entre 0 e 1, os dados de entrada precisaram ser normalizados. Os
valores das 10 variáveis foram calculados em planilhas Excel, através da equação (30).
( X - X1)
Y = 
( X2 - X1)
(30)
onde
Y = Valor normalizado de X;
X1 = Valor mínimo para cada variável
X = Valor atual para cada variável
X2 = Valor máximo para cada variável
4.3 - Escolha da Topologia da Rede Neural
As 10 variáveis selecionadas entre os coeficientes contábeis propostos foram representadas
por 10 nós de entrada e um nó de saída representou a decisão de classificação binária: 0 - para
representar as empresas falidas; 1 - para representar as empresas saudáveis.
Não existem regras, com embasamento teórico, para selecionar o de nós escondidos a serem
usados inicialmente em uma rede, apenas uma heurística de que a rede deve ser inicialmente
grande o suficiente para acomodar o modelo. A estrutura utilizada, neste estudo, teve uma
camada escondida com oito camadas.(Espenchitt et al, 2000)
4.4 - Treinamento
4.4.1 - Dinâmica do Treinamento
Esta fase destina-se a aquisição de conhecimento, através da determinação dos valores para
os pesos e bias, que são atribuídos à rede, de modo a encontrar uma função de transferência entre
entradas e saídas. O treinamento da rede pode ser supervisionado (utilizado neste estudo), onde o
conjunto de treinamento se constitui em entradas e saídas (valores desejados) correspondentes.
As redes neurais do tipo “feedforward” e treinamento supervisionado podem ser vistas como
um problema de otimização, onde o objetivo é minimizar uma medida de erro entre os valores
calculados pelo modelo e os valores desejados, para um certo conjunto de exemplos.
Uma boa representação do problema de otimização é considerar a superfície de erro com
uma dimensão para cada parâmetro. Tendo em vista que a função de ativação é não linear, esta
superfície é altamente irregular. O objetivo do procedimento de minimização é então, encontrar
um mínimo global, que ocorre quando há convergência na aprendizagem, sendo necessária a
utilização de um algoritmo de aprendizagem que busque nesta superfície, alcançar o mínimo
global desta.Em problemas práticos muitas vezes o mínimo global não é atingido, sendo
satisfatória uma solução parcial que atenda a critérios de erros aceitáveis para o problema.
Durante o treinamento, é feita a apresentação repetida do conjunto de padrões de
treinamento, atribuindo valores aos parâmetros - taxa de aprendizagem e momento -, sendo os
9
pesos da rede alterados ao final de cada ciclo e adaptados gradualmente, provendo a melhor
aproximação entre função da rede e a função de transferência geral.
Neste estudo usamos uma rede neural com algoritmo de poda, onde as variáveis de entrada
foram as mesmas utilizadas em Costa (1994) com a finalidade de comparação desta nova
alternativa com o modelo citado anteriormente. O valor da saída da rede foi assumido “0” para as
empresas insolventes e “1” caso contrário. Os conjuntos de treinamento e teste foram os mesmos,
utilizados no estudo citado.
Começamos usando uma rede com 40 unidades na camada intermediária, porém o resultado não foi
satisfatório, uma vez que a rede dispunha de um grau de liberdade muito alto o que permitia o aprendizado
dos “ruídos” dos padrões de treinamento.
Como descrito na literatura, uma das dificuldades em se trabalhar com redes neurais é o
dimensionamento do seu tamanho. Foram treinadas várias redes com diferentes unidades
(35,30,25,20,15,10 e 8) na camada intermediária e a que apresentou melhor resultado no treinamento, foi a
com oito unidades na camada intermediária. A partir deste ponto foram rodadas mais quatro redes com
oito unidades na camada intermediária a partir de conjuntos de inicialização distintos aleatoriamente
gerados a partir de uma distribuição uniforme [-0,25 ; 0,25].
Para se medir a performance do modelo foram considerada as médias de acertos individuais
de cada uma das cinco redes rodada e a respectiva média utilizada como a previsão final do
modelo.
5 Resultados
No quadro abaixo são indicados os números absolutos e os percentuais de previsões
corretas e incorretas de cada modelo, em relação a amostra de 12 empresas falidas e 20 não
falidas. No caso das redes Neurais são apresentados os resultados de cada um dos modelos, bem
como da média dos resultados.
Modelo
Análise Discriminante
Rede Neural 1
Rede Neural 2
Rede Neural 3
Rede Neural 4
Rede Neural 5
Rede Neural Geral
Não Falidas
Corretas Incorretas Total
17
85%
18
90%
18
90%
17
85%
17
85%
18
90%
18
90%
3
15%
2
10%
2
10%
3
15%
3
15%
2
10%
2
10%
20
100%
20
100%
20
100%
20
100%
20
100%
20
100%
20
100%
Falidas
Corretas Incorretas
9
75%
9
75%
9
75%
9
75%
10
83,3%
11
91,7
10
83,3%
3
25%
3
25%
3
25%
3
25%
2
16,7
1
8,3
2
16,7
Total
12
100%
12
100%
12
100%
12
100%
12
100%
12
100%
12
100%
Tabela II – Resultados por tipo de modelo e grupo de empresa
10
Vale ressaltar que o modelo de rede neural global representa o número de acertos que
tivemos fazendo a média das saídas de cada modelo e não a média de acertos dos modelos. O
critério para acerto ou não acerto para qualquer modelo de rede neural neste caso foi de:
≥ 0,5 − não falida
Valor Previsto 
 < 0,5 − falida
Observamos ainda que é normal a variação nos resultados dos modelos de rede neural,
devido a complexidade de superfície a ser explorada e os diferentes pontos de inicialização do
processo de otimização, portanto é recomendado que se faça o uso de modelos gerais, como o
utilizado neste trabalho.
Sob o aspecto de acertos e erros totais, isto é, quantidade de acertos e erros em ambos os
casos, os resultados são apresentados na Tabela III.
Modelo
Corretas
Incorretas
Análise Discriminante
81%
19%
Redes Neurais Geral
88%
12%
Tabela III – Resultados Gerais dos Modelos
6. Conclusões
Dos resultados acima podemos concluir que, neste caso, para o conjunto de exemplos
utilizado, o modelo de rede neural apresentou performance superior ao modelo de análise
discriminante apresentado. Embora não possamos garantir a melhor performance dos modelos de
redes neurais em qualquer caso, este estudo vem a corroborar com as conclusões de estudos
realizados em outros países (Trippi & Turban - editor, 1993), permitindo sugerir que o modelo
redes neurais representa uma boa ferramenta alternativa de previsão, que deve ser utilizada em
trabalhos futuros.
7. BILIOGRAFIA
AZOFF, E. M., Neural Network Time Series Forecasting of Financial Markets. Chicester: John
Wiley & Sons Ltd., Baffins Lane, 1994.
BAESTAENS, E. D., BERGH, V. M. W., WOOD, D., Neural Network for Trading in Financial
Markets, Pitman Publishing, Great Britain, 1994.
BERRY, H. R., TRIGUEIROS, D., Applying Neural Networks to the Extraction of Knowledge
form Accounting Reports: A Classification Study, in Robert R. Trippi & Efrain Turban ed.,
Neural Network in Finance and Investing, Probus Publishing Company, Chicago, Illinois,
USA, cap. 6, pp.103-122, 1993.
CHAPETA, M. G. A., Aplicação de Redes Neurais na Previsão de Falência de Empresas
Prestadoras de Serviços à Petrobrás, Dissertação de Mestrado, Departamento de
Engenharia de Produção, Universidade Federal Fluminense, Niterói – RJ,1997.
CHEUNG, F. L., LEE, T., A Node Pruning Algorithm for Backpropagation Networks, in
International Journal of Neural Systems, vol. 3, pp.301-314, 1992.
11
COAKLEY, J. R., McFARLANE, D. D., PERLEY, G., Alternative Criteria for Evaluating
Artificial Neural Network Performance, presented at TIM/ORSA Joint National Meeting,
April 1992.
COOLEY, W. W., LOHNES, R. P., Multivariate Data Analisys, John Willey & Sons, Inc. New
York, USA, cap. 8, 9 and 10, pp.223-286, 1971.
COSTA, L. A., Estudo de um Modelo Matemático para Avaliação Financeira de Empresas
Prestadoras de Serviço à Petrobrás, Dissertação de Mestrado em Engenharia de Produção,
Universidade Federal Fluminense, RJ, Brasil, 1994.
DUTTA S., SHEKHAR S., Bond Rating: A Non Conservative Application of Neural Network in
Finance and Investing, in Robert R. Trippi & Efrain Turban ed., Neural Network in
Finance and Investing, Probus Publishing Company, Chicago, Illinois, USA, cap14,
pp.257-276, 1993.
ESPENCHITT, D. G., LACHTERMACHER, G. & GOMES, L. F. A. M, O Uso de Redes
Neurais com Algoritmo de Poda na Previsão de Falência de Empresas, Anais do XXXII
Simpósio Brasileiro de Pesquisa Operacional, Viçosa - MG, 2000
ESPENCHITT, D. G., LACHTERMACHER, G., Previsão de Falência de empresas, utilizando
Redes Neurais com Algoritmo de Poda, Revista ANGRAD, vol. 1, nº1, pp 73-81, São
Paulo, SP, jul/set 2000.
ESPENCHITT, D. G., Uma Nova Visão no Uso de Redes Neurais na Previsão de Falência de
Empresas, Dissertação de Mestrado em Engenharia de Produção, Universidade Federal
Fluminense, Niterói,RJ, 2000.
ESPENCHITT, D. G., LACHTERMACHER, G.& CUNHA, A. G. G., Cuidado no Uso de
Algoritmo de Poda em Redes Neurais, Trabalho, Anais do V Congresso Brasileiro de
Redes Neurais, Rio de Janeiro, Rj, abril 2001.
GASPAR, L. A. R., LACHTERMACHER, G., Uso de Tecnologia de Informação Avançada no
Apoio à Tomada de Decisão em Finanças. Rbmec - Revista Brasileira de Mercado de
Capitais, V. 20, Nº 49, Jan/Jun 1995, pp.35-80.
GORR, W., NAGIN, D., SZCYPULA, J., The Relevance os Artificial Neural Networks to
Managerial Forecasting; an Analysis and Empirical Study, Technical Report 93-1, Heinz
School of Public Policy and Management, Carnegie Mellon University, Pittsburgh, PA,
USA, December 1992.
HAYKIN, S., Neural Networks - A Comprehensive Foundation. Toronto: Macmilan College
Publishing Company, 1991.
HEBB, D. O., The Organization of Behaviour in Neurocomputing - Foundations of Research, ed.
Anderson, James A. and Rosenfeld, Edward, MIT Press, Cambridge, Massachusetts, pp.4556,1988.
HERTZ, J., KROGH A., PALMER R. G., Introduction to Theory of Neural computation,
Addison-Wesley Publishing Co., Don Mills, Ontario, Chapters 1,5 and 6, pp.1-8 and 89156, 1991.
HOPFIELD, J. J. , Neural Networks and Physical Systems with Emergent Collective
Computacional Abilities. Proc. Nat. Acad. Sci.,v.79, pp. 2554-8, 1982.
HOPTROFF, R. G., BRAMSON, M. J., HALL, T. J., Forecasting Economic Turning Points
with Neural Networks, in Proc. of the IEEE/Interantional Joint Conference of Neural
Networks, Vol.I, pp.347-352,1991.
KLIMASAUSKAS, C. C. C., Neural Networks Techniques, in DEBOECK, G. J. Editor, Trading
on the Edge. USA - New York: John Wiley & Sons, 1994.
12
LACHTERMACHER, G., GASPAR, L. A. R., Neural Networks in Derivative Securities Pricing
Forecasting in Brazilian Capital Markets, apresentado no Third International Conference
on Neural Network in Capital Markets , London, England, Ed. Refenes, 1996.
LACHTERMACHER, G., FULLER, J. D., Backpropagation in Time Series Analiysis, PHD
Thesis, Depart. of Management Sciences, University of Waterloo, Ontario, Canada, 1993.
LACHTERMACHER, G., Sistemas de Previsão de Séries Temporais Utilizando Redes Neurais,
em Pesquisa Operacional, Vol 12, Nº 2, Dezembro, 1992.
LACHTERMACHER, G., A New Heuristic for Backpropagation in Neural Networks, Master’s
Thesis, Department of Management Sciences, University of Waterloo, 1991.
LACHTERMACHER, G, CHAPETTA, M:G:A, Aplicação de Redes Neurasi na Previsão de
Falência de Empresas, Revista Pesquisa Naval nº12,pp 227-250, Rio d Janeiro, Rj,1999.
LANG, K. J., HINTON, G. E., A Time-delay Neural Network Architeture for Isolated Word
Recognition, in Neural Networks, Vol. 3, pp.23-43,1990.
LANG, K. J., HINTON, G. E., Dimensionality Reduction and Prior Knowledge in E-Set
Recogniton, in D. S. Touretsky ed., Advances in Neural Information Processing 2, pp.598605, Morgan Kaufmann Publ., 1990.
LAPEDES, A., FARBER, R., Nonlinear Signal Processing using Neural Networks: Prediction
and System Modelling, Technical Report LA-UR - *&-2662, Los Alamos National
Laboratory, 1987.
LAPEDES, A., FARBER, R., How Neural Nets Works, in Neural Information Processing
Systems, ed. Dana Z. Anderson, pp.442-456, American Institute of Phisics, New York,
1988.
LEE, K. Y., CHA, Y.T., KU, C. C., A Study on Neural Networks for Short-term Load
Forecasting, in Proceedings of the First Forum on Application of Neural Networks to
Power Systems, pp.26-30, Seattle, Washington, 1991.
MAROSE, A. R., A Financial Neural Network Application, in Robert R. Trippi & Efrain Turban
ed., Neural Network in Finance and Investing, Probus Publishing Company, Chicago,
Illinois, USA, cap. 4, pp.75-82, 1993.
McCULLOCH, W. S., PITTS W. H., A Logical Calculus of the Ideas Immanent in Nervous
Activty, Bulletin of Math Biophisycs 5, pp.115-133, 1943.
MINSKY, M. PAPERT S., Perceptrons, in Neurocomputating - Foundations of Research, ed.
Anderson, James A. and Reosenfeld, Edward, MIT Press, Cambridge, Massachusetts, pp.
161-169, 1988.
NOWLAN, S., HINTON, G. E., Simpliflying Neural Networks by Soft Weigh-sharing, in Neural
Computation, Vol.4, pp.473-493, 1992.
PERGINI, N. K., ENGELER, W. E., Neural Network Learning Time: Effects of the Neural
Network and Training Set Size, in Proc. of the IEEE/International Joint Conference of
Neural Networks, Vol 2, pp.395-401, 1989.
RAGHUPATHI, W., SCHKADE, L., RAJU, B., A Neural Network Approch to Bankruptcy
Prediction, in Robert R. Trippi & Efrain Turban ed., Neural Network in Finance and
Investing, cap. 8, pp. 141-157, Probus Publishing Company, Chicago, Illinois, USA, 1993.
RAHIMIAN E., SINGH., THAMMCHOTAND T., ZIRMANI R., Bankruptcy Prediction, by
Neural Network, in Robert R. Trippi & Efrain Turban ed., Neural Network in Finance and
Investing, Probus Publishing Company, Chicago, Illinois, USA, cap. 9, pp.159-176, 1993.
RIGLER, A. K., IRVINE, J.M., VOGL, T. P., Rescaling of Variables in Backproapagation
Learning, in Neural Networks, pp.225-229, 1991.
13
ROSENBLATT, F., The Perceptron: A Probabilistic Model for Information Storage and
Organization in the Brain, Psychological Review 65, pp.386-408, 1958.
RUMELHART, D. E., MccLELLAND J. L., AND THE PDP RESEARCH GROUP, Parallel
Distributed Processing: Explorations in Microstructure of Cognition. Vol. 1: Foundations,
MIT Press, Cambridge, Massaachsetts, USA, 1986.
ODOM, D. M., SHARDA, R., A Neural Network Model for Bankruptcy Prediction, in Robert R.
Trippi & Efrain Turban ed., Neural Network in Finance and Investing, Probus Publishing
Company, Chicago, Illinois, USA, cap.10, pp.177-185, 1993.
PINCHES, E. G., Classification Results and Multiple Discriminant Analisis, University of
Kansas-Lawrence,Working Paper Nº. 116, September, 1978
SALCHENBERGER, M. L., CINAR, M. E., LASH, N., Neural Networks: A New Tool for
Predictin Thrift Failures, in Robert R. Trippi & Efrain Turban ed., Neural Network in
Finance and Investing, Probus Publishing Company, Chicago, Illinois, USA, cap.13,
pp.229-253, 1993.
SMITH, M., Neural Networks for Satatistical Modelling. New York; Van Nostrand Reinhold,
1993.
SURKAN, A., SINGLETON, J., A Neural network for Bond Rating Improved by Multiple
Hidden Layers, in Robert R. Trippi & Efrain Turban ed., Neural Network in Finance and
Investing, Probus Publishing Company, Chicago, Illinois, USA, cap15, pp.275-288, 1993.
AM, Y. K., KIANG, Y. M., Managerial Applications of Neural Networks: The Case of Bank
Failure Predictions, in Robert R. Trippi & Efrain Turban ed., Neural Network in Finance
and Investing, Probus Publishing Company, Chicago, Illinois, USA, cap.12, pp.193-224,
1993.
VOGL, T., MANGIS, J., RIGLER, A., ZINK, W., ALKON, D., Accelerating the Convergence of
the Backpropagation Method, Biological Cybernetics, Vol. 59, pp.257-263, 1988.
WATROUS, R. L., Learning Algorithms for Connectionist Networks: Applied gradient Methods
of Nonlinear Optimization, in Proc. of IEEE/First International Conference on Neural
Networks, Vol. 2, pp.619-627, 1987.
WEIGEND, A. S., RUMELHART, D. E., HUBERMAN, B. A., Backpropagation, Weightelimination and Time Series Prediction, in Connectionist Models - Proc. of the 1990
Summer School, Edited by D. S. Touretzky, J. L. Elman, T. J. Sejnowski, G. E. Hinton,
Morgan Kaufmann Publishers, Inc.,1991.
WEIGEND, A. S., ZIMMERMANN, H. G., NEUNEIER, R., Clearning, Proc. of the Third
International Conference on Neural Networks in the Capital Markets, Londres, Inglaterra,
Outubro, 1996.
WELSTEAD, S. T., Neural Network and Fuzzy Logic Applications in C/C++. New York: John
Wiley & Sons, 1994.
WERBOS, P. J., Beyond Regression: New Tools of Predictions and Analisys in the Behavioral
Sciences. PhD Thesis, Havard University, 1974.
WIDROW, B., LEHR, A. M., Neural Networks - Theoritical Foundations and Analysis, in proc.
of the IEEE - The Institute of Electrical and Ectronics Engineers, Inc. New York, vol. 78,
1990, pp 1415-1442.
YOON, Y., SWALES, JR, G., MARGAVIO, M., A Comparison of Discriminat Analisys Versus
Artificial Neural Networks, in J. Opl. Res. Soc., Vol.44, Nº 1, pp.51-60, 1993
14
Download