Previsão de Falência de Empresas: Estudo de Generalização de Redes Neurais Autoria: Gerson Lachtermacher e Dilson Godoi Espenchitt Resumo O objetivo deste trabalho é comparar o desempenho de um modelo de previsão de insolvência utilizando rede neural apresentando topologia do tipo multicamada perceptron parafrente, que adquire conhecimento empírico através do algoritmo de aprendizagem “weightelimination”, ao desempenho de um modelo tradicional que utiliza a técnica estatística de análise discriminante, aplicados à empresas prestadoras de serviços à Petrobrás/ S.A. Foi empregado o universo de empresas de construção civil de projetos de engenharia e de montagem industrial do Estado do Rio de Janeiro. A fim de verificarmos o poder de generalização dos modelos de redes neurais, foram feitas 5 simulações distintas, com conjuntos de inicialização aleatoriamente gerados a partir de uma distribuição uniforme. Foram considerados os números de acertos individuais dos modelos para medir a performance global. Realizamos a comparação entre os modelos de rede neural (individualmente e em grupo) e o de análise discriminante para o mesmo conjunto de exemplos reais coletados. Os resultados obtidos pelos modelos de rede neural foram superiores aos apresentados pelo modelo de análise discriminante em um conjunto de teste “out of sample”. 1. Introdução Após alguns períodos consecutivos de euforia e cepticismo marcaram a área de pesquisa de redes neurais. Alguns dos marcos destes períodos foram nos anos 40 o modelo matemático que represntava um neurônio biológico de McCulloch & Pitts (1943); na década de 60 com o teorema da convergência do perceptron com Rosenblatt (1959) e a contestação de Minsky & Papert (1969); o processo de energia de Hopfield (1982-1984). A era moderna de redes neurais foi iniciada com a vasta utilização de estruturas multicamadas com algoritmo de aprendizagem de retropropagação, divulgado por Rumelhart et al. (1986) e suas extensões. Desde então o interesse em redes neurais teve um crescimento explosivo, sendo cada vez maior seu campo de aplicação. Redes Neurais, como método de previsão, já utilizada por diversos autores, entre eles: Lapedes & Faber (1987, 1988), Weigend (1990), Weigend et al. (1990, 1991), Nowlan & Hinton (1992) e Lachtermacher (1993). Em problemas que envolvem atividades financeiras, as redes neurais têm se constituído em nova e importante alternativa, sendo utilizada em previsões de fluxo de caixa, estimativa de índice de estoque de mercado, administração de portifólios, análise de crédito e previsões de falência (Baestaens,1994), Chapetta et al.(1997,1999) e Espenchitt et al.(2000). O crescimento do número empresas comerciais que decretaram falência com a crise econômica vivida nos últimos tempos, tem recebido especial atenção. A necessidade de um bom sistema de tomada de decisão, que possibilite previsões confiáveis sobre o futuro do comportamento das empresas tornou-se desejável e justificável. Novas técnicas de previsão que possam prover advertências antecipadas, que permitam os ajustes necessários para a estabilidade econômica destas empresas tem sido testadas, entre elas as redes neurais. Muitas destas técnicas de previsão consistem em classificar uma observação em um entre vários grupos. Um caso específico deste problema é classificação binária em que o número de grupos é limitado a dois. Farta literatura tem se dedicado ao assunto (Trippi & Turban, 1993 1 editores). Uma das tradicionais ferramentas nestes estudos tem sido análise discriminante técnica estatística usada para classificar uma observação em um ou mais grupos determinados anteriormente. Em geral estes métodos possuem uma amostra aleatória de observações definida por um conjunto de variáveis e gera uma função discriminante que funciona como um classificador. O nosso objetivo é comparar um modelo de previsão de insolvência utilizando redes neurais ao modelo tradicional que utiliza técnicas estatísticas de análise discriminante. Para tal, os índices contábeis selecionados através de técnicas estatísticas, serão tomados como variáveis de entrada na rede neural proposta, permitindo uma justa comparação dos modelos. 2. ANÁLISE DISCRIMINANTE Análise Discriminante, que foi originalmente desenvolvida por Fisher (Cooley & Lohnes, 1971) inclui técnicas de inferências multivariadas e preditivas, objetivando a análise de mais de um grupo de elementos, buscando encontrar uma regra (combinação de variáveis) baseada na medição desses elementos, que possibilite diferenciar otimamente os subgrupos e determinar se essa regra pode ser usada para decidir a qual subgrupo um novo elemento pertence. É apropriada se as seguintes condições podem ser assumidas: os grupos analisados são discretos e identificáveis; cada elemento pode ser caracterizado por algumas variáveis; e as variáveis tem uma distribuição normal multivariada em cada população. A interpretação geométrica de análise discriminante pode ser vista, para o caso de dois subgrupos e duas variáveis, através da Figura 1. Figura 1 – Interpretação Geométrica da Técnica de Análise Discriminante Os dois conjuntos de elipses concêntricas representam a população bivariada para duas subamostras, A e B, em forma idealizada (supondo todas as condições iniciais). Cada elipse é local de pontos de igual densidade (ou freqüência) para uma amostra. Os dois pontos a que correspondem de interseção das elipses definem uma linha reta, II. O objetivo é então, construir uma outra linha (I), de tal forma que a sobreposição entre as duas amostras seja a menor possível. Desta forma, se a linha I é construída perpendicular a linha II, a projeção dos dois pontos no 2 espaço bidimensional sobre a linha I, possibilitará menor sobreposição entre os elementos que para qualquer outra possível reta. A função discriminante transforma as observações multivariadas das duas populações em observações univariadas de tal forma que os valores destas observações univariadas sejam discriminadas o máximo possível. O ponto “b” onde II intercepta I dividirá o espaço discriminante unidimensional em duas regiões, cada uma indicando a região provável dos elementos da amostra A e a outra região provável para o amostra B. Podemos observar que a hipótese da igualdade das dispersões das duas amostras tem que ser mantida ou poderíamos ter as elipses com formas e orientações diferentes e a linha II poderia não ser uma linha reta. 2.1 Coleta do Conjunto de Exemplos Consistindo este experimento de duas fases: modelagem e teste, foi escolhida para amostra, uma população homogênea em relação às características, setor, ramo, região e tempo. O espaço amostral é o conjunto de empresas de construção civil, montagem industrial e de projetos de arquitetura/engenharia pesquisadas no período de 1983 a 1993, do Estado do Rio de Janeiro, prestadoras de serviços à PETROBRÁS S.A. Da população foram extraídas duas amostras: G1 - Grupo de empresas com falência requerida ou decretada nesse período. G2 - Grupo de empresas com excelentes resultados no mesmo período. O tamanho do conjunto de exemplos de modelagem de analise discriminante ficou restrito a um total de 83 observações, devido à enorme dificuldade em se obter informações sobre as empresas pertencentes ao grupo G1, sendo 48 observações do Grupo G2 e 35 do grupo G1 (Costa, 1994). 2.2 O Modelo de Análise Discriminante Para fins de modelagem utilizando a técnica de analise discriminante, foram replicados os procedimentos apresentados por Costa (1994), que apresenta uma metodologia estatísticofinanceira para o desenvolvimento de modelo matemático de previsão de falência. Foram analisados diversos índices financeiros, calculados a partir dos diversos elementos da estrutura do balanço patrimonial de cada empresa, classificados em três categorias básicas: estrutura, liquidez e rentabilidade. Primeiramente foram selecionadas as variáveis a partir dos índices econômicosfinanceiros abaixo, encontrados nos dados contábeis disponíveis, definidos pelas equações (1) a (24). 3 LL (1) PL PL (5) V5 = AT RES + LS V9 = AT V1 = PC (13) AT FIC V17 = PC + ELP AC (21) V21 = PC AC + RLP AT AP (6) V6 = PL ELP (10) V10 = CAP V2 = (9) V13 = EST (14) AT FIC (18) V18 = AC AC − PC V22 = AT (2) V14 = (17) AC − EST (3) PC PC + ELP (7) V7 = PC FORN (11) V11 = DISP AC + RLP (4) PC + EXLP PC + ELP (8) V8 = AT DISP (12) V12 = AT PC PC + ELP FIC (19) V19 = PL LL (23) V23 = AT FIC (16) AT DISP (20) V20 = AP LB (24) V24 = AT V3 = V15 = (22) V4 = (15) V16 = onde as siglas são descritas por: PL PC = Passivo Circulante RLP AT = Ativo Total EST EXLP = Exigível a L.Prazo AP LS = Lucros suspensos CAP DISP = Disponível FIC LL = Lucro Liquido = Patrimônio Líquido AC = Ativo Circulante = Recuperável à Longo Prazo RCP = Recup. à C. Prazo = Estoques DA = Desp.Antecipadas = Ativo Permanente RES = Reserva = Capital FORN = Fornecedores = Financ.de Instit.de Crédito LB = Lucro Bruto Foram selecionadas as seguintes variáveis quantitativas: V2, V5, V6, V9, V12, V1 3, V16, V17, V20 e V22, a partir dos índices financeiros descritos acima, dando origem ao seguinte modelo de análise discriminante linear, definido através da equação (25). Z = k0+ k1V02+k2V05+k3V06+k4V09+k5V12+k6V13+k7V16+k8V17+k9V20+k10V22 (25) sendo os valores dos coeficientes Ki são apresentados na tabela I. Coef. Valor Coef. Valor Coef. Valor Coef. Valor Ko -4,7695175 K3 0,8445401 K6 4,6183464 K9 1,1066149 K1 -0,3728222 K4 3,5382459 K7 8,6222643 K10 -0,4526973 K2 3,2959519 K5 -2,6797205 K8 -3,3500516 Tabela I – Coeficientes do Modelo de Análise Discriminante Definido o modelo de análise discriminante, resta demonstrar a validade da previsão dos elementos de cada amostra, através dos modelos de classificação. A regra de alocação mais simples, consiste em calcular os valores médios de y para cada amostra (centróide) e depois o ponto médio entre elas. O valor yki correspondente a uma 4 determinada observação de Xki é comparado ao valor deste ponto médio. Se yki estiver entre o ponto médio das amostras e o y correspondente ao centróide da k-ésima amostra, aloca-se yki a essa amostra (Costa, 1994). O emprego do modelo consiste em aplicar a equação (25), a partir dos índices obtidos dos dados contábeis da empresa sob avaliação e comparar o valor obtido com média total dos centróides dos grupos 1 (empresas falidas) e 2 (empresas saudáveis). Firmas que obtivessem valores acima da média dos centróides apresentariam tendência a falência, caso contrário, não apresentariam tendência a falir. 3. REDES NEURAIS Redes neurais artificiais representam uma modelagem simplificada do mecanismo de aprendizagem do cérebro humano. Nenhum cérebro humano pode resolver problemas complexos, como inverter matrizes, com a velocidade comparada à dos computadores. Da mesma forma a nenhum computador atualmente, pode se comparar a habilidade humana de por exemplo, reconhecer imagens e sons. A performance da atual tecnologia de reconhecimento de fala estaca quando comparada a performance do humano adulto, que facilmente reconhece a fala de várias pessoas, em diferentes tons e intensidade, mesmo quando imperfeitas. Esta característica do cérebro deve-se ao fato deste usar um alto grau de paralelismo de neurônios, altamente agrupados e interconectados, formando redes, trabalhando juntas para resolver problemas. Cada um destes neurônios biológicos realiza uma tarefa simples. A resolução de problemas complexos advém do alto grau de paralelismo da rede. Baseado nestas características verificou-se existirem razões que justificassem o uso de computação paralela na resolução de certos problemas, que envolvem processos, como o de aprendizado, memória, percepção, visão e pensamento, apropriados do sistema nervoso das criaturas humanas. O que necessariamente não significa copiar na íntegra as funções cerebrais, e sim tentar modelá-las de uma forma simplificada, uma vez que não existe ainda conhecimento total das atividades cerebrais humanas.A analogia mais elementar entre o sistema nervoso biológico e as redes neurais artificiais é que cada um consiste de grande número de elementos neurônio (biológico e artificial) - que “aprendem” e quando agrupados são capazes resolver problemas considerados complexos. Certos tipos de redes neurais, como a utilizada neste artigo, usam forma de aquisição e representação do conhecimento via treinamento (aprendizado) supervisionado, ou seja, é realizado mediante o fornecimento de um conjunto de exemplos representativos de um problema que permita a associação entre variáveis dependentes e independentes do mesmo (Haykin, 1999). Em 1943, McCulloch & Pitts, propuseram um modelo simplificado de um neurônio biológico. Este neurônio artificial é um simples operador que primeiro calcula o valor líquido (h) de suas entradas, através da equação (26), e a seguir verifica se o valor ultrapassa o limite de ativação, gerando uma saída O (Figura 2). n h = ∑ Wi I i (26) i =1 onde Wi são chamados de pesos nos modelos artificiais; Ii são exemplos de entrada (variáveis independentes) fornecidos aos neurônios artificiais; n é a dimensão do espaço das entradas; h é chamada entrada líquida (somatório ponderado das entradas) do neurônio i. 5 I1 I2 . In ∑ Função Líquida h O Função de Ativação Figura 2 – Neurônio Artificial Este somatório “h” é a entrada para a segunda parte da unidade, a da função de ativação “g”, que é descrita como uma função de decisão (ativação) e as saídas “O” são expressas como g(h). 3.1 Função de Ativação A regra de ativação se refere ao tipo de transferência usada para descrever a saída de uma unidade, dada sua entrada líquida h. A seleção da função de ativação (g) é, então, determinada pela natureza dos dados e natureza do que a rede está modelando. Há diferentes tipos de função de ativação (Baestaens, 1994). As funções semilineares, são funções contínuas tendo primeira derivada contínua, sendo as mais importantes as sigmóides, entre elas, a função logística e a tangente hiperbólica: Esta preferência se deve ao fato destas funções serem contínuas com imagem limitadas a um intervalo fixo, possibilitando a utilização em procedimentos de otimização não lineares tradicionais, tais como gradiente decrescente e gradiente conjugado. Neste trabalho foi empregada como função de ativação, a função logística. Se “g’” é função logística, suas saídas estão no intervalo [0, 1] e é definida pela equação (27), com representação gráfica apresentada na Figura 3. A popularidade desta função de ativação também se deve ao fato de sua derivada poder ser expressa em função da própria função, como pode ser verificado através da equação (28), o que contribui para a agilização do algoritmo de treinamento. 1 (27) 1 + e − 2 βh g ′(h) = 2 β g (h) [ 1 − g ( h )] (28) g ( h) = Figura 3 - Gráfico da Função Logística 6 3.2 Conceitos e Representações Gráficas dos Elementos da Arquitetura da Rede Os seguintes termos são utilizados ao se fazer referência a elementos da estrutura da Rede Neural, tais como: • Elementos de processamento = neurônios artificiais ou unidades • Topologia = número de camadas + número de unidades por camada • Arquitetura = Topologia + tipo de unidades + Conjunto de parâmetros livres (pesos e “bias”). Temos então que representar um conjunto de entradas que são aplicadas a uma unidade, que baseada nestas, responde com uma saída, sendo a importância de cada entrada na saída, representada nos pesos e “bias”. As conexões dos diversos elementos de processamento (neurônios artificiais) arrumados em diversas camadas formam a estrutura de uma rede neural artificial. Essas camadas podem ser classificadas como de entrada, saída ou escondida. A camada de entrada, comumente conhecida como camada “0” recebe as informações do meio ambiente, apenas difundindo estas entradas para as camadas seguintes. A camada de saída transmite a resposta da rede neural para o meio externo, de acordo com a entrada aplicada na camada “0”. As camadas escondidas são as que não se comunicam com meio externo. Suas entradas são saídas de outras unidades de processamento e suas saídas se constituem em entradas para outras unidades da rede. As redes neurais podem não possuir camadas escondidas e, neste caso, são denominadas redes de camadas simples. A arquitetura de rede neural utilizada neste trabalho é denominada de “feedforward” pura., por apenas apresentar ligações de unidades de uma camada e a imediatamente superior. 3.3. Aprendizagem A “aprendizagem” da rede é realizada na fase da modelagem denominada treinamento. Destina-se a aquisição de conhecimento, através da determinação dos parâmetros do modelo (pesos e “bias”) que são atribuídos à rede, de modo a esta representar uma função de transferência entre entradas e saídas. O algoritmo utilizado neste trabalho foi o algoritmo Eliminação de Pesos (Weight Elimination) que teve sua técnica descrita por Weigend (1991), com as modificações introduzidas por Oliveira (1999) e Carvalho (1999). Esta classe de soluções de redes neurais, parte do princípio que a realização do treinamento deve ser iniciada com uma rede maior do que a necessária e que esta será dinamicamente podada (removendo partes da rede) das ligações e unidades desnecessárias, facilitando assim a resolução dos problemas de dimensionamento da rede e escolha de variáveis explicativas relevantes ao modelo. Como inicialmente a rede é grande, possui graus de liberdade suficientes para acomodar rapidamente as características gerais dos dados de entrada de uma forma pouco sensível às condições iniciais e aos mínimos locais. Após a acomodação inicial então a rede pode ser podada de forma a realizar um “trade-off” entre a complexidade da rede e seu poder de generalização, eliminando as características não relevantes do conjunto de treinamento, favorecendo a generalização. Como a hipótese dos algoritmos de poda é de que a menor rede, que seja capaz de responder aos padrões de treinamento, é a que apresentará a melhor generalização, surgiu a idéia de dividir a função de custo em uma soma de dois termos, um representando o custo devido ao erro (performance) e outro representando o custo devido à complexidade da rede. Esse termo adicional é chamado de termo de penalização, na medida que representa a penalização que a função de custo sofre devido à complexidade da rede. A tendência é que, após o período de 7 acomodação, haja uma redução na complexidade da rede, forçada pela tendência de que pesos sejam levados para zero para atender à minimização do custo de complexidade. Weigend (1991) propôs um termo de penalização da forma wi2 w02 λ∑ (29) 2 2 i∈C 1 + wi w0 onde C é o conjunto de conexões; w0 é uma constante que objetiva ponderar o valor dos pesos (fator de escala); wi é um elemento do conjunto de conexões. λ é um parâmetro que representa o grau de importância de um termo em relação ao outro. Para wi >> w0 o custo de complexidade se aproxima de λ. Para wi << w0 o custo de complexidade se aproxima de zero. λ é um parâmetro que dá maior ou menor relevância ao custo de complexidade de acordo com uma heurística escolhida durante o treinamento (Carvalho,1999 e Oliveira 1999). 4. Metodologia As seções seguintes descrevem os vários passos da fase de experimento deste trabalho: Coletar o conjunto de exemplos; Pré-processar-lo; Escolher a arquitetura da rede neural; Parametrizar o modelo. 4.1 - Coleta do Conjunto de Exemplos A coleta do conjunto de exemplos, evitando a presença de ruídos, se constitui em importante aspecto na modelagem de processos coneccionistas. Os exemplos coletados antes de processados deverão ser analisados, o que pode ser realizado através de uma inspeção visual dos exemplos, ou por outros métodos estatísticos (Azoff, 1994). O objetivo é identificar as características específicas do conjunto, eliminando aqueles considerados erráticos (“outliers”). Neste experimento apresentou duas fases: treinamento (modelagem) e teste (performance). O conjunto de exemplos foi o mesmo utilizado na modelagem com analise discriminante (Costa 1994), permitindo a melhor análise comparativa entre os modelos, que se constitui um dos objetivos deste trabalho. Foi escolhida para a amostra, uma população homogênea em relação às características, setor, ramo, região e tempo. O espaço amostral é o conjunto de empresas de construção civil, montagem industrial e de projetos de arquitetura/engenharia pesquisadas no período de 1983 a 1993, no Estado do Rio de Janeiro, prestadoras de serviços à PETROBRÄS. Da população foram extraídas duas amostras: G1 - Grupo de empresas com falência requerida ou decretada nesse período. G2 - Grupo de empresas com excelentes resultados no mesmo período. 4.2. Pré-processamento do Conjunto de Exemplos 4.2.1. Identificação das Variáveis Uma importante decisão no processo de modelagem é determinar que indicadores (variáveis explicativas) são relevantes ao modelo, sendo fundamental identificar se existe alguma relação 8 entre eles. Isto significa investigar se uma variável é significante por si ou se a presença de outra variável a torna significante ao processo. Foram selecionadas as seguintes variáveis quantitativas: V2, V5 , V6 , V9 ,V12 , V13, V16, V17, V20 e V22, anteriormente descritos, a partir dos índices financeiros descrito selecionadas nos procedimentos de modelagem por analise discriminante, realizado por Costa (1994) 4.2.2. Tratamento Numérico das Variáveis Como a função de ativação, usada no algoritmo de aprendizagem foi a função logística, que tem valores de saída variando entre 0 e 1, os dados de entrada precisaram ser normalizados. Os valores das 10 variáveis foram calculados em planilhas Excel, através da equação (30). ( X - X1) Y = ( X2 - X1) (30) onde Y = Valor normalizado de X; X1 = Valor mínimo para cada variável X = Valor atual para cada variável X2 = Valor máximo para cada variável 4.3 - Escolha da Topologia da Rede Neural As 10 variáveis selecionadas entre os coeficientes contábeis propostos foram representadas por 10 nós de entrada e um nó de saída representou a decisão de classificação binária: 0 - para representar as empresas falidas; 1 - para representar as empresas saudáveis. Não existem regras, com embasamento teórico, para selecionar o de nós escondidos a serem usados inicialmente em uma rede, apenas uma heurística de que a rede deve ser inicialmente grande o suficiente para acomodar o modelo. A estrutura utilizada, neste estudo, teve uma camada escondida com oito camadas.(Espenchitt et al, 2000) 4.4 - Treinamento 4.4.1 - Dinâmica do Treinamento Esta fase destina-se a aquisição de conhecimento, através da determinação dos valores para os pesos e bias, que são atribuídos à rede, de modo a encontrar uma função de transferência entre entradas e saídas. O treinamento da rede pode ser supervisionado (utilizado neste estudo), onde o conjunto de treinamento se constitui em entradas e saídas (valores desejados) correspondentes. As redes neurais do tipo “feedforward” e treinamento supervisionado podem ser vistas como um problema de otimização, onde o objetivo é minimizar uma medida de erro entre os valores calculados pelo modelo e os valores desejados, para um certo conjunto de exemplos. Uma boa representação do problema de otimização é considerar a superfície de erro com uma dimensão para cada parâmetro. Tendo em vista que a função de ativação é não linear, esta superfície é altamente irregular. O objetivo do procedimento de minimização é então, encontrar um mínimo global, que ocorre quando há convergência na aprendizagem, sendo necessária a utilização de um algoritmo de aprendizagem que busque nesta superfície, alcançar o mínimo global desta.Em problemas práticos muitas vezes o mínimo global não é atingido, sendo satisfatória uma solução parcial que atenda a critérios de erros aceitáveis para o problema. Durante o treinamento, é feita a apresentação repetida do conjunto de padrões de treinamento, atribuindo valores aos parâmetros - taxa de aprendizagem e momento -, sendo os 9 pesos da rede alterados ao final de cada ciclo e adaptados gradualmente, provendo a melhor aproximação entre função da rede e a função de transferência geral. Neste estudo usamos uma rede neural com algoritmo de poda, onde as variáveis de entrada foram as mesmas utilizadas em Costa (1994) com a finalidade de comparação desta nova alternativa com o modelo citado anteriormente. O valor da saída da rede foi assumido “0” para as empresas insolventes e “1” caso contrário. Os conjuntos de treinamento e teste foram os mesmos, utilizados no estudo citado. Começamos usando uma rede com 40 unidades na camada intermediária, porém o resultado não foi satisfatório, uma vez que a rede dispunha de um grau de liberdade muito alto o que permitia o aprendizado dos “ruídos” dos padrões de treinamento. Como descrito na literatura, uma das dificuldades em se trabalhar com redes neurais é o dimensionamento do seu tamanho. Foram treinadas várias redes com diferentes unidades (35,30,25,20,15,10 e 8) na camada intermediária e a que apresentou melhor resultado no treinamento, foi a com oito unidades na camada intermediária. A partir deste ponto foram rodadas mais quatro redes com oito unidades na camada intermediária a partir de conjuntos de inicialização distintos aleatoriamente gerados a partir de uma distribuição uniforme [-0,25 ; 0,25]. Para se medir a performance do modelo foram considerada as médias de acertos individuais de cada uma das cinco redes rodada e a respectiva média utilizada como a previsão final do modelo. 5 Resultados No quadro abaixo são indicados os números absolutos e os percentuais de previsões corretas e incorretas de cada modelo, em relação a amostra de 12 empresas falidas e 20 não falidas. No caso das redes Neurais são apresentados os resultados de cada um dos modelos, bem como da média dos resultados. Modelo Análise Discriminante Rede Neural 1 Rede Neural 2 Rede Neural 3 Rede Neural 4 Rede Neural 5 Rede Neural Geral Não Falidas Corretas Incorretas Total 17 85% 18 90% 18 90% 17 85% 17 85% 18 90% 18 90% 3 15% 2 10% 2 10% 3 15% 3 15% 2 10% 2 10% 20 100% 20 100% 20 100% 20 100% 20 100% 20 100% 20 100% Falidas Corretas Incorretas 9 75% 9 75% 9 75% 9 75% 10 83,3% 11 91,7 10 83,3% 3 25% 3 25% 3 25% 3 25% 2 16,7 1 8,3 2 16,7 Total 12 100% 12 100% 12 100% 12 100% 12 100% 12 100% 12 100% Tabela II – Resultados por tipo de modelo e grupo de empresa 10 Vale ressaltar que o modelo de rede neural global representa o número de acertos que tivemos fazendo a média das saídas de cada modelo e não a média de acertos dos modelos. O critério para acerto ou não acerto para qualquer modelo de rede neural neste caso foi de: ≥ 0,5 − não falida Valor Previsto < 0,5 − falida Observamos ainda que é normal a variação nos resultados dos modelos de rede neural, devido a complexidade de superfície a ser explorada e os diferentes pontos de inicialização do processo de otimização, portanto é recomendado que se faça o uso de modelos gerais, como o utilizado neste trabalho. Sob o aspecto de acertos e erros totais, isto é, quantidade de acertos e erros em ambos os casos, os resultados são apresentados na Tabela III. Modelo Corretas Incorretas Análise Discriminante 81% 19% Redes Neurais Geral 88% 12% Tabela III – Resultados Gerais dos Modelos 6. Conclusões Dos resultados acima podemos concluir que, neste caso, para o conjunto de exemplos utilizado, o modelo de rede neural apresentou performance superior ao modelo de análise discriminante apresentado. Embora não possamos garantir a melhor performance dos modelos de redes neurais em qualquer caso, este estudo vem a corroborar com as conclusões de estudos realizados em outros países (Trippi & Turban - editor, 1993), permitindo sugerir que o modelo redes neurais representa uma boa ferramenta alternativa de previsão, que deve ser utilizada em trabalhos futuros. 7. BILIOGRAFIA AZOFF, E. M., Neural Network Time Series Forecasting of Financial Markets. Chicester: John Wiley & Sons Ltd., Baffins Lane, 1994. BAESTAENS, E. D., BERGH, V. M. W., WOOD, D., Neural Network for Trading in Financial Markets, Pitman Publishing, Great Britain, 1994. BERRY, H. R., TRIGUEIROS, D., Applying Neural Networks to the Extraction of Knowledge form Accounting Reports: A Classification Study, in Robert R. Trippi & Efrain Turban ed., Neural Network in Finance and Investing, Probus Publishing Company, Chicago, Illinois, USA, cap. 6, pp.103-122, 1993. CHAPETA, M. G. A., Aplicação de Redes Neurais na Previsão de Falência de Empresas Prestadoras de Serviços à Petrobrás, Dissertação de Mestrado, Departamento de Engenharia de Produção, Universidade Federal Fluminense, Niterói – RJ,1997. CHEUNG, F. L., LEE, T., A Node Pruning Algorithm for Backpropagation Networks, in International Journal of Neural Systems, vol. 3, pp.301-314, 1992. 11 COAKLEY, J. R., McFARLANE, D. D., PERLEY, G., Alternative Criteria for Evaluating Artificial Neural Network Performance, presented at TIM/ORSA Joint National Meeting, April 1992. COOLEY, W. W., LOHNES, R. P., Multivariate Data Analisys, John Willey & Sons, Inc. New York, USA, cap. 8, 9 and 10, pp.223-286, 1971. COSTA, L. A., Estudo de um Modelo Matemático para Avaliação Financeira de Empresas Prestadoras de Serviço à Petrobrás, Dissertação de Mestrado em Engenharia de Produção, Universidade Federal Fluminense, RJ, Brasil, 1994. DUTTA S., SHEKHAR S., Bond Rating: A Non Conservative Application of Neural Network in Finance and Investing, in Robert R. Trippi & Efrain Turban ed., Neural Network in Finance and Investing, Probus Publishing Company, Chicago, Illinois, USA, cap14, pp.257-276, 1993. ESPENCHITT, D. G., LACHTERMACHER, G. & GOMES, L. F. A. M, O Uso de Redes Neurais com Algoritmo de Poda na Previsão de Falência de Empresas, Anais do XXXII Simpósio Brasileiro de Pesquisa Operacional, Viçosa - MG, 2000 ESPENCHITT, D. G., LACHTERMACHER, G., Previsão de Falência de empresas, utilizando Redes Neurais com Algoritmo de Poda, Revista ANGRAD, vol. 1, nº1, pp 73-81, São Paulo, SP, jul/set 2000. ESPENCHITT, D. G., Uma Nova Visão no Uso de Redes Neurais na Previsão de Falência de Empresas, Dissertação de Mestrado em Engenharia de Produção, Universidade Federal Fluminense, Niterói,RJ, 2000. ESPENCHITT, D. G., LACHTERMACHER, G.& CUNHA, A. G. G., Cuidado no Uso de Algoritmo de Poda em Redes Neurais, Trabalho, Anais do V Congresso Brasileiro de Redes Neurais, Rio de Janeiro, Rj, abril 2001. GASPAR, L. A. R., LACHTERMACHER, G., Uso de Tecnologia de Informação Avançada no Apoio à Tomada de Decisão em Finanças. Rbmec - Revista Brasileira de Mercado de Capitais, V. 20, Nº 49, Jan/Jun 1995, pp.35-80. GORR, W., NAGIN, D., SZCYPULA, J., The Relevance os Artificial Neural Networks to Managerial Forecasting; an Analysis and Empirical Study, Technical Report 93-1, Heinz School of Public Policy and Management, Carnegie Mellon University, Pittsburgh, PA, USA, December 1992. HAYKIN, S., Neural Networks - A Comprehensive Foundation. Toronto: Macmilan College Publishing Company, 1991. HEBB, D. O., The Organization of Behaviour in Neurocomputing - Foundations of Research, ed. Anderson, James A. and Rosenfeld, Edward, MIT Press, Cambridge, Massachusetts, pp.4556,1988. HERTZ, J., KROGH A., PALMER R. G., Introduction to Theory of Neural computation, Addison-Wesley Publishing Co., Don Mills, Ontario, Chapters 1,5 and 6, pp.1-8 and 89156, 1991. HOPFIELD, J. J. , Neural Networks and Physical Systems with Emergent Collective Computacional Abilities. Proc. Nat. Acad. Sci.,v.79, pp. 2554-8, 1982. HOPTROFF, R. G., BRAMSON, M. J., HALL, T. J., Forecasting Economic Turning Points with Neural Networks, in Proc. of the IEEE/Interantional Joint Conference of Neural Networks, Vol.I, pp.347-352,1991. KLIMASAUSKAS, C. C. C., Neural Networks Techniques, in DEBOECK, G. J. Editor, Trading on the Edge. USA - New York: John Wiley & Sons, 1994. 12 LACHTERMACHER, G., GASPAR, L. A. R., Neural Networks in Derivative Securities Pricing Forecasting in Brazilian Capital Markets, apresentado no Third International Conference on Neural Network in Capital Markets , London, England, Ed. Refenes, 1996. LACHTERMACHER, G., FULLER, J. D., Backpropagation in Time Series Analiysis, PHD Thesis, Depart. of Management Sciences, University of Waterloo, Ontario, Canada, 1993. LACHTERMACHER, G., Sistemas de Previsão de Séries Temporais Utilizando Redes Neurais, em Pesquisa Operacional, Vol 12, Nº 2, Dezembro, 1992. LACHTERMACHER, G., A New Heuristic for Backpropagation in Neural Networks, Master’s Thesis, Department of Management Sciences, University of Waterloo, 1991. LACHTERMACHER, G, CHAPETTA, M:G:A, Aplicação de Redes Neurasi na Previsão de Falência de Empresas, Revista Pesquisa Naval nº12,pp 227-250, Rio d Janeiro, Rj,1999. LANG, K. J., HINTON, G. E., A Time-delay Neural Network Architeture for Isolated Word Recognition, in Neural Networks, Vol. 3, pp.23-43,1990. LANG, K. J., HINTON, G. E., Dimensionality Reduction and Prior Knowledge in E-Set Recogniton, in D. S. Touretsky ed., Advances in Neural Information Processing 2, pp.598605, Morgan Kaufmann Publ., 1990. LAPEDES, A., FARBER, R., Nonlinear Signal Processing using Neural Networks: Prediction and System Modelling, Technical Report LA-UR - *&-2662, Los Alamos National Laboratory, 1987. LAPEDES, A., FARBER, R., How Neural Nets Works, in Neural Information Processing Systems, ed. Dana Z. Anderson, pp.442-456, American Institute of Phisics, New York, 1988. LEE, K. Y., CHA, Y.T., KU, C. C., A Study on Neural Networks for Short-term Load Forecasting, in Proceedings of the First Forum on Application of Neural Networks to Power Systems, pp.26-30, Seattle, Washington, 1991. MAROSE, A. R., A Financial Neural Network Application, in Robert R. Trippi & Efrain Turban ed., Neural Network in Finance and Investing, Probus Publishing Company, Chicago, Illinois, USA, cap. 4, pp.75-82, 1993. McCULLOCH, W. S., PITTS W. H., A Logical Calculus of the Ideas Immanent in Nervous Activty, Bulletin of Math Biophisycs 5, pp.115-133, 1943. MINSKY, M. PAPERT S., Perceptrons, in Neurocomputating - Foundations of Research, ed. Anderson, James A. and Reosenfeld, Edward, MIT Press, Cambridge, Massachusetts, pp. 161-169, 1988. NOWLAN, S., HINTON, G. E., Simpliflying Neural Networks by Soft Weigh-sharing, in Neural Computation, Vol.4, pp.473-493, 1992. PERGINI, N. K., ENGELER, W. E., Neural Network Learning Time: Effects of the Neural Network and Training Set Size, in Proc. of the IEEE/International Joint Conference of Neural Networks, Vol 2, pp.395-401, 1989. RAGHUPATHI, W., SCHKADE, L., RAJU, B., A Neural Network Approch to Bankruptcy Prediction, in Robert R. Trippi & Efrain Turban ed., Neural Network in Finance and Investing, cap. 8, pp. 141-157, Probus Publishing Company, Chicago, Illinois, USA, 1993. RAHIMIAN E., SINGH., THAMMCHOTAND T., ZIRMANI R., Bankruptcy Prediction, by Neural Network, in Robert R. Trippi & Efrain Turban ed., Neural Network in Finance and Investing, Probus Publishing Company, Chicago, Illinois, USA, cap. 9, pp.159-176, 1993. RIGLER, A. K., IRVINE, J.M., VOGL, T. P., Rescaling of Variables in Backproapagation Learning, in Neural Networks, pp.225-229, 1991. 13 ROSENBLATT, F., The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain, Psychological Review 65, pp.386-408, 1958. RUMELHART, D. E., MccLELLAND J. L., AND THE PDP RESEARCH GROUP, Parallel Distributed Processing: Explorations in Microstructure of Cognition. Vol. 1: Foundations, MIT Press, Cambridge, Massaachsetts, USA, 1986. ODOM, D. M., SHARDA, R., A Neural Network Model for Bankruptcy Prediction, in Robert R. Trippi & Efrain Turban ed., Neural Network in Finance and Investing, Probus Publishing Company, Chicago, Illinois, USA, cap.10, pp.177-185, 1993. PINCHES, E. G., Classification Results and Multiple Discriminant Analisis, University of Kansas-Lawrence,Working Paper Nº. 116, September, 1978 SALCHENBERGER, M. L., CINAR, M. E., LASH, N., Neural Networks: A New Tool for Predictin Thrift Failures, in Robert R. Trippi & Efrain Turban ed., Neural Network in Finance and Investing, Probus Publishing Company, Chicago, Illinois, USA, cap.13, pp.229-253, 1993. SMITH, M., Neural Networks for Satatistical Modelling. New York; Van Nostrand Reinhold, 1993. SURKAN, A., SINGLETON, J., A Neural network for Bond Rating Improved by Multiple Hidden Layers, in Robert R. Trippi & Efrain Turban ed., Neural Network in Finance and Investing, Probus Publishing Company, Chicago, Illinois, USA, cap15, pp.275-288, 1993. AM, Y. K., KIANG, Y. M., Managerial Applications of Neural Networks: The Case of Bank Failure Predictions, in Robert R. Trippi & Efrain Turban ed., Neural Network in Finance and Investing, Probus Publishing Company, Chicago, Illinois, USA, cap.12, pp.193-224, 1993. VOGL, T., MANGIS, J., RIGLER, A., ZINK, W., ALKON, D., Accelerating the Convergence of the Backpropagation Method, Biological Cybernetics, Vol. 59, pp.257-263, 1988. WATROUS, R. L., Learning Algorithms for Connectionist Networks: Applied gradient Methods of Nonlinear Optimization, in Proc. of IEEE/First International Conference on Neural Networks, Vol. 2, pp.619-627, 1987. WEIGEND, A. S., RUMELHART, D. E., HUBERMAN, B. A., Backpropagation, Weightelimination and Time Series Prediction, in Connectionist Models - Proc. of the 1990 Summer School, Edited by D. S. Touretzky, J. L. Elman, T. J. Sejnowski, G. E. Hinton, Morgan Kaufmann Publishers, Inc.,1991. WEIGEND, A. S., ZIMMERMANN, H. G., NEUNEIER, R., Clearning, Proc. of the Third International Conference on Neural Networks in the Capital Markets, Londres, Inglaterra, Outubro, 1996. WELSTEAD, S. T., Neural Network and Fuzzy Logic Applications in C/C++. New York: John Wiley & Sons, 1994. WERBOS, P. J., Beyond Regression: New Tools of Predictions and Analisys in the Behavioral Sciences. PhD Thesis, Havard University, 1974. WIDROW, B., LEHR, A. M., Neural Networks - Theoritical Foundations and Analysis, in proc. of the IEEE - The Institute of Electrical and Ectronics Engineers, Inc. New York, vol. 78, 1990, pp 1415-1442. YOON, Y., SWALES, JR, G., MARGAVIO, M., A Comparison of Discriminat Analisys Versus Artificial Neural Networks, in J. Opl. Res. Soc., Vol.44, Nº 1, pp.51-60, 1993 14