INTELIGÊNCIA ARTIFICIAL PARA AVALIAÇÃO DE RISCOS: REDES NEURAIS APLICADAS NA MODELAGEM DO VALUE-AT-RISK LEANDRO S. MACIEL, ROSANGELA BALLINI Departamento de Teoria Econômica, Instituto de Economia, Universidade Estadual de Campinas Rua Pitágoras, 65 Cidade Universitária Zeferino Vaz CEP 13083-857 Campinas – São Paulo – Brasil Emails: [email protected]; [email protected] Abstract The risk valuation through Value-at-Risk (VaR) tool is being widely used by the main institutions in the financial markets. Its capability to give a standard comparison to the market risk of different positions exposed to different risk sources made VaR an accurate tool with easy applicability. This work evaluates and analyzes empirically the most used model to VaR estimation, GARCH method, as a comparison with the estimation resulted by the Artificial Neural Networks (ANNs) model – an artificial intelligence technique frequently applied to financial time series forecasting. These methodologies were tested to Petrobrás preferential share returns. The results, by the Kupiec test evaluated, showed that ANNs techniques presents the best VaR estimative to the series studied. Keywords: Artificial Neural Networks, Value-at-Risk, Stock Markets, Volatility, Garch models. Resumo A avaliação quantitativa do risco, por meio do instrumento do Value-at-Risk (VaR), é cada vez mais utilizada nas principais instituições financeiras do mercado de capitais. Sua capacidade de fornecer um padrão de comparação para o risco de mercado de diferentes posições expostas a diferentes fontes de risco torna o VaR uma ferramenta eficaz e de fácil aplicação. Este trabalho avaliou e analisou empiricamente o modelo mais utilizado para estimação do VaR, modelo GARCH, em comparação com a estimação gerada pelo método de Redes Neurais Artificiais (RNAs) – técnica de inteligência artificial muito utilizada na predição de séries temporais financeiras. Essas metodologias foram testadas para a série de retornos das ações preferenciais da Petrobrás. Os resultados obtidos, avaliados por meio teste de Kupiec, mostraram que as RNAs apresentaram as melhores estimativas para o VaR da série estudada. Palavras-chave: Redes Neurais Artificiais, Value-at-Risk, Mercado de Ações, Volatilidade, Modelos Garch. 1. Introdução Nos últimos dois decênios do século XX, intensificou o debate acerca do risco de mercado nas instituições financeiras. As inovações no mercado de capitais, combinadas com o processo de integração e desregulamentação de importantes praças financeiras, potencializaram tanto as oportunidades de ganho, quanto às oportunidades de revés para agentes econômicos operando em grande escala e sobre uma base verdadeiramente global. A elevada volatilidade das taxas de juro, das taxas de câmbio e dos diversos ativos financeiros e commodities fez com que os agentes participantes do circuito financeiro internacional intensificassem a busca de um método apropriado capaz de identificar, monitorar e controlar as diversas fontes de riscos a que estão expostos os ativos em carteiras, para que seja possível não somente otimizar o retorno para um dado patamar de risco aceitável, mas também possibilitar uma seleção subjetiva de riscos que se está disposto a correr em contraposição aos riscos que se deseja evitar. Neste contexto, surgiu uma das ferramentas mais utilizadas atualmente pelas instituições financeiras para a monitoração dos riscos associados a um ativo ou portfólio: o Value-at-Risk (VaR). Trata-se de um instrumental estatístico que fornece uma medida representativa da maior perda possível, em condições normais de mercado, de um ativo ou portfólio, dentro de um intervalo de confiança estatística e horizonte de tempo, pré-definidos (Jorion, 2003). A obtenção do VaR envolve a estimação da variabilidade futura dos valores de mercado, i.e., volatilidade. Essa estimação pode ser realizada por diferentes metodologias. O principal método utilizado pelas instituições financeiras corresponde à modelagem de séries temporais de variância condicional, por meio de um processo GARCH. Em anos recentes, modelos de redes neurais artificiais tornaram-se conhecidas para previsão de séries temporais em várias áreas, incluindo finanças, carga elétrica e recursos hídricos. Em vários estudos, redes neurais e técnicas de séries temporais vêm sendo comparadas (Gately (1996), Zang et al. (1998), Wong e Selvi (1998), Chatterjee et al. (2000), Ballini (2000) e Maciel e Ballini (2009). A maioria dos estudos realizados utilizam o algoritmo retropropagação do erro, ou algumas de suas extensões. Este método já foi utilizado com sucesso em diversas áreas entra as quais previsão de séries financeiras (Weigend et al., 1991). Neste trabalho é proposto um método para estimar o VaR usando uma rede neural multicamadas com algoritmo de retropropagação do erro. O objetivo é comparar essa metodologia com a estimação obtida pelo modelo GARCH. Dessa forma, avaliaremos essas duas metodologias para estimação do VaR para a série de retorno financeiro das ações preferenciais da Petrobrás (PETR4), por meio do teste de Kupiec. 1997). Defini-se o Value-at-Risk VaRt = MTM t ⋅ σ ⋅ FSα % 2. Metodologia O presente trabalho avaliou o risco de mercado das ações da Petrobrás (PETR4), no período de 03/01/2002 a 25/02/2008, perfazendo uma amostra de dados diários com 1.590 observações. Como está série é não estacionária e o modelo GARCH trabalha apenas com séries estacionárias, foi considerada a análise por meio dos retornos, obtidos por: P rt = ln t Pt −1 em que ( VaRt ) de uma carteira ou ativo, no período t como: (1) Pi representa o preço da ação no tempo i. A modelagem da volatilidade 1 pelo método GARCH estruturou-se com base na análise de autocorrelação e autocorrelação parcial da série avaliada, de forma a resultar no processo de tipo GARCH(1,1). Essa é a parametrização mais robusta e comumente utilizada pelas instituições financeiras, por motivo de seus bons resultados e adequação às séries financeiras. Na construção do modelo de rede neural para estimação da volatilidade, foi aplicado o processo de validação cruzada, constituído por tentativas aleatórias de estruturação, na busca dos melhores resultados, uma vez que não existe na literatura uma regra fixa para escolha dos parâmetros (Kaastra e Boyd, 1996). Por fim, o teste de análise dos resultados proposto por Kupiec (1995) é baseado na proporção de falhas em que os resultados foram “piores” do que podia supor a estimativa do VaR. Este teste foi aplicado para avaliar as metodologias empregadas. (2) em que MTM t representa o valor marcado a mercado (make-to-market) da carteira ou ativo no período t, σ a volatilidade e FS α % o fator de segurança, que representa o quantil correspondente a α % da distribuição de probabilidade para o valor da carteira ou ativo2. Neste trabalho, abordaremos o cálculo do VaR em sua abordagem paramétrica, ou seja, a questão central do cálculo consiste em se estimar a variância. Nessa análise, aplicaremos a modelagem tradicional de séries temporais (GARCH) e a modelagem por meio das redes neurais artificiais, avaliação central deste trabalho. 4. Modelo GARCH O modelo GARCH é uma técnica de séries temporais que permite modelar a dependência serial da variância. Proposto por Bollerslev (1986), o modelo relaciona a volatilidade com retornos dos períodos passados e a própria variância passada. A parametrização utilizada com mais freqüência para séries financeiras é o modelo GARCH(1,1), representado como: rt = σ t2 ε t , (3) σ t2 = α 0 + α 1 rt2−1 + β1σ t2−1 com 0 ≤ α1, β1 < 1, α1 + β1 < 1 (condição para a estacionaridade do modelo). Nesse trabalho, utilizouse o modelo descrito em (5) com Inovações Gaussianas, i.e., GARCH(1,1) com distribuição Normal. 3. Value-at-Risk Ao fixarmos um horizonte de tempo t e um nível de significância estatística α % , o Value-at-Risk ou VaR representa a perda máxima esperada em t para um nível de confiança de (1 − α )% . Na prática, em termos estatísticos, o VaR é a medida representativa do valor crítico da distribuição de probabilidade de mudança no valor de mercado dos ativos em carteira ou de um portfólio tomado em conjunto (Duffie e Pan, 5. Redes Neurais Artificiais Redes Neurais Artificiais (RNAs) podem ser definidas, basicamente, como sistemas de processamento paralelo e distribuído, baseados no sistema nervoso biológico humano (Haykin, 2001). Esses modelos são compostos por elementos computacionais, chamados neurônios artificiais. Os neurônios captam dados de entrada, os ponderam de 2 1 Neste trabalho, a volatilidade é definida como sendo o desviopadrão. Utilizamos o quantil de uma distribuição Gaussiana, uma vez que as parametrizações do modelo de VaR mais aplicados utilizam essa distribuição para os retornos. acordo com determinados pesos sinápticos que, após passar por uma função de transferência ou ativação, restringe a saída do neurônio para um determinado valor desejado (Figura 1). O algoritmo de aprendizagem de retropropagação consiste em alterar os pesos da rede a fim de minimizar a diferença entra as saídas desejadas e as saídas fornecidas pelo modelo. Se o erro na camada de saída não é menor que uma dada tolerância, então o erro é retro-propagado, tendo como base para a atualização dos pesos a Regra Delta, a qual implementa o Método do Gradiente Descendente (Haykin, 2001). Seja yd (n) a saída desejada do neurônio j e j y j (n) a saída calculada pela rede para uma entrada n. O erro e j (n) na camada de saída é: Figura 1. Neurônio Artificial (Haykin, 2001) Uma característica fundamental das redes neurais é sua estrutura ou topologia. A rede perceptron multicamadas (MultiLayer Perceptrons – MLPs) é uma das mais conhecidas e aplicadas arquiteturas de redes neurais e apresenta uma generalização do perceptron proposto por Rosemblatt (1958). A topologia deste modelo consiste em uma camada de entrada, uma ou mais camadas intermediárias e uma camada de saída, como pode ser visto na Figura 2. O método de ajuste dos parâmetros da MLP é do tipo supervisionado, ou seja, é necessário um “professor” para indicar a resposta desejada para o padrão de entrada apresentado à rede durante a fase de aprendizagem. Um sinal de erro é definido como a diferença entre a resposta desejada e a resposta observada. Os parâmetros da rede (pesos e limiares) são ajustados de acordo com esse sinal. O método de aprendizado mais utilizado é o algoritmo de retropropagação do erro o qual é composto por duas fases. Na primeira fase, conhecida como fase forward, as entradas são apresentadas e propagadas, camada por camada, calculando a saída de cada neurônio. Nessa fase, os pesos são fixos e a saída calculada é comparada com a saída desejada, resultando em um erro para cada unidade. Na segunda fase, o erro calculado é propagado da camada de saída para a camada de entrada, fase backward, e os pesos são ajustados de acordo com a regra de correção do erro, originando o termo “retropropagação do erro” . e j ( n) = y d j ( n) − y j ( n) (4) O valor do erro quadrático para o neurônio j é definido como sendo 1 ⋅ (e j (n)) 2 . A soma dos erros 2 quadráticos é obtida para todos os neurônios da camada de saída, isto é: ε (n) = 1 ∑ (e j (n)) 2 2 j (5) Com N representando o número total de pares entrada/saída-desejada contidos no conjunto de dados de treinamento, o erro quadrático médio é obtido pela soma do erro ε (n) sobre todo n, normalizado com relação ao número de padrões N: E= 1 N N ∑ ε (n) (6) n =1 O processo de treinamento objetiva ajustar os parâmetros livres (pesos) da rede, minimizando uma função objetivo representada pelo erro quadrático médio3. Ou seja, min E = min 1 N ∑ ε (n) N n =1 (7) O nível de ativação interna do neurônio j, v j (n) , é uma função linear das saídas y i dos neurônios que estão conectados ao neurônio j através dos pesos w ji dado por: p v j (n) = ∑ w ji (n) y i (n) (8) i =0 3 Figura 2. Rede Neural Perceptron Multi-Camadas. Para a derivação do algoritmo de retro-propagação, é considerado, inicialmente, um método de treinamento em que os pesos são ajustados entrada-a-entrada, ou seja, o ajuste dos pesos é realizado de acordo com o erro calculado pata cada entrada apresentada à rede. em que p é o número de neurônios da camada imediatamente anterior ao neurônio j. O peso sináptico w j 0 é igual ao limiar θ 0 e corresponde à entrada y 0 = −1 . A saída y j (n) do neurônio j é um valor real, dada por uma função de ativação não-linear: y j (n) = f j (v j (n)) (9) Para minimizar (7), por meio do método do gradiente descendente, é necessário calcular a derivada parcial de ε em relação a cada peso da rede4. 6. Análise Empírica A volatilidade dos retornos das ações preferenciais da Petrobrás, elemento essencial para o cálculo do VaR, foi estimada por meio de um processo GARCH e pela rede neural MLP. Para estruturação do modelo GARCH, realizouse análises estatísticas da série estudada. A análise da distribuição de probabilidade não permitiu inferir normalidade à série avaliada, como uma boa proxy5, mas, por ser a mais utilizada, essa assertiva será imposta. Portanto, foi aplicado um modelo GARCH (1,1), com distribuição Normal, para estimação da volatilidade. A Figura 3 apresenta a estimação do Value-at-Risk para a série dos retornos da Petrobrás, com a volatilidade auferida por meio do modelo GARCH, com um nível de significância de 95%. Figura 3. VaR com modelagem GARCH (1,1) 4 A derivação do modelo do gradiente descendente pode ser vista em Haykin (2001). 5 Essas análises compreendem o Teste de Jarque-Bera, avaliação do gráfico QQ-Plot, desigualdade de Chebyshev e avaliação de percentis. Para esses testes, ver Hamilton (1994). Pode-se perceber, ao observar a Figura 3, que o modelo GARCH apresentou nítida adesão aos dados, com um bom desempenho e adequação aos clusters de volatilidade. O próximo passo, agora, é a estimação do VaR com as RNAs. Na literatura, não existe trabalho que especifique os parâmetros ideais para a construção de um modelo padrão de rede neuronal que resulte nos melhores resultados; portanto, sua construção envolve escolhas empíricas que variam de acordo com a especificidade dos dados e o objetivo de previsão ou estimação (Kaastra e Boyd, 1995). Os dados utilizados como entradas (inputs) na rede constam de valores passados da volatilidade, estimados por meio da volatilidade histórica com janela móvel de 30 dias. Para a série da Petrobrás, as volatilidades de três dias passados foram utilizadas para estimar a volatilidade no dia precedente 6 . Esses dados foram divididos em três conjuntos: treinamento, validação e teste, sendo que cada conjunto contêm 80%, 15% e 5% do total dos dados da amostra, respectivamente. A estrutura da rede corresponde a um modelo MLP, com uma camada de entrada, com 3 neurônios de entrada, uma camada intermediária, composta por 5 neurônios, e, finalmente, uma camada de saída com apenas um neurônio. O treinamento do modelo de rede neural foi realizado com o algoritmo de retropropagação do erro, com um número de épocas7 estipulado em 1000. O erro mínimo desejável foi da ordem de 10-3 e a taxa de aprendizagem igual a 0,7. Vale ressaltar que o algoritmo convergiu para o erro mínimo desejável antes de atingir o número de épocas A Figura 4 apresenta a estimação do VaR para a série dos retornos da Petrobrás por meio da modelagem de redes neurais. A aderência do modelo de redes neurais para a estimação do VaR é nítida (ver Figura 4), e comprova a capacidade de ajuste desse modelo às alterações da volatilidade observada no mercado, o que pode ser verificado pelas quebras rápidas (perfil “recortado”) nas linhas do VaR. Numa comparação de análise gráfica entre o VaR auferido, por meio da modelagem GARCH e de Redes Neurais, é visível a melhor adequação do instrumento de inteligência artificial. O número de falhas, ou número de vezes em que o retorno negativo excedeu o VaR, é bem maior quando a volatilidade é estimada por meio do GARCH. A Figura 3 indica que, na maioria das elevadas perdas, o VaR não foi capaz de estimar a potencialidade de auferição desses valores. Entretanto, para uma 6 Esses resultados foram obtidos pela análise de correlação e autocorrelação dos retornos. 7 Uma época é definida como toda apresentação de um conjunto entrada-saída para o treinamento da rede, na busca de minimizar a diferença entre o valor desejado e o valor estipulado pela rede. comparação mais confiável, é necessária uma análise estatística dos resultados. N =p T N HA = ≠ p T H0 = (11) Com isso, Kupiec construiu os intervalos para a proporção e o número de falhas de ocorrência para a hipótese nula de que a proporção empírica é igual ao nível de significância escolhido para o cálculo do VaR9. A Tabela 1 apresenta os resultados para o teste de Kupiec, de acordo com o nível de confiança de 5% e 1%. Tabela 1. Avaliação dos modelos de VaR pelo teste de Kupiec Avaliação das Estimativas do VaR Modelo Figura 4. VaR com modelagem de Redes Neurais Artificiais A avaliação mais precisa dos resultados do modelo de VaR se deu com o teste proposto por Kipiec (1995). Seu teste avalia estatisticamente a hipótese nula de que a proporção verdadeira de falhas p do modelo é igual ao nível de significância α % preestabelecido para o cálculo do VaR. Com o teste de razão de verossimilhança, Kupiec desenvolveu as regiões de aceitação da hipótese nula em termos de proporção e número de falhas, verificados empiricamente para diferentes tamanhos de amostra escolhidos para o back-test. O teste de razão de verossimilhança (likelihood ratio – LR) desenvolvido por Kupiec avalia estatisticamente a hipótese nula de que a proporção verdadeira de falhas p do modelo é igual ao nível de significância α % preestabelecido para o cálculo do VaR. Seja N o número de vezes em que o retorno observado excedeu o VaR em uma amostra de tamanho T. Se cada uma das realizações diárias da série de retornos apresenta probabilidade de α % de superar o VaR, então a variável aleatória “número de violações do VaR” apresenta distribuição Binomial8 com média T e variância p: N ~ B(T , p ) (10) Idealmente, o percentual de falhas de ocorrência deve ser igual à probabilidade associada à cauda esquerda da distribuição, i.e., p = α % . As hipóteses nula e alternativa são construídas da seguinte forma: Número de Proporção de Número de Proporção de Falhas (5%) Falhas (5%) Falhas (1%) Falhas (1%) GARCH 41 2,57% 58 3,64%* RNA 27 1,69% 36 2,26% *Nesse caso, rejeita-se a hipótese nula. É bastante discutível o exercício de retirar conclusões generalistas a partir de um estudo empírico que produz resultados particulares. A atenção, neste trabalho, está voltada para a possibilidade e a quantidade de ocorrência de perdas financeiras superiores às estimativas geradas por meio das diferentes modelagens para o VaR. Ao observar a Tabela 1, nota-se que ambos os modelos apresentaram bons resultados, e somente a estimação do VaR por meio do processo GARCH com 95% de confiança não passou pelo teste de Kupiec. Entretanto, a modelagem obtida por meio das Redes Neurais Artificiais apresentou um desempenho significativamente superior ao modelo estimado a partir do método GARCH, em que as taxas de superação do VaR foram bem inferiores. Para corroborar com os resultados da modelagem das RNAs, é importante ressaltar que o atrativo desse método está na sua simplicidade e facilidade de implementação, se comparado ao modelo GARCH, e que, as limitações, como imposição de uma distribuição do tipo Gaussiana à série de retorno e relação linear na modelagem da volatilidade, não são necessárias. Ademais, apesar dos dois modelos auferirem bons resultados por meio da avaliação do teste de Kupiec, em finanças, o melhor modelo é aquele que consegue evitar o maior número de perdas. Desta forma, pode-se dizer que, nos momentos de maiores perdas financeiras e maior volatilidade, as RNAs adaptaram-se de forma mais acurada. Além disso, o modelo conseguiu captar os movimentos negativos e permitiu que a estimativa do VaR se aproximasse das perdas verificadas, o que permite 8 A distribuição binomial em questão refere-se a n ensaios de Bernoulli, em que a variável aleatória “número de violações do VaR” assume valor 1 (um) para o caso de superação do VaR e 0 (zero) em caso contrário. 9 Para verificação da construção da tabela de Kupiec, ver em Kupiec (1995). maior manobra para os agentes financeiros rever suas posições. 7. Conclusão O objetivo deste trabalho foi realizar uma avaliação quantitativa da questão do risco de mercado nas ações preferenciais da Petrobrás (PETR4), por meio do instrumento de mensuração do risco mais utilizado pelos principais agentes financeiros institucionais e não-institucionais, o Value-at-Risk. Para tanto, duas metodologias distintas foram investigadas para a obtenção da estimativa técnica: modelo de variância condicional, GARCH(1,1), e o modelo de redes neurais artificiais MLP. Ou seja, a modelagem da volatilidade, elemento fundamental para a auferição do VaR, foi realizada via essas duas abordagens. Na modelagem GARCH, apesar da hipótese de distribuição Normal dos retornos não ter se mostrado tão adequada no exame estatístico apreendido no modelo, conferindo uma das principais críticas a essa metodologia, seus resultados foram satisfatórios, conseguindo-se adequar a dinâmica da série em relação às variações observadas. Entretanto, o VaR obtido por meio das RNAs apresentou resultados mais significativos, adequando-se às mudanças da volatilidade vigentes com maior rapidez e facilidade. Esse resultado confirmou-se por meio da auferição do teste de Kupiec, em que a proporção de falhas observada na modelagem por meio da rede neural foi significativamente menor, e, grande parte das falhas de ocorrência exibidas esteve concentrada em momentos de crises financeiras ocorridas ou no plano doméstico ou no plano internacional. Para trabalhos futuros, no caminho da investigação quantitativa abordada neste trabalho, pode-se citar a comparação da estimação do VaR via RNAs com a técnica de Simulação de Monte Carlo, que envolve um esforço computacional também simples e pode gerar uma computação mais precisa do VaR. Além disso, pode-se levar em conta a estruturação de diferenciadas redes neuronais que incluem diversas entradas, de acordo com a variável a ser estimada, ou até mesmo, a utilização de outros algoritmos de aprendizagem. Agradecimentos Os autores agradecem ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) processo 302407/2008-1, pelo auxílio. Referências Bibliográficas Ballini, R. (2000). “Análise e Previsão de Vazões Utilizando Modelos de Séries Temporais, Redes Neurais e Redes Neurais Nebulosas”. UNICAMP, FEEC, Tese de Doutorado. Bollerslev, T. R. (1986). “Generalized Autoregressive Conditional Heteroskedasticity”. Journal of Econometrics, 51, pp. 307-327. Chatterjee, A.; Ayadi, O. F. and Boone, B. E. (2000). “Artificial neural network and the financial markets: A survey”. Managerial Finance, 26, pp. 32-45. Duffie, D.; Pan, J. (1997). “An Overview of Value at Risk”. Disponível em: <https://www.gloriamundi.org>. Acesso em: 12/02/2009. Gately, Edward J. (1996), “Neural Networks for Financial Forecasting”. John Wiley & Sons, New York. Hamilton, J. D. (1994). Time Series Analyses. Princeton University Press, USA. Haykin, S. (2001). “Neural Networks – A Comprehensive Foundation”. IEEE Press, New York. Jorion, P. (2003). “Value at Risk: A nova fonte de referência para a gestão do risco financeiro”. Bolsa de Mercadorias e Futuros, São Paulo. Kaastra, I and Boyd, M. (1996). “Designing a neural network for forecasting financial and economic time series”. Neurocomputing, 10, pp. 215-236. Kupiec, P. (1995). “Techniques for Verifying the Accuracy of Risk Measurement Models”. Journal of derivatives, n. 2, pp. 73-84. Maciel, L. S. e Ballini, R. (2009). “Brazilian Stock Market Forecasting Using Neural Networks”. In.: Fourth Brazilian Conference on Statistical Modeling in Insurance and Finance. Maresias, São Paulo. Rosemblatt, F. (1958). “The perceptron: A probabilistic model for information storage and organization in the brain”. Psychological Review, 65, pp. 386-408. Weigend, A. S., Rumelhart, D. E e Huberman, B. A. (1991). “Generalization by weight-elimination applied to currency Exchange rate prediction”, Proc. Of the IEEE/International Joint Conference of Neural Networks, vol I, pp. 837-841. Wong, B. K. e Selvi, Y. (1998). “Neural network applications in business: A review and analysis of the literature”. Information & Management, 34, pp. 129-139. Zang, G.; Patuwo, B. E. and Hu, M. Y. (1998). “Forecasting with artificial neural networks: The state of the art”. International Journal of Forecasting, 14, pp. 35-62.