UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR CURSO DE CIÊNCIA DA COMPUTAÇÃO USO DE MINERAÇÃO DE DADOS NA BOLSA DE VALORES Área de Inteligência Artificial por Marcelo Berenstein Benjamin Grando Moreira, M.Eng. Orientador Itajaí (SC), junho de 2010 UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR CURSO DE CIÊNCIA DA COMPUTAÇÃO USO DE MINERAÇÃO DE DADOS NA BOLSA DE VALORES Área de Inteligência Artificial por Marcelo Berenstein Relatório apresentado à Banca Examinadora do Trabalho de Conclusão do Curso de Ciência da Computação para análise e aprovação. Orientador: Benjamin Grando Moreira, M.Eng. Itajaí (SC), junho de 2010 SUMÁRIO LISTA DE ABREVIATURAS.................................................................................... iv LISTA DE FIGURAS ................................................................................. v LISTA DE TABELAS ............................................................................... vi RESUMO ................................................................................................... vii ABSTRACT ..............................................................................................viii 1 INTRODUÇÃO .................................................................................... 1 1.1 PROBLEMATIZAÇÃO..................................................................................... 3 1.1.1 Formulação do Problema ................................................................................ 3 1.1.2 Solução Proposta .............................................................................................. 3 1.2 OBJETIVOS ....................................................................................................... 4 1.2.1 Objetivo Geral .................................................................................................. 4 1.2.2 Objetivos Específicos ....................................................................................... 4 1.3 METODOLOGIA............................................................................................... 5 1.4 ESTRUTURA DO TRABALHO ...................................................................... 6 2 FUNDAMENTAÇÃO TEÓRICA ........................................................ 8 2.1 BOLSA DE VALORES ...................................................................................... 8 2.1.1 Ações .................................................................................................................. 9 2.1.2 BM&FBovespa ............................................................................................... 14 2.1.3 Análise de Investimento ................................................................................. 17 2.2 MINERAÇÃO DE DADOS ............................................................................. 24 2.2.1 Fases ................................................................................................................ 26 2.2.2 Tarefas............................................................................................................. 30 2.2.3 Técnicas ........................................................................................................... 32 2.3 FERRAMENTAS DE MINERAÇÃO DE DADOS ...................................... 34 2.3.1 Weka ................................................................................................................ 35 2.3.2 SAS Enterprise Miner ................................................................................... 36 2.3.3 Intelligent Miner ............................................................................................ 37 2.3.4 Quadro comparativo ...................................................................................... 39 2.4 INTELIGÊNCIA ARTIFICIAL NO MERCADO FINANCEIRO ............. 41 2.5 TRABALHOS SIMILARES ............................................................................ 42 2.5.1 Aplicação de Redes Neurais Artificiais no processo de precificação de ação............................................................................................................................ 42 2.5.2 Um novo Algoritmo Genético para a otimização de carteiras de investimentos com restrições de cardinalidade ..................................................... 42 2.5.3 Modelo Genético-Neural de gestão de carteiras de ações .......................... 43 2.5.4 Uso de Data Mining no mercado financeiro ................................................ 43 ii 2.5.5 Uma investigação estatística sobre análise técnica ..................................... 44 2.5.6 Análise comparativa ...................................................................................... 44 3 PROJETO ............................................................................................. 46 3.1 PRÉ-PROCESSAMENTO .............................................................................. 3.1.1 Seleção ............................................................................................................. 3.1.2 Limpeza ........................................................................................................... 3.1.4 Enriquecimento .............................................................................................. 3.1.3 Codificação ..................................................................................................... 3.2 PROCESSAMENTO ........................................................................................ 3.2.1 Inicialização da Ferramenta ......................................................................... 3.2.2 Tarefa utilizada .............................................................................................. 3.2.3 Técnicas utilizadas ......................................................................................... 3.2.4 Resultados Obtidos ........................................................................................ 3.3 PÓS-PROCESSAMENTO............................................................................... 3.3.1 Validação e simplificação do modelo ........................................................... 3.3.2 Transformação do modelo e apresentação dos resultados ........................ 3.3.3 Análise dos resultados.................................................................................... 46 47 48 50 51 52 53 54 56 59 72 72 77 79 4 CONCLUSÕES .................................................................................... 80 REFERÊNCIAS BIBLIOGRÁFICAS ................................................... 84 iii LISTA DE ABREVIATURAS AG ANBID BC BM&FBOVESPA BOVESPA CVM DM IA KDD JRIP ON ONU PART PN RN TCC UNCTAD UNIVALI WEKA Algoritmo Genético Associação Nacional dos Bancos de Investimento Banco Central Bolsa de Valores, Mercadorias e Futuros Bolsa de Valores do Estado de São Paulo Comissão de Valores Mobiliários Data Mining Inteligência Artificial Knowledge Discovery in Databases Incremental Reduced Erro Prunning Ordinárias Organização das Nações Unidas Partial decision trees Preferenciais Redes Neurais Trabalho de Conclusão de Curso Conferência das Nações Unidas para o Comércio e o Desenvolvimento Universidade do Vale do Itajaí Waikato Environment for Knowledge Analysis iv LISTA DE FIGURAS Figura 1. Formação de preço 1 ...........................................................................................................13 Figura 2. Formação de preço 2 ...........................................................................................................13 Figura 3. Formação de preço 3 ...........................................................................................................13 Figura 4. Small caps ........................................................................................................................... 23 Figura 5. DM multidisciplinar ............................................................................................................25 Figura 6. Processo de DM ..................................................................................................................26 Figura 7. Weka pré-processamento ....................................................................................................36 Figura 8. Comparatico de técnicas SAS ............................................................................................. 37 Figura 9. Intelligent Miner Agrupamento .......................................................................................... 38 Figura 10. Base de dados original ......................................................................................................49 Figura 11. Base de dados Excel .........................................................................................................50 Figura 12. Base de dados enriquecida ................................................................................................ 51 Figura 13. Base de dados arff .............................................................................................................52 Figura 14. Arquivo de entrada no Weka ............................................................................................ 54 Figura 15. Interface da tarefa de classificação ...................................................................................55 Figura 16. Exemplo de árvore de decisão .......................................................................................... 57 Figura 17. Exemplo de regras de classificação ..................................................................................57 Figura 18. Algoritmos de árvores de decisão no Weka......................................................................58 Figura 19. Algoritmos de regras de classificação no Weka ............................................................... 59 Figura 20. Execução do algoritmo J48 ............................................................................................... 63 Figura 21. Árvore do algoritmo J48 ...................................................................................................64 Figura 22. Estatísticas do algoritmo J48 ............................................................................................ 65 Figura 23. Matriz de confusão do algoritmo J48 ...............................................................................66 Figura 24. Execução do algoritmo JRip ............................................................................................. 67 Figura 25. Estatísticas do algoritmo JRip........................................................................................... 68 Figura 26. Matriz de confusão do algoritmo JRip ..............................................................................69 Figura 27. Execução do algoritmo PART .......................................................................................... 70 Figura 28. Estatísticas do algoritmo PART ........................................................................................71 Figura 29. Matriz de confusão do algoritmo PART ...........................................................................72 Figura 30. Regras do J48 com resultado Banco do Brasil..... ........................................................... 75 Figura 31. Regras do J48 com resultado Rossi..... ............................................................................76 Figura 32. Descobertas do algoritmo J48............................ ............... ...............................................78 Figura 33. Ferramenta Desenvolvida............................ ............... .....................................................78 v LISTA DE TABELAS Tabela 1. Tipos de ordens ..................................................................................................................12 Tabela 2. Principais referências da cotação .......................................................................................14 Tabela 3. Índices de bolsas no mundo................................................................................................ 15 Tabela 4. Fundamentalista X Técnica ................................................................................................ 20 Tabela 5. Tipos de Riscos ..................................................................................................................21 Tabela 6. Quadro comparativo de ferramentas ..................................................................................40 Tabela 7. Lista de ativos selecionados ............................................................................................... 48 vi RESUMO BERENSTEIN, Marcelo. Uso de Mineração de Dados na Bolsa de Valores. Itajaí, 2010. 95 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação)–Centro de Ciências Tecnológicas da Terra e do Mar, Universidade do Vale do Itajaí, Itajaí, 2010. Nos últimos anos o Brasil tem se tornado alvo predileto de investidores, principalmente estrangeiros, devido ao grande potencial verificado nas ações de empresas brasileiras listadas em Bolsa de Valores, chegando esta a se popularizar entre nós brasileiros, sendo crescentes os resultados obtidos por investidores em nosso mercado. Mas como interpretar o movimento destes ativos e conseguir uma segurança maior com rendimentos acima da média em um mercado novo, onde num passado recente era visto somente por apostadores e especuladores, sem nenhum fundamento. Com o objetivo de descobrir possíveis padrões, tendência e correlações significativas na analise do histórico das cotações dos ativos da Bolsa de valores (Bovespa), o projeto compreende o uso da metodologia de Mineração de Dados aplicada a nossa Bolsa Brasileira, essa metodologia envolve modernos recursos da Computação, usando técnicas de Inteligência Artificial que são aplicados aos dados históricos das cotações de nossas ações listadas em Bolsa. Como resultados tivemos algumas descobertas feitas pelo algoritmo J48 que foram validadas pelo modelo de validação aplicado neste trabalho e que apresentaram movimentos similares de determinados ativos em períodos específicos, e além do mais nos mostrou o potencial que a metodologia de Mineração de Dados tem disponível para realizar estas tarefas. Então a elaboração desse projeto neste mercado financeiro foi importante e poderá ser ainda mais tanto para a área de computação quanto para a área de investimentos, provando que a junção desses dois conhecimentos é uma boa estratégia para alcançar os objetivos de especialistas das duas áreas e trazer benefícios enormes aos investidores, às corretoras, às instituições financeiras e demais entes sociais que visem realizar descobertas do mercado acionário e conseqüentemente trazer informações relevantes para a tomada de decisões nos pregões diários da Bovespa. Palavras-chave: 1. Mineração de Dados 2. Inteligência Artificial 3. Bolsa de Valores vii ABSTRACT In recent years Brazil has become a favorite target for investors, especially foreigners, due to the large potential found in the actions of Brazilian companies listed on the Stock, coming to be popular among us, Brazilians, and increasing the results obtained by investors in our market. But how to interpret the movement of these assets and achieve greater security with incomes above the average in a new market, where in the recent past was seen only for gamblers and speculators, with no foundation. Aiming to discover possible patterns, trend analysis and significant correlations in the history of the prices of assets of the Stock Exchange (Bovespa), the project includes the use of data mining methodology applied to our Brazilian stock exchange, this methodology involves modern resources Computing, using artificial intelligence techniques that are applied to historical data of the prices of our shares listed on the Stock Exchange. As a result we had some discoveries made by the algorithm J48 which was validated by the validation model applied in this work, and had similar movements of certain assets in specific periods, and furthermore has shown the potential of data mining methodology is available to perform these tasks. So the development of this project in this financial market was important and could be even more so for the computing field and for the investment area, proving that the addition of these two skills is a good strategy to achieve the goals of experts of the two areas and bring huge benefits to investors, the brokerages, financial institutions and other entities aimed at making discoveries social stock market and therefore bring relevant information for making decisions in daily sessions of the Bovespa. Keywords:Data Mining. Artificial Intelligence. Stock Exchange. viii 1 INTRODUÇÃO Nos primeiros sete meses de 2009 não houve bolsa no mundo que valorizasse mais do que a BOVESPA (Bolsa de Valores do Estado de São Paulo), em dólar, seus investidores ganharam 87% no período e se tornaram a quarta maior bolsa do mundo em valor de mercado, de janeiro a agosto do corrente ano os investidores estrangeiros têm um saldo positivo de quase 14 bilhões de reais (NAPOLITANO, 2009). E, mais uma notícia importante que comprova a evolução de nossa economia com perspectivas favoráveis para o futuro de nosso mercado foi uma pesquisa realizada pela Conferência das Nações Unidas (ONU) para o Comércio e Desenvolvimento (UNCTAD) onde destaca que o Brasil é o quarto destino preferido para investimentos por multinacionais e investidores do mundo todo (BOLSÃO, 2009). Compreender o movimento das cotações dos ativos da Bolsa de Valores para investimentos é um processo muito complexo devido à variedade enorme de ativos listados na Bovespa (centenas) juntamente com suas cotações diárias de meses e anos de cada ativo e também com a variabilidade e incertezas que elas sofrem por diversos fatores tornam dificílimo a análise destes dados somente com a ação humana, havendo a necessidade de juntamente com os conhecimentos financeiros e econômicos a ajuda da computação e mais precisamente da Mineração de Dados com técnicas da Inteligência Artificial (IA) para a possível identificação de padrões de mercado e informações relevantes que ajudem a potencializar a lucratividade dos investimentos em ações, com um menor risco, através de indicações do momento mais oportuno para aplicação dos recursos em um determinado ativo. Mineração de Dados ou DM (Data Mining) é um conjunto de técnicas reunidas da Estatística e da Inteligência Artificial (IA) com objetivo de descobrir conhecimento novo que esteja “escondido” em grandes massas de dados (CARVALHO, 2001). Assim a Mineração de Dados tem uma tarefa importantíssima neste contexto, onde lida com os inúmeros dados históricos (cotações) de nossas ações, sendo preparados e modelados para serem processados por técnicas de Inteligência Artificial que trazem resultados relevantes para o entendimento de nosso mercado acionário e particularmente de alguns ativos, grupo de ativos e setor de atuação. O trabalho compreende todas as etapas do processo de DM, sendo que houve a incorporação dos dados financeiros na metodologia empregada, seguiram-se fielmente passo a passo os métodos previstos na metodologia. Desde a preparação dos dados coletados (histórico de movimentação dos ativos financeiros) onde foram selecionadas 17 ações com melhores fundamentos entre as centenas existentes na Bovespa (mercado à vista). Então somente os dados relacionados a estas selecionadas são utilizados na fase de processamento onde ocorre a execução das técnicas de Inteligência Artificial com diversos testes sendo efetuados até que se cheguem às melhores tarefas e algoritmos com suas respectivas configurações, inclusive a da base de dados. E o processo é finalizado com a análise, validação e formatação dos resultados alcançados. A maioria dos trabalhos científicos existentes no Brasil e que foram pesquisados focam a IA em selecionar ativos através dos algoritmos de Redes Neurais e Algoritmo Genético, merecendo destaque o projeto proposto por Fernando Rafael Stahnke desenvolvido no Centro Universitário FEEVALE com o título “Uso de Data Mining no Mercado Financeiro”, que incorporou a seu trabalho o uso de Data Mining. Mas o projeto proposto aqui vai além, tanto pela diversidade de técnicas que foram experimentadas, quanto pela quantidade de ativos que constam no experimento e a variabilidade nos atributos utilizados, buscando através do processo de Mineração de Dados atingirem informações importantes do funcionamento de nossas ações listadas em Bolsa de Valores. As técnicas de inteligência computacional já mostram sua eficiência nas economias desenvolvidas (BAUE, 1994; EDDE, 1996; BOLL, 1997) apud (LAZO, 2000), mas nosso mercado estando em ascensão e sendo diferente do deles certamente apresentará comportamentos e padrões diferentes, havendo a necessidade de ajustes não só nas técnicas utilizadas como em toda a metodologia empregada. Então, a elaboração desse projeto na BM&FBOVESPA (Bolsa de Valores, Mercadorias e Futuros) foi muito importante tanto para a área de computação quanto para a área de investimentos, mostrando que a junção desses dois conhecimentos é uma boa estratégia para alcançar os objetivos de especialistas das duas áreas e trazer benefícios aos investidores, as corretoras, as instituições financeiras e demais entes sociais que visem realizar descobertas do mercado acionário e consequentemente trazerem informações relevantes para a tomada de decisões. 2 1.1 PROBLEMATIZAÇÃO 1.1.1 Formulação do Problema O mercado de ações é um ramo da economia onde sua previsibilidade é muito difícil de ser traçada, até mesmo especialistas da área, com décadas de experiência, muitas vezes não conseguem prever o seu movimento. As ações listadas em bolsa sofrem interferências diversas em suas cotações, muitas vezes inesperadas, onde analistas tentam buscar alguma lógica, mas não encontram. São diversos os fatores que influenciam os pregões diários que ocorrem na Bolsa de Valores, desde movimentos especulativos, notícias relevantes, fatores da economia, situação dos países e bolsas estrangeiras, fator psicológico dos investidores, [...]. Então como aumentar a previsibilidade desse mercado diante de tanta informação, diversos ativos, diversas cotações, [...]? E como conseguir nos ativos selecionado da Bolsa de Valores uma possibilidade maior de ganho correndo um menor risco? Será que há padrões nos movimentos diários das cotações das ações? Como aproveitar o histórico destas ações para tirar conclusões sobre seus movimentos futuros? 1.1.2 Solução Proposta Uma das possíveis soluções pode estar na Computação, onde a junção do conhecimento humano com a Inteligência Artificial pode ser uma boa fórmula para se chegar a uma possível previsibilidade do mercado de ações, onde o processo de Mineração de Dados poderá nos auxiliar a lidar com a diversidade de ações e cotações, sendo esses dados processados por técnicas de Inteligência Artificial com a finalidade de extrair informações relevantes deste histórico obtido nos pregões diários que ocorrem na Bolsa de Valores, informações estas que podem detectar padrões de mercado e movimentos similares que ocorrem em um determinado ativo ou grupo de ativos em determinados períodos de tempo. Então foi a percepção desta solução que me motivou a desenvolver este trabalho nos moldes que serão apresentados no decorrer de seu desenvolvimento, não esquecendo também que a atratividade da nossa bolsa de valores no cenário internacional também foi motivo relevante para a escolha do tema nesta área. 3 1.2 OBJETIVOS 1.2.1 Objetivo Geral Realizar descobertas e indicações à respeito do comportamento e movimento das cotações dos ativos listados na bolsa de valores brasileira (BM&FBOVESPA), com apoio da mineração de dados. 1.2.2 Objetivos Específicos Os objetivos específicos deste projeto de pesquisa são: Conceituar e compreender o funcionamento da Bolsa de valores juntamente com suas técnicas de análise financeira; Conceituar e compreender o funcionamento da Mineração de Dados (MD) e suas fases; Efetuar a seleção e modelagem dos dados utilizando as técnicas de análise financeira e de DM conjuntamente; Escolher uma ferramenta que efetue o processamento dos dados; Experimentar, avaliar e selecionar os melhores algoritmos para as tarefas pretendidas, através da ferramenta escolhida; Efetuar o processamento dos dados selecionados e modelados; Validar os resultados obtidos; Aprimorar a visualização e a interpretação dos resultados obtidos; Implementar uma ferramenta que visualize as informações obtidas no processamento; Realizar descobertas de nosso mercado acionário; e Verificar a importância da Mineração de dados neste processo. 4 1.3 METODOLOGIA Este trabalho utilizou o processo de Mineração de Dados com técnicas de Inteligência Artificial para ser aplicado a uma base de dados que contem o histórico de cotações de alguns ativos da Bolsa de valores com a finalidade de extrair conhecimentos relevantes dessa base de dados. Para desenvolver este projeto foram definidas quatro etapas, sendo a primeira vinculada mais a fundamentação do projeto, onde foram pesquisados e conceituados os temas abordados nele, na segunda etapa o foco esteve nas ferramentas que foram utilizadas, já na terceira a preocupação esteve na modelagem do projeto e a última etapa lidou com a documentação do TCC. Abaixo segue com mais detalhes a metodologia aplicada às atividades constante nas etapas: Na primeira etapa foi realizada a pesquisa de todo material bibliográfico que foi utilizado na parte teórica do presente projeto, desde consulta a trabalhos de Conclusão de Curso e dissertações de Mestrado, revistas, artigos, livros, consultas via Internet e demais meios. E também foram definidos conceitos, ou seja, determinado os argumentos que foram utilizados para definir cada metodologia e tecnologia que foi utilizada neste trabalho justificando sua aplicação. Na segunda fase foi pesquisada e escolhida a parte de software do trabalho, ou seja, mediante pesquisas e testes foi definida a parte operacional do projeto, realizando também a sua validação mediante testes e análise das características, vantagens, desvantagens e resultados obtidos. Na etapa seguinte o projeto foi modelado, ou seja, foi definida a estrutura do trabalho desde o pré-processamento dos dados até os resultados alcançados. A modelagem do pré-processamento foi feita utilizando como base a metodologia descrita nos conceitos da Mineração de Dados e também da análise financeira, sendo que as duas metodologias foram aplicadas conjuntamente gerando dados selecionados, modelados e preparados que foram utilizados pela atividade posterior. A atividade de processamento dos dados também foi feita utilizando a metodologia descrita nos conceitos da Mineração de Dados, com o uso da ferramenta escolhida que contemplou os melhores algoritmos, com a finalidade de alcançar os melhores resultados possíveis. E na ultima atividade foi definido o pós-processamento, onde os resultados alcançados foram testados, selecionados, transformados e validados para a conclusão do processo. 5 Na última etapa (documentação) foi registrado todo o projeto, ou seja, foi escrito toda a modelagem e metodologia descritas nas etapas anteriores, acompanhado das considerações finais. 1.4 ESTRUTURA DO TRABALHO O projeto está estruturado em 4 unidades, compreendendo a (1)Introdução, (2)Fundamentação Teórica, o (3)Projeto e as (4)Considerações Finais. Na Introdução do trabalho é dada uma visão geral de todo o projeto, incluindo a delimitação do tema, o problema enfrentado com sua possível solução, os objetivos, os conceitos envolvidos, a abrangência do projeto e a pesquisa de outros projetos similares. Na Fundamentação Teórica é abordada a parte de conceituação do projeto, descrevendo tanto os conceitos de Mineração de Dados quanto de Bolsa de Valores, não esquecendo das ferramentas que serão utilizadas e os projetos similares. Podemos dividir a unidade nas seguintes sessões: Bolsa de Valores: é abordada a definição de vários conceitos da área, e estudado também técnicas e analises de mercado; Mineração de Dados: é dado o conceito geral, para depois explicar suas fases, tarefas e técnicas detalhadamente; Ferramentas de Mineração de Dados: definição das principais ferramentas disponíveis no mercado com suas vantagens e desvantagens; e Inteligência Artificial no mercado financeiro: é descrito a sua importância, sendo embasada com trabalhos científicos que foram pesquisados na área. Trabalhos Similares: é relatado trabalhos científicos que abordaram o uso da Inteligência Artificial na Bolsa de Valores. A próxima unidade trata do Projeto em si, ou seja, foca no desenvolvimento do trabalho e está dividida nas seguintes sessões: 6 Pré-processamento: nesta Seção os dados serão preparados, onde serão selecionados e modelados; Processamento: nesta Seção os dados são introduzidos em uma ferramenta que aplicará neles tarefas e técnicas de DM, gerando resultados; e Pós-processamento: aqui os resultados obtidos são estudados, para uma seleção das informações relevantes que podem ser extraídas do processo e sua conclusão. Na última unidade do trabalho consta as Conclusões, onde é relatado um apanhado geral do trabalho, incluindo os resultados alcançados, os problemas obtidos, as soluções adotadas, a importância das descobertas efetuadas e os trabalhos que poderiam dar continuidade a este estudo. 7 2 FUNDAMENTAÇÃO TEÓRICA Esta unidade aborda os conceitos indispensáveis para o entendimento do projeto, sendo eles fundamentados nos mais diversos meios, tais como: Trabalhos Científicos, revistas, livros, sites conceituados da Internet, etc. Aborda também a fundamentação sobre o processo de Mineração de Dados, entra no contexto da Bolsa de Valores, depois apresenta as principais ferramentas disponíveis no mercado que podem ser utilizadas neste projeto, para em seguida finalizar com a importância da Inteligência Artificial neste contexto e trabalhos já aplicados na área financeira que utilizam esta técnica. 2.1 BOLSA DE VALORES Este é o campo de atuação deste projeto, onde as técnicas e metodologias computacionais foram aplicadas nesta área, sendo então, indispensável à explicação de todos os conceitos que fundamentam os recursos e conhecimentos que foram extraídos deste ambiente. Pode-se dizer que quanto mais ativa é uma economia, mais ativo é o seu mercado de capitais, o que se traduz em mais oportunidades para as pessoas, empresa e instituições aplicarem suas poupanças. Ao abrir seu capital, uma empresa encontra uma fonte de captação de recursos financeiros permanentes, acontecendo plenamente sua abertura quando lança ações ao público (denominando-se uma companhia aberta), negociando-as em Bolsa de valores (BM&FBOVESPA, 2009a). Elas têm o objetivo de manter a padronização e o regular funcionamento do mercado de capitais, mantendo elevados padrões éticos de negociação e divulgando as transações executadas com rapidez, detalhes e amplitude (ANBID, 2009). Então, bolsa de valores é o local que oferece condições e sistemas necessários para a realização de negócios, de onde Corretoras de Valores1 (intermediários), representando investidores2 institucionais e individuais, reúnem-se para realizar compra e venda de ações, e obrigações em mercado aberto, organizado e auto-regulado (BM&FBOVESPA, 2009a). E como descrito no Guia Online do Mercado de Ações da BM&FBOVESPA (2009a) a existência de um mercado organizado faz com que seja fácil e sem grandes esforços: Entrar como sócio numa sociedade por ações (companhia); Sair da sociedade; Negociar através de representantes; e Formalizar e legitimar as operações de compra e venda de ações. 2.1.1 Ações É um valor mobiliário negociável, emitido pelas companhias, que representa a menor parcela em que se divide o capital da companhia, sendo então, um pedacinho de uma empresa (UOL, 2009). São títulos negociados em mercados organizados, e de propriedade característico da companhia que a emitiu, mas confere ao proprietário (ou investidor) o status de sócio ou acionista. Sendo necessária a autorização da CVM3 (Comissão de Valores Mobiliários) para que essas empresas possam abrir seu capital em bolsa (BM&FBOVESPA, 2009a). 1 Corretoras de Valores são instituições autorizadas a funcionar pelo Banco Central (BC) e pela Comissão de Valores Mobiliários (CVM), onde executam operações de compra e venda de ações ou de derivativos na Bolsa, em nome de seus clientes (BM&FBOVESPA, 2009a). 2 Investidores são indivíduos ou instituições que aplicam recursos em busca de ganhos a médio e longo prazos, que operam nas Bolsas por meio de Corretoras e distribuidoras de valores, as quais executam suas ordens e recebem corretagens pelo seu serviço (BM&FBOVESPA, 2009a). 3 Comissão de Valores Mobiliários é um órgão fiscalizador do mercado brasileiro de capitais, o qual também registra e autoriza a emissão dos valores mobiliários para distribuição pública (BM&FBOVESPA, 2009a). 9 2.1.1.1 Tipos As ações podem ser classificadas de 2 formas: -Ordinárias: Confere ao titular os direitos essenciais do acionista, especialmente participação nos resultados da companhia e direito de voto em Assembléia de acionistas. A cada ação ordinária corresponde a um voto nas deliberações da Assembléia Geral, e são nominativas o que as levam a terem a notação ON (BM&FBOVESPA, 2009a). -Preferenciais: Dá a seu proprietário determinadas vantagens patrimoniais (prioridade na distribuição dos dividendos, no reembolso do capital) em relação às ações ordinárias, em troca da renúncia a outros direitos, como o direito de votar nas assembléias gerais da companhia, e são nominativas o que as levam a terem a notação PN (BM&FBOVESPA, 2009a). Ambas devem ser Nominativas, ou seja, seu possuidor é identificado nos livros de registro da companhia, e as empresas podem também dentro de cada tipo criar quantas classes quiser e emiti-las (ANBID, 2009). Os dividendos dados aos possuidores de ações Ordinárias nem sempre são iguais ao possuidor de ações Preferenciais. Normalmente as Preferenciais recebem percentuais maiores e também são negociadas com maior facilidade (UOL, 2009). Atualmente, conforme regulamentação da nossa bolsa de valores e seguindo critérios de Governança Corporativa é exigida de uma empresa para entrar no Novo Mercado 4 que ela emita obrigatoriamente apenas ações ordinárias e/ou converta as ações primárias em ordinárias. 2.1.1.2 Compra e venda No Brasil a compra e venda de ações é realizada na Bolsa de Valores de São Paulo (BOVESPA), onde são feitas por meios da corretoras credenciadas pela CVM (UOL, 2009). 10 Uma ordem de compra e venda em bolsa é o ato pelo qual o cliente determina ao operador de uma sociedade corretora (empresa constituída para realizar as operações de compra e venda de valores mobiliários para seus clientes ou outras instituições financeiras, nos sistemas mantidos pela bolsa de valores) que compre ou venda ativos ou direitos em seu nome, nas condições que especificar (BM&FBOVESPA, 2009a). O pregão à viva-voz (presencial) de ações foi desativado em 30 de setembro de 2005. Desde o dia 3 de Outubro de 2005 há apenas 1 modalidade de pregão na BM&FBOVESPA, denominada Mega Bolsa. No Mega Bolsa (terminais remotos), o sistema eletrônico de negociação da Bovespa, o operador lança a ordem do cliente, informando obrigatoriamente a quantidade de ações e o preço pelos quais deseja negociar, caso haja alguma outra ordem manifestando o interesse de compra nestas mesmas condições, a operação é casada automaticamente, assim, o negócio está concretizado e faltam apenas os procedimentos administrativos para a sua conclusão (BM&FBOVESPA, 2009a). Os tipos mais comuns de ordens podem ser vistas na Tabela 1: 4 O Novo Mercado é um dos níveis de Governança Corporativa, sendo um segmento de listagem destinado à negociação de ações emitidas por empresas que se comprometem, voluntariamente, com a adoção de práticas de governança corporativa e transparência adicional em relação ao que é exigido pela legislação (BM&FBOVESPA, 2009). 11 Tabela 1. Tipos de ordens A mercado Limitada Administrada Discricionária De financiamento De stop Executada quando recebida, ao melhor preço Fixa limite de preços. Executada dentro do limite ou por preço melhor Investidor especifica somente valor total e as características dos valores mobiliários ou direitos que deseja comprar ou vender. Seleção fica a critério da corretora Administrador de carteira ou representante de mais de 1 comitente estabelecem condições de execução da ordem. Depois de executada, quem autorizou a operação descriminará quantidade e preços atribuídos a cada comitente Compra (ou venda) em um tipo de mercado e outra concomitante de venda (ou compra) de igual valor mobiliário no mesmo ou em outro mercado, com prazos de vencimento distintos Especifica o nível de preço a partir da qual a ordem deve ser executada. - Stop de compra: deve ser executada a partir do momento em que, no caso de alta de preços, ocorra um negócio a preço igual ou superior ao preço especificado - Stop de venda: deve ser executada a partir do momento em que, no caso de baixa de preços, ocorra um negócio a preço igual ou inferior ao preço especificado Fonte: BM&FBOVESPA (2009a). 2.1.1.3 Formação do preço Ao iniciar o pregão de um dia de negociações, cada ação tem um preço referencial. Este preço foi a cotação de fechamento do dia anterior. E como descrito no Guia Online do Mercado de Ações da BM&FBOVESPA (2009a) ele é influenciado por diversos fatores, tais como: Fluxo de oferta e procura da ação; Comportamento histórico dos preços; Projeção da performance da empresa; e Notícias sobre a empresa. As Figuras 1, 2 e 3 auxiliam a entender o primeiro item deste processo: 12 Figura 1. Formação do preço 1 Fonte: BM&FBOVESPA (2009a). Figura 2. Formação do preço 2 Figura 3. Formação do preço 3 Fonte: BM&FBOVESPA (2009a). Fonte: BM&FBOVESPA (2009a). Observa-se que na Figura 1 a oferta e a procura por uma determinada ação estão estabilizadas, logo o seu preço tende a permanecer inalterado, neste caso, no valor de 1,00. Na Figura 2 a procura possui um peso maior, ou seja, há uma quantidade maior de investidores interessado neste ativo e em contrapartida a disponibilidade dele no mercado está reduzida (oferta menor), logo seu preço tende a oscilar, aumentado seu valor. E na Figura 3 ocorre o inverso da Figura 2, onde a oferta é maior que a procura e seu valor tende a diminuir. E resumidamente, podemos dizer que o valor de uma ação é o quanto o mercado está disposto a pagar por ela. 2.1.1.4 Cotações Cotação é o preço de qualquer ativo submetido à oferta e procura, em negociações no mercado financeiro. As cotações são listadas em ordem alfabética de negócios realizados, em dois 13 blocos separados: cotações em R$ por ação (fator de cotação = 1) e cotação em R$ por lote de mil ações (fator de cotação = 1.000) (BM&FBOVESPA, 2009a). Na Tabela 2 são descritas as principais referências onde as cotações de uma determinada ação são aplicadas: Tabela 2. Principais referências da cotação Abertura Fechamento Máxima Média Mínima Último Oscilação Oferta de compra Oferta de venda Negócios (nº) Negócios (quant.) Primeira cotação, na abertura de negócios de um dia de negociações Ultima cotação, no encerramento de negócios Maior cotação do dia Cotação média do dia Menor cotação do dia Ultima cotação do dia Porcentual de variação em relação ao fechamento do dia anterior Cotação da última oferta de compra registrada Cotação da última oferta de venda registrada Quantidade de negócios realizados com cada ação Quantidade de ações negociadas Fonte: BM&FBOVESPA (2009a). 2.1.2 BM&FBovespa A BM&FBOVESPA S.A. – Bolsa de Valores, Mercadorias e Futuros foi criada em 2008 com a integração entre a Bolsa de Mercadorias e Futuros (BM&F) e a Bolsa de Valores de São Paulo (BOVESPA). Juntas, as companhias formam uma das maiores bolsas do mundo em valor de mercado, a segunda das Américas, e a líder na América Latina (BM&FBOVESPA, 2009a). No cenário global, em que acompanhar a velocidade das transformações torna-se um diferencial competitivo, a BM&FBOVESPA apresenta atraentes opções de investimento com custos de operação alinhados ao mercado. Então, sua missão merece ser observada, sendo definida como: Atuar na dinâmica macroeconômica de crescimento do mercado latino-americano e posicionar não apenas a Bolsa, mas também o Brasil como centro financeiro internacional de negociação de ações, commodities e outros instrumentos financeiros, com excelência operacional e atitudes socialmente responsáveis (BM&FBOVESPA, 2009a). 14 2.1.2.1 Índice Um índice de ações indica a variação média de preços de um conjunto de ações, conhecida como carteira teórica, em um determinado período. Sua variação é medida em percentual e seus valores são expressos em pontos (ANBID, 2009). São criados a partir de regras específicas que selecionam os papéis que vão compor sua carteira e servem como ponto de referência (benchmark) para mensurar o desempenho de determinado mercado, conjunto de empresas ou ações de um setor específico (ANBID, 2009). Praticamente, todas as bolsas de valores do mundo, visando medir seu desempenho, têm seus próprios índices de ações (BM&FBOVESPA, 2009a). Alguns dos índices mais conhecidos do mundo seguem na Tabela 3: Tabela 3. Índices de Bolsas no mundo Bolsas Bolsa de Valores de Nova York Índices S&P - Standard & Poor`s 100, DJIA – Dow Jones Industrial Average e Nyse – Composite Index Bolsa de Hong Kong Hang Seng Index Bolsa Nasdaq Nasdaq Composite Index Bolsa de Tóquio Nikkei Index Bolsa de Londres FT 100 Bolsa do comércio de Buenos Aires Merval Bolsa de Frankfurt DAX Bolsa de Madri Latibex (ações da América Latina) Bourse de Paris FTSEuroFirst 80 Borsa Italiana S&P-MIB Fonte: BM&FBOVESPA (2009a). O principal índice que mede a nossa bolsa é o índice Bovespa, ele acompanha a evolução média das cotações das ações negociadas na bolsa de valores de São Paulo. Ele é o valor atual, em moeda corrente, de uma carteira teórica de ações. A carteira teórica é integrada pelas ações que, em conjunto, representam 80% do volume transacionado a vista nos 12 meses anteriores à formação da carteira (BM&FBOVESPA, 2009a). 15 Conforme regra da própria BM&FBOVESPA (2009a), a carteira teórica do índice Bovespa é composta pelas ações que atenderam cumulativamente aos seguintes critérios, com relação aos doze meses anteriores à formação da carteira: Estar incluída em uma relação de ações cujos índices de negociabilidade somados representam 80% do valor acumulado de todos os índices individuais; Apresentar participação, em termos de volume, superior a 0,1% do total; e Ter sido negociada em mais de 80% do total de pregões do período. O índice Bovespa sofre de 4 em 4 meses uma reavaliação, onde se pode alterar tanto sua composição quanto o peso de cada ativo na carteira, com a finalidade de que sua representatividade se mantenha ao longo do tempo. 2.1.2.2 Cenário atual Merece destaque este item por ter grande relevância no presente estudo, já que o campo de atuação deste projeto está ligado as suas perspectivas futuras, então, o cenário atual em que se encontra nossa bolsa brasileira deve ser considerado, onde sua situação atual não poderia ser melhor, sendo as perspectivas de futuro as melhores possíveis não havendo precedentes iguais vistos no passado histórico de nosso mercado, então as noticias que serão descritas abaixo vem para embasar o momento em que vivemos e para ainda mais destacar a importância deste estudo na nossa Bolsa de valores. Abaixo serão transcritas noticias extraída da Revista Exame, conceituada revista no ramo financeiro e econômico, que foram expostas na edição de Agosto de 2009: Nos primeiros sete meses de 2009 não houve bolsa no mundo que valorizasse mais do que a BM&FBovespa. Em dólar, seus investidores ganharam 87% no período. A segunda bolsa com maior valorização foi a Xangai, na pujante China, com 79% de ganhos em dólar. A bolsa brasileira é hoje a quarta maior do mundo em valor de mercado. E a 12ª quando se soma o valor das ações das 432 companhias negociadas. Juntas, elas valem hoje 1 trilhão de dólares. 16 De janeiro a agosto, os investidores estrangeiros têm um saldo positivo de quase 14 bilhões de reais na BM&FBovespa. Apenas em maio, mês que registrou o recorde histórico de aportes internacionais, foram investidos 6 bilhões de reais. Desde 2004, o valor total das companhias negociadas dobrou. E os recursos levantados nas ofertas de ações feitas por elas somaram 180 bilhões de reais. A bolsa brasileira abrigou em 2009 a segunda maior abertura de capital do mundo, a da processadora de operação com cartões Visanet. Em julho, o banco espanhol Santander anunciou que fará aqui uma oferta de ações de sua operadora local que poderá chegar a 7 bilhões de reais – é a primeira vez que uma multinacional escolhe o mercado brasileiro para levantar tamanha quantidade de recursos. E complementando o último tópico, a revista Veja noticiou em outubro de 2009 os resultados obtidos com a oferta pública das ações do Banco Santander: “[...] tornou-se a maior da história da Bolsa de Valores de São Paulo (Bovespa). De acordo com informações divulgadas pela Comissão de Valores Mobiliários (CVM), a operação movimentou 14,1 bilhões de reais, para um total de 600 milhões de ações [...] (VEJA, 2009). 2.1.3 Análise de investimento Este item é de extrema importância para o correto entendimento deste projeto, pois a metodologia empregada neste projeto utiliza amplamente os conceitos e análises que estão expressas aqui. 2.1.3.1 Análise Fundamentalista X Análise Técnica No mercado de ações existem duas escolas de análises feitas pelos especialistas da área, sendo elas a análise Fundamentalista e a análise Técnica. Como os fundamentos destas metodologias serão utilizados em nosso processo de Mineração de Dados ou KDD (Knowledge Discovery in Databases – Descoberta de Conhecimento 17 em Bases de Dados), a Fundamentalista no Pré-processamento para a seleção de ativos e a Técnica na Mineração de Dados propriamente dita, é importantíssimo que sejam observadas as diferenças entre as duas escolas. A Fundamentalista foca o longo prazo e é baseada nos fatores e fundamentos econômicos, dependendo de estatísticas, projeções, condições de oferta e demanda e fundamento das empresas como ramos de atuação, perspectivas de mercado, demonstrativos financeiros, relatórios entre outros (BM&FBOVESPA, 2009a). Pinheiro (2005) define a análise Fundamentalista como sendo “o estudo de toda a informação disponível no mercado sobre determinada empresa, com a finalidade de obter seu verdadeiro valor, e assim formular uma recomendação de investimento”. E Pinheiro (2005) ainda finaliza seu conceito sobre a escola Fundamentalista dizendo que: “Portanto, estuda os fatores que explicam o valor intrínseco de uma empresa, setor ou mercado, colocando em segundo plano os valores de mercado, como preço e volume. Esses fatores são chamados de valores fundamentalistas”. Já a análise Técnica destina-se ao curto prazo (entre 4 semanas e 6 meses) e é baseada na interpretação dos gráficos de preços dos ativos, volumes e outros indicadores, mostrando como os preços se comportaram no passado, projetando uma série de expectativas de movimentos de preços no futuro (BM&FBOVESPA, 2009a). Conforme Guia da BM&FBOVESPA (2009a) o analista Técnico tem os seguintes pensamentos: O preço de hoje desconta eventos futuros; Algumas vezes, os preços se movimentam numa tendência perceptível; O ser humano tende a não mudar de comportamento; e 18 O ser humano pode se reunir e atuar como uma massa com mentalidade coletiva diversa daquela que tem como indivíduos. A BM&FBOVESPA (2009a) ainda definiu em seu manual alguns objetivos que a escola técnica possui: Conhecer e mensurar a lei de oferta e procura; Identificar oportunidades de operações atraentes e as melhores situações de retorno em relação ao risco; Otimizar as entradas e saídas do mercado; Determinar limites nas oscilações dos preços; e Estabelecer estratégias de risco. “Portanto, essa análise é o estudo de como os preços se movimentam, não se preocupando como porquê de eles se movimentarem.” (PINHEIRO, 2005). A Tabela 4 a seguir define bem as características apresentadas por cada escola, com as principais diferenças entre elas: 19 Tabela 4. Fundamentalista X Técnica Itens Idade Origem Usuário Pergunta Análises Hipóteses Básicas Objetivos Fundamentalista 30 anos Acadêmica Administradores de fundos e investidores no longo prazo Por quê? Econômico-financeira Existe um valor real ou intrínseco para cada ação que está diretamente correlacionado com o desempenho da empresa Determinar o valor real de uma ação Técnica 100 anos Profissional Especulador Quando? Gráfica Os preços das ações movimentam-se em tendências e existe uma dependência significativa entre as oscilações dos preços que se sucedem Determinar a tendência de evolução das cotações no curto prazo, a fim de se aproveitar das rápidas oscilações para auferir ganhos de capital (vender as ações por um preço superior ao da compra) Fonte: Adaptado de Pinheiro (2005). É muito difícil encontrar no mercado de investimentos, analistas que utilizem apenas uma das duas técnicas de análise, mas sim, conjuntamente, já que a Fundamentalista serve para indicar em quais ações investir e a Técnica em que momento investir (PINHEIRO, 2005). Então, atualmente não há um consenso sobre qual das duas seria a melhor forma de análise, mas muitos analistas dizem que a mistura das duas análises seria o melhor caminho, exatamente como foi empregada neste projeto. 2.1.3.2 Risco Conforme Guia da BM&FBOVESPA (2009a) risco no âmbito financeiro pode ser definido como a probabilidade de ganho ou perda numa decisão de investimento, ou ainda, o grau de incerteza do retorno de um investimento. E, normalmente, o risco tem relação direta com o nível de renda do investimento, ou seja, quanto maior o risco, maior o potencial de renda do investimento. 20 A negociação de ações é considerada um investimento de alto risco. Em virtude da variação dos preços delas, não há garantia de retorno do capital que foi investido (UOL, 2009). Por ser um mercado de alta volatilidade5, as ações são consideradas ativos de renda variável, ou seja, não oferecem ao investidor uma rentabilidade garantida, previamente conhecida. Assim sendo, é considerado um investimento de risco (BM&FBOVESPA, 2009a). Na Tabela 5 são expostos os tipos de risco que uma organização está sujeita: Tabela 5. Tipos de Riscos Título da Coluna 1 De mercado De crédito De liquidez Legal De fraude De reputação ou imagem Operacional Título da Coluna 2 Decorre de movimentos adversos do valor dos bens relacionados no ativo e das obrigações constantes no passivo de uma empresa Perda econômica potencial que uma empresa pode sofrer se a contraparte devedora não liquidar sua obrigação financeira no prazo estipulado em contrato Grau de dificuldade para obtenção de meios de pagamento pela venda de um bem e pela perda de valor que ocorrer Possibilidade de questionamento jurídico da execução dos contratos, processos judiciais ou sentenças contrárias ou adversas àquelas esperadas pela Instituição e que possam causar perdas ou perturbações significativas que afetem negativamente os processos operacionais Possibilidade de ocorrência de evento que cause prejuízo direto ou indireto para a organização, oriundo de ações de pessoas ou empresas que venham subtrair recursos da contra no SITRAF de um banco participante em favor de terceiros ou ainda de outras ações que caracterizem ato de má-fé Possibilidade de ocorrer publicidade negativa, verdadeira ou não, em relação à prática da condução dos negócios da Instituição, gerando declínio na base de clientes, litígio ou diminuição da receita Possibilidade de perda decorrente da falta de consistência e adequação dos sistemas de informação, processamento e operações, falhas nos controles internos, fraudes ou qualquer tipo de evento não previsto Fonte: BM&FBOVESPA (2009a). 5 Volatilidade é definida como a intensidade e freqüência de variações bruscas da cotação de um ativo, índice, título ou valor mobiliário (BM&FBOVESPA, 2009a). 21 2.1.3.3 Rentabilidade A rentabilidade dos investidores é composta de dividendos6 ou participação nos resultados e benefícios concedidos pela empresa emissora, além do possível ganho de capital advindo da venda da ação no mercado secundário7 (Bolsa de Valores). O rendimento do investimento depende de vários fatores, tais como desempenho da empresa, comportamento da economia brasileira e internacional etc. (BM&FBOVESPA, 2009a). E no Portal da Anbid (2009) dividendos está definido como a parte do investidor no lucro obtido pela empresa, e descreve ainda que sempre que uma empresa tem lucros, ela reserva parte deste resultado para distribuir a seus acionistas. Aqui no Brasil, as empresas são obrigadas a um pagamento mínimo de dividendos de 25% do lucro. A Lucratividade é um rendimento auferido por determinado investimento, sendo a diferença entre o valor atual e o valor pago por um investimento. Normalmente ele é expresso sobre a forma de porcentagem em relação ao valor dos recursos investidos inicialmente (BM&FBOVESPA, 2009a). 2.1.3.4 Blue Chips X Small Caps Como descrito no site da BM&FBOVESPA (2009a), as ações podem ser divididas em: De primeira linha (Blue chips): São ações de grande liquidez (grande quantidade de negócios), e procura no mercado de ações por parte dos investidores, em geral são empresas tradicionais, de grande porte/âmbito nacional e excelente reputação; De segunda linha (Small caps): São ações um pouco menos líquidas, de empresas de boa qualidade, em geral de grande e médio porte; e 6 Dividendos são uma porção dos lucros distribuídos aos acionistas em dinheiro (PINHEIRO, 2005). O Mercado Primário compreende o lançamento de novas ações ao mercado, com aporte de recursos à companhia. Após esse processo, as ações passam a ser negociadas no Mercado Secundário, que compreende as bolsas de valores e os mercados de balcão (onde são negociadas ações que não estão sujeitas aos procedimentos especiais de negociação) (BM&FBOVESPA, 2009a). 7 22 De terceira linha (Small caps): São ações com pouca liquidez, em geral de companhias de pequeno e médio porte (porém, não necessariamente de menor qualidade), cuja negociação caracteriza-se pela descontinuidade. Um princípio básico de finanças diz que o retorno de um investimento é diretamente proporcional ao risco que ele apresenta. Ou seja, quanto maior o risco, maior a possibilidade de ganhos. De forma geral, as small caps são mais arriscadas que as blue chips, mas quando analisamos cada ação isoladamente verificamos que nem sempre o que é válido para o conjunto pode ser aplicado individualmente (LORENZO, 2009). Então, decidir entre uma opção e outra é uma tarefa extremamente difícil, mas para melhor ilustrar esta complexidade a Figura 4 apresenta como reagem as smal caps, analisado principalmente no período agudo da crise (15 de setembro a 31 de dezembro de 2008) até o inicio de seu afrouxamento aqui no Brasil (primeiros meses de 2009): Figura 4. Small caps Fonte: Economática (2009 apud LORENZO, 2009). Logo, a Figura 4 demonstra a volatilidade que as small caps sofreram no período, onde em um primeiro momento (agudo da crise) elas obtiveram uma queda superior ao índice que mede as principais ações (índice Bovespa) e logo em seguida (no final da crise) obteve um desempenho bem superior a esse mesmo índice. 23 2.2 MINERAÇÃO DE DADOS Este é o método aplicado na base de dados para a extração de conhecimento novo, então será detalhado todo o seu processo, incluindo sua definição, as fases que envolvem seu funcionamento, as tarefas mais utilizadas para desempenhar seu papel e as técnicas mais importantes que são utilizadas para que as tarefas possam cumprir seus objetivos. Antes da definição, deve-se esclarecer que o processo de Mineração de Dados como um todo (incluindo todas as fases) na realidade recebe outro nome, denominado KDD que significa Descoberta de Conhecimento em bases de dados ou em inglês Knowledge Discovery in Databases, sendo que mineração de dados é apenas uma etapa deste processo (etapa de processamento dos dados). Popularmente o processo de KDD é conhecido como Mineração de Dados, em virtude disto, muitos autores terminam denominando o processo como DM. Neste trabalho será utilizado o termo Mineração de Dados tanto para definir o processo como um todo como somente a etapa de processamento, devendo então ser analisado o contexto que ela se encontra. Carvalho (2001) define a Mineração de Dados como a aplicação de técnicas automáticas de exploração de grande volume de dados com a finalidade de descobrir padrões e relações que estavam escondidos, que não seriam facilmente descobertos a olho nu pelo ser humano. Silveira (2004 apud KLEINSCHMIDT, 2007) define como “obter informações através de uma base de dados existente usando seus atributos para extrair informações que não são óbvias e que precisam ser trabalhadas para serem úteis na tomada de decisão, através da utilização de algoritmos para identificar padrões nos dados analisados”. E Goldschmidt (2005) define como o desenvolvimento e aplicação de técnicas que permitem obter conhecimentos novos e úteis a partir de grandes bases de dados. Na Figura 5 conforme nos demonstra Silva (2003) a Mineração de Dados engloba em seu processo conhecimentos de diversas áreas, possuindo técnicas de Inteligência Artificial, Banco de Dados e Estatística. 24 Figura 5. DM multidisciplinar Fonte: Silva (2003). Os objetivos da Mineração de Dados segundo Fayyad (1993 apud SILVA, 2003) são a descrição e previsão de modelos, sendo a descrição caracterizada pela descoberta de padrões interpretáveis pelo ser humano, enquanto que a previsão é caracterizada pela utilização de variáveis contidas dentro de bancos de dados para prever valores futuros ou desconhecidos. Atualmente, inúmeras são as aplicações de DataMining, onde podemos citar como exemplos: na tendência de consumo de clientes, na detecção de fraudes em arrecadações, previsão do volume de vendas, na segmentação de mercados, no planejamento de produção e principalmente na previsão de mercados financeiros. Contudo isso, estão sendo utilizadas com sucesso no mundo todo, tanto em empresa nacionais como internacionais (GOLDSCHMIDT, 2005). Podemos simplificar o processo de DM ou KDD com suas etapas operacionais como vemos na Figura 6: 25 Figura 6. Processo de DM Fonte: Aurélio, Vellasco e Lopes (1999 apud STAHNKE, 2008). 2.2.1 Fases O processo é dividido em três importantes fases que serão explicadas a seguir: 2.2.1.1 Pré-processamento Segundo Pacheco (1999, apud KLEINSCHMIDT, 2007) “A etapa de pré-processamento é responsável por consolidar as informações relevantes para o algoritmo minerador, com o objetivo de reduzir a complexidade do problema”. E conforme Goldschmidt (2005) a principal função desta fase é a preparação dos dados para serem aplicados na fase seguinte de Mineração de Dados. Compreende todos os métodos relacionados à captação, à organização e ao tratamento dos dados, conforme relacionado abaixo: 26 Seleção de dados Também identificada pelo nome de redução de dados ela realiza a identificação e seleção das informações (atributos) mais relevantes, entre as existentes na base de dados original, que devam ser utilizadas no processo (GOLDSCHMIDT, 2005). Para Amorim (2006) “inicia com uma coleta inicial de dados, e com procedimentos e atividades visando a familiarização com os dados, para identificar possíveis problemas de qualidade, ou detectar subconjuntos interessantes para formar hipóteses”. Limpeza de dados Consiste no tratamento dos dados selecionados na etapa anterior, ou seja, para não comprometer a qualidade dos resultados que serão obtidos no final do processo é necessário que correções sejam efetuadas na base de dados em virtude da possibilidade de haver informações ausentes, errôneas, inconsistentes, redundantes ou nulas. Assegurando, assim, a completude, a veracidade e a integridade dos fatos por eles representados (GOLDSCHMIDT, 2005). Para Amorim (2006) “consiste na preparação dos dados que visa a limpeza, transformação, integração e formatação dos dados da etapa anterior. É a atividade pela qual os ruídos, dados estranhos ou inconsistentes são tratados”. Codificação dos dados Para que os dados possam ser usados de maneira adequada pelos algoritmos de Mineração de Dados ao qual serão submetidos, normalmente é necessário que eles sejam codificados para que sejam aceitos e possuam a forma adequada (GOLDSCHMIDT, 2005). Enriquecimento dos dados Para o aprimoramento das informações que serão submetidas ao processo de DM pode ser realizada a adição de dados novos que serão agregados aos registros já existentes, conseguindo assim, o enriquecimento das informações fornecidas (GOLDSCHMIDT, 2005). 27 2.2.1.2 Mineração de Dados É considerada como a etapa mais importante da metodologia, onde são definidas as tarefas e técnicas, incluindo os algoritmos, que serão utilizados no processo, sendo realizada então a busca pelo conhecimento que se pretende extrair da base de dados. Para Amorim (2006) esta fase “consiste na modelagem dos dados, a qual visa a aplicação de técnicas de modelagem sobre conjunto de dados preparado na etapa anterior [...] e seus parâmetros são calibrados para se obter valores otimizados”. Normalmente não é selecionada apenas uma técnica para a execução do processo, podendo haver até a junção destas técnicas se necessário, e “algumas técnicas possuem requerimentos específicos na forma dos dados. Conseqüentemente, voltar para a etapa de preparação de dados é freqüentemente necessário”. E para Carvalho (2001) nesta fase é realizada a descoberta de novas relações, não identificadas a olho nu, com a utilização de métodos de Inteligência Artificial, através de uma análise sistemática e exaustiva sobre os registros dos bancos de dados. Nos itens 2.2.2 e 2.2.3 serão detalhadas as principais tarefas e técnicas que são utilizadas nesta fase. 2.2.1.3 Pós-processamento Na análise de Silva (2003) esta fase inicialmente realiza a avaliação dos padrões realmente interessantes, que agregam conhecimento útil, para depois realizar a apresentação do conhecimento descoberto para o usuário final, através de técnicas de visualização e representação do conhecimento. Para Goldschmidt (2005) nesta fase é realizado o tratamento do conhecimento obtido na fase anterior (DM), com a finalidade de facilitar a interpretação e a avaliação da utilidade do conhecimento descoberto. Podendo dividir esta fase em 3 etapas: 28 Simplificação de modelo de conhecimento Nesta etapa é realizada a remoção de detalhes e conjunto de informações sem importância do modelo de conhecimento que foi extraído da fase de processamento (Mineração de Dados), de forma a torná-lo menos complexo e mais legível e simplificado ao usuário final, mas sem perda de informação relevante (GOLDSCHMIDT, 2005). E segundo Silva (2003) a fase de pós-processamento é iniciada com a avaliação dos padrões realmente interessantes, que representem conhecimento útil. Transformação de modelo de conhecimento O modelo de conhecimento que foi obtido da fase de Mineração pode sofrer mudanças em sua estrutura com a finalidade de facilitar a análise e interpretação deste modelo. Normalmente são aplicados métodos que consistem na conversão da forma de representação do conhecimento de um modelo para outra forma de representação do mesmo modelo (GOLDSCHMIDT, 2005). Organização e apresentação dos resultados Há técnicas de visualização de informação que estimulam a percepção e a Inteligência humana, conseqüentemente aumentando o poder de entendimento e associação de novos padrões. Então, seguindo este pensamento atualmente se usam diversas formas para representar os modelos de conhecimento obtidos neste processo, sendo os mais utilizados as planilhas, as tabelas, os cubos de dados, as árvores, as regras e os gráficos em 2 ou 3 dimensões (GOLDSCHMIDT, 2005). Mas existem alguns critérios que devem ser obedecidos ao representar os resultados alcançados onde Amorim (2006) as defini como: “devem possibilitar uma análise criteriosa para identificar a necessidade de retornar a qualquer um dos estágios anteriores do processo de mineração”. 29 2.2.2 Tarefas Segundo Kleinschmidt (2007) existem diversas tarefas de DM, onde cada uma delas extrai um tipo diferente de conhecimento da base de dados e também estão diretamente relacionadas ao domínio da aplicação e ao interesse do usuário. Podemos considerar que a escolha das tarefas depende dos objetivos que se pretende atingir com a aplicação, e não podemos esquecer também que as tarefas podem ser utilizadas isoladamente ou combinas entre elas dependendo da finalidade que se pretende atingir. As tarefas estão compreendidas dentro da fase de Mineração de Dados. São diversas as tarefas que podem ser aplicadas no processo, mas descreveremos a seguir as principais tarefas, que usualmente são mais utilizadas e também mais estudadas pelos autores: 2.2.2.1 Classificação Segundo Goldschmidt (2005) é uma das mais populares e importantes tarefas e é definido como: “descobrir uma função que mapeie um conjunto de registros em um conjunto de rótulos categóricos predefinidos, denominados classes. Uma vez descoberta, tal função pode ser aplicada a novos registros de forma a prever a classe em que tais registros se enquadram”. Euriditionhome (2004, apud AMORIM, 2006) diz que esta tarefa pode ser usada para compreender dados já existentes como também para prever como novos dados irão se comportar. E Amorim (2006) alerta que é necessário para realizar a tarefa de forma eficiente que detalhes do dado a classificar sejam desprezados e que apenas as características principais sejam observadas. Há diversos tipos de algoritmos que podem ser utilizados na tarefa de Classificação, com estruturas e características diversas, mas os utilizados com mais freqüência são: Redes Neurais Artificiais (RNA), Estatísticas, Lógica Indutiva, Árvore de Decisão, Regressão e Algoritmos Genéticos (AG). 30 2.2.2.2 Agrupamento (ou Clusterização) Conforme Amorim (2006) “Visa formar grupos de objetos ou elementos mais homogêneos entre si”. E confirma que esta tarefa é bem mais complexa que a de classificação, pois lá as classes já vêm com uma classificação previa. Sua função é separar os registros de uma base de dados em subconjuntos ou grupos, onde os elementos de um grupo compartilhem de características similares que os distingam de elementos em outros grupos (GOLDSCHMIDT, 2005). Para Silva (2003) ela é utilizada quando ainda não é conhecido nenhum grupo e sua finalidade é produzir uma segmentação do conjunto de dados de entrada de acordo com algum critério. E segundo Fayyad et al. (1996, apud GOLDSCHMIDT, 2005) a diferença para o método de classificação é a necessidade de automaticamente identificar os grupos de dados aos quais os usuários deverá atribuir rótulos, onde na classificação os rótulos são pré-definidos. Existem vários tipos de algoritmos que podem ser utilizados no Agrupamento, com características e funcionalidades diferentes, mas os reconhecidos pela literatura e constantemente usados são os seguintes: RNA, Estatística, K-Means e AG. 2.2.2.3 Associação (ou análise de afinidade) Carvalho (2001) define da seguinte forma: “Determinar que fatos ocorram simultaneamente com probabilidade razoável (co-ocorrência) ou que itens de uma massa de dados estão presentes juntos com uma certa chance (correlação)”. E Goldschmidt (2005) em sua definição sobre esta tarefa diz que: Compreende a busca por itens que ocorram constantemente de forma simultânea em ocorrências da base de dados. Há diversos tipos de algoritmos que podem ser utilizados na tarefa de Associação, com estruturas e características diversas, mas os utilizados com mais freqüência são: Regras de Associação, Teoria dos Conjuntos, Estatística e Apriori. 31 2.2.2.4 Previsão Carvalho (2001) define resumidamente como sendo a “avaliação do valor futuro de algum índice, baseando-se em dados do comportamento passado deste índice”, e afirma que ela é uma das tarefas mais difíceis, e que o único modo de termos certeza se a tarefa foi bem realizada é aguardar o acontecimento e, daí sim, verificar os resultados. Goldschmidt (2005) diz que este método está sendo muito utilizado para resolver problemas do mundo real, onde a eficácia de uma decisão depende diversas vezes de eventos anteriores a ela mesma, assim, esta tarefa ajuda a reduzir os riscos gerados por incertezas e acaba auxiliando o planejamento e a tomada de decisões. Existem vários tipos de algoritmos que podem ser utilizados na Previsão, com características e funcionalidades diferentes, mas os reconhecidos pela literatura e constantemente usados são os seguintes: RNA, Regressão, Árvore de Decisão e Estatística. 2.2.2.5 Estimativa Carvalho (2001) diz que para estimar um índice é necessário “determinar seu valor mais provável diante de dados do passado ou de dados de outros índices semelhantes sobre os quais se tem conhecimento”. E afirma que a arte de estimar é usar valores que se encontram em situações similares aos valores que se quer determinar, mas jamais exatamente iguais. Há diversos tipos de algoritmos que podem ser utilizados na Estimativa, com estruturas e características diversas, mas os utilizados com mais freqüência são: Algoritmos de Regressão, RNA, Estatística, AG e Simulated Annealing. 2.2.3 Técnicas Normalmente a técnica ou técnicas a serem escolhidas dependem das tarefas a serem realizadas, e da mesma forma que as tarefas podem ser usadas de maneira individual ou combinadas. 32 Segundo Silveira (2003 apud KLEINSCHMIDT, 2007) “de acordo com as tarefas a serem executadas e as classes de problemas em questão, existem diferentes técnicas de mineração e algoritmos que possibilitam a busca por padrões escondidos nos dados”. As técnicas estão compreendias dentro da fase de Mineração de Dados. E são diversas as técnicas que podem ser aplicadas no processo, mas será descrito a seguir as 2 principais, sendo as mais utilizadas na área de atuação de trabalho: 2.2.3.1 Algoritmo Genético É definido por Goldschmidt (2005) como sendo “modelos de otimização, inspirados na evolução natural e na genética, aplicados a problemas complexos de otimização”. E são recomendados para problemas com grandes espaços de busca ou com muitas variáveis e restrições, e salienta ainda que esta técnica não tem como garantir uma solução ótima, mas pode conseguir soluções próximas ou aceitáveis. E segundo Carvalho (2001) o Algoritmo genético surgiu através de uma forte analogia com a Teoria da Evolução das Espécies de Darwin, onde a primeira etapa na utilização deste método é definir um conjunto de genes que representem as características do problema em questão, formando o cromossomo. “Em um processo regido por seleção natural, populações competem umas com as outras, para converterem-se em progenitores, em função de um valor chamado ajuste. Depois aplica-se uma série de funções denominadas operadores genéticos: mutação, inversão e cruzamento (crossover)” (DAV, 1991 apud SILVEIRA; BARONE, 1998). 2.2.3.2 Redes Neurais Artificiais É definido por Goldschmidt (2005) como “uma técnica computacional que constrói um modelo matemático inspirado em um sistema neural biológico simplificado, com capacidade de aprendizado, generalização, associação e abstração”. E simplifica o processo dizendo que a técnica tenta aprender padrões através da experiência, ou seja, são feitos testes com os dados repetidas 33 vezes, procurando por vínculos e automaticamente construindo modelos, e os corrige quando necessário tentando diminuir seu próprio erro. E é definido por Sousa (1998, apud AMORIM, 2006) como sistemas paralelos distribuídos, onde tentam formar padrões localizados nos dados. Sua estrutura compreende um número de unidades de processamento interconectadas, chamadas de neurônios, que tem a finalidade de especificar determinadas funções matemáticas, conhecidas como funções de ativação. Estes neurônios são distribuídos em uma ou mais camadas e interligadas por um grande número de conexões, estas vinculados a pesos que registram o conhecimento caracterizado pelo modelo e ponderam as entradas recebidas por cada neurônio da rede. 2.3 FERRAMENTAS DE MINERAÇÃO DE DADOS Há atualmente disponíveis no mercado diversas ferramentas que foram desenvolvidas para facilitar o processo de Mineração de Dados ou KDD e diminuir as dificuldades operacionais existentes, todas elas possuem suas vantagens e desvantagens sendo uma tarefa difícil dizer qual seria a melhor opção. Mas, no presente projeto, será trabalhado com a ferramenta Weka (Waikato Environment for Knowledge Analysis) por possuir todos os recursos necessários e indispensáveis a perfeita execução deste trabalho; também por possuir uma quantidade enorme de algoritmos com funcionalidades e características das mais diversas, dando maior opção e credibilidade nas suas escolhas; e também por ser uma ferramenta de código aberto, que dá a opção de estudo da estrutura dos algoritmos com possível complementação e miscigenação de suas funções. Como exemplo, será descrito três ferramentas que são muito utilizadas no mundo todo, citadas por diversos autores e muito bem conceituadas, destacando suas principais características. E será finalizado com um quadro comparativo entre elas, destacando principalmente os recursos que elas possuem e características que possam diferenciá-las. 34 2.3.1 Weka Esta ferramenta foi desenvolvida por um curso de Ciências da Computação da Universidade de Waikato na Nova Zelândia, foi totalmente desenvolvida na linguagem Java, sendo um produto gratuito, de código aberto e possuindo diversos algoritmos para a execução de suas tarefas. Possui uma interface gráfica de fácil manuseio, denominada de Explorer, e engloba separadamente as etapas de pré-processamento, processamento e pós-processamento. “O Weka possui implementados diversos métodos de associação, classificação e clusterização. A inclusão ou remoção de novos métodos pode ser realizada de forma simples e rápida, o que torna a ferramenta customizável e expansível.” (GOLDSCHMIDT, 2005). A equipe de desenvolvimento tem lançado periodicamente correções e releases da ferramenta, além de manter um grupo de discussões sobre o software. A maioria das funções desta ferramenta foram originadas de teses e dissertações de grupos de pesquisas desta Universidade (SILVA, 2006). O Weka suporta apenas a manipulação de arquivo do tipo ARFF que é baseado em ASCII e com a finalidade de definir atributos e seus valores. O programa permite a apresentação gráfica dos dados em forma de histogramas, possui modelos gráficos para a montagem de redes neurais, e a possibilidade de visualização dos resultados em árvores de decisão (GOLDSCHMIDT, 2005). Porém ele limita o volume de dados a ser manipulado à sua capacidade de memória principal, sendo então, a escalabilidade um ponto negativo da ferramenta (SILVA, 2006). Na Figura 7 segue a visualização da interface de pré-processamento em um caso já cadastrado no Weka (Weather) com 5 atributos, extraída da própria ferramenta: 35 Figura 7. Weka pré-processamento Fonte: Universidade de Waikato (2009). 2.3.2 SAS Enterprise Miner Produzido pela empresa internacional SAS, a ferramenta implementa todo o processo de KDD, através de um modelo próprio definido como SEMMA – Selecionar (Sample), Explorar (Explore), Modificar (Modify), Modelar (Model), e Avaliar (Assess) (SAS, 2009). “É um software estatístico voltado à análise de dados [...] com destaque especial ao módulo de Mineração de Dados. Esse módulo dispõe de diversos algoritmos de análise, além de recursos para o planejamento de ações e encadeamento dos algoritmos.” (GOLDSCHMIDT, 2005). 36 “[...]O software fornece a habilidade original de poder comparar a eficácia de cada técnica em relação ao total do conhecimento gerado, permitindo que estatísticos e analistas do negócio discutam facilmente os resultados, para analisar as técnicas mais eficazes[...]” (AMORIM, 2006). O Comparativo de técnicas descrito e ilustrado por Amorim (2006) pode ser visto na Figura 8: Figura 8. Comparativo de técnicas SAS Fonte: SAS (2009 apud AMORIM, 2006). 2.3.3 Intelligent Miner Fabricado pela IBM, faz parte do pacote DB2 Data Warehouse Edition, mas não é dependente deste sistema. 37 Sendo definido como uma poderosa ferramenta para análise de dados integrada, onde possui as tradicionais técnicas de mineração de dados (análise de agrupamento, análise de afinidade, classificação, estimativa e previsão), acrescentadas de sofisticados componentes de apresentação para possibilitar uma análise visual dos resultados (IBM, 2009). O Intelligent Miner possui uma interface de programação de aplicativos que permite o desenvolvimento de aplicações personalizadas de Mineração de Dados, e também permite a utilização de algoritmos de DM de forma individual ou combinada (GOLDSCHMIDT, 2005). E no trabalho científico de Amorim (2006) ele nos mostra através da Figura 9 a riqueza dos componentes de visualização, onde representa os resultados de uma análise de agrupamento entre clientes, feita através da mineração da base de dados de um banco: Figura 9. Intelligent Miner agrupamento Fonte: IBM (2009 apud AMORIM, 2006) 38 2.3.4 Quadro comparativo A Tabela 6 visa diferenciar as 3 ferramentas estudadas, apontando itens importantes que elas possuem, proporcionando a escolha de alguma delas pelos recursos disponíveis e necessários para a satisfação dos resultados pretendidos. Então, opta-se pela ferramenta Weka em virtude dela possuir os principais recursos que as demais possuem, não perdendo em nada no quesito de qualidade deles; e principalmente pela grande diferença que está na variedade de algoritmos disponíveis, como nota-se através de suas descrições dentro das tarefas explícitas na tabela comparativa (Classificação e Clusterização), onde o Weka pela quantidade enorme que possui leva a reticência (...) no final da descrição dos algoritmos, enquanto que as demais não. 39 Tabela 6. Quadro comparativo de ferramentas Recursos Acesso a fonte de dados heterogêneos Integração de conjunto de dados Facilidade para inclusão de novos métodos e operações Recursos para planejamento de ações Processamento Paralelo/Distribuído Visualização de dados Weka Sim Enterprise Miner Sim Intelligent Miner Sim Não Sim Sim Sim Sim Sim Sim Sim Sim Não Sim Sim Distribuição de Freqüências, Medidas de Dipersão, Histogramas Amostragem Gráficos (de linha, de barra de pizza, etc.), Histogramas Gráficos (de pizza, de linha, de barra), Histogramas Comandos SQL LDD Limpeza de dados Substituição Seleção, Amostragem, Aplicação de filtros, Cálculo de valores Substituição, Descarte Codificação de dados Discretização automática e manual Classificação Árvores de Decisão, Bayes, Redes Neurais... Clusterização Simple-KMeans, Cobweb, FarthestFirst... Agrupamento e Ordenamento de padrões Conjunto de Regras e Árvores de Decisão Checagem automática de valores discrepantes, Substituição Discretização e Discretização, Transformação Randomização e automática e manual Transformação automática e manual RBF, Perceptron Árvore de Decisão, Multi Camadas, Métodos CART, C4.5, Estatísticos, Redes Regressão Linear Neurais Kohonen, Ward K-means Redução de dados Operações e métodos disponíveis Organização de resultados Apresentação de resultados Estrutura para Sim armazenamento de modelos de conhecimento e históricos de ações Fonte: Adaptado de Goldschmidt (2005). 40 Ordenação e Seleção Agrupamento e de regras Ordenamento de padrões Gráfico, Textos e Gráfico (pizza, Árvores barra), Tabelas, Árvores e Clusters Sim Sim 2.4 INTELIGÊNCIA ARTIFICIAL NO MERCADO FINANCEIRO Cientistas da Computação consideram os fenômenos financeiros de maneira estática ou dinâmica e aplicam técnicas de inteligência computacional para montar formas de agir no mercado financeiro, como tentando prever o comportamento de um índice ou o preço de um ativo, ou para montar uma carteira de investimentos, sendo esta área financeira objeto de estudos há anos por estes cientistas (LAZO, 2000). Podemos citar um caso de sucesso na utilização de Mineração de Dados na área financeira: “A empresa norte-americana LBS já há algum tempo (desde 1986) investe em tecnologia por achar que os enfoques tradicionais no gerenciamento de investimentos não fornecem resultados que superem expressivamente o lucro médio de mercado” (CARVALHO, 2001). E Carvalho (2001) conclui o caso de sucesso dizendo que “a LBS foi uma das mais importantes empresas do mercado financeiro nos EUA durante 7 anos consecutivos. Sua carteira cresceu durante este período de 25% a 100% ao ano e nunca houve uma perda maior que 7% durante este tempo”. Pesquisas estão sendo direcionadas aos mercados emergentes em virtude de recentemente estes países em desenvolvimento mostrarem elevada quantidade de investimentos e de número de negociações, onde modelos já utilizados nos países desenvolvidos são testados, e também buscando novos modelos que possam descrever o comportamento destes mercados emergentes e assim reduzir os riscos dos investimentos (LAZO, 2000). Em reportagem extraída do portal da revista ISTOÉ Dinheiro escrita por Teixeira (2006) ele destaca as falas do proprietário do primeiro modelo brasileiro comercialmente viável de Inteligência Artificial no mercado acionário, o professor Fabio Bretas (Físico com 10 anos de experiência no mercado financeiro): “O problema no passado era falta de informação. Hoje, é o excesso” e “Nos Estados Unidos, você já tem robozinhos comprando e vendendo ações praticamente por conta própria”. E dá um alerta informando que o trabalho dos analistas e gestores continua sendo indispensável, mas a Inteligência Artificial é imbatível quando o que conta é a rapidez para detectar movimentos em mercados complexos e identificar possibilidades de ganhos. 41 2.5 TRABALHOS SIMILARES Nos subitens a seguir seguem relacionados os temas com suas respectivas descrições de trabalhos científicos similares ao desenvolvido neste projeto, onde todos eles utilizam técnicas de Inteligência Artificial para a seleção de ativos da Bolsa de Valores, e sendo finalizado com um subitem que faz uma análise comparativa destes trabalhos. Mas somente um deles (e único trabalho cientifico brasileiro que foi localizado) lida com o processo de Mineração de Dados similar a este projeto, que foi o tema proposto por Fernando Rafael Stahnke (subitem 2.4.2.4) do Centro Universitário FEEVALE, mas observou-se certa limitação nos resultados obtidos por ele, onde o estudo concentrou-se em apenas um ativo da Bolsa de Valores (Petrobras) e em apenas 2 algoritmos (Redes Neurais e Árvores de Decisão) para o processamento dos dados, assim, diminuindo o conhecimento extraído da metodologia, já que não se pode verificar o comportamento entre os diversos ativos (tanto de um mesmo setor da economia como de setores diversos), além de outras informações que poderiam ter sido extraídas. 2.5.1 Aplicação de Redes Neurais Artificiais no processo de precificação de ação Trabalho de Conclusão de Curso proposto por Marília Terra de Mello da Universidade Federal de Pelotas onde o projeto está baseado no desenvolvimento de uma Rede Neural com algoritmo de aprendizagem backpropagation com o objetivo de realizar a previsão dos preços futuros de ações e tornar-se um indicativo para selecionar ativos que comporão as carteiras de investimentos dos investidores. Os resultados obtidos com o trabalho comprovam que é possível prever a tendência dos preços das ações, conseguindo algumas vezes aproximar a estimativa de retorno do valor real. E confirmando o conceito de que as Redes Neurais podem facilitar o trabalho dos investidores de ações, proporcionando grandes possibilidades de obtenção de ganhos (MELLO, 2004). 2.5.2 Um novo Algoritmo Genético para a otimização de carteiras de investimento com restrições de cardinalidade Dissertação de Mestrado da Universidade Estadual de Campinas tendo como autor Carlos Henrique Dias que propôs o uso de um Algoritmo Genético para resolver problemas de otimização 42 de carteiras de investimentos, de forma a oferecer aos investidores um conjunto de soluções (composição da carteira), que sejam as melhores, para que estes possam escolher o melhor investimento conforme sua aversão ao risco. Os resultados computacionais alcançados indicam que a nova proposta é bastante promissora, já que forneceu soluções melhores e mais robustas que algoritmos já elaborados anteriormente, consumindo menos tempo (DIAS, 2008). 2.5.3 Modelo Genético-Neural de gestão de carteiras de ações Trabalho de Formatura proposto por Luiz Paulo Rodrigues de Freitas Parreiras da Escola Politécnica da Universidade de São Paulo que juntou duas ferramentas de Inteligência Artificial, as Redes Neurais (RN) com os Algoritmos Genéticos (AG) com a intenção de formar carteiras de investimentos em ações mais eficientes e realistas. Utilizou as RN para a obtenção de boa performance preditiva e AG para obter alocação de ativos em carteiras de investimentos gerenciadas dinamicamente (PARREIRAS, 2003). Chegando-se a conclusão que as Redes Neurais, quando bem modeladas e treinadas, podem realizar boas previsões de preços futuros de ações, e quando integradas num modelo integrado de risco-retorno baseado em Algoritmo Genético, geram resultados ainda mais superiores (PARREIRAS, 2003). 2.5.4 Uso de Data Mining no mercado financeiro Trabalho de Conclusão de Curso feito por Fernando Rafael Stahnke do Centro Universitário Feevale, que elaborou o projeto com o objetivo de “discutir e propor o uso de técnicas de mineração de dados para a identificação de padrões de comportamentos hoje despercebidos pelos investidores e, assim, determinar a tendência futura dos ativos do mercado à vista” (STAHNKE, 2008). O autor concluiu que é possível utilizar técnicas de Data Mining no mercado á vista brasileiro como uma ferramenta de apoio à decisão por investidores que buscam lucros em curto prazo, mas foi verificado que os resultados alcançados foram limitados devido à falta de 43 conhecimento e experiência do autor tanto na área de investimentos quanto na área das tecnologias computacionais que foram empregadas (STAHNKE, 2008). 2.5.5 Uma investigação estatística sobre análise técnica Dissertação de Mestrado concluída por Giuliano Padilha Lorenzoni que buscou em seu trabalho construir uma metodologia estatística que possibilitasse investigar a eficácia na análise técnica, onde esta analise trata-se de uma forma de identificar e antecipar a tendência dos preços dos ativos financeiros através do Grafismo, utilizando gráficos das cotações históricas. E no fim de seu trabalho, ele pode confirmar que há evidências de eficácia de alguns padrões entre os mais importantes e recorrentes utilizados na análise técnica (LORENZONI, 2006). 2.5.6 Análise comparativa Os três primeiros trabalhos científicos descritos anteriormente comprovam o quanto o uso da Inteligência Artificial através das Redes Neurais Artificiais e os Algoritmos Genéticos são úteis e eficientes no ambiente das Bolsas de Valores, onde os resultados obtidos foram satisfatórios, mas porque não ampliar as descobertas efetuadas e a potencialidade dos resultados obtidos com outras técnicas e algoritmos. Já o trabalho desenvolvido pelo Fernando Rafael Stahnke, apesar dele não ter conseguido os resultados esperados pelos motivos já descritos anteriormente, abre outras possibilidades de uso da Inteligência Artificial neste mercado, onde a Mineração de Dados aparece como uma ferramenta mais completa e abrangente para ser aplicada ao mercado acionário, onde seus conceitos envolvem toda uma metodologia a ser aplicada a base histórica das cotações das ações da Bolsa de Valores dando mais credibilidade e amplitude nos métodos a serem adotados, ainda assim, não descartando o uso das técnicas de RNA e AG dentro de uma das fases da DM. Já o último projeto desenvolvido (Uma investigação estatística sobre análise técnica) foca num dos objetivos deste projeto, que é obter padrões e tendências do movimento das cotações das empresas brasileiras listadas na Bovespa, onde no trabalho dele essa expectativa é atingida através 44 de análise de gráficos e aqui será efetuado através da Inteligência Artificial (Mineração de Dados) na tentativa de potencializar os resultados e também chegar a outras descobertas relevantes. Então se decidiu pelo uso da Mineração de Dados neste processo de descoberta na bolsa de valores por ter uma diversidade maior de opções de escolha de técnicas e métodos em relação às outras que utilizam Inteligência Artificial (Algoritmo Genético e Redes Neurais Artificiais). E em comparação as técnicas hoje adotadas para verificar tendências nos movimentos dos ativos (Grafismo) o uso da DM também leva vantagem em virtude da analise técnica atualmente aplicada levar em conta apenas aspectos estatísticos e a Mineração reunir em seu processo pelo menos três áreas de estudos que compreendem a Inteligência Artificial, Banco de Dados e Estatística. 45 3 PROJETO O projeto visa realizar descobertas quanto ao movimento dos ativos de empresas brasileiras que são listadas na Bovespa, para isso são utilizados os recursos da inteligência artificial e toda a metodologia de Mineração de Dados (processo este caracterizado na fundamentação teórica deste trabalho na Seção 2.2), onde serão aplicadas em uma base histórica de cotações das referidas ações brasileiras. E terá como conseqüência também uma possível indicação do comportamento das cotações destes ativos onde servirão de auxilio para que investidores, corretoras e demais interessados tomem decisões de investimento nos pregões diários da Bolsa de Valores com uma probabilidade maior de acerto e correndo um menor risco, mas lembrando que serão apenas indicações sem garantia de sucesso, pois a imprevisibilidade deste mercado não garante que sejam realizadas afirmações incontestáveis. O projeto está dividido em três etapas que são o pré-processamento, o processamento (ou Mineração de dados) e o pós-processamento. As referidas etapas seguem a metodologia de DM, e serão detalhadas a seguir: 3.1 PRÉ-PROCESSAMENTO Nesta etapa os dados são selecionados e preparados para serem processados. Os dados modelados formam um arquivo no formato adequado para ser processado pela ferramenta que será utilizada na etapa posterior. Os arquivos preparados possuem indicadores (atributos) de ações de um período que varia de 6 a 14 meses, onde se formaram de 2318 até 5094 registros, sendo cada registro composto por até 5 atributos, sendo eles: O nome da empresa, o setor de atuação da referida empresa, a cotação diária (valor de fechamento) do ativo, a quantidade de negócios fechados em um determinado dia de negociação do ativo específico e o atributo data que identifica o momento em que a cotação e o numero de negócios ocorreram. A coleta destes indicadores foi referente ao período que inicio em janeiro de 2009 até fevereiro de 2010, e estas informações foram colhidas da pagina oficial da BM&FBOVESPA na área dados históricos das ações é possível realizar a consulta desta fonte selecionando o dia de negociação desejado. Para isso, são usadas quatro atividades que irão compor o processo de preparação deste arquivo, e são detalhados nos itens a seguir: 3.1.1 Seleção São centenas os ativos listados na Bovespa, existem papéis com características e operacionalidades diversas e de variados setores de nossa economia. Estudar todos eles se torna inviável tanto pela quantidade como também pela baixa representatividade de alguns. Então, decidiu-se pela seleção de 17 papéis negociados em nossa bolsa de valores, onde o foco está em sua grande maioria nos papéis mais observados pelos investidores, de grande liquidez e com grande número de indicações por conceituados analistas8 que divulgam suas recomendações para conhecimento geral e que focam na análise Fundamentalista que é caracterizada pelo longo prazo. Mas lembrando que esta escolha não possui a finalidade principal de diretamente selecionar ações baseado no potencial de valorização ou objetivando o maior lucro possível e sim para realizar descobertas nos ativos mais negociados. Então, esta metodologia foi aplicada somente aos papéis mais visados pelo mercado, de empresas de bons fundamentos e que praticamente quase sempre estão presentes nas carteiras de investimentos dos investidores, dando assim, representatividade a Bolsa como um todo, como exemplo podem ser citados os papéis das empresas Vale do Rio Doce, Petrobras, Banco Bradesco, Banco do Brasil, Gerdau e Usiminas. Como exceções foram selecionados alguns papéis de pequena representatividade, com baixa liquidez, denominados de Small Caps (cujas características encontram-se descritas na Subseção 2.1.3 da fundamentação teórica deste trabalho), em virtude deles também merecerem serem alvos de estudos e de se realizar possíveis descobertas já que eles são considerados por muitos analistas apesar de voláteis muito lucrativos se bem selecionados. Foram selecionados somente os com potencial de valorização (conforme indicações de analistas9) e em pequenas quantidades para não trazer riscos maiores a nossa carteira pela volatilidade que eles trazem, podemos citar como 8 Lembrando que estas indicações e análises colhidas de especialistas da área são expostas gratuitamente em sites e revistas nacionalmente conhecidas. Não esquecendo que são apenas sugestões oferecidas por estes analistas não havendo nenhum comprometimento com as informações prestadas e nem garantia de sucesso, sendo a análise final realizada pelo investidor ou leitor. 9 Idem a nota 8 47 exemplo os papéis das empresas como MMX Mineração e OGX Petróleo do empresário Eike Batista. Buscando obter a maior possível representatividade de setores da economia representados pelos ativos das empresas selecionados, foi concentrada a escolha das ações por setores de atuação. E não foi selecionado apenas um de cada setor e sim um conjunto, com a finalidade de não apenas estudar os movimentos destes ativos isoladamente, mas também comparando um setor com outro, e entre papéis de um mesmo ramo. Podendo então, dividir a escolha de ativos pelas seguintes setores de atuação: Siderúrgico, commodities, varejo e consumo, financeiro e construção. Na Tabela 7 seguem detalhadas todas as empresas selecionadas divididas por ramo de atuação, e também o código em que elas são negociadas na Bovespa. Tabela 7. Lista de ativos selecionados Setor Commodities Siderúrgico Financeiro Varejo e Consumo Construção Ativo Vale do Rio Doce Petrobras Fibria (Votorantim) MMX Mineração OGX Petróleo Usiminas Gerdau Siderúrgica Nacional Banco do Brasil Banco Bradesco Itaú Unibanco Holding Brasil Foods (Perdigão/Sadia) Lojas Renner Lojas Americanas Gafisa Cyrela Brazil Realty Rossi Residencial Código na Bovespa Vale4 Petr4 Fibr3 Mmxm3 Ogxp3 Usim5 Ggbr4 Csna3 Bbas3 Bbdc4 Itub4 Brfs3 Lren3 Lame4 Gfsa3 Cyre3 Rsid3 3.1.2 Limpeza Os dados selecionados na fase anterior precisam ser tratados, onde correções precisam ser efetuadas na base de dados para que sejam transmitidas à etapa de processamento somente as informações úteis e necessárias aos objetivos pretendidos. 48 Então, na Figura 10 é exibido um pedaço da base de dados de um dia de negociação dos ativos na bolsa de valores, sendo esta a nossa base original que deverá ser tratada. Figura 10. Base de dados Original Fonte: Adaptado de BM&FBOVESPA (2009b). Essa base de dados foi obtida através do site da BM&FBOVESPA entrando nos dados históricos das ações é possível realizar a consulta desta fonte selecionando o dia de negociação desejado. Então, dessa base foram extraídas somente as cotações e o numero de negócios realizados dos ativos selecionados na fase anterior, representado pelo campo “osc.” (oscilação em %) e “negs. realiz.”, conforme circulado na figura, significando a variação que o papel sofreu em sua cotação 49 comparado com o fechamento do dia anterior e a quantidade de negócios fechados no dia em referência, sendo as demais informações desprezadas. Concluindo assim a limpeza dos dados e dando origem a uma nova base de dados, mas agora criada em uma planilha do programa Excel, conforme demonstrado através de um pedaço desta planilha exibida na Figura 11: Figura 11. Base de dados Excel Esta planilha é dividida em várias tabelas menores, onde cada uma representa as cotações diárias de 1 semana dos 17 papéis escolhidos e lembrando que os valores que indicam os números de negócios encontram-se em uma planilha adicional. 3.1.3 Enriquecimento Para o aprimoramento das informações que serão submetidas ao processo de DM pode ser realizada a adição de dados novos que serão agregados aos registros já existentes. Assim, foi decidido incluir na nova tabela criada dois elementos que podem agregar algum conhecimento novo nas descobertas, em virtude do primeiro ser um medidor de nosso mercado de ações e o segundo do mercado externo, onde nossas ações são fortemente influenciadas. Eles são o 50 índice da nossa Bolsa de Valores de São Paulo, conhecido como índice Bovespa e o índice da Bolsa de Valores de Nova York, conhecido como índice Dow Jones. As definições desses índices seguem detalhados na Subseção 2.1.2.1 da fundamentação teórica deste projeto. Na Figura 12 pode ser confirmada a presença deste índice em nossa tabela Excel: Figura 12. Base de dados enriquecida 3.1.4 Codificação Para que os dados possam ser usados de maneira adequada pela ferramenta que será utilizada na etapa de Mineração de Dados ao qual serão submetidos, é necessário que eles sejam codificados para que sejam aceitos e possuam a forma adequada. Neste projeto a ferramenta escolhida para processar os dados exige que os dados sejam codificados em um formato de texto que recebe a extensão “arff” que é baseada em ASCII, e também estabelecem o uso de alguns atributos, exclusivos desta ferramenta. Dessa forma, foi feita uma conversão na tabela do Excel, transformado-a em um arquivo do tipo arff, cujas peculiaridades podem ser vistas na Figura 13: 51 Figura 13. Base de dados arff Pode ser observado que este novo arquivo possui algumas propriedades particulares, como: O nome do arquivo vem identificado após o uso da palavra “relation”. Em seguida, cada atributo da tabela Excel vem identificado após o uso da expressão “attribute”, relacionando as empresas selecionadas, o setor de atuação, a data do registro, a cotação dos ativos e o numero de negócios, onde esses atributos são obrigatoriamente utilizados em cada registro do nosso arquivo através das variáveis identificadas entre as chaves {}. Para finalizar os dados foram expostos logo abaixo da expressão “data”, onde cada linha identifica um registro da base de dados, ou seja, cada registro identifica um dia de pregão de um determinado ativo com suas variáveis. Esclarecendo ainda, que foram excluídos deste arquivo os dias que não houve pregões na bolsa de valores devido a serem finais de semana ou feriados. 3.2 PROCESSAMENTO Esta é a etapa em que o arquivo, que foi criado na fase anterior (pré-processamento) com os dados colhidos da base de dados, é processado. Considerada uma fase importantíssima da metodologia de DM, pois é dela que serão extraídos os conhecimentos buscados com a criação 52 deste projeto. Em virtude disso, tem extrema relevância a forma e as técnicas que serão utilizadas para o processamento dos dados. Para esta etapa de processamento ou Mineração de Dados foi utilizado o auxilio de uma ferramenta denominada “Weka”, cujas características encontram-se na Subseção 2.3.1 da fundamentação teórica deste trabalho, e as motivações que levaram a escolha desta ferramenta específica também são abordadas nesta Subseção. Foram utilizadas as técnicas e algoritmos que estavam dispostas na ferramenta, e que a seguir seguem detalhadas, juntamente com os resultados alcançados. 3.2.1 Inicialização da Ferramenta A Figura 14 mostra como a ferramenta se comporta após a inserção do arquivo arff que foi criado anteriormente no tópico codificação. São visualizadas na aba de pré-processamento as características dos dados contidos no arquivo: No círculo vermelho denominado A é expresso os dados gerais da base, com o nome do arquivo, a quantidade de registros da base e a quantidade de atributos; no círculo B é possível realizar a seleção dos atributos para serem utilizados no processo de DM; no C são expressos dados estatísticos de um dos atributos selecionados; e no círculo D são visualizadas em forma de gráfico as estatísticas desse atributo selecionado. 53 Figura 14. Arquivo de entrada no Weka Fonte: Universidade de Waikato (2009). 3.2.2 Tarefa utilizada Como poderemos verificar no item Resultados obtidos (seção 3.2.4), foram testadas todas as tarefas disponíveis na ferramenta, mas foi decidido pela tarefa de Classificação em virtude de ser a que melhor se adaptou com o arquivo de entrada e que apresentou resultados significativos e consistentes com melhor grau de confiabilidades em seus indicadores. E também por ela possuir um caráter preditivo, ou seja, suas funções acarretam inferências nos dados com o intuito de fornecer previsões ou tendências, que são características essências aos objetivos deste projeto. Neste trabalho esta tarefa efetuou classificações escolhendo o atributo empresa como elemento classificador, ou seja, efetuou o agrupamento dos resultados em torno do elemento “empresa”. Seus algoritmos possuem como característica marcante o aprendizado supervisionado, pois é fornecida uma classe à qual cada amostra no treinamento pertence e dando ênfase na precisão da 54 regra. E possuindo o objetivo principal de determinar o valor de um atributo através dos valores de um subconjunto dos demais atributos da base de dados (SILVA, 2006). Mais informações sobre a tarefa de classificação podem ser obtidas na Subseção 2.2.2 da parte teórica deste trabalho. A interface desta tarefa na ferramenta Weka pode ser vista na Figura 15, cujas características seguem detalhadas a seguir: no círculo A pode ser escolhida a técnica de classificação que se deseja utilizar juntamente com os parâmetros do algoritmo; no B efetua a seleção da opção de teste e validação do modelo; no C seleciona-se o atributo classe para efetuar a classificação; e no círculo D é o local onde serão exibidos os resultados da Mineração com o algoritmo selecionado, ou seja, o modelo gerado com seus respectivos dados estatísticos. Figura 15. Interface da tarefa de Classificação Fonte: Universidade de Waikato (2009). 55 3.2.3 Técnicas utilizadas Como poderemos verificar no item Resultados obtidos (seção 3.2.4), foram efetuados testes com os diversos tipos de algoritmos disponíveis na ferramenta, mas os que trouxeram os melhores resultados foram os que pertencem às categorias de Árvore de Decisão e Regras de Classificação, trazendo informações relevantes, coerentes e diferenciadas na sua execução com resultados mais facilmente interpretáveis. A Árvore de Decisão é utilizada para se obter uma estratégia para alcançar determinados objetivos, onde forma-se um gráfico em forma de árvore onde possui as decisões a serem tomadas e suas possíveis conseqüências, ou seja, forma-se um mapeamento de observações sobre um item para conclusões sobre seu valor-alvo (SANTANA; RODRIGUES, 2005). O funcionamento de uma árvore de decisão inicia-se com a inclusão de um conjunto de dados ao nó raiz da árvore, que são submetidos a um cálculo de entropia e conseqüentemente essas tuplas10 são subdivididas e ramificando-se aos nós filhos, então, em cada nível da árvore é necessário definir regras heurísticas para separar os dados apresentados a este nó em subconjuntos homogêneos (PUC, 2004 apud STAHNKE, 2008). No final dos vários ramos existem as folhas11 que são os resultados atingidos, estando associados a um rótulo ou valor pela elevada homogeneidade dos elementos deste grupo (CARVALHO, 2001). Este procedimento caracteriza a recursividade em que as árvores de decisão são submetidas. As Regras de Classificação tem seu funcionamento semelhante ao das Árvores, mas se manifestam através de um conjunto de regras, ou seja, o conhecimento descoberto é representado na forma de regras SE-ENTÃO. Onde elas interpretam os atributos preditivos da tupla quanto à satisfação da condição antecedente da regra: “SE os atributos preditivos satisfazem as condições do antecedente da regra, ENTÃO a tupla tem a classe indicada no conseqüente da regra.” (STAHNKE, 2008). 10 11 Conjunto de dados apresentados para a raiz da árvore. Nós que não possuem nós descendentes, terminal. 56 Na Figura 16 tem-se um exemplo de árvore de decisão e na Figura 17 um exemplo de regras de classificação, ambos extraídos da ferramenta weka: Figura 16. Exemplo de árvore de decisão Figura 17. Exemplo de regras de classificação 57 Dentro da técnica de Árvore de Decisão (trees) há diversos algoritmos disponíveis para realizar esta função, onde através de diversos testes e simulações com estes algoritmos, realizando alternâncias tanto nos atributos classificadores quanto nas configurações dos algoritmos e também dos arquivos de entrada chega-se a um algoritmo que apresentou resultado mais satisfatório, sendo ele o J48. A lista dos algoritmos disponíveis nesta técnica segue destacado na Figura 18: Figura 18. Algoritmos de árvore de decisão no Weka Fonte: Universidade de Waikato (2009). Dentro da técnica de Regras de Classificação (rules) há diversos algoritmos disponíveis para realizar esta função, onde através de diversos testes e simulações com estes algoritmos, realizando alternâncias tanto nos atributos classificadores quanto nas configurações dos algoritmos e também nos arquivos de entrada chega-se a dois algoritmos que apresentaram resultados mais satisfatórios, sendo eles o JRip (Incremental Reduced Erro Prunning – Poda de Redução Incremental de Erro) e o 58 PART (Partial decision trees – Parcial de Árvores de Decisão). A lista dos algoritmos disponíveis nesta técnica segue destacado na Figura 19: Figura 19. Algoritmos de regras de classificação no Weka Fonte: Universidade de Waikato (2009). 3.2.4 Resultados obtidos Primeiramente devem-se dividir os resultados obtidos em duas etapas, onde na primeira parte os dados coletados foram em menor escala (tanto no numero de registros quanto no de atributos), para posteriormente na segunda etapa eles serem complementados com um maior número de registros e informações tornando-os mais completos e com um valor agregado maior, mas cabe-se esclarecer que será mostrado o modelo gerado somente dos algoritmos com os arquivos de entrada que tiveram seus resultados validados. 59 3.2.4.1 Primeiros testes (TCC1) Inicialmente os testes foram efetuados com arquivos de no máximo 2970 registros coletados em um período de 6 a 8 meses que compreende o mês de janeiro de 2009 até agosto do mesmo ano, nestes experimentos utilizou-se 4 atributos em cada registro sendo eles o nome que identifica a empresa, o setor de atuação desta empresa, a data do registro ou da cotação de sua ação em bolsa, e a cotação diária do ativo na respectiva data. Após vários testes decidiu-se somente pelo uso de arquivos com 8 meses, em virtude do de 6 meses apresentarem resultados poucos confiáveis em razão de sua pequena quantidade de registros coletados, onde pode ser observado através do modelo gerado pelos algoritmos. No atributo data foram feitos arquivos declarando ele em dois formatos, um deles se separou dia, mês e ano em atributos separados e com valor numérico, e no outro modo ele foi declarado em um só atributo em formato próprio de data, onde teve melhor aceitação com resultados mais consistentes e legíveis a segunda opção, e em virtude disto nos testes finais só foi utilizado esta melhor forma de declaração. No atributo cotação nestes primeiros testes foi utilizado ele no formato numérico, mas observou-se que diversos algoritmos, principalmente os das tarefas de Agrupamento (Cluster) e Associação (Associate), apresentaram suas opções de uso desativadas, não podendo ser utilizados. Assim sendo, os que obtiveram melhores resultados foram os algoritmos da tarefa de Classificação, mas seus resultados ainda não apresentavam indicadores estatísticos (serão vistos na validação do modelo) confiáveis a ponto de serem validados, onde seu índice Kappa variou de 0.16 (16%) a 0.33 (33%), valor considerado muito baixo para ser aprovado. 3.2.4.2 Testes finais (TCC2) Para o aperfeiçoamento dos resultados pretendidos, foram feitas diversas alterações no arquivo de entrada, onde foram efetuados diversos testes para se chegar ao melhor conjunto de dados para formar este referido arquivo que alimentará a execução dos algoritmos. Para tal finalidade foram feitas as seguintes alterações: inclusão de um período maior de coleta dos dados de entrada que variaram de 8 meses a 14 meses e compreenderam o período de 60 janeiro de 2009 a fevereiro de 2010; inclusão de um novo atributo, o índice Dow Jones (Índice da Bolsa de Valores de Nova York) que é uma importante referência para o mercado brasileiro, altamente influenciado por ele; inclusão de mais um atributo identificado como número de negócios que fornece a quantidade de negócios realizados em um determinado dia por uma determinada ação; e também a modificação do atributo cotação com a alteração de seu tipo que passou de numérico para valores nominais, dividindo o valor da cotação em faixas de valores pré-definidas. Para os períodos estudados nesta etapa verificou melhores resultados no período de 12 meses onde conseguiu resultados similares ao de 8 meses (testes anteriores), sendo que dependendo do algoritmo utilizado havia a alternância de melhores resultados entre os dois. Já no período de 14 meses houve uma queda significativa nos resultados alcançados, havendo distorções nas regras e baixa produtividade nos indicadores estatísticos. Assim, nosso arquivo final compreenderá tanto o período de 8 meses quanto o de 12 meses (dependendo do algoritmo que estará sendo utilizado), e será formado por 4.428 e 5.094 registros respectivamente. A inclusão do índice Dow Jones não trouxe alteração significativa nos resultados alcançados, sendo que as regras formadas em quase sua totalidade não incluíam este índice, tornando-se dispensável seu uso. Portanto, houve a exclusão deste atributo na base de dados final. Quanto à inclusão do atributo numero de negócios houve uma resposta extremamente positiva nos resultados obtidos no modelo gerado, onde conseguiu elevar bastante os índices de acertos das classificações efetuadas e também agregou um valor muito importante nas regras geradas, sendo um indicador muito relevante para a tomada de decisão. Sendo assim, o arquivo final compreenderá este atributo indispensavelmente. Na modificação do tipo do atributo cotação de numérico para nominal tinha-se a ideia de alterá-lo para que algoritmos antes inacessíveis por não trabalhar com valores numéricos agora poderiam ser disponibilizados, e realmente uma grande quantidade de algoritmos tornaram-se ativos, principalmente aqueles compreendidos dentro das tarefas de Agrupamento e Associação, mas os resultados obtidos com esses algoritmos após diversos testes foram insatisfatórios, onde os modelos gerados após a execução deles não trouxeram nenhuma informação significativa para o objetivo do trabalho, chegando-se a conclusão que os melhores algoritmos para o objetivo traçado 61 seriam mesmo os compreendidos dentro da tarefa de Classificação, principalmente os do tipo árvore de decisão e regras de classificação que foram os que melhores se comportaram. Portanto, na base de dados finais o atributo cotação retornou ao seu formato original, ou seja, do tipo numérico. Então, após escolhido o melhor arquivo de entrada para a realização da tarefa pretendida, com todas as modificações efetuadas na base de dados para potencializar os resultados, chegou-se a execução dos três melhores algoritmos que geraram os modelos com as melhores regras e indicadores (que serviram para sua validação, onde será visto no item validação do modelo) e também com um aumento substancial da quantidade de resultados obtidos (regras geradas), conforme poderemos verificar a seguir: 3.2.4.2.1 Algoritmo J48 (tree) Este é o primeiro algoritmo selecionado sendo do tipo árvore, ele é considerado o mais popular dos algoritmos disponíveis na ferramenta. Caracteriza-se por utilizar a técnica do guloso12 descendente, ou seja, recursivamente particiona o espaço em segmentos o mais homogêneo possível em relação à classe objetivo. Foi utilizado como arquivo de entrada para fornecimento dos dados o arquivo que se chegou ao final dos testes realizados, com um período de registros de 8 meses, e nas configurações do algoritmo foi selecionado o atributo empresa como o elemento classificador, os resultados obtidos foram bastante satisfatórios onde chega-se a 61 resultados, ou seja, conclusões localizadas nas folhas da árvore. Então, na Figura 20 pode ser observada uma parte do modelo gerado com a execução do algoritmo J48. Onde pode ser analisado que cada linha dela significa um ramo da árvore e cada coluna (ou afastamento) é transportada a um nível da árvore, ou ainda, as linhas que apresentam o caractere “|” são filhos dos anteriores. Os 2 valores que aparecem entre parênteses ao lado de cada atributo empresa representam a quantidade de vezes que a regra obtida foi classificada corretamente 12 Guloso porque em cada passo ele tenta chegar o mais perto possível do objetivo (sem olhar mais adiante). 62 (valor do lado esquerdo) e também a quantidade de vezes que foi classificada incorretamente (valor do lado direito). Lembrando que os conhecimentos obtidos com esses resultados e também com os resultados dos demais algoritmos serão abordados na próxima seção do trabalho (Pós-Processamento). Figura 20. Execução do algoritmo J48 Na Figura 21 tem-se um pedaço da parte gráfica da árvore formada com a execução do algoritmo J48, sendo que a árvore completa formou 117 elementos (tamanho total da árvore) e 61 folhas. Nesta figura pode ser observado que os atributos ficaram nos nodos da árvore, sendo as 63 folhas, localizados na parte inferior, que detém o atributo escolhido como classificador (empresa), onde o valor entre parênteses significa a quantidade de classificações efetuada corretamente conforme explicado anteriormente. Figura 21. Árvore do algoritmo J48 Na Figura 22 observam-se as estatísticas relacionadas aos resultados obtidos com a execução do algoritmo J48, onde servem de apoio a análise e validação do modelo gerado, estes indicadores podem ser vistos através dos índices de correção e incorreção de instâncias mineradas, erro médio absoluto, erro relativo médio, dentre outros. Na Figura 22 estes indicadores estão divididos em 2 partes, sendo a primeira parte destinada mais a medição de erros de forma geral, ou seja, de todo o modelo gerado, enquanto que na parte 64 inferior (em forma de matriz) eles estão divididos por classes, sendo o atributo classificador a variável utilizada. Onde a análise desses indicadores (e também dos demais algoritmos que serão abordados a seguir) será feita na seção seguinte deste projeto (Pós-Processamento). Figura 22. Estatísticas do algoritmo J48 Na Figura 23 tem-se a matriz de confusão, que é mais um meio de ser analisada a confiabilidade do modelo gerado, onde podem ser medidas as classes geradas de forma individualizada, ou seja, cada linha da matriz representa uma classe gerada e as colunas representam como elas foram classificadas no modelo obtido. Portanto, as classes que foram o maior número de vezes corretamente classificadas são consideradas como ótimo resultado. Esses indicadores também serão analisados na fase de Pós-Processamento juntamente com os indicadores dos demais algoritmos estudados. 65 Figura 23. Matriz de confusão do algoritmo J48 3.2.4.2.2 Algoritmo JRip (rules) Este é um dos algoritmos selecionados do tipo regras de classificação, ele caracteriza-se pela redução do erro através da técnica dividir-para-conquistar13, ou seja, o algoritmo possui um conjunto de regras que são testadas uma por uma, e depois que uma regra é localizada, todos os exemplos que são compreendidas por ela são excluídos, sendo o processo repetido até quando não existam mais exemplos corretamente classificados. Como arquivo de entrada foi utilizada à base de dados final alcançada no encerramento dos testes com um período de coleta de dados de 12 meses e nas configurações do algoritmo foi selecionado o atributo empresa como o elemento classificador, os resultados obtidos foram bastante satisfatórios. Com a execução do algoritmo chega-se a um modelo com 45 regras, onde puderam ser observadas algumas regras formadas através da Figura 24, onde o que está após o caractere “=>” significa o resultado e o que vem antes, as condições necessárias para se chegar lá. 13 Um problema complexo é decomposto em sub-problemas mais simples para facilitar o processo para atingir os objetivos. 66 Figura 24. Execução do algoritmo JRip Como pode ser visto na Figura 25 as estatísticas do modelo gerado com a execução do algoritmo JRip segue o mesmo formato dos algoritmos do tipo árvore (estudados anteriormente). 67 Figura 25. Estatísticas do algoritmo JRip Como pode ser visto na Figura 26 a matriz de confusão do modelo gerado com a execução do algoritmo JRip segue o mesmo formato dos algoritmos do tipo árvore (estudados anteriormente). 68 Figura 26. Matriz de confusão do algoritmo JRip 3.2.4.2.4 Algoritmo PART (rules) Este é o último algoritmo selecionado, segundo do tipo regras de classificação, que se caracteriza por construir regras a partir de árvores de decisão parciais criadas pelo algoritmo J48, onde gera uma árvore parcial em cada iteração e converte a melhor folha em regra. Foi utilizado o arquivo final como entrada com um período de 12 meses de registros e nas configurações do algoritmo foi selecionado o atributo empresa como o elemento classificador e os resultados obtidos foram bastante satisfatórios. Com a execução do algoritmo chega-se a um modelo com 46 regras, observando algumas regras formadas através da Figura 27, onde o que está após o caractere “:” significa o resultado e o que vem antes, as condições necessárias para se chegar lá. 69 Figura 27. Execução do algoritmo PART Como pode ser visto na Figura 28 as estatísticas do modelo gerado com a execução do algoritmo PART segue o mesmo formato dos algoritmos do tipo árvore (estudados anteriormente). 70 Figura 28. Estatísticas do algoritmo PART Como pode ser visto na Figura 29 a matriz de confusão do modelo gerado com a execução do algoritmo PART segue o mesmo formato dos algoritmos do tipo árvore (estudados anteriormente). 71 Figura 29. Matriz de confusão do algoritmo PART 3.3 PÓS-PROCESSAMENTO Nesta etapa os resultados alcançados com o processamento dos dados da fase anterior serão analisados, selecionados, validados e formatados para que seja exibido ao usuário final apenas o conhecimento relevante que foi obtido com a metodologia aplicada. Para isso, serão utilizadas as 3 atividades descritas a seguir: 3.3.1 Validação e simplificação do modelo Para fins de testes o arquivo que serve de base de dados é dividido em duas partes, uma que é utilizada para treinamento do algoritmo e fornecerá as regras do modelo de conhecimento; e a outra parte será reservada para a realização de testes que serão utilizados para medir o desempenho das regras formadas e sua persistência, gerando os indicadores estatísticos do modelo de conhecimento, que neste trabalho servirá também para efetivar a validação e simplificação das regras obtidas. O arquivo de dados que foi utilizado pelos algoritmos experimentados foi submetido a todas as opções de testes que a ferramenta de Mineração disponibiliza, onde podemos observar sua relação na Figura 15 no destaque B da interface da tarefa de classificação. Os resultados obtidos em 72 seus modelos foram muito similares entre eles não havendo reduções drásticas de um para outro. A seguir seguem detalhes destes modos de testes experimentados. O primeiro modo de teste é o Training test que se caracteriza por fazer a predição (regras) e testar com o próprio conjunto de treinamento submetido ao classificador. Depois vem o Supplied test set que faz as regras e testa em outro conjunto de teste inserido pelo botão set pelo usuário, onde neste trabalho os testes foram conduzidos em grande parte por um arquivo de treinamento com 8 meses de registros e um arquivo teste com 4 meses. Logo vem o modo Cross-Validation que é avaliado por validação cruzada, o conjunto de teste é divido em partes iguais e a predição é aplicada em cada um separadamente, neste projeto foi utilizado o fator 10 (quantidade de partes). E o último é o Percentage Split que faz a predição baseada na porcentagem dos dados que o usuário determina na própria ferramenta, neste estudo foi utilizada a porcentagem de 66%. Agora, será trabalhado o modelo de conhecimento gerado pelos algoritmos, onde será efetuada sua validação e simultaneamente a exclusão de detalhes e de conjunto de informações que são irrelevantes e de baixa confiança, de forma a torná-lo mais enxuto, legível e com informações que agreguem conhecimento ao usuário e legitimidade nos resultados. Para fins de validação do desempenho dos algoritmos de classificação serão utilizadas as métricas extraídas do próprio modelo gerado que nos representarão a validade das descobertas realizadas e sua credibilidade. Segundo Silva (2007) “vários autores utilizam técnicas estatísticas para avaliar a capacidade de representação do conhecimento adquirido sob a forma de regras”. Será adotado o modelo proposto por Romão (2002 apud SILVA, 2007), onde ele observa que há varias formas de avaliar o processo de descoberta de conhecimento, mas destaca 3 em particular: a exatidão dos resultados, a eficiência deles e a compreensão do conhecimento extraído. Para a exatidão dos dados será observado medidas de quantidades de acertos tanto no modelo como um todo, quanto nas regras e classificações formadas individualmente. “A maior parte da Literatura utiliza taxa de acerto como principal meio de avaliação das técnicas de KDD” (FREITAS, 1997 apud SILVA, 2007). 73 Para sua eficiência teremos como referencia o elemento chamado “Kappa Statistic” que é um índice que compara o valor encontrado nas observações com aquele que se pode esperar do acaso. É o valor calculado dos resultados encontrados nas observações e relatado como um decimal (0 a 1).Quanto menor o valor de Kappa menor a confiança da observação, o valor 1 indica a correlação perfeita, difícil de ser encontrada. E segundo Silva (2007) para ser boa uma observação, com 95% confiável, o valor de Kappa deve estar no intervalo (0.279 – 0.805). E também há a interpretação feita por Landis e Koch (1977 apud Mori, 2008) que sugere que os valores acima de 0.75 representam excelente concordância, valores abaixo de 0.40 uma baixa concordância e os valores situados entre 0.40 e 0.75 representam concordâncias de suficiente a boa (mediana). E, finalmente, a compreensão dos resultados, ou seja, serão aproveitadas somente as regras que tragam informações significantes e interpretáveis. “Facilidade de compreensão nos resultados da classificação (ex. nas regras) é outra forma de avaliação do processo de descoberta que favorece a credibilidade no sistema por parte do usuário” (SILVA, 2007). Então, chegou-se a 3 algoritmos que obtiveram aprovação em seus modelos gerados (onde já foram descritos na seção resultados obtidos), sendo a seguir detalhados e simplificados, de maneira que somente serão selecionadas as regras e árvores formadas que sejam validadas, deixando permanecer somente os resultados persistentes e satisfatórios aos objetivos do projeto. 3.3.1.1 Algoritmo J48 (tree) Neste algoritmo notou-se através das estatísticas gerais do modelo (Figura 22) que o conjunto de regras que se formaram trouxe resultados satisfatórios, pois seu índice kappa apresentou valor de 0.60 sendo considerado um valor acima da media pela literatura. E apresentou um percentual de instâncias classificadas corretamente de 61,85% contra 38,15% classificadas erroneamente, dados estes não tão favoráveis mais que foram compensados se analisarmos individualmente cada classe (empresa), conforme demonstrado a seguir. Mas o modelo se destacou positivamente com destacado grau de validação quando analisamos os resultados individualmente, tanto pelas classes classificadoras quanto pelas regras formadas. Se observarmos os índices relativos a cada classe no item “Detailed Accuracy by Class” e também na “Confusion Matrix” (Figuras 22 e 23) notamos que as classes formadas pelas empresas 74 OGXP, Gerdau, Banco do Brasil e Rossi apresentaram índices relevantes no indicador F-Measure (é um importante índice que é usado para medir a performance pois combina valores de cobertura e precisão de uma regra numa única fórmula) com valores respectivos de 0.976, 0.754, 0.789 e 0.725 (que variam de 0 a 1), e valores altos de classificações corretas obtendo taxas de acerto respectivas de 98%, 89%, 85% e 68%. E agora, analisando a ultima fase da validação que engloba a compreensão dos resultados tem-se que direcionar a atenção para as 61 classificações efetuadas (que podem ser traduzidas através de regras). Mas analisaremos apenas as regras geradas que cheguem as 4 empresas validadas até o momento, pois as demais foram descartadas por não apresentarem índices tão satisfatórios. Então, após a interpretação do conhecimento transmitido pelas regras e observação de seu grau de significância e levando em conta também o numero de casos cobertos e classificados corretamente por ela (valor entre parênteses após o nome da empresa, onde o primeiro significa os corretos e o segundo os incorretos), decidiu-se em excluir as descobertas que envolvam as classes OGXP e Gerdau, permanecendo as empresas Banco do Brasil e Rossi que apresentaram relevância nas regras que foram selecionadas, conforme se pode observar em destaque (sublinhado) nas Figuras 30 e 31 respectivamente. Figura 30. Regras do J48 com resultado Banco do Brasil 75 Figura 31. Regras do J48 com resultado Rossi 3.3.1.2 Algoritmo JRip (rules) O modelo de conhecimento gerado por este algoritmo apresentou bons resultados em nível de validação por indicadores (Figura 25), onde em seu índice kappa apresentou valor de 0.55 sendo considerado um valor bom pela literatura Apresentou um percentual de instâncias classificadas corretamente de 57,59% contra 42,41% classificadas erroneamente, dados estes não tão satisfatórios mais que foram compensados se analisarmos isoladamente cada empresa conforme citado a seguir. E como no algoritmo J48, apresentou índices relevantes em algumas classes classificadoras (empresas) e também nas regras individualmente formadas, também visto nas Figuras 25 e 26. Mas na etapa de validação por importância do conhecimento gerado seu desempenho não foi tão satisfatório, pois, mesmo ele apresentando regras persistentes e confiáveis deixou a desejar na qualidade das regras formadas, onde analisando uma por uma das 45 geradas não houve alguma que se destaque por sua significância ou que trouxesse algum valor agregado diferenciado. Portanto, decidiu-se por não selecionar nenhuma regra deste algoritmo, mas não significando que ele tenha sido ineficiente na sua função de geração de regras. 76 3.3.1.3 Algoritmo PART (rules) Este algoritmo apresentou bons resultados em seus indicadores como pode ser verificado na Figura 28, onde em seu índice kappa apresentou valor de 0.57 sendo considerado um valor bom pela literatura. Obteve um índice de instâncias classificadas corretamente de 59,71% contra 40,29% classificadas erroneamente, dados estes não satisfatórios mais que foram compensados se analisarmos isoladamente cada empresa conforme podemos verificar a seguir. Exibiram índices consideráveis se forem analisadas as regras individualmente formadas e as melhores classificações efetuadas por empresa, também vistas nas Figuras 28 e 29. No entanto na fase de validação por relevância do conhecimento gerado seu desempenho não foi tão satisfatório. Apresentou regras persistentes e confiáveis, mas diminuiu sua qualidade na importância das regras obtidas, onde analisando uma por uma das 46 geradas não houve alguma que se destaque por sua significância ou que trouxesse algum valor agregado diferenciado. Assim sendo, não foi selecionada nenhuma regra deste algoritmo, mas não significando que ele tenha sido ineficiente na sua função de geração de regras. 3.3.2 Transformação do modelo e apresentação dos resultados Neste item será trabalhado com a estrutura do modelo de conhecimento, ou seja, para facilitar o entendimento dos resultados selecionados e para que se obtenha uma interface mais agradável será transformada a forma de apresentação dos conhecimentos obtidos no algoritmo que foi validado em todas as etapas, conforme constante no item anterior. Algoritmo J48 (trees) Para melhor entendimento, foi efetuada uma mudança na forma de exibição dos resultados alcançados, onde foi convertido o formato de árvore para o de regra. E o atributo data (constante somente nas classificações que envolvem a empresa Rossi) que se apresentava de forma codificada, foi realizada a sua transformação para o formato de data normal através do método TimeStamp14. 14 É uma função utilizada nos algoritmos para transformar as datas reais em códigos, que são mais facilmente manuseáveis. 77 Na Figura 32 são apresentadas estas mudanças e a forma resumida e suficiente de apresentação do conhecimento obtido com a execução do algoritmo J48. Figura 32. Descobertas do algoritmo J48 E para auxiliar nesta tarefa foi desenvolvida uma ferramenta que exibi na integra os arquivos mais importantes que envolveram este Trabalho, tanto os dados que foram utilizados para a geração de resultados como também arquivos que exibem os resultados gerados, inclusive o conhecimento obtido pelos algoritmos. Na Figura 33 podemos verificar a tela principal desta ferramenta com estas opções. Figura 33. Ferramenta desenvolvida 78 3.3.3 Análise dos resultados O algoritmo J48 obteve três regras que serão detalhadas e explicadas a seguir: A primeira que envolve o Banco do Brasil como resposta pode ser interpretada como que se a quantidade de negócios realizadas no pregão regular da Bovespa ficar compreendido entre a quantidade de 4.984 e 6.995 negócios fechados no dia ele possuíra tendência de alta extrema de seus papéis, chegando a cotações superiores a 4.43, conforme os casos amostrados na regra. E analisando também as demais regras que envolvem esta classe (Figura 30) pode-se dizer também que nos dias que há grandes quantidades de negócios fechados, acima da média diária de seus papéis, suas cotações tendem a subir expressivamente; A segunda regra selecionada nos informa que em datas posteriores a 16 de março de 2009 os papéis da empresa Rossi tendem a cair para níveis inferiores ou iguais a -2.46 quando o numero de negócios fechados em um dia de pregão atingem a marca de 1.994 a 2933(inclusive) negócios realizados, possuindo tendência oposta aos papéis do Banco do Brasil; e Já a ultima regra vai ao sentido oposto à segunda, pois diz que em período posterior a 01 de abril de 2009 a tendência é de alta de mais de 3% quando o numero de negócios fica compreendido entre 1.872 e 2933(inclusive). Então, analisando as duas regras que envolvem a empresa Rossi e também as demais regras que envolvem esta classe (Figura 31) chega-se a conclusão que quando o numero de negócios realizados sai de sua quantidade corriqueira os papeis podem se comportar de maneira opostas, caindo consideravelmente ou o inverso. Com esses resultados, pode ser dito que as descobertas realizadas são informações que podem auxiliar os investidores em suas tomadas de decisões quando estão negociando em Bolsa de Valores. Pois, sabendo a maneira como o ativo se comporta, ou seja, as oscilações de suas cotações baseados em determinados fatores, o investidor, com base nessa informação, pode colocar uma ordem de compra ou venda de uma ação dessas empresas, envolvidas na descoberta, em ocasião oportuna que gere uma antecipação dele ao movimento do papel, podendo dessa atitude resultar em um lucro maior ou evitando uma perda de capital ou pelo menos minimizando sua perda. Além de várias outras utilidades que a descoberta pode trazer. 79 4 CONCLUSÕES O trabalho aborda todos os itens previstos para a sua conclusão, onde foi conceituada toda a metodologia empregada e descrito com detalhes o projeto e resultados esperados, inclusive com testes e validações. Na primeira metade do trabalho foi detalhada toda a fundamentação teórica, onde foi visto com precisão conceitos a respeito do contexto em que o projeto é empregado e foi de grande valia os conhecimentos adquiridos nesta etapa, pois serviram de base para o desenvolvimento do projeto. A fundamentação iniciou-se com a caracterização da Bolsa de Valores explicando os componentes que o compõem, seu funcionamento, características da bolsa de ações brasileira e principalmente formas de analisá-la. Logo em seguida, foi abordada a metodologia de Mineração de Dados com sua definição, fases, tarefas e técnicas, onde foi o principal conceito que auxiliou no desenvolvimento do projeto. Depois, são demonstradas as ferramentas disponíveis no mercado que executam a DM com todas suas características marcantes que serviu de base para escolha da ferramenta que é utilizada no projeto. Para finalizar, foi visto como está enquadrado o uso da Inteligência Artificial no mercado financeiro para dar base à descrição de 5 projetos científicos que a utilizam como ferramenta na Bolsa de Valores, mas lembrando que nenhuma utiliza os mesmos mecanismos adotados neste trabalho. Na segunda metade do trabalho foi abordado o desenvolvimento do projeto, que foi subdividido em três fases: Sendo a primeira etapa o pré-processamento dos dados, onde ao final chegou-se a um arquivo formatado e padronizado com até 5.094 registros e 5 atributos, que serviram de entrada a ferramenta que executou os dados, sendo que chegou-se a um arquivo final após a realização dos diversos testes onde decidiu-se pela configuração do arquivo que melhor se comportou com os algoritmos escolhidos; Na segunda fase esses dados foram processados (Mineração de Dados) pelos 3 algoritmos escolhidos, depois de realizado diversos testes para a seleção da tarefa e algoritmos que trouxeram os melhores resultados. A tarefa escolhida foi a Classificação, pois se encontrou muita dificuldade em encontrar algoritmos com resultados satisfatórios nas 2 tarefas restantes (agrupamento e associação), mesmo realizando diversas mudanças nas configurações da base de dados para que se tornasse ativo todos os algoritmos que a ferramenta disponibiliza nesta duas tarefas. E na última fase do projeto foram analisados os modelos gerados após a realização do processamento dos dados. Os resultados gerados passaram por validações e transformações que deixaram as descobertas finais mais claras e confiáveis. Observou-se que os algoritmos não apenas geraram as regras, mas acrescentou a partir das saídas geradas as técnicas de validação, que compreenderam vários indicadores estatísticos, o que significou uma avaliação da confiabilidade do conhecimento gerado. Os testes realizados foram de grande valia para o projeto, pois nos permitiu chegar a um arquivo final com configurações e atributos que melhor se comportaram com o objetivo do trabalho, e também possibilitou que fossem tiradas diversas conclusões a seu respeito, como: que as tarefas de Agrupamento e Associação não são boas alternativas de uso neste contexto; que a inclusão do índice Dow Jones e a manutenção do índice Bovespa não trouxeram resultados diferenciados nos modelos gerados, sendo que não houve associações importantes com as demais empresas estudadas; que o período de coleta de dados de 8 e 12 meses se mostraram eficientes e que havendo a sua diminuição ou majoração sua eficiência é diminuída; que a melhor forma de declaração do atributo cotação é realmente de forma numérica e do atributo data em forma de data(fornecida pela ferramenta); e que o atributo que identifica o número de negócios realizados potencializo os resultados obtidos. A forma de validar as descobertas realizadas foi um meio que transmitiu confiança no resultado final do trabalho, pois se mostrou eficaz analisar sua eficiência através de indicadores que transmitem através de porcentagens como aquelas regras geradas se comportam em períodos e registros diferentes das utilizadas para gerá-las. Além da importância da forma de validar também pela significância dos resultados que trouxe apenas o conhecimento com relevância. Se forem analisados apenas os índices gerais, que se referem a todo o conteúdo gerado no modelo de conhecimento obtido pela execução dos algoritmos, pode-se dizer que o número de 81 instâncias classificadas corretamente e as taxas de erros trouxeram resultados não muito satisfatórios, como já era previsto no inicio dos estudos, tendo em vista que o mercado acionário é muito inconstante e dependente de diversos fatores externos. Mas por outro lado, se for observado o desempenho de algumas empresas nas matrizes de confusões que foram geradas, pode-se notar o alto desempenho que elas obtiveram, ou seja, as regras formadas que se relacionaram as estas empresas obtiveram ótimo desempenho devido aos registros da base de dados que envolvem estas determinadas empresas se comportarem exatamente como a regra a define, gerando alto número de acertos, por isso também que as regras que envolvem essas empresas conseguiram um desempenho consistente. Nestas validações selecionaram-se apenas regras geradas pelo algoritmo J48, que foi o que trouxe mais confiabilidade e significância em seus resultados, mas não significa que os outros dois algoritmos (JRip e Part) estudados não tenham trazido resultados importantes, com certeza poderíamos ter selecionado diversas regras geradas por eles se fosse diminuído o grau de exigência nas descobertas, mas realmente as mais relevantes quem atingiu foi o algoritmo J48. Se for contabilizado os resultados obtidos pelos 3 algoritmos estudados chegou-se a mais de 150 regras formadas, sendo que cada uma demonstra tendências e padrões que foram extraídos da base de dados (arquivo de entrada), cada uma com seu grau de importância, portanto não pode-se dizer que o conhecimento obtido limitou-se há apenas essas 3 regras formadas pelo algoritmo J48. Com os resultados alcançados pode-se dizer que a Mineração de Dados demonstrou-se eficiente na função que lhe foi proposta, onde conseguiu identificar indícios de que as cotações diárias de alguns papéis estudados apresentaram padrões de comportamento por diversas vezes no período estudado. Mas cabe destacar que as descobertas realizadas não são garantias de sucesso em seus investimentos, pois se trata de um mercado altamente volátil e sem garantias, e que esses resultados foram eficientes no período estudado não garantido que será também em outros períodos, pois já foi demonstrada baixa no desempenho em períodos maiores, conforme podemos verificar nos testes efetuados. E respondendo as perguntas problemas feitas no inicio deste trabalho no item Problematização pode-se dizer que quanto a questão de melhor previsibilidade deste tipo de mercado, a DM pode ajudar nesta tarefa onde através dos padrões formados com a execução dos algoritmos chega-se a um fator que pode auxiliar indicando o momento mais oportuno de entrar ou 82 sair de um determinado papel da bolsa de valores, respondendo também a questão de aumentar a rentabilidade correndo um menor risco pois conseqüentemente tendo ciência destas possíveis tendências, o investidor terá probabilidades de minimizar seu risco mesmo em busca de uma maximização nos lucros. No questionamento se há padrões nos movimentos das cotações pode-se dizer que foram encontrados indícios (através dos resultados alcançados) sobre esse comportamento vicioso que eles sofrem, de uma forma similar a Dissertação de Mestrado concluída por Giuliano Padilha Lorenzoni (no item 2.5 – Trabalhos similares) nos trouxe a respeito das análises técnicas aplicadas atualmente (Grafismo). E na última indagação sobre como aproveitar o histórico destas ações para tirar conclusões sobre seus movimentos futuros, conclui-se que foi este o proveito que a Mineração de Dados nos proporcionou neste projeto e que irá proporcionar na continuidade de seus estudos nesta área. Mas o proveito principal obtido deste trabalho foi o ponto de partida para que este estudo sirva de base e incentivo para que se de continuidade nos estudos científicos desta unificação de áreas (Investimentos + Mineração de Dados) e que provoquem os especialistas na área de investimentos na bolsa de valores, principalmente os que norteiam suas aplicações e recomendações em ações baseados nas análises técnicas, para que prestem atenção na potencialidade que a metodologia de Mineração de Dados pode fornecer. Em trabalhos futuros podemos indicar a possibilidade de se enriquecer ainda mais o arquivo de entrada para o processamento dos dados, com o incremento de mais atributos com finalidades diversas poderia trazer comportamentos diferentes nos algoritmos com isso havendo a possibilidade de serem selecionados tarefas e algoritmos diferentes aos estudados neste projeto, inclusive com mais associações em suas regras trazendo conhecimento novo aos resultados gerados. Há também a possibilidade de se trabalhar com as configurações destes algoritmos escolhidos neste trabalho, já que trabalhamos com uma ferramenta de código aberto, possibilitando assim a realização de modificações no código fonte destes algoritmos, para que se tornem ainda mais potentes na suas tarefas de geração de resultados. E também realizar um estudo mais profundo utilizando esta tecnologia para verificar os efeitos que o índice Dow Jones traz em relação às cotações de nossas empresas e em relação ao nosso índice Ibovespa e detectar até que ponto nosso mercado acompanha o deles. 83 REFERÊNCIAS BIBLIOGRÁFICAS AMORIM, Thiago. Conceitos, técnicas, ferramentas e aplicações de mineração de dados para gerar conhecimento a partir de bases de dados. 2006. Trabalho de Conclusão de Curso (Graduação em ciência da computação) - Centro de Informática, Universidade Federal de Pernambuco, Recife, 2006. Disponível em: <http://www.cin.ufpe.br/~tg/2006-2/tmas.pdf>. Acesso em: 20 ago. 2009. ANBID. Portal “como investir?”. 2009. Disponível em: <http://www.comoinvestir.com.br/acoes/guia-de-acoes/tipos-de-acoes/Paginas/default.aspx>. Acesso em: 01 nov. 2009. BM&FBOVESPA. Guia online do mercado de ações. Página online. São Paulo: BM&FBOVESPA S.A., 2009. Disponível em:< http://www.bovespa.com.br/Principal.asp>. Acesso em: 25 ago. 2009a. ______. Mercado – ações – dados históricos. Página online. São Paulo: BM&FBOVESPA S.A., 2009. Disponível em:< http://www.bovespa.com.br/Principal.asp>. Acesso em: 01 out. 2009b. BOLSÃO. Brasil é o 4° país preferido das multinacionais para investimento. Jornal Bolsão, Balneário Camboriú, pag. 7, 06 ago. 2009. CARVALHO, Luiz Alfredo Vidal de. Datamining: a mineração de dados no marketing, medicina, economia, engenharia e administração. São Paulo: Érica, 2001. DIAS, Carlos Henrique. Um novo algoritmo genético para a otimização de carteiras de investimento com restrições de cardinalidade. 2008. Dissertação (Mestrado em Matemática Aplicada) - Instituto de Matemática, Estatísticas, e Computação Científica, Universidade Estadual de Campinas, Campinas, 2008. Disponível em: <http://libdigi.unicamp.br/document/?code=vtls000438801>. Acesso em: 20 ago. 2009. GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel Lopes. Data mining: um guia prático: conceitos, técnicas, ferramentas, orientações e aplicações. Rio de Janeiro: Elsevier, 2005. IBM. IBM DB2 data warehouse edition. 2009. Disponível em:<http://www306.ibm.com/software/data/db2/dwe/>. Acesso em: 01 set. 2009. KLEINSCHMIDT, Marlon. Mineração de dados para avaliação do perfil de usuários do sistema de informação da academia da UNIVALI. 2007. Trabalho de Conclusão de Curso (Graduação em ciência da computação) - Centro de Ciências Tecnológicas da Terra e do Mar, Universidade do Vale do Itajaí, Itajaí, 2007. Disponível em: <http://www.univali.br/>. Acesso em: 25 ago. 2009. LAZO, Juan Guilherme Lazo. 2000. Sistema híbrido genético-neural para montagem e gerenciamento de carteiras de ações. 2000. Dissertação (Mestrado em Engenharia Elétrica) Departamento de Engenharia Elétrica, Universidade Católica do Rio de Janeiro, Rio de Janeiro 2000. Disponível em: <http://www.maxwell.lambda.ele.pucrio.br/Busca_etds.php?strSecao=resultado&nrSeq=7541@1>. Acesso em: 20 ago. 2009. 84 LORENZO, Francine de. Nem sempre as small caps são as mais arriscadas na Bovespa. Portal Exame, São Paulo, jun. 2009, exame/finanças. Disponível em:<http://portalexame.abril.com.br/financas/esta-hora-investir-small-caps-474274.html>. Acesso em: set. de 2009. LORENZONI, Giuliano Padilha. Uma investigação estatística sobre análise técnica. 2006. Dissertação de Mestrado (Mestre pelo programa de Pós-Graduação em Engenharia Elétrica) – Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2006. Disponível em: <http://www.maxwell.lambda.ele.pucrio.br/Busca_etds.php?strSecao=resultado&nrSeq=9192@1>. Acesso em: 08 dez. 2009. MELLO, Maria Terra. Aplicação de redes neurais artificiais no processo de precificação de ações. 2004. Trabalho de Conclusão Curso (Graduação em Ciência da Computação) - Instituto de Física e Matemática, Universidade Federal de Pelotas, Pelotas, 2004. Disponível em: <http://www.ufpel.tche.br/prg/sisbi/bibct/acervo/info/2004/mono_marilia.pdf>. Acesso em: 20 ago. 2009. MORI, Luci Mercedes de. Sistema de informação gerencial para previsão de produtividade do trabalho na alvenaria de elevação. 2008. Tese (Doutor em Engenharia Civil) - Programa de PósGraduação em Engenharia Civil, Universidade Federal de Santa Catarina, Florianópolis, 2008. Disponível em: < http://www.tede.ufsc.br/teses/PECV0552-T.pdf >. Acesso em: 31 maio 2010. NAPOLITANO, Giuliana. O brilho da bolsa. Revista Exame, São Paulo, n° 16, 26 ago. 2009. PARREIRAS, Luiz Paulo Rodrigues de Freitas. 2003. Modelo genético-neural de gestão de carteiras de ações. 2003. Trabalho de Conclusão de Curso (Graduação em Engenharia da Produção) - Departamento de Engenharia de Produção, Escola Politécnica da Universidade de São Paulo, São Paulo, 2003. Disponível em: <http://www.pro.poli.usp.br/projetos/pro/publicacoes/trabalhos-de-formatura/modelo-geneticoneural-de-gestao-de-carteiras-de-acoes>. Acesso em: 25 ago. 2009. PINHEIRO, Juliano Lima. Mercado de capitais: fundamentos e técnicas. 3 ed. São Paulo: Atlas, 2005. SANTANA, Helton; RODRIGUES, Danilo. 2005. Uso de árvore de decisão em mineração de dados. 2005. Artigo - Departamento de Ciências da computação, Universidade Federal da Bahia, Salvador, 2005. Disponível em: http://im.ufba.br/pub/MATA64/SemestreArtigos20052/ArtigoIAHeltonDanilo.pdf. Acesso em: 10 out. 2009. SAS. SAS enterprise miner. 2009. Disponível em: <http://www.sas.com/technologies/analytics/datamining/miner/>. Acesso em: set. de 2009. SILVA, Gercely da Silva e. Estudo de técnicas e utilização de mineração de dados em uma base de dados da saúde pública. 2003. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Curso Superior de Tecnologia em Informática, Universidade Luterana do Brasil, Canoas, 2003. Disponível em: <http://projetos.inf.ufsc.br/arquivos_projetos/projeto_635/Estudo%20de%20T%E9cnicas%20e%20 85 %20Utiliza%E7%E3o%20de%20Minera%E7%E3o%20de%20Dados.pdf >. Acesso em: 10 out. 2009. SILVA, Inara Aparecida Ferrer. Descoberta de conhecimento em base de dados de monitoramento ambiental para avaliação da qualidade da água. 2007. Dissertação (título de Mestre em Física e Meio Ambiente) – Programa de Pós-Graduação em Física e Meio Ambiente, Universidade Federal de Mato Grosso, Cuiabá-MT, 2007. Disponível em: <http://pgfa.ufmt.br/pagina/index2.php?option=com_docman&task=doc_view&gid=92&Itemid=39 >. Acesso em: 31 maio 2010. SILVA, Marcelino Pereira dos Santos. Mineração de Dados - conceitos, aplicações e experimentos com Weka. 2006. Artigo - Instituto Nacional de Pesquisas Espaciais, Universidade do estado do Rio Grande do Norte, Mossoró, 2006. Disponível em: <www.sbc.org.br/bibliotecadigital/download.php?paper=35>. Acesso em: 10 out. 2009. SILVEIRA, Sidnei Renato; BARONE, Dante Augusto Couto. Jogos educativos computadorizados utilizando a abordagem de algoritmos genéticos. 1998. Artigo (Curso de Pós-Graduação em Ciência da Computação) - Instituto de Informática, Universidade do Rio Grande do Sul, Porto Alegre, 1998. Disponível em: <http://lsm.dei.uc.pt/ribie/docfiles/txt200342421140151.PDF>. Acesso em: 20 ago. 2009. STAHNKE, Fernando Rafael. Uso de data mining no mercado financeiro. 2008. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e Tecnológicas, Centro Universitário FEEVALE, Novo Hamburgo, 2008. Disponível em: <http://tconline.feevale.br/tc/files/0001_1749.pdf>. Acesso em: 25 ago. 2009. TEIXEIRA, Alexandre. Você entregaria seu investimento a este gestor? Revista Online. São Paulo: ISTOÉ Dinheiro, 2006. Disponível em <http://www.terra.com.br/istoedinheiro/448/financas/investimento_gestor.htm>. Acesso em: 15 set. 2009. UOL. Guia: saiba investir em ações. 2009. Disponível em: <http://economia.uol.com.br/ultnot/2008/05/14/guia_bovespa_bolsa_valores_aplicar_acoes.jhtm>. Acesso em: 01 nov. 2009. UNIVERSIDADE DE WAIKATO. Waikato Environment for Knowledge Analysis - Weka. Ferramenta versão 3.7.1. Hamilton - Nova Zelândia: (c) 1999-2009. VEJA. IPO do Santander bate record: 14 bi de reais. Revista Online. São Paulo: Revista Veja, 2009. Disponível em: <http://veja.abril.com.br/noticia/economia/ipo-santander-bate-recorde-14-bireais-503943.shtml>. Acesso em: 25 nov. 2009. 86