Modelo de TCC para o Curso de Ciência da Computação da UNIVALI

Propaganda
UNIVERSIDADE DO VALE DO ITAJAÍ
CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR
CURSO DE CIÊNCIA DA COMPUTAÇÃO
USO DE MINERAÇÃO DE DADOS NA BOLSA DE VALORES
Área de Inteligência Artificial
por
Marcelo Berenstein
Benjamin Grando Moreira, M.Eng.
Orientador
Itajaí (SC), junho de 2010
UNIVERSIDADE DO VALE DO ITAJAÍ
CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR
CURSO DE CIÊNCIA DA COMPUTAÇÃO
USO DE MINERAÇÃO DE DADOS NA BOLSA DE VALORES
Área de Inteligência Artificial
por
Marcelo Berenstein
Relatório apresentado à Banca Examinadora do
Trabalho de Conclusão do Curso de Ciência da
Computação para análise e aprovação.
Orientador: Benjamin Grando Moreira, M.Eng.
Itajaí (SC), junho de 2010
SUMÁRIO
LISTA DE
ABREVIATURAS.................................................................................... iv
LISTA DE FIGURAS ................................................................................. v
LISTA DE TABELAS ............................................................................... vi
RESUMO ................................................................................................... vii
ABSTRACT ..............................................................................................viii
1 INTRODUÇÃO .................................................................................... 1
1.1 PROBLEMATIZAÇÃO..................................................................................... 3
1.1.1 Formulação do Problema ................................................................................ 3
1.1.2 Solução Proposta .............................................................................................. 3
1.2 OBJETIVOS ....................................................................................................... 4
1.2.1 Objetivo Geral .................................................................................................. 4
1.2.2 Objetivos Específicos ....................................................................................... 4
1.3 METODOLOGIA............................................................................................... 5
1.4 ESTRUTURA DO TRABALHO ...................................................................... 6
2 FUNDAMENTAÇÃO TEÓRICA ........................................................ 8
2.1 BOLSA DE VALORES ...................................................................................... 8
2.1.1 Ações .................................................................................................................. 9
2.1.2 BM&FBovespa ............................................................................................... 14
2.1.3 Análise de Investimento ................................................................................. 17
2.2 MINERAÇÃO DE DADOS ............................................................................. 24
2.2.1 Fases ................................................................................................................ 26
2.2.2 Tarefas............................................................................................................. 30
2.2.3 Técnicas ........................................................................................................... 32
2.3 FERRAMENTAS DE MINERAÇÃO DE DADOS ...................................... 34
2.3.1 Weka ................................................................................................................ 35
2.3.2 SAS Enterprise Miner ................................................................................... 36
2.3.3 Intelligent Miner ............................................................................................ 37
2.3.4 Quadro comparativo ...................................................................................... 39
2.4 INTELIGÊNCIA ARTIFICIAL NO MERCADO FINANCEIRO ............. 41
2.5 TRABALHOS SIMILARES ............................................................................ 42
2.5.1 Aplicação de Redes Neurais Artificiais no processo de precificação de
ação............................................................................................................................ 42
2.5.2 Um novo Algoritmo Genético para a otimização de carteiras de
investimentos com restrições de cardinalidade ..................................................... 42
2.5.3 Modelo Genético-Neural de gestão de carteiras de ações .......................... 43
2.5.4 Uso de Data Mining no mercado financeiro ................................................ 43
ii
2.5.5 Uma investigação estatística sobre análise técnica ..................................... 44
2.5.6 Análise comparativa ...................................................................................... 44
3 PROJETO ............................................................................................. 46
3.1 PRÉ-PROCESSAMENTO ..............................................................................
3.1.1 Seleção .............................................................................................................
3.1.2 Limpeza ...........................................................................................................
3.1.4 Enriquecimento ..............................................................................................
3.1.3 Codificação .....................................................................................................
3.2 PROCESSAMENTO ........................................................................................
3.2.1 Inicialização da Ferramenta .........................................................................
3.2.2 Tarefa utilizada ..............................................................................................
3.2.3 Técnicas utilizadas .........................................................................................
3.2.4 Resultados Obtidos ........................................................................................
3.3 PÓS-PROCESSAMENTO...............................................................................
3.3.1 Validação e simplificação do modelo ...........................................................
3.3.2 Transformação do modelo e apresentação dos resultados ........................
3.3.3 Análise dos resultados....................................................................................
46
47
48
50
51
52
53
54
56
59
72
72
77
79
4 CONCLUSÕES .................................................................................... 80
REFERÊNCIAS BIBLIOGRÁFICAS ................................................... 84
iii
LISTA DE ABREVIATURAS
AG
ANBID
BC
BM&FBOVESPA
BOVESPA
CVM
DM
IA
KDD
JRIP
ON
ONU
PART
PN
RN
TCC
UNCTAD
UNIVALI
WEKA
Algoritmo Genético
Associação Nacional dos Bancos de Investimento
Banco Central
Bolsa de Valores, Mercadorias e Futuros
Bolsa de Valores do Estado de São Paulo
Comissão de Valores Mobiliários
Data Mining
Inteligência Artificial
Knowledge Discovery in Databases
Incremental Reduced Erro Prunning
Ordinárias
Organização das Nações Unidas
Partial decision trees
Preferenciais
Redes Neurais
Trabalho de Conclusão de Curso
Conferência das Nações Unidas para o Comércio e o Desenvolvimento
Universidade do Vale do Itajaí
Waikato Environment for Knowledge Analysis
iv
LISTA DE FIGURAS
Figura 1. Formação de preço 1 ...........................................................................................................13
Figura 2. Formação de preço 2 ...........................................................................................................13
Figura 3. Formação de preço 3 ...........................................................................................................13
Figura 4. Small caps ........................................................................................................................... 23
Figura 5. DM multidisciplinar ............................................................................................................25
Figura 6. Processo de DM ..................................................................................................................26
Figura 7. Weka pré-processamento ....................................................................................................36
Figura 8. Comparatico de técnicas SAS ............................................................................................. 37
Figura 9. Intelligent Miner Agrupamento .......................................................................................... 38
Figura 10. Base de dados original ......................................................................................................49
Figura 11. Base de dados Excel .........................................................................................................50
Figura 12. Base de dados enriquecida ................................................................................................ 51
Figura 13. Base de dados arff .............................................................................................................52
Figura 14. Arquivo de entrada no Weka ............................................................................................ 54
Figura 15. Interface da tarefa de classificação ...................................................................................55
Figura 16. Exemplo de árvore de decisão .......................................................................................... 57
Figura 17. Exemplo de regras de classificação ..................................................................................57
Figura 18. Algoritmos de árvores de decisão no Weka......................................................................58
Figura 19. Algoritmos de regras de classificação no Weka ............................................................... 59
Figura 20. Execução do algoritmo J48 ............................................................................................... 63
Figura 21. Árvore do algoritmo J48 ...................................................................................................64
Figura 22. Estatísticas do algoritmo J48 ............................................................................................ 65
Figura 23. Matriz de confusão do algoritmo J48 ...............................................................................66
Figura 24. Execução do algoritmo JRip ............................................................................................. 67
Figura 25. Estatísticas do algoritmo JRip........................................................................................... 68
Figura 26. Matriz de confusão do algoritmo JRip ..............................................................................69
Figura 27. Execução do algoritmo PART .......................................................................................... 70
Figura 28. Estatísticas do algoritmo PART ........................................................................................71
Figura 29. Matriz de confusão do algoritmo PART ...........................................................................72
Figura 30. Regras do J48 com resultado Banco do Brasil..... ........................................................... 75
Figura 31. Regras do J48 com resultado Rossi..... ............................................................................76
Figura 32. Descobertas do algoritmo J48............................ ............... ...............................................78
Figura 33. Ferramenta Desenvolvida............................ ............... .....................................................78
v
LISTA DE TABELAS
Tabela 1. Tipos de ordens ..................................................................................................................12
Tabela 2. Principais referências da cotação .......................................................................................14
Tabela 3. Índices de bolsas no mundo................................................................................................ 15
Tabela 4. Fundamentalista X Técnica ................................................................................................ 20
Tabela 5. Tipos de Riscos ..................................................................................................................21
Tabela 6. Quadro comparativo de ferramentas ..................................................................................40
Tabela 7. Lista de ativos selecionados ............................................................................................... 48
vi
RESUMO
BERENSTEIN, Marcelo. Uso de Mineração de Dados na Bolsa de Valores. Itajaí, 2010. 95 f.
Trabalho de Conclusão de Curso (Graduação em Ciência da Computação)–Centro de Ciências
Tecnológicas da Terra e do Mar, Universidade do Vale do Itajaí, Itajaí, 2010.
Nos últimos anos o Brasil tem se tornado alvo predileto de investidores, principalmente
estrangeiros, devido ao grande potencial verificado nas ações de empresas brasileiras listadas em
Bolsa de Valores, chegando esta a se popularizar entre nós brasileiros, sendo crescentes os
resultados obtidos por investidores em nosso mercado. Mas como interpretar o movimento destes
ativos e conseguir uma segurança maior com rendimentos acima da média em um mercado novo,
onde num passado recente era visto somente por apostadores e especuladores, sem nenhum
fundamento. Com o objetivo de descobrir possíveis padrões, tendência e correlações significativas
na analise do histórico das cotações dos ativos da Bolsa de valores (Bovespa), o projeto compreende
o uso da metodologia de Mineração de Dados aplicada a nossa Bolsa Brasileira, essa metodologia
envolve modernos recursos da Computação, usando técnicas de Inteligência Artificial que são
aplicados aos dados históricos das cotações de nossas ações listadas em Bolsa. Como resultados
tivemos algumas descobertas feitas pelo algoritmo J48 que foram validadas pelo modelo de
validação aplicado neste trabalho e que apresentaram movimentos similares de determinados ativos
em períodos específicos, e além do mais nos mostrou o potencial que a metodologia de Mineração
de Dados tem disponível para realizar estas tarefas. Então a elaboração desse projeto neste mercado
financeiro foi importante e poderá ser ainda mais tanto para a área de computação quanto para a
área de investimentos, provando que a junção desses dois conhecimentos é uma boa estratégia para
alcançar os objetivos de especialistas das duas áreas e trazer benefícios enormes aos investidores, às
corretoras, às instituições financeiras e demais entes sociais que visem realizar descobertas do
mercado acionário e conseqüentemente trazer informações relevantes para a tomada de decisões nos
pregões diários da Bovespa.
Palavras-chave: 1. Mineração de Dados 2. Inteligência Artificial 3. Bolsa de Valores
vii
ABSTRACT
In recent years Brazil has become a favorite target for investors, especially foreigners, due to the
large potential found in the actions of Brazilian companies listed on the Stock, coming to be
popular among us, Brazilians, and increasing the results obtained by investors in our market. But
how to interpret the movement of these assets and achieve greater security with incomes above the
average in a new market, where in the recent past was seen only for gamblers and speculators, with
no foundation. Aiming to discover possible patterns, trend analysis and significant correlations in
the history of the prices of assets of the Stock Exchange (Bovespa), the project includes the use of
data mining methodology applied to our Brazilian stock exchange, this methodology involves
modern resources Computing, using artificial intelligence techniques that are applied to historical
data of the prices of our shares listed on the Stock Exchange. As a result we had some discoveries
made by the algorithm J48 which was validated by the validation model applied in this work, and
had similar movements of certain assets in specific periods, and furthermore has shown the
potential of data mining methodology is available to perform these tasks. So the development of this
project in this financial market was important and could be even more so for the computing field
and for the investment area, proving that the addition of these two skills is a good strategy to
achieve the goals of experts of the two areas and bring huge benefits to investors, the brokerages,
financial institutions and other entities aimed at making discoveries social stock market and
therefore bring relevant information for making decisions in daily sessions of the Bovespa.
Keywords:Data Mining. Artificial Intelligence. Stock Exchange.
viii
1 INTRODUÇÃO
Nos primeiros sete meses de 2009 não houve bolsa no mundo que valorizasse mais do que a
BOVESPA (Bolsa de Valores do Estado de São Paulo), em dólar, seus investidores ganharam 87%
no período e se tornaram a quarta maior bolsa do mundo em valor de mercado, de janeiro a agosto
do corrente ano os investidores estrangeiros têm um saldo positivo de quase 14 bilhões de reais
(NAPOLITANO, 2009). E, mais uma notícia importante que comprova a evolução de nossa
economia com perspectivas favoráveis para o futuro de nosso mercado foi uma pesquisa realizada
pela Conferência das Nações Unidas (ONU) para o Comércio e Desenvolvimento (UNCTAD) onde
destaca que o Brasil é o quarto destino preferido para investimentos por multinacionais e
investidores do mundo todo (BOLSÃO, 2009).
Compreender o movimento das cotações dos ativos da Bolsa de Valores para investimentos
é um processo muito complexo devido à variedade enorme de ativos listados na Bovespa (centenas)
juntamente com suas cotações diárias de meses e anos de cada ativo e também com a variabilidade
e incertezas que elas sofrem por diversos fatores tornam dificílimo a análise destes dados somente
com a ação humana, havendo a necessidade de juntamente com os conhecimentos financeiros e
econômicos a ajuda da computação e mais precisamente da Mineração de Dados com técnicas da
Inteligência Artificial (IA) para a possível identificação de padrões de mercado e informações
relevantes que ajudem a potencializar a lucratividade dos investimentos em ações, com um menor
risco, através de indicações do momento mais oportuno para aplicação dos recursos em um
determinado ativo.
Mineração de Dados ou DM (Data Mining) é um conjunto de técnicas reunidas da
Estatística e da Inteligência Artificial (IA) com objetivo de descobrir conhecimento novo que esteja
“escondido” em grandes massas de dados (CARVALHO, 2001). Assim a Mineração de Dados tem
uma tarefa importantíssima neste contexto, onde lida com os inúmeros dados históricos (cotações)
de nossas ações, sendo preparados e modelados para serem processados por técnicas de Inteligência
Artificial que trazem resultados relevantes para o entendimento de nosso mercado acionário e
particularmente de alguns ativos, grupo de ativos e setor de atuação.
O trabalho compreende todas as etapas do processo de DM, sendo que houve a incorporação
dos dados financeiros na metodologia empregada, seguiram-se fielmente passo a passo os métodos
previstos na metodologia. Desde a preparação dos dados coletados (histórico de movimentação dos
ativos financeiros) onde foram selecionadas 17 ações com melhores fundamentos entre as centenas
existentes na Bovespa (mercado à vista). Então somente os dados relacionados a estas selecionadas
são utilizados na fase de processamento onde ocorre a execução das técnicas de Inteligência
Artificial com diversos testes sendo efetuados até que se cheguem às melhores tarefas e algoritmos
com suas respectivas configurações, inclusive a da base de dados. E o processo é finalizado com a
análise, validação e formatação dos resultados alcançados.
A maioria dos trabalhos científicos existentes no Brasil e que foram pesquisados focam a IA
em selecionar ativos através dos algoritmos de Redes Neurais e Algoritmo Genético, merecendo
destaque o projeto proposto por Fernando Rafael Stahnke desenvolvido no Centro Universitário
FEEVALE com o título “Uso de Data Mining no Mercado Financeiro”, que incorporou a seu
trabalho o uso de Data Mining. Mas o projeto proposto aqui vai além, tanto pela diversidade de
técnicas que foram experimentadas, quanto pela quantidade de ativos que constam no experimento e
a variabilidade nos atributos utilizados, buscando através do processo de Mineração de Dados
atingirem informações importantes do funcionamento de nossas ações listadas em Bolsa de Valores.
As técnicas de inteligência computacional já mostram sua eficiência nas economias
desenvolvidas (BAUE, 1994; EDDE, 1996; BOLL, 1997) apud (LAZO, 2000), mas nosso mercado
estando em ascensão e sendo diferente do deles certamente apresentará comportamentos e padrões
diferentes, havendo a necessidade de ajustes não só nas técnicas utilizadas como em toda a
metodologia empregada.
Então, a elaboração desse projeto na BM&FBOVESPA (Bolsa de Valores, Mercadorias e
Futuros) foi muito importante tanto para a área de computação quanto para a área de investimentos,
mostrando que a junção desses dois conhecimentos é uma boa estratégia para alcançar os objetivos
de especialistas das duas áreas e trazer benefícios aos investidores, as corretoras, as instituições
financeiras e demais entes sociais que visem realizar descobertas do mercado acionário e
consequentemente trazerem informações relevantes para a tomada de decisões.
2
1.1 PROBLEMATIZAÇÃO
1.1.1
Formulação do Problema
O mercado de ações é um ramo da economia onde sua previsibilidade é muito difícil de ser
traçada, até mesmo especialistas da área, com décadas de experiência, muitas vezes não conseguem
prever o seu movimento. As ações listadas em bolsa sofrem interferências diversas em suas
cotações, muitas vezes inesperadas, onde analistas tentam buscar alguma lógica, mas não
encontram. São diversos os fatores que influenciam os pregões diários que ocorrem na Bolsa de
Valores, desde movimentos especulativos, notícias relevantes, fatores da economia, situação dos
países e bolsas estrangeiras, fator psicológico dos investidores, [...].
Então como aumentar a previsibilidade desse mercado diante de tanta informação, diversos
ativos, diversas cotações, [...]? E como conseguir nos ativos selecionado da Bolsa de Valores uma
possibilidade maior de ganho correndo um menor risco? Será que há padrões nos movimentos
diários das cotações das ações? Como aproveitar o histórico destas ações para tirar conclusões sobre
seus movimentos futuros?
1.1.2
Solução Proposta
Uma das possíveis soluções pode estar na Computação, onde a junção do conhecimento
humano com a Inteligência Artificial pode ser uma boa fórmula para se chegar a uma possível
previsibilidade do mercado de ações, onde o processo de Mineração de Dados poderá nos auxiliar a
lidar com a diversidade de ações e cotações, sendo esses dados processados por técnicas de
Inteligência Artificial com a finalidade de extrair informações relevantes deste histórico obtido nos
pregões diários que ocorrem na Bolsa de Valores, informações estas que podem detectar padrões de
mercado e movimentos similares que ocorrem em um determinado ativo ou grupo de ativos em
determinados períodos de tempo.
Então foi a percepção desta solução que me motivou a desenvolver este trabalho nos moldes
que serão apresentados no decorrer de seu desenvolvimento, não esquecendo também que a
atratividade da nossa bolsa de valores no cenário internacional também foi motivo relevante para a
escolha do tema nesta área.
3
1.2 OBJETIVOS
1.2.1
Objetivo Geral
Realizar descobertas e indicações à respeito do comportamento e movimento das cotações
dos ativos listados na bolsa de valores brasileira (BM&FBOVESPA), com apoio da mineração de
dados.
1.2.2
Objetivos Específicos
Os objetivos específicos deste projeto de pesquisa são:
Conceituar e compreender o funcionamento da Bolsa de valores juntamente com suas
técnicas de análise financeira;
Conceituar e compreender o funcionamento da Mineração de Dados (MD) e suas fases;
Efetuar a seleção e modelagem dos dados utilizando as técnicas de análise financeira e
de DM conjuntamente;
Escolher uma ferramenta que efetue o processamento dos dados;
Experimentar, avaliar e selecionar os melhores algoritmos para as tarefas pretendidas,
através da ferramenta escolhida;
Efetuar o processamento dos dados selecionados e modelados;
Validar os resultados obtidos;
Aprimorar a visualização e a interpretação dos resultados obtidos;
Implementar uma ferramenta que visualize as informações obtidas no processamento;
Realizar descobertas de nosso mercado acionário; e
Verificar a importância da Mineração de dados neste processo.
4
1.3 METODOLOGIA
Este trabalho utilizou o processo de Mineração de Dados com técnicas de Inteligência
Artificial para ser aplicado a uma base de dados que contem o histórico de cotações de alguns ativos
da Bolsa de valores com a finalidade de extrair conhecimentos relevantes dessa base de dados.
Para desenvolver este projeto foram definidas quatro etapas, sendo a primeira vinculada
mais a fundamentação do projeto, onde foram pesquisados e conceituados os temas abordados nele,
na segunda etapa o foco esteve nas ferramentas que foram utilizadas, já na terceira a preocupação
esteve na modelagem do projeto e a última etapa lidou com a documentação do TCC. Abaixo segue
com mais detalhes a metodologia aplicada às atividades constante nas etapas:
Na primeira etapa foi realizada a pesquisa de todo material bibliográfico que foi utilizado na
parte teórica do presente projeto, desde consulta a trabalhos de Conclusão de Curso e dissertações
de Mestrado, revistas, artigos, livros, consultas via Internet e demais meios. E também foram
definidos conceitos, ou seja, determinado os argumentos que foram utilizados para definir cada
metodologia e tecnologia que foi utilizada neste trabalho justificando sua aplicação.
Na segunda fase foi pesquisada e escolhida a parte de software do trabalho, ou seja,
mediante pesquisas e testes foi definida a parte operacional do projeto, realizando também a sua
validação mediante testes e análise das características, vantagens, desvantagens e resultados
obtidos.
Na etapa seguinte o projeto foi modelado, ou seja, foi definida a estrutura do trabalho desde
o pré-processamento dos dados até os resultados alcançados. A modelagem do pré-processamento
foi feita utilizando como base a metodologia descrita nos conceitos da Mineração de Dados e
também da análise financeira, sendo que as duas metodologias foram aplicadas conjuntamente
gerando dados selecionados, modelados e preparados que foram utilizados pela atividade posterior.
A atividade de processamento dos dados também foi feita utilizando a metodologia descrita nos
conceitos da Mineração de Dados, com o uso da ferramenta escolhida que contemplou os melhores
algoritmos, com a finalidade de alcançar os melhores resultados possíveis. E na ultima atividade foi
definido o pós-processamento, onde os resultados alcançados foram testados, selecionados,
transformados e validados para a conclusão do processo.
5
Na última etapa (documentação) foi registrado todo o projeto, ou seja, foi escrito toda a
modelagem e metodologia descritas nas etapas anteriores, acompanhado das considerações finais.
1.4 ESTRUTURA DO TRABALHO
O
projeto
está
estruturado
em
4
unidades,
compreendendo
a
(1)Introdução,
(2)Fundamentação Teórica, o (3)Projeto e as (4)Considerações Finais.
Na Introdução do trabalho é dada uma visão geral de todo o projeto, incluindo a delimitação
do tema, o problema enfrentado com sua possível solução, os objetivos, os conceitos envolvidos, a
abrangência do projeto e a pesquisa de outros projetos similares.
Na Fundamentação Teórica é abordada a parte de conceituação do projeto, descrevendo
tanto os conceitos de Mineração de Dados quanto de Bolsa de Valores, não esquecendo das
ferramentas que serão utilizadas e os projetos similares. Podemos dividir a unidade nas seguintes
sessões:
Bolsa de Valores: é abordada a definição de vários conceitos da área, e estudado
também técnicas e analises de mercado;
Mineração de Dados: é dado o conceito geral, para depois explicar suas fases, tarefas
e técnicas detalhadamente;
Ferramentas de Mineração de Dados: definição das principais ferramentas
disponíveis no mercado com suas vantagens e desvantagens; e
Inteligência Artificial no mercado financeiro: é descrito a sua importância, sendo
embasada com trabalhos científicos que foram pesquisados na área.
Trabalhos Similares: é relatado trabalhos científicos que abordaram o uso da
Inteligência Artificial na Bolsa de Valores.
A próxima unidade trata do Projeto em si, ou seja, foca no desenvolvimento do trabalho e
está dividida nas seguintes sessões:
6
Pré-processamento: nesta Seção os dados serão preparados, onde serão selecionados
e modelados;
Processamento: nesta Seção os dados são introduzidos em uma ferramenta que
aplicará neles tarefas e técnicas de DM, gerando resultados; e
Pós-processamento: aqui os resultados obtidos são estudados, para uma seleção das
informações relevantes que podem ser extraídas do processo e sua conclusão.
Na última unidade do trabalho consta as Conclusões, onde é relatado um apanhado geral do
trabalho, incluindo os resultados alcançados, os problemas obtidos, as soluções adotadas, a
importância das descobertas efetuadas e os trabalhos que poderiam dar continuidade a este estudo.
7
2 FUNDAMENTAÇÃO TEÓRICA
Esta unidade aborda os conceitos indispensáveis para o entendimento do projeto, sendo eles
fundamentados nos mais diversos meios, tais como: Trabalhos Científicos, revistas, livros, sites
conceituados da Internet, etc.
Aborda também a fundamentação sobre o processo de Mineração de Dados, entra no
contexto da Bolsa de Valores, depois apresenta as principais ferramentas disponíveis no mercado
que podem ser utilizadas neste projeto, para em seguida finalizar com a importância da Inteligência
Artificial neste contexto e trabalhos já aplicados na área financeira que utilizam esta técnica.
2.1 BOLSA DE VALORES
Este é o campo de atuação deste projeto, onde as técnicas e metodologias computacionais
foram aplicadas nesta área, sendo então, indispensável à explicação de todos os conceitos que
fundamentam os recursos e conhecimentos que foram extraídos deste ambiente.
Pode-se dizer que quanto mais ativa é uma economia, mais ativo é o seu mercado de
capitais, o que se traduz em mais oportunidades para as pessoas, empresa e instituições aplicarem
suas poupanças. Ao abrir seu capital, uma empresa encontra uma fonte de captação de recursos
financeiros permanentes, acontecendo plenamente sua abertura quando lança ações ao público
(denominando-se uma companhia aberta), negociando-as em Bolsa de valores (BM&FBOVESPA,
2009a).
Elas têm o objetivo de manter a padronização e o regular funcionamento do mercado de
capitais, mantendo elevados padrões éticos de negociação e divulgando as transações executadas
com rapidez, detalhes e amplitude (ANBID, 2009).
Então, bolsa de valores é o local que oferece condições e sistemas necessários para a
realização de negócios, de onde Corretoras de Valores1 (intermediários), representando
investidores2 institucionais e individuais, reúnem-se para realizar compra e venda de ações, e
obrigações em mercado aberto, organizado e auto-regulado (BM&FBOVESPA, 2009a).
E como descrito no Guia Online do Mercado de Ações da BM&FBOVESPA (2009a) a
existência de um mercado organizado faz com que seja fácil e sem grandes esforços:
Entrar como sócio numa sociedade por ações (companhia);
Sair da sociedade;
Negociar através de representantes; e
Formalizar e legitimar as operações de compra e venda de ações.
2.1.1 Ações
É um valor mobiliário negociável, emitido pelas companhias, que representa a menor
parcela em que se divide o capital da companhia, sendo então, um pedacinho de uma empresa
(UOL, 2009).
São títulos negociados em mercados organizados, e de propriedade característico da
companhia que a emitiu, mas confere ao proprietário (ou investidor) o status de sócio ou acionista.
Sendo necessária a autorização da CVM3 (Comissão de Valores Mobiliários) para que essas
empresas possam abrir seu capital em bolsa (BM&FBOVESPA, 2009a).
1
Corretoras de Valores são instituições autorizadas a funcionar pelo Banco Central (BC) e pela Comissão de Valores
Mobiliários (CVM), onde executam operações de compra e venda de ações ou de derivativos na Bolsa, em nome de
seus clientes (BM&FBOVESPA, 2009a).
2
Investidores são indivíduos ou instituições que aplicam recursos em busca de ganhos a médio e longo prazos, que
operam nas Bolsas por meio de Corretoras e distribuidoras de valores, as quais executam suas ordens e recebem
corretagens pelo seu serviço (BM&FBOVESPA, 2009a).
3
Comissão de Valores Mobiliários é um órgão fiscalizador do mercado brasileiro de capitais, o qual também registra e
autoriza a emissão dos valores mobiliários para distribuição pública (BM&FBOVESPA, 2009a).
9
2.1.1.1 Tipos
As ações podem ser classificadas de 2 formas:
-Ordinárias: Confere ao titular os direitos essenciais do acionista, especialmente participação
nos resultados da companhia e direito de voto em Assembléia de acionistas. A cada ação ordinária
corresponde a um voto nas deliberações da Assembléia Geral, e são nominativas o que as levam a
terem a notação ON (BM&FBOVESPA, 2009a).
-Preferenciais: Dá a seu proprietário determinadas vantagens patrimoniais (prioridade na
distribuição dos dividendos, no reembolso do capital) em relação às ações ordinárias, em troca da
renúncia a outros direitos, como o direito de votar nas assembléias gerais da companhia, e são
nominativas o que as levam a terem a notação PN (BM&FBOVESPA, 2009a).
Ambas devem ser Nominativas, ou seja, seu possuidor é identificado nos livros de registro
da companhia, e as empresas podem também dentro de cada tipo criar quantas classes quiser e
emiti-las (ANBID, 2009).
Os dividendos dados aos possuidores de ações Ordinárias nem sempre são iguais ao
possuidor de ações Preferenciais. Normalmente as Preferenciais recebem percentuais maiores e
também são negociadas com maior facilidade (UOL, 2009).
Atualmente, conforme regulamentação da nossa bolsa de valores e seguindo critérios de
Governança Corporativa é exigida de uma empresa para entrar no Novo Mercado 4 que ela emita
obrigatoriamente apenas ações ordinárias e/ou converta as ações primárias em ordinárias.
2.1.1.2 Compra e venda
No Brasil a compra e venda de ações é realizada na Bolsa de Valores de São Paulo
(BOVESPA), onde são feitas por meios da corretoras credenciadas pela CVM (UOL, 2009).
10
Uma ordem de compra e venda em bolsa é o ato pelo qual o cliente determina ao operador
de uma sociedade corretora (empresa constituída para realizar as operações de compra e venda de
valores mobiliários para seus clientes ou outras instituições financeiras, nos sistemas mantidos pela
bolsa de valores) que compre ou venda ativos ou direitos em seu nome, nas condições que
especificar (BM&FBOVESPA, 2009a).
O pregão à viva-voz (presencial) de ações foi desativado em 30 de setembro de 2005. Desde
o dia 3 de Outubro de 2005 há apenas 1 modalidade de pregão na BM&FBOVESPA, denominada
Mega Bolsa. No Mega Bolsa (terminais remotos), o sistema eletrônico de negociação da Bovespa, o
operador lança a ordem do cliente, informando obrigatoriamente a quantidade de ações e o preço
pelos quais deseja negociar, caso haja alguma outra ordem manifestando o interesse de compra
nestas mesmas condições, a operação é casada automaticamente, assim, o negócio está concretizado
e faltam apenas os procedimentos administrativos para a sua conclusão (BM&FBOVESPA, 2009a).
Os tipos mais comuns de ordens podem ser vistas na Tabela 1:
4
O Novo Mercado é um dos níveis de Governança Corporativa, sendo um segmento de listagem destinado à negociação
de ações emitidas por empresas que se comprometem, voluntariamente, com a adoção de práticas de governança
corporativa e transparência adicional em relação ao que é exigido pela legislação (BM&FBOVESPA, 2009).
11
Tabela 1. Tipos de ordens
A mercado
Limitada
Administrada
Discricionária
De financiamento
De stop
Executada quando recebida, ao melhor preço
Fixa limite de preços. Executada dentro do limite ou por preço
melhor
Investidor especifica somente valor total e as características dos
valores mobiliários ou direitos que deseja comprar ou vender.
Seleção fica a critério da corretora
Administrador de carteira ou representante de mais de 1
comitente estabelecem condições de execução da ordem.
Depois de executada, quem autorizou a operação descriminará
quantidade e preços atribuídos a cada comitente
Compra (ou venda) em um tipo de mercado e outra
concomitante de venda (ou compra) de igual valor mobiliário
no mesmo ou em outro mercado, com prazos de vencimento
distintos
Especifica o nível de preço a partir da qual a ordem deve ser
executada.
- Stop de compra: deve ser executada a partir do momento em
que, no caso de alta de preços, ocorra um negócio a preço igual
ou superior ao preço especificado
- Stop de venda: deve ser executada a partir do momento em
que, no caso de baixa de preços, ocorra um negócio a preço
igual ou inferior ao preço especificado
Fonte: BM&FBOVESPA (2009a).
2.1.1.3 Formação do preço
Ao iniciar o pregão de um dia de negociações, cada ação tem um preço referencial. Este
preço foi a cotação de fechamento do dia anterior. E como descrito no Guia Online do Mercado de
Ações da BM&FBOVESPA (2009a) ele é influenciado por diversos fatores, tais como:
Fluxo de oferta e procura da ação;
Comportamento histórico dos preços;
Projeção da performance da empresa; e
Notícias sobre a empresa.
As Figuras 1, 2 e 3 auxiliam a entender o primeiro item deste processo:
12
Figura 1. Formação do preço 1
Fonte: BM&FBOVESPA (2009a).
Figura 2. Formação do preço 2
Figura 3. Formação do preço 3
Fonte: BM&FBOVESPA (2009a).
Fonte: BM&FBOVESPA (2009a).
Observa-se que na Figura 1 a oferta e a procura por uma determinada ação estão
estabilizadas, logo o seu preço tende a permanecer inalterado, neste caso, no valor de 1,00. Na
Figura 2 a procura possui um peso maior, ou seja, há uma quantidade maior de investidores
interessado neste ativo e em contrapartida a disponibilidade dele no mercado está reduzida (oferta
menor), logo seu preço tende a oscilar, aumentado seu valor. E na Figura 3 ocorre o inverso da
Figura 2, onde a oferta é maior que a procura e seu valor tende a diminuir. E resumidamente,
podemos dizer que o valor de uma ação é o quanto o mercado está disposto a pagar por ela.
2.1.1.4 Cotações
Cotação é o preço de qualquer ativo submetido à oferta e procura, em negociações no
mercado financeiro. As cotações são listadas em ordem alfabética de negócios realizados, em dois
13
blocos separados: cotações em R$ por ação (fator de cotação = 1) e cotação em R$ por lote de mil
ações (fator de cotação = 1.000) (BM&FBOVESPA, 2009a).
Na Tabela 2 são descritas as principais referências onde as cotações de uma determinada
ação são aplicadas:
Tabela 2. Principais referências da cotação
Abertura
Fechamento
Máxima
Média
Mínima
Último
Oscilação
Oferta de compra
Oferta de venda
Negócios (nº)
Negócios (quant.)
Primeira cotação, na abertura de negócios de um dia de
negociações
Ultima cotação, no encerramento de negócios
Maior cotação do dia
Cotação média do dia
Menor cotação do dia
Ultima cotação do dia
Porcentual de variação em relação ao fechamento do dia
anterior
Cotação da última oferta de compra registrada
Cotação da última oferta de venda registrada
Quantidade de negócios realizados com cada ação
Quantidade de ações negociadas
Fonte: BM&FBOVESPA (2009a).
2.1.2 BM&FBovespa
A BM&FBOVESPA S.A. – Bolsa de Valores, Mercadorias e Futuros foi criada em 2008
com a integração entre a Bolsa de Mercadorias e Futuros (BM&F) e a Bolsa de Valores de São
Paulo (BOVESPA). Juntas, as companhias formam uma das maiores bolsas do mundo em valor de
mercado, a segunda das Américas, e a líder na América Latina (BM&FBOVESPA, 2009a).
No cenário global, em que acompanhar a velocidade das transformações torna-se um
diferencial competitivo, a BM&FBOVESPA apresenta atraentes opções de investimento com custos
de operação alinhados ao mercado. Então, sua missão merece ser observada, sendo definida como:
Atuar na dinâmica macroeconômica de crescimento do mercado latino-americano e posicionar não
apenas a Bolsa, mas também o Brasil como centro financeiro internacional de negociação de ações,
commodities e outros instrumentos financeiros, com excelência operacional e atitudes socialmente
responsáveis (BM&FBOVESPA, 2009a).
14
2.1.2.1 Índice
Um índice de ações indica a variação média de preços de um conjunto de ações, conhecida
como carteira teórica, em um determinado período. Sua variação é medida em percentual e seus
valores são expressos em pontos (ANBID, 2009).
São criados a partir de regras específicas que selecionam os papéis que vão compor sua
carteira e servem como ponto de referência (benchmark) para mensurar o desempenho de
determinado mercado, conjunto de empresas ou ações de um setor específico (ANBID, 2009).
Praticamente, todas as bolsas de valores do mundo, visando medir seu desempenho, têm
seus próprios índices de ações (BM&FBOVESPA, 2009a). Alguns dos índices mais conhecidos do
mundo seguem na Tabela 3:
Tabela 3. Índices de Bolsas no mundo
Bolsas
Bolsa de Valores de Nova York
Índices
S&P - Standard & Poor`s 100,
DJIA – Dow Jones Industrial Average e
Nyse – Composite Index
Bolsa de Hong Kong
Hang Seng Index
Bolsa Nasdaq
Nasdaq Composite Index
Bolsa de Tóquio
Nikkei Index
Bolsa de Londres
FT 100
Bolsa do comércio de Buenos Aires Merval
Bolsa de Frankfurt
DAX
Bolsa de Madri
Latibex (ações da América Latina)
Bourse de Paris
FTSEuroFirst 80
Borsa Italiana
S&P-MIB
Fonte: BM&FBOVESPA (2009a).
O principal índice que mede a nossa bolsa é o índice Bovespa, ele acompanha a evolução
média das cotações das ações negociadas na bolsa de valores de São Paulo. Ele é o valor atual, em
moeda corrente, de uma carteira teórica de ações. A carteira teórica é integrada pelas ações que, em
conjunto, representam 80% do volume transacionado a vista nos 12 meses anteriores à formação da
carteira (BM&FBOVESPA, 2009a).
15
Conforme regra da própria BM&FBOVESPA (2009a), a carteira teórica do índice Bovespa
é composta pelas ações que atenderam cumulativamente aos seguintes critérios, com relação aos
doze meses anteriores à formação da carteira:
Estar incluída em uma relação de ações cujos índices de negociabilidade somados
representam 80% do valor acumulado de todos os índices individuais;
Apresentar participação, em termos de volume, superior a 0,1% do total; e
Ter sido negociada em mais de 80% do total de pregões do período.
O índice Bovespa sofre de 4 em 4 meses uma reavaliação, onde se pode alterar tanto sua
composição quanto o peso de cada ativo na carteira, com a finalidade de que sua representatividade
se mantenha ao longo do tempo.
2.1.2.2 Cenário atual
Merece destaque este item por ter grande relevância no presente estudo, já que o campo de
atuação deste projeto está ligado as suas perspectivas futuras, então, o cenário atual em que se
encontra nossa bolsa brasileira deve ser considerado, onde sua situação atual não poderia ser
melhor, sendo as perspectivas de futuro as melhores possíveis não havendo precedentes iguais
vistos no passado histórico de nosso mercado, então as noticias que serão descritas abaixo vem para
embasar o momento em que vivemos e para ainda mais destacar a importância deste estudo na
nossa Bolsa de valores. Abaixo serão transcritas noticias extraída da Revista Exame, conceituada
revista no ramo financeiro e econômico, que foram expostas na edição de Agosto de 2009:
Nos primeiros sete meses de 2009 não houve bolsa no mundo que valorizasse mais
do que a BM&FBovespa. Em dólar, seus investidores ganharam 87% no período. A
segunda bolsa com maior valorização foi a Xangai, na pujante China, com 79% de
ganhos em dólar.
A bolsa brasileira é hoje a quarta maior do mundo em valor de mercado. E a 12ª
quando se soma o valor das ações das 432 companhias negociadas. Juntas, elas
valem hoje 1 trilhão de dólares.
16
De janeiro a agosto, os investidores estrangeiros têm um saldo positivo de quase 14
bilhões de reais na BM&FBovespa. Apenas em maio, mês que registrou o recorde
histórico de aportes internacionais, foram investidos 6 bilhões de reais.
Desde 2004, o valor total das companhias negociadas dobrou. E os recursos
levantados nas ofertas de ações feitas por elas somaram 180 bilhões de reais.
A bolsa brasileira abrigou em 2009 a segunda maior abertura de capital do mundo, a
da processadora de operação com cartões Visanet. Em julho, o banco espanhol
Santander anunciou que fará aqui uma oferta de ações de sua operadora local que
poderá chegar a 7 bilhões de reais – é a primeira vez que uma multinacional escolhe
o mercado brasileiro para levantar tamanha quantidade de recursos.
E complementando o último tópico, a revista Veja noticiou em outubro de 2009 os
resultados obtidos com a oferta pública das ações do Banco Santander: “[...] tornou-se a maior da
história da Bolsa de Valores de São Paulo (Bovespa). De acordo com informações divulgadas pela
Comissão de Valores Mobiliários (CVM), a operação movimentou 14,1 bilhões de reais, para um
total de 600 milhões de ações [...] (VEJA, 2009).
2.1.3 Análise de investimento
Este item é de extrema importância para o correto entendimento deste projeto, pois a
metodologia empregada neste projeto utiliza amplamente os conceitos e análises que estão
expressas aqui.
2.1.3.1 Análise Fundamentalista X Análise Técnica
No mercado de ações existem duas escolas de análises feitas pelos especialistas da área,
sendo elas a análise Fundamentalista e a análise Técnica.
Como os fundamentos destas metodologias serão utilizados em nosso processo de
Mineração de Dados ou KDD (Knowledge Discovery in Databases – Descoberta de Conhecimento
17
em Bases de Dados), a Fundamentalista no Pré-processamento para a seleção de ativos e a Técnica
na Mineração de Dados propriamente dita, é importantíssimo que sejam observadas as diferenças
entre as duas escolas.
A Fundamentalista foca o longo prazo e é baseada nos fatores e fundamentos econômicos,
dependendo de estatísticas, projeções, condições de oferta e demanda e fundamento das empresas
como ramos de atuação, perspectivas de mercado, demonstrativos financeiros, relatórios entre
outros (BM&FBOVESPA, 2009a).
Pinheiro (2005) define a
análise Fundamentalista como sendo “o estudo de toda a
informação disponível no mercado sobre determinada empresa, com a finalidade de obter seu
verdadeiro valor, e assim formular uma recomendação de investimento”.
E Pinheiro (2005) ainda finaliza seu conceito sobre a escola Fundamentalista dizendo que:
“Portanto, estuda os fatores que explicam o valor intrínseco de uma empresa, setor ou mercado,
colocando em segundo plano os valores de mercado, como preço e volume. Esses fatores são
chamados de valores fundamentalistas”.
Já a análise Técnica destina-se ao curto prazo (entre 4 semanas e 6 meses) e é baseada na
interpretação dos gráficos de preços dos ativos, volumes e outros indicadores, mostrando como os
preços se comportaram no passado, projetando uma série de expectativas de movimentos de preços
no futuro (BM&FBOVESPA, 2009a).
Conforme Guia da BM&FBOVESPA (2009a) o analista Técnico tem os seguintes
pensamentos:
O preço de hoje desconta eventos futuros;
Algumas vezes, os preços se movimentam numa tendência perceptível;
O ser humano tende a não mudar de comportamento; e
18
O ser humano pode se reunir e atuar como uma massa com mentalidade coletiva diversa
daquela que tem como indivíduos.
A BM&FBOVESPA (2009a) ainda definiu em seu manual alguns objetivos que a escola
técnica possui:
Conhecer e mensurar a lei de oferta e procura;
Identificar oportunidades de operações atraentes e as melhores situações de retorno em
relação ao risco;
Otimizar as entradas e saídas do mercado;
Determinar limites nas oscilações dos preços; e
Estabelecer estratégias de risco.
“Portanto, essa análise é o estudo de como os preços se movimentam, não se preocupando
como porquê de eles se movimentarem.” (PINHEIRO, 2005).
A Tabela 4 a seguir define bem as características apresentadas por cada escola, com as
principais diferenças entre elas:
19
Tabela 4. Fundamentalista X Técnica
Itens
Idade
Origem
Usuário
Pergunta
Análises
Hipóteses Básicas
Objetivos
Fundamentalista
30 anos
Acadêmica
Administradores de fundos e
investidores no longo prazo
Por quê?
Econômico-financeira
Existe um valor real ou
intrínseco para cada ação que
está diretamente correlacionado
com o desempenho da empresa
Determinar o valor real de uma
ação
Técnica
100 anos
Profissional
Especulador
Quando?
Gráfica
Os preços das ações
movimentam-se em
tendências e existe uma
dependência significativa
entre as oscilações dos preços
que se sucedem
Determinar a tendência de
evolução das cotações no
curto prazo, a fim de se
aproveitar das rápidas
oscilações para auferir ganhos
de capital (vender as ações por
um preço superior ao da
compra)
Fonte: Adaptado de Pinheiro (2005).
É muito difícil encontrar no mercado de investimentos, analistas que utilizem apenas uma
das duas técnicas de análise, mas sim, conjuntamente, já que a Fundamentalista serve para indicar
em quais ações investir e a Técnica em que momento investir (PINHEIRO, 2005).
Então, atualmente não há um consenso sobre qual das duas seria a melhor forma de análise,
mas muitos analistas dizem que a mistura das duas análises seria o melhor caminho, exatamente
como foi empregada neste projeto.
2.1.3.2 Risco
Conforme Guia da BM&FBOVESPA (2009a) risco no âmbito financeiro pode ser definido
como a probabilidade de ganho ou perda numa decisão de investimento, ou ainda, o grau de
incerteza do retorno de um investimento. E, normalmente, o risco tem relação direta com o nível de
renda do investimento, ou seja, quanto maior o risco, maior o potencial de renda do investimento.
20
A negociação de ações é considerada um investimento de alto risco. Em virtude da variação
dos preços delas, não há garantia de retorno do capital que foi investido (UOL, 2009).
Por ser um mercado de alta volatilidade5, as ações são consideradas ativos de renda variável,
ou seja, não oferecem ao investidor uma rentabilidade garantida, previamente conhecida. Assim
sendo, é considerado um investimento de risco (BM&FBOVESPA, 2009a).
Na Tabela 5 são expostos os tipos de risco que uma organização está sujeita:
Tabela 5. Tipos de Riscos
Título da Coluna 1
De mercado
De crédito
De liquidez
Legal
De fraude
De reputação ou imagem
Operacional
Título da Coluna 2
Decorre de movimentos adversos do valor dos bens relacionados no
ativo e das obrigações constantes no passivo de uma empresa
Perda econômica potencial que uma empresa pode sofrer se a
contraparte devedora não liquidar sua obrigação financeira no prazo
estipulado em contrato
Grau de dificuldade para obtenção de meios de pagamento pela
venda de um bem e pela perda de valor que ocorrer
Possibilidade de questionamento jurídico da execução dos contratos,
processos judiciais ou sentenças contrárias ou adversas àquelas
esperadas pela Instituição e que possam causar perdas ou
perturbações significativas que afetem negativamente os processos
operacionais
Possibilidade de ocorrência de evento que cause prejuízo direto ou
indireto para a organização, oriundo de ações de pessoas ou empresas
que venham subtrair recursos da contra no SITRAF de um banco
participante em favor de terceiros ou ainda de outras ações que
caracterizem ato de má-fé
Possibilidade de ocorrer publicidade negativa, verdadeira ou não, em
relação à prática da condução dos negócios da Instituição, gerando
declínio na base de clientes, litígio ou diminuição da receita
Possibilidade de perda decorrente da falta de consistência e
adequação dos sistemas de informação, processamento e operações,
falhas nos controles internos, fraudes ou qualquer tipo de evento não
previsto
Fonte: BM&FBOVESPA (2009a).
5
Volatilidade é definida como a intensidade e freqüência de variações bruscas da cotação de um ativo, índice, título ou
valor mobiliário (BM&FBOVESPA, 2009a).
21
2.1.3.3 Rentabilidade
A rentabilidade dos investidores é composta de dividendos6 ou participação nos resultados e
benefícios concedidos pela empresa emissora, além do possível ganho de capital advindo da venda
da ação no mercado secundário7 (Bolsa de Valores). O rendimento do investimento depende de
vários fatores, tais como desempenho da empresa, comportamento da economia brasileira e
internacional etc. (BM&FBOVESPA, 2009a).
E no Portal da Anbid (2009) dividendos está definido como a parte do investidor no lucro
obtido pela empresa, e descreve ainda que sempre que uma empresa tem lucros, ela reserva parte
deste resultado para distribuir a seus acionistas. Aqui no Brasil, as empresas são obrigadas a um
pagamento mínimo de dividendos de 25% do lucro.
A Lucratividade é um rendimento auferido por determinado investimento, sendo a diferença
entre o valor atual e o valor pago por um investimento. Normalmente ele é expresso sobre a forma
de porcentagem em relação ao valor dos recursos investidos inicialmente (BM&FBOVESPA,
2009a).
2.1.3.4 Blue Chips X Small Caps
Como descrito no site da BM&FBOVESPA (2009a), as ações podem ser divididas em:
De primeira linha (Blue chips): São ações de grande liquidez (grande quantidade de
negócios), e procura no mercado de ações por parte dos investidores, em geral são
empresas tradicionais, de grande porte/âmbito nacional e excelente reputação;
De segunda linha (Small caps): São ações um pouco menos líquidas, de empresas de boa
qualidade, em geral de grande e médio porte; e
6
Dividendos são uma porção dos lucros distribuídos aos acionistas em dinheiro (PINHEIRO, 2005).
O Mercado Primário compreende o lançamento de novas ações ao mercado, com aporte de recursos à companhia.
Após esse processo, as ações passam a ser negociadas no Mercado Secundário, que compreende as bolsas de valores e
os mercados de balcão (onde são negociadas ações que não estão sujeitas aos procedimentos especiais de negociação)
(BM&FBOVESPA, 2009a).
7
22
De terceira linha (Small caps): São ações com pouca liquidez, em geral de companhias
de pequeno e médio porte (porém, não necessariamente de menor qualidade), cuja
negociação caracteriza-se pela descontinuidade.
Um princípio básico de finanças diz que o retorno de um investimento é diretamente
proporcional ao risco que ele apresenta. Ou seja, quanto maior o risco, maior a
possibilidade de ganhos. De forma geral, as small caps são mais arriscadas que as blue
chips, mas quando analisamos cada ação isoladamente verificamos que nem sempre o que é
válido para o conjunto pode ser aplicado individualmente (LORENZO, 2009).
Então, decidir entre uma opção e outra é uma tarefa extremamente difícil, mas para melhor
ilustrar esta complexidade a Figura 4 apresenta como reagem as smal caps, analisado
principalmente no período agudo da crise (15 de setembro a 31 de dezembro de 2008) até o inicio
de seu afrouxamento aqui no Brasil (primeiros meses de 2009):
Figura 4. Small caps
Fonte: Economática (2009 apud LORENZO, 2009).
Logo, a Figura 4 demonstra a volatilidade que as small caps sofreram no período, onde em
um primeiro momento (agudo da crise) elas obtiveram uma queda superior ao índice que mede as
principais ações (índice Bovespa) e logo em seguida (no final da crise) obteve um desempenho bem
superior a esse mesmo índice.
23
2.2 MINERAÇÃO DE DADOS
Este é o método aplicado na base de dados para a extração de conhecimento novo, então será
detalhado todo o seu processo, incluindo sua definição, as fases que envolvem seu funcionamento,
as tarefas mais utilizadas para desempenhar seu papel e as técnicas mais importantes que são
utilizadas para que as tarefas possam cumprir seus objetivos.
Antes da definição, deve-se esclarecer que o processo de Mineração de Dados como um
todo (incluindo todas as fases) na realidade recebe outro nome, denominado KDD que significa
Descoberta de Conhecimento em bases de dados ou em inglês Knowledge Discovery in Databases,
sendo que mineração de dados é apenas uma etapa deste processo (etapa de processamento dos
dados). Popularmente o processo de KDD é conhecido como Mineração de Dados, em virtude disto,
muitos autores terminam denominando o processo como DM. Neste trabalho será utilizado o termo
Mineração de Dados tanto para definir o processo como um todo como somente a etapa de
processamento, devendo então ser analisado o contexto que ela se encontra.
Carvalho (2001) define a Mineração de Dados como a aplicação de técnicas automáticas de
exploração de grande volume de dados com a finalidade de descobrir padrões e relações que
estavam escondidos, que não seriam facilmente descobertos a olho nu pelo ser humano.
Silveira (2004 apud KLEINSCHMIDT, 2007) define como “obter informações através de
uma base de dados existente usando seus atributos para extrair informações que não são óbvias e
que precisam ser trabalhadas para serem úteis na tomada de decisão, através da utilização de
algoritmos para identificar padrões nos dados analisados”.
E Goldschmidt (2005) define como o desenvolvimento e aplicação de técnicas que permitem
obter conhecimentos novos e úteis a partir de grandes bases de dados.
Na Figura 5 conforme nos demonstra Silva (2003) a Mineração de Dados engloba em seu
processo conhecimentos de diversas áreas, possuindo técnicas de Inteligência Artificial, Banco de
Dados e Estatística.
24
Figura 5. DM multidisciplinar
Fonte: Silva (2003).
Os objetivos da Mineração de Dados segundo Fayyad (1993 apud SILVA, 2003) são a
descrição e previsão de modelos, sendo a descrição caracterizada pela descoberta de padrões
interpretáveis pelo ser humano, enquanto que a previsão é caracterizada pela utilização de variáveis
contidas dentro de bancos de dados para prever valores futuros ou desconhecidos.
Atualmente, inúmeras são as aplicações de DataMining, onde podemos citar como
exemplos: na tendência de consumo de clientes, na detecção de fraudes em arrecadações, previsão
do volume de vendas, na segmentação de mercados, no planejamento de produção e principalmente
na previsão de mercados financeiros. Contudo isso, estão sendo utilizadas com sucesso no mundo
todo, tanto em empresa nacionais como internacionais (GOLDSCHMIDT, 2005).
Podemos simplificar o processo de DM ou KDD com suas etapas operacionais como vemos
na Figura 6:
25
Figura 6. Processo de DM
Fonte: Aurélio, Vellasco e Lopes (1999 apud STAHNKE, 2008).
2.2.1 Fases
O processo é dividido em três importantes fases que serão explicadas a seguir:
2.2.1.1
Pré-processamento
Segundo Pacheco (1999, apud KLEINSCHMIDT, 2007) “A etapa de pré-processamento é
responsável por consolidar as informações relevantes para o algoritmo minerador, com o objetivo
de reduzir a complexidade do problema”.
E conforme Goldschmidt (2005) a principal função desta fase é a preparação dos dados para
serem aplicados na fase seguinte de Mineração de Dados. Compreende todos os métodos
relacionados à captação, à organização e ao tratamento dos dados, conforme relacionado abaixo:
26
Seleção de dados
Também identificada pelo nome de redução de dados ela realiza a identificação e seleção
das informações (atributos) mais relevantes, entre as existentes na base de dados original, que
devam ser utilizadas no processo (GOLDSCHMIDT, 2005).
Para Amorim (2006) “inicia com uma coleta inicial de dados, e com procedimentos e
atividades visando a familiarização com os dados, para identificar possíveis problemas de
qualidade, ou detectar subconjuntos interessantes para formar hipóteses”.
Limpeza de dados
Consiste no tratamento dos dados selecionados na etapa anterior, ou seja, para não
comprometer a qualidade dos resultados que serão obtidos no final do processo é necessário que
correções sejam efetuadas na base de dados em virtude da possibilidade de haver informações
ausentes, errôneas, inconsistentes, redundantes ou nulas. Assegurando, assim, a completude, a
veracidade e a integridade dos fatos por eles representados (GOLDSCHMIDT, 2005).
Para Amorim (2006) “consiste na preparação dos dados que visa a limpeza, transformação,
integração e formatação dos dados da etapa anterior. É a atividade pela qual os ruídos, dados
estranhos ou inconsistentes são tratados”.
Codificação dos dados
Para que os dados possam ser usados de maneira adequada pelos algoritmos de Mineração
de Dados ao qual serão submetidos, normalmente é necessário que eles sejam codificados para que
sejam aceitos e possuam a forma adequada (GOLDSCHMIDT, 2005).
Enriquecimento dos dados
Para o aprimoramento das informações que serão submetidas ao processo de DM pode ser
realizada a adição de dados novos que serão agregados aos registros já existentes, conseguindo
assim, o enriquecimento das informações fornecidas (GOLDSCHMIDT, 2005).
27
2.2.1.2
Mineração de Dados
É considerada como a etapa mais importante da metodologia, onde são definidas as tarefas e
técnicas, incluindo os algoritmos, que serão utilizados no processo, sendo realizada então a busca
pelo conhecimento que se pretende extrair da base de dados.
Para Amorim (2006) esta fase “consiste na modelagem dos dados, a qual visa a aplicação de
técnicas de modelagem sobre conjunto de dados preparado na etapa anterior [...] e seus parâmetros
são calibrados para se obter valores otimizados”. Normalmente não é selecionada apenas uma
técnica para a execução do processo, podendo haver até a junção destas técnicas se necessário, e
“algumas técnicas possuem requerimentos específicos na forma dos dados. Conseqüentemente,
voltar para a etapa de preparação de dados é freqüentemente necessário”.
E para Carvalho (2001) nesta fase é realizada a descoberta de novas relações, não
identificadas a olho nu, com a utilização de métodos de Inteligência Artificial, através de uma
análise sistemática e exaustiva sobre os registros dos bancos de dados.
Nos itens 2.2.2 e 2.2.3 serão detalhadas as principais tarefas e técnicas que são utilizadas
nesta fase.
2.2.1.3
Pós-processamento
Na análise de Silva (2003) esta fase inicialmente realiza a avaliação dos padrões realmente
interessantes, que agregam conhecimento útil, para depois realizar a apresentação do conhecimento
descoberto para o usuário final, através de técnicas de visualização e representação do
conhecimento.
Para Goldschmidt (2005) nesta fase é realizado o tratamento do conhecimento obtido na fase
anterior (DM), com a finalidade de facilitar a interpretação e a avaliação da utilidade do
conhecimento descoberto. Podendo dividir esta fase em 3 etapas:
28
Simplificação de modelo de conhecimento
Nesta etapa é realizada a remoção de detalhes e conjunto de informações sem importância
do modelo de conhecimento que foi extraído da fase de processamento (Mineração de Dados), de
forma a torná-lo menos complexo e mais legível e simplificado ao usuário final, mas sem perda de
informação relevante (GOLDSCHMIDT, 2005).
E segundo Silva (2003) a fase de pós-processamento é iniciada com a avaliação dos padrões
realmente interessantes, que representem conhecimento útil.
Transformação de modelo de conhecimento
O modelo de conhecimento que foi obtido da fase de Mineração pode sofrer mudanças em
sua estrutura com a finalidade de facilitar a análise e interpretação deste modelo. Normalmente são
aplicados métodos que consistem na conversão da forma de representação do conhecimento de um
modelo para outra forma de representação do mesmo modelo (GOLDSCHMIDT, 2005).
Organização e apresentação dos resultados
Há técnicas de visualização de informação que estimulam a percepção e a Inteligência
humana, conseqüentemente aumentando o poder de entendimento e associação de novos padrões.
Então, seguindo este pensamento atualmente se usam diversas formas para representar os modelos
de conhecimento obtidos neste processo, sendo os mais utilizados as planilhas, as tabelas, os cubos
de dados, as árvores, as regras e os gráficos em 2 ou 3 dimensões (GOLDSCHMIDT, 2005).
Mas existem alguns critérios que devem ser obedecidos ao representar os resultados
alcançados onde Amorim (2006) as defini como: “devem possibilitar uma análise criteriosa para
identificar a necessidade de retornar a qualquer um dos estágios anteriores do processo de
mineração”.
29
2.2.2
Tarefas
Segundo Kleinschmidt (2007) existem diversas tarefas de DM, onde cada uma delas extrai
um tipo diferente de conhecimento da base de dados e também estão diretamente relacionadas ao
domínio da aplicação e ao interesse do usuário.
Podemos considerar que a escolha das tarefas depende dos objetivos que se pretende atingir
com a aplicação, e não podemos esquecer também que as tarefas podem ser utilizadas isoladamente
ou combinas entre elas dependendo da finalidade que se pretende atingir.
As tarefas estão compreendidas dentro da fase de Mineração de Dados. São diversas as
tarefas que podem ser aplicadas no processo, mas descreveremos a seguir as principais tarefas, que
usualmente são mais utilizadas e também mais estudadas pelos autores:
2.2.2.1 Classificação
Segundo Goldschmidt (2005) é uma das mais populares e importantes tarefas e é definido
como: “descobrir uma função que mapeie um conjunto de registros em um conjunto de rótulos
categóricos predefinidos, denominados classes. Uma vez descoberta, tal função pode ser aplicada a
novos registros de forma a prever a classe em que tais registros se enquadram”.
Euriditionhome (2004, apud AMORIM, 2006) diz que esta tarefa pode ser usada para
compreender dados já existentes como também para prever como novos dados irão se comportar.
E Amorim (2006) alerta que é necessário para realizar a tarefa de forma eficiente que
detalhes do dado a classificar sejam desprezados e que apenas as características principais sejam
observadas.
Há diversos tipos de algoritmos que podem ser utilizados na tarefa de Classificação, com
estruturas e características diversas, mas os utilizados com mais freqüência são: Redes Neurais
Artificiais (RNA), Estatísticas, Lógica Indutiva, Árvore de Decisão, Regressão e Algoritmos
Genéticos (AG).
30
2.2.2.2 Agrupamento (ou Clusterização)
Conforme Amorim (2006) “Visa formar grupos de objetos ou elementos mais homogêneos
entre si”. E confirma que esta tarefa é bem mais complexa que a de classificação, pois lá as classes
já vêm com uma classificação previa.
Sua função é separar os registros de uma base de dados em subconjuntos ou grupos, onde os
elementos de um grupo compartilhem de características similares que os distingam de elementos em
outros grupos (GOLDSCHMIDT, 2005).
Para Silva (2003) ela é utilizada quando ainda não é conhecido nenhum grupo e sua
finalidade é produzir uma segmentação do conjunto de dados de entrada de acordo com algum
critério.
E segundo Fayyad et al. (1996, apud GOLDSCHMIDT, 2005) a diferença para o método de
classificação é a necessidade de automaticamente identificar os grupos de dados aos quais os
usuários deverá atribuir rótulos, onde na classificação os rótulos são pré-definidos.
Existem vários tipos de algoritmos que podem ser utilizados no Agrupamento, com
características e funcionalidades diferentes, mas os reconhecidos pela literatura e constantemente
usados são os seguintes: RNA, Estatística, K-Means e AG.
2.2.2.3 Associação (ou análise de afinidade)
Carvalho (2001) define da seguinte forma: “Determinar que fatos ocorram simultaneamente
com probabilidade razoável (co-ocorrência) ou que itens de uma massa de dados estão presentes
juntos com uma certa chance (correlação)”. E Goldschmidt (2005) em sua definição sobre esta
tarefa diz que: Compreende a busca por itens que ocorram constantemente de forma simultânea em
ocorrências da base de dados.
Há diversos tipos de algoritmos que podem ser utilizados na tarefa de Associação, com
estruturas e características diversas, mas os utilizados com mais freqüência são: Regras de
Associação, Teoria dos Conjuntos, Estatística e Apriori.
31
2.2.2.4 Previsão
Carvalho (2001) define resumidamente como sendo a “avaliação do valor futuro de algum
índice, baseando-se em dados do comportamento passado deste índice”, e afirma que ela é uma das
tarefas mais difíceis, e que o único modo de termos certeza se a tarefa foi bem realizada é aguardar
o acontecimento e, daí sim, verificar os resultados.
Goldschmidt (2005) diz que este método está sendo muito utilizado para resolver problemas
do mundo real, onde a eficácia de uma decisão depende diversas vezes de eventos anteriores a ela
mesma, assim, esta tarefa ajuda a reduzir os riscos gerados por incertezas e acaba auxiliando o
planejamento e a tomada de decisões.
Existem vários tipos de algoritmos que podem ser utilizados na Previsão, com características
e funcionalidades diferentes, mas os reconhecidos pela literatura e constantemente usados são os
seguintes: RNA, Regressão, Árvore de Decisão e Estatística.
2.2.2.5 Estimativa
Carvalho (2001) diz que para estimar um índice é necessário “determinar seu valor mais
provável diante de dados do passado ou de dados de outros índices semelhantes sobre os quais se
tem conhecimento”. E afirma que a arte de estimar é usar valores que se encontram em situações
similares aos valores que se quer determinar, mas jamais exatamente iguais.
Há diversos tipos de algoritmos que podem ser utilizados na Estimativa, com estruturas e
características diversas, mas os utilizados com mais freqüência são: Algoritmos de Regressão,
RNA, Estatística, AG e Simulated Annealing.
2.2.3 Técnicas
Normalmente a técnica ou técnicas a serem escolhidas dependem das tarefas a serem
realizadas, e da mesma forma que as tarefas podem ser usadas de maneira individual ou
combinadas.
32
Segundo Silveira (2003 apud KLEINSCHMIDT, 2007) “de acordo com as tarefas a serem
executadas e as classes de problemas em questão, existem diferentes técnicas de mineração e
algoritmos que possibilitam a busca por padrões escondidos nos dados”.
As técnicas estão compreendias dentro da fase de Mineração de Dados. E são diversas as
técnicas que podem ser aplicadas no processo, mas será descrito a seguir as 2 principais, sendo as
mais utilizadas na área de atuação de trabalho:
2.2.3.1 Algoritmo Genético
É definido por Goldschmidt (2005) como sendo “modelos de otimização, inspirados na
evolução natural e na genética, aplicados a problemas complexos de otimização”. E são
recomendados para problemas com grandes espaços de busca ou com muitas variáveis e restrições,
e salienta ainda que esta técnica não tem como garantir uma solução ótima, mas pode conseguir
soluções próximas ou aceitáveis.
E segundo Carvalho (2001) o Algoritmo genético surgiu através de uma forte analogia com
a Teoria da Evolução das Espécies de Darwin, onde a primeira etapa na utilização deste método é
definir um conjunto de genes que representem as características do problema em questão, formando
o cromossomo.
“Em um processo regido por seleção natural, populações competem umas com as outras,
para converterem-se em progenitores, em função de um valor chamado ajuste. Depois aplica-se uma
série de funções denominadas operadores genéticos: mutação, inversão e cruzamento (crossover)”
(DAV, 1991 apud SILVEIRA; BARONE, 1998).
2.2.3.2 Redes Neurais Artificiais
É definido por Goldschmidt (2005) como “uma técnica computacional que constrói um
modelo matemático inspirado em um sistema neural biológico simplificado, com capacidade de
aprendizado, generalização, associação e abstração”. E simplifica o processo dizendo que a técnica
tenta aprender padrões através da experiência, ou seja, são feitos testes com os dados repetidas
33
vezes, procurando por vínculos e automaticamente construindo modelos, e os corrige quando
necessário tentando diminuir seu próprio erro.
E é definido por Sousa (1998, apud AMORIM, 2006) como sistemas paralelos distribuídos,
onde tentam formar padrões localizados nos dados. Sua estrutura compreende um número de
unidades de processamento interconectadas, chamadas de neurônios, que tem a finalidade de
especificar determinadas funções matemáticas, conhecidas como funções de ativação. Estes
neurônios são distribuídos em uma ou mais camadas e interligadas por um grande número de
conexões, estas vinculados a pesos que registram o conhecimento caracterizado pelo modelo e
ponderam as entradas recebidas por cada neurônio da rede.
2.3 FERRAMENTAS DE MINERAÇÃO DE DADOS
Há atualmente disponíveis no mercado diversas ferramentas que foram desenvolvidas para
facilitar o processo de Mineração de Dados ou KDD e diminuir as dificuldades operacionais
existentes, todas elas possuem suas vantagens e desvantagens sendo uma tarefa difícil dizer qual
seria a melhor opção.
Mas, no presente projeto, será trabalhado com a ferramenta Weka (Waikato Environment for
Knowledge Analysis) por possuir todos os recursos necessários e indispensáveis a perfeita execução
deste trabalho; também por possuir uma quantidade enorme de algoritmos com funcionalidades e
características das mais diversas, dando maior opção e credibilidade nas suas escolhas; e também
por ser uma ferramenta de código aberto, que dá a opção de estudo da estrutura dos algoritmos com
possível complementação e miscigenação de suas funções.
Como exemplo, será descrito três ferramentas que são muito utilizadas no mundo todo,
citadas por diversos autores e muito bem conceituadas, destacando suas principais características. E
será finalizado com um quadro comparativo entre elas, destacando principalmente os recursos que
elas possuem e características que possam diferenciá-las.
34
2.3.1 Weka
Esta ferramenta foi desenvolvida por um curso de Ciências da Computação da Universidade
de Waikato na Nova Zelândia, foi totalmente desenvolvida na linguagem Java, sendo um produto
gratuito, de código aberto e possuindo diversos algoritmos para a execução de suas tarefas.
Possui uma interface gráfica de fácil manuseio, denominada de Explorer, e engloba
separadamente as etapas de pré-processamento, processamento e pós-processamento.
“O Weka possui implementados diversos métodos de associação, classificação e
clusterização. A inclusão ou remoção de novos métodos pode ser realizada de forma simples e
rápida, o que torna a ferramenta customizável e expansível.” (GOLDSCHMIDT, 2005).
A equipe de desenvolvimento tem lançado periodicamente correções e releases da
ferramenta, além de manter um grupo de discussões sobre o software. A maioria das funções desta
ferramenta foram originadas de teses e dissertações de grupos de pesquisas desta Universidade
(SILVA, 2006).
O Weka suporta apenas a manipulação de arquivo do tipo ARFF que é baseado em ASCII e
com a finalidade de definir atributos e seus valores. O programa permite a apresentação gráfica dos
dados em forma de histogramas, possui modelos gráficos para a montagem de redes neurais, e a
possibilidade de visualização dos resultados em árvores de decisão (GOLDSCHMIDT, 2005).
Porém ele limita o volume de dados a ser manipulado à sua capacidade de memória
principal, sendo então, a escalabilidade um ponto negativo da ferramenta (SILVA, 2006).
Na Figura 7 segue a visualização da interface de pré-processamento em um caso já
cadastrado no Weka (Weather) com 5 atributos, extraída da própria ferramenta:
35
Figura 7. Weka pré-processamento
Fonte: Universidade de Waikato (2009).
2.3.2 SAS Enterprise Miner
Produzido pela empresa internacional SAS, a ferramenta implementa todo o processo de
KDD, através de um modelo próprio definido como SEMMA – Selecionar (Sample), Explorar
(Explore), Modificar (Modify), Modelar (Model), e Avaliar (Assess) (SAS, 2009).
“É um software estatístico voltado à análise de dados [...] com destaque especial ao módulo
de Mineração de Dados. Esse módulo dispõe de diversos algoritmos de análise, além de recursos
para o planejamento de ações e encadeamento dos algoritmos.” (GOLDSCHMIDT, 2005).
36
“[...]O software fornece a habilidade original de poder comparar a eficácia de cada técnica
em relação ao total do conhecimento gerado, permitindo que estatísticos e analistas do negócio
discutam facilmente os resultados, para analisar as técnicas mais eficazes[...]” (AMORIM, 2006).
O Comparativo de técnicas descrito e ilustrado por Amorim (2006) pode ser visto na Figura
8:
Figura 8. Comparativo de técnicas SAS
Fonte: SAS (2009 apud AMORIM, 2006).
2.3.3 Intelligent Miner
Fabricado pela IBM, faz parte do pacote DB2 Data Warehouse Edition, mas não é
dependente deste sistema.
37
Sendo definido como uma poderosa ferramenta para análise de dados integrada, onde possui
as tradicionais técnicas de mineração de dados (análise de agrupamento, análise de afinidade,
classificação, estimativa e previsão), acrescentadas de sofisticados componentes de apresentação
para possibilitar uma análise visual dos resultados (IBM, 2009).
O Intelligent Miner possui uma interface de programação de aplicativos que permite o
desenvolvimento de aplicações personalizadas de Mineração de Dados, e também permite a
utilização de algoritmos de DM de forma individual ou combinada (GOLDSCHMIDT, 2005).
E no trabalho científico de Amorim (2006) ele nos mostra através da Figura 9 a riqueza dos
componentes de visualização, onde representa os resultados de uma análise de agrupamento entre
clientes, feita através da mineração da base de dados de um banco:
Figura 9. Intelligent Miner agrupamento
Fonte: IBM (2009 apud AMORIM, 2006)
38
2.3.4 Quadro comparativo
A Tabela 6 visa diferenciar as 3 ferramentas estudadas, apontando itens importantes que elas
possuem, proporcionando a escolha de alguma delas pelos recursos disponíveis e necessários para a
satisfação dos resultados pretendidos.
Então, opta-se pela ferramenta Weka em virtude dela possuir os principais recursos que as
demais possuem, não perdendo em nada no quesito de qualidade deles; e principalmente pela
grande diferença que está na variedade de algoritmos disponíveis, como nota-se através de suas
descrições dentro das tarefas explícitas na tabela comparativa (Classificação e Clusterização), onde
o Weka pela quantidade enorme que possui leva a reticência (...) no final da descrição dos
algoritmos, enquanto que as demais não.
39
Tabela 6. Quadro comparativo de ferramentas
Recursos
Acesso a fonte de dados
heterogêneos
Integração de conjunto de
dados
Facilidade para inclusão de
novos métodos e operações
Recursos para planejamento
de ações
Processamento
Paralelo/Distribuído
Visualização
de dados
Weka
Sim
Enterprise Miner
Sim
Intelligent Miner
Sim
Não
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Não
Sim
Sim
Distribuição de
Freqüências, Medidas
de Dipersão,
Histogramas
Amostragem
Gráficos (de linha,
de barra de pizza,
etc.), Histogramas
Gráficos (de pizza,
de linha, de barra),
Histogramas
Comandos SQL LDD
Limpeza de
dados
Substituição
Seleção,
Amostragem,
Aplicação de filtros,
Cálculo de valores
Substituição,
Descarte
Codificação
de dados
Discretização
automática e manual
Classificação
Árvores de Decisão,
Bayes, Redes
Neurais...
Clusterização
Simple-KMeans,
Cobweb,
FarthestFirst...
Agrupamento e
Ordenamento de
padrões
Conjunto de Regras e
Árvores de Decisão
Checagem
automática de
valores discrepantes,
Substituição
Discretização e
Discretização,
Transformação
Randomização e
automática e manual Transformação
automática e manual
RBF, Perceptron
Árvore de Decisão,
Multi Camadas,
Métodos
CART, C4.5,
Estatísticos, Redes
Regressão Linear
Neurais
Kohonen, Ward
K-means
Redução de
dados
Operações e
métodos
disponíveis
Organização
de resultados
Apresentação
de resultados
Estrutura para
Sim
armazenamento de modelos
de conhecimento e históricos
de ações
Fonte: Adaptado de Goldschmidt (2005).
40
Ordenação e Seleção Agrupamento e
de regras
Ordenamento de
padrões
Gráfico, Textos e
Gráfico (pizza,
Árvores
barra), Tabelas,
Árvores e Clusters
Sim
Sim
2.4 INTELIGÊNCIA ARTIFICIAL NO MERCADO FINANCEIRO
Cientistas da Computação consideram os fenômenos financeiros de maneira estática ou
dinâmica e aplicam técnicas de inteligência computacional para montar formas de agir no mercado
financeiro, como tentando prever o comportamento de um índice ou o preço de um ativo, ou para
montar uma carteira de investimentos, sendo esta área financeira objeto de estudos há anos por estes
cientistas (LAZO, 2000).
Podemos citar um caso de sucesso na utilização de Mineração de Dados na área financeira:
“A empresa norte-americana LBS já há algum tempo (desde 1986) investe em tecnologia por achar
que os enfoques tradicionais no gerenciamento de investimentos não fornecem resultados que
superem expressivamente o lucro médio de mercado” (CARVALHO, 2001).
E Carvalho (2001) conclui o caso de sucesso dizendo que “a LBS foi uma das mais
importantes empresas do mercado financeiro nos EUA durante 7 anos consecutivos. Sua carteira
cresceu durante este período de 25% a 100% ao ano e nunca houve uma perda maior que 7%
durante este tempo”.
Pesquisas estão sendo direcionadas aos mercados emergentes em virtude de recentemente
estes países em desenvolvimento mostrarem elevada quantidade de investimentos e de número de
negociações, onde modelos já utilizados nos países desenvolvidos são testados, e também buscando
novos modelos que possam descrever o comportamento destes mercados emergentes e assim
reduzir os riscos dos investimentos (LAZO, 2000).
Em reportagem extraída do portal da revista ISTOÉ Dinheiro escrita por Teixeira (2006) ele
destaca as falas do proprietário do primeiro modelo brasileiro comercialmente viável de Inteligência
Artificial no mercado acionário, o professor Fabio Bretas (Físico com 10 anos de experiência no
mercado financeiro): “O problema no passado era falta de informação. Hoje, é o excesso” e “Nos
Estados Unidos, você já tem robozinhos comprando e vendendo ações praticamente por conta
própria”. E dá um alerta informando que o trabalho dos analistas e gestores continua sendo
indispensável, mas a Inteligência Artificial é imbatível quando o que conta é a rapidez para detectar
movimentos em mercados complexos e identificar possibilidades de ganhos.
41
2.5 TRABALHOS SIMILARES
Nos subitens a seguir seguem relacionados os temas com suas respectivas descrições de
trabalhos científicos similares ao desenvolvido neste projeto, onde todos eles utilizam técnicas de
Inteligência Artificial para a seleção de ativos da Bolsa de Valores, e sendo finalizado com um
subitem que faz uma análise comparativa destes trabalhos.
Mas somente um deles (e único trabalho cientifico brasileiro que foi localizado) lida com o
processo de Mineração de Dados similar a este projeto, que foi o tema proposto por Fernando
Rafael Stahnke (subitem 2.4.2.4) do Centro Universitário FEEVALE, mas observou-se certa
limitação nos resultados obtidos por ele, onde o estudo concentrou-se em apenas um ativo da Bolsa
de Valores (Petrobras) e em apenas 2 algoritmos (Redes Neurais e Árvores de Decisão) para o
processamento dos dados, assim, diminuindo o conhecimento extraído da metodologia, já que não
se pode verificar o comportamento entre os diversos ativos (tanto de um mesmo setor da economia
como de setores diversos), além de outras informações que poderiam ter sido extraídas.
2.5.1 Aplicação de Redes Neurais Artificiais no processo de precificação de ação
Trabalho de Conclusão de Curso proposto por Marília Terra de Mello da Universidade
Federal de Pelotas onde o projeto está baseado no desenvolvimento de uma Rede Neural com
algoritmo de aprendizagem backpropagation com o objetivo de realizar a previsão dos preços
futuros de ações e tornar-se um indicativo para selecionar ativos que comporão as carteiras de
investimentos dos investidores.
Os resultados obtidos com o trabalho comprovam que é possível prever a tendência dos
preços das ações, conseguindo algumas vezes aproximar a estimativa de retorno do valor real. E
confirmando o conceito de que as Redes Neurais podem facilitar o trabalho dos investidores de
ações, proporcionando grandes possibilidades de obtenção de ganhos (MELLO, 2004).
2.5.2 Um novo Algoritmo Genético para a otimização de carteiras de
investimento com restrições de cardinalidade
Dissertação de Mestrado da Universidade Estadual de Campinas tendo como autor Carlos
Henrique Dias que propôs o uso de um Algoritmo Genético para resolver problemas de otimização
42
de carteiras de investimentos, de forma a oferecer aos investidores um conjunto de soluções
(composição da carteira), que sejam as melhores, para que estes possam escolher o melhor
investimento conforme sua aversão ao risco.
Os resultados computacionais alcançados indicam que a nova proposta é bastante
promissora, já que forneceu soluções melhores e mais robustas que algoritmos já elaborados
anteriormente, consumindo menos tempo (DIAS, 2008).
2.5.3 Modelo Genético-Neural de gestão de carteiras de ações
Trabalho de Formatura proposto por Luiz Paulo Rodrigues de Freitas Parreiras da Escola
Politécnica da Universidade de São Paulo que juntou duas ferramentas de Inteligência Artificial, as
Redes Neurais (RN) com os Algoritmos Genéticos (AG) com a intenção de formar carteiras de
investimentos em ações mais eficientes e realistas. Utilizou as RN para a obtenção de boa
performance preditiva e AG para obter alocação de ativos em carteiras de investimentos
gerenciadas dinamicamente (PARREIRAS, 2003).
Chegando-se a conclusão que as Redes Neurais, quando bem modeladas e treinadas, podem
realizar boas previsões de preços futuros de ações, e quando integradas num modelo integrado de
risco-retorno baseado em Algoritmo Genético, geram resultados ainda mais superiores
(PARREIRAS, 2003).
2.5.4 Uso de Data Mining no mercado financeiro
Trabalho de Conclusão de Curso feito por Fernando Rafael Stahnke do Centro Universitário
Feevale, que elaborou o projeto com o objetivo de “discutir e propor o uso de técnicas de mineração
de dados para a identificação de padrões de comportamentos hoje despercebidos pelos investidores
e, assim, determinar a tendência futura dos ativos do mercado à vista” (STAHNKE, 2008).
O autor concluiu que é possível utilizar técnicas de Data Mining no mercado á vista
brasileiro como uma ferramenta de apoio à decisão por investidores que buscam lucros em curto
prazo, mas foi verificado que os resultados alcançados foram limitados devido à falta de
43
conhecimento e experiência do autor tanto na área de investimentos quanto na área das tecnologias
computacionais que foram empregadas (STAHNKE, 2008).
2.5.5 Uma investigação estatística sobre análise técnica
Dissertação de Mestrado concluída por Giuliano Padilha Lorenzoni que buscou em seu
trabalho construir uma metodologia estatística que possibilitasse investigar a eficácia na análise
técnica, onde esta analise trata-se de uma forma de identificar e antecipar a tendência dos preços
dos ativos financeiros através do Grafismo, utilizando gráficos das cotações históricas. E no fim de
seu trabalho, ele pode confirmar que há evidências de eficácia de alguns padrões entre os mais
importantes e recorrentes utilizados na análise técnica (LORENZONI, 2006).
2.5.6 Análise comparativa
Os três primeiros trabalhos científicos descritos anteriormente comprovam o quanto o uso da
Inteligência Artificial através das Redes Neurais Artificiais e os Algoritmos Genéticos são úteis e
eficientes no ambiente das Bolsas de Valores, onde os resultados obtidos foram satisfatórios, mas
porque não ampliar as descobertas efetuadas e a potencialidade dos resultados obtidos com outras
técnicas e algoritmos.
Já o trabalho desenvolvido pelo Fernando Rafael Stahnke, apesar dele não ter conseguido os
resultados esperados pelos motivos já descritos anteriormente, abre outras possibilidades de uso da
Inteligência Artificial neste mercado, onde a Mineração de Dados aparece como uma ferramenta
mais completa e abrangente para ser aplicada ao mercado acionário, onde seus conceitos envolvem
toda uma metodologia a ser aplicada a base histórica das cotações das ações da Bolsa de Valores
dando mais credibilidade e amplitude nos métodos a serem adotados, ainda assim, não descartando
o uso das técnicas de RNA e AG dentro de uma das fases da DM.
Já o último projeto desenvolvido (Uma investigação estatística sobre análise técnica) foca
num dos objetivos deste projeto, que é obter padrões e tendências do movimento das cotações das
empresas brasileiras listadas na Bovespa, onde no trabalho dele essa expectativa é atingida através
44
de análise de gráficos e aqui será efetuado através da Inteligência Artificial (Mineração de Dados)
na tentativa de potencializar os resultados e também chegar a outras descobertas relevantes.
Então se decidiu pelo uso da Mineração de Dados neste processo de descoberta na bolsa de
valores por ter uma diversidade maior de opções de escolha de técnicas e métodos em relação às
outras que utilizam Inteligência Artificial (Algoritmo Genético e Redes Neurais Artificiais). E em
comparação as técnicas hoje adotadas para verificar tendências nos movimentos dos ativos
(Grafismo) o uso da DM também leva vantagem em virtude da analise técnica atualmente aplicada
levar em conta apenas aspectos estatísticos e a Mineração reunir em seu processo pelo menos três
áreas de estudos que compreendem a Inteligência Artificial, Banco de Dados e Estatística.
45
3 PROJETO
O projeto visa realizar descobertas quanto ao movimento dos ativos de empresas brasileiras
que são listadas na Bovespa, para isso são utilizados os recursos da inteligência artificial e toda a
metodologia de Mineração de Dados (processo este caracterizado na fundamentação teórica deste
trabalho na Seção 2.2), onde serão aplicadas em uma base histórica de cotações das referidas ações
brasileiras. E terá como conseqüência também uma possível indicação do comportamento das
cotações destes ativos onde servirão de auxilio para que investidores, corretoras e demais
interessados tomem decisões de investimento nos pregões diários da Bolsa de Valores com uma
probabilidade maior de acerto e correndo um menor risco, mas lembrando que serão apenas
indicações sem garantia de sucesso, pois a imprevisibilidade deste mercado não garante que sejam
realizadas afirmações incontestáveis.
O projeto está dividido em três etapas que são o pré-processamento, o processamento (ou
Mineração de dados) e o pós-processamento. As referidas etapas seguem a metodologia de DM, e
serão detalhadas a seguir:
3.1 PRÉ-PROCESSAMENTO
Nesta etapa os dados são selecionados e preparados para serem processados. Os dados
modelados formam um arquivo no formato adequado para ser processado pela ferramenta que será
utilizada na etapa posterior.
Os arquivos preparados possuem indicadores (atributos) de ações de um período que varia
de 6 a 14 meses, onde se formaram de 2318 até 5094 registros, sendo cada registro composto por
até 5 atributos, sendo eles: O nome da empresa, o setor de atuação da referida empresa, a cotação
diária (valor de fechamento) do ativo, a quantidade de negócios fechados em um determinado dia de
negociação do ativo específico e o atributo data que identifica o momento em que a cotação e o
numero de negócios ocorreram. A coleta destes indicadores foi referente ao período que inicio em
janeiro de 2009 até fevereiro de 2010, e estas informações foram colhidas da pagina oficial da
BM&FBOVESPA na área dados históricos das ações é possível realizar a consulta desta fonte
selecionando o dia de negociação desejado.
Para isso, são usadas quatro atividades que irão compor o processo de preparação deste
arquivo, e são detalhados nos itens a seguir:
3.1.1 Seleção
São centenas os ativos listados na Bovespa, existem papéis com características e
operacionalidades diversas e de variados setores de nossa economia. Estudar todos eles se torna
inviável tanto pela quantidade como também pela baixa representatividade de alguns. Então,
decidiu-se pela seleção de 17 papéis negociados em nossa bolsa de valores, onde o foco está em sua
grande maioria nos papéis mais observados pelos investidores, de grande liquidez e com grande
número de indicações por conceituados analistas8 que divulgam suas recomendações para
conhecimento geral e que focam na análise Fundamentalista que é caracterizada pelo longo prazo.
Mas lembrando que esta escolha não possui a finalidade principal de diretamente selecionar
ações baseado no potencial de valorização ou objetivando o maior lucro possível e sim para realizar
descobertas nos ativos mais negociados. Então, esta metodologia foi aplicada somente aos papéis
mais visados pelo mercado, de empresas de bons fundamentos e que praticamente quase sempre
estão presentes nas carteiras de investimentos dos investidores, dando assim, representatividade a
Bolsa como um todo, como exemplo podem ser citados os papéis das empresas Vale do Rio Doce,
Petrobras, Banco Bradesco, Banco do Brasil, Gerdau e Usiminas.
Como exceções foram selecionados alguns papéis de pequena representatividade, com baixa
liquidez, denominados de Small Caps (cujas características encontram-se descritas na Subseção
2.1.3 da fundamentação teórica deste trabalho), em virtude deles também merecerem serem alvos de
estudos e de se realizar possíveis descobertas já que eles são considerados por muitos analistas
apesar de voláteis muito lucrativos se bem selecionados. Foram selecionados somente os com
potencial de valorização (conforme indicações de analistas9) e em pequenas quantidades para não
trazer riscos maiores a nossa carteira pela volatilidade que eles trazem, podemos citar como
8
Lembrando que estas indicações e análises colhidas de especialistas da área são expostas gratuitamente em sites e
revistas nacionalmente conhecidas. Não esquecendo que são apenas sugestões oferecidas por estes analistas não
havendo nenhum comprometimento com as informações prestadas e nem garantia de sucesso, sendo a análise final
realizada pelo investidor ou leitor.
9
Idem a nota 8
47
exemplo os papéis das empresas como MMX Mineração e OGX Petróleo do empresário Eike
Batista.
Buscando obter a maior possível representatividade de setores da economia representados
pelos ativos das empresas selecionados, foi concentrada a escolha das ações por setores de atuação.
E não foi selecionado apenas um de cada setor e sim um conjunto, com a finalidade de não apenas
estudar os movimentos destes ativos isoladamente, mas também comparando um setor com outro, e
entre papéis de um mesmo ramo. Podendo então, dividir a escolha de ativos pelas seguintes setores
de atuação: Siderúrgico, commodities, varejo e consumo, financeiro e construção.
Na Tabela 7 seguem detalhadas todas as empresas selecionadas divididas por ramo de
atuação, e também o código em que elas são negociadas na Bovespa.
Tabela 7. Lista de ativos selecionados
Setor
Commodities
Siderúrgico
Financeiro
Varejo e Consumo
Construção
Ativo
Vale do Rio Doce
Petrobras
Fibria (Votorantim)
MMX Mineração
OGX Petróleo
Usiminas
Gerdau
Siderúrgica Nacional
Banco do Brasil
Banco Bradesco
Itaú Unibanco Holding
Brasil Foods (Perdigão/Sadia)
Lojas Renner
Lojas Americanas
Gafisa
Cyrela Brazil Realty
Rossi Residencial
Código na Bovespa
Vale4
Petr4
Fibr3
Mmxm3
Ogxp3
Usim5
Ggbr4
Csna3
Bbas3
Bbdc4
Itub4
Brfs3
Lren3
Lame4
Gfsa3
Cyre3
Rsid3
3.1.2 Limpeza
Os dados selecionados na fase anterior precisam ser tratados, onde correções precisam ser
efetuadas na base de dados para que sejam transmitidas à etapa de processamento somente as
informações úteis e necessárias aos objetivos pretendidos.
48
Então, na Figura 10 é exibido um pedaço da base de dados de um dia de negociação dos
ativos na bolsa de valores, sendo esta a nossa base original que deverá ser tratada.
Figura 10. Base de dados Original
Fonte: Adaptado de BM&FBOVESPA (2009b).
Essa base de dados foi obtida através do site da BM&FBOVESPA entrando nos dados
históricos das ações é possível realizar a consulta desta fonte selecionando o dia de negociação
desejado.
Então, dessa base foram extraídas somente as cotações e o numero de negócios realizados
dos ativos selecionados na fase anterior, representado pelo campo “osc.” (oscilação em %) e “negs.
realiz.”, conforme circulado na figura, significando a variação que o papel sofreu em sua cotação
49
comparado com o fechamento do dia anterior e a quantidade de negócios fechados no dia em
referência, sendo as demais informações desprezadas.
Concluindo assim a limpeza dos dados e dando origem a uma nova base de dados, mas
agora criada em uma planilha do programa Excel, conforme demonstrado através de um pedaço
desta planilha exibida na Figura 11:
Figura 11. Base de dados Excel
Esta planilha é dividida em várias tabelas menores, onde cada uma representa as cotações
diárias de 1 semana dos 17 papéis escolhidos e lembrando que os valores que indicam os números
de negócios encontram-se em uma planilha adicional.
3.1.3 Enriquecimento
Para o aprimoramento das informações que serão submetidas ao processo de DM pode ser
realizada a adição de dados novos que serão agregados aos registros já existentes.
Assim, foi decidido incluir na nova tabela criada dois elementos que podem agregar algum
conhecimento novo nas descobertas, em virtude do primeiro ser um medidor de nosso mercado de
ações e o segundo do mercado externo, onde nossas ações são fortemente influenciadas. Eles são o
50
índice da nossa Bolsa de Valores de São Paulo, conhecido como índice Bovespa e o índice da Bolsa
de Valores de Nova York, conhecido como índice Dow Jones. As definições desses índices seguem
detalhados na Subseção 2.1.2.1 da fundamentação teórica deste projeto.
Na Figura 12 pode ser confirmada a presença deste índice em nossa tabela Excel:
Figura 12. Base de dados enriquecida
3.1.4 Codificação
Para que os dados possam ser usados de maneira adequada pela ferramenta que será
utilizada na etapa de Mineração de Dados ao qual serão submetidos, é necessário que eles sejam
codificados para que sejam aceitos e possuam a forma adequada.
Neste projeto a ferramenta escolhida para processar os dados exige que os dados sejam
codificados em um formato de texto que recebe a extensão “arff” que é baseada em ASCII, e
também estabelecem o uso de alguns atributos, exclusivos desta ferramenta.
Dessa forma, foi feita uma conversão na tabela do Excel, transformado-a em um arquivo do
tipo arff, cujas peculiaridades podem ser vistas na Figura 13:
51
Figura 13. Base de dados arff
Pode ser observado que este novo arquivo possui algumas propriedades particulares, como:
O nome do arquivo vem identificado após o uso da palavra “relation”. Em seguida, cada atributo
da tabela Excel vem identificado após o uso da expressão “attribute”, relacionando as empresas
selecionadas, o setor de atuação, a data do registro, a cotação dos ativos e o numero de negócios,
onde esses atributos são obrigatoriamente utilizados em cada registro do nosso arquivo através das
variáveis identificadas entre as chaves {}. Para finalizar os dados foram expostos logo abaixo da
expressão “data”, onde cada linha identifica um registro da base de dados, ou seja, cada registro
identifica um dia de pregão de um determinado ativo com suas variáveis. Esclarecendo ainda, que
foram excluídos deste arquivo os dias que não houve pregões na bolsa de valores devido a serem
finais de semana ou feriados.
3.2 PROCESSAMENTO
Esta é a etapa em que o arquivo, que foi criado na fase anterior (pré-processamento) com os
dados colhidos da base de dados, é processado. Considerada uma fase importantíssima da
metodologia de DM, pois é dela que serão extraídos os conhecimentos buscados com a criação
52
deste projeto. Em virtude disso, tem extrema relevância a forma e as técnicas que serão utilizadas
para o processamento dos dados.
Para esta etapa de processamento ou Mineração de Dados foi utilizado o auxilio de uma
ferramenta denominada “Weka”, cujas características encontram-se na Subseção 2.3.1 da
fundamentação teórica deste trabalho, e as motivações que levaram a escolha desta ferramenta
específica também são abordadas nesta Subseção. Foram utilizadas as técnicas e algoritmos que
estavam dispostas na ferramenta, e que a seguir seguem detalhadas, juntamente com os resultados
alcançados.
3.2.1 Inicialização da Ferramenta
A Figura 14 mostra como a ferramenta se comporta após a inserção do arquivo arff que foi
criado anteriormente no tópico codificação. São visualizadas na aba de pré-processamento as
características dos dados contidos no arquivo: No círculo vermelho denominado A é expresso os
dados gerais da base, com o nome do arquivo, a quantidade de registros da base e a quantidade de
atributos; no círculo B é possível realizar a seleção dos atributos para serem utilizados no processo
de DM; no C são expressos dados estatísticos de um dos atributos selecionados; e no círculo D são
visualizadas em forma de gráfico as estatísticas desse atributo selecionado.
53
Figura 14. Arquivo de entrada no Weka
Fonte: Universidade de Waikato (2009).
3.2.2 Tarefa utilizada
Como poderemos verificar no item Resultados obtidos (seção 3.2.4), foram testadas todas as
tarefas disponíveis na ferramenta, mas foi decidido pela tarefa de Classificação em virtude de ser a
que melhor se adaptou com o arquivo de entrada e que apresentou resultados significativos e
consistentes com melhor grau de confiabilidades em seus indicadores. E também por ela possuir um
caráter preditivo, ou seja, suas funções acarretam inferências nos dados com o intuito de fornecer
previsões ou tendências, que são características essências aos objetivos deste projeto.
Neste trabalho esta tarefa efetuou classificações escolhendo o atributo empresa como
elemento classificador, ou seja, efetuou o agrupamento dos resultados em torno do elemento
“empresa”.
Seus algoritmos possuem como característica marcante o aprendizado supervisionado, pois é
fornecida uma classe à qual cada amostra no treinamento pertence e dando ênfase na precisão da
54
regra. E possuindo o objetivo principal de determinar o valor de um atributo através dos valores de
um subconjunto dos demais atributos da base de dados (SILVA, 2006).
Mais informações sobre a tarefa de classificação podem ser obtidas na Subseção 2.2.2 da
parte teórica deste trabalho.
A interface desta tarefa na ferramenta Weka pode ser vista na Figura 15, cujas características
seguem detalhadas a seguir: no círculo A pode ser escolhida a técnica de classificação que se deseja
utilizar juntamente com os parâmetros do algoritmo; no B efetua a seleção da opção de teste e
validação do modelo; no C seleciona-se o atributo classe para efetuar a classificação; e no círculo D
é o local onde serão exibidos os resultados da Mineração com o algoritmo selecionado, ou seja, o
modelo gerado com seus respectivos dados estatísticos.
Figura 15. Interface da tarefa de Classificação
Fonte: Universidade de Waikato (2009).
55
3.2.3 Técnicas utilizadas
Como poderemos verificar no item Resultados obtidos (seção 3.2.4), foram efetuados testes
com os diversos tipos de algoritmos disponíveis na ferramenta, mas os que trouxeram os melhores
resultados foram os que pertencem às categorias de Árvore de Decisão e Regras de Classificação,
trazendo informações relevantes, coerentes e diferenciadas na sua execução com resultados mais
facilmente interpretáveis.
A Árvore de Decisão é utilizada para se obter uma estratégia para alcançar determinados
objetivos, onde forma-se um gráfico em forma de árvore onde possui as decisões a serem tomadas e
suas possíveis conseqüências, ou seja, forma-se um mapeamento de observações sobre um item
para conclusões sobre seu valor-alvo (SANTANA; RODRIGUES, 2005).
O funcionamento de uma árvore de decisão inicia-se com a inclusão de um conjunto de
dados ao nó raiz da árvore, que são submetidos a um cálculo de entropia e conseqüentemente essas
tuplas10 são subdivididas e ramificando-se aos nós filhos, então, em cada nível da árvore é
necessário definir regras heurísticas para separar os dados apresentados a este nó em subconjuntos
homogêneos (PUC, 2004 apud STAHNKE, 2008). No final dos vários ramos existem as folhas11
que são os resultados atingidos, estando associados a um rótulo ou valor pela elevada
homogeneidade dos elementos deste grupo (CARVALHO, 2001). Este procedimento caracteriza a
recursividade em que as árvores de decisão são submetidas.
As Regras de Classificação tem seu funcionamento semelhante ao das Árvores, mas se
manifestam através de um conjunto de regras, ou seja, o conhecimento descoberto é representado na
forma de regras SE-ENTÃO. Onde elas interpretam os atributos preditivos da tupla quanto à
satisfação da condição antecedente da regra: “SE os atributos preditivos satisfazem as condições do
antecedente da regra, ENTÃO a tupla tem a classe indicada no conseqüente da regra.” (STAHNKE,
2008).
10
11
Conjunto de dados apresentados para a raiz da árvore.
Nós que não possuem nós descendentes, terminal.
56
Na Figura 16 tem-se um exemplo de árvore de decisão e na Figura 17 um exemplo de regras
de classificação, ambos extraídos da ferramenta weka:
Figura 16. Exemplo de árvore de decisão
Figura 17. Exemplo de regras de classificação
57
Dentro da técnica de Árvore de Decisão (trees) há diversos algoritmos disponíveis para
realizar esta função, onde através de diversos testes e simulações com estes algoritmos, realizando
alternâncias tanto nos atributos classificadores quanto nas configurações dos algoritmos e também
dos arquivos de entrada chega-se a um algoritmo que apresentou resultado mais satisfatório, sendo
ele o J48. A lista dos algoritmos disponíveis nesta técnica segue destacado na Figura 18:
Figura 18. Algoritmos de árvore de decisão no Weka
Fonte: Universidade de Waikato (2009).
Dentro da técnica de Regras de Classificação (rules) há diversos algoritmos disponíveis para
realizar esta função, onde através de diversos testes e simulações com estes algoritmos, realizando
alternâncias tanto nos atributos classificadores quanto nas configurações dos algoritmos e também
nos arquivos de entrada chega-se a dois algoritmos que apresentaram resultados mais satisfatórios,
sendo eles o JRip (Incremental Reduced Erro Prunning – Poda de Redução Incremental de Erro) e o
58
PART (Partial decision trees – Parcial de Árvores de Decisão). A lista dos algoritmos disponíveis
nesta técnica segue destacado na Figura 19:
Figura 19. Algoritmos de regras de classificação no Weka
Fonte: Universidade de Waikato (2009).
3.2.4 Resultados obtidos
Primeiramente devem-se dividir os resultados obtidos em duas etapas, onde na primeira
parte os dados coletados foram em menor escala (tanto no numero de registros quanto no de
atributos), para posteriormente na segunda etapa eles serem complementados com um maior
número de registros e informações tornando-os mais completos e com um valor agregado maior,
mas cabe-se esclarecer que será mostrado o modelo gerado somente dos algoritmos com os arquivos
de entrada que tiveram seus resultados validados.
59
3.2.4.1 Primeiros testes (TCC1)
Inicialmente os testes foram efetuados com arquivos de no máximo 2970 registros coletados
em um período de 6 a 8 meses que compreende o mês de janeiro de 2009 até agosto do mesmo ano,
nestes experimentos utilizou-se 4 atributos em cada registro sendo eles o nome que identifica a
empresa, o setor de atuação desta empresa, a data do registro ou da cotação de sua ação em bolsa, e
a cotação diária do ativo na respectiva data.
Após vários testes decidiu-se somente pelo uso de arquivos com 8 meses, em virtude do de 6
meses apresentarem resultados poucos confiáveis em razão de sua pequena quantidade de registros
coletados, onde pode ser observado através do modelo gerado pelos algoritmos.
No atributo data foram feitos arquivos declarando ele em dois formatos, um deles se separou
dia, mês e ano em atributos separados e com valor numérico, e no outro modo ele foi declarado em
um só atributo em formato próprio de data, onde teve melhor aceitação com resultados mais
consistentes e legíveis a segunda opção, e em virtude disto nos testes finais só foi utilizado esta
melhor forma de declaração.
No atributo cotação nestes primeiros testes foi utilizado ele no formato numérico, mas
observou-se que diversos algoritmos, principalmente os das tarefas de Agrupamento (Cluster) e
Associação (Associate), apresentaram suas opções de uso desativadas, não podendo ser utilizados.
Assim sendo, os que obtiveram melhores resultados foram os algoritmos da tarefa de Classificação,
mas seus resultados ainda não apresentavam indicadores estatísticos (serão vistos na validação do
modelo) confiáveis a ponto de serem validados, onde seu índice Kappa variou de 0.16 (16%) a 0.33
(33%), valor considerado muito baixo para ser aprovado.
3.2.4.2 Testes finais (TCC2)
Para o aperfeiçoamento dos resultados pretendidos, foram feitas diversas alterações no
arquivo de entrada, onde foram efetuados diversos testes para se chegar ao melhor conjunto de
dados para formar este referido arquivo que alimentará a execução dos algoritmos.
Para tal finalidade foram feitas as seguintes alterações: inclusão de um período maior de
coleta dos dados de entrada que variaram de 8 meses a 14 meses e compreenderam o período de
60
janeiro de 2009 a fevereiro de 2010; inclusão de um novo atributo, o índice Dow Jones (Índice da
Bolsa de Valores de Nova York) que é uma importante referência para o mercado brasileiro,
altamente influenciado por ele; inclusão de mais um atributo identificado como número de negócios
que fornece a quantidade de negócios realizados em um determinado dia por uma determinada ação;
e também a modificação do atributo cotação com a alteração de seu tipo que passou de numérico
para valores nominais, dividindo o valor da cotação em faixas de valores pré-definidas.
Para os períodos estudados nesta etapa verificou melhores resultados no período de 12
meses onde conseguiu resultados similares ao de 8 meses (testes anteriores), sendo que dependendo
do algoritmo utilizado havia a alternância de melhores resultados entre os dois. Já no período de 14
meses houve uma queda significativa nos resultados alcançados, havendo distorções nas regras e
baixa produtividade nos indicadores estatísticos. Assim, nosso arquivo final compreenderá tanto o
período de 8 meses quanto o de 12 meses (dependendo do algoritmo que estará sendo utilizado), e
será formado por 4.428 e 5.094 registros respectivamente.
A inclusão do índice Dow Jones não trouxe alteração significativa nos resultados
alcançados, sendo que as regras formadas em quase sua totalidade não incluíam este índice,
tornando-se dispensável seu uso. Portanto, houve a exclusão deste atributo na base de dados final.
Quanto à inclusão do atributo numero de negócios houve uma resposta extremamente
positiva nos resultados obtidos no modelo gerado, onde conseguiu elevar bastante os índices de
acertos das classificações efetuadas e também agregou um valor muito importante nas regras
geradas, sendo um indicador muito relevante para a tomada de decisão. Sendo assim, o arquivo final
compreenderá este atributo indispensavelmente.
Na modificação do tipo do atributo cotação de numérico para nominal tinha-se a ideia de
alterá-lo para que algoritmos antes inacessíveis por não trabalhar com valores numéricos agora
poderiam ser disponibilizados, e realmente uma grande quantidade de algoritmos tornaram-se
ativos, principalmente aqueles compreendidos dentro das tarefas de Agrupamento e Associação,
mas os resultados obtidos com esses algoritmos após diversos testes foram insatisfatórios, onde os
modelos gerados após a execução deles não trouxeram nenhuma informação significativa para o
objetivo do trabalho, chegando-se a conclusão que os melhores algoritmos para o objetivo traçado
61
seriam mesmo os compreendidos dentro da tarefa de Classificação, principalmente os do tipo árvore
de decisão e regras de classificação que foram os que melhores se comportaram. Portanto, na base
de dados finais o atributo cotação retornou ao seu formato original, ou seja, do tipo numérico.
Então, após escolhido o melhor arquivo de entrada para a realização da tarefa pretendida,
com todas as modificações efetuadas na base de dados para potencializar os resultados, chegou-se a
execução dos três melhores algoritmos que geraram os modelos com as melhores regras e
indicadores (que serviram para sua validação, onde será visto no item validação do modelo) e
também com um aumento substancial da quantidade de resultados obtidos (regras geradas),
conforme poderemos verificar a seguir:
3.2.4.2.1 Algoritmo J48 (tree)
Este é o primeiro algoritmo selecionado sendo do tipo árvore, ele é considerado o mais
popular dos algoritmos disponíveis na ferramenta. Caracteriza-se por utilizar a técnica do guloso12
descendente, ou seja, recursivamente particiona o espaço em segmentos o mais homogêneo possível
em relação à classe objetivo.
Foi utilizado como arquivo de entrada para fornecimento dos dados o arquivo que se chegou
ao final dos testes realizados, com um período de registros de 8 meses, e nas configurações do
algoritmo foi selecionado o atributo empresa como o elemento classificador, os resultados obtidos
foram bastante satisfatórios onde chega-se a 61 resultados, ou seja, conclusões localizadas nas
folhas da árvore.
Então, na Figura 20 pode ser observada uma parte do modelo gerado com a execução do
algoritmo J48. Onde pode ser analisado que cada linha dela significa um ramo da árvore e cada
coluna (ou afastamento) é transportada a um nível da árvore, ou ainda, as linhas que apresentam o
caractere “|” são filhos dos anteriores. Os 2 valores que aparecem entre parênteses ao lado de cada
atributo empresa representam a quantidade de vezes que a regra obtida foi classificada corretamente
12
Guloso porque em cada passo ele tenta chegar o mais perto possível do objetivo (sem olhar mais adiante).
62
(valor do lado esquerdo) e também a quantidade de vezes que foi classificada incorretamente (valor
do lado direito).
Lembrando que os conhecimentos obtidos com esses resultados e também com os resultados
dos demais algoritmos serão abordados na próxima seção do trabalho (Pós-Processamento).
Figura 20. Execução do algoritmo J48
Na Figura 21 tem-se um pedaço da parte gráfica da árvore formada com a execução do
algoritmo J48, sendo que a árvore completa formou 117 elementos (tamanho total da árvore) e 61
folhas. Nesta figura pode ser observado que os atributos ficaram nos nodos da árvore, sendo as
63
folhas, localizados na parte inferior, que detém o atributo escolhido como classificador (empresa),
onde o valor entre parênteses significa a quantidade de classificações efetuada corretamente
conforme explicado anteriormente.
Figura 21. Árvore do algoritmo J48
Na Figura 22 observam-se as estatísticas relacionadas aos resultados obtidos com a
execução do algoritmo J48, onde servem de apoio a análise e validação do modelo gerado, estes
indicadores podem ser vistos através dos índices de correção e incorreção de instâncias mineradas,
erro médio absoluto, erro relativo médio, dentre outros.
Na Figura 22 estes indicadores estão divididos em 2 partes, sendo a primeira parte destinada
mais a medição de erros de forma geral, ou seja, de todo o modelo gerado, enquanto que na parte
64
inferior (em forma de matriz) eles estão divididos por classes, sendo o atributo classificador a
variável utilizada. Onde a análise desses indicadores (e também dos demais algoritmos que serão
abordados a seguir) será feita na seção seguinte deste projeto (Pós-Processamento).
Figura 22. Estatísticas do algoritmo J48
Na Figura 23 tem-se a matriz de confusão, que é mais um meio de ser analisada a
confiabilidade do modelo gerado, onde podem ser medidas as classes geradas de forma
individualizada, ou seja, cada linha da matriz representa uma classe gerada e as colunas representam
como elas foram classificadas no modelo obtido. Portanto, as classes que foram o maior número de
vezes corretamente classificadas são consideradas como ótimo resultado. Esses indicadores também
serão analisados na fase de Pós-Processamento juntamente com os indicadores dos demais
algoritmos estudados.
65
Figura 23. Matriz de confusão do algoritmo J48
3.2.4.2.2 Algoritmo JRip (rules)
Este é um dos algoritmos selecionados do tipo regras de classificação, ele caracteriza-se pela
redução do erro através da técnica dividir-para-conquistar13, ou seja, o algoritmo possui um
conjunto de regras que são testadas uma por uma, e depois que uma regra é localizada, todos os
exemplos que são compreendidas por ela são excluídos, sendo o processo repetido até quando não
existam mais exemplos corretamente classificados.
Como arquivo de entrada foi utilizada à base de dados final alcançada no encerramento dos
testes com um período de coleta de dados de 12 meses e nas configurações do algoritmo foi
selecionado o atributo empresa como o elemento classificador, os resultados obtidos foram bastante
satisfatórios. Com a execução do algoritmo chega-se a um modelo com 45 regras, onde puderam ser
observadas algumas regras formadas através da Figura 24, onde o que está após o caractere “=>”
significa o resultado e o que vem antes, as condições necessárias para se chegar lá.
13
Um problema complexo é decomposto em sub-problemas mais simples para facilitar o processo para atingir os
objetivos.
66
Figura 24. Execução do algoritmo JRip
Como pode ser visto na Figura 25 as estatísticas do modelo gerado com a execução do
algoritmo JRip segue o mesmo formato dos algoritmos do tipo árvore (estudados anteriormente).
67
Figura 25. Estatísticas do algoritmo JRip
Como pode ser visto na Figura 26 a matriz de confusão do modelo gerado com a execução
do algoritmo JRip segue o mesmo formato dos algoritmos do tipo árvore (estudados anteriormente).
68
Figura 26. Matriz de confusão do algoritmo JRip
3.2.4.2.4 Algoritmo PART (rules)
Este é o último algoritmo selecionado, segundo do tipo regras de classificação, que se
caracteriza por construir regras a partir de árvores de decisão parciais criadas pelo algoritmo J48,
onde gera uma árvore parcial em cada iteração e converte a melhor folha em regra.
Foi utilizado o arquivo final como entrada com um período de 12 meses de registros e nas
configurações do algoritmo foi selecionado o atributo empresa como o elemento classificador e os
resultados obtidos foram bastante satisfatórios. Com a execução do algoritmo chega-se a um
modelo com 46 regras, observando algumas regras formadas através da Figura 27, onde o que está
após o caractere “:” significa o resultado e o que vem antes, as condições necessárias para se chegar
lá.
69
Figura 27. Execução do algoritmo PART
Como pode ser visto na Figura 28 as estatísticas do modelo gerado com a execução do
algoritmo PART segue o mesmo formato dos algoritmos do tipo árvore (estudados anteriormente).
70
Figura 28. Estatísticas do algoritmo PART
Como pode ser visto na Figura 29 a matriz de confusão do modelo gerado com a execução
do algoritmo PART segue o mesmo formato dos algoritmos do tipo árvore (estudados
anteriormente).
71
Figura 29. Matriz de confusão do algoritmo PART
3.3 PÓS-PROCESSAMENTO
Nesta etapa os resultados alcançados com o processamento dos dados da fase anterior serão
analisados, selecionados, validados e formatados para que seja exibido ao usuário final apenas o
conhecimento relevante que foi obtido com a metodologia aplicada. Para isso, serão utilizadas as 3
atividades descritas a seguir:
3.3.1 Validação e simplificação do modelo
Para fins de testes o arquivo que serve de base de dados é dividido em duas partes, uma que
é utilizada para treinamento do algoritmo e fornecerá as regras do modelo de conhecimento; e a
outra parte será reservada para a realização de testes que serão utilizados para medir o desempenho
das regras formadas e sua persistência, gerando os indicadores estatísticos do modelo de
conhecimento, que neste trabalho servirá também para efetivar a validação e simplificação das
regras obtidas.
O arquivo de dados que foi utilizado pelos algoritmos experimentados foi submetido a todas
as opções de testes que a ferramenta de Mineração disponibiliza, onde podemos observar sua
relação na Figura 15 no destaque B da interface da tarefa de classificação. Os resultados obtidos em
72
seus modelos foram muito similares entre eles não havendo reduções drásticas de um para outro. A
seguir seguem detalhes destes modos de testes experimentados.
O primeiro modo de teste é o Training test que se caracteriza por fazer a predição (regras) e
testar com o próprio conjunto de treinamento submetido ao classificador. Depois vem o Supplied
test set que faz as regras e testa em outro conjunto de teste inserido pelo botão set pelo usuário,
onde neste trabalho os testes foram conduzidos em grande parte por um arquivo de treinamento com
8 meses de registros e um arquivo teste com 4 meses. Logo vem o modo Cross-Validation que é
avaliado por validação cruzada, o conjunto de teste é divido em partes iguais e a predição é aplicada
em cada um separadamente, neste projeto foi utilizado o fator 10 (quantidade de partes). E o último
é o Percentage Split que faz a predição baseada na porcentagem dos dados que o usuário determina
na própria ferramenta, neste estudo foi utilizada a porcentagem de 66%.
Agora, será trabalhado o modelo de conhecimento gerado pelos algoritmos, onde será
efetuada sua validação e simultaneamente a exclusão de detalhes e de conjunto de informações que
são irrelevantes e de baixa confiança, de forma a torná-lo mais enxuto, legível e com informações
que agreguem conhecimento ao usuário e legitimidade nos resultados.
Para fins de validação do desempenho dos algoritmos de classificação serão utilizadas as
métricas extraídas do próprio modelo gerado que nos representarão a validade das descobertas
realizadas e sua credibilidade. Segundo Silva (2007) “vários autores utilizam técnicas estatísticas
para avaliar a capacidade de representação do conhecimento adquirido sob a forma de regras”.
Será adotado o modelo proposto por Romão (2002 apud SILVA, 2007), onde ele observa
que há varias formas de avaliar o processo de descoberta de conhecimento, mas destaca 3 em
particular: a exatidão dos resultados, a eficiência deles e a compreensão do conhecimento extraído.
Para a exatidão dos dados será observado medidas de quantidades de acertos tanto no
modelo como um todo, quanto nas regras e classificações formadas individualmente. “A maior
parte da Literatura utiliza taxa de acerto como principal meio de avaliação das técnicas de KDD”
(FREITAS, 1997 apud SILVA, 2007).
73
Para sua eficiência teremos como referencia o elemento chamado “Kappa Statistic” que é
um índice que compara o valor encontrado nas observações com aquele que se pode esperar do
acaso. É o valor calculado dos resultados encontrados nas observações e relatado como um decimal
(0 a 1).Quanto menor o valor de Kappa menor a confiança da observação, o valor 1 indica a
correlação perfeita, difícil de ser encontrada. E segundo Silva (2007) para ser boa uma observação,
com 95% confiável, o valor de Kappa deve estar no intervalo (0.279 – 0.805). E também há a
interpretação feita por Landis e Koch (1977 apud Mori, 2008) que sugere que os valores acima de
0.75 representam excelente concordância, valores abaixo de 0.40 uma baixa concordância e os
valores situados entre 0.40 e 0.75 representam concordâncias de suficiente a boa (mediana).
E, finalmente, a compreensão dos resultados, ou seja, serão aproveitadas somente as regras
que tragam informações significantes e interpretáveis. “Facilidade de compreensão nos resultados
da classificação (ex. nas regras) é outra forma de avaliação do processo de descoberta que favorece
a credibilidade no sistema por parte do usuário” (SILVA, 2007).
Então, chegou-se a 3 algoritmos que obtiveram aprovação em seus modelos gerados (onde já
foram descritos na seção resultados obtidos), sendo a seguir detalhados e simplificados, de maneira
que somente serão selecionadas as regras e árvores formadas que sejam validadas, deixando
permanecer somente os resultados persistentes e satisfatórios aos objetivos do projeto.
3.3.1.1 Algoritmo J48 (tree)
Neste algoritmo notou-se através das estatísticas gerais do modelo (Figura 22) que o
conjunto de regras que se formaram trouxe resultados satisfatórios, pois seu índice kappa
apresentou valor de 0.60 sendo considerado um valor acima da media pela literatura. E apresentou
um percentual de instâncias classificadas corretamente de 61,85% contra 38,15% classificadas
erroneamente, dados estes não tão favoráveis mais que foram compensados se analisarmos
individualmente cada classe (empresa), conforme demonstrado a seguir.
Mas o modelo se destacou positivamente com destacado grau de validação quando
analisamos os resultados individualmente, tanto pelas classes classificadoras quanto pelas regras
formadas. Se observarmos os índices relativos a cada classe no item “Detailed Accuracy by Class” e
também na “Confusion Matrix” (Figuras 22 e 23) notamos que as classes formadas pelas empresas
74
OGXP, Gerdau, Banco do Brasil e Rossi apresentaram índices relevantes no indicador F-Measure (é
um importante índice que é usado para medir a performance pois combina valores de cobertura e
precisão de uma regra numa única fórmula) com valores respectivos de 0.976, 0.754, 0.789 e 0.725
(que variam de 0 a 1), e valores altos de classificações corretas obtendo taxas de acerto respectivas
de 98%, 89%, 85% e 68%.
E agora, analisando a ultima fase da validação que engloba a compreensão dos resultados
tem-se que direcionar a atenção para as 61 classificações efetuadas (que podem ser traduzidas
através de regras). Mas analisaremos apenas as regras geradas que cheguem as 4 empresas
validadas até o momento, pois as demais foram descartadas por não apresentarem índices tão
satisfatórios. Então, após a interpretação do conhecimento transmitido pelas regras e observação de
seu grau de significância e levando em conta também o numero de casos cobertos e classificados
corretamente por ela (valor entre parênteses após o nome da empresa, onde o primeiro significa os
corretos e o segundo os incorretos), decidiu-se em excluir as descobertas que envolvam as classes
OGXP e Gerdau, permanecendo as empresas Banco do Brasil e Rossi que apresentaram relevância
nas regras que foram selecionadas, conforme se pode observar em destaque (sublinhado) nas
Figuras 30 e 31 respectivamente.
Figura 30. Regras do J48 com resultado Banco do Brasil
75
Figura 31. Regras do J48 com resultado Rossi
3.3.1.2 Algoritmo JRip (rules)
O modelo de conhecimento gerado por este algoritmo apresentou bons resultados em nível
de validação por indicadores (Figura 25), onde em seu índice kappa apresentou valor de 0.55 sendo
considerado um valor bom pela literatura Apresentou um percentual de instâncias classificadas
corretamente de 57,59% contra 42,41% classificadas erroneamente, dados estes não tão satisfatórios
mais que foram compensados se analisarmos isoladamente cada empresa conforme citado a seguir.
E como no algoritmo J48, apresentou índices relevantes em algumas classes classificadoras
(empresas) e também nas regras individualmente formadas, também visto nas Figuras 25 e 26. Mas
na etapa de validação por importância do conhecimento gerado seu desempenho não foi tão
satisfatório, pois, mesmo ele apresentando regras persistentes e confiáveis deixou a desejar na
qualidade das regras formadas, onde analisando uma por uma das 45 geradas não houve alguma que
se destaque por sua significância ou que trouxesse algum valor agregado diferenciado. Portanto,
decidiu-se por não selecionar nenhuma regra deste algoritmo, mas não significando que ele tenha
sido ineficiente na sua função de geração de regras.
76
3.3.1.3 Algoritmo PART (rules)
Este algoritmo apresentou bons resultados em seus indicadores como pode ser verificado na
Figura 28, onde em seu índice kappa apresentou valor de 0.57 sendo considerado um valor bom
pela literatura. Obteve um índice de instâncias classificadas corretamente de 59,71% contra 40,29%
classificadas erroneamente, dados estes não satisfatórios mais que foram compensados se
analisarmos isoladamente cada empresa conforme podemos verificar a seguir.
Exibiram índices consideráveis se forem analisadas as regras individualmente formadas e as
melhores classificações efetuadas por empresa, também vistas nas Figuras 28 e 29. No entanto na
fase de validação por relevância do conhecimento gerado seu desempenho não foi tão satisfatório.
Apresentou regras persistentes e confiáveis, mas diminuiu sua qualidade na importância das regras
obtidas, onde analisando uma por uma das 46 geradas não houve alguma que se destaque por sua
significância ou que trouxesse algum valor agregado diferenciado. Assim sendo, não foi selecionada
nenhuma regra deste algoritmo, mas não significando que ele tenha sido ineficiente na sua função
de geração de regras.
3.3.2 Transformação do modelo e apresentação dos resultados
Neste item será trabalhado com a estrutura do modelo de conhecimento, ou seja, para
facilitar o entendimento dos resultados selecionados e para que se obtenha uma interface mais
agradável será transformada a forma de apresentação dos conhecimentos obtidos no algoritmo que
foi validado em todas as etapas, conforme constante no item anterior.
Algoritmo J48 (trees)
Para melhor entendimento, foi efetuada uma mudança na forma de exibição dos resultados
alcançados, onde foi convertido o formato de árvore para o de regra. E o atributo data (constante
somente nas classificações que envolvem a empresa Rossi) que se apresentava de forma codificada,
foi realizada a sua transformação para o formato de data normal através do método TimeStamp14.
14
É uma função utilizada nos algoritmos para transformar as datas reais em códigos, que são mais facilmente
manuseáveis.
77
Na Figura 32 são apresentadas estas mudanças e a forma resumida e suficiente de apresentação do
conhecimento obtido com a execução do algoritmo J48.
Figura 32. Descobertas do algoritmo J48
E para auxiliar nesta tarefa foi desenvolvida uma ferramenta que exibi na integra os arquivos
mais importantes que envolveram este Trabalho, tanto os dados que foram utilizados para a geração
de resultados como também arquivos que exibem os resultados gerados, inclusive o conhecimento
obtido pelos algoritmos. Na Figura 33 podemos verificar a tela principal desta ferramenta com estas
opções.
Figura 33. Ferramenta desenvolvida
78
3.3.3 Análise dos resultados
O algoritmo J48 obteve três regras que serão detalhadas e explicadas a seguir:
A primeira que envolve o Banco do Brasil como resposta pode ser interpretada como
que se a quantidade de negócios realizadas no pregão regular da Bovespa ficar
compreendido entre a quantidade de 4.984 e 6.995 negócios fechados no dia ele possuíra
tendência de alta extrema de seus papéis, chegando a cotações superiores a 4.43,
conforme os casos amostrados na regra. E analisando também as demais regras que
envolvem esta classe (Figura 30) pode-se dizer também que nos dias que há grandes
quantidades de negócios fechados, acima da média diária de seus papéis, suas cotações
tendem a subir expressivamente;
A segunda regra selecionada nos informa que em datas posteriores a 16 de março de
2009 os papéis da empresa Rossi tendem a cair para níveis inferiores ou iguais a -2.46
quando o numero de negócios fechados em um dia de pregão atingem a marca de 1.994
a 2933(inclusive) negócios realizados, possuindo tendência oposta aos papéis do Banco
do Brasil; e
Já a ultima regra vai ao sentido oposto à segunda, pois diz que em período posterior a 01
de abril de 2009 a tendência é de alta de mais de 3% quando o numero de negócios fica
compreendido entre 1.872 e 2933(inclusive). Então, analisando as duas regras que
envolvem a empresa Rossi e também as demais regras que envolvem esta classe (Figura
31) chega-se a conclusão que quando o numero de negócios realizados sai de sua
quantidade corriqueira os papeis podem se comportar de maneira opostas, caindo
consideravelmente ou o inverso.
Com esses resultados, pode ser dito que as descobertas realizadas são informações que
podem auxiliar os investidores em suas tomadas de decisões quando estão negociando em Bolsa de
Valores. Pois, sabendo a maneira como o ativo se comporta, ou seja, as oscilações de suas cotações
baseados em determinados fatores, o investidor, com base nessa informação, pode colocar uma
ordem de compra ou venda de uma ação dessas empresas, envolvidas na descoberta, em ocasião
oportuna que gere uma antecipação dele ao movimento do papel, podendo dessa atitude resultar em
um lucro maior ou evitando uma perda de capital ou pelo menos minimizando sua perda. Além de
várias outras utilidades que a descoberta pode trazer.
79
4 CONCLUSÕES
O trabalho aborda todos os itens previstos para a sua conclusão, onde foi conceituada toda a
metodologia empregada e descrito com detalhes o projeto e resultados esperados, inclusive com
testes e validações.
Na primeira metade do trabalho foi detalhada toda a fundamentação teórica, onde foi visto
com precisão conceitos a respeito do contexto em que o projeto é empregado e foi de grande valia
os conhecimentos adquiridos nesta etapa, pois serviram de base para o desenvolvimento do projeto.
A fundamentação iniciou-se com a caracterização da Bolsa de Valores explicando os
componentes que o compõem, seu funcionamento, características da bolsa de ações brasileira e
principalmente formas de analisá-la. Logo em seguida, foi abordada a metodologia de Mineração de
Dados com sua definição, fases, tarefas e técnicas, onde foi o principal conceito que auxiliou no
desenvolvimento do projeto. Depois, são demonstradas as ferramentas disponíveis no mercado que
executam a DM com todas suas características marcantes que serviu de base para escolha da
ferramenta que é utilizada no projeto. Para finalizar, foi visto como está enquadrado o uso da
Inteligência Artificial no mercado financeiro para dar base à descrição de 5 projetos científicos que
a utilizam como ferramenta na Bolsa de Valores, mas lembrando que nenhuma utiliza os mesmos
mecanismos adotados neste trabalho.
Na segunda metade do trabalho foi abordado o desenvolvimento do projeto, que foi
subdividido em três fases:
Sendo a primeira etapa o pré-processamento dos dados, onde ao final chegou-se a um
arquivo formatado e padronizado com até 5.094 registros e 5 atributos, que serviram de
entrada a ferramenta que executou os dados, sendo que chegou-se a um arquivo final
após a realização dos diversos testes onde decidiu-se pela configuração do arquivo que
melhor se comportou com os algoritmos escolhidos;
Na segunda fase esses dados foram processados (Mineração de Dados) pelos 3
algoritmos escolhidos, depois de realizado diversos testes para a seleção da tarefa e
algoritmos que trouxeram os melhores resultados. A tarefa escolhida foi a Classificação,
pois se encontrou muita dificuldade em encontrar algoritmos com resultados satisfatórios
nas 2 tarefas restantes (agrupamento e associação), mesmo realizando diversas
mudanças nas configurações da base de dados para que se tornasse ativo todos os
algoritmos que a ferramenta disponibiliza nesta duas tarefas.
E na última fase do projeto foram analisados os modelos gerados após a realização do
processamento dos dados. Os resultados gerados passaram por validações e
transformações que deixaram as descobertas finais mais claras e confiáveis. Observou-se
que os algoritmos não apenas geraram as regras, mas acrescentou a partir das saídas
geradas as técnicas de validação, que compreenderam vários indicadores estatísticos, o
que significou uma avaliação da confiabilidade do conhecimento gerado.
Os testes realizados foram de grande valia para o projeto, pois nos permitiu chegar a um
arquivo final com configurações e atributos que melhor se comportaram com o objetivo do trabalho,
e também possibilitou que fossem tiradas diversas conclusões a seu respeito, como: que as tarefas
de Agrupamento e Associação não são boas alternativas de uso neste contexto; que a inclusão do
índice Dow Jones e a manutenção do índice Bovespa não trouxeram resultados diferenciados nos
modelos gerados, sendo que não houve associações importantes com as demais empresas estudadas;
que o período de coleta de dados de 8 e 12 meses se mostraram eficientes e que havendo a sua
diminuição ou majoração sua eficiência é diminuída; que a melhor forma de declaração do atributo
cotação é realmente de forma numérica e do atributo data em forma de data(fornecida pela
ferramenta); e que o atributo que identifica o número de negócios realizados potencializo os
resultados obtidos.
A forma de validar as descobertas realizadas foi um meio que transmitiu confiança no
resultado final do trabalho, pois se mostrou eficaz analisar sua eficiência através de indicadores que
transmitem através de porcentagens como aquelas regras geradas se comportam em períodos e
registros diferentes das utilizadas para gerá-las. Além da importância da forma de validar também
pela significância dos resultados que trouxe apenas o conhecimento com relevância.
Se forem analisados apenas os índices gerais, que se referem a todo o conteúdo gerado no
modelo de conhecimento obtido pela execução dos algoritmos, pode-se dizer que o número de
81
instâncias classificadas corretamente e as taxas de erros trouxeram resultados não muito
satisfatórios, como já era previsto no inicio dos estudos, tendo em vista que o mercado acionário é
muito inconstante e dependente de diversos fatores externos. Mas por outro lado, se for observado o
desempenho de algumas empresas nas matrizes de confusões que foram geradas, pode-se notar o
alto desempenho que elas obtiveram, ou seja, as regras formadas que se relacionaram as estas
empresas obtiveram ótimo desempenho devido aos registros da base de dados que envolvem estas
determinadas empresas se comportarem exatamente como a regra a define, gerando alto número de
acertos, por isso também que as regras que envolvem essas empresas conseguiram um desempenho
consistente.
Nestas validações selecionaram-se apenas regras geradas pelo algoritmo J48, que foi o que
trouxe mais confiabilidade e significância em seus resultados, mas não significa que os outros dois
algoritmos (JRip e Part) estudados não tenham trazido resultados importantes, com certeza
poderíamos ter selecionado diversas regras geradas por eles se fosse diminuído o grau de exigência
nas descobertas, mas realmente as mais relevantes quem atingiu foi o algoritmo J48. Se for
contabilizado os resultados obtidos pelos 3 algoritmos estudados chegou-se a mais de 150 regras
formadas, sendo que cada uma demonstra tendências e padrões que foram extraídos da base de
dados (arquivo de entrada), cada uma com seu grau de importância, portanto não pode-se dizer que
o conhecimento obtido limitou-se há apenas essas 3 regras formadas pelo algoritmo J48.
Com os resultados alcançados pode-se dizer que a Mineração de Dados demonstrou-se
eficiente na função que lhe foi proposta, onde conseguiu identificar indícios de que as cotações
diárias de alguns papéis estudados apresentaram padrões de comportamento por diversas vezes no
período estudado. Mas cabe destacar que as descobertas realizadas não são garantias de sucesso em
seus investimentos, pois se trata de um mercado altamente volátil e sem garantias, e que esses
resultados foram eficientes no período estudado não garantido que será também em outros períodos,
pois já foi demonstrada baixa no desempenho em períodos maiores, conforme podemos verificar
nos testes efetuados.
E respondendo as perguntas problemas feitas no inicio deste trabalho no item
Problematização pode-se dizer que quanto a questão de melhor previsibilidade deste tipo de
mercado, a DM pode ajudar nesta tarefa onde através dos padrões formados com a execução dos
algoritmos chega-se a um fator que pode auxiliar indicando o momento mais oportuno de entrar ou
82
sair de um determinado papel da bolsa de valores, respondendo também a questão de aumentar a
rentabilidade correndo um menor risco pois conseqüentemente tendo ciência destas possíveis
tendências, o investidor terá probabilidades de minimizar seu risco mesmo em busca de uma
maximização nos lucros. No questionamento se há padrões nos movimentos das cotações pode-se
dizer que foram encontrados indícios (através dos resultados alcançados) sobre esse comportamento
vicioso que eles sofrem, de uma forma similar a Dissertação de Mestrado concluída por Giuliano
Padilha Lorenzoni (no item 2.5 – Trabalhos similares) nos trouxe a respeito das análises técnicas
aplicadas atualmente (Grafismo). E na última indagação sobre como aproveitar o histórico destas
ações para tirar conclusões sobre seus movimentos futuros, conclui-se que foi este o proveito que a
Mineração de Dados nos proporcionou neste projeto e que irá proporcionar na continuidade de seus
estudos nesta área.
Mas o proveito principal obtido deste trabalho foi o ponto de partida para que este estudo
sirva de base e incentivo para que se de continuidade nos estudos científicos desta unificação de
áreas (Investimentos + Mineração de Dados) e que provoquem os especialistas na área de
investimentos na bolsa de valores, principalmente os que norteiam suas aplicações e recomendações
em ações baseados nas análises técnicas, para que prestem atenção na potencialidade que a
metodologia de Mineração de Dados pode fornecer.
Em trabalhos futuros podemos indicar a possibilidade de se enriquecer ainda mais o arquivo
de entrada para o processamento dos dados, com o incremento de mais atributos com finalidades
diversas poderia trazer comportamentos diferentes nos algoritmos com isso havendo a possibilidade
de serem selecionados tarefas e algoritmos diferentes aos estudados neste projeto, inclusive com
mais associações em suas regras trazendo conhecimento novo aos resultados gerados. Há também a
possibilidade de se trabalhar com as configurações destes algoritmos escolhidos neste trabalho, já
que trabalhamos com uma ferramenta de código aberto, possibilitando assim a realização de
modificações no código fonte destes algoritmos, para que se tornem ainda mais potentes na suas
tarefas de geração de resultados. E também realizar um estudo mais profundo utilizando esta
tecnologia para verificar os efeitos que o índice Dow Jones traz em relação às cotações de nossas
empresas e em relação ao nosso índice Ibovespa e detectar até que ponto nosso mercado acompanha
o deles.
83
REFERÊNCIAS BIBLIOGRÁFICAS
AMORIM, Thiago. Conceitos, técnicas, ferramentas e aplicações de mineração de dados para
gerar conhecimento a partir de bases de dados. 2006. Trabalho de Conclusão de Curso
(Graduação em ciência da computação) - Centro de Informática, Universidade Federal de
Pernambuco, Recife, 2006. Disponível em: <http://www.cin.ufpe.br/~tg/2006-2/tmas.pdf>. Acesso
em: 20 ago. 2009.
ANBID. Portal “como investir?”. 2009. Disponível em:
<http://www.comoinvestir.com.br/acoes/guia-de-acoes/tipos-de-acoes/Paginas/default.aspx>.
Acesso em: 01 nov. 2009.
BM&FBOVESPA. Guia online do mercado de ações. Página online. São Paulo:
BM&FBOVESPA S.A., 2009. Disponível em:< http://www.bovespa.com.br/Principal.asp>. Acesso
em: 25 ago. 2009a.
______. Mercado – ações – dados históricos. Página online. São Paulo: BM&FBOVESPA S.A.,
2009. Disponível em:< http://www.bovespa.com.br/Principal.asp>. Acesso em: 01 out. 2009b.
BOLSÃO. Brasil é o 4° país preferido das multinacionais para investimento. Jornal Bolsão,
Balneário Camboriú, pag. 7, 06 ago. 2009.
CARVALHO, Luiz Alfredo Vidal de. Datamining: a mineração de dados no marketing, medicina,
economia, engenharia e administração. São Paulo: Érica, 2001.
DIAS, Carlos Henrique. Um novo algoritmo genético para a otimização de carteiras de
investimento com restrições de cardinalidade. 2008. Dissertação (Mestrado em Matemática
Aplicada) - Instituto de Matemática, Estatísticas, e Computação Científica, Universidade Estadual
de Campinas, Campinas, 2008. Disponível em:
<http://libdigi.unicamp.br/document/?code=vtls000438801>. Acesso em: 20 ago. 2009.
GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel Lopes. Data mining: um guia prático: conceitos,
técnicas, ferramentas, orientações e aplicações. Rio de Janeiro: Elsevier, 2005.
IBM. IBM DB2 data warehouse edition. 2009. Disponível em:<http://www306.ibm.com/software/data/db2/dwe/>. Acesso em: 01 set. 2009.
KLEINSCHMIDT, Marlon. Mineração de dados para avaliação do perfil de usuários do
sistema de informação da academia da UNIVALI. 2007. Trabalho de Conclusão de Curso
(Graduação em ciência da computação) - Centro de Ciências Tecnológicas da Terra e do Mar,
Universidade do Vale do Itajaí, Itajaí, 2007. Disponível em: <http://www.univali.br/>. Acesso em:
25 ago. 2009.
LAZO, Juan Guilherme Lazo. 2000. Sistema híbrido genético-neural para montagem e
gerenciamento de carteiras de ações. 2000. Dissertação (Mestrado em Engenharia Elétrica) Departamento de Engenharia Elétrica, Universidade Católica do Rio de Janeiro, Rio de Janeiro
2000. Disponível em: <http://www.maxwell.lambda.ele.pucrio.br/Busca_etds.php?strSecao=resultado&nrSeq=7541@1>. Acesso em: 20 ago. 2009.
84
LORENZO, Francine de. Nem sempre as small caps são as mais arriscadas na Bovespa. Portal
Exame, São Paulo, jun. 2009, exame/finanças. Disponível
em:<http://portalexame.abril.com.br/financas/esta-hora-investir-small-caps-474274.html>. Acesso
em: set. de 2009.
LORENZONI, Giuliano Padilha. Uma investigação estatística sobre análise técnica. 2006.
Dissertação de Mestrado (Mestre pelo programa de Pós-Graduação em Engenharia Elétrica) –
Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro, Rio de
Janeiro, 2006. Disponível em: <http://www.maxwell.lambda.ele.pucrio.br/Busca_etds.php?strSecao=resultado&nrSeq=9192@1>. Acesso em: 08 dez. 2009.
MELLO, Maria Terra. Aplicação de redes neurais artificiais no processo de precificação de
ações. 2004. Trabalho de Conclusão Curso (Graduação em Ciência da Computação) - Instituto de
Física e Matemática, Universidade Federal de Pelotas, Pelotas, 2004. Disponível em:
<http://www.ufpel.tche.br/prg/sisbi/bibct/acervo/info/2004/mono_marilia.pdf>. Acesso em: 20 ago.
2009.
MORI, Luci Mercedes de. Sistema de informação gerencial para previsão de produtividade do
trabalho na alvenaria de elevação. 2008. Tese (Doutor em Engenharia Civil) - Programa de PósGraduação em Engenharia Civil, Universidade Federal de Santa Catarina, Florianópolis, 2008.
Disponível em: < http://www.tede.ufsc.br/teses/PECV0552-T.pdf >. Acesso em: 31 maio 2010.
NAPOLITANO, Giuliana. O brilho da bolsa. Revista Exame, São Paulo, n° 16, 26 ago. 2009.
PARREIRAS, Luiz Paulo Rodrigues de Freitas. 2003. Modelo genético-neural de gestão de
carteiras de ações. 2003. Trabalho de Conclusão de Curso (Graduação em Engenharia da
Produção) - Departamento de Engenharia de Produção, Escola Politécnica da Universidade de São
Paulo, São Paulo, 2003. Disponível em:
<http://www.pro.poli.usp.br/projetos/pro/publicacoes/trabalhos-de-formatura/modelo-geneticoneural-de-gestao-de-carteiras-de-acoes>. Acesso em: 25 ago. 2009.
PINHEIRO, Juliano Lima. Mercado de capitais: fundamentos e técnicas. 3 ed. São Paulo: Atlas,
2005.
SANTANA, Helton; RODRIGUES, Danilo. 2005. Uso de árvore de decisão em mineração de
dados. 2005. Artigo - Departamento de Ciências da computação, Universidade Federal da Bahia,
Salvador, 2005. Disponível em:
http://im.ufba.br/pub/MATA64/SemestreArtigos20052/ArtigoIAHeltonDanilo.pdf. Acesso em: 10
out. 2009.
SAS. SAS enterprise miner. 2009. Disponível em:
<http://www.sas.com/technologies/analytics/datamining/miner/>. Acesso em: set. de 2009.
SILVA, Gercely da Silva e. Estudo de técnicas e utilização de mineração de dados em uma base
de dados da saúde pública. 2003. Trabalho de Conclusão de Curso (Graduação em Ciência da
Computação) - Curso Superior de Tecnologia em Informática, Universidade Luterana do Brasil,
Canoas, 2003. Disponível em:
<http://projetos.inf.ufsc.br/arquivos_projetos/projeto_635/Estudo%20de%20T%E9cnicas%20e%20
85
%20Utiliza%E7%E3o%20de%20Minera%E7%E3o%20de%20Dados.pdf >. Acesso em: 10 out.
2009.
SILVA, Inara Aparecida Ferrer. Descoberta de conhecimento em base de dados de
monitoramento ambiental para avaliação da qualidade da água. 2007. Dissertação (título de
Mestre em Física e Meio Ambiente) – Programa de Pós-Graduação em Física e Meio Ambiente,
Universidade Federal de Mato Grosso, Cuiabá-MT, 2007. Disponível em:
<http://pgfa.ufmt.br/pagina/index2.php?option=com_docman&task=doc_view&gid=92&Itemid=39
>. Acesso em: 31 maio 2010.
SILVA, Marcelino Pereira dos Santos. Mineração de Dados - conceitos, aplicações e experimentos
com Weka. 2006. Artigo - Instituto Nacional de Pesquisas Espaciais, Universidade do estado do Rio
Grande do Norte, Mossoró, 2006. Disponível em:
<www.sbc.org.br/bibliotecadigital/download.php?paper=35>. Acesso em: 10 out. 2009.
SILVEIRA, Sidnei Renato; BARONE, Dante Augusto Couto. Jogos educativos
computadorizados utilizando a abordagem de algoritmos genéticos. 1998. Artigo (Curso de
Pós-Graduação em Ciência da Computação) - Instituto de Informática, Universidade do Rio Grande
do Sul, Porto Alegre, 1998. Disponível em:
<http://lsm.dei.uc.pt/ribie/docfiles/txt200342421140151.PDF>. Acesso em: 20 ago. 2009.
STAHNKE, Fernando Rafael. Uso de data mining no mercado financeiro. 2008. Trabalho de
Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e
Tecnológicas, Centro Universitário FEEVALE, Novo Hamburgo, 2008. Disponível em:
<http://tconline.feevale.br/tc/files/0001_1749.pdf>. Acesso em: 25 ago. 2009.
TEIXEIRA, Alexandre. Você entregaria seu investimento a este gestor? Revista Online. São
Paulo: ISTOÉ Dinheiro, 2006. Disponível em
<http://www.terra.com.br/istoedinheiro/448/financas/investimento_gestor.htm>. Acesso em: 15 set.
2009.
UOL. Guia: saiba investir em ações. 2009. Disponível em:
<http://economia.uol.com.br/ultnot/2008/05/14/guia_bovespa_bolsa_valores_aplicar_acoes.jhtm>.
Acesso em: 01 nov. 2009.
UNIVERSIDADE DE WAIKATO. Waikato Environment for Knowledge Analysis - Weka.
Ferramenta versão 3.7.1. Hamilton - Nova Zelândia: (c) 1999-2009.
VEJA. IPO do Santander bate record: 14 bi de reais. Revista Online. São Paulo: Revista Veja,
2009. Disponível em: <http://veja.abril.com.br/noticia/economia/ipo-santander-bate-recorde-14-bireais-503943.shtml>. Acesso em: 25 nov. 2009.
86
Download