APLICAÇÃO DE ALGORITMOS GENÉTICOS EM TÉCNICAS DE MINERAÇÃO DE DADOS Alberto Yukinobu Hata 1, Fábio Kenji Masago 2, João Fernando Marar3 1,2,3 UNESP - Universidade Estadual Paulista Júlio de Mesquita Filho [email protected] 1. Introdução A extraordinária evolução tecnológica possibilitou um maior nível de processamento dos computadores e a capacidade de armazenar grande quantidade de dados em dispositivos secundários. A partir disso, efetuar pesquisas estruturadas utilizando linguagens de consulta, como a SQL (Structured Query Language), têm se tornando desinteressantes, pois não permitem executar consultas complexas em banco de dados extensos e necessitam do conhecimento prévio do seu conteúdo para realizar tais operações [1]. Dessa forma, para facilitar a recuperação de dados que apenas interessam ao usuário, foi introduzida uma técnica, que permite extrair o conhecimento contido nos bancos de dados, denominada mineração de dados ou data mining. Existem inúmeros métodos que possibilitam minerar os dados, cada uma dos quais utilizam como base, áreas de estudo pertencentes à estatística, o aprendizado de máquina e conceitos derivados do campo da inteligência artificial (IA) [2]. Os algoritmos genéticos (AGs), ramo de pesquisa do paradigma evolucionista da IA, possui recursos, como reconhecimento de padrões e extração de características, destinados a obter o conhecimento presente no banco de dados. apenas valores binários. Para a criação da população inicial, a data mining extrai registros aleatórios do banco de dados. A partir disso, dados pertencentes aos atributos dos registros que são exatamente iguais àqueles definidos pela regra são armazenados nos cromossomos. Em seguida, são aplicados sucessivamente os operadores de seleção, reprodução e mutação. Após consecutivas evoluções, obtêm-se os indivíduos que melhor se adaptaram às condições impostas. O critério de parada normalmente adotado para determinar o término do algoritmo, compreende-se em verificar se a maior parte dos indivíduos apresenta um grau de aptidão equivalente ou superior ao nível inicialmente definido. Dessa forma, os cromossomos que compõem a população final representam o padrão procurado. 2. Objetivo Figura 1 – Representação da estrutura da regra. Tendo em vista a capacidade de adaptação das técnicas de algoritmos genéticos para os mais variados tipos de problemas, cria-se um grande interesse a respeito desse assunto. Assim, tem-se por objetivo investigar técnicas de data mining que utilizam esse campo da IA. Com isso, será possível expandir ainda mais as pesquisas de métodos de mineração de dados associados às abordagens da inteligência artificial, contribuindo para tornar a tarefa de aquisição do conhecimento mais eficiente. Por meio desse estudo, verificou-se a aplicabilidade dos algoritmos genéticos na extração de conhecimento a partir do banco de dados, pois apresentam um funcionamento simples comparado a outras técnicas de data mining existentes, além de permitir obter de forma eficiente, resultados para problemas que envolvem o reconhecimento de padrões. 3. Metodologia A técnica de AG permite identificar padrões presentes nos banco de dados a partir da codificação de suas informações em forma de cromossomos, que passam pelo processo de transformação semelhante ao processo evolutivo dos seres vivos. Nos algoritmos genéticos, os registros do banco de dados são representados em forma de expressões denominadas regras. Cada regra é composta por um termo antecedente indicando uma condição e um outro conseqüente, designando uma predição que apenas se sucede caso o termo antecedente seja satisfeito [3] (Figura 1). A condição é formada por atributos que simbolizam os dados dos registros. Inicialmente, para a definição da estrutura do cromossomo, utiliza-se um gene para cada atributo da regra, sendo que armazenam 4. Conclusões 5. Referências [1] R. ELMASRI; S.B. NAVATHE, Fundamentals of Database Systems, Pearson, 3º ed., 2001. [2] C. OLARU; L. WEHENKEL, Data Mining, IEEE Computer Applications in Power, v. 12, 3º ed., p.1925, 1999. [3] D.R. CARVALHO; A.A. FREITAS, A hybrid decision tree/genetic algorithm method for data mining, 2004. Agradecimentos Ao Laboratório de Sistemas Adaptativos e Computação Inteligente (SACI) por fornecer recursos para o projeto. 1 Aluno de IC do CNPq