89 Potencialidade Regional e Tecnologias Sociais: o sertão Piauiense em evidência Redes Neurais Aplicado a Data Mining Francilene Luzia Martins Universidade Federal do Piaui – [email protected] Laise do Nascimento Silva Universidade Federal do Piaui – [email protected] Viviane Gonçalves Fontes Universidade Federal do Piaui – [email protected] Resumo: Este trabalho tem como objetivo demonstrar e conceituar o uso de Mineração de Dados e Redes Neurais para tratamento do grande volume de dados, que vem crescendo com o surgimento desordenado de informações. Mostraremos algumas técnicas de processos de extração do conhecimento tais como: Redes Neurais e KDD – Klnowledge Discovery in Databases (descoberta de conhecimento em bases de dados). Palavras-chave: Mineração de Dados, Redes Neurais, Técnica KDD. 1. Introdução O crescimento das bases de dados sejam elas administradas pelo governo, pelas entidades de pesquisa, vem ultrapassando a capacidade humana de interpretar e digerir o volume de dados disponíveis. Com essa realidade cresce a necessidade por uma nova geração de ferramentas e técnicas que possibilitem uma analise automática e mais inteligente destas bases de dados. Graças às técnicas de aquisição e de armazenamento, nesta ultima década estamos vivendo um crescimento explosivo na capacidade das pessoas em gerar e coletar dados. No armazenamento, os avanços tecnológicos dos computadores cada vez mais velozes, relativamente mais barato e com maior capacidade de armazenamento, dotados de sistemas de gerenciamento de banco de dados cada vez melhores e a tecnologia Data Warehouse, vem possibilitando o acumulo de verdadeiras montanhas de dados corporativos. Data Warehouse, KDD – Knowledge Discovery in Databases, Data Mining, Inteligência Computacional e Redes Neurais são alguns dos nomes encontrados neste novo segmento. Apresentaremos uma breve exposição dos principais conceitos e definições sobre termos citados acima: Data Mining e Data Warehouse. Faremos uma apresentação detalhada sobre Redes Neurais. 2. Procedimentos Metodológicos Nosso estudo teve foco nas pesquisas bibliograficas da instituição da Universidade Federal do Piaui, foram analizados artigos cientificos do Google Academicos, Capes, FAEF Revistas Científicas Eletrônicas, entre outros, tendo como palavra chave para filtramento foram Redes Neurias, Mineração de Dados. 3. Resultados e discussões KDD – Klnowledge Discovery in Databases (descoberta de conhecimento em bases de dados),tem o objetivo de representar todo o processo de busca e extração de conhecimento, consiste em um processo não trivial de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis, em conjunto de dados” (Fayyad, 1996). Segundo Carlos Gay, o processo de KDD é interativo e iterativo, envolvendo uma série de etapas onde cada uma pode requerer do usuário capacidade de análise e de tomada de decisão. As principais fases do processo são: a) Seleção – é a etapa que consiste na análise dos dados existentes e na seleção daqueles a serem utilizados na busca por padrões e na geração de conhecimento novo. b) Pré-processamento – consiste no tratamento e na preparação dos dados para uso pelos algoritmos. Nesta etapa devemos identificar e retirar valores inválidos, inconsistentes ou redundantes. ISSN:2316-8854 - Edição atual - Anais do EITEC. Volume 3, Número 2. Picos: Instituto Federal de Educação, Ciência e Tecnologia do Piauí, 2014 90 Potencialidade Regional e Tecnologias Sociais: o sertão Piauiense em evidência c) Transformação – consiste em aplicar, quando necessário, alguma transformação linear ou mesmo não linear nos dados, de forma a encontrar aqueles mais relevantes para o problema em estudo. Nesta etapa geralmente são aplicadas técnicas de redução de dimensionalidade e de projeção dos dados. d) Mineração – consiste na busca por padrões através da aplicação de algoritmos e técnicas computacionais específicas. e) Interpretação – consiste na análise dos resultados da mineração e na geração de conhecimento pela interpretação e utilização dos resultados em benefício do negócio. Data Mining O termo Data Mining (mineração de dados) é muito usado por estatísticos, pesquisadores de banco de dados e comunidades de negócio, constituindo uma das ferramentas mais utilizadas para extração de conhecimento ou informações relevantes, a partir de bancos de dados, o objetivo do data mining é extrair conhecimento correto e compreencival de bases de dados nos meios comerciais quanto científico (“Data Mining overview”, 2005; Silberschatz, 1999; Elmasri e Navathe, 2002). Data Mining é uma das etapas principais de um processo de KDD. Consiste na construção de modelos computacionais para descoberta automática de novos fatos e relacionamentos entre dados, a partir da aplicação repetida e muitas vezes interativa, de algoritmo de busca. Paradigma de Redes Neurais Redes neurais são sistemas computacionais formados pela integração de inúmeros elementos de processamento (EP). Existem várias ferramentas neurais oferecidas comercialmente, onde o paradigma neural não faz uso dos conceitos que caracterizam os demais algoritmos e sistemas de computacionais. A principal característica das redes neurais é, como foram concebidas baseados na estrutura do sistema nervoso, mais precisamente do cérebro humano, a capacidade de aprender com base na exposição a exemplos. A construção de uma rede neural é formada da sua arquitetura interna (uma rede interligada de neurônios) e como treinamento desta rede com base em exemplos, ate que ela própria consiga aprender como resolver o problema. Redes Neurais Artificiais Redes Neurais é uma solução computacional que envolve o desenvolvimento de estruturas matemáticas com a habilidade de aprendizagem. As Redes Neurais têm uma notável habilidade de derivar médias de dados complicados ou imprecisos e podem ser utilizadas para extrair padrões e detectar tendências que são muito complexas para serem percebidas tanto por humanos quanto por outras técnicas computacionais. As redes neurais utilizam um conjunto de elementos de processamento (ou nós) análogos aos neurônios no cérebro. Estes elementos de processamento são interconectados em uma rede que pode identificar padrões nos dados uma vez expostos aos mesmos, ou seja, a rede aprende através da experiência, tais como as pessoas. Esta característica distingue Redes Neurais de tradicionais programas computacionais, que simplesmente seguem instruções em uma ordem seqüencial fixa. Associando Mineração de Dados e Redes Neurais Artificiais ISSN:2316-8854 - Edição atual - Anais do EITEC. Volume 3, Número 2. Picos: Instituto Federal de Educação, Ciência e Tecnologia do Piauí, 2014 91 Potencialidade Regional e Tecnologias Sociais: o sertão Piauiense em evidência O uso de redes neurais artificiais e o desenvolvimento de algoritmos para descoberta do conhecimento, também, são novos. Quando se utiliza Redes Neurais Artificiais (RNA) para procurar padrões nos dados na etapa de Mineração de Dados do Processo de DCBD, estas novas tecnologias oferecem promissoras oportunidades para as empresas procurarem informações úteis em seus próprios dados. [BIG96] A principal característica das RNA é a grande capacidade de reconhecer padrões. Isto é possível, pois uma Rede Neural Artificial pode ser treinada para aprender um determinado padrão através da modificação e correção de seus pesos (estímulos). Além do reconhecimento de padrões, as RNA são eficientes para a classificação de padrões. O objetivo do desenvolvimento de aplicações utilizando a tecnologia de RNA é trabalhar em conjunto com os sistemas tradicionais de desenvolvimento existentes, como cadastros de qualquer natureza. As RNA estão sendo utilizadas na etapa de Mineração de Dados não estão e nem vão ser usadas para substituir os sistemas tradicionais existentes, para trabalhar com dados aproximados, tanto para a entrada como para a saída. Isto acontece porque o maior volume de dados utilizados é o de números reais e funções de ativação que geram um resultado também no formato de números reais. Uma RNA é capaz de guardar informações, isto é, pode armazenar padrões. Este armazenamento de padrões é obtido através do comportamento dos pesos de cada neurônio a partir de cada entrada recebida. 4. Considerações finais As organizações têm se mostrado extremamente eficientes em capturar, organizar e armazenar grandes quantidades de dados, obtidos de suas operações diárias ou pesquisas cientificas, porem, ainda não usam adequadamente essa gigantesca montanha de dados para transforma-la em conhecimentos que possam ser utilizados popularizando como ferramenta de gerenciamento de informação, pois acabam guiando empresas por certezas limitadas. O processo de mineração de dados é uma tecnologia relativamente nova, por isso, não são tecnologias consolidadas, que juntamente com o crescimento da utilização do processo distribuído vem sendo alvo de inúmeras pesquisas e experimentos nesta área. 5. Referências FAYYAD,U. M.; PIATETSKY-SHAPIRO,G; SMYTH, P; THURUSAMY,R. Advances in Knowledge Discovery & Data Mining. Cambridge, MA: AAAI/MIT, 1996. [BIG96] BIGUS, J. Data Mining with neural networks: solving business problem - from application to decision support. McGraw-Hill, USA, 1996. ELMASRI, R.; NAVATHE, S. B. Sistemas de banco de dados: fundamentos e aplicações. 3.ed. Rio de Janeiro: LTC, 2002. SILBERSCHATZ, A.; KORTH, H. F.; SUDARSHAN, S. Sistema de banco de dados. 3.ed. São Paulo: Makron Books, 1999. ISSN:2316-8854 - Edição atual - Anais do EITEC. Volume 3, Número 2. Picos: Instituto Federal de Educação, Ciência e Tecnologia do Piauí, 2014