2, 3 e 4 de Julho de 2009 ISSN 1984-9354 APLICAÇÃO DA MINERAÇÃO DE DADOS PARA GERAÇÃO DE CONHECIMENTO: UM EXPERIMENTO PRÁTICO Priscila Azarias Universidade Tecnológica Federal do Paraná - Campus Ponta Grossa Simone Nasser Matos Universidade Tecnológica Federal do Paraná - Campus Ponta Grossa Luciano Scandelari Universidade Tecnológica Federal do Paraná - Campus Ponta Grossa Resumo A Gestão do Conhecimento está presente no cotidiano de qualquer empresa e durante o processo de gestão é colhida uma grande quantidade de dados, dificultando a obtenção da informação de forma rápida e eficiente. Este artigo tem como objetivo apresentar a gestão do conhecimento e uma de suas práticas, descrevendo seus principais conceitos e como a tecnologia da informação pode auxiliar durante este processo, assim como as principais ferramentas utilizadas. Este trabalho realiza uma breve revisão bibliográfica sobre o assunto em artigos relacionados ao tema, sendo classificado como uma pesquisa qualitativa, realizando um experimento para a aplicação de uma das tarefas da Mineração de Dados em uma base de exemplo. Palavras-chaves: Mineração de Dados, Gestão do Conhecimento V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 1. INTRODUÇÃO A informação é um recurso cada vez mais valorizado como viabilizador de decisões e de processos de conhecimento/inteligência nos mais diferentes campos e demandam novas teorias, novas habilidades de pensamento, novas capacidades para transformar dados caóticos em informação útil e novos níveis de inovação que sejam capazes de desenvolver aplicações práticas para informação obtida do ambiente interno ou externo à organização (MARCONDES, 2001). As empresas estão preocupadas com o valor da informação durante o seu processo decisório, por isso, usam a Gestão do Conhecimento com o objetivo de estruturá-lo por meio da utilização de diversas práticas, como a Inteligência Competitiva, que auxilia na coleta das informações externas ao seu ambiente. Estas práticas trabalham com uma grande quantidade de dados, armazenados nos banco de dados da empresa, o que torna difícil seu processamento manual durante sua transformação em informação que realmente agregue valor a organização. Fayyad (1996) comenta que o ser humano não está preparado para interpretar uma grande quantidade de dados e/ou espaços multidimenisonais. Uma das alternativas para o gestor é utilizar ferramentas e técnicas, entre elas é possível destacar o Processo de descoberta de Conhecimento – KDD (Knowledge Discovery in Database), em que uma de suas etapas está a Mineração de Dados (Data Mining). A Mineração de Dados auxiliará as empresas na análise das informações contidas em suas bases de dados. As informações descobertas serão utilizadas para ajudar na tomada de decisão, otimizando os processos e retornando de forma eficiente a informação para que se possa definir a estratégia mais adequada ao mercado e clientes. Este artigo tem como objetivo descrever os principais conceitos de Gestão do Conhecimento e Inteligência Competitiva e um experimento prático da mineração de dados em um banco de dados de exemplo. A Seção 2 apresenta a metodologia utilizada para o desenvolvimento do trabalho. Na seção 3 relata os conceitos de Gestão do Conhecimento, Inteligência Competitiva e as tecnologias utilizadas na Inteligência Competitiva. A seção 4 descreve a Mineração de Dados como umas das ferramentas a ser utilizada para a gestão do conhecimento, assim como um experimento com uma base de dados de exemplo, aplicando a Mineração de dados. A seção 5 relata as contribuições finais do trabalho. 102 V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 2. METODOLOGIA Este artigo possui uma abordagem qualitativa com relação ao tema Gestão do Conhecimento e Mineração de Dados, uma vez que o ambiente natural é a fonte de coleta de dados e o pesquisador é o instrumento, desde o desenvolvimento até a implantação nas empresas (RICHARDSON, 1989). Foram realizadas pesquisas científicas em normas técnicas, além da utilização de material de orientação sobre os métodos descritos. Quanto aos fins a pesquisa é classificada como descritiva, pois visa descrever as características de um determinado fenômeno para estabelecer relações entre variáveis, e quanto ao meio, é bibliográfica, desenvolvida a partir do material já elaborado, como: livros técnicos e artigos. (LAKATOS e MARCONI, 1991; GIL, 1999). 3. GESTÃO DO CONHECIMENTO Antes de definir a Gestão do Conhecimento (GC), é importante definir os tipos de conhecimentos que estão relacionados em uma organização: o formal - contido nos livros, manuais, documentos, periódicos, base de dados, repositórios, entre outros-; e o informal gerado e utilizado no processo de produção do conhecimento formal, constituído de idéias, fatos, suposições, decisões, questões, conjecturas, experiências e pontos de vistas, sendo este considerado como um ativo de patrimônio de grande valor. A partir da definição proposta por Terra (2003), em que a Gestão do Conhecimento (GC) nas organizações é vista como a capacidade que as mesmas possuem, por meio de seus processos, de criar e utilizar o conhecimento. Para tal, é necessário o planejamento de pessoas, cultura, processos e tecnologias de modo que trabalhem em conjunto para atender as necessidades dos colaboradores, facilitando o aprendizado coletivo e o desenvolvimento de uma organização mais estruturada na geração do conhecimento. A GC é utilizada com o objetivo de fornecer a informação para as pessoas certas no momento certo, auxiliando-as na tomada de decisão, de maneira a aumentar o desempenho da organização (ROCHA, 2005). A GC deve ser vista como um conjunto de atividades que busca desenvolver e controlar todo tipo de conhecimento contido em uma organização. Portanto, é 103 V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 preciso estabelecer políticas, procedimentos e tecnologias que sejam capazes de coletar, distribuir e utilizar efetivamente o conhecimento. (MORESI, 2001). Moresi (2001) declara que um desafio enfrentado pelos gestores do conhecimento é descobrir maneiras de transformar o estado atual da base de conhecimento da organização em uma nova e poderosa ferramenta. Para auxiliar os gestores neste desafio, existem diversas ferramentas desenvolvidas, entre elas Mineração de Dados (MD) ou Data Mining, que descobre novas informações contidas em um grande conjunto de dados. Um exemplo de aplicação da MD está relacionado às práticas de GC, que são técnicas de gestão organizacional, voltada para a produção, retenção, disseminação, compartilhamento e aplicação do conhecimento dentro da organização, citando como práticas utilizadas a Inteligência Competitiva, Mapeamento de Competências, Aprendizagem Organizacional, Benchmarking, Coaching, Comunicação Institucional, Comunidades de Prática, Educação Corporativa/Universidade Corporativa, Gestão de Marcas e Patentes, Gestão do Relacionamento com os Clientes, Lições Aprendidas, Mapeamento de Competências, Mapeamento de Processos, Melhores Práticas, Memória Organizacional, Mentoring, Normalização e Padronização e Portais Corporativos (LEUCH, 2006). No presente trabalho será descrito apenas uma das práticas a Inteligência Competitiva (ALMEIDA et al., 2008). 3.1. INTELIGÊNCIA COMPETITIVA A Inteligência Competitiva (IC) foca os processos responsáveis pela monitoração do ambiente externo em que a organização está inserida, armazenando informações sobre a rede de clientes, fornecedores e parceiros (TERRA & ALMEIDA, 2008). A IC por meio das informações coletadas do ambiente competitivo da empresa e da análise dos resultados apóia a tomada de decisão, gerando recomendações que consideram eventos futuros, auxiliando na identificação de tendências de mercados em que a empresa atua, e não somente relatórios, os quais justificam decisões passadas (GOMES & BRAGA, 2004). Um ponto importante apresentado por LEUCH (2006) são algumas reflexões sobre os processos de implementação da IC na empresa, composta de cinco fases: Planejar e identificar as necessidades de informação, onde está definição ocorrerá a partir da estratégia da empresa e análise do mercado, e quais as principais necessidades de informação. 104 V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 Coletar e tratar a informação, após a definição das necessidades de informação, será identificado quais serão as fontes de informação e o modo como serão coletadas e armazenadas. Analisar e validar a informação, isto acontecerá por meio de uma equipe de especialista, que efetuará uma análise e validação das informações armazenadas. Disseminar e utilizar estrategicamente a informação, onde será definido quem deverá ter acesso as informações, de que modo e quando. Avaliar, os responsáveis pela unidade de inteligência, embasados nos feedbacks dos usuários e de maneira coerente com visão estratégica da empresa, avaliam as necessidades de informação se mantiveram ou se alteraram. O fluxo desses processos é descrito na Figura 1. Figura 1. Processos de IC Planejamento e identificação Coleta e tratamento Colaboradores Análise e validação Disseminação Avaliação Fonte: Adaptado de Terra, 2003 Considerando a captura da informação utilizando uma ferramenta apropriada é necessário que ocorra o processo de seleção da informação e também a sua organização, gerando assim, o conhecimento que poderá ser divulgado e disseminado a todos os colaboradores, conforme pode ser visualizado na Figura 1. Para uma melhor codificação do conhecimento, ou seja, a transferência do conhecimento entre os indivíduos, a utilização de tecnologias da informação adequadas podem ser um facilitador, disseminando o conhecimento entre todos os interessados. Nesta 105 V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 situação, a dependência da tecnologia é maior, já que são necessários sistemas mais sofisticados para atender as necessidades das empresas (GHOSHAL & TANURE, 2004). Estes sistemas devem oferecer subsídios para a criação do conhecimento, para tornar o ambiente empresarial mais sistemático com relação aos seus processos, políticas e ferramentas gerenciais, promovendo assim, a inovação e articulação da codificação, captura, análise, validação, disseminação, compartilhamento e uso do conhecimento estratégico do ambiente em que a organização se encontra inserida (TERRA, 2003). 3.2. TECNOLOGIA DA INFORMAÇÃO E IC A IC é fundamentada em duas grandes bases: a informação e a velocidade de sua utilização, essas duas características compõem a chave para o seu entendimento, já que a mesma utiliza informações de diversos tipos de fontes que crescem rapidamente a cada dia, dificultando o seu monitoramento e o processamento das informações armazenadas pelos sistemas (BATTAGLIA, 1999). Para atender a complexidade e as necessidades empresarias deve-se considerar a utilização da tecnologia da informação e seus recursos disponíveis (REZENDE, 2006). A Tecnologia da Informação (TI) pode apoiar os processos de IC, organizando o fluxo da informação e auxiliando nos principais objetivos do sistema de inteligência competitiva: alertar para possíveis oportunidades e ameaças, apoiar o processo de tomada de decisão estratégica, avaliar e monitorar os concorrentes e clientes, a indústria e as tendências políticas e sociais e ajudar no planejamento e no processo estratégico (GOMES & BRAGA, 2004). Deve-se buscar uma tecnologia que seja capaz de impulsionar a estratégia da empresa em vantagem competitiva sustentável. Todas as alternativas tecnológicas devem ser avaliadas desta perspectiva. Segundo Mattos (2005), uma nova tecnologia deve criar algum tipo de vantagem competitiva, que seja capaz de aumentar o valor de um produto para um cliente ou reduzir os custos de levar um determinado produto ao mercado. A criação e aplicação de novas tecnologias de produtos e processos são um constante desafio, e o entendimento destas requer uma compreensão de todo o processo. Para auxiliar estes processos existem diversas ferramentas de TI aplicadas ao apoio a IC que devem atender os seguintes objetivos: a busca, a organização e a disseminação da 106 V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 informação. As ferramentas devem possuir um ambiente que possibilite aos usuários acessar e manter o conteúdo de maneira organizada. Este artigo focará na utilização do MD como ferramenta de apoio a IC, que auxiliará no processamento de uma grande quantidade de dados para a obtenção da informação. 4. UMA VISÃO GERAL SOBRE A MINERAÇÃO DE DADOS A Mineração de Dados é uma das principais etapas da descoberta do conhecimento em banco de dados, sendo conhecido Knowledge Discovery Database (KDD). Com base nas definições de Quonian (2001), o KDD tem a finalidade de encontrar novas relações, padrões e tendências significativas por meio de uma análise cuidadosa dos grandes conjuntos de dados armazenados, que acabam por dificultar a abstração de informações dos mesmos. O processo de descoberta do conhecimento nestes conjuntos de dados normalmente possui de acordo com Goldschmidt & Passos (2005) as seguintes etapas: Pré-processamento: é responsável pela captação, organização e tratamento dos dados. Tem como principal objetivo a preparação dos dados para os algoritmos da etapa de mineração de dados. Data Mining (DM) ou Mineração de Dados (MD): realiza a busca real do conhecimento no contexto da aplicação do KDD. Pós-processamento: compreende o tratamento do conhecimento obtido na MD, objetivando viabilizar a avaliação da utilidade do conhecimento descoberto. A MD consiste na aplicação de algoritmos específicos, os quais extraem padrões a partir dos dados (FAYYAD& PIATETSKY-SHAPIRO & SMYTH, 1996). Esse processo de extração normalmente é difícil de ser efetuado por uma pessoa, sendo viável sua automatização. A seguir será descrito as funcionalidades que as ferramentas de MD normalmente apresentam são (FERREIRA, 2008): Predição: Classificar, estimar ou definir o valor ou o cluster referente a um objeto, evento ou comportamento ainda não ocorrido. Classificação: Classificar e distribuir objetos e entidades em classes ou categorias pré-definidas por meio do reconhecimento de padrões. 107 V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 Agrupamento: Identificar grupos lógicos de pessoas, objetos ou eventos de acordo com seus atributos. Associações: Determinar qual seria o comportamento de um objeto ou entidade na presença de outro objeto. Sequenciação: Prever sequências de eventos que possam conduzir a outros eventos. Segundo Ferreira (2008), a MD não elimina a necessidade do conhecimento do negócio, é uma tecnologia difícil de entender e requer competências especializadas e não remove a necessidade de competência da análise dos dados gerados durante a MD. 4.1. EXPERIMENTO COM A FERRAMENTA WEKA NA OBTENÇÃO DO CONHECIMENTO DE UMA BASE DE DADOS Para auxiliar no entendimento de como ocorre o processo da MD, foi desenvolvido um experimento com uma base de dados de exemplo, com o objetivo de aplicar um algoritmo de classificação, para identificar as principais características encontradas nesta base. Para tal foi usado à ferramenta WEKA, que foi desenvolvida pela Universidade Waikato, e possui uma coleção de algoritmos de aprendizagem de máquina para as tarefas de MD. Onde os algoritmos poderão ser aplicados por meio de uma interface gráfica que auxilia durante todo o processo. 4.1.1. CONHECENDO A BASE DE DADOS A base selecionada para o experimento é uma base de domínio público disponível para download, na qual os pesquisadores podem baixar e realizar teste da aplicação dos algoritmos da MD na fonte de dados. A base escolhida contém informações referentes aos clientes que solicitaram um cartão de crédito e seu pedido foi aprovado ou não. A partir dos atributos informados. A tabela 1 descreve os atributos contidos na base e os respectivos valores que cada atributo pode receber. 108 V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 Tabela 1 - Descrição dos atributos Atributo A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 A15 A16 Valores b, a Numérico Numérico u, y, l, t g, p, gg c, d, cc, i, j, k, m, r, q, w, x, e, aa, ff v, h, bb, j, n, z, dd, ff, o Numérico. t, f t, f Numérico t, f g, p, s Numérico Numérico +,- Conforme pode ser visualizado na tabela 1, os atributos são nomeados como A1, A2, A3,..., An para proteger a confidencialidade das informações, onde n é igual a 16. O atributo A1 é um atributo correspondente a um dos valores em uma tabela do banco de dados, como exemplo, este atributo poderia ser referente ao Sexo do cliente podendo receber os valores M (Masculino) e F (Feminino). Cada registro em um banco de dados, consiste de um conjunto de atributos descritos como previsores e um atributo denominado de meta, um algoritmo de MD é aplicado a um conjunto de exemplos de treinamentos (registros) com uma classe conhecida, para então, descobrir regras que localizem algum relacionamento entre os atributos previsores e o atributo meta. Essa relação é utilizada para prever a classe de exemplos cuja classe é desconhecida, ou seja, para prever o valor do atributo meta (FIDELIS et al., 1999). Com a identificação dos atributos contidos na base o próximo passo é a definição de qual tarefa de mineração será aplicada. A título de pesquisa escolheu-se a tarefa de classificação, para agrupar os atributos comuns a partir de um atributo meta. Antes da aplicação do algoritmo de mineração de dados, o conjunto de dados é de difícil interpretação, conforme podemos visualizar na figura 2. 109 V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 Figura 2 - Dados antes da aplicação da MD Conforme pode ser visualizado na figura 2, a interpretação e abstração de qualquer tipo de informação fica impossibilitada devido a forma como os dados são apresentados, sendo uma tarefa difícil para o ser humano realizar. 4.1.2. Classificação e aplicação do algoritmo Assumindo que o problema é delinear um procedimento que será aplicado em um banco de dados em que as classes são predefinidas e cada novo dado deverá ser associado a uma destas classes, este processo é conhecido como reconhecimento de padrões, discriminação, aprendizagem supervisionada ou classificação (ROMÃO et al., 2000). Segundo Romão (2000), existe diversas formas de representação do conhecimento em um sistema de aprendizagem, muitas vezes, o conhecimento é expresso como um conjunto de regras de classificação do tipo SE-ENTÃO, uma vez que está é intuitiva ao usuário. As regras do tipo SE-ENTÃO são também conhecidas como regras de produção, sendo representada da seguinte forma: SE <antecedente> ENTÃO <conseqüente> O antecedente contém uma combinação, normalmente um conjunto de condições que irá prever à partir dos valores dos atributos. E o consequente contém o valor previsto para o atributo-meta. Um exemplo desta regra é considerar uma carteira de clientes de um banco em 110 V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 que se deseja localizar os clientes que poderão receber um empréstimo bancário, os quais são avaliados os seguintes atributos: faixa salarial e idade, onde (FREITAS, 2002): SE (Salário >= 2000) E (Idade > 25) ENTÃO Cliente = “Empréstimo concedido” SE (Salário < 1000) E (Idade < 25) ENTÃO Cliente = “Empréstimo negado” O algoritmo de mineração de dados tem as regras que acessam somente as regras definidas, onde o algoritmo terá acesso aos valores de predição e ao atributo-meta de cada exemplo no conjunto de treinamento. Portanto, a principal tarefa é descobrir regras de classificação capazes de prever o valor de um atributo-meta a partir dos valores de atributos previsores. Para identificar estas regras utiliza-se um algoritmo que é responsável em identificar e classificar estes atributos, dentre os vários algoritmos existentes o mais utilizado é o da árvore de decisão. As árvores de decisão são modelos estatísticos utilizados em problema de predição supervisionado, em que um conjunto de atributos é usado para predizer o valor de um atributo de saída (resultado), sendo o mapeamento destas entradas para as saídas denominadas de modelo preditivo (ONODA et al., 2001). Elas consistem em nodos que representam os atributos; de arcos, provenientes destes nodos e que recebem os valores possíveis para estes atributos; e de nodos folhas, que representam as diferentes classes de um conjunto de treinamento (SHIBA et al., 2005). Os resultados retornados pelo algoritmo podem ser: discreto (modelo de árvore de classificação) ou contínuo (árvore de regressão). O resultado discreto ocorre quando as folhas fornecem a classe predita e sua probabilidade, já o contínuo fornece apenas uma predição de valor do resultado (MONARD et al., 2005). Normalmente o método utilizado no crescimento da árvore de decisão é baseado em partições recursivas (algoritmo chamado de guloso descendente), começando pelo nó raiz, um número de quebras pertinentes a um atributo de entrada é examinado. O nó raiz é dividido de acordo com uma quebra selecionada, a divisão desta árvore é repetida para cada nó filho como se ele fosse à raiz de uma nova árvore, a profundidade da árvore irá depender de um critério de parada definido por Onoda et al. (2001). Segundo Onada et al (2001), uma árvore de decisão poderá crescer até todo nó ser puro (árvore máxima) quando conterá 100% de precisão nos dados de treinamento, enquanto 111 V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 que uma árvore pequena com poucos ramos pode subaproveitar os dados e consequentemente pode falhar na adaptação de novos atributos, resultando em uma generalização pobre. Após concluir a construção da árvore é necessário avaliá-la, por meio da utilização de dados que não tenham sido usados no treinamento, esta estratégia possibilita estimar como a árvore generaliza os dados e se adapta a novas situações, podendo também estimar a proporção de erros e acertos ocorridos na construção da mesma (SHIBA et al., 2005). Diante deste contexto, foi utilizada a ferramenta WEKA para gerar uma árvore de decisão a partir dos dados contidos na base selecionada. Para tal, primeiramente é necessário gerar um arquivo, com a extensão ARRF, onde serão identificadas as classes conhecidas, ficando o arquivo estruturado da seguinte maneira: Relação: Primeira linha do arquivo. Deve conter a variável @Relation seguida de uma palavra-chave que identifique a relação ou tarefa que está sendo executada. Atributos: conjunto de linhas, em que cada linha é iniciada com @attribute seguida do nome do atributo e seu tipo, que pode ser nominal – as alternativas devem aparecer como uma lista separada por vírgulas e cercada por chave – ou numérico – o nome deve ser seguido da palavra chave real –. Normalmente, em uma tarefa de classificação supervisionada, em que as classes e instâncias usadas para o treinamento são conhecidas, o último atributo é a classe para as instâncias (atributo meta). Dados: Após uma linha contendo @data. Cada linha deve corresponder a uma instância e deve ter valores separados por vírgula correspondentes dos atributos da seção @attribute. Neste arquivo, o atributo meta definido foi o A16 que é o atributo que informa se o crédito foi aprovado ou não. A figura 3 mostra como o arquivo ficou formatado. 112 V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 Figura 3 - Formatação Arquivo Após a conclusão da formatação do arquivo, foi possível utilizar o WEKA para a aplicação do algoritmo J48 que é um algoritmo de árvore de decisão. Este algoritmo constrói um modelo de árvore de decisão baseado num conjunto de dados de treinamento e usa esse modelo para classificar as instâncias do conjunto de testes, utilizando a técnica do guloso descendente. O resultado da execução da mineração de dados pode ser visualizado na figura 4. Pode-se verificar que os dados gerados são mais fáceis de serem interpretados do que os dados ilustrados na Figura 2, pois se geram a partir de dados e da aplicação de um algoritmo de DM suas regras de conhecimento. 113 V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 Figura 4- Saída algoritmo J48 === Classifier model (full training set) === J48 pruned tree -----------------A9 = t | A10 = t: + (228.0/21.0) | A10 = f | | A15 <= 444 | | | A7 = v | | | | A4 = u | | | | | A14 <= 112: + (16.57/1.57) | | | | | A14 > 112 | | | | | | A15 <= 70: - (30.0/10.0) | | | | | | A15 > 70: + (2.0) | | | | A4 = y | | | | | A13 = g: - (12.0/2.0) | | | | | A13 = p: - (0.0) | | | | | A13 = s: + (3.0/1.0) | | | | A4 = l: - (0.0) | | | | A4 = t: - (0.0) | | | A7 = h: + (27.24/8.24) | | | A7 = bb | | | | A3 <= 1.375: + (5.0/1.0) | | | | A3 > 1.375: - (9.13/1.0) | | | A7 = j: - (1.01) | | | A7 = n: + (0.0) | | | A7 = z: + (0.0) | | | A7 = dd: + (1.01/0.01) | | | A7 = ff: - (5.05/1.0) | | | A7 = o: + (0.0) | | A15 > 444: + (21.0/1.0) A9 = f | A3 <= 0.165 | | A7 = v | | | A2 <= 35.58: - (18.72/3.44) | | | A2 > 35.58: + (3.6/0.16) | | A7 = h: - (0.0) | | A7 = bb: + (1.24/0.08) | | A7 = j: + (1.24/0.08) | | A7 = n: + (1.24/0.08) | | A7 = z: - (0.0) | | A7 = dd: - (0.0) | | A7 = ff: - (4.96/0.64) | | A7 = o: - (0.0) | A3 > 0.165: - (298.0/12.0)\ Number of Leaves : Size of the tree : 30 42 A figura 4 mostra a saída do algoritmo J48, representando cada atributo que o banco de dados créditos possui. Onde se interpreta que cada linha representa um nó da árvore. As linhas que possui o caractere “ | ” são filhos dos nós principais, como ilustra a Figura 5. Figura 5 - Parte do resultado do algoritmo A9 = t Nó Pai | A10 = t: + (228.0/21.0) Nó filho E na próxima parte da linha é declarada a regra. Após a regra encontra-se o resultado, que neste exemplo, tenta-se achar os atributos dos clientes que tem seu crédito aprovado ou reprovado. A primeira parte dos valores entre parênteses indica quantas instâncias no conjunto estudado são corretamente classificados para este nó, na figura 3, visualiza-se que foram encontradas 228 instâncias e na segunda parte indica o número de instâncias incorretamente classificados. 114 V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 A partir dos dados da figura 2, é possível agora identificar como que cada atributo se relaciona entre si, para alcançar o atributo meta, que no nosso experimento foi o atributo A 16 que identifica se o crédito foi ou não aprovado, no exemplo da figura 5, é possível identificar que os clientes que possuem o atributo A9 igual a “t” e se o atributo A10 for igual “t” possui o crédito como aprovado. Ao final de toda a árvore são mostrados alguns dados de medição de erros sobre o modelo gerado, como ilustra a Figura 6. Figura 6 - Medição de Erros === Stratified cross-validation === === Summary === Correctly Classified Instances 594 86.087 % Incorrectly Classified Instances 96 13.913 % Kappa statistic 0.718 Mean absolute error 0.1924 Root mean squared error 0.3313 Relative absolute error 38.9417 % Root relative squared error 66.6637 % Total Number of Instances 690 Através destas estatísticas geradas é possível identificar a quantidade de erros encontrados no conjunto de dados analisados, se a diferença entre as instâncias classificados corretamente e as instâncias incorretas forem grandes, talvez seja necessária recomeçar todo o processo e ajustá-lo para que o mínimo de erros seja encontrado. Todo o processo é facilitado com a utilização da ferramenta WEKA, que corretamente configurada pode ser uma ferramenta que agregue valor a empresa. Através dela é possível tomar conhecimento de regras ainda desconhecidas, pois está é capaz de identificar com certas facilidades novos padrões e tendências, que de outra forma poderia demandar muito tempo, e quando finalmente a informação chegasse às mãos dos tomadores de decisão essas já poderiam estar defasadas devido às mudanças dinâmicas do mercado. 5. CONTRIBUIÇÕES FINAIS 115 V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 Um fator que diferencia as organizações é sua capacidade de transformar os dados disponíveis em informação e conhecimento de valor agregado, que suportem a tomada de decisões de negócio aos níveis estratégicos, táticos e operacionais. Para tal as organizações hoje podem contar com uma grande variedade de ferramentas, entre elas a DM, que tem como objetivo transformar os dados em informações que as empresas poderão vir a utilizar na tomada de decisão e nas definições de suas estratégias no mercado, buscando a melhoria contínua de seus processos, produtos e serviços prestados a comunidade. A Gestão do conhecimento tem um grande impacto nas organizações, tornando-as mais competitiva no mercado, pois são empresas capazes de gerir seu conhecimento e disseminá-lo. Conhecendo como desenvolver e incorporar novas informações de maneira mais rápida, obtendo uma visão diferenciada de seus concorrentes. Os resultados apresentados no presente artigo atingiram os objetivos desta pesquisa evidenciando que a utilização de uma ferramenta capaz de descobrir novas informações em banco de dados, onde contém uma grande quantidade de dados, pode ser um grande diferencial para a empresa que consegue utilizar a ferramenta de forma correta. A ferramenta facilita a interpretação e abstração dos dados que a empresa possui em seus bancos de dados. É importante salientar que a ferramenta de mineração de dados não substitui o papel do gestor. Para que a mineração de dados retorne um bom resultado é preciso uma constante parceria entre os especialistas técnicos com os especialistas de negócio. Podendo assim, a empresa criar realmente um diferencial perante seus concorrentes, por conseguir manipular suas informações de forma rápida e eficiente, tomando uma posição estratégica no mercado. Como sugestões de trabalhos futuros propõem-se: a ampliar o presente estudo com vistas em seu aperfeiçoamento; desenvolver uma pesquisa com relação ao impacto das informações geradas na gestão das empresas que utilizam a mineração de dados como ferramenta de planejamento estratégico; elaborar um estudo sobre as demais tarefas de mineração de dados. REFERÊNCIAS ALMEIDA, Adiel Teixeira and COSTA, Ana Paula Cabral Seixas. Sistemas de Informação e Gestão do conhecimento. Introdução à Engenharia de Produção. 2008. 116 V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 BATTAGLIA, Maria da Glória Botelho. A inteligência Competitiva modelando o Sistemas de Informação de Clientes - FINEP. Ciência da Informaçào. 1999, vol. 29, pp. 200-214. 1999. CARVALHO, Rodrigo Baroni de. Aplicações de Software de Gestão do Conhecimento: Tipologia de Uso. Tese de Mestrado. Minas Gerais: Universidade Federal de Minas Gerais, 2000. CASANOVA, Anderson Araújo. Mineração de Dados: Algoritmo da confiança inversa. Dissertação. São Luís: Universidade do Maranhão: Curso de Pós-Graduação em engenharia de eletricidade, 2005. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge Discovery in Databases. AI MAGAZINE , 37-54. 1996. FERREIRA, Antônio. Organizações Inteligentes do Data Mining às soluções Preditivas. Lisboa : NovaBase, 2008. FIDELIS, Marcos Vinicius, LOPES, Heitor Silvério e FREITAS, Alex Alves. Um algoritmo genético para descobrir regras Data Mining. Anais do XIX Congresso Nacional da Sociedade Brasileira de Computação. 1999, Vol. IV, pp. 17-29. FREITAS, Alex Alves. A Survey of evolution algorithms for Data Mining and Knowledge Discovery. Advances in Evolutionary Compution. 2002, pp. 819-845. GHOSHAL, Sumantra e TANURE, Betania. Estratégia e Gestão Empresarial: Construindo empresas brasileiras de sucesso. Rio de Janeiro : Elsevier, 2004. GOMES, Elisabeth e BRAGA, Fabiane. Inteligência Competitiva: Como transformar informação em um negócio lucrativo. Rio de Janeiro: Campus, 2004. LAKATOS, E. M. MARCONI, M. A. Fundamentos de Metodologia científica. 4. ed. São Paulo: Atlas, 2001. LEUCH, Verônica. Gestão do conhecimento na empresa: elementos facilitadores e possíveis barreiras. Programa de Pós-Graduação em Engenharia de Produção - Universidade Tecnólogica Federal do Paraná. 2006. MATTOS, João Loureiro de e GUIMARÃES, Leonam dos Santos. Gestão da Tecnologia e Inovação: Uma abordagem prática. São Paulo : Saraiva, 2005. MARCONDES, Carlos Henrique. Representação e economia da Informação. Ciência da Informação. 30, 2001, Vol. 3, pp. 61-70. 117 V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 MONARD, M. C. e BARANAUSKAS, J. A. Aplicações. Baueri, SP : Manole, 2005. Sistemas Inteligentes: Fundamentos e MORESI, Eduardo Amadeu Dutra. Integração Organizacional: um referencial integrado. Ciência da Informação. 2, 2001, Vol. 30, pp. 35-46. ONODA, Mauricio e EBECKEN, Nelson F. F. Implementação em Java de um algoritmo de árvore de decisão acoplado a um SGBD Relacional. Simpósio Brasileiro de Banco de Dados. XVI, 2001, pp. 55-64. QUONIAN, L. E.. Inteligência obtida pela aplicação de Data Mining em bases de teses francesas sobre o Brasil. Ciência e Informação, 30, pp. 20-28. 2001. REZENDE, Denis Alcides e ABREU, Aline França de. Tecnologia da Informação: aplicada a sistema de informação empresariais. Rio de Janeiro: Atlas, 2006. RICHARDSON, Roberto Jarry et al. Pesquisa social: métodos e técnicas. 2. ed. São Paulo: Atlas, 1989. ROCHA, Roberto Rego Vieira da. O Processo de Gestão do Conhecimento como uma ferramenta estratégica duratora e eficaz para as organizações: desafios e barreiras para a implementação. . ENEGEP. 2005. ROMÃO, Wesley, FREITAS, Alex Alves e PACHECO, Roberto dos Santos. Uma revisão de abordagens genético-difusas para descoberta de conhecimento em banco de dados. Acta Scientiarum. 2000, pp. 1347-1359. SHIBA, Marcelo Hiroshi, et al. Classificação de imagens de sensoriamento remoto pela aprendizagem por árvore de decisão: Uma avaliação de desempenho. Anais XII Simpósio Brasileiro Remoto pp. 16-21. 2005. TARAPANOFF, Kira, JÚNIOR, Rogério Henrique Araújo e CORNIER, Patricia Marie Jeanne. Sociedade da informação e inteligência em unidade de informação. Ciência da Informação. n. 3, Vol. V. 29, pp. 91-100. 2000. TERRA, José Cláudio Cyrineu e ALMEIDA, Carolina. Gestão do Conhecimento e Inteligência Competitiva: duas faces da mesma moeda. Terra Forum Consultores. Disponível em <http://www.terraforum.com.br/sites/terraforum/Biblioteca/Duas%20faces %20da% 20mesma%20moeda.pdf>. Acessado em 12 de junho de 2008. TERRA, José Cláudio Cyrineu. Gestão do Conhecimento e E-Learning na prática. Rio de Janeiro : Elsevier, 2003. 118 V CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO Gestão do Conhecimento para a Sustentabilidade Niterói, RJ, Brasil, 2, 3 e 4 de julho de 2009 VALENTIM, Marta Lígia Pomim e MOLINA, Letícia Gorri. Prospecção e Monitoramento informacional no processo de Inteligência Competitiva. Ciência da Informação. 2004. WEKA. The University of Waikato: Software. Disponível em < http://www.cs.waikato.ac.nz/ ml/weka/>. Acesso em 24/11/2008. 119