UNIVERSIDADE CATÓLICA DE BRASÍLIA PROGRAMA DE PÓS-GRADUAÇÃO STRICTO SENSU GESTÃO DO CONHECIMENTO E DA TECNOLOGIA DA INFORMAÇÃO EXPLORANDO O POTENCIAL DA PLATAFORMA LATTES COMO FONTE DE CONHECIMENTO ORGANIZACIONAL EM CIÊNCIA E TECNOLOGIA Marcelo Vicente de Paula BRASÍLIA 2004 MARCELO VICENTE DE PAULA EXPLORANDO O POTENCIAL DA PLATAFORMA LATTES COMO FONTE DE CONHECIMENTO ORGANIZACIONAL EM CIÊNCIA E TECNOLOGIA Dissertação apresentada ao programa de pósgraduação stricto sensu em Gestão do Conhecimento e da Tecnologia da Informação da Universidade Católica de Brasília, como requisito para obtenção do título de Mestre. Orientador: Prof. Dr. Hércules Antônio do Prado Co-orientador: Prof. Dr. Rogério Alvarenga BRASÍLIA 2004 À Ariadne e à Luciana Minha esposa e minha filha, doçura e força femininas que tanto emocionam a minha vida. Aos meus pais, João e Julia Que sempre me apoiaram, da maneira que lhes foi possível, com amor e sacrifício, incentivando em mim o gosto pelos estudos e o desejo do saber. Ao Criador, pelos milagres de cada dia e pela oportunidade de conviver com tantas pessoas especiais durante este projeto. Em especial aos meus orientadores, Prof. Dr. Hércules Prado e Prof. Dr. Rogério Alvarenga, que, mesmo nos momentos de maior dificuldade, tão bem souberam trazer a orientação necessária para continuar. Aos professores do programa de Gestão do Conhecimento e da Tecnologia da Informação, principalmente: Prof. Dra. Adelaide, Prof. Dr. Edílson, Prof. Dr. Gentil, Prof. Dra. Kátia, Prof. Dr. Nicolas, Prof. Dr. Paulo Fresneda. Ao CNPq, disponibilizou acesso aos seus bancos de dados, e a atenção de seus colaboradores, principalmente o Sr. Geraldo Sorte, Coordenador Geral de Informática, a Sra. Silvana Cosac, Assessora da Diretoria, e o Sr. Ricardo Lourenço, Consultor em C&T. Ao Grupo Stela, participante do projeto Plataforma Lattes, nas pessoas da Srta. Isabela Anciutti e do Sr. Denílson Sell. RESUMO A Plataforma Lattes é um conjunto de sistemas de informação, bases de dados e portais Web voltados para a gestão de Ciência e Tecnologia, mantida pelo CNPq – Conselho Nacional de Desenvolvimento Científico e Tecnológico, fundação ligada ao Ministério da Ciência e Tecnologia. A disponibilidade de uma rica fonte de informações sobre a pesquisa nacional existente na Plataforma Lattes abre oportunidades para a geração de conhecimento em Ciência & Tecnologia. Para explorar este potencial de conhecimento, serão apresentados dois estudos de caso. No primeiro buscou-se caracterizar orientadores responsáveis por casos de sucesso do Programa de Iniciação Científica do CNPq. No segundo estudo, o objetivo foi a identificação de linhas de pesquisa de um grupo de docentes, coerente com a sua produção científica e tecnológica, tomada da base de dados de currículos da Plataforma Lattes. No desenvolvimento dos estudos de caso foram aplicadas técnicas de Mineração de Dados (MD), no primeiro caso, e de Mineração de Texto (MT), no segundo. Os padrões encontrados nos processos de MD e MT foram interpretados por especialistas visando facilitar a transição padrãoconhecimento situada na interface entre as áreas de Descoberta de Conhecimento em Bases de Dados (DCBD) e Gestão do Conhecimento (GC). As principais contribuições deste trabalho foram: (a) um método para interpretação de padrões desenvolvidos a partir da Ontologia da Linguagem, no contexto de DCBD; (b) geração de conhecimento organizacional; e (c) exploração de novas possibilidades para a geração de conhecimento organizacional a partir da Plataforma Lattes. Palavras-chave: gestão do conhecimento, mineração de dados, mineração de texto, descoberta de conhecimento, Plataforma Lattes. ABSTRACT The Plataforma Lattes is a framework composed by a set of information systems, databases, and Web portals addressed to Research and Development (R&D) management. CNPq - Brazilian Council of National Research and Technological Development, a foundation from the Ministry of R&D, maintains this framework. The availability of a rich source of information about R&D represents opportunities for creating knowledge in this realm. Exploring this potential of knowledge generation, two cases will be described. Firstly, the search for the characterization of professors who oriented students in Scientific Started Programs of CNPq. Secondly, the identification of research lines made by a group of professors, consistent with their scientific and technological production, extracted by Plataforma Lattes´s databases. In the study cases, techniques of Data Mining (DM) and Text Mining (TM) were used. The patterns that have been found by DM and TM processes were interpreted by experts, envisioning to improve the transition pattern/knowledge that exist into the interface between Knowledge Discovery in Databases (KDD) and Knowledge Management (KM). The main contributions of this dissertation were: (a) an interpretation method for patterns developed using the Language Ontology as example; (b) organizational knowledge creation; (c) explore new ways to create organizational knowledge using the Plataforma Lattes. Keywords: knowledge management, data mining, text mining, knowledge discovery, Plataforma Lattes. SUMÁRIO RESUMO ...............................................................................................................................................VI ABSTRACT......................................................................................................................................... VII LISTA DE FIGURAS ........................................................................................................................... 10 LISTA DE TABELAS........................................................................................................................... 12 LISTA DE TABELAS........................................................................................................................... 12 CAPÍTULO 1......................................................................................................................................... 13 1 INTRODUÇÃO ........................................................................................................................... 13 1.1 CONTEXTO DA PESQUISA ...................................................................................................... 13 1.2 DESCRIÇÃO DO PROBLEMA ................................................................................................... 14 1.3 JUSTIFICATIVA ...................................................................................................................... 15 1.4 OBJETIVOS ............................................................................................................................ 16 1.4.1 Objetivo Geral ................................................................................................................. 16 1.4.2 Objetivos Específicos ...................................................................................................... 16 1.5 REVISÃO DA LITERATURA..................................................................................................... 17 1.6 POSSIBILIDADES DE APLICAÇÃO DE DCDB NA PLATAFORMA LATTES ................................. 17 1.7 CLASSIFICAÇÃO DA PESQUISA ............................................................................................... 18 1.8 SUPOSIÇÕES .......................................................................................................................... 18 CAPÍTULO 2......................................................................................................................................... 19 2 REVISÃO DA LITERATURA................................................................................................... 19 2.1 A PLATAFORMA LATTES....................................................................................................... 19 2.1.1 Sistemas de Informação da Plataforma Lattes................................................................. 19 2.1.2 Estrutura da Plataforma Lattes ........................................................................................ 21 2.2 GESTÃO DO CONHECIMENTO ................................................................................................ 29 2.2.1 Conceitos Iniciais ............................................................................................................ 29 2.2.2 Gestão do Conhecimento................................................................................................. 36 2.3 DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS ...................................................... 53 2.3.1 Conceito .......................................................................................................................... 54 2.3.2 Histórico.......................................................................................................................... 54 2.3.3 Etapas .............................................................................................................................. 55 2.4 DESCOBERTA DE CONHECIMENTO EM TEXTOS ..................................................................... 59 2.5 TÉCNICAS DE MINERAÇÃO DE DADOS .................................................................................. 63 2.5.1 Tarefas Básicas................................................................................................................ 64 2.5.2 Caracterização da Mineração de Dados........................................................................... 68 2.5.3 Árvores de Decisão ......................................................................................................... 69 2.5.4 Redes Neuronais Artificiais............................................................................................. 70 2.5.5 Abordagens Híbridas....................................................................................................... 74 2.5.6 Ferramenta para a Mineração de Dados .......................................................................... 76 2.6 TÉCNICAS DE MINERAÇÃO DE TEXTOS ................................................................................. 85 2.6.1 Mineração de Texto......................................................................................................... 85 2.6.2 Tarefas Básicas................................................................................................................ 86 2.6.3 Ferramenta para a Mineração de Texto ........................................................................... 87 2.7 ONTOLOGIA DA LINGUAGEM ................................................................................................. 91 2.7.1 Atos lingüísticos básicos ................................................................................................. 92 2.7.2 Juízos............................................................................................................................... 94 CAPÍTULO 3......................................................................................................................................... 96 3 METODOLOGIA........................................................................................................................ 96 3.1 CONSIDERAÇÕES GERAIS ...................................................................................................... 96 3.1.1 Coleta e análise de dados................................................................................................. 96 3.1.2 Delimitação do estudo ..................................................................................................... 96 3.2 ESPECIFICAÇÃO DA PESQUISA ............................................................................................... 96 3.2.1 Perfil do orientador do PIBIC ......................................................................................... 97 3.2.2 Agrupamento de docentes a partir de suas publicações................................................... 98 3.3 METODOLOGIA UTILIZADA NOS ESTUDOS DE CASO ............................................................... 99 3.4 ETAPAS DA PESQUISA .......................................................................................................... 100 3.4.1 Gestão do Conhecimento............................................................................................... 101 3.4.2 Descoberta de Conhecimento em Bases de Dados ........................................................ 105 3.4.3 Descoberta de Conhecimento em Textos ...................................................................... 112 CAPÍTULO 4....................................................................................................................................... 130 4 ANÁLISE DOS RESULTADOS .............................................................................................. 130 4.1 4.1.1 Resultados da Mineração de Dados............................................................................... 130 4.1.2 Resultados finais ........................................................................................................... 131 4.2 4.2.1 5 ESTUDO DE CASO: PERFIL DO ORIENTADOR DO PIBIC ........................................................ 130 ESTUDO DE CASO: AGRUPAMENTO DE DOCENTES ............................................................... 134 Resultados da Mineração de Texto................................................................................ 135 CONCLUSÕES E TRABALHOS FUTUROS ........................................................................ 141 REFERÊNCIAS BIBLIOGRÁFICAS .............................................................................................. 143 LISTA DE FIGURAS FIGURA 1: ESTRUTURA DO CURRÍCULO LATTES .................................................................................................... 23 FIGURA 3: ESTRUTURA DO DIRETÓRIO DOS GRUPOS DE PESQUISA ........................................................................ 26 FIGURA 4: MODELO GENÉRICO DO GC [STOLL01 APUD SOUSA03] ................................................................... 53 FIGURA 6: PRINCIPAIS ETAPAS DO PROCESSO DE DCBD ........................................................................................ 56 FIGURA 7: APRESENTAÇÃO GEOMÉTRICA DE UMA ÁRVORE DE DECISÃO [LUCEN01] ........................................... 70 FIGURA 8: MODELO DE NEURÔNIO BIOLÓGICO E ARTIFICIAL [MEDLE98] ............................................................ 72 FIGURA 9: REDE NEURONAL ARTIFICIAL COM UMA CAMADA INTERMEDIÁRIA [BRASI02]................................... 73 FIGURA 10: MODELO NEURAL COMBINATÓRIO [PRADO98] ................................................................................ 75 FIGURA 11: FUNÇÕES DE UM MODELO KBANN [OSORI99] ................................................................................. 76 FIGURA 12: RELAÇÃO DOS PACOTES DO WEKA – ADAPTAÇÃO DE [SALGA02] ................................................... 78 FIGURA 13: EXEMPLO DE ARQUIVO .ARFF DO WEKA............................................................................................ 80 FIGURA 14: ALGORITMO APRIORI – ROTINA PRINCIPAL.......................................................................................... 82 FIGURA 15: CLASSIFICADORES NO WEKA ............................................................................................................. 82 FIGURA 16: ALGORITMOS DE AGRUPAMENTO DO WEKA....................................................................................... 83 FIGURA 17: TELA INICIAL DO WEKA .................................................................................................................... 84 FIGURA 18: CONFIGURAÇÃO DE PARÂMETROS NO WEKA ..................................................................................... 85 FIGURA 19: TELA DE ENTRADA DO EUREKHA......................................................................................................... 88 FIGURA 20: GRUPOS NO EUREKHA ......................................................................................................................... 89 FIGURA 21: JANELA DE STOP WORDS DO EUREKHA................................................................................................. 90 FIGURA 25: GESTÃO DO CONHECIMENTO E DESCOBERTA DE CONHECIMENTO EM BD .......................................... 99 FIGURA 27: INTERAÇÃO DA GESTÃO DO CONHECIMENTO E DA DESCOBERTA DE CONHECIMENTO ...................... 100 FIGURA 28: ARQUIVO DE ENTRADA PARA O WEKA ............................................................................................. 111 FIGURA 29: EUREKHA – NOVO PROJETO/ABRIR PROJETO ................................................................................... 119 FIGURA 30: EUREKHA – ADICIONAR ARQUIVOS ................................................................................................... 120 FIGURA 31: EUREKHA – LISTAS DE PALAVRAS NEGATIVAS .................................................................................. 121 FIGURA 32: EUREKHA – IDENTIFICAR RELACIONAMENTOS .................................................................................. 122 FIGURA 33: EUREKHA – VISUALIZAR GRUPOS ...................................................................................................... 123 FIGURA 34: EUREKHA – REAGRUPAR ................................................................................................................... 124 FIGURA 35: AGRUPAMENTO 1998/1999 ............................................................................................................... 125 FIGURA 36: AGRUPAMENTO 2000/2001 ............................................................................................................... 126 FIGURA 37: AGRUPAMENTO 2002 A 2004 ............................................................................................................ 127 FIGURA 38: AGRUPAMENTO 1998 A MARÇO DE 2004........................................................................................... 128 FIGURA 39: BOLSISTAS POR ORIENTADOR ............................................................................................................ 131 FIGURA 40: GRUPOS DE BOLSISTAS POR ORIENTADOR .......................................................................................... 132 FIGURA 41: ALUNOS TITULADOS POR ORIENTADOR .............................................................................................. 133 FIGURA 42: RESUMO DO PERFIL DO ORIENTADOR ................................................................................................. 134 FIGURA 43: PRODUÇÃO POR ANO – I .................................................................................................................... 137 FIGURA 44: PRODUÇÃO POR ANO – II................................................................................................................... 138 FIGURA 45: PERCENTUAL DE TRABALHOS POR IDIOMA DE PUBLICAÇÃO .............................................................. 138 LISTA DE TABELAS TABELA 1: MODELOS DE GC [RUBESTEIN-MONTANO AT AL. APUD FERREI03]. .. 43 TABELA 2: PROCESSOS DO CONHECIMENTO [FERREI03].......................................................... 47 TABELA 3: DESCRIÇÃO DOS PACOTES DO WEKA – ADAPTADO DE [SALGA02] ............. 78 TABELA 4: SOBRE AFIRMAÇÕES E DECLARAÇÕES........................................................................... 93 TABELA 5: SOBRE PROMESSAS ................................................................................................................ 93 TABELA 6: QUANTIDADE DE PROCESSOS DE IC POR ANO........................................................... 107 TABELA 7: QUANTIDADE DE ALUNOS TITULADOS POR ANO ..................................................... 108 TABELA 8: EX-BOLSISTAS PIBIC TITULADOS STRICTO SENSU ................................................. 109 TABELA 9: QUANTIDADES DE REGISTROS DE DOCENTES E PRODUÇÃO................................ 114 TABELA 10: LISTA DE PALAVRAS NEGATIVAS ................................................................................ 116 TABELA 11: CENTRÓIDES DOS AGRUPAMENTOS POR PERÍODO ............................................... 136 TABELA 12: MGCTI – TOTAIS DE PRODUÇÃO POR ANO ............................................................ 137 13 CAPÍTULO 1 1 INTRODUÇÃO 1.1 Contexto da Pesquisa Nos últimos anos, a larga utilização de sistemas de informática deu origem a grandes bases de dados, a partir do armazenamento de informações coletadas incessantemente através dos mais diversos sistemas de automação. Segundo diversos autores, a maior riqueza destas grandes bases ainda não está sendo devidamente explorada, e sugerem que podem ser utilizadas técnicas específicas para se extrair delas conhecimentos não explícitos. Este assunto é tratado através de DCBD Descoberta de Conhecimento de Bases de Dados, do inglês KDD - Knowledge Discovery in Databases. Segundo Fayyad [FAYYA96], DCBD é “o processo não trivial de identificar, em dados, padrões válidos, novos e potencialmente úteis”. Mineração de Dados é a parte deste processo onde se produzem conjuntos de padrões a partir da aplicação de algoritmos de exploração. Vale-se de diversos algoritmos que processam os dados e encontram esses "padrões válidos, novos e potencialmente úteis". Entretanto, embora os algoritmos atuais sejam capazes de descobrir padrões "válidos e novos", ainda não existe uma solução eficaz para determinar padrões “potencialmente úteis”. Assim, Mineração de Dados ainda requer uma interação muito forte com analistas humanos, que são, em última instância, os principais responsáveis pela determinação do valor dos padrões encontrados. Além disso, a condução do direcionamento da exploração de dados é também tarefa fundamentalmente confiada a analistas humanos. A Plataforma Lattes, uma iniciativa do Ministério da Ciência e Tecnologia através do CNPq1, constitui-se atualmente em um grande acervo de informações sobre os pesquisadores e sua produção científica e tecnológica, através do Currículo Lattes, o formulário eletrônico 1 CNPq: Conselho Nacional de Desenvolvimento Científico e Tecnológico. 14 do MCT2, do CNPq, da FINEP3 e da CAPES4; sobre os grupos de pesquisa existentes nas universidades, nas empresas e outras instituições ligadas à pesquisa científica; sobre as instituições que participam de projetos ligados ao CNPq e/ou mantém grupos de pesquisa. No contexto da Gestão do Conhecimento, a Plataforma Lattes apresenta um grande potencial de geração de conhecimento que pode ser utilizado na gestão da Ciência e Tecnologia. As diversas possibilidades de exploração dos dados armazenados podem trazer valiosas informações sobre o modus operandi da produção científica e tecnológica desenvolvida no país. Este trabalho apresenta uma proposta de utilização de técnicas de Descoberta de Conhecimento em Bases de Dados sobre os dados da Plataforma Lattes, com o objetivo de gerar conhecimento que possa ser utilizado na gestão de Ciência e Tecnologia. Tem o objetivo também de demonstrar que a Descoberta de Conhecimento em Bases de Dados pode ser utilizada como uma poderosa ferramenta para a geração de conhecimento, etapa fundamental dos processos de Gestão do Conhecimento. 1.2 Descrição do Problema O mundo cada vez mais globalizado e competitivo exige incrementos de qualidade e produtividade de quem pretende manter-se inserido no mercado mundial. Neste contexto, a produção científica e tecnológica é fundamental para o desenvolvimento do país, permitindo a obtenção de produtos e serviços com maior valor agregado para este mercado. Assim, ações no sentido de gerar conhecimento organizacional que possa ser utilizado na gestão da Ciência & Tecnologia são muito bem-vindas, sejam pelas agências do governo federal, pelas universidades, pelas empresas e instituições que mantêm atividades de pesquisa. O desenvolvimento da Plataforma Lattes representa uma iniciativa de se manter um grande conjunto de informações sobre a produção científica e tecnológica do país, de seus pesquisadores, dos trabalhos realizados, dos grupos de pesquisa e das operações de fomento à pesquisa patrocinados pelo CNPq. 2 MCT: Ministério da Ciência e da Tecnologia 3 FINEP: Financiadora de Estudos e Projetos do MCT 4 CAPES: Coordenação de Aperfeiçoamento de Pessoal de Nível Superior 15 A exploração das informações tratadas pela Plataforma Lattes representa uma oportunidade para a descoberta de conhecimento. Encontram-se armazenados vários gigabytes de dados sobre os itens anteriormente citados. Entretanto, esta exploração não é uma atividade simples. O grande volume de dados, a diversidade de informações coletadas, o grande número de relações possíveis torna o trabalho de extração de conhecimento uma tarefa que exige a utilização de técnicas sofisticadas. Outro desafio observado está na necessidade de facilitar o processo de análise e avaliação dos resultados dos algoritmos de mineração de dados e mineração de texto. A identificação do que é realmente útil e que pode acrescentar conhecimento à organização é uma das tarefas mais importantes de todo o processo. Atualmente, os gestores de ciência e tecnologia se beneficiariam da obtenção de informações como: a) Definição de perfis de pesquisadores. b) Definição de padrões de produtividade. c) Identificação de taxonomia. d) Descoberta de relações entre pesquisadores. e) Descoberta de relações entre grupos de pesquisa. f) Identificação de pesquisadores por área de atuação e sua relação com grupos de pesquisa. O problema a ser explorado neste trabalho refere-se à utilização de técnicas de Mineração de Dados e Mineração de Texto na Plataforma Lattes, com o objetivo de gerar conhecimento organizacional a partir do estabelecimento de relações entre os dados armazenados. Através de modelos de Descoberta de Conhecimento em Bases de Dados e de Gestão de conhecimento, pretende-se estabelecer um conjunto de possíveis aplicações para a Mineração de Dados na Plataforma Lattes, com a conseqüente geração de conhecimento para a gestão de Ciência & Tecnologia. 1.3 Justificativa A realização deste trabalho justifica-se pela necessidade de se obter conhecimento organizacional em gestão de Ciência & Tecnologia para subsidiar as decisões relacionadas a esta atividade (e.g. definição de prioridades, organização de grupos de pesquisa, alocação de recursos, entre outras), explorando a possibilidade de obtenção de conhecimento 16 organizacional a partir da aplicação de técnicas de Mineração de Dados e Mineração de Textos na base da Plataforma Lattes, utilizando um enfoque relacionado com a Gestão do Conhecimento. A utilização de algoritmos e ferramentas de Mineração de Dados pode revelar relações importantes entre os dados armazenados, e permitir uma conseqüente geração de conhecimento organizacional. Este conhecimento, devidamente tratado em um contexto de Gestão de Conhecimento pode vir a ser útil nos processos de tomada de decisão dos gestores de Ciência e Tecnologia, seja a nível federal, estadual, acadêmico ou empresarial. 1.4 Objetivos 1.4.1 Objetivo Geral O objetivo deste trabalho é estudar técnicas de Mineração de Dados e definir aplicações destas técnicas na base de dados do Currículo Lattes, para prover os gestores de Ciência & Tecnologia de ferramentas que permitam utilizar o conhecimento não explícito presente neste grande conjunto de dados sobre a produção científica e sobre os pesquisadores. Esse conhecimento gerado deverá ser tratado em um contexto de Gestão do Conhecimento para sua utilização em processos de gestão de Ciência & Tecnologia. 1.4.2 Objetivos Específicos a) Apresentar conceitos envolvendo Mineração de Dados, Mineração de Textos e Gestão do Conhecimento. b) Enumerar possibilidades de Descoberta de Conhecimento em Bases de Dados na Plataforma Lattes. c) Apresentar estudo de caso de Mineração de Dados na Plataforma Lattes. d) Apresentar estudo de caso de Mineração de Texto na Plataforma Lattes. e) Apresentar um método para a interpretação de resultados de algoritmos de agrupamento. f) Contextualizar os resultados obtidos com a Mineração de Dados em relação a Gestão do Conhecimento 17 1.5 Revisão da Literatura Neste trabalho, os temas principais são: Descoberta de Conhecimento em Bases de Dados, notadamente as técnicas de Mineração de Dados e Mineração de Texto; e Gestão do Conhecimento. Assim, a revisão literária enfocou principalmente estes temas. No tópico Descoberta de Conhecimento em Bases de Dados, um dos principais autores é Fayyad [FAYYA96]. Citado em diversos artigos e livros sobre o tema, o autor propôs uma metodologia para orientar os trabalhos em DCBD. Para a realização deste trabalho, esta metodologia foi considerada. Além de Fayyad, outros autores como Witten e Eibe [WITTE99] – aplicativo de Mineração de Dados WEKA, e Ming-Syan Chen [CHEN96] – Mineração de Dados e Bancos de Dados, foram consultados. Também foram de grande valia dissertações de mestrado de Sousa [SOUSA03] e Edilberto Silva [SILVA02], assim como os trabalhos de mineração de texto de Wives [WIVES99]. Para a interpretação de resultados em Descoberta de Conhecimento, utilizou-se os trabalhos de Flores [FLORE88], Echeverría [ECHEV99] e Lucena [LUCEN02] sobre a Ontologia da Linguagem. No tópico Gestão do Conhecimento, os principais autores consultados foram Nonaka e Takeuchi [NONAK97] – com importantes colaborações sobre a criação de conhecimento na empresa; Karl Wiig [WIIG93] – também sobre a Gestão do Conhecimento empresarial; e a pesquisadora Stollenwerk [STOLL01], que elaborou um importante modelo de Gestão de Conhecimento, também utilizado neste trabalho. 1.6 Possibilidades de Aplicação de DCDB na Plataforma Lattes A pluralidade e o volume da base de dados da Plataforma Lattes é um ambiente propício para a descoberta de conhecimento, a partir da aplicação de técnicas de Descoberta de Conhecimento em Bases de Dados. Alguns exemplos de explorações que podem ser efetuadas: a) Mineração de texto para a geração de taxonomia dos Grupos de Pesquisa. b) Mineração de texto para a verificação da consistência entre as linhas de pesquisa e a produção científica e tecnológica. c) Agrupamento de pesquisadores a partir de sua produção científica e tecnológica. 18 d) Identificação de perfis de pesquisadores a partir de suas informações curriculares. e) Identificação de competências dos pesquisadores a partir de suas informações curriculares. f) Identificação de linhas de pesquisa a partir das informações da produção científica e tecnológica dos pesquisadores. 1.7 Classificação da pesquisa Quanto aos fins, este trabalho é classificado como uma proposta de pesquisa aplicada, uma vez que tem por objetivo o estudo e a utilização de técnicas de Mineração de Dados e Mineração de Texto na base do Currículo Lattes, para oferecer recursos de gestão de conhecimento em Ciência & Tecnologia. Quanto aos meios de investigação, foi utilizada a pesquisa bibliográfica, para a identificação das técnicas de Mineração de Dados aderentes ao objeto pesquisado; e a pesquisa documental, em documentos que tratam de questões sobre gestão da Ciência & Tecnologia. Foi utilizada também a pesquisa de laboratório, onde se experimentou a aplicação dos algoritmos selecionados em amostras da base de dados pesquisada; e estudos de casos, onde dados da Plataforma Lattes foram submetidos a algoritmos de Mineração de Dados e Mineração de Texto. 1.8 Suposições O trabalho proposto tratou das seguintes suposições: a) É viável a utilização de técnicas de Mineração de Dados e Mineração de Textos para disponibilizar ao usuário final acesso facilitado aos resultados obtidos em pesquisas na base de dados. b) É possível extrair conhecimento útil da base de dados do Currículo Lattes através da utilização de técnicas de Mineração de Dados e Mineração de Textos. a) A Descoberta de Conhecimento em Bases de Dados pode ser utilizada no contexto da Gestão do Conhecimento para a geração de conhecimento organizacional. 19 CAPÍTULO 2 2 REVISÃO DA LITERATURA 2.1 A Plataforma Lattes A Plataforma Lattes “é um conjunto de sistemas de informação, bases de dados e portais Web voltados para a gestão de Ciência e Tecnologia” [CNPQ03]. É composta pela integração de sistemas de informações distintos: a) Currículo Lattes b) Diretório de Grupos de Pesquisa c) Diretório de Instituições d) Sistema Gerencial de Fomento 2.1.1 Sistemas de Informação da Plataforma Lattes 2.1.1.1 Currículo Lattes Em 1998 foi iniciado um processo para a geração de um sistema informatizado que viesse padronizar e consolidar as informações curriculares dos pesquisadores interessados na obtenção de recursos de fomento à pesquisa. Até então, vinham sendo utilizados diversos formulários, informatizados ou não, que demandavam o preenchimento das mesmas informações em locais diferentes. Esta prática provocava um considerável transtorno em várias fases do processo, tanto para o pesquisador, que se via obrigado a prestar a mesma informação diversas vezes, em locais e formatos diferentes, quanto para os gestores das agências de governo responsáveis pela avaliação dos 20 processos. O projeto foi lançado em agosto de 1999, e, de uma base inicial de aproximadamente 35 mil currículos cadastrados, passou-se atualmente para um total de aproximadamente 350 mil currículos, um aumento de aproximadamente 1.000%. O Currículo Lattes está se consolidando como uma importante ferramenta de apoio à gestão de Ciência & Tecnologia, uma vez que permitiu uma racionalização no processo de cadastramento, armazenamento e consulta de dados curriculares, eliminando uma série de outros processos semelhantes e redundantes. 2.1.1.2 Diretórios de Grupos de Pesquisa O Diretório de Grupos de Pesquisa é um sistema que mantém uma base de dados com informações coletadas a partir de 1992. Foi desenvolvido pelo CNPq para manter informações sobre os grupos de pesquisa existentes no país. Os grupos de pesquisa podem ser definidos como um conjunto de pessoas organizadas hierarquicamente, a partir de uma liderança de destaque no ambiente de ciência e tecnologia, envolvidos permanentemente em atividades de pesquisa, cujo trabalho se organiza em linhas comuns aos membros do grupo, e que, de alguma maneira, compartilhem instalações e equipamentos. Estão localizados em universidades, instituições isoladas de ensino superior, institutos de pesquisa científica, institutos tecnológicos, laboratórios de pesquisa e desenvolvimento de empresas estatais ou ex-estatais e em algumas organizações nãogovernamentais com atuação em pesquisa científica ou tecnológica [CNPQ03]. Os principais objetivos deste sistema são: a) Manter um histórico das atividades dos grupos de pesquisa, preservando sua memória. b) Servir de base de consulta para a comunidade científica, que passa a contar com uma ferramenta que permite a identificação dos membros, dos trabalhos realizados, das linhas de pesquisa, facilitando o intercâmbio entre os pesquisadores. c) Prover os gestores de Ciência & Tecnologia de uma ferramenta para avaliação e planejamento dos investimentos em atividades de pesquisa, a partir de informações qualitativas e quantitativas sobre os trabalhos realizados no âmbito dos grupos. 21 2.1.1.3 Diretório de Instituições O Diretório de Instituições é um sistema que armazena informações sobre as universidades, institutos de pesquisa, empresas e organizações não-governamentais que mantenham algum tipo de relacionamento com a pesquisa científica e tecnológica. É fundamental para a gestão e operacionalização dos processos de fomento à pesquisa mantidos pelo CNPq, bem como na elaboração de informações estatísticas. 2.1.1.4 Sistema Gerencial de Fomento Segundo o CNPq, “a função de fomento constitui-se na principal ação desenvolvida pelo CNPq, com vistas à promoção do desenvolvimento científico e tecnológico do País” [CNPQ03]. São disponibilizados recursos para a capacitação tecnológica e científica, bem como são financiados projetos que possam estimular a geração do conhecimento necessário para o desenvolvimento econômico, social e cultural do país. As ações de fomento são operacionalizadas através de vários sistemas de informação. O sistema gerencial de fomento é uma iniciativa para permitir mais facilidade na execução de pesquisas nestas bases de dados, voltadas tanto para os gestores de Ciência e Tecnologia, quanto para a comunidade científica em geral, através de consultas disponibilizadas na Internet através da Plataforma Lattes. 2.1.2 Estrutura da Plataforma Lattes A Plataforma Lattes é resultado de um esforço para integrar sistemas de informações ligados à gestão de Ciência e Tecnologia. Além disso, o Projeto de Institucionalização da Plataforma Lattes está levando os sistemas da Plataforma para instituições de ensino e pesquisa que têm interesse em manter em bases locais as informações curriculares de seus pesquisadores, funcionários e quaisquer outros envolvidos em atividades de pesquisa e docência. A seguir, será apresentada a estrutura fundamental dos principais sistemas da Plataforma Lattes. 2.1.2.1 Currículo Lattes O Currículo Lattes é composto por módulos distintos: 22 a) Atualização off-line: o usuário pode instalar em seus computadores um conjunto de programas que permite o cadastramento das informações necessárias do Currículo Lattes, fazer todos os ajustes necessários e, posteriormente, transmiti-lo para a base de dados do CNPq. Para quem não dispõe de acesso rápido à Internet, ou que deseja manter as informações em seus computadores pessoais, este é o módulo indicado para o cadastramento e manutenção de seu currículo. b) Atualização on-line: o usuário pode acessar, em tempo real, a base de dados do CNPq e efetuar o cadastramento ou a atualização de seu currículo. Através de uma interface que pode ser acessada via navegadores Web, as informações curriculares são cadastradas, recuperadas e atualizadas sem a necessidade de armazenamento local. c) Buscas textuais: a partir da base operacional do Currículo Lattes, onde estão armazenadas as informações cadastradas tanto via Internet quanto via programas locais, são extraídas e consolidadas as informações curriculares necessárias ao serviço de busca textual. Através de um processo de indexação textual, são disponibilizadas diversas consultas, que utilizam como parâmetro tanto o nome do usuário quanto palavras-chaves relacionadas à sua produção científica e tecnológica. A base de dados do Currículo Lattes é formada fundamentalmente por dois componentes: a) Base de dados operacional: onde estão armazenadas as informações originais providas pelos usuários, no momento do cadastramento ou da atualização de seus currículos. É uma base de dados relacional composta por tabelas que mantém os dados em formato estruturado, adequado para a atualização on-line e off-line. b) Base de dados para as consultas textuais: é uma base de dados relacional com índices textuais, resultado de processos de extração e consolidação de dados oriundos da base operacional. Permite consultas a informações não estruturadas. A seguir, um figura com o organograma que representa o conjunto de informações armazenados na base de dados do Currículo Lattes: 23 Figura 1: Estrutura do Currículo Lattes a) Informações gerais a.1. Identificação a.2. Endereço a.3. Formação Acadêmica e Titulação a.4. Atuação profissional a.5. Áreas de atuação a.6. Idiomas a.7. Prêmios e títulos b) Produção Científica e Tecnológica b.1. Produção bibliográfica b.1.1. Trabalhos em eventos b.1.2. Artigos publicados b.1.3. Livros e capítulos b.1.4. Texto em jornal ou revista (magazine) b.1.5. Demais tipos de produção bibliográfica b.2. Produção técnica b.2.1. Softwares b.2.2. Produtos 24 b.2.3. Processos b.2.4. Trabalhos técnicos b.2.5. Demais tipos de produção técnica b.2.6. Propriedade intelectual b.3. Outra produção b.3.1. Produção artística e cultural b.3.2. Orientações concluídas b.3.3. Demais trabalhos b.3.4. Outras informações relevantes c) Informações complementares c.1. Formação complementar c.2. Participação em banca de trabalhos de conclusão c.3. Participações em eventos, congressos e outros c.4. Participações em bancas de comissões julgadoras c.5. Orientações em andamento 2.1.2.2 Diretório dos Grupos de Pesquisa O Diretório de Grupos de Pesquisa é composto basicamente por dois módulos: a) Base corrente: organizado de maneira a permitir acesso diferenciado aos diferentes tipos de membros do Grupo, permite o cadastro e a manutenção das informações dos grupos de pesquisa constantemente atualizados. Tem por objetivo manter a base de dados operacional do Diretório, e registrar todas as informações pertinentes. Pode ser acessado através da Internet, e existem opções diferenciadas para: a.1. Dirigentes Institucionais de Pesquisa a.2. Líderes de Grupos de Pesquisa a.3. Pesquisadores de Grupos de Pesquisa a.4. Estudantes de Grupos de Pesquisa 25 b) Base censitária: permite consultas à base de dados censitária, que é o resultado de operações de extração, análise, avaliação e consolidação de informações oriundas da base corrente. Está disponível para acesso através da Internet. Atualmente, a última versão de dados disponibilizados refere-se ao Censo 2002, a partir da apuração de informações da versão 5.0 do sistema de captura. De acordo com informações do CNPq, o planejamento atual é para a realização de censos bienais, mas, graças à nova estrutura do sistema, é possível realizar a qualquer momento totalizações específicas, de acordo com as necessidades do governo e da sociedade. A base de dados do Diretório de Grupos de Pesquisa é também formada por dois módulos: a) Base corrente: uma base de dados relacional onde estão armazenadas as informações dos grupos de pesquisa, cadastradas pelos seus membros. É a base de dados operacional do sistema. b) Base censitária: é uma base de dado modelada para consultas gerenciais, utilizando totalizadores e aglomerações. São originadas da extração, análise, avaliação e consolidação de informações oriundas da base corrente. Possui indexação textual, o que permite a realização de consultas sobre dados não estruturados. Atualmente, existem consultas disponíveis às bases censitárias de 1993, 1995, 1997, 2000 e 2002. As principais informações armazenadas na base operacional do Diretório de Grupos de Pesquisa são: a) Informações dos Grupos: a.1. Identificação a.2. Componentes a.3. Área do conhecimento a.4. Linhas de pesquisa b) Informações dos pesquisadores e alunos: as informações dos pesquisadores e alunos são obtidas através do Currículo Lattes. Para a participação em qualquer grupo de pesquisa, é necessário manter o Currículo Lattes atualizado. 26 c) Informações das Instituições: as informações das instituições são obtidas a partir do Diretório de Instituições. Figura 2: Estrutura do Diretório dos Grupos de Pesquisa As principais consultas disponíveis a partir dos dados armazenados nas bases censitárias do Diretório de Grupos de Pesquisa são [CNPQ03]: a) “Séries Históricas: as Séries Históricas contêm tabelas e gráficos selecionados, com informações que sintetizam a evolução temporal e agregada do perfil dos grupos de pesquisa. b) Súmula Estatística: a súmula estatística apresenta um pequeno conjunto de tabelas e gráficos selecionados, com informações que sintetizam o conteúdo da base de dados e fornecem um retrato bastante nítido da capacidade instalada de pesquisa no país em 2002. c) Plano Tabular: o Plano Tabular objetiva estabelecer o perfil da pesquisa no Brasil em termos quantitativos. Organiza-se segundo configurações de montagem e de visualização, realizadas dinamicamente pelo usuário. As tabelas desse módulo são grandemente inclusivas e oferecem a possibilidade de cruzamento de variáveis capazes de gerar diversas combinações. d) Busca Textual: a busca textual permite recuperar, dinamicamente, informações individualizadas sobre dados presentes na base do Diretório. Inclui três possibilidades de recuperação de informações, em níveis crescentes de 27 complexidade - busca simples, orientada e avançada. Organiza-se a partir de três decisões iniciais tomadas pelo usuário: (i) qual informação deverá ser recuperada (busca simples); (ii) onde esta informação deverá ser procurada (orientada e avançada); e (iii) segundo quais critérios deverá ser buscada (orientada e avançada). e) Estratificação dos grupos: o módulo de Estratificação dos Grupos de Pesquisa contidos no Diretório permite classificar os grupos pertencentes às instituições de ensino superior e a institutos de pesquisa que possuem programas de pósgraduação em estratos de qualidade5. f) Anexos: é apresentada sob a rubrica de Anexos a árvore de especialidades do conhecimento do CNPq, a lista dos setores de atividades utilizadas nesta versão do Diretório, a relação das instituições cujos grupos de pesquisa constam da base de dados, a relação das instituições que não responderam à solicitação do CNPq, embora contatadas, e a lista das unidades da Federação. Essas informações são úteis para a utilização dos dispositivos de busca textual e de construção de tabelas”. 2.1.2.3 Diretório de Instituições O Diretório de Instituições é o módulo da Plataforma Lattes responsável pela gestão de informações institucionais. Este sistema é um dos mais antigos do CNPq, iniciado no início dos anos setenta, em um esforço para sistematizar as informações sobre as instituições que se relacionavam com o CNPq. Passou por várias reformulações, até ser incorporado à Plataforma Lattes. Neste momento, está passando por mais uma manutenção evolutiva, no intuito de facilitar o cadastramento e a manutenção dos dados das instituições [CNPQ03]. O Diretório de Instituições é composto fundamentalmente por dois módulos: a) Cadastramento e manutenção: é possível incluir e atualizar informações sobre as instituições a partir de uma interface na Internet, ou através da interface do Currículo Lattes. 5 Estratos de Qualidade: obtidos a partir de algoritmos desenvolvidos no CNPq para a identificação de níveis de qualidade, a partir de informações das bases de coleta e de parâmetros de produtividade e desempenho [CNPQ03b]. 28 b) Consulta Instituições: através deste módulo, é possível efetuar consultas sobre as instituições cadastradas. Está disponível através de uma interface Web. A base de dados é composta por tabelas relacionais que apresentam interações com todos os outros módulos da Plataforma Lattes. 2.1.2.4 Sistema Gerencial de Fomento O Sistema Gerencial de Fomento é composto por módulos que têm por objetivo fornecer informações de natureza gerencial sobre as operações de fomento realizadas pelo CNPq. Estas transações são inicialmente tratadas por sistemas específicos, de natureza operacional, cujos dados são armazenados em tabelas relacionais. A partir de extrações, análises e consolidações dos dados da base operacional, é constituída outra base de dados de cunho gerencial. São os seguintes os módulos do Sistema Gerencial de Fomento: a) Busca por histórico de fomento: este serviço permite a realização de consultas na base de dados de fomento, a partir de um dos parâmetros abaixo: a.1. Nome a.2. Área do conhecimento a.3. Instituição a.4. UF da instituição a.5. Modalidade b) Investimentos do CNPq em C&T: este serviço permite a realização de consultas na base de dados gerenciais de fomento, e fornece diversas resultados a de: b.1. Capacitação de recursos humanos para a pesquisa b.1.1. Bolsas no país b.1.2. Bolsas no exterior b.2. Fomento à pesquisa b.2.1. Apoio a projetos de pesquisa b.2.2. Apoio à editoração b.2.3. Apoio a eventos 29 2.2 Gestão do Conhecimento A utilização da Plataforma Lattes como fonte de conhecimento organizacional é uma iniciativa que tem por objetivo gerar conhecimento útil no processo de gestão de Ciência e Tecnologia. Para tal, utilizou-se de conceitos de Gestão de Conhecimento, particularmente o modelo proposto pela pesquisadora Maria de Fátima Stollenwerk [STOLL01], e de Descoberta de Conhecimento em Bases de Dados, modelo proposto por Usama Fayyad [FAYYA96]. Este tópico trata de aspectos teóricos da Gestão do Conhecimento e da Descoberta de Conhecimento em Bases de Dados. 2.2.1 Conceitos Iniciais Para conduzir a apresentação deste tópico, conceitos iniciais relacionados ao assunto devem ser considerados. A seguir, serão enumerados alguns conceitos sobre dado, informação, sistemas, sistemas de informação, sistemas gerenciadores de bancos de dados e conhecimento. 2.2.1.1 Dado De acordo com a Prof. Solange Oliveira Resende, “dado é a estrutura fundamental sobre a qual um sistema de informação é construído” [REZEN03]. Já segundo o Prof. Valdemar Setzer, “dado é uma seqüência de símbolos quantificados ou quantificáveis” [SETZE03]. Esta seqüência de símbolos identifica condições específicas a respeito das entidades a eles relacionados, mesmo que eventualmente o observador não possa entendê-los. Neste contexto, um literal pode ser um dado, uma seqüência de literais pode ser um dado, um texto pode ser um dado, uma foto pode ser um dado. Por serem unidades de representação de valores, têm um caráter puramente sintático, significando que “podem ser totalmente descritos através de representações formais, estruturais” [SETZE03]. Esta característica permite que dados possam ser definidos e armazenados em sistemas computacionais, bem como possam ser processados, ou seja, utilizados em operações como adição, contagem, concatenação, comparação, entre outras. Os dados podem ser ainda combinados em estruturas, de forma a formarem dados mais complexos. Por exemplo, a estruturação dos dados sobre cada ponto de uma em uma matriz pode formar uma foto, sendo dados de cada ponto itens como cor e brilho. 30 2.2.1.2 Informação Vários autores tentam estabelecer um conceito para informação. Paulo Foina afirma que ”informação é um valor, ou dado, que possa ser útil para alguma aplicação ou pessoa” [FOINA01]. Já Solange Resende define informação como “um dado que tem o conteúdo e forma apresentada de uma maneira que seja útil para um processo de tomada de decisão” [REZEN03]. Entretanto, o professor Setzer prefere estabelecer uma caracterização do termo, e não propor uma definição. Afirma que “informação é uma abstração informal (isto é, não pode ser formalizada através de uma teoria lógica ou matemática), que está na mente de alguém, representando algo significativo para essa pessoa” [SETZE03]. Portanto, informação tem sentido somente quando uma pessoa recebe dados sobre um determinado elemento e forma uma imagem mental a partir deles, ou de sua correlação com outros dados. Por exemplo, a leitura da manchete de um jornal que estampa “as ações da Petrobrás subiram 5% no último pregão” pode representar uma informação para uma pessoa que saiba o que é Petrobrás, e que tenha conhecimentos mínimos do mercado acionário. Sem isso, a frase é somente um conjunto de dados. Para ser armazenada em um computador, a informação deve ser representada na forma de dados. Mas, ainda segundo Setzer [SETZE03], o que é armazenado no computador não é informação, mas os dados que a representam. Através de processamento, esta representação da informação, ou o conjunto de dados, pode ser manipulado, mas somente do ponto de vista sintático. O computador não altera o sentido de um conjunto de dados. Pode até modificá-los de maneira que não sejam mais inteligíveis, através de criptografia, ou substituir uma palavra por outra, mas o que ocorreu na máquina foi somente uma mudança sintática, somente o receptor humano pode empreender uma mudança semântica. Dados e informações são essencialmente diferentes. O primeiro tem uma característica sintática, enquanto o segundo tem sentido somente com uma componente semântica, isto é, deve poder ser interpretado pelo agente humano. Os computadores são fundamentalmente sintáticos, possuindo capacidade apenas para a manipulação de dados, o que não caracterizaria o processamento de informação. Quando o computador Deep Blue6 derrotou o 6 Deep Blue: supercomputador da IBM Research. 31 enxadrista Garry Kasparov, o que prevaleceu foi a capacidade fenomenal de realização de operações matemáticas do computador. Neste caso, o computador manipulava dados, e não informação. 2.2.1.3 Sistemas 1. Conjunto de elementos, materiais ou ideais, entre os quais se possa encontrar ou definir alguma relação. 2. Disposição das partes ou dos elementos de um todo, coordenados entre si, e que funcionam como estrutura organizada [FERREI01]. As definições acima são suficientes para introduzir o conceito de sistema, que pode ser entendido como a união de partes coerentes para a formação de um todo. Um sistema, normalmente, não existe de forma isolada, mas se relaciona com outros sistemas mais abrangentes. Um sistema pode ser parte de outro maior, e ser compostos por sistemas menores. Para cada sistema pode ser definido um “espaço de existência”, com fronteiras estabelecidas. A maior ou a menor proximidade de outros sistemas é definitiva para o grau de interatividade entre eles. Este texto não pretende explorar toda a complexidade que envolve o estudo dos sistemas, tratado na Teoria Geral dos Sistemas. No ocidente, os trabalhos do biólogo austríaco Ludwig Von Bertalanffy representam um marco, com a apresentação de propostas para abordagens científicas do que se chamou “todos integrados”, na década de 1950. Este termo teria sido citado anteriormente pelo médico, filósofo e economista russo Alexander Bogdanov, em 1922, mas seus trabalhos foram pouco divulgados no ocidente [UHLMA02]. 2.2.1.4 Sistemas de Informação A partir dos conceitos de sistema, apresentados no item anterior, pode-se definir Sistema de Informação como um conjunto de partes organizadas que se inter-relacionam para a formação de um conjunto adequado ao fornecimento de informações para a organização, seja ela doméstica, de pequeno ou de grande porte. Um sistema de informação pode ser utilizado para reunir, armazenar, processar e fornecer informações relevantes para um grupo interessado. Pode ou não contar com a utilização de recursos computacionais na sua construção, mas isto não é obrigatório. Entretanto, devido a sua existência estar normalmente ligada à utilização de tecnologia 32 computacional e eletrônica, os sistemas de informação normalmente são associados à utilização de computadores. Afirma o professor Antônio Vidal: Um sistema de informação é um componente do sistema organizacional, constituído por uma rede difundida pela empresa inteira e utilizado por todos os seus componentes. Seu propósito é obter informações dentro e fora da empresa, torná-las disponíveis para os outros componentes, quando necessitarem, e apresentar as informações exigidas pelos que estão fora [VIDAL98]. Os sistemas de informação, em geral, são utilizados para orientar a tomada de decisão em três níveis diferentes na administração de uma empresa: o operacional, o tático e o estratégico. O primeiro nível, o operacional, se responsabiliza pelo comprimento de tarefas da maneira mais eficiente possível. O nível tático já se responsabiliza para que as tarefas sejam cumpridas com eficiência, mas se responsabilizando enfaticamente com os objetivos da empresa, e se preocupa com o fornecimento de recursos para a viabilidade do cumprimento das tarefas. Já o nível estratégico é responsável por definir os rumos da empresa, seus objetivos e estratégias para atingir estes objetivos. Os sistemas de informação devem atender a todos os níveis acima citados, com a devida atenção para as características de cada um deles, e oferecer a todos os envolvidos ferramentas adequadas ao bom cumprimento de suas atividades. Segundo Vidal, os sistemas de informação podem ser divididos em duas grandes categorias [VIDAL98]: a) Sistemas de uso operacional: voltados para o apoio às atividades operacionais, normalmente orientados à transações, com necessidade de ótimo tempo de resposta. b) Sistemas gerenciais: voltados para a produção de informações de apoio à gestão, normalmente utilizados por um número menor de usuários, interessados em consultar totais, resumos, associações de dados. São menos sensíveis ao tempo de resposta, mas processam grandes quantidades de dados. 2.2.1.5 Sistemas Gerenciadores de Bancos de Dados Considerando os conceitos apresentados nos tópicos acima, pode-se fazer o seguinte exercício: os computadores não processam informações, mas dados. O conhecimento é 33 intrínseco ao agente, que pode se valer de recursos computacionais para incrementar sua capacidade de aprendizado, e a construção de conhecimento. Assim, pode-se perceber a importância que o item dados tem no ambiente de sistemas de informações. Os dados são, em resumo, o que se pode efetivamente armazenar, processar, manipular, organizar, transformar e recuperar. Em conjunto com os programas que atuam sobre eles, os dados se constituem em uma das unidades fundamentais de qualquer sistema de informação. Inicialmente, os dados eram armazenados na forma de seqüências, ordenadas ou não, e toda sua manipulação era realizada através de rotinas construídas pelas equipes de programação, específicas para cada sistema. Para tal, era necessário programar, a cada sistema construído, o método de acesso, as rotinas de ordenação, as rotinas de controle. Com o crescimento da utilização dos computadores pelas empresas, e com o grande aumento do volume de dados armazenados, fez-se necessário o desenvolvimento de produtos específicos para o tratamento destes dados, os quais livrassem as equipes de desenvolvimento da necessidade de construir todas as rotinas para o seu armazenamento, processamento e recuperação. Surgiram assim os DBMS – Database Management Systems, ou sistemas gerenciadores de bancos de dados. Estes DBMS são constituídos de rotinas que implementam recursos para: a) A definição da base de dados (DDL – Data Definition Language), por exemplo, a criação de tabelas, visões, índices; b) O controle da base de dados (DCL – Data Control Language), por exemplo, a criação de usuários, a atribuição de privilégios; c) A manipulação dos dados (DML – Data Manipulation Language), por exemplo, para a inserção, alteração e recuperação de registros nas tabelas. São constituídos também de sistemas de arquivos que permitem o armazenamento de grandes volumes de dados. Os DBMS podem ser classificados, quanto à sua estratégia de armazenamento e busca, em: a) Hierárquicos: as tabelas são organizadas de maneira que ocorra uma hierarquia entre elas. Por exemplo, a tabela DEPARTAMENTOS está em uma posição hierarquicamente superior à tabela FUNCIONÁRIOS. Este modelo é pouco utilizado atualmente. Como vantagem, pode ser citada a capacidade de definição 34 de relações um-para-muitos, facilitando buscas através da hierarquia. Como desvantagem, o fato das definições das classes e estruturas serem fixas, não permitindo a relação muitos-para-muitos; b) Redes: os registros são organizados de maneira a manter “apontamentos” uns para os outros. Como vantagens, possibilita flexibilidade na inserção de novas estruturas, e pesquisas complexas. Como desvantagem, a dificuldade de mapear relações entre diferentes conjuntos. c) Relacionais: apresentam uma estrutura tabular inter-relacionada que contém dados organizados em conjuntos lógicos. Foi definido formalmente pelo Dr. Codd em 1969. É a tecnologia mais utilizada atualmente, atendendo a praticamente todas as necessidades de gerenciamento de bases de dados. Como vantagens, pode ser citada a sua estrutura que evita a redundância de dados, a facilidade na alteração das estruturas e a alta performance. Como desvantagens, a dificuldade para se tratar dados complexos (e.g. vídeo, imagens), e a necessidade de grande capacidade de processamento. d) Orientados a objetos: ainda são considerados em um estágio de desenvolvimento, sem que os grandes fornecedores tenham implementado versões puramente orientadas a objetos para a utilização em sistemas de grande porte. Utiliza estruturas semelhantes aos bancos hierárquicos, mas oferece recursos como herança e encapsulamento. Como vantagens, oferecem facilidades para a implantação de projetos orientados a objetos e tratamento de dados complexos, e como desvantagem, a necessidade de grande poder de processamento e o grande volume de informações trafegadas. 2.2.1.6 Conhecimento O tema conhecimento talvez seja o que mais provoca discussões sobre o seu entendimento, discussões essas originadas há milênios. Formalmente, o estudo dos fundamentos filosóficos do conhecimento é chamado epistemologia7. Nonaka e Takeuchi [NONAK97], estudiosos da gestão do conhecimento, defendem que a resposta para a 7 Epistemologia: Conjunto de conhecimentos que têm por objeto o conhecimento científico, visando a explicar os seus condicionamentos (sejam eles técnicos, históricos, ou sociais, sejam lógicos, matemáticos, ou 35 pergunta “o que é o conhecimento?” orienta a história da filosofia ocidental desde o período grego. Esta história, da epistemologia ocidental, divide-se em duas correntes opostas, uma racionalista e outra empirista, consideradas estas complementares pelos autores acima citados. a) Racionalismo: afirma ser possível adquirir conhecimento por dedução, através do raciocínio. b) Empirismo: afirma ser possível adquirir conhecimento por indução, a partir de experiências sensoriais. Segundo Nonaka e Takeuchi, [NONAK97] os racionalistas argumentam que o verdadeiro conhecimento não é produto da experiência sensorial, mas sim de um processo mental ideal. Segundo essa visão, existe um conhecimento a priori que não precisa ser justificado pela experiência sensorial. A verdade absoluta é deduzida a partir de uma argumentação racional baseada em axiomas. Para os racionalistas os paradigmas de conhecimento são a matemática e a lógica, onde verdades necessárias são obtidas por intuição e inferências racionais. Por outro lado, os empiristas alegam não existir conhecimento a priori e que a única fonte de conhecimento é a experiência sensorial. Por esta visão, todas as pessoas têm uma existência intrinsecamente objetiva, mesmo quando se tem uma percepção ilusória. O próprio fato de se perceber alguma coisa já é significativo. O paradigma desta escola é a ciência natural, onde as observações e os experimentos são cruciais à investigação. Ambas as correntes da filosofia ocidental convergem para a mesma questão: o conhecimento pode ser adquirido, é intrínseco ao ser, e depende totalmente da experiência individual do agente com a questão a ser transformada em conhecimento. Quando a discussão é voltada para ambientes computacionais, a questão torna-se ainda mais complexa. Podem as máquinas desenvolver conhecimento? O que é processado é dado, informação ou conhecimento? Para Valdemar Setzer [SETZE03], conhecimento é “uma abstração interior, pessoal, de algo que foi experimentado, vivenciado por alguém”. O conhecimento não poderia ser formalmente descrito, o que pode ser descrito é a informação. Assim, os computadores não armazenariam nem informação nem conhecimento, mas apenas dados. Conhecimento é diferente de informação. Informação existe quando o agente é capaz de associar conceitos. Conhecimento está relacionado com a experiência do agente em lingüísticos), sistematizar as suas relações, esclarecer os seus vínculos, e avaliar os seus resultados e aplicações [FERREI01] 36 determinada situação, seja ela real ou filosófica. A vivência de determinada situação, as reflexões sobre um tema, associados à experiência anterior constroem novos conhecimentos, que são intrínsecos ao agente. O conhecimento não pode ser simplesmente transportado de um agente para outro. Para tal, deve ser convertido em informações, submetido ao outro agente, que, a partir de suas próprias experiências e conhecimentos anteriores, vai construir mais um conjunto de novos conhecimentos. 2.2.2 Gestão do Conhecimento Foi dito anteriormente que conhecimento está relacionado com a experiência do agente em determinada situação, sendo, assim, intrínseco à pessoa. Portanto, são as pessoas as legítimas portadoras do conhecimento. A Gestão do Conhecimento é um tema recente que está sendo tratado com interesse cada vez maior pelas organizações, empresas, instituições. Como criar conhecimento que possa ser utilizado pela organização? Como armazenar esse conhecimento, uma vez que conhecimento é intrínseco à pessoa? Como disseminar o conhecimento já adquirido? São perguntas que a Gestão do Conhecimento se esforça em responder, com o objetivo de dotar as organizações de mecanismos que possam permitir uma correta administração de seu capital intelectual, considerado por muitos autores como o bem mais precioso das organizações modernas. 2.2.2.1 Conceitos Alguns conceitos de Gestão do Conhecimento: Gestão do conhecimento é a construção sistemática, explícita e intencional do conhecimento e sua aplicação para maximizar a eficiência e o retorno sobre os ativos de conhecimento da organização [Wiig, 1993 apud STOLL01]. Gestão do conhecimento é a disponibilização do conhecimento certo para as pessoas certas, no momento certo, de modo que estas possam tomar as melhores decisões para a organização [Petrash, 1996 apud STOLL01]. 37 Gestão do conhecimento é o processo de busca e organização da expertise coletiva da organização, em qualquer lugar em que se encontre, e de sua distribuição para onde houver o maior retorno [Hibbard, 1997 apud STOLL01]. Gestão do conhecimento é o controle e o gerenciamento explícito do conhecimento dentro da organização, de forma a atingir seus objetivos estratégicos [Spek & Spijkevert, 1997 apud STOLL01]. Gestão do conhecimento é a formalização das experiências, conhecimentos e expertise, de forma que se tornem acessíveis para a organização, e esta possa criar novas competências, alcançar desempenho superior, estimular a inovação e criar valor para seus clientes [Beckman, 1999 apud STOLL01]. Assim, a Gestão do Conhecimento se propõe a tratar de questões ligadas à geração, à catalogação, ao armazenamento e à disseminação de conhecimento que possa ser utilizado pelas organizações para incrementar seu desempenho, cativar os clientes e conquistar o mercado. Neste sentido, as organizações estão procurando estabelecer políticas que permitam gerar condições para que o conhecimento dos seus membros seja utilizado da melhor maneira possível como forma de atingir os seus objetivos. Para tratar deste conhecimento, que as organizações se esforçam a criar, catalogar, armazenar e disseminar, é importante apresentar algumas distinções. Segundo Nonaka e Takeuchi [NONAK97], o conhecimento na organização pode ser classificado basicamente em dois tipos: tácito e explícito: a) Conhecimento tácito: altamente pessoal e de difícil formalização. É o conhecimento na sua forma mais original, resultado das experiências do indivíduo, em conjunto com suas crenças e emoções. Por ser inerente à pessoa, a sua disseminação é mais complexa, pois não é simples formalizar todo o conjunto de variáveis envolvidas na construção de determinado conhecimento. Por exemplo: conclusões, palpites subjetivos, intuição. “O conhecimento tácito é aquele que as pessoas possuem, mas não está descrito em lugar nenhum” [TEIXE00]. 38 b) Conhecimento explícito: formal e sistemático, pode ser expresso em palavras e números e, portanto, ser mais facilmente disseminado. É o conhecimento que passou pelo processo de formalização que permite que seja expresso de maneira estruturada, podendo, assim, ser armazenado artificialmente. Por exemplo: fórmula matemática, texto científico, procedimentos codificados. “O conhecimento explícito é aquele que está registrado de alguma forma, e assim disponível para as demais pessoas” [TEIXE00]. Assim, o conhecimento organizacional pode ser entendido com o conhecimento, formalizado ou não, que pode ser utilizado pelas organizações para alcançar vantagens competitivas. Na medida em que as organizações forem eficientes em oferecer condições para a criação e disseminação deste conhecimento, estará efetivamente caminhando na direção de galgar posições no mercado. 2.2.2.2 Histórico Mesmo antes de ser utilizada esta denominação, a Gestão do Conhecimento já existia nas formas de organização mais primitivas. Quando um caçador estabelecia táticas mais eficientes para o abate e a captura de animais, e o grupo aprendia com ele, ocorria uma transferência de conhecimento. Quando o funcionário de um faraó contabilizava os estoques de grãos do reino, o fazia utilizando o conhecimento da escrita, restrito a poucos. Quando o artesão medieval ensinava sua técnica a seu filho, transmitia o conhecimento necessário para a execução das tarefas específicas de seu ofício. Assim, o conhecimento, e a sua gestão, mesmo que intuitiva, informal e não estruturada, sempre esteve presente nas atividades humanas. Entretanto, somente nos últimos anos o assunto está sendo tratado com destaque, pesquisado, formalizado, e aplicado às organizações. Foi na década passada que alguns autores, como Drucker, Senge, Nonaka e Takeuchi escreveram sobre “sociedade do conhecimento”, “organizações que aprendem”, “criação de conhecimento nas organizações”. Este movimento, aliado ao avanço da Tecnologia da Informação, com a crescente utilização de sistemas gerenciadores de bancos de dados, da popularização dos computadores, do crescimento da Internet, da popularização do e-mail, permitiu o desenvolvimento do tema Gestão do Conhecimento. 39 2.2.2.3 A sociedade do conhecimento Observando o passado recente, percebe-se que profundas transformações ocorreram no último século, em uma velocidade nunca antes observada. Um acentuado progresso científico, mudanças profundas no cenário geopolítico mundial, conflitos de proporções globais, revoluções nas teorias econômicas. Entretanto, segundo Peter Drucker [DRUCK94], uma importante revolução deste século se deu de forma quase silenciosa, sem grande alarde, sem grandes manifestações. Antes da Primeira Guerra Mundial, as atividades agrícolas, pecuárias e pastoris se constituíam naquelas que envolviam a maior quantidade de pessoas. Assim, o grupo dos fazendeiros podia ser considerado como o mais numeroso, na grande maioria dos países. As atividades deste grupo estão diretamente ligadas a terra, neste momento com ênfase no trabalho manual. O principal fator de produção era a terra. Outro grande grupo existente no início do século passado era dos trabalhadores domésticos, formado por pessoas com pouca instrução formal, cujo trabalho era essencialmente manual. Entretanto, nos países desenvolvidos, alguns anos após a Primeira Grande Guerra, o número desses trabalhadores caiu de maneira drástica. Segundo Drucker [DRUCK94], essa mudança se deu de forma relativamente pacífica e silenciosa. Ocorreu uma migração de mãode-obra anteriormente ocupada com o trabalho nos campos, e da mão-de-obra doméstica, para atividades industriais. Mas esse trabalhador da indústria era responsável por atividades pouco complexas, com baixa exigência de instrução formal. O trabalho continuava essencialmente manual, com tarefas repetitivas e de pouca elaboração mental. O principal fator de produção era o capital. No fim do século passado, o mesmo processo de redução de número de empregos acometeu o trabalhador da indústria. A crescente automatização e incrementos de produtividade acabaram por eliminar a maioria dos postos de trabalho neste segmento da economia. O trabalho torna-se cada vez mais elaborado, exigindo maior instrução formal. Assim, neste último século, os meios de produção sofreram sucessivas revoluções. Se há pouco mais de cem anos a grande maioria dos trabalhadores concentrava-se na produção agrícola, pecuária e pastoril e no trabalho doméstico, em poucos anos esse massa migrou para o trabalho industrial – ainda pouco elaborado, repetitivo e pouco exigente do ponto de vista intelectual. 40 Pouco tempo também foi necessário para que esse tipo de trabalhador da indústria fosse substituído por maquinário, no crescente processo de automatização das plantas de fábrica. Nestas últimas décadas o espaço para o trabalhador braçal está sendo visivelmente reduzido. Neste contexto, surge a figura do trabalhador do conhecimento. Para atender aos desafios de aumento de produtividade e redução de custos das organizações, é fundamental a presença de um novo perfil de trabalhador: um indivíduo com considerável educação formal, com alta capacidade de aprendizado, com capacidade de autogestão. Este trabalhador passa do mero executor de tarefas para o trabalhador do conhecimento, deixa de ter seu ritmo ditado pela máquina e passa a estabelecer a sua própria lógica de trabalho. Entretanto, a passagem do trabalho industrial para o trabalho com o conhecimento não é uma tarefa fácil. Ao contrário do que ocorreu nas transformações anteriores, onde a necessidade de educação formal não era acentuada, permitindo que indivíduos originados do campo e de trabalhos domésticos pudessem com certa facilidade desenvolver as tarefas necessárias nas plataformas industriais, a passagem para a nova realidade exige uma apurada educação formal. Além disso, habilidades manuais ainda são necessárias. Um operário deve ser capaz de operar uma máquina complexa, o que exige conhecimento técnico e habilidade manual. Drucker cita como exemplo o neurocirurgião, que é um profissional que necessita de uma excelente educação formal, obtida através de entidades educacionais de alto nível, mas que não pode abrir mão das habilidades manuais, sem as quais torna-se desqualificado profissionalmente. Este trabalhador do conhecimento atua em empresas e organizações que estão descobrindo a necessidade de se gerenciar esse conhecimento. Vários autores citam o conhecimento como o fator de produção mais importante deste novo mundo. A terra, o capital e o trabalho – os tradicionais fatores de produção, passam a ter um papel secundário diante do conhecimento [DRUCK94]. Já Toffler [TOFFL94] anuncia que o conhecimento é fundamental para a obtenção do poder, notadamente do poder de mais alta qualidade, e que o conhecimento é também fator crítico para a mudança de poder. O autor defende que o conhecimento deixou de ser um de mero auxiliar dos poderes financeiros e administrativos, tornando-se a própria essência destes poderes. Assim, o poder econômico e de produção de uma empresa moderna é conseguido muito mais em função das capacidades intelectuais de seus membros do que em função de seus ativos imobilizados – terra, instalações, capital financeiro, equipamento. Segundo Quinn: 41 O valor da maioria dos produtos e serviços depende principalmente de como os fatores intangíveis baseados no conhecimento podem ser desenvolvidos [Quinn, apud NONAK97]. Podem ser citados diversos exemplos onde o conhecimento é utilizado para aumentar o valor agregado dos produtos de uma determinada organização. Atualmente, uma lata de alumínio para o acondicionamento de líquidos é aproximadamente 80% mais fina que suas antecessoras, utilizando, assim, menos matéria prima, reduzindo o gasto de energia na sua produção, incrementando a sua eficiência. Assim, pode-se considerar que estes resultados financeiros oriundos da produção deste tipo de recipiente são 80% incrementados pela utilização de conhecimento. Outro exemplo: atualmente, países como os Estados Unidos da América são grandes produtores de grãos. A produção de alimentos nos países desenvolvidos cresceu muito, mas a quantidade de mão-de-obra envolvida neste processo foi drasticamente reduzida. Este crescimento de produção e produtividade se deve basicamente pela utilização de conhecimento, desde a produção das sementes, das técnicas de preparação do solo, do maquinário utilizado nas fases de produção, às técnicas de administração e gerenciamento destas empresas. A utilização de conhecimento tem permitido um grande incremento na produção agrícola destes países, mesmo com a utilização decrescente de mão-de-obra. Assim, a Gestão do Conhecimento passa a ser um tema de crescente importância para as organizações que desejam, através de uma utilização cada vez mais eficiente de seu capital intelectual, obter vantagens competitivas. 2.2.2.4 Gestão do Conhecimento e Tecnologia da Informação A Gestão do Conhecimento é um tema novo, tratado principalmente no domínio da Administração. Ainda assim, apesar desta afinidade inicial com a área de Administração, a Gestão do Conhecimento está intimamente ligada à utilização de recursos computacionais e tecnológicos para sua implementação. Assim, a Tecnologia da Informação tem muito a contribuir com o desenvolvimento, com a implementação e com a disseminação da Gestão do Conhecimento. Neste contexto, pode-se dizer que a Gestão do Conhecimento não é uma extensão da Tecnologia da Informação, conforme muitas vezes pode se dar a entender, mas sim que Tecnologia da Informação é uma importante ferramenta na construção da Gestão do 42 Conhecimento. Alguns autores afirmam, inclusive, que não é possível construir a Gestão do Conhecimento sem a utilização intensiva da Tecnologia da Informação. Segundo Jayme Teixeira: O desafio para a área da Tecnologia da Informação passa a ser migrar de uma posição de suporte a processos para o suporte a competências [TEIXE00]. Assim, a Tecnologia da Informação precisa expandir sua atuação. Além de cuidar do processamento de transações, armazenamento de dados, comunicação entre processos, é necessário agora viabilizar recursos computacionais que possibilitem uma maior integração entre as pessoas, com a construção de novas formas de comunicação, de conversação e de aprendizado, com o desenvolvimento de comunidades virtuais, com estruturação, armazenamento e recuperação de idéias e experiências. Para tal, a organização necessita de [TEIXE00]: a) Uma nova arquitetura de informação que inclua novas linguagens, categorias e metáforas para identificar e promover perfis e competências. b) Uma nova arquitetura tecnológica que seja mais social, aberta, flexível, que respeite e atenda às necessidades individuais e que dê poder aos usuários. c) Uma nova arquitetura de aplicações orientada mais à solução de problemas e à representação do conhecimento, do que somente voltada a transações e informações. Assim, a ênfase de utilização da Tecnologia da Informação pela Gestão do Conhecimento busca a integração entre as pessoas, utilizando para tal recursos tecnológicos e computacionais que facilitem a criação, o armazenamento e a disseminação de conhecimento. Isto pode ser alcançado através de duas linhas de ação principais: a) Sistemas para a criação de bases de conhecimento: a ênfase neste caso é a utilização de recursos computacionais para facilitar a criação de conhecimento organizacional e seu armazenamento, para posterior disponibilização e consulta. Neste caso, técnicas de criação e disseminação de conhecimento devem ser utilizadas. b) Sistemas de comunicação: neste caso, a ênfase é a construção de sistemas e bases de dados que permitam o estabelecimento de comunicação rápida e eficaz entre os portadores do conhecimento. Dada a dificuldade de se transformar conhecimento 43 tácito em conhecimento explícito, muitas vezes é mais produtivo colocar os profissionais interessados em contato, para que possam resolver os problemas em questão, que tentar extrair o conhecimento tácito, transformá-lo em explícito e disseminá-lo. Deve ficar bem claro, entretanto, que esta linha de ação não invalida a anterior, e a recíproca é verdadeira. Assim, ambas as linhas acima podem ser desenvolvidas de maneira concomitante e complementar, sendo que cada uma delas é importante para a construção da Gestão do Conhecimento. Além disso, a Tecnologia da Informação pode fornecer importantes ferramentas para a descoberta e criação de conhecimento. Aproveitando as grandes bases de dados que foram e estão sendo criadas, em função da utilização crescente de sistemas informatizados pelas organizações, a Tecnologia da Informação, através da Descoberta de Conhecimento em Bases de Dados, pode contribuir efetivamente na etapa de criação do conhecimento. 2.2.2.5 Modelos Empresas e pesquisadores têm trabalhado para elaborar modelos de Gestão do Conhecimento que possam ser utilizados para definir, de maneira estruturada, as atividades necessárias para a implantação dos processos adequados para a este tipo de gestão. Diante destes diversos modelos existentes, alguns autores se dedicaram a estudá-los, com o objetivo de identificar pontos comuns e propor um modelo mais genérico. Rubestein-Montano [RUBESTEIN-MONTANO et al. apud FERREI03] avaliaram vários modelos, e identificaram os itens que mais se fizeram presentes em cada um deles. A tabela abaixo apresenta um resumo dos modelos estudados e suas principais características: Tabela 1: Modelos de GC [RUBESTEIN-MONTANO at al. apud FERREI03]. Modelos de GC Descrição American Management (1) Encontrar [criar centros de conhecimento], (2) Organizar [motivar Systems e conhecer pessoas] e (3) Compartilhar Arthur Andersen (1) Avaliar, (2) Definir o papel do conhecimento, (3) Criar uma Consulting estratégia de conhecimento ligada aos objetivos do negócio, (4) Identificar processos, culturas e tecnologias necessárias para a implementação de uma estratégia de conhecimento e (5) 44 Modelos de GC Descrição Implementação de mecanismo de realimentação. Andersen Consulting (1) Adquirir, (2) Criar, (3) Sintetizar, (4) Compartilhar, (5) Usar para alcançar objetivos organizacionais, (6) Ambiente que facilita o compartilhamento do conhecimento Dataware Technologies (1) Identificar o problema do negócio, (2) Preparar para mudança, (3) Criar a equipe de gestão do conhecimento, (4) Realizar auditoria e análise do conhecimento, (5) Definir as características chaves da solução, (6) Implementar atividades integrantes da gestão do conhecimento (7) Ligar o conhecimento às pessoas Buckley and Carter Método de processo de negócios para gestão do conhecimento [não Centre for International existe metodologia formal mas processos chaves do conhecimento são Business, University of identificados]: (1) Características do conhecimento, (2) Valor Leeds adicionado da combinação de conhecimento, (3) Participantes, (4) Métodos de transferência do conhecimento, (5) controle e (6) execução The Delphi Group Não publicaram detalhes de uma metodologia, mas as seguintes questões são tratadas: (1) Conceitos chaves e estruturas para gestão do conhecimento, (2) Como usar gestão do conhecimento como uma ferramenta competitiva, (3) Aspectos culturais e organizacionais da gestão do conhecimento, (4) Melhores práticas na gestão do conhecimento, (5) A tecnologia da gestão do conhecimento, (6) Análise de mercado, (7) Justificação da gestão do conhecimento e (8) Implementação da gestão do conhecimento. Ernst & Young (1) Geração do conhecimento, (2) Representação do conhecimento, (3) Codificação do conhecimento e (4) Aplicação do conhecimento. Holsapple and Joshi (1) Aquisição do conhecimento [inclui extração, interpretação e Kentucky Initiative for transferência], (2) Seleção do conhecimento [inclui localização, Knowledge Management recuperação e transferência] , (3) Internalização do conhecimento [inclui avaliação, focalização do alvo e depósito], (4) Uso de conhecimento, (5) Geração de conhecimento [inclui monitoração, 45 Modelos de GC Descrição avaliação, produção e transferência] e (6) Externalização do conhecimento [inclui focalização do alvo, Produção e Transferência] Holsapple and Joshi (1) Influências gerenciais [inclui liderança, coordenação, controle, medida], (2) Influência de recursos [inclui humano, conhecimento, financeiro, material] , (3) Influências do ambiente [inclui costumes, mercador, competidores, tecnologia, equipe, clima] , (4) Atividades [inclui aquisição, seleção, internalização, uso], (5) Aprendizado e projeção como resultados. Knowledge Associates (1) Adquirir, (2) Desenvolver, (3) Reter e (4) Compartilhar The Knowledge Research (1) Fazer levantamento do conhecimento existente, (2) Criar novos Institute conhecimentos, (3) Capturar e armazenar conhecimento, (4) Organizar e transformar conhecimento e (5) Desenvolver conhecimento. Liebowitz (1) Transformar informação em conhecimento, (2) Identificar e verificar conhecimentos, (3) Capturar e adquirir conhecimento, (4) Organizar conhecimento, (5) Recuperar e aplicar conhecimento, (6) Combinar conhecimento, (7) Aprender conhecimento, (8) Criar conhecimento [retornar para (3)] e (9) Distribuir/Vender conhecimento. Liebowitz and Beckman (1) Identificar [Determinar as competências principais, estratégia de obtenção e domínio de conhecimento], (2) Capturar [Formalizar conhecimento existente], (3) Selecionar [Avaliar relevância do conhecimento, valor e precisão e resolver conflitos entre conhecimentos], (4) Armazenar [Representar a memória corporativa em repositório de conhecimento], (5) Compartilhar [Distribuir conhecimentos automaticamente para os usuários baseado no interesse e trabalho e colaborar com o trabalho de conhecimento através de equipes virtuais], (6) Aplicar [Recuperar e usar conhecimento para tomar decisões, solucionar problemas, automatizar ou apoiar trabalhos e treinamentos], (7) Criar [Descobrir novos conhecimentos através de pesquisas, experimentação, ou pensamento criativo] e (8) Vender [Desenvolver e comercializar novos produtos e serviços baseados no conhecimento] 46 Modelos de GC Descrição Marquardt (1) Aquisição, (2) Criação, (3) Transferência e utilização e (4) Armazenamento Monsanto Company Não existe metodologia de gestão do conhecimento formal: Uso de mapa de aprendizado, mapa de valores, mapas de informação, mapas de conhecimento, medidas e mapas de tecnologia da informação. The Mutual Group Estrutura do capital: (1) Coletar informação [construção de infraestrutura explicita de conhecimento], (2) Aprender [desenvolvimento de conhecimento tácito], (3) Transferir e (4) Agir [desenvolvimento de capacidade através de desenvolvimento de valores] The National Technical (1) Contexto [geração de conhecimento], (2) Objetivos da gestão do University of Athens, conhecimento [organização do conhecimento], (3) Estratégia Greece [desenvolvimento e distribuição de conhecimento] e (4) Cultura O’Dell American (1) Identificar, (2) Coletar, (3) Adaptar, (4) Organizar, (5) Aplicar, (6) Productivity and Quality Compartilhar e (7) Criar Center PriceWaterhouse (1) Encontrar, (2) Filtrar [por relevância], (3) Formatar [para o Coopers problema], (4) Transferir para as pessoas certas e (5) Realimentação/Avaliação feita pelos usuários Ruggles (1) Geração [inclui criação, aquisição, síntese, fusão, adaptação], (2) Codificação [inclui captura e representação] e (3) Transferência Skandia Universal Networking Intellectual Capital: Enfatiza (1) Transmissão e compartilhamento do conhecimento, (2) Navegação pelo conhecimento pelas equipes de projetos, (3) Instrumentos de trabalho de desenvolvimento do capital intelectual Van der Spek and de (1) Conceituar [inclui fazer um inventário do conhecimento existente Hoog e analisar os pontos fortes e fracos], (2) Refletir [inclui tomar decisões sobre as melhorias requeridas e fazer planos para melhorar o processo] , (3) Agir [inclui adquirir conhecimento, combinar conhecimento, distribuir conhecimento e desenvolver conhecimento] e (4) Revisar [inclui comparar situações velhas e novas e avaliar resultados alcançados] Van der Spek and (1) Desenvolvimento de novos conhecimentos, (2) Aquisição de 47 Modelos de GC Descrição Spijkervet conhecimentos novos e existentes, (3) Distribuição de conhecimento e (4) Combinação de conhecimentos disponíveis Van Heijst et al. CIBIT, (1) Desenvolvimento [criação de novas idéias, análise de falhas e exame de experiência atuais], (2) Consolidação [armazenamento de Netherlands conhecimentos individuais, avaliação e indexação] , (3) Distribuição [informação de usuários] e (4) Combinação [combinação de informações muito diferentes e aumento de acesso para distribuir dados] Aplicar a metodologia CommonKADS para a GC: (1) Conceituar Wielinga et al. University of Amsterdam [identificar/resumir, representar, classificar], (2) Refletir [modelos de desenvolvimento e criação de conhecimento, modelos para identificação de fontes de conhecimento e resultados] e (3) Agir [combinar e consolidar conhecimento, integrar conhecimento, desenvolver e distribuir conhecimento] (1) Criação e obtenção (2) Compilação e transformação, (3) Wiig Disseminação e aplicação e (4) Compreensão do valor A partir da relação acima, os autores relacionaram os principais itens que foram tratados por cada um dos modelos. A tabela abaixo mostra os principais processos do conhecimento e o total de modelos em que são citados. Tabela 2: Processos do Conhecimento [FERREI03]. PROCESSO DO CONHECIMENTO N° DE MODELOS Aquisição de conhecimento 15 Geração de conhecimento 15 Compartilhamento de conhecimento 13 Uso de conhecimento 11 Identificação do conhecimento 6 Armazenamento do conhecimento 5 Realimentação (feedback) 5 Aprendizado 4 48 PROCESSO DO CONHECIMENTO N° DE MODELOS Organização do conhecimento 4 Aprendizado 4 Organização 4 Codificação 3 Filtragem 3 Avaliação 2 Os destaques são para os processos Aquisição de Conhecimento, Geração de Conhecimento, Compartilhamento de Conhecimento e Uso do Conhecimento, que tiveram referência em mais de dez modelos. Estes processos também foram identificados pela pesquisadora Maria de Fátima Stollenwerk que, em seu modelo de Gestão de Conhecimento, procura “compor um modelo genérico que melhor caracterize a conceituação, importância e a aplicabilidade da Gestão do Conhecimento a processos intensivos em conhecimento nas organizações” [STOLL01]. Com base em um estudo de diversos modelos de Gestão do Conhecimento e Planejamento Estratégico, buscou-se agrupar os processos por afinidade de conceitos. A partir da análise comparativa dos modelos, foram identificadas idéias básicas presentes em todos eles, embora existam particularidades e contribuições específicas em cada um deles. Foram então identificados sete processos principais e, a partir deles, a autora definiu um modelo genérico de Gestão do Conhecimento. Os referidos processos estão relacionados abaixo: a) Identificação das competências críticas b) Captura e aquisição de conhecimento c) Seleção e validação do conhecimento d) Organização e armazenagem e) Compartilhamento f) Aplicação g) Criação 49 Identificação das competências críticas É o primeiro processo do modelo genérico de Gestão do Conhecimento, e está relacionado a questões estratégicas, como identificar quais são as competências realmente importantes para o sucesso da organização. Quando a organização definir quais são seus objetivos, e quais estratégias deverão ser utilizadas para que esses objetivos sejam atingidos, faz-se necessário identificar as competências críticas necessárias para que estas estratégias sejam realmente implementadas. A partir da identificação destas competências, devem-se relacionar quais são as áreas de conhecimento que devem apoiar cada uma delas. Assim, podem ser identificados em quais aspectos a organização já possui o conhecimento necessário para sustentar as respectivas competências, e em quais a organização precisa adquirir, seja desenvolvendo internamente ou não. O processo de identificação inclui: a) Criação de agenda de competências essenciais b) Identificação das lacunas entre competências existentes e necessárias; c) Desdobramento dessas competências nas áreas de conhecimento (mapeamento de conhecimento); d) Identificação de fontes internas e externas de conhecimento; e) Proposição de soluções para redução da distância entre competências existentes e necessárias. Captura e aquisição de conhecimento O processo de captura representa a aquisição de conhecimento, habilidades e experiências necessárias para criar e manter as competências essenciais e áreas de conhecimento mapeadas [STOLL01]. É importante conhecer as fontes internas e externas de conhecimento disponíveis para a organização, com o objetivo de se obter conhecimento útil destas fontes. Entre as fontes internas, podem ser citadas: especialistas, profissionais experientes, clientes e fornecedores internos, sistemas de gestão da organização, treinamento interno e documentação de processos. Como fontes externas, podem ser relacionadas: consultorias, sistemas especialistas, bancos de dados comerciais, publicações, conferências e congressos [STOLL01]. Segundo Stollenwerk, as etapas deste processo são: 50 a) Identificação de fontes internas e externas para sua explicitação; b) Seleção das estratégias de aquisição; c) Aquisição, formalização e recuperação do conhecimento. Seleção e avaliação O processo de seleção e avaliação, segundo Stollenwerk, “visam a filtrar o conhecimento, avaliar sua qualidade e sintetizá-lo para fins de aplicação futura” [STOLL01]. Isto é necessário para se evitar que sejam armazenados pela organização itens de conhecimento não úteis, desnecessários ou fora do contexto dos objetivos a serem alcançados. Para tal, é necessário avaliar questões como a relevância do conhecimento e sua veracidade ou confiabilidade. Também é necessário o estabelecimento de visões múltiplas para casos de conhecimentos conflitantes, para se evitar que ocorram discrepâncias entre o que foi obtido, mas evitando-se descartar conhecimentos eventualmente importantes para a organização. Organização e armazenagem Uma vez identificados os itens de conhecimento úteis para a organização, é importante que sejam armazenados de maneira a preservá-los, bem como possibilitar uma recuperação rápida, fácil e correta. Isto pode ser obtido pela utilização de ferramentas da Tecnologia da Informação. Para tal, é necessário que o conhecimento seja formalizado, e quanto mais esta formalização for eficiente, mais qualidade terá a informação armazenada. Segundo Stollenwerk, as etapas deste processo são: a) Classificação do conhecimento já validado; b) Definição da arquitetura da Tecnologia da Informação e das ferramentas de gerenciamento da informação; c) Criação e gerenciamento dos bancos de dados para atuar como repositórios do conhecimento. Compartilhamento 51 Para que a organização possa se beneficiar do conhecimento organizacional, este deve estar disponível para o acesso de seus membros, de maneira que possa ser facilmente obtido, independentemente do horário e da localização dos mesmos. Assim, a Tecnologia da Informação se constitui novamente em uma ferramenta para a implementação de processos de armazenamento e comunicação do conhecimento. Para tal, o conhecimento deve ser altamente formalizado e organizado para um armazenamento eletrônico eficaz e uma disseminação facilitada. Segundo Beckman & Liebowitz, “o uso da tecnologia é vital para a disponibilização e compartilhamento de conhecimento em larga escala, tornando-o disponível em qualquer parte, a qualquer tempo e em qualquer formato” [Beckman 1998 apud STOLL01]. As etapas deste processo são: a) Identificação das necessidades de informação e de conhecimento da organização; b) Criação de mecanismos eficazes de recuperação e disseminação do conhecimento; c) Capacitação dos usuários em ferramentas para a recuperação do conhecimento; d) Disseminação automática do conhecimento em tempo hábil. Aplicação O processo de aplicação do conhecimento consiste na utilização real e prática do conhecimento formalizado, armazenado e disponibilizado, de maneira a produzir melhoria de desempenho e viabilizar que os objetivos da organização sejam alcançados. As etapas deste processo são: a) Aplicação do conhecimento em processos decisórios, de inovação, operacionais e de aprendizagem; b) Registro das lições aprendidas e dos ganhos obtidos com a utilização do conhecimento. Criação O processo de criação de um novo conhecimento envolve as seguintes dimensões: aprendizagem, externalização do conhecimento, lições aprendidas, pensamento criativo, pesquisa, experimentações, descoberta e inovação [STOLL01]. 52 Para a organização que deseja efetivamente gerar conhecimento novo, é necessário fomentar a comunicação entre os seus membros, bem como entre seus membros e fontes exteriores de conhecimento. Deve ser criado um ambiente propício para a geração e disseminação do conhecimento. Stollenwerk enumera as principais fontes para criação de novos conhecimentos: a) Auto-aprendizagem b) Aprendizagem por meio de especialistas c) Relacionamento com clientes, fornecedores e concorrentes d) Aprendizagem por meio da experimentação e) Adoção do pensamento sistêmico e criativo Este processo de criação do conhecimento foi amplamente explorado por Nonaka e Takeuchi [NONAK97]. Segundo eles, o processo de criação do conhecimento organizacional passa pelo compartilhamento do conhecimento tácito, com o objetivo de disseminar experiências individuais pela organização. A seguir, o conhecimento tácito compartilhado deve ser formalizado, convertendo-se assim em conhecimento explícito. Este conhecimento deve ser então justificado, ou seja, a organização vai definir se este novo conhecimento é útil e deve passar a fazer parte do conhecimento organizacional. Se for declarado útil, este conhecimento deve ser convertido em um arquétipo, e posteriormente desenvolvido. Finalmente, o conhecimento gerado deve ser disseminado pela organização e, em alguns casos até fora dela. Além destes processos, Stollenwerk identificou ainda alguns fatores que atuam como facilitadores da Gestão do Conhecimento: a) Liderança: que exerce um papel crucial no processo de gestão do conhecimento, com o aval, compromisso e o direcionamento da alta direção. b) Cultura organizacional: permite que a organização atue com alto desempenho, foco no cliente, foco em excelência, pró-atividade, visão de futuro. c) Tecnologia: fornece as ferramentas para o compartilhamento do conhecimento adquirido. d) Medição e recompensa: utilizada para incrementar a receptividade, o apoio e o comprometimento com a organização do conhecimento. 53 A seguir, uma representação gráfica das diversas relações dos componentes do modelo genérico de Gestão do Conhecimento proposto por Stollenwerk: Figura 3: Modelo genérico do GC [STOLL01 apud SOUSA03] 2.3 Descoberta de Conhecimento em Bases de Dados Os avanços obtidos com a utilização de computadores em praticamente todas as atividades humanas estão provocando a construção de grandes bases de dados, armazenando informações relacionadas aos assuntos os mais diversos possíveis. Atualmente, não é incomum a ocorrência de sistemas de informação que mantenham vários terabytes de espaço ocupado. A Petrobrás, por exemplo, nas atividades de identificação geológica de terrenos para a detecção de petróleo, armazena um grande volume de dados em sistemas envolvendo mainframes e grandes equipamentos de storage8 [GRECO02]. A americana Wal-Mart manipula mais de vinte milhões de transações por dia, gerando uma quantidade proporcional 8 Storage: unidades de armazenamento magnético para grandes volumes de dados, normalmente compartilhados por diversos computadores. 54 de dados armazenados [BABCO94 apud FAYYA96, p. 02]. Projetos de pesquisa, como o Projeto Genoma, têm suas atividades diretamente ligadas à manipulação de uma quantidade muito grande de dados. Segundo Usama Fayyad, possibilidades tradicionais de manipulação, como planilhas e consultas ad-hoc, não são mais suficientes para o processamento de pesquisas em grandes bases de dados. “Estes métodos podem criar relatórios sobre os dados, mas não conseguem analisá-los para destacar conhecimentos importantes” [FAYYA96]. Assim, buscando-se novas soluções no sentido de se obter conhecimento a partir de bases de dados de grande volume, surgiu este novo campo de conhecimento denominado Descoberta de Conhecimento em Bases de Dados (DCBD), do inglês Knowledge Discovering in Databases (KDD). 2.3.1 Conceito Segundo Fayyad [FAYYA96]: Descoberta de Conhecimento em Bases de Dados é o processo não trivial de identificar, em dados, padrões válidos, novos e potencialmente úteis. O processo de Descoberta de Conhecimento em Bases de Dados utiliza diversos algoritmos que processam os dados e encontram esses "padrões válidos, novos e potencialmente úteis". Entretanto, embora os algoritmos atuais sejam capazes de descobrir padrões "válidos e novos", ainda não existe uma solução eficaz para determinar padrões “potencialmente úteis”. Assim, DCBD ainda requer uma interação muito forte com analistas humanos, que são, em última instância, os principais responsáveis pela determinação do valor dos padrões encontrados. Além disso, a condução do direcionamento da exploração de dados é também tarefa fundamentalmente confiada a analistas humanos. 2.3.2 Histórico O processo de se procurar padrões úteis em bases de dados antecede a era dos computadores. Desde que o homem passou a registrar informações de maneira sistemática, existiram aqueles que utilizavam estas informações registradas para a obtenção de conhecimentos não necessariamente imaginados por quem as registrou. 55 Entretanto, somente com o advento do armazenamento eletrônico de dados surgiu a necessidade de novos mecanismos para a identificação de padrões que possam ser utilizados como geradores de conhecimento a partir de bases de dados. A crescente utilização de técnicas de reconhecimento de padrões e buscas em bases de dados eletrônicas deu origem ao primeiro workshop sobre o processo de DCBD, em 1989. A partir deste evento, foram realizados outros workshops em 1991, 1993 e 1994. Em 1995, foi realizado em Montreal, Canadá, a Primeira Conferência Nacional de Prospecção e Mineração de Dados, evento que ocorreu durante a Décima Quarta Conferência Internacional de Inteligência Artificial [AMARA01]. 2.3.3 Etapas O termo DCBD muitas vezes é entendido como Mineração de Dados, o que gera uma certa confusão na definição da abrangência de cada um destes temas. De maneira geral, podese dizer que Mineração de Dados é uma das fases do DCBD, talvez a fase mais importante, mas Mineração de Dados não é sinônimo de DCBD. O termo Mineração de Dados se refere especificamente à execução de algoritmos de reconhecimento de padrões sobre uma base de dados anteriormente preparada. O resultado deste processamento deve ser então avaliado, e identificados eventuais padrões que podem se tornar úteis para a aquisição de conhecimento. O processo de DCBD é mais abrangente, considera a origem dos dados, a sua formatação inicial, a sua qualidade, a necessidade de pré-processamento dos dados, o contexto onde estes estão inseridos, a definição dos métodos mais adequados de Mineração de Dados, a avaliação dos eventuais padrões obtidos e a sua utilidade na geração de conhecimento sobre a base de dados original. É também cíclico, devendo ser repetido tantas vezes quanto for necessário para a obtenção de resultados satisfatórios. Segundo Usama Fayyad, “DCBD é um processo interativo e repetitivo, envolvendo numerosos passos com muitas decisões tomadas pelo usuário” [FAYYA96]. A figura a seguir identifica as principais etapas do processo de DCBD. 56 Figura 4: Principais etapas do processo de DCBD 2.3.3.1 Seleção Já foi mencionado que a utilização dos sistemas computacionais tem gerado um grande volume de dados armazenados. O processo de DCBD tem início na definição do universo de dados que deverá ser utilizado para a execução do trabalho. Esta é uma etapa fundamental para todo o processo. Na maioria dos casos, os sistemas armazenam os dados em tabelas com dezenas de colunas, sendo que nem todas podem ser necessárias para a análise em questão. Assim, faz-se necessário estabelecer qual o conjunto de dados deve ser utilizado, executando-se um criterioso trabalho de análise das tabelas e seus atributos, dos seus relacionamentos e conteúdo. Devem ser identificadas as colunas que realmente agregam informações ao conjunto de dados. A qualidade dos dados armazenada deve ser constantemente verificada. Os resultados finais serão positivos de forma diretamente proporcional à qualidade dos dados inicialmente selecionados. Em muitos casos, o processo de DCBD gera uma completa revisão nos sistemas responsáveis pela aquisição e manutenção da base de dados. Quanto maior a qualidade dos dados armazenados, sua integridade e completeza, mais facilitadas serão as etapas posteriores do processo de DCBD. Entretanto, deve-se ter em mente que a identificação de padrões ainda é muito dependente da decisão de analistas humanos, e do seu conhecimento do assunto que estará sendo pesquisado. Uma coluna não selecionada nesta fase pode ser exatamente a que contém as informações mais importantes para o resultado final. Daí a afirmação de que DCBD deve 57 ser um processo cíclico, executado tantas vezes quanto for necessário para a obtenção de conhecimento a partir da base de dados investigada. Os sucessivos aprimoramentos do conjunto de dados tratado, e o constante aprendizado dos analistas a partir da manipulação da base de dados podem propiciar um resultado final satisfatório. 2.3.3.2 Pré-processamento Selecionado o conjunto de dados que será utilizado para o trabalho de descoberta de conhecimento, pode ser necessário efetuar atividades de pré-processamento no sentido de permitir, e muitas vezes viabilizar, as etapas posteriores. Quanto maior a quantidade de colunas utilizadas, maior a complexidade dos processos de Mineração de Dados posteriores. Uma quantidade muito grande de colunas pode inclusive inviabilizar o trabalho de mineração, uma vez que os recursos computacionais podem não ser suficientes para processar toda a coleção de dados selecionados. Outra questão importante é a existência de ruídos nos dados de entrada. Por mais que a engenharia de software venha se desenvolvendo, não necessariamente os sistemas são construídos seguindo o rigor metodológico necessário para a criação de aplicativos que primem pela qualidade dos dados armazenados. É muito comum encontrar-se inconsistências, colunas vazias, valores indevidos. A existência de ruídos pode causar problemas como a geração de padrões distorcidos, e posteriormente, a utilização destes padrões na manipulação da base completa [AMARA01]. Assim, uma das atividades desta etapa é a limpeza dos dados a serem utilizados no processo, para evitar, ou minimizar a ocorrência de ruídos. Segundo Fernanda Amaral, “a limpeza de dados é, na realidade, um processo ambíguo” [AMARA01]. Corre-se sempre o risco de se confundir um fenômeno interessante do ponto de vista de geração de padrões de comportamento com um erro de entrada. Por exemplo, campos vazios podem ser interpretados como erro de entrada de dados, quando, na realidade, podem se constituir em um fenômeno determinante de um certo comportamento. Também nesta fase devem ser tratadas questões referentes a dados necessários inexistentes ou incompletos. Pode ser que o conjunto disponível não disponha de informações suficientes para o trabalho a ser realizado. Neste caso, devem ser utilizadas técnicas de coleta e complementação dos dados, e decididas as estratégias a serem adotadas no tratamento dos dados irremediavelmente perdidos [FAYYA96]. 58 2.3.3.3 Transformação Para que seja produtivo o processo de obtenção de padrões, uma série de modificações dos dados das tabelas de origem podem ser implementadas. Atributos redundantes devem ser eliminados, evitando-se assim desperdício de recursos com o processamento de dados não relevantes. A padronização de variáveis também é necessária, para evitar erros de interpretação e desvio na obtenção dos padrões. Por exemplo, uma determinada coluna pode ter como domínio o conjunto {1, 2, 3} representando, respectivamente, “ensino fundamental”, “ensino médio”, “ensino superior”. Outra coluna pode ter os valores {F, M, S}, para representar o mesmo conjunto “ensino fundamental”, “ensino médio”, “ensino superior”. Assim, faz-se necessário definir um único padrão para a representação deste conjunto de valores, alterando as tabelas para representá-lo de maneira consistente. Usama Fayyad propõe ainda, para esta fase, a utilização de técnicas para a redução de dados e para a projeção [FAYYA96]. Este passo envolve transformação dos dados dentro de formas mais apropriadas para os métodos de Mineração de Dados. Estas transformações podem incluir reduções de passos de dimensionalidade - substituindo alguns campos com um campo derivado - ou redução de dados - mapeando múltiplos registros para uma simples entidade e derivando os resultados dentro de conjuntos de registros. Também podem ser adicionados novos registros julgados relevantes para o problema. 2.3.3.4 Mineração de Dados Esta é a etapa onde é realizado o processo de descoberta de padrões propriamente dito. Com a utilização de algoritmos específicos, os dados que foram previamente selecionados, pré-processados, transformados, passam por várias iterações até que sejam descobertos padrões de relacionamento, agrupamentos, tipos de comportamento. Por ser considerada uma das etapas mais importantes do processo de Descoberta de Conhecimento, este item será detalhado em seção posterior . 2.3.3.5 Interpretação e Avaliação Os resultados da etapa de Mineração de Dados devem ser examinados e interpretados por pessoas que conheçam profundamente o negócio, para que sejam identificados como padrões úteis ou não. Os especialistas no negócio são as pessoas indicadas para avaliar os produtos da etapa de mineração, são os responsáveis por verificar a oportunidade de utilização 59 das informações obtidas para a geração de conhecimento efetivo a partir dos dados avaliados. Nesta etapa, é avaliado o conjunto de padrões em função dos objetivos iniciais, decidindo quais deles são interessantes, para conseqüentemente interpretá-los de maneira que se tornem legíveis para os usuários finais do sistema, bem como torná-los acessíveis para as aplicações que deverão utilizá-los. Como o processo de Descoberta de Conhecimento em Bases de Dados é cíclico, esta etapa pode indicar a necessidade de se repetir qualquer outra das etapas anteriores, até a obtenção de resultados satisfatórios [FAYYA96]. Após a realização de todas as iterações que se fizerem necessárias, os resultados considerados positivos devem ser incorporados ao sistema, consolidando o conhecimento obtido depois de todas as etapas anteriores. 2.4 Descoberta de Conhecimento em Textos O tema DCT - Descoberta de Conhecimento em Textos (do inglês KDT – Knowledge Discovery in Texts) deriva, de certa forma, do conceito de Descoberta de Conhecimento em Bases de Dados. A diferença principal é que, em se tratando de textos, as informações geralmente se encontram de forma não estruturada, diferente do que ocorre com as informações armazenadas nos bancos de dados. Apesar da utilização crescente de sistemas que utilizam bancos de dados como repositório de informações, o volume de informações textuais é preponderante na grande maioria das organizações. Relatórios, atas, formulários, manuais, mensagens de correio eletrônico, memorandos, entre outros, são exemplos de documentos que utilizam textos livres para o registro de informações. Apesar do grande volume de informações armazenadas nestes tipos de instrumentos, as pessoas têm dificuldades para tratá-las adequadamente, por não estarem estruturadas [LOH01]. Assim, Descoberta de Conhecimento em Textos pode ser definida como “o processo de extrair padrões ou conhecimentos interessantes e não triviais a partir de documentos textuais” [Tan 1999, apud LOH01]. É necessário destacar que muitos destes textos encontram-se armazenados fisicamente em bancos de dados, mas mesmo assim não podem ser considerados informações 60 estruturadas, pois normalmente são inseridos nestas bases em sua forma original. Somente seriam considerados estruturados se as informações que contêm fossem decompostas em colunas específicas com um domínio bem caracterizado. Do ponto de vista metodológico, os processos envolvidos na Descoberta de Conhecimento em Textos são muito semelhantes aos processos de Descoberta de Conhecimento em Bases de Dados. A diferença básica é que as técnicas e ferramentas devem ser aplicadas sobre o conjunto de documentos textuais a ser estudado e não sobre itens de bancos de dados [LOH01]. Assim, serão relacionadas aqui as mesmas etapas propostas por Fayyad at al [FAYYA96], com as devidas observações quando da aplicação em conjuntos de dados textuais. Serão acrescentadas, entretanto, técnicas propostas por outros autores e que podem ser consideradas complementares ao trabalho de Fayyad, as quais são adequadas às especificidades encontradas no tratamento de informações armazenadas em conjuntos de textos. 2.4.1.1 Seleção O processo de DCT tem início na definição do conjunto de textos que deverá ser utilizado para a execução do trabalho. Esta é uma etapa fundamental para todo o processo. Os objetos de estudo podem estar armazenados em diversos formatos, sejam arquivados em papel, sejam em arquivos de formatação livre nos diversos sistemas de arquivos hoje utilizados, sejam em arquivos de sistemas processadores de texto, sejam em bancos de dados em colunas específicas para informações textuais. Nesta etapa deve-se identificar informações que possam ser relevantes para o estudo, discriminando seu conteúdo, descrição, qualidade e utilidade. É necessário mapear a localização, o formato e o estado dos documentos que serão processados, considerando a propriedade, os esforços a serem empreendidos e a oportunidade da utilização de cada um deles em função do custo-benefício da operação. Como acontece nos processos de Descoberta de Conhecimento em Bases de Dados, esta tarefa de identificação de padrões também é muito dependente da decisão de analistas humanos, e do seu conhecimento do assunto que estará sendo pesquisado. Um documento desprezado nesta fase pode ser exatamente aquele que contém a maior riqueza de informações sobre o assunto tratado. Assim, a DCT também é um processo cíclico, executado tantas vezes quanto for necessário para a obtenção de conhecimento a partir do conjunto de documentos 61 investigado. Os sucessivos aprimoramentos do conjunto de dados tratado, e o constante aprendizado dos analistas a partir da manipulação da base de dados podem propiciar um resultado final satisfatório. Os principais passos desta etapa: a) Identificar o conjunto de dados que interessa para pesquisa.. b) Identificar a localização e o formato original destes dados. c) Estabelecer a relevância da utilização de cada grupo. d) Estabelecer o custo-benefício da utilização de cada grupo. e) Extrair as informações textuais dos seus locais de origem e gerar arquivos de trabalho. 2.4.1.2 Pré-processamento Esta etapa trata de atividades de limpeza, correções, eliminação de ruídos, no sentido de se preparar o conjunto de dados tratado para as etapas posteriores. No caso de Descoberta de Conhecimento em Textos, estas atividades estão relacionadas com o tratamento dos documentos textuais para que sejam colocados em um formato padrão definido, e que tenham o mínimo de incorreções e ruídos. É necessário também estabelecer um método que identifique as características mais significativas de cada texto. Neste tipo de objeto – objetos textuais – as palavras são utilizadas como atributos. Entretanto, muitas das palavras mais freqüentes em um texto não agregam significado especial e distinto, mesmo sendo importantes para o entendimento do mesmo. Estas palavras possuem baixo valor de discriminação. São as conjunções, as preposições, os artigos e os numerais [WIVES99]. Palavras deste tipo são denominadas palavras negativas, ou stop words, e, segundo Wives, “devem ser retiradas em uma etapa de pré-processamento conhecida como remoção de stop words” [WIVES99]. É importante salientar que estas classes de palavras podem ter níveis de importância diferentes, dependendo do contexto onde são utilizadas. Somente a partir da avaliação de especialistas no assunto pesquisado é que podem ser definidos quais os grupos devem ser eliminados dos textos. Outras palavras podem ser acrescentadas às listas das palavras negativas, aquelas que ocorram muitas vezes nos textos, mas que não representem potencial de discriminação para o assunto tratado. 62 As tarefas da etapa de pré-processamento podem ser realizadas com a execução de ferramentas para: a) Formatar os documentos para que sejam apresentados em um único padrão. b) Efetuar correção ortográfica para a eliminação de termos grafados incorretamente. c) Eliminar linhas e caracteres de controle. d) Criar listas de palavras negativas. 2.4.1.3 Transformação Esta etapa tem por objetivo realizar operações sobre os objetos estudados para que possa ser mais eficiente a etapa posterior de mineração de texto. Segundo Wives [WIVES00], diversas técnicas podem ser utilizadas para tornar os objetos textuais mais adequados para o processamento posterior, tais como: a) A estruturação do documento, considerando com peso maior palavras presentes em títulos, subtítulos, notas de explicação [Cow 96 apud WIVES99]. Entretanto, esta técnica pode ser considerada uma etapa adicional, e por demais custosa, caso o documento não seja originalmente estruturado. b) A adaptação de vocabulário, com a utilização de sinônimos. A utilização desta técnica facilita as tarefas de agrupamento, uma vez que palavras consideradas diferentes a partir da grafia, depois de substituídas, podem representar um peso maior quando submetidas aos algoritmos de identificação de freqüência. c) A eliminação de diferenças morfológicas de uma mesma palavra – singular e plural, masculino e feminino, entre outras. Hwee Ng propõe uma técnica que identifica os radicas das palavras, unificando o vocabulário [NG97]. Entretanto, a utilização destes recursos pode tornar os documentos muito abrangentes, já que as palavras podem ficar muito semelhantes entre si. d) A retirada de caracteres especiais, tornando as palavras mais simples. Esta técnica pode auxiliar ainda na eliminação de erros de grafia pela utilização de caracteres acentuados, bem como aumentar a padronização do texto. e) A transformação de todos os caracteres para um mesmo padrão quanto à utilização de letras maiúsculas e minúsculas. Assim, uma mesma palavra não corre o risco de ser considerada por diferenças de tipo de grafia em caixa alta ou caixa baixa. 63 2.4.1.4 Mineração de Texto Esta é a etapa onde é realizado o processo de descoberta de padrões propriamente dito. Com a utilização de algoritmos específicos, os textos que foram previamente selecionados, pré-processados, transformados, passam por várias iterações até que sejam descobertos padrões de relacionamento, agrupamentos, tipos de comportamento. Por ser considerada uma das etapas mais importantes do processo de Descoberta de Conhecimento em Texto, este item será detalhado em seção posterior. 2.4.1.5 Interpretação e Avaliação Como na Descoberta de Conhecimento em Bases de Dados, esta etapa na Descoberta de Conhecimento em Texto também requer a participação de especialistas no negócio para avaliar e interpretar os resultados obtidos nas fases anteriores. O resultado produzido pelos algoritmos de mineração de texto normalmente são agrupamentos que podem ser mais ou menos significativos. A análise dos especialistas no negócio é fundamental para o ajuste dos parâmetros utilizados, e até para a definição das técnicas que podem ser utilizadas. Avaliado o conjunto de padrões em função dos objetivos iniciais, decide-se quais deles são interessantes, para conseqüentemente interpretá-los de maneira que se tornem legíveis para os usuários finais do sistema, e ainda torná-los acessíveis para as aplicações que deverão utilizá-los. Também a Descoberta de Conhecimento em Texto é composta por um conjunto de processos que podem ser cíclicos. Assim, esta etapa pode indicar a necessidade de se repetir qualquer outra das etapas anteriores, até a obtenção de resultados satisfatórios [FAYYA96]. Após a realização de todas as repetições que se fizerem necessárias, os resultados considerados relevantes devem ser incorporados ao sistema, consolidando o conhecimento obtido depois de todas as etapas anteriores. 2.5 Técnicas de Mineração de Dados Mineração de Dados, do inglês Data Mining, é a etapa de DCBD onde ocorre a aplicação de algoritmos com a finalidade de identificar padrões de comportamento em uma base de dados. Segundo FAYYAD: 64 Mineração de Dados é a etapa no processo de DCBD que consiste de algoritmos particulares que, sob determinadas limitações aceitáveis dos sistemas computacionais, produzem uma determinada quantidade de padrões sobre uma base de dados [FAYYA96]. Assim, dentro do contexto da Descoberta de Conhecimento em Bases de Dados, podese verificar que a etapa de Mineração de Dados é uma das mais importantes, onde efetivamente os dados anteriormente preparados são submetidos a algoritmos que procuram estabelecer relações e evidenciar padrões de comportamento que possam vir a ser úteis no processo de aquisição de conhecimento. O processo de Mineração de Dados tem dois objetivos principais, segundo Fayyad [FAYYA96]: a predição e a descrição. A predição envolve a utilização de algumas variáveis, normalmente atributos da base de dados, para prever valores desconhecidos ou futuros de outras variáveis de interesse. Já a descrição procura por padrões que reflitam a distribuição dos itens de dados no espaço das suas dimensões e que sejam passíveis de interpretação. 2.5.1 Tarefas Básicas Fayyad [FAYYA96] relaciona algumas tarefas, as quais considera básicas para o processo de Descoberta de Conhecimento em Bases de Dados. Abaixo, encontram-se enumeradas as principais: a) Classificação: consiste em identificar e classificar objetos em grupos previamente definidos. b) Regressão: tem por objetivo estimar o valor de uma variável a partir de outros dados. c) Agrupamento: consiste em identificar similaridades entre objetos e agrupá-los, sem a definição prévia das características destes grupos. d) Sumarização: consiste em definir um conjunto mínimo de características que venham a identificar um subconjunto de objetos. Para o desenvolvimento deste trabalho, foram utilizadas principalmente as técnicas de agrupamento e classificação. Assim, estas serão detalhadas a seguir. 65 2.5.1.1 Agrupamento Fayyad define o processo de agrupamento, também denominado clustering, como uma tarefa comum de descrição onde se busca identificar um conjunto finito de categorias para descrever os dados [FAYYA96]. O objetivo do agrupamento é tomar um conjunto de entidades representativas como registros em banco de dados e posicioná-los dentro de um número de grupos ou clusters, aonde cada cluster contém registros similares. As categorias podem ser mutuamente exclusivas, ou podem compartilhar algumas características, sobrepondo-se em alguns casos. Os dados agrupados formam um aglomerado que, segundo Kowalsky, “é um grupo de objetos similares, geralmente uma classe, que possui um título mais genérico capaz de representar todos os elementos nela contidos” [KOWAL97]. Tarefas de agrupamento são muito mais antigas que o computador. Desde os tempos remotos, objetos similares são agrupados, facilitando o entendimento do conjunto e a localização de informações. Com o advento dos computadores, estes passaram a ser utilizados também para realizar funções de agrupamento. Com o surgimento da Inteligência Artificial, muitos algoritmos de agrupamento foram desenvolvidos. Segundo Jiawei Han: O agrupamento de objetos/informações é uma técnica de Descoberta de Conhecimento em Bases de Dados e Mineração de Dados estudada pela área da Inteligência Artificial [Han96 apud WIVES99]. Assim, áreas de conhecimento que têm utilizado conceitos de Inteligência Artificial são as que mais utilizam técnicas de agrupamento. Psicologia, arqueologia, medicina, genética, economia, marketing são exemplos de áreas de conhecimento que se valem dos algoritmos de agrupamento para tarefas como organização de dados e recuperação de dados similares. O processo de agrupamento é, até certo ponto, similar ao processo de classificação. Entretanto, estes dois conceitos não devem ser confundidos. O processo de classificação pressupõe que se conheça as características que identificam os membros de uma determinada classe. Assim, a tarefa de classificação consiste em encontrar atributos e valores que melhor caracterizem cada classe. 66 Já no processo de agrupamento não existem classes definidas O objetivo final é estabelecer parâmetros de comparação entre cada instância do conjunto de objetos, e criar agrupamentos com os elementos que apresentarem determinadas características comuns, embora anteriormente não se soubesse que características seriam essas. Portanto, o objetivo da técnica de agrupamento é identificar os objetos que possuem características em comum, agrupando-os em subconjuntos de objetos similares. O aglomerado de objetos, ou cluster, foi definido por Everitt [EVE74 apud WIVES99] como: a) Um conjunto de entidades que são semelhantes. Entidades pertencentes a aglomerados diferentes são diferentes; b) Uma agregação de pontos no espaço tal que a distância entre os pontos em um mesmo aglomerado é menor que a distância entre pontos de diferentes aglomerados; c) Os aglomerados podem ser descritos como regiões conexas de um espaço multidimensional que contém uma grande densidade relativa de pontos. As regiões estão separadas umas das outras por regiões de baixa densidade relativa de pontos. As tarefas de agrupamento devem considerar, inicialmente, o tipo de organização das informações, se estruturadas ou não estruturadas. Por bases estruturadas pode-se entender o conjunto de informações armazenadas, por exemplo, em tabelas relacionais de bancos de dados. São chamadas estruturadas por serem resultado de um projeto que abstraiu do mundo real uma representação adequada para o armazenamento e a recuperação de informações. Nestes casos, os dados normalmente são bem definidos, pertencem a um domínio específico e apresentam relacionamentos e interações. Para informações deste tipo, existem vários algoritmos de agrupamento, uma vez que, desde os primeiros sistemas informatizados, os computadores vêm sendo utilizados para tarefas desta natureza. Segundo Feldman [FELDM97], a maioria das técnicas de agrupamento foi desenvolvida para atuar sobre dados estruturados. Quanto às informações não estruturadas, são assim definidas aquelas sem uma organização previamente definida, e nesta categoria se enquadram as informações textuais. 67 2.5.1.2 Classificação A classificação é um processo de aprendizado em que um objeto é mapeado em uma das classes pré-definidas [Hand91 apud FAYYA96]. A partir de um conjunto de atributos previamente escolhidos, o algoritmo de classificação procura estabelecer relações entre os dados, classificando os registros de acordo com as características de cada um, confrontandoos com as características das classes previamente determinadas. A classificação pode, então, identificar a qual classe este objeto pertence, a partir de seu conteúdo. Para tal, é necessário que as classes tenham sido previamente descritas, expressando suas características por meio de definições, fórmulas e/ou atributos. Segundo Wives, os sistemas de classificação de objetos geralmente utilizam uma das seguintes técnicas [WIVES00]: a) “Regras de inferência: baseadas em um conjunto de características que devem ser encontradas no objeto para que esse seja identificado como pertencendo a determinada categoria. Necessitam de muito tempo para serem elaboradas e devem ser adaptadas caso o domínio mude. Geralmente são desenvolvidas para uma tarefa e domínio específico. O conhecimento modelado é facilmente compreendido e seus resultados são, na maioria dos casos, melhores do que os apresentados pelos outros métodos. b) Modelos conexionistas – redes neurais artificiais: Esses sistemas induzem automaticamente um modelo matemático ou um conjunto de regras a partir de um conjunto de objetos de treinamento. Podem ser colocados em prática rapidamente e são capazes de se adaptar as mudanças do ambiente de dados. Eles não necessitam de um especialista ou pessoa para a análise do domínio. Por outro lado, necessitam do conjunto de treinamento e seu modelo ou regras não são tão facilmente compreensíveis. c) Método de similaridade de vetores ou de centróides – nesse caso as classes são representadas por vetores de palavras, denominados centróides. O documento é comparado com o vetor descritivo de cada classe. A classe que apresentar maior similaridade com o documento é tomada como classe do documento. d) Árvores de decisão – Uma abordagem parecida com a primeira, porém, utiliza técnicas de aprendizado de máquina para induzir as regras. Para cada classe uma árvore de decisão é criada. 68 e) Classificadores de Bayes – Parecidos com os conexionistas, porém têm como base a teoria da probabilidade. Eles conseguem informar a probabilidade de determinado objeto pertencer a uma determinada classe”. Um exemplo de classificação: uma empresa que atua no setor de concessão de crédito pretende avaliar o risco associado a empréstimos que faz aos seus clientes. Os clientes são classificados como bons ou indesejáveis dependendo de o crédito ter sido recuperado ou não pela empresa. A partir de informações encontradas em cada registro, pode-se utilizar um algoritmo de classificação para testar os valores destas variáveis, e classificar os clientes em uma das duas possibilidades, ou seja, bons ou indesejáveis. 2.5.2 Caracterização da Mineração de Dados O processo de Mineração de Dados é fortemente relacionado aos métodos utilizados no tratamento dos dados da base pesquisada, e é comum classificar o tipo de Mineração de Dados a partir do método escolhido. Atualmente, podem-se observar grandes avanços em pesquisas e desenvolvimento destes métodos. Ming-Syan Chen apresentou uma proposta de classificação abrangente, que considera os métodos utilizados, o tipo de conhecimento pesquisado e o tipo de banco de dados que suporta as informações tratadas. Assim, um sistema de Mineração de Dados pode ser classificado de acordo com os seguintes critérios [CHEN96]: a) O tipo de base de dados utilizada: os sistemas de mineração de dados podem ser classificados segundo o tipo da base de dados onde estão sendo executados. Por exemplo, se este sistema faz mineração de dados em uma base relacional, é classificado com o minerador relacional, ou um minerador de dados orientado a objetos quando executado em uma base orientada a objetos; b) O tipo de conhecimento pesquisado: vários tipos de conhecimento podem ser descobertos por técnicas de Mineração de Dados. Assim, os sistemas de mineração podem ser classificados como: conhecimento generalista, conhecimento de primeiro nível, conhecimento de múltiplos níveis. Um sistema de Mineração de Dados flexível pode descobrir conhecimento em vários níveis de abstração. c) O tipo de método utilizado: a escolha do método está fortemente relacionada com o tipo de conhecimento que se deseja extrair ou com os dados aos quais se aplicam tais técnicas. Entretanto, de forma mais genérica, o tipo de mineração pode ser caracterizado pelo tipo de abordagem utilizada, seja a mineração baseada em 69 generalização, a mineração baseada em padrões, ou a mineração baseada em estatística e teorias matemáticas. 2.5.3 Árvores de Decisão Amplamente utilizadas em algoritmos de classificação, as árvores de decisão são representações simples do conhecimento e, um meio eficiente de construir classificadores que predizem classes baseadas nos valores de atributos de um conjunto de dados. Árvores de decisão podem ser conceituadas como um mapa de processamento lógico. Uma Árvore de Decisão é uma estrutura de dados recursivamente definida como: a) Um nó folha, que indica uma classe. b) Um nó de decisão, que contém um teste sobre o valor de um atributo. Para cada um dos possíveis valores do atributo, tem-se um ramo para uma outra árvore de decisão, ou seja, uma sub-árvore. Cada sub-árvore contém a mesma estrutura de uma árvore. Uma árvore de decisão pode ser reescrita no formato de regras de produção, sendo que este modelo de regras gerado também mantém a propriedade de dividir o espaço de descrição em regiões disjuntas. Outra propriedade importante de árvores de decisão é que o espaço de descrição do problema é dividido de forma completa, isto é, qualquer ponto do espaço é coberto por uma região da árvore de decisão [LUCEN01]. Uma árvore de decisão tem a função de “particionar” recursivamente um conjunto de treinamento, até que cada subconjunto obtido deste particionamento contenha casos de uma única classe. Para atingir esta meta, a técnica de árvores de decisão examina e compara a distribuição de classes durante a construção da árvore. O resultado obtido, após a construção de uma árvore de decisão, são dados organizados de maneira compacta, que são utilizados para classificar novos casos. Na figura a seguir é apresentada uma interpretação geométrica de uma árvore de decisão com duas classes (+ e o) e dois atributos (X1 e X2) [PRA01 apud LUCEN01]. 70 Figura 5: Apresentação geométrica de uma árvore de decisão [LUCEN01] A qualidade de uma árvore de decisão depende tanto da exatidão da classificação quanto do tamanho da árvore. O método primeiro escolhe um subconjunto para realizar o treinamento da árvore. Se a árvore não apresenta a resposta correta para todos os objetos, a seleção de exceções é armazenada e o processo continua, até que um conjunto correto de soluções seja encontrado [CHEN96]. Segundo Usama Fayyad, árvores de decisão são principalmente utilizadas em modelos preditivos, tanto para classificação quanto para regressão, embora também sejam utilizadas em modelos de sumarização descritiva [FAYYA96]. Vários algoritmos de classificação elaboram árvores de decisão. Normalmente, considera-se que não existe uma forma direta de se determinar qual é o melhor algoritmo, sendo que um pode ter melhor desempenho em determinada situação, enquanto outro algoritmo pode ser mais eficiente para outro conjunto de dados. Alguns exemplos: o algoritmo ID3 foi um dos primeiros para implementar uma árvore de decisão, sendo sua elaboração baseada em sistemas de inferência e em conceitos de sistemas de aprendizagem. Outros algoritmos, como o C4.5, o CART (Classification and Regression Trees), o CHAID (Chi Square Automatic Interaction Detection) são também bastante utilizados. 2.5.4 Redes Neuronais Artificiais As Redes Neuronais Artificiais podem ser definidas como uma técnica que procura simular a inteligência humana. Segundo Laurene Fausset: 71 Redes Neuronais Artificiais são modelos computacionais, implementados em software ou hardware, que visam simular o comportamento dos neurônios biológicos através de um grande número de elementos de processamento interconectados, os neurônios artificiais [FAUSS94]. As pesquisas no sentido de emular a inteligência através de recursos artificiais surgiram na década de 1940, logo após o início da utilização dos primeiros computadores. Na década seguinte destacaram-se duas principais correntes de pesquisa: a) Inteligência Artificial Simbólica: procurava simular o raciocínio dedutivo no computador, através de algoritmos especiais, objetivando implementar a manifestação da inteligência. b) Inteligência Artificial Conexionista: nasceu das pesquisas por modelos que simulavam o funcionamento fisiológico do cérebro para reproduzirem a inteligência. Esta corrente originou as Redes Neuronais Artificiais (RNA). Após alguns anos onde as pesquisas em Inteligência Artificial tiveram um progresso menos acelerado, a partir dos anos 80 as RNA têm sido utilizadas na resolução da mais variada gama de problemas. Com o crescimento da utilização de técnicas de extração de conhecimento a partir de bases de dados, esta técnica tem sido empregada para a descoberta de informações contidas em bancos de dados. As RNA possuem algumas características relevantes na concepção de uma grande variedade de aplicações, tais como [BISHO95]: a) Adaptabilidade: algoritmos de aprendizagem e regras auto-organizáveis permitem a adaptação em ambientes dinâmicos. b) Processamento não-linear: habilidade de executar tarefas que envolvam relacionamentos não lineares e tolerantes a ruídos, tornando as Redes Neurais Artificiais uma boa técnica para classificação, predição e agrupamentos. c) Processamento paralelo: o grande número de unidades de processamento promove vantagens para o armazenamento de informações distribuídas, bem como para o processamento paralelo. 2.5.4.1 Arquitetura das Redes Neurais Artificiais Os sistemas biológicos são formados por uma grande variedade de arquiteturas específicas, dispostas em um grande emaranhado de conexões. Da mesma forma, as Redes 72 Neurais Artificiais utilizam arquiteturas diferentes para tipos diferentes de tarefas [BRASI02]. A figura a seguir ilustra a semelhança entre um neurônio biológico e um neurônio artificial. Figura 6: Modelo de neurônio biológico e artificial [MEDLE98] O neurônio artificial tem sua inspiração no modelo natural, tentando imitar o seu funcionamento através de funções matemáticas e algoritmos computacionais. O neurônio artificial é um modelo simplificado, em vista da complexidade do sistema nervoso biológico, e a sua compreensão incompleta mesmo após os grandes avanços da medicina. As RNA são formadas por neurônios artificiais, sendo que cada um pode receber uma ou mais entradas, processa as informações recebidas e gera uma única saída. A entrada pode vir de tipos de dados naturais ou ainda vir da saída de outros neurônios, bem como a saída pode representar a resolução final do problema, ou pode ser a entrada para outro neurônio. Os neurônios, em uma RNA, são agrupados em camadas, sendo a primeira camada a que recebe os dados externos, a ultima camada a responsável pelos dados de saída, e, entre estas, uma ou mais camadas intermediárias. A figura a seguir mostra em exemplo de uma RNA com uma camada intermediária [BRASI02]. 73 Figura 7: Rede Neuronal Artificial com uma camada intermediária [BRASI02] 2.5.4.2 Aprendizado em Redes Neuronais Artificiais O processo de aprendizado na rede acontece, basicamente, de duas formas: o aprendizado supervisionado e o aprendizado não supervisionado. No aprendizado supervisionado, durante a seção de treinamento, um estímulo de entrada é aplicado e resulta numa saída. Esta saída é então comparada com um padrão inicial informado para a rede. Caso a resposta atual da rede seja diferente da resposta fornecida pelo padrão, a rede gera um sinal de erro, que é utilizado para a correção dos pesos atuais da rede. Concluído este processo, o estímulo é fornecido novamente para a rede, resultando numa nova saída. Se essa saída se aproximar do padrão informado, a rede estará treinada para esse estímulo; caso contrário, todo o processo de correção deve ser repetido. No aprendizado não supervisionado, não há saída desejada. Durante a sessão de treinamento, a rede recebe em sua entrada diferentes padrões, e os organiza arbitrariamente em categorias. Assim, quando uma entrada é aplicada à rede, esta fornece uma resposta de saída indicando a categoria a qual a entrada pertence. Se uma categoria não pode ser encontrada para o padrão de entrada, uma nova classe é gerada [BRASI02]. Nesta forma, as redes têm a capacidade de determinar uma correlação entre os possíveis padrões de entrada e são particularmente úteis nos problemas em que as entradas variam com o tempo de forma conhecida. Este mecanismo pode ser considerado como sendo a capacidade da rede de abstrair correlações entre os estímulos de modo a obter as respostas desejadas. 74 2.5.4.3 Aplicações de Redes Neuronais Artificiais As Redes Neuronais Artificiais são utilizadas em uma grande variedade de aplicações: a) Reconhecimento de padrões: um sistema de reconhecimento de padrões pode ser dividido em algumas tarefas, tais como: particionamento de imagem em objetos isolados, extração de características e análise de contexto. Um dos tipos de RNA utilizada para tarefas deste tipo é a Kohonen. b) Classificação: a classificação pertence a uma categoria de problemas na qual objetos são associados à determinadas classes. Esta categoria de rede neuronal produz saídas que representam um conjunto de características apresentadas através de um padrão de entrada [FAUSE94]. Redes Backpropagation podem ser utilizadas neste tipo de problema. c) Previsão: a utilidade da tecnologia de RNA para a realização de previsões está no fornecimento de subsídios ao processo de tomada de decisão. Redes de Função de Base Radial são exemplos de redes utilizadas neste tipo de aplicação. d) Controle: as Redes Neurais Artificiais estão sendo cada vez mais utilizadas em processos de controle em tempo real, onde a principal vantagem desta abordagem em relação aos sistemas industriais de controle tradicionais está na habilidade de aprender através de experiências. Pode ser utilizado, por exemplo, no controle de um manipulador industrial de robótica. 2.5.5 Abordagens Híbridas Pode-se definir como abordagens híbridas a estratégia de se utilizar mais de uma técnica para a resolução de um determinado problema [PRADO98]. Também na Mineração de Dados, a combinação de técnicas pode apresentar resultados superiores aos obtidos com a utilização de abordagens puras. A partir da utilização em conjunto de técnicas que individualmente já tenham demonstrado utilidade prática, a construção de modelos híbridos pode aproveitar os benefícios de cada uma delas. Prado [PRADO98] cita, como exemplo, a utilização de RNA’s em conjunto com árvores de decisão. Enquanto a primeira técnica se mostra útil na modelagem de funções não lineares, porém com resultados não satisfatórios quando se trata de explanação 75 dos fatos pesquisados, a segunda técnica apresenta bons resultados em tarefas de explanação, mas restringe-se a “particionamentos” lineares do espaço de entrada. Como exemplos de propostas de sistemas híbridos, podem ser citados: a) Modelo Neural Combinatório – MNC: entende-se por Modelo Neural Combinatório uma rede neural capacitada para operações de classificação. O treinamento dessa rede pode ser feito através de um algoritmo baseado em backpropagation9, utilizando punições e recompensas. O MNC integra os paradigmas simbólico e conexionista, e utiliza aprendizado supervisionado em uma topologia feedforward com as seguintes características: uma camada de entrada, uma camada combinatória e uma camada de saída [PRADO98]. Os neurônios são conectados através de arcos ou sinapses. Figura 8: Modelo Neural Combinatório [PRADO98] b) Redes Neurais Baseadas em Conhecimento (knowledge-based artificial neural network – KBANN): este é um modelo de classificação supervisionada de dados. É composto por três funções principais: inserção de conhecimento simbólico na rede, refinamento do conhecimento prévio com base em dados e extração de conhecimento simbólico. O aprendizado é feito a partir de um algoritmo de backpropagation sobre o conhecimento prévio inserido [PRADO98]. 9 Backpropagation: é a base para o treinamento de uma rede neural supervisionada. Depois que os padrões de entrada são processados pela rede, os resultados obtidos são utilizado como parâmetros para ajustá-la. 76 Figura 9: Funções de um modelo KBANN [OSORI99] 2.5.6 Ferramenta para a Mineração de Dados Com o crescente interesse na utilização de técnicas de Descoberta de Conhecimento em Bases de Dados e Mineração de Dados, têm sido construídas ferramentas que implementam algoritmos para esse fim. Para este trabalho, optou-se por utilizar a ferramenta WEKA O WEKA (Waikato Environment for Knowledge Analysis) é um projeto desenvolvido pela Universidade de Waikato – Nova Zelândia, que tem por objetivo manter um ambiente de aprendizagem de máquina10. Encontra-se disponível de forma inteiramente gratuita para a comunidade científica, e implementa os principais algoritmos que podem ser utilizados em Mineração de Dados. O WEKA é implementado na linguagem JAVA, utilizando conceitos de orientação a objetos. Como foi estabelecido que seria de domínio público, tanto os programas fontes como o próprio aplicativo se encontram disponíveis para serem livremente copiados na página WEB do projeto [WEKA01]. Como foi implementado em linguagem JAVA, o WEKA pode ser executado na maior parte dos sistemas operacionais existentes, sem necessidade de recompilação ou alteração do aplicativo. O WEKA pode ser executado em ambiente Windows, Linux, Unix e Macintosh, desde que o computador possua instalada a JVM (Java Virtual Machine). 10 Aprendizagem de Máquina: do inglês Machine Learning, é um ramo da Inteligência Artificial que estuda algoritmos que permitam aos computadores efetivar aprendizado a partir de exemplos anteriores e estímulos (entradas) no sistema. 77 O WEKA contém ferramentas para classificação, regressão, agrupamento e associação. Pode ser utilizado tanto através de instruções em linha de comando, como a partir de uma versão que implementa uma interface gráfica em Java. Pode também ter suas bibliotecas utilizadas em outros programas, que podem ser construídos para utilizar os algoritmos ali implementados. 2.5.6.1 Estrutura O WEKA foi estruturado dentro dos padrões de construção de aplicativos orientados a objetos. Como foi construído utilizando a linguagem de programação Java, para falar da estrutura do aplicativo é importante discriminar alguns aspectos desta linguagem. Em Java, cada programa é implementado como uma classe, conceito oriundo da programação orientada a objetos. Uma classe pode ser definida como um conjunto estruturado de variáveis ou dados, e os algoritmos que interagem com esses dados e variáveis, chamados métodos. Um objeto é definido como uma instância da classe à qual pertence. Um conjunto de classes é denominado pacote, normalmente organizado para agrupar classes relacionadas entre si, ou relacionadas a um determinado assunto. Assim, o WEKA é formado por diversos pacotes de classes Java – que podem ser entendidos como módulos do sistema - que por sua vez implementam diversos métodos sobre os dados tratados [WITTE99]. A figura seguinte mostra os principais pacotes que compõe o WEKA e a dependência entre eles, e a tabela, logo a seguir, uma descrição sumária de cada um deles. 78 Figura 10: relação dos pacotes do WEKA – adaptação de [SALGA02] Tabela 3: Descrição dos pacotes do WEKA – adaptado de [SALGA02] PACOTE DESCRIÇÃO Associations Implementa o algoritmo Apriori para a geração de regras de associação. Implementa algoritmos para seleção de atributos de um conjunto de treinamento. Implementa vários tipos de classificadores comuns: AttributeSelection Classifiers árvores de decisão (ID3, C4.5), redes neurais, tabelas de decisão, algoritmos bayesianos, bagging, boosting. Clusterers Implementa os seguintes algoritmos para clustering: EM, SimpleKMeans e CobWeb. Core Implementa funções de IO e de estatísticas de instâncias. Calcula por exemplo o número de atributos com um 79 PACOTE DESCRIÇÃO determinado valor, o número de instâncias com alguns valores ausentes. Filters Implementa vários filtros aplicados na fase de préprocessamento dos dados. GUI Implementa toda a parte de interface com o usuário. É importante ressaltar que estas classes não dispõem de nenhum algoritmo de mineração de dados implementado, o que torna o software mais flexível para eventuais mudanças. Estimator Diferentes tipos de cálculo para distribuição de probabilidades. É usada, por exemplo, pelo algoritmo Naive Bayes. 2.5.6.2 Arquivo de entrada O WEKA define um padrão de entrada específico que deve ser obedecido para o correto processamento das informações. É um arquivo com extensão .ARFF, dividido basicamente em três partes: a) O nome a ser atribuído ao trabalho de mineração correspondente àquele arquivo. É precedido pelo rótulo @RELATION. b) Descrição dos atributos: nesta seção, devem ser relacionados todos os atributos que serão processados. Podem ser descritos alguns níveis de detalhamento. É precedido pelo rótulo @ATTRIBUTE. c) Seqüência de dados: são os dados que serão processados. Cada linha contém valores para os atributos relacionados em (b). Inicia com uma linha com o rótulo @DATA. Na figura a seguir é mostrado um exemplo de um arquivo de entrada do WEKA. 80 @RELATION Producao_Grupo_Tipo_0001 @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE NME_RH STRING Complementares {sim,nao} Demais {sim,nao} Orientação {sim,nao} Artística_Cultural {sim,nao} Produção_bibliográfica {sim,nao} Produçao_Técnica {sim,nao} Total_Global REAL @data "André Fernando da Silva Nobre",nao,nao,nao,nao,sim,nao,1 "Bruno Pacheno Novais Clemente",nao,nao,nao,nao,sim,nao,1 "Carlos Campos Silveira Brito",nao,nao,nao,nao,sim,nao,1 "Douglas Cerqueira Silva Pacheco Meireles",nao,nao,nao,nao,sim,nao,1 "Edimária Vanessa da Silva Soares",nao,nao,nao,nao,nao,sim,1 Figura 11: Exemplo de arquivo .arff do WEKA Este tipo de arquivo pode ser gerado a partir de ferramentas dos principais bancos de dados, que permitem a criação de listas separadas por um determinado caractere, neste caso, a vírgula. 2.5.6.3 Algoritmos O WEKA implementa uma série de algoritmos especialistas que podem ser utilizados em tarefas de mineração de dados. Estes algoritmos são organizados em pacotes específicos: a) Associations b) Classifiers c) Clusteres Associations As regras de associação são utilizadas na tentativa de se encontrar relacionamentos significativos entre informações de mesma natureza. Estas bases de dados estão se tornando cada vez mais extensas, o que demanda a utilização de algoritmos eficientes para viabilizar a pesquisa em um tempo aceitável. Para a tarefa de estabelecer regras de associação, o WEKA implementa o algoritmo Apriori. Este algoritmo foi proposto por Agrawal e Srikant [AGRAW94] em 1994, na intenção de proporcionar uma maneira mais eficiente de percorrer bases de dados e gerar regras de associação. 81 O algoritmo percorre a base de dados e encontra os conjuntos de itens freqüentes, denominados frequent itemsets. Os algoritmos existentes até então geravam um conjunto muito grande de itemsets. O Apriori parte da proposta que todo subset de um grande itemset deve ser grande também. Assim, grandes itemsets podem ser agrupados, e eliminados aqueles que cujos subsets não são grandes o suficiente. Isto permite a geração de um número menor de itemsets candidatos [AGRAW94]. O algoritmo principal utiliza duas funções: a) A função Apriori-gen, que tem a função de gerar o conjunto de candidatos e eliminar os subsets que não são significativos. b) A função Genrules, que tem por objetivo extrair as regras de associação propriamente ditas. A primeira operação realizada pelo algoritmo é uma contagem de ocorrência dos itens para determinar os frequent itemsets de tamanho unitário (1 – frequent itemsets). A seguir, são executadas duas fases posteriores k. Primeiro, os frequent itemsets Lk-1 encontrados na operação anterior (K-1) são utilizados para gerar a lista dos conjuntos de potencialmente freqüentes, chamados de itemsets candidatos (Ck). Feito isso, é realizada uma nova varredura no banco de dados, contando-se o suporte de cada itemset candidato em Ck. A geração dos itemsets candidatos, de antemão, toma como argumento Lk-1, o conjunto de todos (k-1)-itemsets freqüentes. Para tal, utiliza-se a função Apriori_gen (Anexo II), que retorna umsuperconjunto de todos os k-itemsets freqüentes A função, em um primeiro estágio, une Lk-1 com Lk-1. No estágio seguinte, são eliminados os itemsets ck pertencentes a Ck, desde que um dado (k-1)-subset de ck não pertença a Lk-1. A seguir, uma figura com a rotina principal do algoritmo Apriori [AGRAW94]: 82 Figura 12: algoritmo Apriori – rotina principal Classifiers O objetivo das rotinas de classificação é associar uma determinada instância a uma classe. Estas rotinas têm por resultado, normalmente, árvores de decisão ou um conjunto de regras que definam os critérios necessários para realizar a associação do item considerado com a classe adequada. O WEKA implementa vários algoritmos de classificação, relacionados na figura a seguir [WITTE99]: Figura 13: classificadores no WEKA 83 Dos algoritmos de classificação implementados pelo WEKA, será tratado neste trabalho somente o algoritmo j48, que é a implementação do algoritmo padrão C4.5, revisão 8. Este algoritmo é largamente utilizado em tarefas de aprendizagem de máquina. O C4.5 gera um classificador na forma de uma árvore de decisão. Adota uma estratégia top-down que permite efetuar a classificação em partes da estrutura, o que possibilita a criação de árvores de estrutura relativamente simples, embora não necessariamente simplistas. [CHEN96]. O algoritmo utiliza uma abordagem direcionada a minimizar a quantidade de testes que devem ser realizados com cada objeto, no intuito de possibilitar tempos de respostas mais adequados. O algoritmo utiliza a seguinte função de avaliação: onde pi é a probabilidade de um objeto pertencer à uma classe i [CHEN96]. Clusteres O WEKA oferece também um pacote que contém algoritmos de agrupamento, chamado weka.clusteres. A figura abaixo relaciona as classes implementadas [WITTE99]: weka.clusterers.Cobweb weka.clusterers.EM weka.clusterers.SimpleKMeans Figura 14: algoritmos de agrupamento do WEKA O Cobweb é um algoritmo de agrupamento incremental baseado em conceitos probabilísticos. Esses conceitos possuem um conjunto de atributos com seus possíveis valores. A busca por bons agrupamentos é direcionada pela mensuração da qualidade das partições de dados [FISHE87]. Por sua vez, o EM é um algoritmo que assume que os atributos no conjunto de dados representam variáveis randômicas independentes. De maneira diferente de outros algoritmos 84 de agrupamento, o EM permite que um objeto esteja presente em mais de um agrupamento [SALGA02]. Já o SimpleKMeans é uma implementação do algoritmo k-Means, um método nãohierárquico que divide um conjunto de dados em grupos de elementos semelhantes, onde k é o número de agrupamentos desejados, informado inicialmente. O algoritmo apresenta o seguinte funcionamento [WIVES99]: a) Determina a posição inicial dos k centróides dos agrupamentos. b) Direciona cada atributo ao agrupamento do centróide mais próximo. c) Recalcula os centros dos agrupamentos a partir dos elementos direcionados. d) Repete os itens anteriores seguindo um critério de convergência, que pode ser uma informação sobre o número máximo de interações desejadas, ou até que os centros não se movam mais. 2.5.6.4 Interface O WEKA apresenta duas possibilidades de interface: por linha de comando, executando uma sintaxe específica para a execução do aplicativo utilizando a JVM, e uma interface gráfica desenvolvida em Java que facilita a interação com o aplicativo. Abaixo, as figuras ilustram a interface gráfica da ferramenta. Figura 15: Tela inicial do WEKA 85 Figura 16: configuração de parâmetros no WEKA 2.6 Técnicas de Mineração de Textos 2.6.1 Mineração de Texto A maneira mais comum de se registrar informações é utilizando textos livres, onde idéias, opiniões, considerações, observações, pensamentos são expressos e armazenados. Nas organizações, há muito conhecimento deste tipo armazenado na forma de formulários, atas, manuais, normas, procedimentos, correio eletrônico, memorandos, comunicações formais, entre outras. Segundo Mark Dixon, a Mineração de Texto combina técnicas de extração, recuperação de informações, processamento da linguagem natural e sumarização de documentos com os métodos de Mineração de Dados [DIXON97]. Entretanto, por normalmente utilizar dados não estruturados, os processos de Mineração de Texto são considerados mais complexos que os processos de Mineração de Dados. Este tema é bastante recente, com poucas ferramentas disponíveis. Trabalhos têm sido realizados no sentido de definir algoritmos mais adequados para este fim, bem como estabelecer ferramentas que possam combinar o conhecimento disponível em textos com conhecimentos formalizados de maneira estruturada, como nos bancos de dados. 86 2.6.2 Tarefas Básicas Assim como na Mineração de Dados, o conceito de tarefas básicas pode ser aplicado à Mineração de Texto. 2.6.2.1 Agrupamento Segundo Wives: O objetivo do agrupamento de informações textuais é separar uma série de documentos dispostos de forma desorganizada em um conjunto de grupos que contenham documentos de assuntos similares [WIVES99]. Em se tratando de informações textuais, os algoritmos de agrupamento consideram as palavras que compõem os documentos analisados como atributos a serem utilizados para a comparação. São as palavras as unidades que podem ser identificadas, quantificadas, caracterizadas e medidas. Quando se utiliza as palavras de um documento como atributos, pode ocorrer a perda de informações de caráter semântico. Estudos recentes procuram considerar a relação semântica entre as palavras de um documento [LOH99], para permitir um processo mais eficiente de agrupamento, onde os grupos de documentos possam representar melhor os assuntos a que dizem respeito. Entretanto, estas modalidades de pesquisa requerem um grande volume de recursos computacionais para sua efetivação, o que ainda representa um limitador para estas técnicas. Os agrupamentos de informações textuais podem ser classificados em relação à forma como os grupos são construídos e em relação à complexidade do tempo de execução dos algoritmos utilizados. Quanto à forma, podem ser [CUT 92 apud WIVES99]: a) Partição Total (flat partition): os objetos são distribuídos em classes distintas, não havendo relação direta entre as classes. Os documentos são separados exaustivamente e colocados em grupos totalmente diferentes. b) Partição hierárquica (hierarchic partition): o processo de identificação de grupos é geralmente realimentado recursivamente, utilizando tanto objetos quanto grupos já identificados previamente como entrada para o processamento. Deste modo, constrói-se uma hierarquia de grupos de objetos na forma de uma árvore. Quanto à complexidade do tempo de execução, podem ser: 87 a) Constantes: são utilizados para se limitar o tempo máximo de execução de um determinado conjunto de dados, evitando uma elevação exponencial deste tempo quando da inserção de novos conjuntos [SIL 97 apud WIVES99]. b) Lineares: aumentam o tempo de processamento de maneira linear de acordo com o aumento do conjunto de dados processados. Normalmente, neste caso são utilizados algoritmos que não exigem a comparação de todos os objetos entre si. c) Quadráticos: o tempo de processamento sobre um aumento exponencial com a inclusão de novos conjuntos de objetos a serem processados. Isto ocorre como conseqüência da necessidade de se comparar todos os objetos entre si. Assim, com a inserção de um novo objeto provocará a comparação deste com todos os outros, e também dos outros entre si novamente [CUT 92 apud WIVES99]. 2.6.2.2 Classificação As peculiaridades relativas à classificação em mineração de texto são estabelecidas principalmente pelo fato de se considerar as palavras de um documento como os atributos de comparação. Assim, operações de classificação em uma base textual exigem volumes de processamento muito superiores aos correspondentes em bases estruturadas. Assim, podem ser utilizadas as mesmas estratégias empregadas na mineração de dados, quais sejam [WIVES00]: a) Regras de inferência b) Modelos conexionistas c) Método de similaridade de vetores d) Árvores de decisão e) Classificadores de Bayes 2.6.3 Ferramenta para a Mineração de Texto Para a mineração de texto, utilizou-se como ferramenta de apoio o aplicativo Eurekha, desenvolvido pelo pesquisador Leandro Wives [WIVES99]. Abaixo, a tela de entrada do Eurekha, com arquivos já carregados. 88 Figura 17: tela de entrada do Eurekha. O Eurekha tem por objetivo auxiliar o processo de análise e recuperação de informações provenientes de bases de dados textuais [VARGA00]. As operações fundamentais do aplicativo são relacionadas à análise do conteúdo de textos, buscando identificar aqueles que contêm assuntos similares. Os documentos identificados como similares são unidos em um conjunto, utilizando técnicas específicas de agrupamento (clustering). Ao final do processo de análise, o aplicativo apresenta os diferentes grupos encontrados e seus respectivos documentos. 89 Figura 18: grupos no Eurekha Os documentos que o Eurekha analisa podem ser das origens mais variadas, uma vez que a ferramenta foi construída para utilizar textos não formatados e sem uma estrutura padrão. Isto permite que sejam analisadas inclusive páginas da Web [VARGA00]. O Eurekha apresenta algumas funções que permitem uma análise de conteúdo de uma coleção de documentos, como uma análise lexical, onde são relacionadas as palavras contidas em cada documento e seus respectivos valores de freqüência e relevância. Também podem ser listadas as palavras mais relevantes de um determinado agrupamento, normalmente as que são determinantes para a classificação do documento em determinado agrupamento. O aplicativo oferece também uma considerável lista de palavras que podem ser consideradas “palavras negativas”, ou stop words. Estas palavras normalmente têm caráter genérico, e não agregam sentido no contexto da pesquisa, devendo ser desprezadas. Assim, o Eurekha já traz cadastrados conjuntos de stop words, tais como advérbios, pronomes, preposições, artigos, numerais cardinais e ordinais, entre outras. É possível ainda definir grupos de stop words que sejam relacionados ao assunto pesquisado. A figura a seguir apresenta a janela de escolha dos grupos de stop words do Eurekha. 90 Figura 19: Janela de stop words do Eurekha 2.6.3.1 Algoritmos de mineração de texto O Eurekha utiliza algoritmos de agrupamento descritos por Wives [WIVES99]. Para o cálculo da freqüência relativa, é utilizada uma fórmula prevista por Salton [SAL 83 apud WIVES99], a qual indica o quanto uma palavra é relevante para o documento a partir do estabelecimento do número de ocorrências da mesma no referido documento. Frel x = F abs x N (1) Na fórmula (1), a freqüência relativa (Frel) de uma palavra x em um documento é calculada dividindo-se sua freqüência absoluta (Fabs) pelo número total de palavras (N). Para o cálculo de similaridades, Wives desenvolveu uma fórmula a partir da proposta de Oliveira [OLI 96 apud WIVES99], denominada média por operadores fuzzy, apresentada a seguir: 91 k gs ( X , Y ) = ∑ gih(a, b) h =1 n (2) onde: a) gs é o grau de similaridade entre os documentos X e Y; b) gi é o grau de igualdade entre os pesos do termo h (peso a no documento X e peso b no documento Y); c) h é um índice para os termos comuns aos dois documentos; d) k é o número total de termos comuns aos dois documentos; e) n é o número total de termos nos dois documentos, sem contagem repetida. Na fórmula acima, o termo gi é a representação de: (3) onde: Na fórmula (2) é utilizado um contador incrementado a cada vez que uma palavra é encontrada nos dois documentos comparados. A fórmula (3) é utilizada para introduzir um fator qualitativo no cálculo, estabelecendo pesos a partir da freqüência relativa do termo nos dois documentos. Ao final do processo, obtém-se uma matriz de similaridade onde os valores variam no intervalo [0,1], o valor [0] indica documentos sem nenhuma semelhança, e o valor [1] indica documentos muito similares [WIVES99]. 2.7 Ontologia da linguagem Na filosofia, o termo ontologia significa o estudo do ser enquanto ser e de suas propriedades transcendentais. A preservar essa característica, sua aplicação em áreas tais 92 como a Gestão do Conhecimento ou áreas ligadas à Tecnologia da Informação, implicaria numa abordagem mais fenomenológica, em que se procuraria concentrar mais nos fenômenos propriamente ditos que em suas explicações. Ainda que essa caracterização não seja rigorosamente seguida nas áreas mencionadas, definições como a de Gruber, em que “uma ontologia é uma representação formal e explícita de uma conceitualização compartilhada” [GRUBE93], permitem a formalização de conceitos e aspectos que, ao final, ajudam a compreender os intrincados e complexos processos interpretativos decorrentes da condição humana. A Ontologia da Linguagem proposta por Flores, Winograd, Graves, Echeverría e vários outros, segue esta linha, quando tratam da linguagem como ação e à qual atribuem um caráter formal e estruturado. Nos termos de Echeverría [ECHEV99], por exemplo, ao mesmo tempo em que se considera que "a linguagem não é o foco nem a preocupação principal da ontologia da linguagem, mas seu interesse principal são os seres humanos", também se considera que, enquanto humanos, nos constituímos na ação. Segundo Echeverría, não só atuamos conforme somos, mas também “somos conforme atuamos” [ECHEV99], o que confere um poderoso e sugestivo vínculo dos fenômenos interpretativos relacionados ao ser humano às ações destes. Tal característica vem sendo progressivamente explorada na constituição de um potente ferramental com aplicações as mais diversas e, em particular, nas áreas relacionadas à gestão. A Ontologia da Linguagem considera que as pessoas são “seres lingüísticos”, e apresenta uma série de postulados que justificam essa consideração, tornandose, assim, um assunto bastante extenso. No contexto deste trabalho serão apresentadas apenas as principais considerações sobre atos lingüísticos e juízos, itens considerados fundamentais para a realização deste estudo. 2.7.1 Atos lingüísticos básicos Basicamente, os atos lingüísticos se constituem de afirmações e declarações. As afirmações são atos lingüísticos originados da observação factual sobre uma “realidade externa” que interlocutores possam observar. Decorrem da percepção sensorial humana e são, em geral, tidas como “objetivas” (embora o mais correto fosse considerá-las “intersubjetivas”, dado que não dependem exclusivamente da pessoa que as enuncia). São verdadeiras ou falsas, conforme se revelem (ou não) óbvias de imediato ou sejam passíveis de serem evidenciadas por qualquer “testemunha”. Segundo essa perspectiva, com as afirmações, “a palavra segue o mundo”. 93 As declarações são atos lingüísticos que, de forma muito mais eloqüente, alteram o ambiente em que se inserem o observador declarante com os que com ele estão associados no contexto em que se dá a declaração. As declarações se pautam na autoridade que o observador declarante tem para proferi-las, e, ao fazê-lo, estabelece uma nova realidade a partir de sua declaração. Com as declarações, ao contrário das afirmações, “o mundo segue a palavra”. A tabela a seguir descreve sumariamente conceitos relacionados às afirmações e às declarações[ECHEV99]: Tabela 4: Sobre afirmações e declarações AFIRMAÇÕES DECLARAÇÕES • Observador relata o que observa. • A palavra segue o mundo. • Podem ser: − Falsas ou verdadeiras de acordo com a evidência que se prove seja aceita pelos demais; − Relevantes ou irrelevantes de acordo com nossas inquietações. • • • • COMPROMISSO COMPROMISSOS Observador gera novos contextos através do falar. O observador opta, toma decisões. O mundo segue a palavra. Podem ser: válidas ou inválidas, de acordo com a autoridade conferida a quem as profere. • Quando afirma, o observador assume o • Quando declara, o observador assume os seguintes compromisso de que suas afirmações são compromissos: verdadeiras. − Que suas declarações sejam válidas (ou seja, que tenha autoridade para fazê-las). − Que atuará de forma consistente com o que declara. A tabela abaixo relaciona os principais itens relacionados às promessas [ECHEV99]: Tabela 5: Sobre promessas ITEM Elementos COMPONENTE Orador Ouvinte Ação Fator tempo Processos Fazer a promessa Cumprir a promessa Ações lingüísticas Oferta + declaração de aceitação 94 ITEM COMPONENTE Petição + declaração de aceitação Domínios Sinceridade: o conteúdo de conversações e compromissos públicos é igual ao conteúdo de conversações e compromissos privados Competência: condição de efetiva execução da parte de quem se compromete 2.7.2 Juízos Juízos pertencem à classe das declarações. Como toda declaração, os juízos podem ser: válidos ou inválidos, de acordo com a autoridade conferida a quem os faz. Além disso, os juízos podem ser ainda: fundamentados ou não-fundamentados (ou fundados ou infundados), de acordo com as ações executadas no passado que são utilizados para respaldá-los. Juízos são como bússolas para o futuro. Quando se estabelecem juízos, utiliza-se no presente experiências do passado como guia para o futuro. Por exemplo, toma-se a declaração: Miguel é uma pessoa sensata. A partir de alguma observação do passado - Miguel realizou algo no passado - emite-se a declaração que Miguel se mostra, aqui e agora, no presente, uma pessoa sensata. Então, podem-se esperar, no futuro, atitudes sensatas de Miguel. Fundamentação de juízos São cinco os passos para a fundamentação de juízos, a saber: a) Definir com qual propósito se estabelece o juízo: sempre existe um motivo para a emissão de um juízo. Quando é emitido, abrem-se ou fecham-se possibilidades no futuro. Por exemplo: quando é emitido o juízo “Mário é um executivo eficiente” antecipam-se algumas ações no futuro, como a delegação a Mário de tarefas relevantes que somente pessoas eficientes podem cumprir. 95 b) Definir em que domínio está sendo julgado: quando se emite um juízo, normalmente isto é feito dentro de um domínio particular de observação, ou seja, o conjunto de parâmetros que se possui ao emitir o juízo. c) Definir com que padrões está sendo julgado: os padrões de julgamento se constituem do conjunto de comportamentos normalmente praticados, do ponto de vista histórico, cultural, moral e social. d) Definir quais são as afirmações de suporte que respaldam este juízo: as afirmações de suporte podem ou não validar os juízos. Estas são constituídas de observações objetivas de fatos que podem ser descritos e comprovados. e) Fundamentar o juízo com outras pessoas: os juízos, por serem essencialmente discrepáveis (uma vez que dependem genuinamente do observador que os emite) e em geral temporários (uma vez que “ação mata juízo” e novas ações por parte da entidade julgada podem perfeitamente descaracterizar o juízo original!), cumpre resguardar-se no processo de fundamentação, compartilhar esse processo com outras pessoas, as quais, por virem de outras histórias e experiências podem trazer nova luz às interpretações vigentes. 96 CAPÍTULO 3 3 METODOLOGIA 3.1 Considerações gerais 3.1.1 Coleta e análise de dados Os dados necessários para a pesquisa foram obtidos a partir da exploração de um recorte da base de dados do Currículo Lattes. Esta base de dados encontra-se atualmente hospedada em computadores do CNPq. O sistema de armazenamento é composto por servidores Sun, sistema operacional Solaris 5.7 e gerenciador de bancos de dados Oracle Server 8i. A partir da extração de um número limitado de registros desta base, foram aplicadas técnicas de Descoberta de Conhecimento em Bases de Dados e Descoberta de Conhecimento em Textos para efetuar a preparação dos dados para o processo de mineração, tantas vezes quanto foi necessário para a obtenção de padrões de comportamento úteis. 3.1.2 Delimitação do estudo Este trabalho contemplou a pesquisa de algoritmos de Mineração de Dados e Mineração de Texto, no contexto do assunto Descoberta de Conhecimento em Bases de Dados e da Gestão do Conhecimento. Não foi construída uma ferramenta completa e acabada, mas sim o desenvolvimento de estudos de casos com a utilização de algoritmos de Mineração de Dados e Mineração de Texto sobre dados da Plataforma Lattes, para a geração de conhecimento organizacional. 3.2 Especificação da Pesquisa Este trabalho apresenta dois estudos de caso, um utilizando Mineração de Dados e outro utilizando Mineração de Textos. Ambos foram realizados a partir de dados obtidos da 97 Plataforma Lattes, respectivamente: definição do perfil dos docentes que orientam alunos de iniciação científica, a partir de informações sobre concessões de bolsas do PIBIC – Programa de Institucional de Bolsa de Iniciação Científica; e geração de agrupamentos para a identificação de linhas de pesquisa em uma universidade a partir de informações sobre publicações de seus pesquisadores e docentes, a partir dos títulos das publicações e de suas palavras-chave. 3.2.1 Perfil do orientador do PIBIC Com o objetivo de exemplificar o potencial de geração de conhecimento organizacional da Plataforma Lattes, preparou-se, seguindo as metodologias citadas anteriormente, um estudo para a definição do perfil de orientadores do PIBIC – Programa Institucional de Bolsa de Iniciação Científica. O PIBIC – Programa Institucional de Bolsa de Iniciação Científica, é patrocinado pelo CNPq, e foi criado para promover a iniciação do aluno na produção do conhecimento e sua convivência cotidiana com o procedimento científico em suas técnicas, organização e métodos, despertar vocação científica e incentivar novos talentos potenciais entre estudantes de graduação, mediante suas participações em projetos de pesquisa, preparando-os para o ingresso na pós-graduação. Segundo o CNPq, os objetivos específicos do programa são [CNPQ03a]: a) Propiciar à instituição um instrumento de formulação de política de iniciação à pesquisa para alunos de graduação. b) Estimular uma maior articulação entre a graduação e pós-graduação. c) Contribuir para a formação de recursos humanos para a pesquisa. d) Contribuir de forma decisiva para reduzir o tempo médio de permanência dos alunos na pós-graduação. e) Estimular pesquisadores produtivos a envolverem alunos de graduação nas atividades científica, tecnológica e artístico-cultural. f) Proporcionar ao bolsista, orientado por pesquisador qualificado, a aprendizagem de técnicas e métodos de pesquisa, bem como estimular o desenvolvimento do pensar cientificamente e da criatividade, decorrentes das condições criadas pelo confronto direto com os problemas de pesquisa. 98 Enquanto gestor do programa, o CNPq necessita de parâmetros para avaliar o desempenho dos bolsistas e dos orientadores, com o objetivo de corrigir eventuais distorções e proporcionar uma distribuição mais eficiente dos valores destinados ao programa. Um dos indicadores que se deseja apurar é o perfil dos orientadores que obtiveram maior sucesso em seu trabalho de orientação. Para tal, foi definido como problema para Mineração de Dados o estabelecimento de uma relação entre os alunos que receberam bolsas do programa de iniciação científica, e que posteriormente obtiveram titulação em programas de mestrado e/ou doutorado. A partir de informações obtidas nos sistemas de administração dos programas de fomento do CNPq e da base de dados da Plataforma Lattes, procurou-se caracterizar os orientadores conforme o sucesso de seus ex-orientados em um programa de mestrado ou doutorado. 3.2.2 Agrupamento de docentes a partir de suas publicações A revolução tecnológica e o grande avanço nas áreas de pesquisa estão gerando, cada vez mais, linhas de trabalho e pesquisa que abrangem uma grande variedade de assuntos. Os gestores de programas de graduação e pós-graduação nas instituições de ensino, bem como os gestores de unidades de pesquisa, geralmente necessitam de informações sobre as áreas de atuação e áreas de interesse de seus colaboradores, no intuito de aproveitar melhor o potencial criativo do grupo para o desenvolvimento dos trabalhos de educação e pesquisa. Procurando contribuir com a geração de conhecimento organizacional sobre essa questão, este estudo de caso buscou identificar, a partir de técnicas de Mineração de Textos, as principais linhas de pesquisa de um determinado conjunto de docentes e pesquisadores, a partir de exploração das informações armazenadas no Currículo Lattes. Foram utilizadas informações sobre os trabalhos científicos e tecnológicos do grupo de professores do programa Mestrado em Gestão do Conhecimento e da Tecnologia da Informação da Universidade Católica de Brasília, armazenados na base de dados da Plataforma Lattes, utilizando-se os títulos dos trabalhos e publicações, suas palavras-chaves e as áreas de interesse cadastrados no Currículo Lattes. 99 3.3 Metodologia utilizada nos estudos de caso Foram utilizadas duas metodologias para o desenvolvimento dos estudos de caso. Do ponto de vista de Gestão do Conhecimento, utilizou-se o Modelo Genérico de Gestão do Conhecimento proposto por Stollenwerk [STOLL01]. Do ponto de vista de Descoberta de Conhecimento em Bases de Dados e Descoberta de Conhecimento de Texto, utilizou-se o método proposto por Fayyad [FAYYA96]. Tanto o Modelo Genérico de Gestão do Conhecimento quanto o Método de Descoberta de Conhecimento em Bases de Dados foram descritos no Capítulo 2 . A utilização destes métodos foi de fundamental importância para o desenvolvimento dos estudos de caso. Inicialmente, procurou-se identificar os pontos de convergência entre eles, e concluiu-se que os dois modelos podem ser utilizados em conjunto, sendo que a Descoberta de Conhecimento pode ser utilizada como uma das etapas do processo de Gestão do Conhecimento. A partir do Modelo Genérico de Gestão do Conhecimento de Stollenwerk, verificou-se que a Descoberta de Conhecimento em Bases de Dados possui maior afinidade com a fase de Criação, por considerar que o conhecimento descoberto a partir de bases de dados é um conhecimento novo, fruto da exploração e do relacionamento de informações anteriormente armazenadas, mas que ainda não representavam conhecimento organizacional. Neste contexto, a Descoberta de Conhecimento em Bases de Dados é mais uma das ferramentas que podem ser utilizadas para a geração de conhecimento nas organizações. Não é o único meio, mas pode ser considerado um importante recurso para a geração de conhecimento. As figuras a seguir representam o relacionamento entre os dois modelos. Figura 20: Gestão do Conhecimento e Descoberta de Conhecimento em BD 100 Figura 21: interação da Gestão do Conhecimento e da Descoberta de Conhecimento A ênfase deste trabalho é na geração de conhecimento organizacional a partir da aplicação de técnicas de Mineração de Dados e Mineração de Textos. Considerando que estas técnicas estão localizadas na etapa Criação do Conhecimento do Modelo Genérico de Gestão do Conhecimento de Stollenwerk, as outras etapas deste modelo serão citadas apenas para contextualizar a pesquisa no âmbito da Gestão do Conhecimento, mas não serão profundamente exploradas. 3.4 Etapas da pesquisa A partir das metodologias acima mencionadas, procedeu-se a execução do conjunto de etapas relacionadas em cada uma delas. É necessário esclarecer que o Modelo Genérico de Gestão de Conhecimento proposto por Stollenwerk [STOLL01] propõe duas etapas que são relativamente similares, quais sejam: a etapa de captura e aquisição de conhecimento e a etapa de criação de conhecimento. Segundo Stollenwerk [STOLL01]: Uma questão discutida na literatura é se há uma diferença significativa entre as ações de captura do conhecimento já existente na organização e as de criar novo conhecimento. 101 E ainda: “ambas agregam novos conhecimentos ao macroprocesso de Gestão de Conhecimento das organizações” [STOLL01]. Assim, optou-se neste trabalho por utilizar as sub-etapas destas duas etapas concomitantemente, por melhor se adequar ao escopo proposto e à base de dados utilizada. A seguir, o detalhamento de cada uma das etapas cumpridas. Para fins de organização dos itens apresentados, serão apresentas em um mesmo grupo as tarefas relativas à Gestão do Conhecimento, e posteriormente, em outro grupo, as tarefas relativas aos processos de Descoberta de Conhecimento em Bases de Dados e Descoberta de Conhecimento em Texto. 3.4.1 Gestão do Conhecimento 3.4.1.1 Identificação das competências críticas Nesta etapa definiu-se, como competência crítica para a gestão de Ciência e Tecnologia, dentro do escopo desta pesquisa, o conhecimento dos perfis profissionais e de produtividade dos pesquisadores e docentes que fizeram parte do conjunto de dados pesquisado. Esta identificação ocorreu a partir de reuniões com docentes da Universidade Católica de Brasília, e foi corroborada por gestores de Ciência e Tecnologia do CNPq, organização responsável pela Plataforma Lattes. Esta etapa seguiu as seguintes orientações [STOLL01]: a) Criação de agenda de competências essenciais: segundo mencionado anteriormente, foi definido como competência essencial, para este trabalho, o conhecimento dos perfis profissionais e de produtividade dos pesquisadores e docentes que fizeram parte do conjunto de dados pesquisado. Este item foi considerado suficiente e adequado como competência necessária para o desenvolvimento deste estudo. b) Identificação de lacunas entre as competências existentes e as competências necessárias: a partir da competência essencial definida, foi estabelecido que seria importante a construção de mecanismos para melhor aproveitar as informações sobre os pesquisadores e docentes armazenadas nos diversos módulos da Plataforma Lattes. Apesar de já existirem ferramentas de consultas às informações ali armazenadas, buscar-se-ia a geração de conhecimento organizacional a partir 102 das técnicas de Descoberta de Conhecimento em Bases de Dados que permitissem reduzir a distância entre a competência existente e a competência desejada. c) Desdobramento dessas competências nas áreas de conhecimento: a competência essencial identificada foi relacionada com conhecimentos em tecnologia da informação, de onde vieram as ferramentas para a exploração da base de dados e para a geração de conhecimento a partir da execução de algoritmos apropriados e utilizando recursos computacionais. d) Identificação das fontes internas e externas de conhecimento: foi definida, como fonte potencial para a geração do conhecimento necessário para a competência estabelecida, a base de dados da Plataforma Lattes. e) Proposição de soluções para a redução da distância entre as competências existentes e as competências necessárias: para a redução desta distância, foi proposta a exploração de informações armazenadas na base de dados da Plataforma Lattes no intuito de se gerar conhecimento organizacional que permitisse o incremento da capacidade de decisão dos gestores de Ciência e Tecnologia. 3.4.1.2 Captura, aquisição e criação de conhecimento Definida a competência essencial relacionada com o escopo deste trabalho, passou-se a tratar da etapa de captura e aquisição de conhecimento. Esta etapa seguiu os seguintes passos [STOLL01]: a) O primeiro passo foi procurar identificar fontes – internas ou externas – do conhecimento pretendido, ou seja, conhecimento sobre o perfil dos pesquisadores e docentes que fizeram parte dos estudos de caso. Como o objeto principal deste estudo é a geração de conhecimento organizacional a partir da Plataforma Lattes, esta foi naturalmente escolhida como principal fonte a ser pesquisada e tratada para no intuito de se adquirir o conhecimento desejado. b) O passo seguinte foi a seleção das estratégias de aquisição. Como o objeto deste estudo é a utilização de técnicas de Descoberta de Conhecimento em Bases de Dados e Descoberta de Conhecimento em Texto para a geração de conhecimento organizacional, definiu-se como método de aquisição a exploração de dados da Plataforma Lattes utilizando procedimentos e algoritmos específicos para extração de conhecimento. 103 c) O terceiro passo se constituiu na aquisição e formalização do conhecimento. Utilizou-se das metodologias de Descoberta de Conhecimento em Bases de Dados e Descoberta de Conhecimento em Textos para explorar partes da base de dados da Plataforma Lattes. Estas tarefas de exploração serão detalhadas em seções posteriores. Os trabalhos de Descoberta de Conhecimento em Bases de Dados são fortemente relacionados à experimentação, pois é necessário executar os algoritmos, avaliar os resultados e submeter ciclicamente os dados até que sejam definidos os melhores algoritmos e parâmetros para um determinado conjunto de informações. 3.4.1.3 Seleção e validação Esta etapa do Modelo Genérico de Gestão do Conhecimento tem objetivos semelhantes aos objetivos da etapa de Interpretação e Avaliação da metodologia de Descoberta de Conhecimento. Em ambos os casos, esta etapa procura identificar, entre os produtos gerados pelas etapas anteriores, aqueles que são significativos. Assim, os seguintes itens deverão ser observados: a) Analisar o conjunto de padrões obtidos e os grupos gerados da Mineração de Dados e Mineração de Texto. b) Identificar, a partir do conhecimento já existente, os grupos e padrões que podem agregar novos conhecimentos que sejam úteis à organização. c) Indicar a necessidade de repetição das etapas anteriores, se isto representar a possibilidade de obtenção de padrões e grupos mais interessantes para a geração de conhecimento útil à organização. Esta validação deverá ser feita por especialistas no assunto pesquisado, que, utilizando o conhecimento prévio, o histórico da organização, as experiências pessoais, analisarão os padrões e grupos gerados pelas técnicas de Descoberta de Conhecimento em Bases de Dados e Descoberta de Conhecimento em Texto em busca daqueles padrões e agrupamentos que podem gerar novos conhecimentos para organização. 3.4.1.4 Etapas posteriores Como não é objetivo deste trabalho implementar uma estrutura computacional completa, e sim elaborar estudos de casos que validem as discussões apresentadas, os itens a seguir se constituirão em propostas de arquitetura de Tecnologia da Informação, ferramentas e 104 bancos de dados que poderão ser posteriormente implementados no intuito de cumprir as etapas do Modelo Genérico de Gestão do Conhecimento de Stollenwerk. Serão aqui apresentados para se contextualizar os processos de Descoberta de Conhecimento em Bases de Dados e Descoberta de Conhecimento em Textos com a Gestão do Conhecimento. Organização e armazenagem A etapa posterior à seleção e validação do conhecimento é a sua organização e armazenagem, para permitir que o conhecimento capturado ou gerado seja preservado para a sua posterior utilização pelos componentes da instituição. A formalização do conhecimento capturado ou gerado tem por objetivo ainda possibilitar uma recuperação rápida, fácil, correta e segura deste conhecimento. Apesar de não ser uma obrigatoriedade, a utilização de ferramentas da Tecnologia da Informação é importante para a organização e o armazenamento do conhecimento obtido. Para isso, os seguintes itens deverão ser observados: a) Classificar o conhecimento anteriormente avaliado e selecionado. b) Definir a arquitetura de Tecnologia da Informação que serão utilizadas. c) Definir as ferramentas de Tecnologia da Informação que poderão ser utilizadas ou construídas para o armazenamento, manutenção e disponibilização do conhecimento. d) Criar e gerenciar os bancos de dados que armazenarão o conhecimento formalizado. Compartilhamento Para que possa ser convertido em vantagens competitivas para a organização, o conhecimento deve ser tratado de forma que possa ser compartilhado entre os membros desta organização. Entretanto, a prática demonstra, em geral, que muitas informações e conhecimento ficam restritos a pequenos grupos de indivíduos. Novamente, a importância de se utilizar de recursos da Tecnologia da Informação é salientada, no intuito de se permitir que o conhecimento organizacional esteja disponível para a utilização por todos os que dele vierem necessitar. 105 Aplicação O objetivo do processo de Descoberta de Conhecimento é a possibilidade de aplicação prática dos conhecimentos criados ou apreendidos. Não basta que estes sejam descobertos, selecionados, avaliados, armazenados, distribuídos. Não gerarão nenhuma vantagem competitiva se não forem efetivamente aplicados nas atividades da organização. Para tal, é necessário que as organizações se empenhem no sentido de utilizar o conhecimento organizacional para produzir benefícios concretos, na melhoria do desempenho, no lançamento de novos produtos, na conquistas de novos mercados, no atendimento satisfatório de seus clientes [STOLL01]. É importante observar que a própria aplicação do conhecimento organizacional pode gerar mais conhecimento para a organização, se este processo for devidamente registrado, avaliando-se objetivamente os ganhos obtidos, as dificuldades encontradas, os benefícios alcançados. É um processo cíclico que pode aumentar continuamente o conhecimento da organização. 3.4.2 Descoberta de Conhecimento em Bases de Dados Para este estudo de caso, foi escolhida uma avaliação do perfil dos orientadores de alunos de orientação científica do PIBIC – Programa Institucional de Bolsa de Iniciação Científica. A partir de uma necessidade prática dos gestores do programa no CNPq, buscou-se identificar, através da aplicação de técnicas de Descoberta de Conhecimento em Bases de Dados, o perfil dos orientadores do PIBIC que obtiveram os melhores resultados junto aos seus alunos participantes do programa. As informações necessárias para a condução do estudo de caso foram obtidas da base de dados da Plataforma Lattes, dos sistemas de Fomento do CNPq e da base de dados de alunos titulados da CAPES. Os dados originais se encontravam armazenados em bases de dados relacionais Oracle 8i, instaladas em servidores Sun Microsystems. As ferramentas utilizadas para a extração e manipulação dos dados foram: a) Oracle SQL*PLUS b) Linguagem de programação Oracle PLSQL c) Editor de textos vi 106 d) Planilha Microsoft Excel e) Aplicativo de mineração de dados WEKA O estudo de caso foi delimitado a partir de algumas considerações sobre os dados armazenados e seus períodos de coleta e processamento, conforme segue: a) O CNPq armazena em seus arquivos informações históricas sobre o programa de bolsas para iniciação científica. Entretanto, encontrava-se à disposição na base de dados relacionais Oracle 8i apenas os dados coletados a partir do ano de 1994. Essa foi então a data inicial para a extração de informações sobre os alunos beneficiários e os docentes que os orientaram. b) O principal fator para definir o sucesso do programa da iniciação científica, no contexto deste estudo de caso, foi a avaliação da quantidade de alunos beneficiários do programa que posteriormente obtiveram titulação stricto sensu. Assim, foi necessário estabelecer um período de corte dos dados de entrada das bolsas de PIBIC em uma data que fosse coerente com uma média de tempo que o aluno leva para ingressar em um programa de pós-graduação, cursá-lo e concluí-lo, contado após a conclusão do curso de graduação. O tempo mínimo estipulado para tal foi de dois anos. Portanto, foram coletados dados relativos às bolsas de PIBIC até o período de 1999, este inclusive. c) Todos os orientadores considerados para este estudo de caso deveriam possuir cadastrado o seu Currículo Lattes, uma vez que esta foi a fonte principal de informações para a identificação do perfil do pesquisador. A seguir, serão apresentadas as atividades executadas em cada uma das etapas da referida metodologia. 3.4.2.1 Seleção A partir das definições sobre o conjunto de dados que seria utilizado, o trabalho de seleção se constituiu em um esforço para coletar o conjunto de registros necessários a partir das tabelas relacionais dos Sistemas de Fomento, da Plataforma Lattes e da base de alunos titulados da CAPES. Do sistema de controle das operações de Fomento do CNPq foram extraídas as informações a respeito das bolsas de PIBIC concedidas no período de 1994 a 1999. Estes dados foram coletados a ORIENTADORES_PROCESSOS. partir das tabelas relacionais PROCESSOS e 107 Das tabelas relacionais do Currículo Lattes foram retiradas as informações pessoais dos orientadores envolvidos com as bolsas de PIBIC. Da tabela relacional ALUNOS_TITULADOS_CAPES foram retiradas as informações sobre os estudantes que obtiveram titulação stricto sensu no período de 1996 a 2002. Estas datas foram definidas seguindo a orientação inicial de utilizar o tempo mínimo de dois anos após a conclusão do curso de graduação pelo aluno beneficiário de bolsas do PIBIC como referência para o ingresso e conclusão de programas de pós-graduação. Das tabelas do Diretório de Instituições foram retiradas informações sobre as instituições relacionadas aos orientadores e alunos de PIBIC. Ao fim desta etapa, obteve-se como resultado um conjunto de tabelas populadas com os recortes de informações correspondentes das tabelas originais. A seguir, um resumo da quantidade de registros contemplados: Tabela 6: quantidade de processos de IC por ano ANO QUANTIDADE DE PROCESSO DE INICIAÇÃO CIENTÍFICA 1996 13.963 1997 15.433 1998 16.902 1999 16.555 2000 16.403 2001 18.045 2002 17.645 2003 15.506 TOTAL 130.452 A seguir, foram obtidas as informações da CAPES sobre os alunos titulados stricto sensu, no período de 1996 a 2002. A seguir, a distribuição por ano dos registros selecionados: 108 Tabela 7: Quantidade de alunos titulados por ano ANO QUANTIDADE DE ALUNOS TITULADOS 1996 13.509 1997 15.637 1998 16.745 1999 20.243 2000 23.724 2002 45.503 TOTAL 135.361 3.4.2.2 Pré-processamento A partir dos dados obtidos na etapa de seleção, foram geradas tabelas de trabalho com as informações necessárias ao estudo de caso. Estas tabelas contêm as informações de detalhes dos processos de PIBIC, os códigos dos orientadores e alunos, as informações curriculares dos orientadores, enfim, os dados necessários para a montagem dos arquivos de entrada para a ferramenta de mineração de dados. Como o foco inicial é no orientador, os dados foram organizados e modelados considerando o código do orientador como chave principal. Este formato viria a facilitar as etapas posteriores de transformação e mineração de dados. Uma das atividades desta etapa é a seleção de colunas das tabelas principais. Para a geração das tabelas de trabalho, foram selecionadas apenas as colunas que traziam as informações consideradas necessárias para o estudo de caso. Este processo tem por objetivo reduzir o volume de dados trabalhados, com reflexos positivos no tempo de processamento. Foram tratados ainda, nesta etapa, os registros cujas colunas selecionadas apresentavam algum tipo de ruído, ou seja, alguma inconsistência. Foram encontrados alguns registros com datas incoerentes, mas, em geral, a qualidade dos dados de entrada foi considerada satisfatória. Esta boa qualidade dos dados decorreu da utilização de restrições de entrada implementadas tanto no nível do banco de dados quanto no nível da aplicação, diminuindo consideravelmente a necessidade de aplicação de algoritmos para a redução de ruídos nesta etapa. 109 Nesta etapa foi ainda realizado um trabalho para identificar os bolsistas do programa de bolsa de iniciação científica que constavam da base de titulados da CAPES. Como as bases de dados do CNPq e da CAPES não são originalmente integradas , foi necessário utilizar de algoritmos de comparação textual para incrementar a qualidade da pesquisa. O primeiro passo foi efetuar uma pesquisa a partir do nome dos alunos. Para aumentar o número de acertos, foi utilizada uma rotina para eliminar caracteres especiais e excessos de espaços das colunas de nome nas tabelas envolvidas. A seguir, todos os nomes tiveram seus caracteres transformados em letras maiúsculas. Para evitar problemas com homônimos, foi utilizada a coluna da tabela da CAPES que traz informações sobre um documento de identificação do aluno, utilizando esta para comparar com as informações armazenadas na base de dados do CNPq. Ao final deste trabalho, foram identificados 7.325 ex-bolsistas do programa de bolsas de iniciação científica que constavam da base de dados de alunos titulados da CAPES. Tabela 8: Ex-bolsistas PIBIC titulados stricto sensu ANO 3.4.2.3 EX-BOLSISTAS TITULADOS 1996 127 1997 180 1998 485 1999 1.158 2000 2.007 2002 3.368 TOTAL 7.325 Transformação Uma vez escolhidas as tabelas e as colunas necessárias para o estudo a ser realizado, fez-se necessário efetuar uma série de alterações nos dados, tanto na sua forma de apresentação quanto no conteúdo de algumas colunas. Foram realizadas: a) Totalizações por orientador: para utilização da ferramenta de mineração de dados, foi necessário transformar informações sobre a produção científica e tecnológica em colunas que representam quantidade. As tabelas originais, segundo sua modelagem, armazenam um registro para cada produção cadastrada. Este formato 110 não é adequado para servir de entrada para os algoritmos de mineração. Assim, fez-se necessário criar colunas específicas para os tipos de produção que seriam considerados, e armazenar nestas colunas os totais de trabalhos publicados. Para isso, foram utilizadas rotinas escritas na linguagem PLSQL e executadas no banco de dados onde estavam armazenadas as tabelas temporárias. Estes totais foram obtidos a partir dos seguintes tipos de trabalho: a.1. Produção artística e cultural a.2. Artigos publicados a.3. Livros publicados a.4. Capítulos de livros publicados a.5. Dissertações orientadas a.6. Teses orientadas b) Substituição de valores para torná-los compatíveis entre si: foi necessário realizar alterações no conteúdo de algumas colunas para compatibilizar os seus valores. Por exemplo: algumas datas estavam no formato DD/MM/AAAA, enquanto outras foram armazenadas como campos texto no formato dd-mm-aa. Foram então utilizadas rotinas escritas em linguagem PLSQL e executadas no banco de dados para a adequação destes valores. c) Discretização de variáveis11: para a utilização dos algoritmos de mineração de dados, foi necessário efetuar um trabalho de discretização de variáveis, onde valores de domínios que apresentam um conjunto muito elevado de valores foram transformados em faixas específicas. Por exemplo: a coluna idade, obtida inicialmente pela aplicação de um cálculo a partir da data de nascimento armazenada, foi transformada em um número que representa sua posição em uma faixa de valores. Assim, foram criadas inicialmente quatro faixas para representar a idade do orientador: c.1. Menor que 40 anos c.2. Entre 40 e 50 anos c.3. Entre 50 e 60 anos 11 Discretização de variáveis: processo que consiste em estabelecer faixas de valores para itens excessivamente granulares. 111 c.4. Maior que 60 anos d) Transformações e filtros de caracteres: foi necessário utilizar rotinas para efetuar algumas transformações em campos de natureza textual, para aumentar a eficiência dos algoritmos de mineração que seriam posteriormente utilizados. Destas colunas foram retirados os caracteres especiais, os espaços em excesso, todos os caracteres alfabéticos foram transformados em letras maiúsculas. Este processo foi realizado através da aplicação de rotinas escritas na linguagem PLSQL e executadas no banco de dados onde se encontravam armazenadas as tabelas temporárias. Para que a ferramenta de mineração de dados pudesse ser utilizada, foi necessário preparar um conjunto de arquivos no formato indicado pelo WEKA. Para tal, as tabelas relacionais utilizadas foram consolidadas em um modelo desnormalizado, onde um registro contém todas as informações totalizadas de um determinado orientador. Abaixo, um exemplo de arquivo gerado para a ferramenta WEKA: @RELATION Orientadores_0015 @ATTRIBUTE COD_RH_ORIENTADOR NUMERIC @ATTRIBUTE STA_CURRICULO {S,N} @ATTRIBUTE TIT_MAXIMA {Graduacao,Especializacao,Mestrado,Doutorado,Posdoutorado,Livre-docencia,Nivel_tecnico} @ATTRIBUTE ANOS_TITULACAO NUMERIC @ATTRIBUTE IDADE NUMERIC @ATTRIBUTE SEXO {M,F} @ATTRIBUTE FAIXA_IDADE {<40,40-50,50-60,>60} @ATTRIBUTE QTD_ORIENT_TOTAL NUMERIC @ATTRIBUTE QTD_ORIENT_TITUL NUMERIC @ATTRIBUTE PRD_ART_COMP NUMERIC @ATTRIBUTE PRD_TRB_PUBL NUMERIC @ATTRIBUTE PRD_LVR_PUBL NUMERIC @ATTRIBUTE PRD_LVR_CAPT NUMERIC @ATTRIBUTE PRD_ORT_DISS NUMERIC @ATTRIBUTE PRD_ORT_TESE NUMERIC @ATTRIBUTE PERC_ORIENT_TITUL NUMERIC @ATTRIBUTE FAIXA_TITUL_TOTAL {0,1,2,3,4,5,6,7,8,9} @ATTRIBUTE FAIXA_ORIENT_TOTAL {1,2,3,4,5,6,7,8,9} @ATTRIBUTE FAIXA_ANOS_TITUL {1-10,10-20,20-30,30-40,40-50,50-60,<1} @ATTRIBUTE CLASSE {BM,FR,OT} @data 0000849502,N,Nivel_tecnico,999,43,M,40-50,9,1,0,0,0,0,0,0,10,1,6,?,BM 0000858587,N,Nivel_tecnico,999,55,M,50-60,4,0,0,0,0,0,0,0,0,0,4,?,FR 0000009890,S,Pos-doutorado,4,53,F,50-60,4,0,1,1,1,5,2,0,0,0,4,1-10,FR 0000088129,S,Doutorado,3,54,F,50-60,8,0,1,8,0,4,1,0,0,0,6,1-10,OT 0000088137,S,Doutorado,23,57,M,50-60,13,2,0,14,1,0,12,0,10,2,7,20-30,BM Figura 22: arquivo de entrada para o WEKA 112 Esta etapa demandou um considerável esforço, uma vez que foram necessárias sucessivas operações de transformação de dados. Ao final desta, obteve-se como resultado as tabelas temporárias carregadas e transformadas e os arquivos de entrada do WEKA gerados. 3.4.2.4 Mineração de Dados Uma vez que a base de dados estava consolidada e preparada para gerar os arquivos no formato do aplicativo que seria utilizado para a mineração de dados, passou-se à etapa de mineração propriamente dita. Para tal, foi necessário gerar um arquivo no formato definido pela ferramenta, onde cada registro contém informações consolidadas do fato que se deseja estudar. Como o foco da pesquisa é orientador de iniciação científica, os registros foram agrupados pela chave do orientador. A partir dos dados consolidados, utilizou-se o aplicativo WEKA para realizar diversas sessões de mineração de dados. Foi escolhido o algoritmo de classificação J48, que gera árvores de decisão, utilizadas para o processo de classificação das informações. 3.4.2.5 Interpretação e avaliação Após a etapa de mineração, Fayyad [FAYYA96] propõe uma etapa onde o produto final é interpretado e avaliado com o objetivo de identificar os resultados potencialmente úteis para a organização. Por questões de organização deste trabalho, esse assunto será tratado no capítulo seguinte. 3.4.3 Descoberta de Conhecimento em Textos Para este estudo de caso, foi realizada uma análise da produção científica e tecnológica dos docentes do programa MGCTI – Mestrado em Gestão do Conhecimento e da Tecnologia da Informação da Universidade Católica de Brasília, a partir das informações cadastradas no Currículo Lattes, com o objetivo de identificar as linhas de pesquisa destes docentes. A partir desta identificação, gerar conhecimento organizacional para ser utilizado na geração de políticas de gestão do referido programa. 113 As informações necessárias para a condução do estudo de caso foram obtidas da base de dados do Currículo Lattes, e da base de dados do sistema de controle de recursos humanos da Universidade Católica de Brasília. Os dados originais do Currículo Lattes se encontravam armazenados em bases de dados relacionais Oracle 8i, instaladas em servidores Sun Microsystems. As ferramentas utilizadas para a extração e manipulação dos dados foram: a) Oracle SQL*PLUS b) Linguagem de programação Oracle PLSQL c) Editor de textos vi d) Planilha Microsoft Excel e) Aplicativo de mineração de texto Eurekha O estudo de caso foi delimitado a partir de algumas considerações sobre os dados armazenados e seus períodos de coleta e processamento, conforme segue: f) As informações sobre a produção científica e tecnológica de cada docente foram extraídas da base de dados de currículos da Plataforma Lattes. Assim, somente os itens de produção que se encontravam cadastrados naquela base de dados na data da coleta foram considerados. g) Foram consideradas as datas de publicação de cada trabalho, para fins de identificação da produção realizada pelo docente enquanto pertencente aos quadros da Universidade Católica de Brasília. Foi utilizada a metodologia para Descoberta de Conhecimento em Textos adaptada da metodologia de Descoberta de Conhecimento em Bases de Dados proposta por Fayyad [FAYYA96]. A seguir, serão apresentadas as atividades executadas em cada uma das etapas da referida metodologia. 3.4.3.1 Seleção A partir das definições sobre o conjunto de dados que seria utilizado, o trabalho de seleção se constituiu em um esforço para coletar o conjunto de registros necessários a partir das tabelas relacionais do Currículo Lattes, bem como obter as informações institucionais necessárias sobre os docentes a partir de consultas ao setor de administração de pessoal da Universidade Católica de Brasília. 114 Do Currículo Lattes foram extraídas as informações sobre a produção científica e tecnológica dos envolvidos na pesquisa. A partir da relação de nomes dos docentes do MGCTI, foram executadas rotinas de extração de dados sobre a base do Currículo Lattes, com a geração de tabelas de trabalho que passaram a armazenar o conjunto de registros que dizia respeito às informações curriculares e à produção de cada docente. As ferramentas utilizadas nesta etapa foram: a) Oracle SQL*PLUS: interface de acesso ao banco de dados b) Comandos SQL c) Linguagem PLSQL Da Universidade Católica, foram levantadas informações sobre a data de ingresso de cada docente no programa MGCTI, informações estas obtidas através de uma solicitação à secretaria deste programa, que por sua vez obteve os dados do setor responsável pela administração de pessoal. Ao fim desta etapa, obteve-se como resultado um conjunto de tabelas de trabalho populadas com os recortes de informações correspondentes das tabelas originais. Abaixo, um resumo da quantidade de registros contemplados: Tabela 9: Quantidades de registros de docentes e produção ITEM QUANTIDADE Docentes TABELA 22 DOCENTES Produção Científica e Tecnológica 1.341 PRODUCAO_CIENTIF_TECNOL Palavras-chave 1.007 PLV_CHAVE 3.4.3.2 Pré-processamento A partir dos dados obtidos na etapa de seleção, foram geradas tabelas de trabalho com as informações necessárias ao estudo de caso. Estas tabelas contêm as informações curriculares dos orientadores, e detalhes sobre a sua produção científica e tecnológica, dados necessários para a montagem dos arquivos de entrada para a ferramenta de mineração de texto. 115 Uma das atividades desta etapa é a seleção de colunas das tabelas principais. As tabelas de trabalho foram reestruturadas, mantendo somente as colunas que traziam as informações consideradas necessárias para o estudo de caso. Este processo tem por objetivo reduzir o volume de dados manuseado, com reflexos positivos no tempo de processamento e na complexidade do conjunto de informações tratado. Foram tratados ainda, nesta etapa, os registros cujas colunas selecionadas apresentavam algum tipo de ruído, ou seja, alguma inconsistência. Em geral, a qualidade de dos dados de entrada foi considerada satisfatória. Esta boa qualidade dos dados decorreu da utilização, pelos sistemas de origem, de restrições de entrada implementadas tanto no nível do banco de dados quanto no nível da aplicação, diminuindo a necessidade de aplicação de algoritmos para a redução de ruídos. Outras tarefas cumpridas nesta etapa: a) Formatação para preparar os documentos com um único padrão: a entrada de dados para a ferramenta Eurekha, utilizada na etapa de mineração de textos, são arquivos textuais, sem a necessidade de uma estruturação prévia. Assim, os dados que seriam utilizados foram formatados nas tabelas de trabalho de maneira a facilitar a geração destes arquivos de texto. b) Eliminação de linhas e caracteres de controle: os arquivos de texto foram gerados a partir das tabelas de trabalho sem a existência de caracteres de controle, exceto o caractere de fim de linha. Outros controles, como definição de parágrafos, tabelas, tabulações, entre outros, não foram utilizados. c) Criação de uma lista de palavras negativas: com o objetivo de remover dos textos gerados palavras que não agregam significado especial, foram geradas listas de palavras negativas (stop words), e acrescentadas ao conjunto de listas de palavras negativas já existentes no Eurekha. Estas novas listas geradas dizem respeito ao conjunto de dados pesquisado, e foram identificadas tanto anteriormente à primeira execução das rotinas de mineração de texto, quanto incrementadas após a obtenção dos primeiros resultados. Como o processo Descoberta de Conhecimento em Textos é cíclico, após cada execução das tarefas de agrupamento procurava-se identificar novas palavras candidatas à listas de palavras negativas, buscando evidenciar o conjunto de palavras que realmente poderia acrescentar sentido ao conjunto de textos pesquisado. A seguir, são relacionadas as principais palavras negativas identificadas: 116 Tabela 10: Lista de palavras negativas A ANO APLICACAO ATRAVES AVALIACAO BASEADO BR BRASIL BRASILEIRA BRASILEIRO BRS CARACTERISTICA CARACTERISTICAS CASO DATA DESENVOLVIMENTO DF DIFERENTE DISTRITO DURANTE EMBRAPA EN ENTRE ESPECIE ESTADO ESTUDO FEDERAL FOI FUNCAO GO HA III INTERNACIONAL MEDICO MG MODELO PERIODO PROBLEMA PROBLEMAS PROCESS PRODUCAO PROJETO PROJETOS PROPOSTA REGIAO SANTOS SAO SERVICO SISTEMA SISTEMAS SOFTWARE SP SUA SUAS TAMBEM TESTE UCB USO UTILIZACAO UTILIZANDO Ao final desta etapa, obteve-se um conjunto de tabelas de trabalho que contavam somente com as colunas necessárias para a pesquisa. 3.4.3.3 Transformação Com o objetivo de tornar os textos que seriam gerados mais adequados para o processamento posterior de mineração, os registros das tabelas de trabalho foram submetidos a alguns processos de transformação, conforme segue: a) Adaptação do vocabulário: esta tarefa teve como objetivo a substituição de palavras semelhantes, ou de mesmo significado, por um único termo que representasse o significado de todas elas. Este processo tem conseqüências diretas no tempo de processamento e na qualidade dos grupos formados, uma vez que aumenta a repetição de uma determinada palavra que expressa o significado de todas as que foram substituídas, reduzindo o universo de palavras tratadas, bem como passando a ter um peso maior na identificação dos grupos. Para viabilizar esta tarefa foi construída uma rotina no banco de dados, composta por uma tabela 117 de apoio e rotinas de programação escritas na linguagem PLSQL. A partir das tabelas de trabalho que armazenavam os campos textuais que representavam os títulos da produção científica e tecnológica de cada docente, bem como as palavras-chaves a ela relacionadas, estas rotinas foram executadas substituindo-se as palavras que constavam da lista armazenada na tabela de sinônimos. Este processo se repetiu várias vezes, devido a característica cíclica dos processos de Descoberta de Conhecimento, onde, após cada execução do aplicativo de mineração de textos, eram identificadas mais algumas palavras candidatas à lista de sinônimos. b) Eliminação de diferenças morfológicas de determinadas palavras: segundo o que propôs Hwee [NG97], podem ser utilizadas técnicas que identificam os radicais das palavras, buscando uma maior unificação dos termos utilizados pela substituição de variações morfológicas da uma mesma palavra pelo seu radical. Uma aplicação mais generalizada destas técnicas não foi a opção adotada neste estudo de caso, uma vez que o tempo de processamento para este tipo de tarefa é relevante, bem como existe uma necessidade de constituição ou utilização de uma extensa base de palavras e seus radicais. Entretanto, foi utilizada a mesma estrutura criada para o tratamento dos sinônimos para a substituição de alguns termos que causavam um certo desvio na geração dos agrupamentos. Estes termos foram identificados após cada execução do aplicativo de mineração de textos, e passavam a integrar a lista de sinônimos armazenada na referida tabela de apoio. c) Eliminação de caracteres especiais: este processo tem por objetivo tornar mais simples o conjunto de palavras considerado. Através da eliminação de caracteres especiais, e da substituição de caracteres que representam a acentuação característica no conjunto de caracteres que compõe as línguas latinas por seus correspondentes sem acentuação, obteve-se um conjunto de palavras mais similar. Outro beneficio obtido foi a correção de algumas palavras grafadas incorretamente em conseqüência da utilização equivocada de caracteres acentuados. Para realizar esta tarefa foram utilizadas rotinas escritas na linguagem de programação PLSQL, e aplicadas sobre as tabelas de trabalho armazenadas no banco de dados. d) Transformação de todos os caracteres para um mesmo padrão quanto à utilização de letras maiúsculas e minúsculas: todos os termos utilizados para a geração dos arquivos para a ferramenta de mineração de textos teve seu conjunto 118 de caracteres transformados para caracteres maiúsculos. Assim,uma mesma palavra não corre o risco de ser considerada em grupos distintos por diferenças de tipo de grafia em caixa alta ou caixa baixa. Estas rotinas também foram escritas em linguagem de programação PLSQL e aplicadas sobre as tabelas de trabalho armazenadas no banco de dados. Após a execução das rotinas de transformação acima citadas, as tabelas de trabalho encontravam-se prontas para permitir a geração dos arquivos de texto que foram utilizados como entrada para a ferramenta de mineração de textos. Para facilitar a identificação dos membros dos agrupamentos que seriam gerados, foi criado um arquivo textual para cada docente, contendo os títulos de sua produção científica e tecnológica e as palavras-chave relacionadas. 3.4.3.4 Mineração de Texto O objetivo deste estudo é verificar a possibilidade de agrupamentos de docentes a partir de sua produção científica e tecnológica, para a identificação de linhas de pesquisa comuns. Uma diretiva utilizada foi a fixação da pesquisa durante o período em que o docente passou a ser colaborador do programa MGCTI, justamente buscando identificar as linhas de produção enquanto vinculado ao referido programa. Outra diretiva foi a observação da evolução do grupo no tempo. Como o programa MGCTI foi iniciado em 1998, este foi o ano inicial definido para a de coleta dos dados. Foram estabelecidos quatro períodos para a avaliação: os biênios 1998/1999, 2000/2001, o período de 2002 a 2004 e o período total de 1998 a 2004. Entretanto, é necessário registrar que, do ano de 2004, foram utilizados apenas os três primeiros meses. Para as tarefas de mineração de texto foi utilizada a ferramenta Eurekha, descrita no segundo capítulo deste trabalho. Os principais passos para a geração de agrupamentos pelo Eurekha foram: Criação de projeto Criação de um novo projeto na tela inicial da ferramenta, ou a abertura de um projeto criado anteriormente. 119 Figura 23: Eurekha – Novo Projeto/Abrir Projeto Adição dos arquivos Adicionar o conjunto de arquivos que será avaliado. Será solicitada a localização dos arquivos que serão utilizados pelo Eurekha para a realização dos agrupamentos. Estes arquivos podem ser do formato texto, “html” ou arquivos-fonte das linguagens C e Pascal. Para este estudo de caso foram utilizados arquivos no formato texto livre, gerados a partir das tabelas de trabalho do banco de dados. A seguir, a tela utilizada para adicionar arquivos. 120 Figura 24: Eurekha – adicionar arquivos Definição das “palavras negativas” Escolher as listas de palavras negativas (stop words). Podem ainda ser criadas novas listas de palavras negativas, e utilizadas em conjunto com as listas previamente fornecidas pela ferramenta. Para este estudo de caso foi criada a lista “Currículo_001”, com o conjunto de palavras negativas identificadas na etapa de pré-processamento. A seguir, uma figura que ilustra a utilização de listas de palavras negativas. 121 Figura 25: Eurekha – listas de palavras negativas Identificação dos relacionamentos Acionar o botão “Identificar relacionamentos”, para executar a primeira fase do processo de agrupamento. Esta etapa pode ser bastante demorada, dependendo do volume de texto presente nos arquivos selecionados. 122 Figura 26: Eurekha – identificar relacionamentos Identificação dos grupos Esta etapa é constituída de duas fases: na primeira, deve-se acionar o botão “Visualizar grupos”, para verificar os agrupamentos identificados. Será aberta outra janela do Eurekha com a relação dos agrupamentos identificados. 123 Figura 27: Eurekha – visualizar grupos A seguir, escolher o algoritmo que será utilizado para o agrupamento, o coeficiente de similaridade desejado e acionar o botão “Reagrupar”. Para este estudo de caso, foi escolhido o algoritmo Best Star. Segundo Wives [WIVES99], este algoritmo foi desenvolvido com o objetivo de solucionar o problema do algoritmo stars, que atribui um objeto ao primeiro grupo cujo grau de similaridade satisfaça a restrição do grau mínimo. Esta situação não é desejada neste estudo de caso, porque podem existir grupos onde o objeto teria um grau de afinidade maior. Assim, no algoritmo Best Star, os objetos identificados como sendo mais similares a um determinado grupo, mesmo que já agrupados, são reorganizados e atribuídos ao grupo de maior afinidade. Outra vantagem deste algoritmo diz respeito ao fato de identificar uma relação mais natural entre os objetos, elaborando grupos mais coerentes com a realidade, uma vez que os objetos são colocados automaticamente no grupo com o qual possui relação mais forte. A partir de testes realizados com os outros algoritmos, verificou-se que o Best Star era realmente o mais indicado, uma vez que foi a escolha que permitia a geração de grupos mais coesos e uma quantidade menor de grupos unitários. 124 O coeficiente de sensibilidade também foi avaliado, e o melhor valor de ajuste foi colocá-lo na posição inicial. Isso se explica pela característica dos arquivos de entrada, constituídos de um número relativamente pequeno de palavras. Para arquivos com essa característica, o coeficiente de similaridade, no caso de utilização do algoritmo Best Star, apresenta melhores resultados se ajustado para a posição inicial, que significa a aceitação de uma distância proporcionalmente maior entre os termos identificados. Caso este coeficiente seja aumentado, o número de grupos unitários aumenta diretamente, o que não é desejável. Figura 28: Eurekha – reagrupar Identificação de necessidade de ajustes e re-processamento. Após a avaliação dos grupos gerados, deve ser verificada a necessidade de realizar alterações nos arquivos de entrada que possam aprimorar a qualidade dos agrupamentos gerados, e re-executar todo o processo, se for o caso. A seguir, serão apresentadas as tarefas executadas para a avaliação dos quatro períodos acima mencionados: Primeiro período – 1998 a 1999 Cinco dos atuais professores do MGCTI que se encontravam vinculados ao programa neste período registraram produção no Currículo Lattes. Foram utilizadas as informações de 125 sua produção científica e tecnológica cadastradas no Currículo Lattes com data entre 1998 e 1999, extraídas da base de dados de trabalho, a qual representa os resultados das etapas anteriores de seleção, pré-processamento e transformação. Depois de todos os ajustes considerados necessários, como adequação do dicionário de sinônimos e das listas de palavras negativas, obteve-se o seguinte resultado para este conjunto de arquivos: Figura 29: Agrupamento 1998/1999 Segundo período – 2000 a 2001 Oito dos atuais professores do MGCTI que se encontravam vinculados ao programa neste período registraram produção no Currículo Lattes. Foram utilizadas as informações de sua produção científica e tecnológica cadastradas no Currículo Lattes com data entre 2000 e 2001, extraídas da base de dados de trabalho, a qual representa os resultados das etapas anteriores de seleção, pré-processamento e transformação. Depois de todos os ajustes considerados necessários, como adequação do dicionário de sinônimos e das listas de palavras negativas, obteve-se o seguinte resultado para este conjunto de arquivos: 126 Figura 30: Agrupamento 2000/2001 Terceiro período – 2004 a março de 2004 Dezesseis dos atuais professores do MGCTI que se encontravam vinculados ao programa neste período registraram produção no Currículo Lattes. Foram utilizadas as informações de sua produção científica e tecnológica cadastradas no Currículo Lattes com data entre 2002 a 2004, extraídas da base de dados de trabalho, a qual representa os resultados das etapas anteriores de seleção, pré-processamento e transformação. Depois de todos os ajustes considerados necessários, como adequação do dicionário de sinônimos e das listas de palavras negativas, obteve-se o seguinte resultado para este conjunto de arquivos: 127 Figura 31: Agrupamento 2002 a 2004 Quarto período – 1998 a março de 2004 Foram utilizadas as informações de sua produção científica e tecnológica cadastradas no Currículo Lattes com data entre 1998 e março de 2004, extraídas da base de dados de trabalho, a qual representa os resultados das etapas anteriores de seleção, pré-processamento e transformação. Depois de todos os ajustes considerados necessários, como adequação do dicionário de sinônimos e das listas de palavras negativas, obteve-se o seguinte resultado para este conjunto de arquivos: 128 Figura 32: Agrupamento 1998 a março de 2004 3.4.3.5 Interpretação e avaliação Esta etapa de interpretação e avaliação dos resultados da mineração de texto normalmente é realizada em conjunto com especialistas no assunto tratado, com o objetivo de identificar resultados significativos e úteis para a organização. Este trabalho é feito normalmente a partir da experiência pessoal dos especialistas, sem a utilização de um método específico para este fim. Neste estudo de caso, será proposta a utilização de um método para esta etapa, no sentido de facilitar o trabalho dos profissionais diretamente envolvidos com as tarefas de interpretação e avaliação. Este método corresponde a uma adaptação dos estudos de Flores, que propôs uma “Ontologia da Linguagem”, descrita sumariamente no segundo capítulo deste trabalho. A partir de juízos estabelecidos durante o processo de Descoberta de Conhecimento em Texto, nesta etapa serão utilizados os mecanismos propostos de se identificar, a respeito destes juízos: a) Os propósitos b) Os domínios c) As afirmações de suporte 129 d) Os padrões de julgamento Avaliados à luz destes itens, os resultados das etapas anteriores de Descoberta de Conhecimento podem constituir-se em novos conhecimentos organizacionais devidamente constituídos, resultados de uma análise sistemática. Os resultados desta etapa serão tratados no Capítulo 4. 130 CAPÍTULO 4 4 ANÁLISE DOS RESULTADOS 4.1 Estudo de caso: perfil do orientador do PIBIC Com o objetivo de exemplificar o potencial de geração de conhecimento organizacional da Plataforma Lattes, preparou-se, seguindo as metodologias citadas anteriormente, um estudo preliminar sobre a definição do perfil de orientadores do PIBIC – Programa Institucional de Bolsa de Iniciação Científica. 4.1.1 Resultados da Mineração de Dados Após as várias sessões de mineração de dados executadas, o resultado obtido foi pouco satisfatório. Em função da base de orientadores ser muito pulverizada – cada orientador teve poucos bolsistas, e poucos destes bolsistas já obtiveram titulação stricto sensu – o algoritmo de classificação não conseguiu estabelecer um conjunto de regras que apresentasse utilidade prática. A maioria dos resultados apresentou somente classificações óbvias, e pouco relevantes. Além disso, o fator de certeza da maioria das regras geradas foi menor que 50%. Entretanto, apesar de insatisfatório do ponto de vista da Mineração de Dados, constatou-se um ganho em termos de conhecimento organizacional dado pela revisão das premissas em que o especialista se orientou para definir o problema. O estudo permitiu que fosse verificado que não poderia ser estabelecido como medida de sucesso de uma orientação em iniciação científica o fato de o indivíduo concluir um programa de mestrado, contando somente com as informações armazenadas. Apesar das diversas sessões de mineração de dados não terem apresentado padrões novos e com elevado fator de certeza, o processo de DCBD, nas fases anteriores, foi relevante para a descoberta de conhecimento. A partir do manuseio dos dados e informações, das transformações realizadas, e do próprio resultado da mineração de dados, passou-se a 131 conhecer com maior profundidade o conjunto de informações que se tem disponível sobre os bolsistas, sobre os orientadores e sobre o processo de concessão de bolsas de uma maneira geral. A partir destes novos conhecimentos adquiridos no decorrer do processo, foi possível obter outros resultados, descritos a seguir: 4.1.2 Resultados finais A geração de conhecimento em DCBD pode acontecer em todas as etapas, e não somente na Mineração de Dados. No estudo preliminar realizado, as etapas iniciais de seleção, pré-processamento e transformação já forneceram informações relevantes. Como o objetivo deste estudo preliminar é identificar um perfil dos orientadores de iniciação científica, selecionou-se um conjunto de dados sobre bolsistas que pudesse ser confrontado com a base de dados sobre titulados em cursos de mestrado e doutorado da CAPES. Assim, a orientação inicial era identificar os alunos que participaram do programa do PIBIC e que posteriormente obtiveram titulação stricto sensu. Optou-se, então, por selecionar dados dos bolsistas de iniciação científica no período de 1994 a 1999, considerando o tempo médio para a conclusão de programas de mestrado e o posterior cadastramento destas informações na base de dados da CAPES. Neste período, passaram pelo programa PIBIC aproximadamente 45 mil alunos, sendo orientados por aproximadamente 19 mil docentes. O gráfico a seguir mostra a distribuição da quantidade de bolsistas por orientador. Bolsistas por orientador 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 1000 1 2 2000 3 4 Orientadores 7422 5037 2865 1813 Figura 33: bolsistas por orientador 3000 4000 5000 6000 7000 8000 5 6 7 8 9 10 11 12 13 14 981 586 345 197 89 53 27 13 8 6 132 Verificou-se que a maioria dos orientadores trabalhou com apenas um orientando neste período. Assim, para eliminar distorções causadas por pequenas quantidades, optou-se por trabalhar apenas com o grupo que orientou cinco ou mais alunos. Este grupo de aproximadamente 2.300 docentes orientou aproximadamente quinze mil alunos – uma média de 7,2 alunos por orientador, enquanto os outros 16.700 docentes orientaram aproximadamente 30.000 alunos, uma média de 1,7 alunos por orientador. Existe uma pequena distorção nestes valores, provocada pelo fato de um aluno eventualmente ter sido orientado por mais de um docente ao longo de sua formação. 35000 30000 25000 20000 Orientadores 15000 Bolsistas 10000 5000 0 1 2 Figura 34: grupos de bolsistas por orientador Utilizou-se, então, o conjunto de orientadores com maior percentual de bolsistas, como base de entrada para a definição de perfil. Deste grupo, verificou-se a quantidade de alunos orientados que posteriormente obtiveram titulação stricto sensu. Observou-se que, do conjunto de 2.313 orientadores, 1.073 não tiveram nenhum aluno titulado. Abaixo, um gráfico com essa variação. 133 Alunos titulados Quantidade de Alunos Titulados por Orientador 6 4 2 0 0 Qtd. Orientadores 100 200 300 400 500 600 700 800 900 1000 1100 0 1 2 3 4 5 6 7 1073 673 363 136 50 12 4 2 Figura 35: alunos titulados por orientador Selecionou-se, então, os orientadores que tiveram alunos titulados em programas stricto sensu, e, a partir deste conjunto, obteve-se um perfil inicial do orientador de PIBIC com índices de sucesso. A seguir, as características deste perfil: 134 Orientadores por sexo Orientadores por tem po de titulação 17% 25% 41% 01-10 42% 75% Feminio 10-20 Masculino 20- 30 Orientadores por faixa de idade Orientadores por form ação 34% 42% 66% 58% Dout orado 40-50 Pos-dout orado 50-60 Orientadores por tipo de instituição Tipo de produção científica 14% 27% 42% 19% 5% 3% 73% 17% Est adual Federal Artigo Trabalhos em eventos Livro publicado Capit ulo de livro Orient açao - dissertação Orient ação - t ese Figura 36: resumo do perfil do orientador 4.2 Estudo de caso: agrupamento de docentes Neste estudo de caso, procurou-se utilizar as informações curriculares dos docentes do programa MGCTI - Mestrado em Gestão do Conhecimento e da Tecnologia da Informação da Universidade Católica de Brasília para gerar agrupamentos que pudessem contribuir para a identificação das linhas de pesquisa que poderiam ser relacionadas ao programa. Para a avaliação dos resultados, buscou-se a utilização de conceitos ligados à ontologia da linguagem, à qual foi feita referência no segundo capítulo deste trabalho. 135 4.2.1 Resultados da Mineração de Texto Após a execução de todas as fases propostas pela metodologia adaptada da proposta de Fayyad [FAYYA96], procurou-se verificar quais resultados poderiam ser aproveitados para a geração de conhecimento organizacional. 4.2.1.1 Seleção dos resultados da mineração de texto Foi avaliada a produção científica e tecnológica dos docentes em quatro períodos: de 1998 a 1999, de 2000 a 2001, de 2002 a 2004 e no período total de 1998 a 2004, que corresponde ao período de existência do programa MGCTI. Foram utilizadas as informações de sua produção científica e tecnológica cadastradas no Currículo Lattes, extraídas da base de dados de trabalho, a qual representa os resultados das etapas anteriores de seleção, préprocessamento e transformação. No primeiro período, cinco dos atuais professores do MGCTI que se encontravam vinculados ao programa registraram informações de seus trabalhos no Currículo Lattes. No segundo período, este número foi de oito professores. No terceiro período foram encontrados registros de dezesseis professores. No quarto período, que compreendeu todo o tempo de existência do programa (1998 a 2004), foram processados registros de dezoito professores. Depois de todos os ajustes considerados necessários, como a adequação do dicionário de sinônimos e das listas de palavras negativas12, foram obtidos os seguintes resultados: No primeiro período foram identificados dois agrupamentos, caracterizados pelos centróides13 (i) {inteligente, neural, modelo} e (ii) {gestão, construção, competências, estratégia}. O primeiro agrupamento está mais relacionado com temas como DCBD e Inteligência Artificial, ou seja, à Tecnologia da Informação. O segundo está mais relacionado com a Gestão do Conhecimento. No segundo período foi identificado um agrupamento, pelos centróides {informação, neural, modelo, desenvolvimento}, indicando temas mais relacionados à Tecnologia da Informação. O viés da Gestão do Conhecimento não foi identificado. 12 Palavras negativas (stopwords): conjunto de palavras consideradas não representativas no processo de mineração de texto (e.g.: advérbios, numerais, conjunções, artigos). 13 Centróides: são os itens mais representativos que caracterizam determinado agrupamento. 136 No terceiro período foram identificados quatro agrupamentos: (i) {conhecimento, informação, gestão, máquina}; (ii) {conhecimento, gestão, virtual, informação}; (iii) {qualidade, objeto, Java}; (iv) {métrica, engenharia, qualidade}. Percebe-se então uma maior definição das áreas de interesse e uma maior caracterização interdisciplinar do MGCTI. No quarto período a identificação multidisciplinar do programa é confirmada, a partir da identificação de cinco agrupamentos caracterizados pelos centróides: (i) {neural, modelo, conhecimento, inteligente}; (ii) {conhecimento, gestão, informação, modelo}; (iii) {qualidade, objeto, desenvolvimento}; (iv) {competências, aprendizagem, ontologia, suporte}; (v) {métrica, engenharia, qualidade}. Tabela 11: Centróides dos agrupamentos por período Período 1998-1999 Centróides por grupo 1-INTELIGENTE NEURAL MODELO 2-GESTAO CONSTRUCAO COMPETENCIAS ESTRATEGICA 2000-2001 1-INFORMACAO MODELO NEURAL DESENVOLVIMENTO 2002-2004 1-CONHECIMENTO INFORMACAO GESTAO MAQUINA 2-CONHECIMENTO GESTAO VIRTUAL INFORMACAO 3-QUALIDADE OBJETO J2EE 4-METRICA ENGENHARIA QUALIDADE 1998-2004 1-NEURAL MODELO CONHECIMENTO INTELIGENTE 2-CONHECIMENTO GESTAO INFORMACAO MODELO 3-QUALIDADE OBJETO DESENVOLVIMENTO 4-COMPETENCIAS APRENDIZAGEM ONTOLOGIA SUPORTE 5-METRICA ENGENHARIA QUALIDADE Foram realizadas também algumas totalizações da produção científica e tecnológica dos envolvidos na pesquisa. A tabela a seguir apresenta os totais de produção por tipo e ano. 137 Tabela 12: MGCTI – Totais de produção por ano TIPO DE PRODUCAO Apresentação de Trabalho Artigo publicado em periódicos Curso de curta duração ministrado Demais trabalhos relevantes Dissertação de mestrado Iniciação Científica Livro ou capítulo de livro Monografia de curso de aperfeiçoamento Organização de evento Orientação em andamento Outra produção bibliográfica Banca de comissões julgadoras Participação: banca de conclusão (M/D) Participações em eventos Texto em jornal ou revista Trabalho de conclusão de graduação Trabalho publicado em anais de evento Trabalhos técnicos TOTAL GERAL 1998 3 1 3 2 9 1999 2000 2001 2002 2003 4 4 5 2 4 1 11 1 2 6 2 1 9 11 5 9 32 3 2 12 1 3 2 4 2 7 2 6 14 1 1 2 5 1 6 27 64 1 4 6 9 2 1 1 4 5 17 10 8 22 39 77 3 2 1 3 2 27 16 56 122 270 TOTAL 8 26 3 29 46 17 10 9 2 20 2 8 98 23 3 27 158 11 500 Foi identificada uma acentuada elevação no quantitativo da produção científica e tecnológica dos docentes do MCGTI durante o período avaliado. As figuras abaixo apresentam as curvas de crescimento dos principais tipos de produção: 12 Total 11 10 9 8 Tipo de Produção Apresentação de Trabalho Artigo publicado em periódicos Demais trabalhos relevantes Livro ou capítulo de livro Trabalhos técnicos 6 6 5 4 3 3 4 3 3 2 2 0 1998 4 1999 2 1 1 1 2000 2001 2002 ANO_ Figura 37: Produção por ano – I 4 2 2003 138 90 Total 80 77 70 64 60 Tipo de Produção Dissertação de mestrado 50 40 Participação em banca de trabalhos de conclusão Participações em eventos 39 32 30 Trabalho publicado em anais de evento 27 22 20 10 10 3 2 0 1998 8 1 1 1999 2000 9 6 9 2002 2003 6 5 4 2001 ANO_ Figura 38: Produção por ano – II Foram realizadas também algumas totalizações para a identificação qualitativa da produção científica e tecnológica dos docentes do MGCTI. A figura a seguir apresenta as percentuais de publicações e participações em eventos qualificados em nacionais e internacionais. Apesar de pequena, observa-se uma elevação do percentual de participação em eventos e publicações internacionais. TIPO DE PRODUCAO (Tudo) 100% Soma de QTDE 80% 8 60% 8 39 25 73 143 CATEGORIA Nacional Internacional 40% 7 20% 1 5 2 13 29 2002 2003 0% 1998 1999 2000 2001 ANO Figura 39: Percentual de trabalhos por idioma de publicação 139 4.2.1.2 Juízos emitidos Após a seleção dos resultados do processo de mineração de texto, onde foram identificados os agrupamentos por período, foram emitidos os seguintes juízos: a) O MGCTI avança no sentido de se constituir como um grupo efetivamente interdisciplinar. b) As áreas de interesse do programa MGCTI, no que se refere à pesquisa, tornam-se progressivamente mais claras. c) Melhora, a cada ano, a produção técnico-científica do programa. 4.2.1.3 Fundamentação dos juízos Propósito da pesquisa Desejando identificar as vocações do MGCTI, surgiu a oportunidade de verificação das linhas de produção dos docentes que participam do programa. A partir das informações sobre a produção científica e tecnológica contida no Currículo Lattes, decidiu-se utilizar estes dados para relacionar os docentes entre si, com o objetivo de identificar áreas de afinidade. Assim, o propósito desta avaliação é identificar as linhas de pesquisa possíveis, a partir da produção de cada docente. Propósito dos juízos Identificar as áreas de interesse dos docentes do MGCTI e o potencial de produção do grupo. Esta identificação abre possibilidades para ações que incrementem o processo produtivo, inclusive com possíveis direcionamentos dos trabalhos para eventos e publicações de maior significado. Domínios Os principais domínios considerados na avaliação foram: a) Espaço das publicações (nacionais ou internacionais) b) Idioma de publicação 140 Padrões de julgamento a) Qualis Multidisciplinar da CAPES b) Qualidade dos eventos c) Tipo de eventos Afirmações de suporte a) Os agrupamentos resultantes dos processos de mineração de texto passaram de dois para quatro do período inicial para o período final avaliado. b) Os números da produção científica e tecnológica do MGCTI cresceram ano a ano. c) Apesar de pequeno, ocorreu um aumento no percentual de publicações e participações em eventos internacionais. d) Algumas publicações ocorreram em veículos citados no Qualis14 Multidisciplinar. 14 Qualis: lista com a classificação dos veículos utilizados pelos programas de pós-graduação para a divulgação dos resultados da produção científica e tecnológica de seus alunos e professores, elaborado pela CAPES – Coordenação de Aperfeiçoamento de Pessoal de Nível Superior do Ministério da Educação. 141 5 CONCLUSÕES E TRABALHOS FUTUROS As bases de dados formadas a partir de sistemas transacionais normalmente armazenam uma grande quantidade de informações passíveis de serem exploradas e capazes de revelar relações não explícitas. Os processos de DCBD podem ser utilizados para a obtenção de conhecimento útil a partir dos dados contidos nestas bases. Das etapas mencionadas neste trabalho, as fases de seleção, pré-processamento e transformação dos dados normalmente são as que mais consomem tempo e recursos. O tempo gasto nestas etapas é inversamente proporcional à qualidade dos dados armazenados. Por isso, pode se concluir que os sistemas que prezaram pelas etapas de projeto e que cuidaram para uma correta implementação das regras de negócio e manutenção da integridade dos dados podem ser muito mais facilmente explorados com técnicas de DCBD. Apesar das etapas iniciais de tratamento dos dados representarem uma grande parcela do trabalho total, a etapa de Mineração de Dados pode ser considerada a mais complexa. A escolha, ou o desenvolvimento de algoritmos de reconhecimento de padrões pode representar um grande desafio para a equipe. A grande quantidade de interações e iterações necessárias para a obtenção de padrões que possam se tornar úteis e valiosos pode exigir grandes recursos computacionais e mão de obra altamente especializada. Todo o processo deve contar com a presença de especialistas no negócio pesquisado, com participação maior ou menor, dependendo da etapa. Sua presença é fundamental nas etapas de Mineração de Dados e Interpretação/Avaliação, onde os padrões obtidos devem ser avaliados buscando identificar conhecimento útil que possa ser incorporado ao sistema. A simples extração de padrões não acrescenta conhecimento à organização. Para tal, é necessário que os especialistas identifiquem, a partir dos resultados gerados, aqueles que são úteis e possuem valor agregado. Neste sentido, a utilização de um método que auxilie o processo de avaliação dos resultados pode facilitar a obtenção de bons resultados. O estudo relativo ao perfil dos orientadores do PIBIC pôde demonstrar o potencial da Plataforma Lattes para geração de conhecimento organizacional. Apesar de o referido estudo ter sido realizado sobre um volume reduzido de dados e variáveis, foi possível estabelecer relações para a identificação de um perfil dos docentes que orientaram alunos de iniciação científica. 142 Já o segundo estudo de caso, sobre os docentes do Programa MGCTI da Universidade Católica de Brasília, demonstrou que os resultados da DCBD podem ser potencializados pela utilização metódica da definição de juízos e de sua fundamentação. Uma percepção anterior, informal, que indicava a vocação interdisciplinar do programa MGCTI foi confirmada com a mineração de texto e com a identificação dos agrupamentos por período. Os juízos estabelecidos, uma vez devidamente fundamentados, têm proporcionado uma discussão muito mais detalhada de cada um dos itens estudados. O processo como um todo trouxe uma percepção mais apurada e clara dos desígnios vocacionais e dos rumos do Programa objeto do estudo, trazendo mais visibilidade e conhecimento organizacional sobre o MGCTI, seus docentes, sua produção científica e tecnológica, suas linhas de interesse, etc. Tudo isso pode ser acrescentado à base de conhecimento da instituição, e será importante para a definição dos rumos a seguir. Remete-se novamente à Ontologia da Linguagem, que traz o conceito de que os juízos podem fechar ou abrir possibilidades no futuro. Acredita-se, neste caso, que várias possibilidades possam ser (e têm sido) abertas. Finalmente, pode concluir que o processo de DCBD representa uma excelente oportunidade para as organizações que desejam utilizar melhor suas bases de dados, no sentido de se obter conhecimento, e conseqüentemente, incrementar os seus negócios a partir deste conhecimento organizacional descoberto. Trabalhos futuros podem ser desenvolvidos a partir das reflexões iniciadas, tais como: a) Agregação, ao processo de mineração de texto da produção científica e tecnológica, dos resumos dos respectivos trabalhos. O presente estudo utilizou somente os títulos das publicações e as palavras-chave, que era o material disponível na Plataforma Lattes. O acréscimo dos resumos dos trabalhos pode trazer uma maior quantidade de palavras que podem ser associadas, aumentando as possibilidades de identificação das linhas de interesse. b) Mineração de texto para a geração de uma taxonomia relativa aos grupos de pesquisa. c) Mineração de texto para a verificação de consistência entre linhas de pesquisa declaradas e a real produção científica e tecnológica. d) Identificação de competências dos pesquisadores e docentes a partir de suas informações curriculares. 143 REFERÊNCIAS BIBLIOGRÁFICAS [AGRAW94] AGRAWAL, R., SRIKANT, R. Fast Algorithms for Mining Association Rules. IBM Research Report RJ 9839. IBM Almaden Research Center, Junho de 1994 [AMARA01] AMARAL, Fernanda C. N. do Data Mining – Técnicas e Aplicações para o Marketing Direto, São Paulo: Berkeley Brasil, 2001. [BABCO94] BABCOCK, C. Parallel Processing Mines Retail Data, Computerwork, n. 6, set. 1994. [BISHO95] BISHOP, Christopher M. Neural networks for pattern recognition. Oxford: Oxford University Press, 1995 [BRASI02] BRASIL, Lourdes M. Inteligência Artificial – Modelos Conexionistas Departamento de Informática, UFPB - Universidade Federal da Paraíba, 2002. [CHEN96] CHEN, Ming-Syan, HAN, Jiawei, YU, Philip S. Data mining: an overview from a database perspective. IEEE Transactions on Knowledge and Data Engineering, v. 8, n.6, p.866-883, dez. 1996. [CNPQ03] CNPq, Plataforma Lattes Disponível em: lattes.cnpq.br Acesso em: 21 de maio de 2003 [CNPQ03a] CNPq, PIBIC Disponível em: http://www.cnpq.br/bolsas_auxilios/modalidades/pibic.htm Acesso em: 27 de maio de 2003 [CNPQ03b] CNPq, Diretório dos Grupos de Pesquisa no Brasil, Estratificação Disponível em: http://lattes.cnpq.br/censo2002/estratificacao/index_estrat.htm Acesso em: 30 de maio de 2003 144 [DRUCK94] DRUCKER, Peter F. The Age of Social Transformation, The Atlantic Monthly, Boston, United States Disponível em: http://www.theatlantic.com/politics/ecbig/soctrans.htm#Drucker Acesso em: 15 out. 2003 [DIXON97] DIXON, Mark An Overview of Document Mining Technology Disponível em: http://www.geocities.com/ResearchTriangle/Thinktank/1997/mark/writings/dm. html Acesso em: 23 mai. 2003. [ECHEV99] ECHEVERRÍA, Rafael. La Ontologia del Lenguaje, Chile, Dólmen, 408 pp. 1999. [FAYYA96] FAYYAD, Usama; Piatetsky-Shapiro, G; Smyth, P. Advances In Knowledge Discovery and Data Mining, 1a ed., Cambridge - Massachusetts: Mit Press, 1996. [FAUSS94] FAUSSET, Laurene V. Fundamentals of Neural Networks - Architectures. Algorithms, and Applications, Prentice Hall, 1994. [FELDM97] FELDMAN, Ronen; HIRSH, Haym. Exploiting background information in knowledge discovery from text. Journal of Intelligent Information Systems, Boston, v.9, n.1, July/Aug 1997. [FERREI01] FERREIRA, Aurélio Buarque de Holanda. Minidicionário da Língua Portuguesa, São Paulo, Nova Fronteira, 2001. [FERREI03] FERREIRA, L.A. BAX, M.P. A Importância da Gestão do Conhecimento para o Marketing de Relacionamento. In: 6º Simpósio Internacional de Gestão do Conhecimento - ISKM, Curitiba, agosto 2003. [FISHE87] FISHER, D. Knowledge Acquisition via Incremental Conceptual Clustering. Machine Learning, v.2,n.2,1987 [FLORE88] FLORES, F., GRAVES, M., HARTFIELD, B., WINOGRAD, T. Computer System and the Design of Organizational Interaction in ACM Trans. of Information Systems, Vol. 6. nro. 2, USA, 1988. 145 [GRECO02] GREGO, Maurício A Petrobras doma seus terabytes, InfoExame, São Paulo: ano 18, n. 203, p. 78-79, fev. 2003. [GRUBE93] GRUBER, T. R. A Translation Approach to Portable Ontology Specifications.Knowledge Systems Laboratory - Stanford University, Stanford, CA, Technical Report ,1993. [HARRI98] HARRISON, Thomas H. Intranet Data Warehouse: São Paulo: Berkeley Brasil, 1998. [UHLMA02] UHLMANN, Günter W. Teoria Geral dos Sistemas, CISC, São Paulo. Visitado em 30/03/2003 Disponível em: http://www.cisc.org.br/biblioteca/teoria_sistemas.pdf [KOWAL97] KOWALSKI, Gerald. Information retrieval systems: theory and implementation. Boston : Kluwer Academic Publishers, 1997. [LOH99] LOH, Stanley; WIVES, Leandro Krug; FRAINER, Antônio Severo. Recuperação semântica de documentos textuais na internet. In: Conferencia Latino-Americana de Informática (CLEI), XXV, 1999, Assunción, Paraguay. Memórias del CLEI'99 (Tomo 2). Assunción, Paraguay: Universidad Autónoma de Asunción, 1999. [LOH01] LOH, Stanley, REATEGUI, Eliseu, WIVES, Leandro Krug, OLIVEIRA, Jose Palazzo Moreira de, GAMEIRO, Maurício Almeida. Formalizando e Explorando Conhecimento Tácito com a Tecnologia de Text Mining para Inteligência. In: ISKM/DM 2001, 2001, Curitiba, 13 a 15 de Agosto. Anais. 2001 [LUCEN01] LUCENA, Percival de; Paula, Marcos Ferreira de, Árvores de Decisão Fuzzy Disponível em: www.icmc.sc.usp.br/~percival/download/fidt.pdf Acesso em: 21 mai. 2003. [LUCEN02] LUCENA FILHO, Gentil. J. Notas de Aula Universidade Católica de Brasília, Brasília, 2002. [MEDLE98] MEDLER, David A. A brief history of connectionism. Department of Psychology, University of Alberta, Alberta, Canada, In: Neural 146 Computing Survey 1, p. 61-101, 1998. Disponível em: http://www.icsi.berkeley.edu/~jagota/NCS/vol1.html Acesso em: 25 mai. 2003. [NG97] NG, Hwee et al. Feature selection, perceptron learning, and a usability casestudy for text categorization. In: Special Interest Group on Information Retrieval - SIGIR, 1997. New York: Association for Computing Machinery, 1997. [NONAK97] NONAKA, Ikujiro, TAKEUCHI, Hiro. Criação de Conhecimento na Empresa, Tradução: Ana Beatriz Rodrigues, Priscilla Martis Celeste, Rio de Janeiro, Campus, 1997. [OSORI99] OSORIO, Fernando, VIEIRA, Renata. Sistemas Híbridos Inteligentes. In: ENIA – Encontro Nacional de Inteligência Artificial, Congresso da SBC, Rio de Janeiro, 1999. [PRADO98] PRADO, Hércules A. Abordagens híbridas para mineração de dados, exame de qualificação, Porto Alegre: CPGCC da UFRGS, 1998. [REZEN03] REZENDE, Solange Oliveira. Introdução à Inteligência Artificial, Institutuo de Ciências Matemáticas e de Computação, USP, São Paulo. Visitado em 29/03/2003 Disponível em: http://www.icmc.sc.usp.br/~solange/IA/iag_int/tsld001.htm [SALGA02] SALGADO, Cândido G. Comportamento de Regras de Associação e sua Aplicação para Análise de Dados Médicos. 2002. Dissertação (Mestrado em Ciência da Computação) - Universidade de Brasília [SETZE03] SETZER, Valdemar W. Dado, Informação, Conhecimento e Competência, Instituto de Matemática e Estatística - IME, São Paulo. Visitado em 29/03/2003 Disponível em: http://www.cidade.usp.br/educar2001/mod5ses2.php [SILVA02] SILVA, Edilberto M. Descoberta de Conhnecimento com o uso de Text Mining: Cruzando o Abismo de Moore. 2002. Dissertação (Gestão do 147 Conhecimento e da Tecnologia da Informação) - Universidade Católica de Brasília [SOUSA03] SOUSA, Paulo de Tarso Costa de. Mineração de Dados para Indução de um Modelo de Gestão do Conhecimento. 2003. Dissertação (Gestão do Conhecimento e da Tecnologia da Informação) - Universidade Católica de Brasília [STOLL01] STOLLENWERK, Maria de Fátima Ludovico. Gestão do Conhecimento: conceitos e modelos. In: Inteligência Organizacional e Competitiva. Kira Tarapanoff (organizadora). Brasília, Editora Universidade de Brasília, 2001. [TEIXE00] TEIXEIRA FILHO, Jayme. Gerenciando o Conhecimento. Rio de Janeiro, SENAC, 2000. [TOFFL94] TOFFLER, A. Powershift: As Mudanças do Poder. Rio de Janeiro, Record, 1994 [UHLMA02] UHLMANN, Günter W. Teoria Geral dos Sistemas, CISC, São Paulo. Visitado em 30/03/2003 Disponível em: http://www.cisc.org.br/biblioteca/teoria_sistemas.pdf [VARGA00] VARGA, Lilia M. Inteligência Competitiva na Empresa, UFRGS, Porto Alegre. Visitado em 12/01/2004 Disponível em: http://read.adm.ufrgs.br/read17/artigo/artigo1.htm [VIDAL98] VIDAL, Antônio Geraldo R. Projeto e Desenvolvimento de Sistemas de Informação, FEA/USP, São Paulo. Visitado em 30/03/2003 Disponível em: http://www.fea.usp.br/cursos/graduacao/arquivos/ead451-05.PDF [WEKA01] WEKA Projet WEKA 3: Machine Learning Software in Java. Universidade de Waikato 148 Disponível em: http://www.cs.waikato.ac.nz/ml/weka/ Acesso em: 12 jun. 2003 [WIIG93] WIIG, K. M. Knowledge management foundations: thinking about thinking – how people and organizations create, represent and use knowledge. Arligton, Texas: Schema, 1993. v.1. [WITTE99] WITTEN, Ian H., FRANK, Eibe: Data Mining: Practical Machine Learning Tools e Techniques with Java Implementations . Morgan Kaufmann Publ., 1999. [WIVES99] WIVES, Leando Krug Um Estudo sobre Agrupamento de Documentos Textuais em Processamento de Informações não Estruturadas usando Técnicas de Clustering , Porto Alegre: UFRGS, 1999. [WIVES00] WIVES, Leandro Krug. Tecnologias De Descoberta de Conhecimento em Textos Aplicadas à Inteligência Competitiva, Porto Alegre: UFRGS, 2000.