Dissertacao Marcelo - Portal de Revistas Eletrônicas

Propaganda
UNIVERSIDADE CATÓLICA DE BRASÍLIA
PROGRAMA DE PÓS-GRADUAÇÃO STRICTO SENSU GESTÃO
DO CONHECIMENTO E DA TECNOLOGIA DA INFORMAÇÃO
EXPLORANDO O POTENCIAL DA PLATAFORMA
LATTES COMO FONTE DE CONHECIMENTO
ORGANIZACIONAL EM CIÊNCIA E TECNOLOGIA
Marcelo Vicente de Paula
BRASÍLIA
2004
MARCELO VICENTE DE PAULA
EXPLORANDO O POTENCIAL DA PLATAFORMA
LATTES COMO FONTE DE CONHECIMENTO
ORGANIZACIONAL EM CIÊNCIA E TECNOLOGIA
Dissertação apresentada ao programa de pósgraduação stricto sensu em Gestão do Conhecimento
e da Tecnologia da Informação da Universidade
Católica de Brasília, como requisito para obtenção
do título de Mestre.
Orientador: Prof. Dr. Hércules Antônio do Prado
Co-orientador: Prof. Dr. Rogério Alvarenga
BRASÍLIA
2004
À Ariadne e à Luciana
Minha esposa e minha filha, doçura e força
femininas que tanto emocionam a minha vida.
Aos meus pais, João e Julia
Que sempre me apoiaram, da maneira que lhes
foi possível, com amor e sacrifício, incentivando
em mim o gosto pelos estudos e o desejo do
saber.
Ao Criador, pelos milagres de cada dia e pela
oportunidade de conviver com tantas pessoas
especiais durante este projeto.
Em especial aos meus orientadores, Prof. Dr.
Hércules Prado e Prof. Dr. Rogério Alvarenga,
que, mesmo nos momentos de maior dificuldade,
tão bem souberam trazer a orientação necessária
para continuar.
Aos professores do programa de Gestão do
Conhecimento e da Tecnologia da Informação,
principalmente: Prof. Dra. Adelaide, Prof. Dr.
Edílson, Prof. Dr. Gentil, Prof. Dra. Kátia, Prof.
Dr. Nicolas, Prof. Dr. Paulo Fresneda.
Ao CNPq, disponibilizou acesso aos seus bancos
de dados, e a atenção de seus colaboradores,
principalmente o Sr. Geraldo Sorte, Coordenador
Geral de Informática, a Sra. Silvana Cosac,
Assessora da Diretoria, e o Sr. Ricardo Lourenço,
Consultor em C&T.
Ao
Grupo
Stela,
participante
do
projeto
Plataforma Lattes, nas pessoas da Srta. Isabela
Anciutti e do Sr. Denílson Sell.
RESUMO
A Plataforma Lattes é um conjunto de sistemas de informação, bases de dados e portais
Web voltados para a gestão de Ciência e Tecnologia, mantida pelo CNPq – Conselho
Nacional de Desenvolvimento Científico e Tecnológico, fundação ligada ao Ministério
da Ciência e Tecnologia. A disponibilidade de uma rica fonte de informações sobre a
pesquisa nacional existente na Plataforma Lattes abre oportunidades para a geração de
conhecimento em Ciência & Tecnologia. Para explorar este potencial de conhecimento,
serão apresentados dois estudos de caso. No primeiro buscou-se caracterizar
orientadores responsáveis por casos de sucesso do Programa de Iniciação Científica do
CNPq. No segundo estudo, o objetivo foi a identificação de linhas de pesquisa de um
grupo de docentes, coerente com a sua produção científica e tecnológica, tomada da
base de dados de currículos da Plataforma Lattes. No desenvolvimento dos estudos de
caso foram aplicadas técnicas de Mineração de Dados (MD), no primeiro caso, e de
Mineração de Texto (MT), no segundo. Os padrões encontrados nos processos de MD e
MT foram interpretados por especialistas visando facilitar a transição padrãoconhecimento situada na interface entre as áreas de Descoberta de Conhecimento em
Bases de Dados (DCBD) e Gestão do Conhecimento (GC). As principais contribuições
deste trabalho foram: (a) um método para interpretação de padrões desenvolvidos a
partir da Ontologia da Linguagem, no contexto de DCBD; (b) geração de conhecimento
organizacional; e (c) exploração de novas possibilidades para a geração de
conhecimento organizacional a partir da Plataforma Lattes.
Palavras-chave: gestão do conhecimento, mineração de dados, mineração de texto,
descoberta de conhecimento, Plataforma Lattes.
ABSTRACT
The Plataforma Lattes is a framework composed by a set of information systems,
databases, and Web portals addressed to Research and Development (R&D)
management. CNPq - Brazilian Council of National Research and Technological
Development, a foundation from the Ministry of R&D, maintains this framework. The
availability of a rich source of information about R&D represents opportunities for
creating knowledge in this realm. Exploring this potential of knowledge generation, two
cases will be described. Firstly, the search for the characterization of professors who
oriented students in Scientific Started Programs of CNPq. Secondly, the identification of
research lines made by a group of professors, consistent with their scientific and
technological production, extracted by Plataforma Lattes´s databases. In the study
cases, techniques of Data Mining (DM) and Text Mining (TM) were used. The patterns
that have been found by DM and TM processes were interpreted by experts, envisioning
to improve the transition pattern/knowledge that exist into the interface between
Knowledge Discovery in Databases (KDD) and Knowledge Management (KM). The
main contributions of this dissertation were: (a) an interpretation method for patterns
developed using the Language Ontology as example; (b) organizational knowledge
creation; (c) explore new ways to create organizational knowledge using the
Plataforma Lattes.
Keywords: knowledge management, data mining, text mining, knowledge discovery,
Plataforma Lattes.
SUMÁRIO
RESUMO ...............................................................................................................................................VI
ABSTRACT......................................................................................................................................... VII
LISTA DE FIGURAS ........................................................................................................................... 10
LISTA DE TABELAS........................................................................................................................... 12
LISTA DE TABELAS........................................................................................................................... 12
CAPÍTULO 1......................................................................................................................................... 13
1
INTRODUÇÃO ........................................................................................................................... 13
1.1
CONTEXTO DA PESQUISA ...................................................................................................... 13
1.2
DESCRIÇÃO DO PROBLEMA ................................................................................................... 14
1.3
JUSTIFICATIVA ...................................................................................................................... 15
1.4
OBJETIVOS ............................................................................................................................ 16
1.4.1
Objetivo Geral ................................................................................................................. 16
1.4.2
Objetivos Específicos ...................................................................................................... 16
1.5
REVISÃO DA LITERATURA..................................................................................................... 17
1.6
POSSIBILIDADES DE APLICAÇÃO DE DCDB NA PLATAFORMA LATTES ................................. 17
1.7
CLASSIFICAÇÃO DA PESQUISA ............................................................................................... 18
1.8
SUPOSIÇÕES .......................................................................................................................... 18
CAPÍTULO 2......................................................................................................................................... 19
2
REVISÃO DA LITERATURA................................................................................................... 19
2.1
A PLATAFORMA LATTES....................................................................................................... 19
2.1.1
Sistemas de Informação da Plataforma Lattes................................................................. 19
2.1.2
Estrutura da Plataforma Lattes ........................................................................................ 21
2.2
GESTÃO DO CONHECIMENTO ................................................................................................ 29
2.2.1
Conceitos Iniciais ............................................................................................................ 29
2.2.2
Gestão do Conhecimento................................................................................................. 36
2.3
DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS ...................................................... 53
2.3.1
Conceito .......................................................................................................................... 54
2.3.2
Histórico.......................................................................................................................... 54
2.3.3
Etapas .............................................................................................................................. 55
2.4
DESCOBERTA DE CONHECIMENTO EM TEXTOS ..................................................................... 59
2.5
TÉCNICAS DE MINERAÇÃO DE DADOS .................................................................................. 63
2.5.1
Tarefas Básicas................................................................................................................ 64
2.5.2
Caracterização da Mineração de Dados........................................................................... 68
2.5.3
Árvores de Decisão ......................................................................................................... 69
2.5.4
Redes Neuronais Artificiais............................................................................................. 70
2.5.5
Abordagens Híbridas....................................................................................................... 74
2.5.6
Ferramenta para a Mineração de Dados .......................................................................... 76
2.6
TÉCNICAS DE MINERAÇÃO DE TEXTOS ................................................................................. 85
2.6.1
Mineração de Texto......................................................................................................... 85
2.6.2
Tarefas Básicas................................................................................................................ 86
2.6.3
Ferramenta para a Mineração de Texto ........................................................................... 87
2.7
ONTOLOGIA DA LINGUAGEM ................................................................................................. 91
2.7.1
Atos lingüísticos básicos ................................................................................................. 92
2.7.2
Juízos............................................................................................................................... 94
CAPÍTULO 3......................................................................................................................................... 96
3
METODOLOGIA........................................................................................................................ 96
3.1
CONSIDERAÇÕES GERAIS ...................................................................................................... 96
3.1.1
Coleta e análise de dados................................................................................................. 96
3.1.2
Delimitação do estudo ..................................................................................................... 96
3.2
ESPECIFICAÇÃO DA PESQUISA ............................................................................................... 96
3.2.1
Perfil do orientador do PIBIC ......................................................................................... 97
3.2.2
Agrupamento de docentes a partir de suas publicações................................................... 98
3.3
METODOLOGIA UTILIZADA NOS ESTUDOS DE CASO ............................................................... 99
3.4
ETAPAS DA PESQUISA .......................................................................................................... 100
3.4.1
Gestão do Conhecimento............................................................................................... 101
3.4.2
Descoberta de Conhecimento em Bases de Dados ........................................................ 105
3.4.3
Descoberta de Conhecimento em Textos ...................................................................... 112
CAPÍTULO 4....................................................................................................................................... 130
4
ANÁLISE DOS RESULTADOS .............................................................................................. 130
4.1
4.1.1
Resultados da Mineração de Dados............................................................................... 130
4.1.2
Resultados finais ........................................................................................................... 131
4.2
4.2.1
5
ESTUDO DE CASO: PERFIL DO ORIENTADOR DO PIBIC ........................................................ 130
ESTUDO DE CASO: AGRUPAMENTO DE DOCENTES ............................................................... 134
Resultados da Mineração de Texto................................................................................ 135
CONCLUSÕES E TRABALHOS FUTUROS ........................................................................ 141
REFERÊNCIAS BIBLIOGRÁFICAS .............................................................................................. 143
LISTA DE FIGURAS
FIGURA 1: ESTRUTURA DO CURRÍCULO LATTES .................................................................................................... 23
FIGURA 3: ESTRUTURA DO DIRETÓRIO DOS GRUPOS DE PESQUISA ........................................................................ 26
FIGURA 4: MODELO GENÉRICO DO GC [STOLL01 APUD SOUSA03] ................................................................... 53
FIGURA 6: PRINCIPAIS ETAPAS DO PROCESSO DE DCBD ........................................................................................ 56
FIGURA 7: APRESENTAÇÃO GEOMÉTRICA DE UMA ÁRVORE DE DECISÃO [LUCEN01] ........................................... 70
FIGURA 8: MODELO DE NEURÔNIO BIOLÓGICO E ARTIFICIAL [MEDLE98] ............................................................ 72
FIGURA 9: REDE NEURONAL ARTIFICIAL COM UMA CAMADA INTERMEDIÁRIA [BRASI02]................................... 73
FIGURA 10: MODELO NEURAL COMBINATÓRIO [PRADO98] ................................................................................ 75
FIGURA 11: FUNÇÕES DE UM MODELO KBANN [OSORI99] ................................................................................. 76
FIGURA 12: RELAÇÃO DOS PACOTES DO WEKA – ADAPTAÇÃO DE [SALGA02] ................................................... 78
FIGURA 13: EXEMPLO DE ARQUIVO .ARFF DO WEKA............................................................................................ 80
FIGURA 14: ALGORITMO APRIORI – ROTINA PRINCIPAL.......................................................................................... 82
FIGURA 15: CLASSIFICADORES NO WEKA ............................................................................................................. 82
FIGURA 16: ALGORITMOS DE AGRUPAMENTO DO WEKA....................................................................................... 83
FIGURA 17: TELA INICIAL DO WEKA .................................................................................................................... 84
FIGURA 18: CONFIGURAÇÃO DE PARÂMETROS NO WEKA ..................................................................................... 85
FIGURA 19: TELA DE ENTRADA DO EUREKHA......................................................................................................... 88
FIGURA 20: GRUPOS NO EUREKHA ......................................................................................................................... 89
FIGURA 21: JANELA DE STOP WORDS DO EUREKHA................................................................................................. 90
FIGURA 25: GESTÃO DO CONHECIMENTO E DESCOBERTA DE CONHECIMENTO EM BD .......................................... 99
FIGURA 27: INTERAÇÃO DA GESTÃO DO CONHECIMENTO E DA DESCOBERTA DE CONHECIMENTO ...................... 100
FIGURA 28: ARQUIVO DE ENTRADA PARA O WEKA ............................................................................................. 111
FIGURA 29: EUREKHA – NOVO PROJETO/ABRIR PROJETO ................................................................................... 119
FIGURA 30: EUREKHA – ADICIONAR ARQUIVOS ................................................................................................... 120
FIGURA 31: EUREKHA – LISTAS DE PALAVRAS NEGATIVAS .................................................................................. 121
FIGURA 32: EUREKHA – IDENTIFICAR RELACIONAMENTOS .................................................................................. 122
FIGURA 33: EUREKHA – VISUALIZAR GRUPOS ...................................................................................................... 123
FIGURA 34: EUREKHA – REAGRUPAR ................................................................................................................... 124
FIGURA 35: AGRUPAMENTO 1998/1999 ............................................................................................................... 125
FIGURA 36: AGRUPAMENTO 2000/2001 ............................................................................................................... 126
FIGURA 37: AGRUPAMENTO 2002 A 2004 ............................................................................................................ 127
FIGURA 38: AGRUPAMENTO 1998 A MARÇO DE 2004........................................................................................... 128
FIGURA 39: BOLSISTAS POR ORIENTADOR ............................................................................................................ 131
FIGURA 40: GRUPOS DE BOLSISTAS POR ORIENTADOR .......................................................................................... 132
FIGURA 41: ALUNOS TITULADOS POR ORIENTADOR .............................................................................................. 133
FIGURA 42: RESUMO DO PERFIL DO ORIENTADOR ................................................................................................. 134
FIGURA 43: PRODUÇÃO POR ANO – I .................................................................................................................... 137
FIGURA 44: PRODUÇÃO POR ANO – II................................................................................................................... 138
FIGURA 45: PERCENTUAL DE TRABALHOS POR IDIOMA DE PUBLICAÇÃO .............................................................. 138
LISTA DE TABELAS
TABELA 1: MODELOS DE GC [RUBESTEIN-MONTANO AT AL. APUD FERREI03]. .. 43
TABELA 2: PROCESSOS DO CONHECIMENTO [FERREI03].......................................................... 47
TABELA 3: DESCRIÇÃO DOS PACOTES DO WEKA – ADAPTADO DE [SALGA02] ............. 78
TABELA 4: SOBRE AFIRMAÇÕES E DECLARAÇÕES........................................................................... 93
TABELA 5: SOBRE PROMESSAS ................................................................................................................ 93
TABELA 6: QUANTIDADE DE PROCESSOS DE IC POR ANO........................................................... 107
TABELA 7: QUANTIDADE DE ALUNOS TITULADOS POR ANO ..................................................... 108
TABELA 8: EX-BOLSISTAS PIBIC TITULADOS STRICTO SENSU ................................................. 109
TABELA 9: QUANTIDADES DE REGISTROS DE DOCENTES E PRODUÇÃO................................ 114
TABELA 10: LISTA DE PALAVRAS NEGATIVAS ................................................................................ 116
TABELA 11: CENTRÓIDES DOS AGRUPAMENTOS POR PERÍODO ............................................... 136
TABELA 12: MGCTI – TOTAIS DE PRODUÇÃO POR ANO ............................................................ 137
13
CAPÍTULO 1
1 INTRODUÇÃO
1.1 Contexto da Pesquisa
Nos últimos anos, a larga utilização de sistemas de informática deu origem a grandes
bases de dados, a partir do armazenamento de informações coletadas incessantemente através
dos mais diversos sistemas de automação.
Segundo diversos autores, a maior riqueza destas grandes bases ainda não está sendo
devidamente explorada, e sugerem que podem ser utilizadas técnicas específicas para se
extrair delas conhecimentos não explícitos. Este assunto é tratado através de DCBD Descoberta de Conhecimento de Bases de Dados, do inglês KDD - Knowledge Discovery in
Databases. Segundo Fayyad [FAYYA96], DCBD é “o processo não trivial de identificar, em
dados, padrões válidos, novos e potencialmente úteis”.
Mineração de Dados é a parte deste processo onde se produzem conjuntos de padrões
a partir da aplicação de algoritmos de exploração. Vale-se de diversos algoritmos que
processam os dados e encontram esses "padrões válidos, novos e potencialmente úteis".
Entretanto, embora os algoritmos atuais sejam capazes de descobrir padrões "válidos e
novos", ainda não existe uma solução eficaz para determinar padrões “potencialmente úteis”.
Assim, Mineração de Dados ainda requer uma interação muito forte com analistas humanos,
que são, em última instância, os principais responsáveis pela determinação do valor dos
padrões encontrados. Além disso, a condução do direcionamento da exploração de dados é
também tarefa fundamentalmente confiada a analistas humanos.
A Plataforma Lattes, uma iniciativa do Ministério da Ciência e Tecnologia através do
CNPq1, constitui-se atualmente em um grande acervo de informações sobre os pesquisadores
e sua produção científica e tecnológica, através do Currículo Lattes, o formulário eletrônico
1
CNPq: Conselho Nacional de Desenvolvimento Científico e Tecnológico.
14
do MCT2, do CNPq, da FINEP3 e da CAPES4; sobre os grupos de pesquisa existentes nas
universidades, nas empresas e outras instituições ligadas à pesquisa científica; sobre as
instituições que participam de projetos ligados ao CNPq e/ou mantém grupos de pesquisa.
No contexto da Gestão do Conhecimento, a Plataforma Lattes apresenta um grande
potencial de geração de conhecimento que pode ser utilizado na gestão da Ciência e
Tecnologia. As diversas possibilidades de exploração dos dados armazenados podem trazer
valiosas informações sobre o modus operandi da produção científica e tecnológica
desenvolvida no país.
Este trabalho apresenta uma proposta de utilização de técnicas de Descoberta de
Conhecimento em Bases de Dados sobre os dados da Plataforma Lattes, com o objetivo de
gerar conhecimento que possa ser utilizado na gestão de Ciência e Tecnologia.
Tem o objetivo também de demonstrar que a Descoberta de Conhecimento em Bases
de Dados pode ser utilizada como uma poderosa ferramenta para a geração de conhecimento,
etapa fundamental dos processos de Gestão do Conhecimento.
1.2 Descrição do Problema
O mundo cada vez mais globalizado e competitivo exige incrementos de qualidade e
produtividade de quem pretende manter-se inserido no mercado mundial. Neste contexto, a
produção científica e tecnológica é fundamental para o desenvolvimento do país, permitindo a
obtenção de produtos e serviços com maior valor agregado para este mercado.
Assim, ações no sentido de gerar conhecimento organizacional que possa ser utilizado
na gestão da Ciência & Tecnologia são muito bem-vindas, sejam pelas agências do governo
federal, pelas universidades, pelas empresas e instituições que mantêm atividades de pesquisa.
O desenvolvimento da Plataforma Lattes representa uma iniciativa de se manter um
grande conjunto de informações sobre a produção científica e tecnológica do país, de seus
pesquisadores, dos trabalhos realizados, dos grupos de pesquisa e das operações de fomento à
pesquisa patrocinados pelo CNPq.
2
MCT: Ministério da Ciência e da Tecnologia
3
FINEP: Financiadora de Estudos e Projetos do MCT
4
CAPES: Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
15
A exploração das informações tratadas pela Plataforma Lattes representa uma
oportunidade para a descoberta de conhecimento. Encontram-se armazenados vários
gigabytes de dados sobre os itens anteriormente citados.
Entretanto, esta exploração não é uma atividade simples. O grande volume de dados, a
diversidade de informações coletadas, o grande número de relações possíveis torna o trabalho
de extração de conhecimento uma tarefa que exige a utilização de técnicas sofisticadas.
Outro desafio observado está na necessidade de facilitar o processo de análise e
avaliação dos resultados dos algoritmos de mineração de dados e mineração de texto. A
identificação do que é realmente útil e que pode acrescentar conhecimento à organização é
uma das tarefas mais importantes de todo o processo.
Atualmente, os gestores de ciência e tecnologia se beneficiariam da obtenção de
informações como:
a) Definição de perfis de pesquisadores.
b) Definição de padrões de produtividade.
c) Identificação de taxonomia.
d) Descoberta de relações entre pesquisadores.
e) Descoberta de relações entre grupos de pesquisa.
f) Identificação de pesquisadores por área de atuação e sua relação com grupos de
pesquisa.
O problema a ser explorado neste trabalho refere-se à utilização de técnicas de
Mineração de Dados e Mineração de Texto na Plataforma Lattes, com o objetivo de gerar
conhecimento organizacional a partir do estabelecimento de relações entre os dados
armazenados. Através de modelos de Descoberta de Conhecimento em Bases de Dados e de
Gestão de conhecimento, pretende-se estabelecer um conjunto de possíveis aplicações para a
Mineração de Dados na Plataforma Lattes, com a conseqüente geração de conhecimento para
a gestão de Ciência & Tecnologia.
1.3 Justificativa
A realização deste trabalho justifica-se pela necessidade de se obter conhecimento
organizacional em gestão de Ciência & Tecnologia para subsidiar as decisões relacionadas a
esta atividade (e.g. definição de prioridades, organização de grupos de pesquisa, alocação de
recursos, entre outras), explorando a possibilidade de obtenção de conhecimento
16
organizacional a partir da aplicação de técnicas de Mineração de Dados e Mineração de
Textos na base da Plataforma Lattes, utilizando um enfoque relacionado com a Gestão do
Conhecimento. A utilização de algoritmos e ferramentas de Mineração de Dados pode revelar
relações importantes entre os dados armazenados, e permitir uma conseqüente geração de
conhecimento organizacional.
Este conhecimento, devidamente tratado em um contexto de Gestão de Conhecimento
pode vir a ser útil nos processos de tomada de decisão dos gestores de Ciência e Tecnologia,
seja a nível federal, estadual, acadêmico ou empresarial.
1.4 Objetivos
1.4.1 Objetivo Geral
O objetivo deste trabalho é estudar técnicas de Mineração de Dados e definir
aplicações destas técnicas na base de dados do Currículo Lattes, para prover os gestores de
Ciência & Tecnologia de ferramentas que permitam utilizar o conhecimento não explícito
presente neste grande conjunto de dados sobre a produção científica e sobre os pesquisadores.
Esse conhecimento gerado deverá ser tratado em um contexto de Gestão do Conhecimento
para sua utilização em processos de gestão de Ciência & Tecnologia.
1.4.2 Objetivos Específicos
a) Apresentar conceitos envolvendo Mineração de Dados, Mineração de Textos e
Gestão do Conhecimento.
b) Enumerar possibilidades de Descoberta de Conhecimento em Bases de Dados na
Plataforma Lattes.
c) Apresentar estudo de caso de Mineração de Dados na Plataforma Lattes.
d) Apresentar estudo de caso de Mineração de Texto na Plataforma Lattes.
e) Apresentar um método para a interpretação de resultados de algoritmos de
agrupamento.
f) Contextualizar os resultados obtidos com a Mineração de Dados em relação a
Gestão do Conhecimento
17
1.5 Revisão da Literatura
Neste trabalho, os temas principais são: Descoberta de Conhecimento em Bases de
Dados, notadamente as técnicas de Mineração de Dados e Mineração de Texto; e Gestão do
Conhecimento. Assim, a revisão literária enfocou principalmente estes temas.
No tópico Descoberta de Conhecimento em Bases de Dados, um dos principais autores
é Fayyad [FAYYA96]. Citado em diversos artigos e livros sobre o tema, o autor propôs uma
metodologia para orientar os trabalhos em DCBD. Para a realização deste trabalho, esta
metodologia foi considerada. Além de Fayyad, outros autores como Witten e Eibe
[WITTE99] – aplicativo de Mineração de Dados WEKA, e Ming-Syan Chen [CHEN96] –
Mineração de Dados e Bancos de Dados, foram consultados. Também foram de grande valia
dissertações de mestrado de Sousa [SOUSA03] e Edilberto Silva [SILVA02], assim como os
trabalhos de mineração de texto de Wives [WIVES99].
Para a interpretação de resultados em Descoberta de Conhecimento, utilizou-se os
trabalhos de Flores [FLORE88], Echeverría [ECHEV99] e Lucena [LUCEN02] sobre a
Ontologia da Linguagem.
No tópico Gestão do Conhecimento, os principais autores consultados foram Nonaka e
Takeuchi [NONAK97] – com importantes colaborações sobre a criação de conhecimento na
empresa; Karl Wiig [WIIG93] – também sobre a Gestão do Conhecimento empresarial; e a
pesquisadora Stollenwerk [STOLL01], que elaborou um importante modelo de Gestão de
Conhecimento, também utilizado neste trabalho.
1.6 Possibilidades de Aplicação de DCDB na Plataforma Lattes
A pluralidade e o volume da base de dados da Plataforma Lattes é um ambiente
propício para a descoberta de conhecimento, a partir da aplicação de técnicas de Descoberta
de Conhecimento em Bases de Dados.
Alguns exemplos de explorações que podem ser efetuadas:
a) Mineração de texto para a geração de taxonomia dos Grupos de Pesquisa.
b) Mineração de texto para a verificação da consistência entre as linhas de pesquisa e
a produção científica e tecnológica.
c) Agrupamento de pesquisadores a partir de sua produção científica e tecnológica.
18
d) Identificação de perfis de pesquisadores a partir de suas informações curriculares.
e) Identificação de competências dos pesquisadores a partir de suas informações
curriculares.
f) Identificação de linhas de pesquisa a partir das informações da produção científica
e tecnológica dos pesquisadores.
1.7 Classificação da pesquisa
Quanto aos fins, este trabalho é classificado como uma proposta de pesquisa aplicada,
uma vez que tem por objetivo o estudo e a utilização de técnicas de Mineração de Dados e
Mineração de Texto na base do Currículo Lattes, para oferecer recursos de gestão de
conhecimento em Ciência & Tecnologia.
Quanto aos meios de investigação, foi utilizada a pesquisa bibliográfica, para a
identificação das técnicas de Mineração de Dados aderentes ao objeto pesquisado; e a
pesquisa documental, em documentos que tratam de questões sobre gestão da Ciência &
Tecnologia.
Foi utilizada também a pesquisa de laboratório, onde se experimentou a aplicação dos
algoritmos selecionados em amostras da base de dados pesquisada; e estudos de casos, onde
dados da Plataforma Lattes foram submetidos a algoritmos de Mineração de Dados e
Mineração de Texto.
1.8 Suposições
O trabalho proposto tratou das seguintes suposições:
a) É viável a utilização de técnicas de Mineração de Dados e Mineração de Textos
para disponibilizar ao usuário final acesso facilitado aos resultados obtidos em
pesquisas na base de dados.
b) É possível extrair conhecimento útil da base de dados do Currículo Lattes através
da utilização de técnicas de Mineração de Dados e Mineração de Textos.
a) A Descoberta de Conhecimento em Bases de Dados pode ser utilizada no contexto
da Gestão do Conhecimento para a geração de conhecimento organizacional.
19
CAPÍTULO 2
2 REVISÃO DA LITERATURA
2.1 A Plataforma Lattes
A Plataforma Lattes “é um conjunto de sistemas de informação, bases de dados e
portais Web voltados para a gestão de Ciência e Tecnologia” [CNPQ03].
É composta pela integração de sistemas de informações distintos:
a) Currículo Lattes
b) Diretório de Grupos de Pesquisa
c) Diretório de Instituições
d) Sistema Gerencial de Fomento
2.1.1 Sistemas de Informação da Plataforma Lattes
2.1.1.1
Currículo Lattes
Em 1998 foi iniciado um processo para a geração de um sistema informatizado que
viesse padronizar e consolidar as informações curriculares dos pesquisadores interessados na
obtenção de recursos de fomento à pesquisa.
Até então, vinham sendo utilizados diversos formulários, informatizados ou não, que
demandavam o preenchimento das mesmas informações em locais diferentes. Esta prática
provocava um considerável transtorno em várias fases do processo, tanto para o pesquisador,
que se via obrigado a prestar a mesma informação diversas vezes, em locais e formatos
diferentes, quanto para os gestores das agências de governo responsáveis pela avaliação dos
20
processos. O projeto foi lançado em agosto de 1999, e, de uma base inicial de
aproximadamente 35 mil currículos cadastrados, passou-se atualmente para um total de
aproximadamente 350 mil currículos, um aumento de aproximadamente 1.000%.
O Currículo Lattes está se consolidando como uma importante ferramenta de apoio à
gestão de Ciência & Tecnologia, uma vez que permitiu uma racionalização no processo de
cadastramento, armazenamento e consulta de dados curriculares, eliminando uma série de
outros processos semelhantes e redundantes.
2.1.1.2
Diretórios de Grupos de Pesquisa
O Diretório de Grupos de Pesquisa é um sistema que mantém uma base de dados com
informações coletadas a partir de 1992. Foi desenvolvido pelo CNPq para manter informações
sobre os grupos de pesquisa existentes no país.
Os grupos de pesquisa podem ser definidos como um conjunto de pessoas organizadas
hierarquicamente, a partir de uma liderança de destaque no ambiente de ciência e tecnologia,
envolvidos permanentemente em atividades de pesquisa, cujo trabalho se organiza em linhas
comuns aos membros do grupo, e que, de alguma maneira, compartilhem instalações e
equipamentos. Estão localizados em universidades, instituições isoladas de ensino superior,
institutos de pesquisa científica, institutos tecnológicos, laboratórios de pesquisa e
desenvolvimento de empresas estatais ou ex-estatais e em algumas organizações nãogovernamentais com atuação em pesquisa científica ou tecnológica [CNPQ03].
Os principais objetivos deste sistema são:
a) Manter um histórico das atividades dos grupos de pesquisa, preservando sua
memória.
b) Servir de base de consulta para a comunidade científica, que passa a contar com
uma ferramenta que permite a identificação dos membros, dos trabalhos
realizados, das linhas de pesquisa, facilitando o intercâmbio entre os
pesquisadores.
c) Prover os gestores de Ciência & Tecnologia de uma ferramenta para avaliação e
planejamento dos investimentos em atividades de pesquisa, a partir de informações
qualitativas e quantitativas sobre os trabalhos realizados no âmbito dos grupos.
21
2.1.1.3
Diretório de Instituições
O Diretório de Instituições é um sistema que armazena informações sobre as
universidades, institutos de pesquisa, empresas e organizações não-governamentais que
mantenham algum tipo de relacionamento com a pesquisa científica e tecnológica.
É fundamental para a gestão e operacionalização dos processos de fomento à pesquisa
mantidos pelo CNPq, bem como na elaboração de informações estatísticas.
2.1.1.4
Sistema Gerencial de Fomento
Segundo o CNPq, “a função de fomento constitui-se na principal ação desenvolvida
pelo CNPq, com vistas à promoção do desenvolvimento científico e tecnológico do País”
[CNPQ03]. São disponibilizados recursos para a capacitação tecnológica e científica, bem
como são financiados projetos que possam estimular a geração do conhecimento necessário
para o desenvolvimento econômico, social e cultural do país.
As ações de fomento são operacionalizadas através de vários sistemas de informação.
O sistema gerencial de fomento é uma iniciativa para permitir mais facilidade na execução de
pesquisas nestas bases de dados, voltadas tanto para os gestores de Ciência e Tecnologia,
quanto para a comunidade científica em geral, através de consultas disponibilizadas na
Internet através da Plataforma Lattes.
2.1.2 Estrutura da Plataforma Lattes
A Plataforma Lattes é resultado de um esforço para integrar sistemas de informações
ligados à gestão de Ciência e Tecnologia.
Além disso, o Projeto de Institucionalização da Plataforma Lattes está levando os
sistemas da Plataforma para instituições de ensino e pesquisa que têm interesse em manter em
bases locais as informações curriculares de seus pesquisadores, funcionários e quaisquer
outros envolvidos em atividades de pesquisa e docência.
A seguir, será apresentada a estrutura fundamental dos principais sistemas da
Plataforma Lattes.
2.1.2.1
Currículo Lattes
O Currículo Lattes é composto por módulos distintos:
22
a) Atualização off-line: o usuário pode instalar em seus computadores um conjunto
de programas que permite o cadastramento das informações necessárias do
Currículo Lattes, fazer todos os ajustes necessários e, posteriormente, transmiti-lo
para a base de dados do CNPq. Para quem não dispõe de acesso rápido à Internet,
ou que deseja manter as informações em seus computadores pessoais, este é o
módulo indicado para o cadastramento e manutenção de seu currículo.
b) Atualização on-line: o usuário pode acessar, em tempo real, a base de dados do
CNPq e efetuar o cadastramento ou a atualização de seu currículo. Através de uma
interface que pode ser acessada via navegadores Web, as informações curriculares
são cadastradas, recuperadas e atualizadas sem a necessidade de armazenamento
local.
c) Buscas textuais: a partir da base operacional do Currículo Lattes, onde estão
armazenadas as informações cadastradas tanto via Internet quanto via programas
locais, são extraídas e consolidadas as informações curriculares necessárias ao
serviço de busca textual. Através de um processo de indexação textual, são
disponibilizadas diversas consultas, que utilizam como parâmetro tanto o nome do
usuário quanto palavras-chaves relacionadas à sua produção científica e
tecnológica.
A base de dados do Currículo Lattes é formada fundamentalmente por dois
componentes:
a) Base de dados operacional: onde estão armazenadas as informações originais
providas pelos usuários, no momento do cadastramento ou da atualização de seus
currículos. É uma base de dados relacional composta por tabelas que mantém os
dados em formato estruturado, adequado para a atualização on-line e off-line.
b) Base de dados para as consultas textuais: é uma base de dados relacional com
índices textuais, resultado de processos de extração e consolidação de dados
oriundos da base operacional. Permite consultas a informações não estruturadas.
A seguir, um figura com o organograma que representa o conjunto de informações
armazenados na base de dados do Currículo Lattes:
23
Figura 1: Estrutura do Currículo Lattes
a) Informações gerais
a.1. Identificação
a.2. Endereço
a.3. Formação Acadêmica e Titulação
a.4. Atuação profissional
a.5. Áreas de atuação
a.6. Idiomas
a.7. Prêmios e títulos
b) Produção Científica e Tecnológica
b.1. Produção bibliográfica
b.1.1. Trabalhos em eventos
b.1.2. Artigos publicados
b.1.3. Livros e capítulos
b.1.4. Texto em jornal ou revista (magazine)
b.1.5. Demais tipos de produção bibliográfica
b.2. Produção técnica
b.2.1. Softwares
b.2.2. Produtos
24
b.2.3. Processos
b.2.4. Trabalhos técnicos
b.2.5. Demais tipos de produção técnica
b.2.6. Propriedade intelectual
b.3. Outra produção
b.3.1. Produção artística e cultural
b.3.2. Orientações concluídas
b.3.3. Demais trabalhos
b.3.4. Outras informações relevantes
c) Informações complementares
c.1. Formação complementar
c.2. Participação em banca de trabalhos de conclusão
c.3. Participações em eventos, congressos e outros
c.4. Participações em bancas de comissões julgadoras
c.5. Orientações em andamento
2.1.2.2
Diretório dos Grupos de Pesquisa
O Diretório de Grupos de Pesquisa é composto basicamente por dois módulos:
a) Base corrente: organizado de maneira a permitir acesso diferenciado aos
diferentes tipos de membros do Grupo, permite o cadastro e a manutenção das
informações dos grupos de pesquisa constantemente atualizados. Tem por objetivo
manter a base de dados operacional do Diretório, e registrar todas as informações
pertinentes. Pode ser acessado através da Internet, e existem opções diferenciadas
para:
a.1. Dirigentes Institucionais de Pesquisa
a.2. Líderes de Grupos de Pesquisa
a.3. Pesquisadores de Grupos de Pesquisa
a.4. Estudantes de Grupos de Pesquisa
25
b) Base censitária: permite consultas à base de dados censitária, que é o resultado de
operações de extração, análise, avaliação e consolidação de informações oriundas
da base corrente. Está disponível para acesso através da Internet. Atualmente, a
última versão de dados disponibilizados refere-se ao Censo 2002, a partir da
apuração de informações da versão 5.0 do sistema de captura. De acordo com
informações do CNPq, o planejamento atual é para a realização de censos bienais,
mas, graças à nova estrutura do sistema, é possível realizar a qualquer momento
totalizações específicas, de acordo com as necessidades do governo e da
sociedade.
A base de dados do Diretório de Grupos de Pesquisa é também formada por dois
módulos:
a) Base corrente: uma base de dados relacional onde estão armazenadas as
informações dos grupos de pesquisa, cadastradas pelos seus membros. É a base de
dados operacional do sistema.
b) Base censitária: é uma base de dado modelada para consultas gerenciais,
utilizando totalizadores e aglomerações. São originadas da extração, análise,
avaliação e consolidação de informações oriundas da base corrente. Possui
indexação textual, o que permite a realização de consultas sobre dados não
estruturados. Atualmente, existem consultas disponíveis às bases censitárias de
1993, 1995, 1997, 2000 e 2002.
As principais informações armazenadas na base operacional do Diretório de Grupos de
Pesquisa são:
a) Informações dos Grupos:
a.1. Identificação
a.2. Componentes
a.3. Área do conhecimento
a.4. Linhas de pesquisa
b) Informações dos pesquisadores e alunos: as informações dos pesquisadores e
alunos são obtidas através do Currículo Lattes. Para a participação em qualquer
grupo de pesquisa, é necessário manter o Currículo Lattes atualizado.
26
c) Informações das Instituições: as informações das instituições são obtidas a partir
do Diretório de Instituições.
Figura 2: Estrutura do Diretório dos Grupos de Pesquisa
As principais consultas disponíveis a partir dos dados armazenados nas bases
censitárias do Diretório de Grupos de Pesquisa são [CNPQ03]:
a) “Séries Históricas: as Séries Históricas contêm tabelas e gráficos selecionados,
com informações que sintetizam a evolução temporal e agregada do perfil dos
grupos de pesquisa.
b) Súmula Estatística: a súmula estatística apresenta um pequeno conjunto de tabelas
e gráficos selecionados, com informações que sintetizam o conteúdo da base de
dados e fornecem um retrato bastante nítido da capacidade instalada de pesquisa
no país em 2002.
c) Plano Tabular: o Plano Tabular objetiva estabelecer o perfil da pesquisa no Brasil
em termos quantitativos. Organiza-se segundo configurações de montagem e de
visualização, realizadas dinamicamente pelo usuário. As tabelas desse módulo são
grandemente inclusivas e oferecem a possibilidade de cruzamento de variáveis
capazes de gerar diversas combinações.
d) Busca Textual: a busca textual permite recuperar, dinamicamente, informações
individualizadas sobre dados presentes na base do Diretório. Inclui três
possibilidades de recuperação de informações, em níveis crescentes de
27
complexidade - busca simples, orientada e avançada. Organiza-se a partir de três
decisões iniciais tomadas pelo usuário: (i) qual informação deverá ser recuperada
(busca simples); (ii) onde esta informação deverá ser procurada (orientada e
avançada); e (iii) segundo quais critérios deverá ser buscada (orientada e
avançada).
e) Estratificação dos grupos: o módulo de Estratificação dos Grupos de Pesquisa
contidos no Diretório permite classificar os grupos pertencentes às instituições de
ensino superior e a institutos de pesquisa que possuem programas de pósgraduação em estratos de qualidade5.
f) Anexos: é apresentada sob a rubrica de Anexos a árvore de especialidades do
conhecimento do CNPq, a lista dos setores de atividades utilizadas nesta versão do
Diretório, a relação das instituições cujos grupos de pesquisa constam da base de
dados, a relação das instituições que não responderam à solicitação do CNPq,
embora contatadas, e a lista das unidades da Federação. Essas informações são
úteis para a utilização dos dispositivos de busca textual e de construção de
tabelas”.
2.1.2.3
Diretório de Instituições
O Diretório de Instituições é o módulo da Plataforma Lattes responsável pela gestão
de informações institucionais.
Este sistema é um dos mais antigos do CNPq, iniciado no início dos anos setenta, em
um esforço para sistematizar as informações sobre as instituições que se relacionavam com o
CNPq. Passou por várias reformulações, até ser incorporado à Plataforma Lattes. Neste
momento, está passando por mais uma manutenção evolutiva, no intuito de facilitar o
cadastramento e a manutenção dos dados das instituições [CNPQ03].
O Diretório de Instituições é composto fundamentalmente por dois módulos:
a) Cadastramento e manutenção: é possível incluir e atualizar informações sobre as
instituições a partir de uma interface na Internet, ou através da interface do
Currículo Lattes.
5
Estratos de Qualidade: obtidos a partir de algoritmos desenvolvidos no CNPq para a identificação de níveis de
qualidade, a partir de informações das bases de coleta e de parâmetros de produtividade e desempenho
[CNPQ03b].
28
b) Consulta Instituições: através deste módulo, é possível efetuar consultas sobre as
instituições cadastradas. Está disponível através de uma interface Web.
A base de dados é composta por tabelas relacionais que apresentam interações com
todos os outros módulos da Plataforma Lattes.
2.1.2.4
Sistema Gerencial de Fomento
O Sistema Gerencial de Fomento é composto por módulos que têm por objetivo
fornecer informações de natureza gerencial sobre as operações de fomento realizadas pelo
CNPq.
Estas transações são inicialmente tratadas por sistemas específicos, de natureza
operacional, cujos dados são armazenados em tabelas relacionais. A partir de extrações,
análises e consolidações dos dados da base operacional, é constituída outra base de dados de
cunho gerencial.
São os seguintes os módulos do Sistema Gerencial de Fomento:
a) Busca por histórico de fomento: este serviço permite a realização de consultas na
base de dados de fomento, a partir de um dos parâmetros abaixo:
a.1. Nome
a.2. Área do conhecimento
a.3. Instituição
a.4. UF da instituição
a.5. Modalidade
b) Investimentos do CNPq em C&T: este serviço permite a realização de consultas
na base de dados gerenciais de fomento, e fornece diversas resultados a de:
b.1. Capacitação de recursos humanos para a pesquisa
b.1.1. Bolsas no país
b.1.2. Bolsas no exterior
b.2. Fomento à pesquisa
b.2.1. Apoio a projetos de pesquisa
b.2.2. Apoio à editoração
b.2.3. Apoio a eventos
29
2.2 Gestão do Conhecimento
A utilização da Plataforma Lattes como fonte de conhecimento organizacional é uma
iniciativa que tem por objetivo gerar conhecimento útil no processo de gestão de Ciência e
Tecnologia. Para tal, utilizou-se de conceitos de Gestão de Conhecimento, particularmente o
modelo proposto pela pesquisadora Maria de Fátima Stollenwerk [STOLL01], e de
Descoberta de Conhecimento em Bases de Dados, modelo proposto por Usama Fayyad
[FAYYA96].
Este tópico trata de aspectos teóricos da Gestão do Conhecimento e da Descoberta de
Conhecimento em Bases de Dados.
2.2.1 Conceitos Iniciais
Para conduzir a apresentação deste tópico, conceitos iniciais relacionados ao assunto
devem ser considerados. A seguir, serão enumerados alguns conceitos sobre dado,
informação, sistemas, sistemas de informação, sistemas gerenciadores de bancos de dados e
conhecimento.
2.2.1.1
Dado
De acordo com a Prof. Solange Oliveira Resende, “dado é a estrutura fundamental
sobre a qual um sistema de informação é construído” [REZEN03]. Já segundo o Prof.
Valdemar Setzer, “dado é uma seqüência de símbolos quantificados ou quantificáveis”
[SETZE03]. Esta seqüência de símbolos identifica condições específicas a respeito das
entidades a eles relacionados, mesmo que eventualmente o observador não possa entendê-los.
Neste contexto, um literal pode ser um dado, uma seqüência de literais pode ser um dado, um
texto pode ser um dado, uma foto pode ser um dado. Por serem unidades de representação de
valores, têm um caráter puramente sintático, significando que “podem ser totalmente descritos
através de representações formais, estruturais” [SETZE03]. Esta característica permite que
dados possam ser definidos e armazenados em sistemas computacionais, bem como possam
ser processados, ou seja, utilizados em operações como adição, contagem, concatenação,
comparação, entre outras.
Os dados podem ser ainda combinados em estruturas, de forma a formarem dados
mais complexos. Por exemplo, a estruturação dos dados sobre cada ponto de uma em uma
matriz pode formar uma foto, sendo dados de cada ponto itens como cor e brilho.
30
2.2.1.2
Informação
Vários autores tentam estabelecer um conceito para informação. Paulo Foina afirma
que ”informação é um valor, ou dado, que possa ser útil para alguma aplicação ou pessoa”
[FOINA01].
Já Solange Resende define informação como “um dado que tem o conteúdo e forma
apresentada de uma maneira que seja útil para um processo de tomada de decisão”
[REZEN03].
Entretanto, o professor Setzer prefere estabelecer uma caracterização do termo, e não
propor uma definição. Afirma que “informação é uma abstração informal (isto é, não pode ser
formalizada através de uma teoria lógica ou matemática), que está na mente de alguém,
representando algo significativo para essa pessoa” [SETZE03]. Portanto, informação tem
sentido somente quando uma pessoa recebe dados sobre um determinado elemento e forma
uma imagem mental a partir deles, ou de sua correlação com outros dados. Por exemplo, a
leitura da manchete de um jornal que estampa “as ações da Petrobrás subiram 5% no último
pregão” pode representar uma informação para uma pessoa que saiba o que é Petrobrás, e que
tenha conhecimentos mínimos do mercado acionário. Sem isso, a frase é somente um
conjunto de dados.
Para ser armazenada em um computador, a informação deve ser representada na forma
de dados. Mas, ainda segundo Setzer [SETZE03], o que é armazenado no computador não é
informação, mas os dados que a representam. Através de processamento, esta representação
da informação, ou o conjunto de dados, pode ser manipulado, mas somente do ponto de vista
sintático. O computador não altera o sentido de um conjunto de dados. Pode até modificá-los
de maneira que não sejam mais inteligíveis, através de criptografia, ou substituir uma palavra
por outra, mas o que ocorreu na máquina foi somente uma mudança sintática, somente o
receptor humano pode empreender uma mudança semântica.
Dados e informações são essencialmente diferentes. O primeiro tem uma característica
sintática, enquanto o segundo tem sentido somente com uma componente semântica, isto é,
deve poder ser interpretado pelo agente humano. Os computadores são fundamentalmente
sintáticos, possuindo capacidade apenas para a manipulação de dados, o que não
caracterizaria o processamento de informação. Quando o computador Deep Blue6 derrotou o
6
Deep Blue: supercomputador da IBM Research.
31
enxadrista Garry Kasparov, o que prevaleceu foi a capacidade fenomenal de realização de
operações matemáticas do computador. Neste caso, o computador manipulava dados, e não
informação.
2.2.1.3
Sistemas
1. Conjunto de elementos, materiais ou ideais, entre os quais se possa
encontrar ou definir alguma relação. 2. Disposição das partes ou dos
elementos de um todo, coordenados entre si, e que funcionam como estrutura
organizada [FERREI01].
As definições acima são suficientes para introduzir o conceito de sistema, que pode ser
entendido como a união de partes coerentes para a formação de um todo. Um sistema,
normalmente, não existe de forma isolada, mas se relaciona com outros sistemas mais
abrangentes. Um sistema pode ser parte de outro maior, e ser compostos por sistemas
menores. Para cada sistema pode ser definido um “espaço de existência”, com fronteiras
estabelecidas. A maior ou a menor proximidade de outros sistemas é definitiva para o grau de
interatividade entre eles.
Este texto não pretende explorar toda a complexidade que envolve o estudo dos
sistemas, tratado na Teoria Geral dos Sistemas. No ocidente, os trabalhos do biólogo austríaco
Ludwig Von Bertalanffy representam um marco, com a apresentação de propostas para
abordagens científicas do que se chamou “todos integrados”, na década de 1950. Este termo
teria sido citado anteriormente pelo médico, filósofo e economista russo Alexander
Bogdanov, em 1922, mas seus trabalhos foram pouco divulgados no ocidente [UHLMA02].
2.2.1.4
Sistemas de Informação
A partir dos conceitos de sistema, apresentados no item anterior, pode-se definir
Sistema de Informação como um conjunto de partes organizadas que se inter-relacionam para
a formação de um conjunto adequado ao fornecimento de informações para a organização,
seja ela doméstica, de pequeno ou de grande porte.
Um sistema de informação pode ser utilizado para reunir, armazenar, processar e
fornecer informações relevantes para um grupo interessado. Pode ou não contar com a
utilização de recursos computacionais na sua construção, mas isto não é obrigatório.
Entretanto, devido a sua existência estar normalmente ligada à utilização de tecnologia
32
computacional e eletrônica, os sistemas de informação normalmente são associados à
utilização de computadores.
Afirma o professor Antônio Vidal:
Um sistema de informação é um componente do sistema organizacional,
constituído por uma rede difundida pela empresa inteira e utilizado por todos
os seus componentes. Seu propósito é obter informações dentro e fora da
empresa, torná-las disponíveis para os outros componentes, quando
necessitarem, e apresentar as informações exigidas pelos que estão fora
[VIDAL98].
Os sistemas de informação, em geral, são utilizados para orientar a tomada de decisão
em três níveis diferentes na administração de uma empresa: o operacional, o tático e o
estratégico.
O primeiro nível, o operacional, se responsabiliza pelo comprimento de tarefas da
maneira mais eficiente possível. O nível tático já se responsabiliza para que as tarefas sejam
cumpridas com eficiência, mas se responsabilizando enfaticamente com os objetivos da
empresa, e se preocupa com o fornecimento de recursos para a viabilidade do cumprimento
das tarefas. Já o nível estratégico é responsável por definir os rumos da empresa, seus
objetivos e estratégias para atingir estes objetivos.
Os sistemas de informação devem atender a todos os níveis acima citados, com a
devida atenção para as características de cada um deles, e oferecer a todos os envolvidos
ferramentas adequadas ao bom cumprimento de suas atividades. Segundo Vidal, os sistemas
de informação podem ser divididos em duas grandes categorias [VIDAL98]:
a) Sistemas de uso operacional: voltados para o apoio às atividades operacionais,
normalmente orientados à transações, com necessidade de ótimo tempo de
resposta.
b) Sistemas gerenciais: voltados para a produção de informações de apoio à gestão,
normalmente utilizados por um número menor de usuários, interessados em
consultar totais, resumos, associações de dados. São menos sensíveis ao tempo de
resposta, mas processam grandes quantidades de dados.
2.2.1.5
Sistemas Gerenciadores de Bancos de Dados
Considerando os conceitos apresentados nos tópicos acima, pode-se fazer o seguinte
exercício: os computadores não processam informações, mas dados. O conhecimento é
33
intrínseco ao agente, que pode se valer de recursos computacionais para incrementar sua
capacidade de aprendizado, e a construção de conhecimento.
Assim, pode-se perceber a importância que o item dados tem no ambiente de sistemas
de informações. Os dados são, em resumo, o que se pode efetivamente armazenar, processar,
manipular, organizar, transformar e recuperar. Em conjunto com os programas que atuam
sobre eles, os dados se constituem em uma das unidades fundamentais de qualquer sistema de
informação.
Inicialmente, os dados eram armazenados na forma de seqüências, ordenadas ou não, e
toda sua manipulação era realizada através de rotinas construídas pelas equipes de
programação, específicas para cada sistema. Para tal, era necessário programar, a cada sistema
construído, o método de acesso, as rotinas de ordenação, as rotinas de controle.
Com o crescimento da utilização dos computadores pelas empresas, e com o grande
aumento do volume de dados armazenados, fez-se necessário o desenvolvimento de produtos
específicos para o tratamento destes dados, os quais livrassem as equipes de desenvolvimento
da necessidade de construir todas as rotinas para o seu armazenamento, processamento e
recuperação. Surgiram assim os DBMS – Database Management Systems, ou sistemas
gerenciadores de bancos de dados.
Estes DBMS são constituídos de rotinas que implementam recursos para:
a) A definição da base de dados (DDL – Data Definition Language), por exemplo, a
criação de tabelas, visões, índices;
b) O controle da base de dados (DCL – Data Control Language), por exemplo, a
criação de usuários, a atribuição de privilégios;
c) A manipulação dos dados (DML – Data Manipulation Language), por exemplo,
para a inserção, alteração e recuperação de registros nas tabelas.
São constituídos também de sistemas de arquivos que permitem o armazenamento de
grandes volumes de dados.
Os DBMS podem ser classificados, quanto à sua estratégia de armazenamento e busca,
em:
a) Hierárquicos: as tabelas são organizadas de maneira que ocorra uma hierarquia
entre elas. Por exemplo, a tabela DEPARTAMENTOS está em uma posição
hierarquicamente superior à tabela FUNCIONÁRIOS. Este modelo é pouco
utilizado atualmente. Como vantagem, pode ser citada a capacidade de definição
34
de relações um-para-muitos, facilitando buscas através da hierarquia. Como
desvantagem, o fato das definições das classes e estruturas serem fixas, não
permitindo a relação muitos-para-muitos;
b) Redes: os registros são organizados de maneira a manter “apontamentos” uns para
os outros. Como vantagens, possibilita flexibilidade na inserção de novas
estruturas, e pesquisas complexas. Como desvantagem, a dificuldade de mapear
relações entre diferentes conjuntos.
c) Relacionais: apresentam uma estrutura tabular inter-relacionada que contém dados
organizados em conjuntos lógicos. Foi definido formalmente pelo Dr. Codd em
1969. É a tecnologia mais utilizada atualmente, atendendo a praticamente todas as
necessidades de gerenciamento de bases de dados. Como vantagens, pode ser
citada a sua estrutura que evita a redundância de dados, a facilidade na alteração
das estruturas e a alta performance. Como desvantagens, a dificuldade para se
tratar dados complexos (e.g. vídeo, imagens), e a necessidade de grande
capacidade de processamento.
d) Orientados a objetos: ainda são considerados em um estágio de desenvolvimento,
sem que os grandes fornecedores tenham implementado versões puramente
orientadas a objetos para a utilização em sistemas de grande porte. Utiliza
estruturas semelhantes aos bancos hierárquicos, mas oferece recursos como
herança e encapsulamento. Como vantagens, oferecem facilidades para a
implantação de projetos orientados a objetos e tratamento de dados complexos, e
como desvantagem, a necessidade de grande poder de processamento e o grande
volume de informações trafegadas.
2.2.1.6
Conhecimento
O tema conhecimento talvez seja o que mais provoca discussões sobre o seu
entendimento, discussões essas originadas há milênios. Formalmente, o estudo dos
fundamentos filosóficos do conhecimento é chamado epistemologia7. Nonaka e Takeuchi
[NONAK97], estudiosos da gestão do conhecimento, defendem que a resposta para a
7
Epistemologia: Conjunto de conhecimentos que têm por objeto o conhecimento científico, visando a explicar
os seus condicionamentos (sejam eles técnicos, históricos, ou sociais, sejam lógicos, matemáticos, ou
35
pergunta “o que é o conhecimento?” orienta a história da filosofia ocidental desde o período
grego. Esta história, da epistemologia ocidental, divide-se em duas correntes opostas, uma
racionalista e outra empirista, consideradas estas complementares pelos autores acima citados.
a) Racionalismo: afirma ser possível adquirir conhecimento por dedução, através do
raciocínio.
b) Empirismo: afirma ser possível adquirir conhecimento por indução, a partir de
experiências sensoriais.
Segundo Nonaka e Takeuchi, [NONAK97] os racionalistas argumentam que o
verdadeiro conhecimento não é produto da experiência sensorial, mas sim de um processo
mental ideal. Segundo essa visão, existe um conhecimento a priori que não precisa ser
justificado pela experiência sensorial. A verdade absoluta é deduzida a partir de uma
argumentação racional baseada em axiomas. Para os racionalistas os paradigmas de
conhecimento são a matemática e a lógica, onde verdades necessárias são obtidas por intuição
e inferências racionais. Por outro lado, os empiristas alegam não existir conhecimento a priori
e que a única fonte de conhecimento é a experiência sensorial. Por esta visão, todas as pessoas
têm uma existência intrinsecamente objetiva, mesmo quando se tem uma percepção ilusória.
O próprio fato de se perceber alguma coisa já é significativo. O paradigma desta escola é a
ciência natural, onde as observações e os experimentos são cruciais à investigação.
Ambas as correntes da filosofia ocidental convergem para a mesma questão: o
conhecimento pode ser adquirido, é intrínseco ao ser, e depende totalmente da experiência
individual do agente com a questão a ser transformada em conhecimento.
Quando a discussão é voltada para ambientes computacionais, a questão torna-se ainda
mais complexa. Podem as máquinas desenvolver conhecimento? O que é processado é dado,
informação ou conhecimento? Para Valdemar Setzer [SETZE03], conhecimento é “uma
abstração interior, pessoal, de algo que foi experimentado, vivenciado por alguém”. O
conhecimento não poderia ser formalmente descrito, o que pode ser descrito é a informação.
Assim, os computadores não armazenariam nem informação nem conhecimento, mas apenas
dados.
Conhecimento é diferente de informação. Informação existe quando o agente é capaz
de associar conceitos. Conhecimento está relacionado com a experiência do agente em
lingüísticos), sistematizar as suas relações, esclarecer os seus vínculos, e avaliar os seus resultados e aplicações
[FERREI01]
36
determinada situação, seja ela real ou filosófica. A vivência de determinada situação, as
reflexões sobre um tema, associados à experiência anterior constroem novos conhecimentos,
que são intrínsecos ao agente. O conhecimento não pode ser simplesmente transportado de um
agente para outro. Para tal, deve ser convertido em informações, submetido ao outro agente,
que, a partir de suas próprias experiências e conhecimentos anteriores, vai construir mais um
conjunto de novos conhecimentos.
2.2.2 Gestão do Conhecimento
Foi dito anteriormente que conhecimento está relacionado com a experiência do
agente em determinada situação, sendo, assim, intrínseco à pessoa. Portanto, são as pessoas as
legítimas portadoras do conhecimento.
A Gestão do Conhecimento é um tema recente que está sendo tratado com interesse
cada vez maior pelas organizações, empresas, instituições. Como criar conhecimento que
possa ser utilizado pela organização? Como armazenar esse conhecimento, uma vez que
conhecimento é intrínseco à pessoa? Como disseminar o conhecimento já adquirido? São
perguntas que a Gestão do Conhecimento se esforça em responder, com o objetivo de dotar as
organizações de mecanismos que possam permitir uma correta administração de seu capital
intelectual, considerado por muitos autores como o bem mais precioso das organizações
modernas.
2.2.2.1
Conceitos
Alguns conceitos de Gestão do Conhecimento:
Gestão do conhecimento é a construção sistemática, explícita e intencional
do conhecimento e sua aplicação para maximizar a eficiência e o retorno
sobre os ativos de conhecimento da organização [Wiig, 1993 apud
STOLL01].
Gestão do conhecimento é a disponibilização do conhecimento certo para as
pessoas certas, no momento certo, de modo que estas possam tomar as
melhores decisões para a organização [Petrash, 1996 apud STOLL01].
37
Gestão do conhecimento é o processo de busca e organização da expertise
coletiva da organização, em qualquer lugar em que se encontre, e de sua
distribuição para onde houver o maior retorno [Hibbard, 1997 apud
STOLL01].
Gestão do conhecimento é o controle e o gerenciamento explícito do
conhecimento dentro da organização, de forma a atingir seus objetivos
estratégicos [Spek & Spijkevert, 1997 apud STOLL01].
Gestão do conhecimento é a formalização das experiências, conhecimentos e
expertise, de forma que se tornem acessíveis para a organização, e esta possa
criar novas competências, alcançar desempenho superior, estimular a
inovação e criar valor para seus clientes [Beckman, 1999 apud STOLL01].
Assim, a Gestão do Conhecimento se propõe a tratar de questões ligadas à geração, à
catalogação, ao armazenamento e à disseminação de conhecimento que possa ser utilizado
pelas organizações para incrementar seu desempenho, cativar os clientes e conquistar o
mercado.
Neste sentido, as organizações estão procurando estabelecer políticas que permitam
gerar condições para que o conhecimento dos seus membros seja utilizado da melhor maneira
possível como forma de atingir os seus objetivos.
Para tratar deste conhecimento, que as organizações se esforçam a criar, catalogar,
armazenar e disseminar, é importante apresentar algumas distinções. Segundo Nonaka e
Takeuchi [NONAK97], o conhecimento na organização pode ser classificado basicamente em
dois tipos: tácito e explícito:
a) Conhecimento tácito: altamente pessoal e de difícil formalização. É o
conhecimento na sua forma mais original, resultado das experiências do indivíduo,
em conjunto com suas crenças e emoções. Por ser inerente à pessoa, a sua
disseminação é mais complexa, pois não é simples formalizar todo o conjunto de
variáveis envolvidas na construção de determinado conhecimento. Por exemplo:
conclusões, palpites subjetivos, intuição. “O conhecimento tácito é aquele que as
pessoas possuem, mas não está descrito em lugar nenhum” [TEIXE00].
38
b) Conhecimento explícito: formal e sistemático, pode ser expresso em palavras e
números e, portanto, ser mais facilmente disseminado. É o conhecimento que
passou pelo processo de formalização que permite que seja expresso de maneira
estruturada, podendo, assim, ser armazenado artificialmente. Por exemplo: fórmula
matemática, texto científico, procedimentos codificados. “O conhecimento
explícito é aquele que está registrado de alguma forma, e assim disponível para as
demais pessoas” [TEIXE00].
Assim, o conhecimento organizacional pode ser entendido com o conhecimento,
formalizado ou não, que pode ser utilizado pelas organizações para alcançar vantagens
competitivas. Na medida em que as organizações forem eficientes em oferecer condições para
a criação e disseminação deste conhecimento, estará efetivamente caminhando na direção de
galgar posições no mercado.
2.2.2.2
Histórico
Mesmo antes de ser utilizada esta denominação, a Gestão do Conhecimento já existia
nas formas de organização mais primitivas. Quando um caçador estabelecia táticas mais
eficientes para o abate e a captura de animais, e o grupo aprendia com ele, ocorria uma
transferência de conhecimento. Quando o funcionário de um faraó contabilizava os estoques
de grãos do reino, o fazia utilizando o conhecimento da escrita, restrito a poucos. Quando o
artesão medieval ensinava sua técnica a seu filho, transmitia o conhecimento necessário para a
execução das tarefas específicas de seu ofício.
Assim, o conhecimento, e a sua gestão, mesmo que intuitiva, informal e não
estruturada, sempre esteve presente nas atividades humanas. Entretanto, somente nos últimos
anos o assunto está sendo tratado com destaque, pesquisado, formalizado, e aplicado às
organizações. Foi na década passada que alguns autores, como Drucker, Senge, Nonaka e
Takeuchi escreveram sobre “sociedade do conhecimento”, “organizações que aprendem”,
“criação de conhecimento nas organizações”. Este movimento, aliado ao avanço da
Tecnologia da Informação, com a crescente utilização de sistemas gerenciadores de bancos de
dados, da popularização dos computadores, do crescimento da Internet, da popularização do
e-mail, permitiu o desenvolvimento do tema Gestão do Conhecimento.
39
2.2.2.3
A sociedade do conhecimento
Observando o passado recente, percebe-se que profundas transformações ocorreram
no último século, em uma velocidade nunca antes observada. Um acentuado progresso
científico, mudanças profundas no cenário geopolítico mundial, conflitos de proporções
globais, revoluções nas teorias econômicas.
Entretanto, segundo Peter Drucker [DRUCK94], uma importante revolução deste
século se deu de forma quase silenciosa, sem grande alarde, sem grandes manifestações.
Antes da Primeira Guerra Mundial, as atividades agrícolas, pecuárias e pastoris se constituíam
naquelas que envolviam a maior quantidade de pessoas. Assim, o grupo dos fazendeiros podia
ser considerado como o mais numeroso, na grande maioria dos países. As atividades deste
grupo estão diretamente ligadas a terra, neste momento com ênfase no trabalho manual. O
principal fator de produção era a terra.
Outro grande grupo existente no início do século passado era dos trabalhadores
domésticos, formado por pessoas com pouca instrução formal, cujo trabalho era
essencialmente manual.
Entretanto, nos países desenvolvidos, alguns anos após a Primeira Grande Guerra, o
número desses trabalhadores caiu de maneira drástica. Segundo Drucker [DRUCK94], essa
mudança se deu de forma relativamente pacífica e silenciosa. Ocorreu uma migração de mãode-obra anteriormente ocupada com o trabalho nos campos, e da mão-de-obra doméstica, para
atividades industriais.
Mas esse trabalhador da indústria era responsável por atividades pouco complexas,
com baixa exigência de instrução formal. O trabalho continuava essencialmente manual, com
tarefas repetitivas e de pouca elaboração mental. O principal fator de produção era o capital.
No fim do século passado, o mesmo processo de redução de número de empregos
acometeu o trabalhador da indústria. A crescente automatização e incrementos de
produtividade acabaram por eliminar a maioria dos postos de trabalho neste segmento da
economia. O trabalho torna-se cada vez mais elaborado, exigindo maior instrução formal.
Assim, neste último século, os meios de produção sofreram sucessivas revoluções. Se
há pouco mais de cem anos a grande maioria dos trabalhadores concentrava-se na produção
agrícola, pecuária e pastoril e no trabalho doméstico, em poucos anos esse massa migrou para
o trabalho industrial – ainda pouco elaborado, repetitivo e pouco exigente do ponto de vista
intelectual.
40
Pouco tempo também foi necessário para que esse tipo de trabalhador da indústria
fosse substituído por maquinário, no crescente processo de automatização das plantas de
fábrica. Nestas últimas décadas o espaço para o trabalhador braçal está sendo visivelmente
reduzido.
Neste contexto, surge a figura do trabalhador do conhecimento. Para atender aos
desafios de aumento de produtividade e redução de custos das organizações, é fundamental a
presença de um novo perfil de trabalhador: um indivíduo com considerável educação formal,
com alta capacidade de aprendizado, com capacidade de autogestão. Este trabalhador passa do
mero executor de tarefas para o trabalhador do conhecimento, deixa de ter seu ritmo ditado
pela máquina e passa a estabelecer a sua própria lógica de trabalho.
Entretanto, a passagem do trabalho industrial para o trabalho com o conhecimento não
é uma tarefa fácil. Ao contrário do que ocorreu nas transformações anteriores, onde a
necessidade de educação formal não era acentuada, permitindo que indivíduos originados do
campo e de trabalhos domésticos pudessem com certa facilidade desenvolver as tarefas
necessárias nas plataformas industriais, a passagem para a nova realidade exige uma apurada
educação formal. Além disso, habilidades manuais ainda são necessárias. Um operário deve
ser capaz de operar uma máquina complexa, o que exige conhecimento técnico e habilidade
manual. Drucker cita como exemplo o neurocirurgião, que é um profissional que necessita de
uma excelente educação formal, obtida através de entidades educacionais de alto nível, mas
que não pode abrir mão das habilidades manuais, sem as quais torna-se desqualificado
profissionalmente.
Este trabalhador do conhecimento atua em empresas e organizações que estão
descobrindo a necessidade de se gerenciar esse conhecimento. Vários autores citam o
conhecimento como o fator de produção mais importante deste novo mundo.
A terra, o capital e o trabalho – os tradicionais fatores de produção, passam a ter um
papel secundário diante do conhecimento [DRUCK94].
Já Toffler [TOFFL94] anuncia que o conhecimento é fundamental para a obtenção do
poder, notadamente do poder de mais alta qualidade, e que o conhecimento é também fator
crítico para a mudança de poder. O autor defende que o conhecimento deixou de ser um de
mero auxiliar dos poderes financeiros e administrativos, tornando-se a própria essência destes
poderes. Assim, o poder econômico e de produção de uma empresa moderna é conseguido
muito mais em função das capacidades intelectuais de seus membros do que em função de
seus ativos imobilizados – terra, instalações, capital financeiro, equipamento. Segundo Quinn:
41
O valor da maioria dos produtos e serviços depende principalmente de como
os fatores intangíveis baseados no conhecimento podem ser desenvolvidos
[Quinn, apud NONAK97].
Podem ser citados diversos exemplos onde o conhecimento é utilizado para aumentar
o valor agregado dos produtos de uma determinada organização. Atualmente, uma lata de
alumínio para o acondicionamento de líquidos é aproximadamente 80% mais fina que suas
antecessoras, utilizando, assim, menos matéria prima, reduzindo o gasto de energia na sua
produção, incrementando a sua eficiência. Assim, pode-se considerar que estes resultados
financeiros oriundos da produção deste tipo de recipiente são 80% incrementados pela
utilização de conhecimento.
Outro exemplo: atualmente, países como os Estados Unidos da América são grandes
produtores de grãos. A produção de alimentos nos países desenvolvidos cresceu muito, mas a
quantidade de mão-de-obra envolvida neste processo foi drasticamente reduzida. Este
crescimento de produção e produtividade se deve basicamente pela utilização de
conhecimento, desde a produção das sementes, das técnicas de preparação do solo, do
maquinário utilizado nas fases de produção, às técnicas de administração e gerenciamento
destas empresas. A utilização de conhecimento tem permitido um grande incremento na
produção agrícola destes países, mesmo com a utilização decrescente de mão-de-obra.
Assim, a Gestão do Conhecimento passa a ser um tema de crescente importância para
as organizações que desejam, através de uma utilização cada vez mais eficiente de seu capital
intelectual, obter vantagens competitivas.
2.2.2.4
Gestão do Conhecimento e Tecnologia da Informação
A Gestão do Conhecimento é um tema novo, tratado principalmente no domínio da
Administração.
Ainda assim, apesar desta afinidade inicial com a área de Administração, a Gestão do
Conhecimento está intimamente ligada à utilização de recursos computacionais e tecnológicos
para sua implementação. Assim, a Tecnologia da Informação tem muito a contribuir com o
desenvolvimento, com a implementação e com a disseminação da Gestão do Conhecimento.
Neste contexto, pode-se dizer que a Gestão do Conhecimento não é uma extensão da
Tecnologia da Informação, conforme muitas vezes pode se dar a entender, mas sim que
Tecnologia da Informação é uma importante ferramenta na construção da Gestão do
42
Conhecimento. Alguns autores afirmam, inclusive, que não é possível construir a Gestão do
Conhecimento sem a utilização intensiva da Tecnologia da Informação.
Segundo Jayme Teixeira:
O desafio para a área da Tecnologia da Informação passa a ser migrar de
uma posição de suporte a processos para o suporte a competências
[TEIXE00].
Assim, a Tecnologia da Informação precisa expandir sua atuação. Além de cuidar do
processamento de transações, armazenamento de dados, comunicação entre processos, é
necessário agora viabilizar recursos computacionais que possibilitem uma maior integração
entre as pessoas, com a construção de novas formas de comunicação, de conversação e de
aprendizado, com o desenvolvimento de comunidades virtuais, com estruturação,
armazenamento e recuperação de idéias e experiências.
Para tal, a organização necessita de [TEIXE00]:
a) Uma nova arquitetura de informação que inclua novas linguagens, categorias e
metáforas para identificar e promover perfis e competências.
b) Uma nova arquitetura tecnológica que seja mais social, aberta, flexível, que
respeite e atenda às necessidades individuais e que dê poder aos usuários.
c) Uma nova arquitetura de aplicações orientada mais à solução de problemas e à
representação do conhecimento, do que somente voltada a transações e
informações.
Assim, a ênfase de utilização da Tecnologia da Informação pela Gestão do
Conhecimento busca a integração entre as pessoas, utilizando para tal recursos tecnológicos e
computacionais que facilitem a criação, o armazenamento e a disseminação de conhecimento.
Isto pode ser alcançado através de duas linhas de ação principais:
a) Sistemas para a criação de bases de conhecimento: a ênfase neste caso é a
utilização de recursos computacionais para facilitar a criação de conhecimento
organizacional e seu armazenamento, para posterior disponibilização e consulta.
Neste caso, técnicas de criação e disseminação de conhecimento devem ser
utilizadas.
b) Sistemas de comunicação: neste caso, a ênfase é a construção de sistemas e bases
de dados que permitam o estabelecimento de comunicação rápida e eficaz entre os
portadores do conhecimento. Dada a dificuldade de se transformar conhecimento
43
tácito em conhecimento explícito, muitas vezes é mais produtivo colocar os
profissionais interessados em contato, para que possam resolver os problemas em
questão, que tentar extrair o conhecimento tácito, transformá-lo em explícito e
disseminá-lo. Deve ficar bem claro, entretanto, que esta linha de ação não invalida
a anterior, e a recíproca é verdadeira.
Assim, ambas as linhas acima podem ser desenvolvidas de maneira concomitante e
complementar, sendo que cada uma delas é importante para a construção da Gestão do
Conhecimento.
Além disso, a Tecnologia da Informação pode fornecer importantes ferramentas para a
descoberta e criação de conhecimento. Aproveitando as grandes bases de dados que foram e
estão sendo criadas, em função da utilização crescente de sistemas informatizados pelas
organizações, a Tecnologia da Informação, através da Descoberta de Conhecimento em Bases
de Dados, pode contribuir efetivamente na etapa de criação do conhecimento.
2.2.2.5
Modelos
Empresas e pesquisadores têm trabalhado para elaborar modelos de Gestão do
Conhecimento que possam ser utilizados para definir, de maneira estruturada, as atividades
necessárias para a implantação dos processos adequados para a este tipo de gestão.
Diante destes diversos modelos existentes, alguns autores se dedicaram a estudá-los,
com o objetivo de identificar pontos comuns e propor um modelo mais genérico.
Rubestein-Montano [RUBESTEIN-MONTANO et al. apud FERREI03] avaliaram
vários modelos, e identificaram os itens que mais se fizeram presentes em cada um deles. A
tabela abaixo apresenta um resumo dos modelos estudados e suas principais características:
Tabela 1: Modelos de GC [RUBESTEIN-MONTANO at al. apud FERREI03].
Modelos de GC
Descrição
American Management (1) Encontrar [criar centros de conhecimento], (2) Organizar [motivar
Systems
e conhecer pessoas] e (3) Compartilhar
Arthur Andersen
(1) Avaliar, (2) Definir o papel do conhecimento, (3) Criar uma
Consulting
estratégia de conhecimento ligada aos objetivos do negócio, (4)
Identificar processos, culturas e tecnologias necessárias para a
implementação de uma estratégia de conhecimento e (5)
44
Modelos de GC
Descrição
Implementação de mecanismo de realimentação.
Andersen Consulting
(1) Adquirir, (2) Criar, (3) Sintetizar, (4) Compartilhar, (5) Usar para
alcançar objetivos organizacionais,
(6) Ambiente que facilita o compartilhamento do conhecimento
Dataware Technologies (1) Identificar o problema do negócio, (2) Preparar para mudança, (3)
Criar a equipe de gestão do conhecimento, (4) Realizar auditoria e
análise do conhecimento, (5) Definir as características chaves da
solução, (6) Implementar atividades integrantes da gestão do
conhecimento (7) Ligar o conhecimento às pessoas
Buckley and Carter
Método de processo de negócios para gestão do conhecimento [não
Centre for International existe metodologia formal mas processos chaves do conhecimento são
Business, University of
identificados]: (1) Características do conhecimento, (2) Valor
Leeds
adicionado da combinação de conhecimento, (3) Participantes, (4)
Métodos de transferência do conhecimento, (5) controle e (6)
execução
The Delphi Group
Não publicaram detalhes de uma metodologia, mas as seguintes
questões são tratadas: (1) Conceitos chaves e estruturas para gestão do
conhecimento, (2) Como usar gestão do conhecimento como uma
ferramenta competitiva, (3) Aspectos culturais e organizacionais da
gestão do conhecimento, (4) Melhores práticas na gestão do
conhecimento, (5) A tecnologia da gestão do conhecimento, (6)
Análise de mercado,
(7) Justificação da gestão do conhecimento e (8) Implementação da
gestão do conhecimento.
Ernst & Young
(1) Geração do conhecimento, (2) Representação do conhecimento,
(3) Codificação do conhecimento e
(4) Aplicação do conhecimento.
Holsapple and Joshi
(1) Aquisição do conhecimento [inclui extração, interpretação e
Kentucky Initiative for
transferência], (2) Seleção do conhecimento [inclui localização,
Knowledge Management recuperação e transferência] , (3) Internalização do conhecimento
[inclui avaliação, focalização do alvo e depósito], (4) Uso de
conhecimento, (5) Geração de conhecimento [inclui monitoração,
45
Modelos de GC
Descrição
avaliação, produção e transferência] e (6) Externalização do
conhecimento [inclui focalização do alvo, Produção e Transferência]
Holsapple and Joshi
(1) Influências gerenciais [inclui liderança, coordenação, controle,
medida], (2) Influência de recursos [inclui humano, conhecimento,
financeiro, material] , (3) Influências do ambiente [inclui costumes,
mercador, competidores, tecnologia, equipe, clima] , (4) Atividades
[inclui aquisição, seleção, internalização, uso], (5) Aprendizado e
projeção como resultados.
Knowledge Associates
(1) Adquirir, (2) Desenvolver, (3) Reter e (4) Compartilhar
The Knowledge Research (1) Fazer levantamento do conhecimento existente, (2) Criar novos
Institute
conhecimentos, (3) Capturar e armazenar conhecimento, (4)
Organizar e transformar conhecimento e (5) Desenvolver
conhecimento.
Liebowitz
(1) Transformar informação em conhecimento, (2) Identificar e
verificar conhecimentos, (3) Capturar e adquirir conhecimento, (4)
Organizar conhecimento, (5) Recuperar e aplicar conhecimento, (6)
Combinar conhecimento, (7) Aprender conhecimento, (8) Criar
conhecimento [retornar para (3)] e (9) Distribuir/Vender
conhecimento.
Liebowitz and Beckman (1) Identificar [Determinar as competências principais, estratégia de
obtenção e domínio de conhecimento], (2) Capturar [Formalizar
conhecimento existente], (3) Selecionar [Avaliar relevância do
conhecimento, valor e precisão e resolver conflitos entre
conhecimentos], (4) Armazenar [Representar a memória corporativa
em repositório de conhecimento], (5) Compartilhar [Distribuir
conhecimentos automaticamente para os usuários baseado no interesse
e trabalho e colaborar com o trabalho de conhecimento através de
equipes virtuais], (6) Aplicar [Recuperar e usar conhecimento para
tomar decisões, solucionar problemas, automatizar ou apoiar trabalhos
e treinamentos], (7) Criar [Descobrir novos conhecimentos através de
pesquisas, experimentação, ou pensamento criativo] e (8) Vender
[Desenvolver e comercializar novos produtos e serviços baseados no
conhecimento]
46
Modelos de GC
Descrição
Marquardt
(1) Aquisição, (2) Criação, (3) Transferência e utilização e (4)
Armazenamento
Monsanto Company
Não existe metodologia de gestão do conhecimento formal: Uso de
mapa de aprendizado, mapa de valores, mapas de informação, mapas
de conhecimento, medidas e mapas de tecnologia da informação.
The Mutual Group
Estrutura do capital: (1) Coletar informação [construção de
infraestrutura explicita de conhecimento], (2) Aprender
[desenvolvimento de conhecimento tácito], (3) Transferir e (4) Agir
[desenvolvimento de capacidade através de desenvolvimento de
valores]
The National Technical (1) Contexto [geração de conhecimento], (2) Objetivos da gestão do
University of Athens,
conhecimento [organização do conhecimento], (3) Estratégia
Greece
[desenvolvimento e distribuição de conhecimento] e (4) Cultura
O’Dell American
(1) Identificar, (2) Coletar, (3) Adaptar, (4) Organizar, (5) Aplicar, (6)
Productivity and Quality Compartilhar e (7) Criar
Center
PriceWaterhouse
(1) Encontrar, (2) Filtrar [por relevância], (3) Formatar [para o
Coopers
problema], (4) Transferir para as pessoas certas e (5)
Realimentação/Avaliação feita pelos usuários
Ruggles
(1) Geração [inclui criação, aquisição, síntese, fusão, adaptação], (2)
Codificação [inclui captura e representação] e (3) Transferência
Skandia
Universal Networking Intellectual Capital: Enfatiza (1) Transmissão e
compartilhamento do conhecimento, (2) Navegação pelo
conhecimento pelas equipes de projetos, (3) Instrumentos de trabalho
de desenvolvimento do capital intelectual
Van der Spek and de
(1) Conceituar [inclui fazer um inventário do conhecimento existente
Hoog
e analisar os pontos fortes e fracos], (2) Refletir [inclui tomar
decisões sobre as melhorias requeridas e fazer planos para melhorar o
processo] , (3) Agir [inclui adquirir conhecimento, combinar
conhecimento, distribuir conhecimento e desenvolver conhecimento]
e (4) Revisar [inclui comparar situações velhas e novas e avaliar
resultados alcançados]
Van der Spek and
(1) Desenvolvimento de novos conhecimentos, (2) Aquisição de
47
Modelos de GC
Descrição
Spijkervet
conhecimentos novos e existentes, (3) Distribuição de conhecimento e
(4) Combinação de conhecimentos disponíveis
Van Heijst et al. CIBIT, (1) Desenvolvimento [criação de novas idéias, análise de falhas e
exame de experiência atuais], (2) Consolidação [armazenamento de
Netherlands
conhecimentos individuais, avaliação e indexação] , (3) Distribuição
[informação de usuários] e (4) Combinação [combinação de
informações muito diferentes e aumento de acesso para distribuir
dados]
Aplicar a metodologia CommonKADS para a GC: (1) Conceituar
Wielinga et al.
University of Amsterdam [identificar/resumir, representar, classificar], (2) Refletir [modelos de
desenvolvimento e criação de conhecimento, modelos para
identificação de fontes de conhecimento e resultados] e (3) Agir
[combinar e consolidar conhecimento, integrar conhecimento,
desenvolver e distribuir conhecimento]
(1) Criação e obtenção (2) Compilação e transformação, (3)
Wiig
Disseminação e aplicação e (4) Compreensão do valor
A partir da relação acima, os autores relacionaram os principais itens que foram
tratados por cada um dos modelos. A tabela abaixo mostra os principais processos do
conhecimento e o total de modelos em que são citados.
Tabela 2: Processos do Conhecimento [FERREI03].
PROCESSO DO CONHECIMENTO
N° DE MODELOS
Aquisição de conhecimento
15
Geração de conhecimento
15
Compartilhamento de conhecimento
13
Uso de conhecimento
11
Identificação do conhecimento
6
Armazenamento do conhecimento
5
Realimentação (feedback)
5
Aprendizado
4
48
PROCESSO DO CONHECIMENTO
N° DE MODELOS
Organização do conhecimento
4
Aprendizado
4
Organização
4
Codificação
3
Filtragem
3
Avaliação
2
Os destaques são para os processos Aquisição de Conhecimento, Geração de
Conhecimento, Compartilhamento de Conhecimento e Uso do Conhecimento, que tiveram
referência em mais de dez modelos.
Estes processos também foram identificados pela pesquisadora Maria de Fátima
Stollenwerk que, em seu modelo de Gestão de Conhecimento, procura “compor um modelo
genérico que melhor caracterize a conceituação, importância e a aplicabilidade da Gestão do
Conhecimento a processos intensivos em conhecimento nas organizações” [STOLL01].
Com base em um estudo de diversos modelos de Gestão do Conhecimento e
Planejamento Estratégico, buscou-se agrupar os processos por afinidade de conceitos. A partir
da análise comparativa dos modelos, foram identificadas idéias básicas presentes em todos
eles, embora existam particularidades e contribuições específicas em cada um deles.
Foram então identificados sete processos principais e, a partir deles, a autora definiu
um modelo genérico de Gestão do Conhecimento. Os referidos processos estão relacionados
abaixo:
a) Identificação das competências críticas
b) Captura e aquisição de conhecimento
c) Seleção e validação do conhecimento
d) Organização e armazenagem
e) Compartilhamento
f) Aplicação
g) Criação
49
Identificação das competências críticas
É o primeiro processo do modelo genérico de Gestão do Conhecimento, e está
relacionado a questões estratégicas, como identificar quais são as competências realmente
importantes para o sucesso da organização.
Quando a organização definir quais são seus objetivos, e quais estratégias deverão ser
utilizadas para que esses objetivos sejam atingidos, faz-se necessário identificar as
competências críticas necessárias para que estas estratégias sejam realmente implementadas.
A partir da identificação destas competências, devem-se relacionar quais são as áreas
de conhecimento que devem apoiar cada uma delas. Assim, podem ser identificados em quais
aspectos a organização já possui o conhecimento necessário para sustentar as respectivas
competências, e em quais a organização precisa adquirir, seja desenvolvendo internamente ou
não. O processo de identificação inclui:
a) Criação de agenda de competências essenciais
b) Identificação das lacunas entre competências existentes e necessárias;
c) Desdobramento dessas competências nas áreas de conhecimento (mapeamento de
conhecimento);
d) Identificação de fontes internas e externas de conhecimento;
e) Proposição de soluções para redução da distância entre competências existentes e
necessárias.
Captura e aquisição de conhecimento
O processo de captura representa a aquisição de conhecimento, habilidades e
experiências necessárias para criar e manter as competências essenciais e
áreas de conhecimento mapeadas [STOLL01].
É importante conhecer as fontes internas e externas de conhecimento disponíveis para
a organização, com o objetivo de se obter conhecimento útil destas fontes. Entre as fontes
internas, podem ser citadas: especialistas, profissionais experientes, clientes e fornecedores
internos, sistemas de gestão da organização, treinamento interno e documentação de
processos. Como fontes externas, podem ser relacionadas: consultorias, sistemas especialistas,
bancos de dados comerciais, publicações, conferências e congressos [STOLL01].
Segundo Stollenwerk, as etapas deste processo são:
50
a) Identificação de fontes internas e externas para sua explicitação;
b) Seleção das estratégias de aquisição;
c) Aquisição, formalização e recuperação do conhecimento.
Seleção e avaliação
O processo de seleção e avaliação, segundo Stollenwerk, “visam a filtrar o
conhecimento, avaliar sua qualidade e sintetizá-lo para fins de aplicação futura” [STOLL01].
Isto é necessário para se evitar que sejam armazenados pela organização itens de
conhecimento não úteis, desnecessários ou fora do contexto dos objetivos a serem alcançados.
Para tal, é necessário avaliar questões como a relevância do conhecimento e sua
veracidade ou confiabilidade. Também é necessário o estabelecimento de visões múltiplas
para casos de conhecimentos conflitantes, para se evitar que ocorram discrepâncias entre o
que foi obtido, mas evitando-se descartar conhecimentos eventualmente importantes para a
organização.
Organização e armazenagem
Uma vez identificados os itens de conhecimento úteis para a organização, é importante
que sejam armazenados de maneira a preservá-los, bem como possibilitar uma recuperação
rápida, fácil e correta. Isto pode ser obtido pela utilização de ferramentas da Tecnologia da
Informação.
Para tal, é necessário que o conhecimento seja formalizado, e quanto mais esta
formalização for eficiente, mais qualidade terá a informação armazenada.
Segundo Stollenwerk, as etapas deste processo são:
a) Classificação do conhecimento já validado;
b) Definição da arquitetura da Tecnologia da Informação e das ferramentas de
gerenciamento da informação;
c) Criação e gerenciamento dos bancos de dados para atuar como repositórios do
conhecimento.
Compartilhamento
51
Para que a organização possa se beneficiar do conhecimento organizacional, este deve
estar disponível para o acesso de seus membros, de maneira que possa ser facilmente obtido,
independentemente do horário e da localização dos mesmos. Assim, a Tecnologia da
Informação se constitui novamente em uma ferramenta para a implementação de processos de
armazenamento e comunicação do conhecimento. Para tal, o conhecimento deve ser altamente
formalizado e organizado para um armazenamento eletrônico eficaz e uma disseminação
facilitada.
Segundo Beckman & Liebowitz, “o uso da tecnologia é vital para a disponibilização e
compartilhamento de conhecimento em larga escala, tornando-o disponível em qualquer parte,
a qualquer tempo e em qualquer formato” [Beckman 1998 apud STOLL01].
As etapas deste processo são:
a) Identificação das necessidades de informação e de conhecimento da organização;
b) Criação de mecanismos eficazes de recuperação e disseminação do conhecimento;
c) Capacitação dos usuários em ferramentas para a recuperação do conhecimento;
d) Disseminação automática do conhecimento em tempo hábil.
Aplicação
O processo de aplicação do conhecimento consiste na utilização real e prática do
conhecimento formalizado, armazenado e disponibilizado, de maneira a produzir melhoria de
desempenho e viabilizar que os objetivos da organização sejam alcançados.
As etapas deste processo são:
a) Aplicação do conhecimento em processos decisórios, de inovação, operacionais e
de aprendizagem;
b) Registro das lições aprendidas e dos ganhos obtidos com a utilização do
conhecimento.
Criação
O processo de criação de um novo conhecimento envolve as seguintes
dimensões:
aprendizagem,
externalização
do
conhecimento,
lições
aprendidas, pensamento criativo, pesquisa, experimentações, descoberta e
inovação [STOLL01].
52
Para a organização que deseja efetivamente gerar conhecimento novo, é necessário
fomentar a comunicação entre os seus membros, bem como entre seus membros e fontes
exteriores de conhecimento. Deve ser criado um ambiente propício para a geração e
disseminação do conhecimento.
Stollenwerk enumera as principais fontes para criação de novos conhecimentos:
a) Auto-aprendizagem
b) Aprendizagem por meio de especialistas
c) Relacionamento com clientes, fornecedores e concorrentes
d) Aprendizagem por meio da experimentação
e) Adoção do pensamento sistêmico e criativo
Este processo de criação do conhecimento foi amplamente explorado por Nonaka e
Takeuchi [NONAK97]. Segundo eles, o processo de criação do conhecimento organizacional
passa pelo compartilhamento do conhecimento tácito, com o objetivo de disseminar
experiências individuais pela organização. A seguir, o conhecimento tácito compartilhado
deve ser formalizado, convertendo-se assim em conhecimento explícito. Este conhecimento
deve ser então justificado, ou seja, a organização vai definir se este novo conhecimento é útil
e deve passar a fazer parte do conhecimento organizacional. Se for declarado útil, este
conhecimento deve ser convertido em um arquétipo, e posteriormente desenvolvido.
Finalmente, o conhecimento gerado deve ser disseminado pela organização e, em alguns
casos até fora dela.
Além destes processos, Stollenwerk identificou ainda alguns fatores que atuam como
facilitadores da Gestão do Conhecimento:
a) Liderança: que exerce um papel crucial no processo de gestão do conhecimento,
com o aval, compromisso e o direcionamento da alta direção.
b) Cultura organizacional: permite que a organização atue com alto desempenho,
foco no cliente, foco em excelência, pró-atividade, visão de futuro.
c) Tecnologia: fornece as ferramentas para o compartilhamento do conhecimento
adquirido.
d) Medição e recompensa: utilizada para incrementar a receptividade, o apoio e o
comprometimento com a organização do conhecimento.
53
A seguir, uma representação gráfica das diversas relações dos componentes do modelo
genérico de Gestão do Conhecimento proposto por Stollenwerk:
Figura 3: Modelo genérico do GC [STOLL01 apud SOUSA03]
2.3 Descoberta de Conhecimento em Bases de Dados
Os avanços obtidos com a utilização de computadores em praticamente todas as
atividades humanas estão provocando a construção de grandes bases de dados, armazenando
informações relacionadas aos assuntos os mais diversos possíveis. Atualmente, não é
incomum a ocorrência de sistemas de informação que mantenham vários terabytes de espaço
ocupado.
A Petrobrás, por exemplo, nas atividades de identificação geológica de terrenos para a
detecção de petróleo, armazena um grande volume de dados em sistemas envolvendo
mainframes e grandes equipamentos de storage8 [GRECO02]. A americana Wal-Mart
manipula mais de vinte milhões de transações por dia, gerando uma quantidade proporcional
8
Storage: unidades de armazenamento magnético para grandes volumes de dados, normalmente compartilhados
por diversos computadores.
54
de dados armazenados [BABCO94 apud FAYYA96, p. 02]. Projetos de pesquisa, como o
Projeto Genoma, têm suas atividades diretamente ligadas à manipulação de uma quantidade
muito grande de dados.
Segundo Usama Fayyad, possibilidades tradicionais de manipulação, como planilhas e
consultas ad-hoc, não são mais suficientes para o processamento de pesquisas em grandes
bases de dados. “Estes métodos podem criar relatórios sobre os dados, mas não conseguem
analisá-los para destacar conhecimentos importantes” [FAYYA96].
Assim, buscando-se novas soluções no sentido de se obter conhecimento a partir de
bases de dados de grande volume, surgiu este novo campo de conhecimento denominado
Descoberta de Conhecimento em Bases de Dados (DCBD), do inglês Knowledge Discovering
in Databases (KDD).
2.3.1 Conceito
Segundo Fayyad [FAYYA96]:
Descoberta de Conhecimento em Bases de Dados é o processo não trivial de
identificar, em dados, padrões válidos, novos e potencialmente úteis.
O processo de Descoberta de Conhecimento em Bases de Dados utiliza diversos
algoritmos que processam os dados e encontram esses "padrões válidos, novos e
potencialmente úteis". Entretanto, embora os algoritmos atuais sejam capazes de descobrir
padrões "válidos e novos", ainda não existe uma solução eficaz para determinar padrões
“potencialmente úteis”.
Assim, DCBD ainda requer uma interação muito forte com analistas humanos, que
são, em última instância, os principais responsáveis pela determinação do valor dos padrões
encontrados. Além disso, a condução do direcionamento da exploração de dados é também
tarefa fundamentalmente confiada a analistas humanos.
2.3.2 Histórico
O processo de se procurar padrões úteis em bases de dados antecede a era dos
computadores. Desde que o homem passou a registrar informações de maneira sistemática,
existiram aqueles que utilizavam estas informações registradas para a obtenção de
conhecimentos não necessariamente imaginados por quem as registrou.
55
Entretanto, somente com o advento do armazenamento eletrônico de dados surgiu a
necessidade de novos mecanismos para a identificação de padrões que possam ser utilizados
como geradores de conhecimento a partir de bases de dados. A crescente utilização de
técnicas de reconhecimento de padrões e buscas em bases de dados eletrônicas deu origem ao
primeiro workshop sobre o processo de DCBD, em 1989. A partir deste evento, foram
realizados outros workshops em 1991, 1993 e 1994. Em 1995, foi realizado em Montreal,
Canadá, a Primeira Conferência Nacional de Prospecção e Mineração de Dados, evento que
ocorreu durante a Décima Quarta Conferência Internacional de Inteligência Artificial
[AMARA01].
2.3.3 Etapas
O termo DCBD muitas vezes é entendido como Mineração de Dados, o que gera uma
certa confusão na definição da abrangência de cada um destes temas. De maneira geral, podese dizer que Mineração de Dados é uma das fases do DCBD, talvez a fase mais importante,
mas Mineração de Dados não é sinônimo de DCBD.
O termo Mineração de Dados se refere especificamente à execução de algoritmos de
reconhecimento de padrões sobre uma base de dados anteriormente preparada. O resultado
deste processamento deve ser então avaliado, e identificados eventuais padrões que podem se
tornar úteis para a aquisição de conhecimento.
O processo de DCBD é mais abrangente, considera a origem dos dados, a sua
formatação inicial, a sua qualidade, a necessidade de pré-processamento dos dados, o contexto
onde estes estão inseridos, a definição dos métodos mais adequados de Mineração de Dados,
a avaliação dos eventuais padrões obtidos e a sua utilidade na geração de conhecimento sobre
a base de dados original. É também cíclico, devendo ser repetido tantas vezes quanto for
necessário para a obtenção de resultados satisfatórios.
Segundo Usama Fayyad, “DCBD é um processo interativo e repetitivo, envolvendo
numerosos passos com muitas decisões tomadas pelo usuário” [FAYYA96].
A figura a seguir identifica as principais etapas do processo de DCBD.
56
Figura 4: Principais etapas do processo de DCBD
2.3.3.1
Seleção
Já foi mencionado que a utilização dos sistemas computacionais tem gerado um
grande volume de dados armazenados. O processo de DCBD tem início na definição do
universo de dados que deverá ser utilizado para a execução do trabalho. Esta é uma etapa
fundamental para todo o processo. Na maioria dos casos, os sistemas armazenam os dados em
tabelas com dezenas de colunas, sendo que nem todas podem ser necessárias para a análise
em questão. Assim, faz-se necessário estabelecer qual o conjunto de dados deve ser utilizado,
executando-se um criterioso trabalho de análise das tabelas e seus atributos, dos seus
relacionamentos e conteúdo. Devem ser identificadas as colunas que realmente agregam
informações ao conjunto de dados.
A qualidade dos dados armazenada deve ser constantemente verificada. Os resultados
finais serão positivos de forma diretamente proporcional à qualidade dos dados inicialmente
selecionados. Em muitos casos, o processo de DCBD gera uma completa revisão nos sistemas
responsáveis pela aquisição e manutenção da base de dados. Quanto maior a qualidade dos
dados armazenados, sua integridade e completeza, mais facilitadas serão as etapas posteriores
do processo de DCBD.
Entretanto, deve-se ter em mente que a identificação de padrões ainda é muito
dependente da decisão de analistas humanos, e do seu conhecimento do assunto que estará
sendo pesquisado. Uma coluna não selecionada nesta fase pode ser exatamente a que contém
as informações mais importantes para o resultado final. Daí a afirmação de que DCBD deve
57
ser um processo cíclico, executado tantas vezes quanto for necessário para a obtenção de
conhecimento a partir da base de dados investigada. Os sucessivos aprimoramentos do
conjunto de dados tratado, e o constante aprendizado dos analistas a partir da manipulação da
base de dados podem propiciar um resultado final satisfatório.
2.3.3.2
Pré-processamento
Selecionado o conjunto de dados que será utilizado para o trabalho de descoberta de
conhecimento, pode ser necessário efetuar atividades de pré-processamento no sentido de
permitir, e muitas vezes viabilizar, as etapas posteriores. Quanto maior a quantidade de
colunas utilizadas, maior a complexidade dos processos de Mineração de Dados posteriores.
Uma quantidade muito grande de colunas pode inclusive inviabilizar o trabalho de mineração,
uma vez que os recursos computacionais podem não ser suficientes para processar toda a
coleção de dados selecionados.
Outra questão importante é a existência de ruídos nos dados de entrada. Por mais que a
engenharia de software venha se desenvolvendo, não necessariamente os sistemas são
construídos seguindo o rigor metodológico necessário para a criação de aplicativos que
primem pela qualidade dos dados armazenados. É muito comum encontrar-se inconsistências,
colunas vazias, valores indevidos. A existência de ruídos pode causar problemas como a
geração de padrões distorcidos, e posteriormente, a utilização destes padrões na manipulação
da base completa [AMARA01].
Assim, uma das atividades desta etapa é a limpeza dos dados a serem utilizados no
processo, para evitar, ou minimizar a ocorrência de ruídos.
Segundo Fernanda Amaral, “a limpeza de dados é, na realidade, um processo
ambíguo” [AMARA01]. Corre-se sempre o risco de se confundir um fenômeno interessante
do ponto de vista de geração de padrões de comportamento com um erro de entrada. Por
exemplo, campos vazios podem ser interpretados como erro de entrada de dados, quando, na
realidade, podem se constituir em um fenômeno determinante de um certo comportamento.
Também nesta fase devem ser tratadas questões referentes a dados necessários
inexistentes ou incompletos. Pode ser que o conjunto disponível não disponha de informações
suficientes para o trabalho a ser realizado. Neste caso, devem ser utilizadas técnicas de coleta
e complementação dos dados, e decididas as estratégias a serem adotadas no tratamento dos
dados irremediavelmente perdidos [FAYYA96].
58
2.3.3.3
Transformação
Para que seja produtivo o processo de obtenção de padrões, uma série de modificações
dos dados das tabelas de origem podem ser implementadas. Atributos redundantes devem ser
eliminados, evitando-se assim desperdício de recursos com o processamento de dados não
relevantes.
A padronização de variáveis também é necessária, para evitar erros de interpretação e
desvio na obtenção dos padrões. Por exemplo, uma determinada coluna pode ter como
domínio o conjunto {1, 2, 3} representando, respectivamente, “ensino fundamental”, “ensino
médio”, “ensino superior”. Outra coluna pode ter os valores {F, M, S}, para representar o
mesmo conjunto “ensino fundamental”, “ensino médio”, “ensino superior”. Assim, faz-se
necessário definir um único padrão para a representação deste conjunto de valores, alterando
as tabelas para representá-lo de maneira consistente.
Usama Fayyad propõe ainda, para esta fase, a utilização de técnicas para a redução de
dados e para a projeção [FAYYA96]. Este passo envolve transformação dos dados dentro de
formas mais apropriadas para os métodos de Mineração de Dados. Estas transformações
podem incluir reduções de passos de dimensionalidade - substituindo alguns campos com um
campo derivado - ou redução de dados - mapeando múltiplos registros para uma simples
entidade e derivando os resultados dentro de conjuntos de registros. Também podem ser
adicionados novos registros julgados relevantes para o problema.
2.3.3.4
Mineração de Dados
Esta é a etapa onde é realizado o processo de descoberta de padrões propriamente dito.
Com a utilização de algoritmos específicos, os dados que foram previamente selecionados,
pré-processados, transformados, passam por várias iterações até que sejam descobertos
padrões de relacionamento, agrupamentos, tipos de comportamento. Por ser considerada uma
das etapas mais importantes do processo de Descoberta de Conhecimento, este item será
detalhado em seção posterior .
2.3.3.5
Interpretação e Avaliação
Os resultados da etapa de Mineração de Dados devem ser examinados e interpretados
por pessoas que conheçam profundamente o negócio, para que sejam identificados como
padrões úteis ou não. Os especialistas no negócio são as pessoas indicadas para avaliar os
produtos da etapa de mineração, são os responsáveis por verificar a oportunidade de utilização
59
das informações obtidas para a geração de conhecimento efetivo a partir dos dados avaliados.
Nesta etapa, é avaliado o conjunto de padrões em função dos objetivos iniciais, decidindo
quais deles são interessantes, para conseqüentemente interpretá-los de maneira que se tornem
legíveis para os usuários finais do sistema, bem como torná-los acessíveis para as aplicações
que deverão utilizá-los.
Como o processo de Descoberta de Conhecimento em Bases de Dados é cíclico, esta
etapa pode indicar a necessidade de se repetir qualquer outra das etapas anteriores, até a
obtenção de resultados satisfatórios [FAYYA96].
Após a realização de todas as iterações que se fizerem necessárias, os resultados
considerados positivos devem ser incorporados ao sistema, consolidando o conhecimento
obtido depois de todas as etapas anteriores.
2.4 Descoberta de Conhecimento em Textos
O tema DCT - Descoberta de Conhecimento em Textos (do inglês KDT – Knowledge
Discovery in Texts) deriva, de certa forma, do conceito de Descoberta de Conhecimento em
Bases de Dados. A diferença principal é que, em se tratando de textos, as informações
geralmente se encontram de forma não estruturada, diferente do que ocorre com as
informações armazenadas nos bancos de dados.
Apesar da utilização crescente de sistemas que utilizam bancos de dados como
repositório de informações, o volume de informações textuais é preponderante na grande
maioria das organizações. Relatórios, atas, formulários, manuais, mensagens de correio
eletrônico, memorandos, entre outros, são exemplos de documentos que utilizam textos livres
para o registro de informações.
Apesar do grande volume de informações armazenadas nestes tipos de instrumentos,
as pessoas têm dificuldades para tratá-las adequadamente, por não estarem estruturadas
[LOH01].
Assim, Descoberta de Conhecimento em Textos pode ser definida como “o processo
de extrair padrões ou conhecimentos interessantes e não triviais a partir de documentos
textuais” [Tan 1999, apud LOH01].
É necessário destacar que muitos destes textos encontram-se armazenados fisicamente
em bancos de dados, mas mesmo assim não podem ser considerados informações
60
estruturadas, pois normalmente são inseridos nestas bases em sua forma original. Somente
seriam considerados estruturados se as informações que contêm fossem decompostas em
colunas específicas com um domínio bem caracterizado.
Do ponto de vista metodológico, os processos envolvidos na Descoberta de
Conhecimento em Textos são muito semelhantes aos processos de Descoberta de
Conhecimento em Bases de Dados. A diferença básica é que as técnicas e ferramentas devem
ser aplicadas sobre o conjunto de documentos textuais a ser estudado e não sobre itens de
bancos de dados [LOH01].
Assim, serão relacionadas aqui as mesmas etapas propostas por Fayyad at al
[FAYYA96], com as devidas observações quando da aplicação em conjuntos de dados
textuais. Serão acrescentadas, entretanto, técnicas propostas por outros autores e que podem
ser consideradas complementares ao trabalho de Fayyad, as quais são adequadas às
especificidades encontradas no tratamento de informações armazenadas em conjuntos de
textos.
2.4.1.1
Seleção
O processo de DCT tem início na definição do conjunto de textos que deverá ser
utilizado para a execução do trabalho. Esta é uma etapa fundamental para todo o processo.
Os objetos de estudo podem estar armazenados em diversos formatos, sejam
arquivados em papel, sejam em arquivos de formatação livre nos diversos sistemas de
arquivos hoje utilizados, sejam em arquivos de sistemas processadores de texto, sejam em
bancos de dados em colunas específicas para informações textuais.
Nesta etapa deve-se identificar informações que possam ser relevantes para o estudo,
discriminando seu conteúdo, descrição, qualidade e utilidade. É necessário mapear a
localização, o formato e o estado dos documentos que serão processados, considerando a
propriedade, os esforços a serem empreendidos e a oportunidade da utilização de cada um
deles em função do custo-benefício da operação.
Como acontece nos processos de Descoberta de Conhecimento em Bases de Dados,
esta tarefa de identificação de padrões também é muito dependente da decisão de analistas
humanos, e do seu conhecimento do assunto que estará sendo pesquisado. Um documento
desprezado nesta fase pode ser exatamente aquele que contém a maior riqueza de informações
sobre o assunto tratado. Assim, a DCT também é um processo cíclico, executado tantas vezes
quanto for necessário para a obtenção de conhecimento a partir do conjunto de documentos
61
investigado. Os sucessivos aprimoramentos do conjunto de dados tratado, e o constante
aprendizado dos analistas a partir da manipulação da base de dados podem propiciar um
resultado final satisfatório.
Os principais passos desta etapa:
a) Identificar o conjunto de dados que interessa para pesquisa..
b) Identificar a localização e o formato original destes dados.
c) Estabelecer a relevância da utilização de cada grupo.
d) Estabelecer o custo-benefício da utilização de cada grupo.
e) Extrair as informações textuais dos seus locais de origem e gerar arquivos de
trabalho.
2.4.1.2
Pré-processamento
Esta etapa trata de atividades de limpeza, correções, eliminação de ruídos, no sentido
de se preparar o conjunto de dados tratado para as etapas posteriores.
No caso de Descoberta de Conhecimento em Textos, estas atividades estão
relacionadas com o tratamento dos documentos textuais para que sejam colocados em um
formato padrão definido, e que tenham o mínimo de incorreções e ruídos.
É necessário também estabelecer um método que identifique as características mais
significativas de cada texto. Neste tipo de objeto – objetos textuais – as palavras são utilizadas
como atributos. Entretanto, muitas das palavras mais freqüentes em um texto não agregam
significado especial e distinto, mesmo sendo importantes para o entendimento do mesmo.
Estas palavras possuem baixo valor de discriminação. São as conjunções, as preposições, os
artigos e os numerais [WIVES99]. Palavras deste tipo são denominadas palavras negativas, ou
stop words, e, segundo Wives, “devem ser retiradas em uma etapa de pré-processamento
conhecida como remoção de stop words” [WIVES99].
É importante salientar que estas classes de palavras podem ter níveis de importância
diferentes, dependendo do contexto onde são utilizadas. Somente a partir da avaliação de
especialistas no assunto pesquisado é que podem ser definidos quais os grupos devem ser
eliminados dos textos. Outras palavras podem ser acrescentadas às listas das palavras
negativas, aquelas que ocorram muitas vezes nos textos, mas que não representem potencial
de discriminação para o assunto tratado.
62
As tarefas da etapa de pré-processamento podem ser realizadas com a execução de
ferramentas para:
a) Formatar os documentos para que sejam apresentados em um único padrão.
b) Efetuar correção ortográfica para a eliminação de termos grafados incorretamente.
c) Eliminar linhas e caracteres de controle.
d) Criar listas de palavras negativas.
2.4.1.3
Transformação
Esta etapa tem por objetivo realizar operações sobre os objetos estudados para que
possa ser mais eficiente a etapa posterior de mineração de texto. Segundo Wives [WIVES00],
diversas técnicas podem ser utilizadas para tornar os objetos textuais mais adequados para o
processamento posterior, tais como:
a) A estruturação do documento, considerando com peso maior palavras presentes em
títulos, subtítulos, notas de explicação [Cow 96 apud WIVES99]. Entretanto, esta
técnica pode ser considerada uma etapa adicional, e por demais custosa, caso o
documento não seja originalmente estruturado.
b) A adaptação de vocabulário, com a utilização de sinônimos. A utilização desta
técnica facilita as tarefas de agrupamento, uma vez que palavras consideradas
diferentes a partir da grafia, depois de substituídas, podem representar um peso
maior quando submetidas aos algoritmos de identificação de freqüência.
c) A eliminação de diferenças morfológicas de uma mesma palavra – singular e
plural, masculino e feminino, entre outras. Hwee Ng propõe uma técnica que
identifica os radicas das palavras, unificando o vocabulário [NG97]. Entretanto, a
utilização destes recursos pode tornar os documentos muito abrangentes, já que as
palavras podem ficar muito semelhantes entre si.
d) A retirada de caracteres especiais, tornando as palavras mais simples. Esta técnica
pode auxiliar ainda na eliminação de erros de grafia pela utilização de caracteres
acentuados, bem como aumentar a padronização do texto.
e) A transformação de todos os caracteres para um mesmo padrão quanto à utilização
de letras maiúsculas e minúsculas. Assim, uma mesma palavra não corre o risco de
ser considerada por diferenças de tipo de grafia em caixa alta ou caixa baixa.
63
2.4.1.4
Mineração de Texto
Esta é a etapa onde é realizado o processo de descoberta de padrões propriamente dito.
Com a utilização de algoritmos específicos, os textos que foram previamente selecionados,
pré-processados, transformados, passam por várias iterações até que sejam descobertos
padrões de relacionamento, agrupamentos, tipos de comportamento. Por ser considerada uma
das etapas mais importantes do processo de Descoberta de Conhecimento em Texto, este item
será detalhado em seção posterior.
2.4.1.5
Interpretação e Avaliação
Como na Descoberta de Conhecimento em Bases de Dados, esta etapa na Descoberta
de Conhecimento em Texto também requer a participação de especialistas no negócio para
avaliar e interpretar os resultados obtidos nas fases anteriores.
O resultado produzido pelos algoritmos de mineração de texto normalmente são
agrupamentos que podem ser mais ou menos significativos. A análise dos especialistas no
negócio é fundamental para o ajuste dos parâmetros utilizados, e até para a definição das
técnicas que podem ser utilizadas.
Avaliado o conjunto de padrões em função dos objetivos iniciais, decide-se quais deles
são interessantes, para conseqüentemente interpretá-los de maneira que se tornem legíveis
para os usuários finais do sistema, e ainda torná-los acessíveis para as aplicações que deverão
utilizá-los.
Também a Descoberta de Conhecimento em Texto é composta por um conjunto de
processos que podem ser cíclicos. Assim, esta etapa pode indicar a necessidade de se repetir
qualquer outra das etapas anteriores, até a obtenção de resultados satisfatórios [FAYYA96].
Após a realização de todas as repetições que se fizerem necessárias, os resultados
considerados relevantes devem ser incorporados ao sistema, consolidando o conhecimento
obtido depois de todas as etapas anteriores.
2.5 Técnicas de Mineração de Dados
Mineração de Dados, do inglês Data Mining, é a etapa de DCBD onde ocorre a
aplicação de algoritmos com a finalidade de identificar padrões de comportamento em uma
base de dados. Segundo FAYYAD:
64
Mineração de Dados é a etapa no processo de DCBD que consiste de
algoritmos particulares que, sob determinadas limitações aceitáveis dos
sistemas computacionais, produzem uma determinada quantidade de padrões
sobre uma base de dados [FAYYA96].
Assim, dentro do contexto da Descoberta de Conhecimento em Bases de Dados, podese verificar que a etapa de Mineração de Dados é uma das mais importantes, onde
efetivamente os dados anteriormente preparados são submetidos a algoritmos que procuram
estabelecer relações e evidenciar padrões de comportamento que possam vir a ser úteis no
processo de aquisição de conhecimento.
O processo de Mineração de Dados tem dois objetivos principais, segundo Fayyad
[FAYYA96]: a predição e a descrição.
A predição envolve a utilização de algumas variáveis, normalmente atributos da base
de dados, para prever valores desconhecidos ou futuros de outras variáveis de interesse.
Já a descrição procura por padrões que reflitam a distribuição dos itens de dados no
espaço das suas dimensões e que sejam passíveis de interpretação.
2.5.1 Tarefas Básicas
Fayyad [FAYYA96] relaciona algumas tarefas, as quais considera básicas para o
processo de Descoberta de Conhecimento em Bases de Dados. Abaixo, encontram-se
enumeradas as principais:
a) Classificação: consiste em identificar e classificar objetos em grupos previamente
definidos.
b) Regressão: tem por objetivo estimar o valor de uma variável a partir de outros
dados.
c) Agrupamento: consiste em identificar similaridades entre objetos e agrupá-los,
sem a definição prévia das características destes grupos.
d) Sumarização: consiste em definir um conjunto mínimo de características que
venham a identificar um subconjunto de objetos.
Para o desenvolvimento deste trabalho, foram utilizadas principalmente as técnicas de
agrupamento e classificação. Assim, estas serão detalhadas a seguir.
65
2.5.1.1
Agrupamento
Fayyad define o processo de agrupamento, também denominado clustering, como uma
tarefa comum de descrição onde se busca identificar um conjunto finito de categorias para
descrever os dados [FAYYA96]. O objetivo do agrupamento é tomar um conjunto de
entidades representativas como registros em banco de dados e posicioná-los dentro de um
número de grupos ou clusters, aonde cada cluster contém registros similares.
As categorias podem ser mutuamente exclusivas, ou podem compartilhar algumas
características, sobrepondo-se em alguns casos.
Os dados agrupados formam um aglomerado que, segundo Kowalsky, “é um grupo de
objetos similares, geralmente uma classe, que possui um título mais genérico capaz de
representar todos os elementos nela contidos” [KOWAL97].
Tarefas de agrupamento são muito mais antigas que o computador. Desde os tempos
remotos, objetos similares são agrupados, facilitando o entendimento do conjunto e a
localização de informações.
Com o advento dos computadores, estes passaram a ser utilizados também para
realizar funções de agrupamento. Com o surgimento da Inteligência Artificial, muitos
algoritmos de agrupamento foram desenvolvidos. Segundo Jiawei Han:
O agrupamento de objetos/informações é uma técnica de Descoberta de
Conhecimento em Bases de Dados e Mineração de Dados estudada pela área
da Inteligência Artificial [Han96 apud WIVES99].
Assim, áreas de conhecimento que têm utilizado conceitos de Inteligência Artificial
são as que mais utilizam técnicas de agrupamento. Psicologia, arqueologia, medicina,
genética, economia, marketing são exemplos de áreas de conhecimento que se valem dos
algoritmos de agrupamento para tarefas como organização de dados e recuperação de dados
similares.
O processo de agrupamento é, até certo ponto, similar ao processo de classificação.
Entretanto, estes dois conceitos não devem ser confundidos.
O processo de classificação pressupõe que se conheça as características que
identificam os membros de uma determinada classe. Assim, a tarefa de classificação consiste
em encontrar atributos e valores que melhor caracterizem cada classe.
66
Já no processo de agrupamento não existem classes definidas O objetivo final é
estabelecer parâmetros de comparação entre cada instância do conjunto de objetos, e criar
agrupamentos com os elementos que apresentarem determinadas características comuns,
embora anteriormente não se soubesse que características seriam essas.
Portanto, o objetivo da técnica de agrupamento é identificar os objetos que possuem
características em comum, agrupando-os em subconjuntos de objetos similares.
O aglomerado de objetos, ou cluster, foi definido por Everitt [EVE74 apud WIVES99]
como:
a) Um conjunto de entidades que são semelhantes. Entidades pertencentes a
aglomerados diferentes são diferentes;
b) Uma agregação de pontos no espaço tal que a distância entre os pontos em um
mesmo aglomerado é menor que a distância entre pontos de diferentes
aglomerados;
c)
Os aglomerados podem ser descritos como regiões conexas de um espaço
multidimensional que contém uma grande densidade relativa de pontos. As regiões
estão separadas umas das outras por regiões de baixa densidade relativa de pontos.
As tarefas de agrupamento devem considerar, inicialmente, o tipo de organização das
informações, se estruturadas ou não estruturadas.
Por bases estruturadas pode-se entender o conjunto de informações armazenadas, por
exemplo, em tabelas relacionais de bancos de dados. São chamadas estruturadas por serem
resultado de um projeto que abstraiu do mundo real uma representação adequada para o
armazenamento e a recuperação de informações. Nestes casos, os dados normalmente são
bem definidos, pertencem a um domínio específico e apresentam relacionamentos e
interações.
Para informações deste tipo, existem vários algoritmos de agrupamento, uma vez que,
desde os primeiros sistemas informatizados, os computadores vêm sendo utilizados para
tarefas desta natureza. Segundo Feldman [FELDM97], a maioria das técnicas de agrupamento
foi desenvolvida para atuar sobre dados estruturados.
Quanto às informações não estruturadas, são assim definidas aquelas sem uma
organização previamente definida, e nesta categoria se enquadram as informações textuais.
67
2.5.1.2
Classificação
A classificação é um processo de aprendizado em que um objeto é mapeado em uma
das classes pré-definidas [Hand91 apud FAYYA96]. A partir de um conjunto de atributos
previamente escolhidos, o algoritmo de classificação procura estabelecer relações entre os
dados, classificando os registros de acordo com as características de cada um, confrontandoos com as características das classes previamente determinadas.
A classificação pode, então, identificar a qual classe este objeto pertence, a partir de
seu conteúdo. Para tal, é necessário que as classes tenham sido previamente descritas,
expressando suas características por meio de definições, fórmulas e/ou atributos.
Segundo Wives, os sistemas de classificação de objetos geralmente utilizam uma das
seguintes técnicas [WIVES00]:
a) “Regras de inferência: baseadas em um conjunto de características que devem ser
encontradas no objeto para que esse seja identificado como pertencendo a
determinada categoria. Necessitam de muito tempo para serem elaboradas e devem
ser adaptadas caso o domínio mude. Geralmente são desenvolvidas para uma
tarefa e domínio específico. O conhecimento modelado é facilmente compreendido
e seus resultados são, na maioria dos casos, melhores do que os apresentados pelos
outros métodos.
b) Modelos conexionistas – redes neurais artificiais: Esses sistemas induzem
automaticamente um modelo matemático ou um conjunto de regras a partir de um
conjunto de objetos de treinamento. Podem ser colocados em prática rapidamente
e são capazes de se adaptar as mudanças do ambiente de dados. Eles não
necessitam de um especialista ou pessoa para a análise do domínio. Por outro lado,
necessitam do conjunto de treinamento e seu modelo ou regras não são tão
facilmente compreensíveis.
c) Método de similaridade de vetores ou de centróides – nesse caso as classes são
representadas por vetores de palavras, denominados centróides. O documento é
comparado com o vetor descritivo de cada classe. A classe que apresentar maior
similaridade com o documento é tomada como classe do documento.
d) Árvores de decisão – Uma abordagem parecida com a primeira, porém, utiliza
técnicas de aprendizado de máquina para induzir as regras. Para cada classe uma
árvore de decisão é criada.
68
e) Classificadores de Bayes – Parecidos com os conexionistas, porém têm como
base a teoria da probabilidade. Eles conseguem informar a probabilidade de
determinado objeto pertencer a uma determinada classe”.
Um exemplo de classificação: uma empresa que atua no setor de concessão de crédito
pretende avaliar o risco associado a empréstimos que faz aos seus clientes. Os clientes são
classificados como bons ou indesejáveis dependendo de o crédito ter sido recuperado ou não
pela empresa. A partir de informações encontradas em cada registro, pode-se utilizar um
algoritmo de classificação para testar os valores destas variáveis, e classificar os clientes em
uma das duas possibilidades, ou seja, bons ou indesejáveis.
2.5.2 Caracterização da Mineração de Dados
O processo de Mineração de Dados é fortemente relacionado aos métodos utilizados
no tratamento dos dados da base pesquisada, e é comum classificar o tipo de Mineração de
Dados a partir do método escolhido. Atualmente, podem-se observar grandes avanços em
pesquisas e desenvolvimento destes métodos. Ming-Syan Chen apresentou uma proposta de
classificação abrangente, que considera os métodos utilizados, o tipo de conhecimento
pesquisado e o tipo de banco de dados que suporta as informações tratadas. Assim, um
sistema de Mineração de Dados pode ser classificado de acordo com os seguintes critérios
[CHEN96]:
a) O tipo de base de dados utilizada: os sistemas de mineração de dados podem ser
classificados segundo o tipo da base de dados onde estão sendo executados. Por
exemplo, se este sistema faz mineração de dados em uma base relacional, é
classificado com o minerador relacional, ou um minerador de dados orientado a
objetos quando executado em uma base orientada a objetos;
b) O tipo de conhecimento pesquisado: vários tipos de conhecimento podem ser
descobertos por técnicas de Mineração de Dados. Assim, os sistemas de mineração
podem ser classificados como: conhecimento generalista, conhecimento de
primeiro nível, conhecimento de múltiplos níveis. Um sistema de Mineração de
Dados flexível pode descobrir conhecimento em vários níveis de abstração.
c) O tipo de método utilizado: a escolha do método está fortemente relacionada com
o tipo de conhecimento que se deseja extrair ou com os dados aos quais se aplicam
tais técnicas. Entretanto, de forma mais genérica, o tipo de mineração pode ser
caracterizado pelo tipo de abordagem utilizada, seja a mineração baseada em
69
generalização, a mineração baseada em padrões, ou a mineração baseada em
estatística e teorias matemáticas.
2.5.3 Árvores de Decisão
Amplamente utilizadas em algoritmos de classificação, as árvores de decisão são
representações simples do conhecimento e, um meio eficiente de construir classificadores que
predizem classes baseadas nos valores de atributos de um conjunto de dados.
Árvores de decisão podem ser conceituadas como um mapa de processamento lógico.
Uma Árvore de Decisão é uma estrutura de dados recursivamente definida como:
a) Um nó folha, que indica uma classe.
b) Um nó de decisão, que contém um teste sobre o valor de um atributo. Para cada
um dos possíveis valores do atributo, tem-se um ramo para uma outra árvore de
decisão, ou seja, uma sub-árvore. Cada sub-árvore contém a mesma estrutura de
uma árvore.
Uma árvore de decisão pode ser reescrita no formato de regras de produção, sendo que
este modelo de regras gerado também mantém a propriedade de dividir o espaço de descrição
em regiões disjuntas. Outra propriedade importante de árvores de decisão é que o espaço de
descrição do problema é dividido de forma completa, isto é, qualquer ponto do espaço é
coberto por uma região da árvore de decisão [LUCEN01].
Uma árvore de decisão tem a função de “particionar” recursivamente um conjunto de
treinamento, até que cada subconjunto obtido deste particionamento contenha casos de uma
única classe. Para atingir esta meta, a técnica de árvores de decisão examina e compara a
distribuição de classes durante a construção da árvore. O resultado obtido, após a construção
de uma árvore de decisão, são dados organizados de maneira compacta, que são utilizados
para classificar novos casos.
Na figura a seguir é apresentada uma interpretação geométrica de uma árvore de
decisão com duas classes (+ e o) e dois atributos (X1 e X2) [PRA01 apud LUCEN01].
70
Figura 5: Apresentação geométrica de uma árvore de decisão [LUCEN01]
A qualidade de uma árvore de decisão depende tanto da exatidão da classificação
quanto do tamanho da árvore. O método primeiro escolhe um subconjunto para realizar o
treinamento da árvore. Se a árvore não apresenta a resposta correta para todos os objetos, a
seleção de exceções é armazenada e o processo continua, até que um conjunto correto de
soluções seja encontrado [CHEN96].
Segundo Usama Fayyad, árvores de decisão são principalmente utilizadas em modelos
preditivos, tanto para classificação quanto para regressão, embora também sejam utilizadas
em modelos de sumarização descritiva [FAYYA96].
Vários algoritmos de classificação elaboram árvores de decisão. Normalmente,
considera-se que não existe uma forma direta de se determinar qual é o melhor algoritmo,
sendo que um pode ter melhor desempenho em determinada situação, enquanto outro
algoritmo pode ser mais eficiente para outro conjunto de dados.
Alguns exemplos: o algoritmo ID3 foi um dos primeiros para implementar uma árvore
de decisão, sendo sua elaboração baseada em sistemas de inferência e em conceitos de
sistemas de aprendizagem. Outros algoritmos, como o C4.5, o CART (Classification and
Regression Trees), o CHAID (Chi Square Automatic Interaction Detection) são também
bastante utilizados.
2.5.4 Redes Neuronais Artificiais
As Redes Neuronais Artificiais podem ser definidas como uma técnica que procura
simular a inteligência humana. Segundo Laurene Fausset:
71
Redes Neuronais Artificiais são modelos computacionais, implementados
em software ou hardware, que visam simular o comportamento dos
neurônios biológicos através de um grande número de elementos de
processamento interconectados, os neurônios artificiais [FAUSS94].
As pesquisas no sentido de emular a inteligência através de recursos artificiais
surgiram na década de 1940, logo após o início da utilização dos primeiros computadores. Na
década seguinte destacaram-se duas principais correntes de pesquisa:
a) Inteligência Artificial Simbólica: procurava simular o raciocínio dedutivo no
computador, através de algoritmos especiais, objetivando implementar a
manifestação da inteligência.
b) Inteligência Artificial Conexionista: nasceu das pesquisas por modelos que
simulavam o funcionamento fisiológico do cérebro para reproduzirem a
inteligência. Esta corrente originou as Redes Neuronais Artificiais (RNA).
Após alguns anos onde as pesquisas em Inteligência Artificial tiveram um progresso
menos acelerado, a partir dos anos 80 as RNA têm sido utilizadas na resolução da mais
variada gama de problemas. Com o crescimento da utilização de técnicas de extração de
conhecimento a partir de bases de dados, esta técnica tem sido empregada para a descoberta
de informações contidas em bancos de dados.
As RNA possuem algumas características relevantes na concepção de uma grande
variedade de aplicações, tais como [BISHO95]:
a) Adaptabilidade: algoritmos de aprendizagem e regras auto-organizáveis permitem
a adaptação em ambientes dinâmicos.
b) Processamento não-linear: habilidade de executar tarefas que envolvam
relacionamentos não lineares e tolerantes a ruídos, tornando as Redes Neurais
Artificiais uma boa técnica para classificação, predição e agrupamentos.
c) Processamento paralelo: o grande número de unidades de processamento
promove vantagens para o armazenamento de informações distribuídas, bem como
para o processamento paralelo.
2.5.4.1
Arquitetura das Redes Neurais Artificiais
Os sistemas biológicos são formados por uma grande variedade de arquiteturas
específicas, dispostas em um grande emaranhado de conexões. Da mesma forma, as Redes
72
Neurais Artificiais utilizam arquiteturas diferentes para tipos diferentes de tarefas [BRASI02].
A figura a seguir ilustra a semelhança entre um neurônio biológico e um neurônio artificial.
Figura 6: Modelo de neurônio biológico e artificial [MEDLE98]
O neurônio artificial tem sua inspiração no modelo natural, tentando imitar o seu
funcionamento através de funções matemáticas e algoritmos computacionais. O neurônio
artificial é um modelo simplificado, em vista da complexidade do sistema nervoso biológico,
e a sua compreensão incompleta mesmo após os grandes avanços da medicina.
As RNA são formadas por neurônios artificiais, sendo que cada um pode receber uma
ou mais entradas, processa as informações recebidas e gera uma única saída. A entrada pode
vir de tipos de dados naturais ou ainda vir da saída de outros neurônios, bem como a saída
pode representar a resolução final do problema, ou pode ser a entrada para outro neurônio. Os
neurônios, em uma RNA, são agrupados em camadas, sendo a primeira camada a que recebe
os dados externos, a ultima camada a responsável pelos dados de saída, e, entre estas, uma ou
mais camadas intermediárias. A figura a seguir mostra em exemplo de uma RNA com uma
camada intermediária [BRASI02].
73
Figura 7: Rede Neuronal Artificial com uma camada intermediária [BRASI02]
2.5.4.2
Aprendizado em Redes Neuronais Artificiais
O processo de aprendizado na rede acontece, basicamente, de duas formas: o
aprendizado supervisionado e o aprendizado não supervisionado.
No aprendizado supervisionado, durante a seção de treinamento, um estímulo de
entrada é aplicado e resulta numa saída. Esta saída é então comparada com um padrão inicial
informado para a rede. Caso a resposta atual da rede seja diferente da resposta fornecida pelo
padrão, a rede gera um sinal de erro, que é utilizado para a correção dos pesos atuais da rede.
Concluído este processo, o estímulo é fornecido novamente para a rede, resultando numa nova
saída. Se essa saída se aproximar do padrão informado, a rede estará treinada para esse
estímulo; caso contrário, todo o processo de correção deve ser repetido.
No aprendizado não supervisionado, não há saída desejada. Durante a sessão de
treinamento, a rede recebe em sua entrada diferentes padrões, e os organiza arbitrariamente
em categorias. Assim, quando uma entrada é aplicada à rede, esta fornece uma resposta de
saída indicando a categoria a qual a entrada pertence. Se uma categoria não pode ser
encontrada para o padrão de entrada, uma nova classe é gerada [BRASI02]. Nesta forma, as
redes têm a capacidade de determinar uma correlação entre os possíveis padrões de entrada e
são particularmente úteis nos problemas em que as entradas variam com o tempo de forma
conhecida. Este mecanismo pode ser considerado como sendo a capacidade da rede de
abstrair correlações entre os estímulos de modo a obter as respostas desejadas.
74
2.5.4.3
Aplicações de Redes Neuronais Artificiais
As Redes Neuronais Artificiais são utilizadas em uma grande variedade de
aplicações:
a) Reconhecimento de padrões: um sistema de reconhecimento de padrões pode ser
dividido em algumas tarefas, tais como: particionamento de imagem em objetos
isolados, extração de características e análise de contexto. Um dos tipos de RNA
utilizada para tarefas deste tipo é a Kohonen.
b) Classificação: a classificação pertence a uma categoria de problemas na qual
objetos são associados à determinadas classes. Esta categoria de rede neuronal
produz saídas que representam um conjunto de características apresentadas através
de um padrão de entrada [FAUSE94]. Redes Backpropagation podem ser
utilizadas neste tipo de problema.
c) Previsão: a utilidade da tecnologia de RNA para a realização de previsões está no
fornecimento de subsídios ao processo de tomada de decisão. Redes de Função de
Base Radial são exemplos de redes utilizadas neste tipo de aplicação.
d) Controle: as Redes Neurais Artificiais estão sendo cada vez mais utilizadas em
processos de controle em tempo real, onde a principal vantagem desta abordagem
em relação aos sistemas industriais de controle tradicionais está na habilidade de
aprender através de experiências. Pode ser utilizado, por exemplo, no controle de
um manipulador industrial de robótica.
2.5.5 Abordagens Híbridas
Pode-se definir como abordagens híbridas a estratégia de se utilizar mais de uma
técnica para a resolução de um determinado problema [PRADO98]. Também na Mineração
de Dados, a combinação de técnicas pode apresentar resultados superiores aos obtidos com a
utilização de abordagens puras.
A partir da utilização em conjunto de técnicas que individualmente já tenham
demonstrado utilidade prática, a construção de modelos híbridos pode aproveitar os benefícios
de cada uma delas. Prado [PRADO98] cita, como exemplo, a utilização de RNA’s em
conjunto com árvores de decisão. Enquanto a primeira técnica se mostra útil na modelagem de
funções não lineares, porém com resultados não satisfatórios quando se trata de explanação
75
dos fatos pesquisados, a segunda técnica apresenta bons resultados em tarefas de explanação,
mas restringe-se a “particionamentos” lineares do espaço de entrada.
Como exemplos de propostas de sistemas híbridos, podem ser citados:
a) Modelo Neural Combinatório – MNC: entende-se por Modelo Neural
Combinatório uma rede neural capacitada para operações de classificação. O
treinamento dessa rede pode ser feito através de um algoritmo baseado em
backpropagation9, utilizando punições e recompensas. O MNC integra os
paradigmas simbólico e conexionista, e utiliza aprendizado supervisionado em
uma topologia feedforward com as seguintes características: uma camada de
entrada, uma camada combinatória e uma camada de saída [PRADO98]. Os
neurônios são conectados através de arcos ou sinapses.
Figura 8: Modelo Neural Combinatório [PRADO98]
b) Redes Neurais Baseadas em Conhecimento (knowledge-based artificial neural
network – KBANN): este é um modelo de classificação supervisionada de dados.
É composto por três funções principais: inserção de conhecimento simbólico na
rede, refinamento do conhecimento prévio com base em dados e extração de
conhecimento simbólico. O aprendizado é feito a partir de um algoritmo de
backpropagation sobre o conhecimento prévio inserido [PRADO98].
9
Backpropagation: é a base para o treinamento de uma rede neural supervisionada. Depois que os padrões de
entrada são processados pela rede, os resultados obtidos são utilizado como parâmetros para ajustá-la.
76
Figura 9: Funções de um modelo KBANN [OSORI99]
2.5.6 Ferramenta para a Mineração de Dados
Com o crescente interesse na utilização de técnicas de Descoberta de Conhecimento
em Bases de Dados e Mineração de Dados, têm sido construídas ferramentas que
implementam algoritmos para esse fim. Para este trabalho, optou-se por utilizar a ferramenta
WEKA
O WEKA (Waikato Environment for Knowledge Analysis) é um projeto desenvolvido
pela Universidade de Waikato – Nova Zelândia, que tem por objetivo manter um ambiente de
aprendizagem de máquina10. Encontra-se disponível de forma inteiramente gratuita para a
comunidade científica, e implementa os principais algoritmos que podem ser utilizados em
Mineração de Dados.
O WEKA é implementado na linguagem JAVA, utilizando conceitos de orientação a
objetos. Como foi estabelecido que seria de domínio público, tanto os programas fontes como
o próprio aplicativo se encontram disponíveis para serem livremente copiados na página WEB
do projeto [WEKA01].
Como foi implementado em linguagem JAVA, o WEKA pode ser executado na maior
parte dos sistemas operacionais existentes, sem necessidade de recompilação ou alteração do
aplicativo. O WEKA pode ser executado em ambiente Windows, Linux, Unix e Macintosh,
desde que o computador possua instalada a JVM (Java Virtual Machine).
10
Aprendizagem de Máquina: do inglês Machine Learning, é um ramo da Inteligência Artificial que estuda
algoritmos que permitam aos computadores efetivar aprendizado a partir de exemplos anteriores e estímulos
(entradas) no sistema.
77
O WEKA contém ferramentas para classificação, regressão, agrupamento e
associação. Pode ser utilizado tanto através de instruções em linha de comando, como a partir
de uma versão que implementa uma interface gráfica em Java. Pode também ter suas
bibliotecas utilizadas em outros programas, que podem ser construídos para utilizar os
algoritmos ali implementados.
2.5.6.1
Estrutura
O WEKA foi estruturado dentro dos padrões de construção de aplicativos orientados a
objetos. Como foi construído utilizando a linguagem de programação Java, para falar da
estrutura do aplicativo é importante discriminar alguns aspectos desta linguagem.
Em Java, cada programa é implementado como uma classe, conceito oriundo da
programação orientada a objetos. Uma classe pode ser definida como um conjunto estruturado
de variáveis ou dados, e os algoritmos que interagem com esses dados e variáveis, chamados
métodos. Um objeto é definido como uma instância da classe à qual pertence.
Um conjunto de classes é denominado pacote, normalmente organizado para agrupar
classes relacionadas entre si, ou relacionadas a um determinado assunto.
Assim, o WEKA é formado por diversos pacotes de classes Java – que podem ser
entendidos como módulos do sistema - que por sua vez implementam diversos métodos sobre
os dados tratados [WITTE99].
A figura seguinte mostra os principais pacotes que compõe o WEKA e a dependência
entre eles, e a tabela, logo a seguir, uma descrição sumária de cada um deles.
78
Figura 10: relação dos pacotes do WEKA – adaptação de [SALGA02]
Tabela 3: Descrição dos pacotes do WEKA – adaptado de [SALGA02]
PACOTE
DESCRIÇÃO
Associations
Implementa o algoritmo Apriori para a geração de regras
de associação.
Implementa algoritmos para seleção de atributos de um
conjunto de treinamento.
Implementa vários tipos de classificadores comuns:
AttributeSelection
Classifiers
árvores de decisão (ID3, C4.5), redes neurais, tabelas de
decisão, algoritmos bayesianos, bagging, boosting.
Clusterers
Implementa os seguintes algoritmos para clustering:
EM, SimpleKMeans e CobWeb.
Core
Implementa funções de IO e de estatísticas de instâncias.
Calcula por exemplo o número de atributos com um
79
PACOTE
DESCRIÇÃO
determinado valor, o número de instâncias com alguns
valores ausentes.
Filters
Implementa vários filtros aplicados na fase de préprocessamento dos dados.
GUI
Implementa toda a parte de interface com o usuário. É
importante ressaltar que estas classes não dispõem de
nenhum algoritmo de mineração de dados implementado,
o que torna o software mais flexível para eventuais
mudanças.
Estimator
Diferentes
tipos
de
cálculo
para
distribuição
de
probabilidades. É usada, por exemplo, pelo algoritmo
Naive Bayes.
2.5.6.2
Arquivo de entrada
O WEKA define um padrão de entrada específico que deve ser obedecido para o
correto processamento das informações. É um arquivo com extensão .ARFF, dividido
basicamente em três partes:
a) O nome a ser atribuído ao trabalho de mineração correspondente àquele arquivo. É
precedido pelo rótulo @RELATION.
b) Descrição dos atributos: nesta seção, devem ser relacionados todos os atributos
que serão processados. Podem ser descritos alguns níveis de detalhamento. É
precedido pelo rótulo @ATTRIBUTE.
c) Seqüência de dados: são os dados que serão processados. Cada linha contém
valores para os atributos relacionados em (b). Inicia com uma linha com o rótulo
@DATA.
Na figura a seguir é mostrado um exemplo de um arquivo de entrada do WEKA.
80
@RELATION Producao_Grupo_Tipo_0001
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
NME_RH STRING
Complementares {sim,nao}
Demais {sim,nao}
Orientação {sim,nao}
Artística_Cultural {sim,nao}
Produção_bibliográfica {sim,nao}
Produçao_Técnica {sim,nao}
Total_Global REAL
@data
"André Fernando da Silva Nobre",nao,nao,nao,nao,sim,nao,1
"Bruno Pacheno Novais Clemente",nao,nao,nao,nao,sim,nao,1
"Carlos Campos Silveira Brito",nao,nao,nao,nao,sim,nao,1
"Douglas Cerqueira Silva Pacheco Meireles",nao,nao,nao,nao,sim,nao,1
"Edimária Vanessa da Silva Soares",nao,nao,nao,nao,nao,sim,1
Figura 11: Exemplo de arquivo .arff do WEKA
Este tipo de arquivo pode ser gerado a partir de ferramentas dos principais bancos de
dados, que permitem a criação de listas separadas por um determinado caractere, neste caso, a
vírgula.
2.5.6.3
Algoritmos
O WEKA implementa uma série de algoritmos especialistas que podem ser utilizados
em tarefas de mineração de dados. Estes algoritmos são organizados em pacotes específicos:
a) Associations
b) Classifiers
c) Clusteres
Associations
As regras de associação são utilizadas na tentativa de se encontrar relacionamentos
significativos entre informações de mesma natureza. Estas bases de dados estão se tornando
cada vez mais extensas, o que demanda a utilização de algoritmos eficientes para viabilizar a
pesquisa em um tempo aceitável.
Para a tarefa de estabelecer regras de associação, o WEKA implementa o algoritmo
Apriori. Este algoritmo foi proposto por Agrawal e Srikant [AGRAW94] em 1994, na
intenção de proporcionar uma maneira mais eficiente de percorrer bases de dados e gerar
regras de associação.
81
O algoritmo percorre a base de dados e encontra os conjuntos de itens freqüentes,
denominados frequent itemsets. Os algoritmos existentes até então geravam um conjunto
muito grande de itemsets. O Apriori parte da proposta que todo subset de um grande itemset
deve ser grande também. Assim, grandes itemsets podem ser agrupados, e eliminados aqueles
que cujos subsets não são grandes o suficiente. Isto permite a geração de um número menor
de itemsets candidatos [AGRAW94].
O algoritmo principal utiliza duas funções:
a) A função Apriori-gen, que tem a função de gerar o conjunto de candidatos e
eliminar os subsets que não são significativos.
b) A função Genrules, que tem por objetivo extrair as regras de associação
propriamente ditas.
A primeira operação realizada pelo algoritmo é uma contagem de ocorrência dos itens
para determinar os frequent itemsets de tamanho unitário (1 – frequent itemsets). A seguir, são
executadas duas fases posteriores k. Primeiro, os frequent itemsets Lk-1 encontrados na
operação anterior (K-1) são utilizados para gerar a lista dos conjuntos de potencialmente
freqüentes, chamados de itemsets candidatos (Ck).
Feito isso, é realizada uma nova varredura no banco de dados, contando-se o suporte
de cada itemset candidato em Ck.
A geração dos itemsets candidatos, de antemão, toma como argumento Lk-1, o
conjunto de todos (k-1)-itemsets freqüentes. Para tal, utiliza-se a função Apriori_gen (Anexo
II), que retorna umsuperconjunto de todos os k-itemsets freqüentes A função, em um primeiro
estágio, une Lk-1 com Lk-1. No estágio seguinte, são eliminados os itemsets ck pertencentes a Ck,
desde que um dado (k-1)-subset de ck não pertença a Lk-1.
A seguir, uma figura com a rotina principal do algoritmo Apriori [AGRAW94]:
82
Figura 12: algoritmo Apriori – rotina principal
Classifiers
O objetivo das rotinas de classificação é associar uma determinada instância a uma
classe. Estas rotinas têm por resultado, normalmente, árvores de decisão ou um conjunto de
regras que definam os critérios necessários para realizar a associação do item considerado
com a classe adequada.
O WEKA implementa vários algoritmos de classificação, relacionados na figura a
seguir [WITTE99]:
Figura 13: classificadores no WEKA
83
Dos algoritmos de classificação implementados pelo WEKA, será tratado neste
trabalho somente o algoritmo j48, que é a implementação do algoritmo padrão C4.5, revisão
8. Este algoritmo é largamente utilizado em tarefas de aprendizagem de máquina.
O C4.5 gera um classificador na forma de uma árvore de decisão. Adota uma
estratégia top-down que permite efetuar a classificação em partes da estrutura, o que
possibilita a criação de árvores de estrutura relativamente simples, embora não
necessariamente simplistas. [CHEN96]. O algoritmo utiliza uma abordagem direcionada a
minimizar a quantidade de testes que devem ser realizados com cada objeto, no intuito de
possibilitar tempos de respostas mais adequados.
O algoritmo utiliza a seguinte função de avaliação:
onde pi é a probabilidade de um objeto pertencer à uma classe i [CHEN96].
Clusteres
O WEKA oferece também um pacote que contém algoritmos de agrupamento,
chamado weka.clusteres. A figura abaixo relaciona as classes implementadas [WITTE99]:
weka.clusterers.Cobweb
weka.clusterers.EM
weka.clusterers.SimpleKMeans
Figura 14: algoritmos de agrupamento do WEKA
O Cobweb é um algoritmo de agrupamento incremental baseado em conceitos
probabilísticos. Esses conceitos possuem um conjunto de atributos com seus possíveis
valores. A busca por bons agrupamentos é direcionada pela mensuração da qualidade das
partições de dados [FISHE87].
Por sua vez, o EM é um algoritmo que assume que os atributos no conjunto de dados
representam variáveis randômicas independentes. De maneira diferente de outros algoritmos
84
de agrupamento, o EM permite que um objeto esteja presente em mais de um agrupamento
[SALGA02].
Já o SimpleKMeans é uma implementação do algoritmo k-Means, um método nãohierárquico que divide um conjunto de dados em grupos de elementos semelhantes, onde k é o
número de agrupamentos desejados, informado inicialmente. O algoritmo apresenta o
seguinte funcionamento [WIVES99]:
a) Determina a posição inicial dos k centróides dos agrupamentos.
b) Direciona cada atributo ao agrupamento do centróide mais próximo.
c) Recalcula os centros dos agrupamentos a partir dos elementos direcionados.
d) Repete os itens anteriores seguindo um critério de convergência, que pode ser uma
informação sobre o número máximo de interações desejadas, ou até que os centros
não se movam mais.
2.5.6.4
Interface
O WEKA apresenta duas possibilidades de interface: por linha de comando,
executando uma sintaxe específica para a execução do aplicativo utilizando a JVM, e uma
interface gráfica desenvolvida em Java que facilita a interação com o aplicativo. Abaixo, as
figuras ilustram a interface gráfica da ferramenta.
Figura 15: Tela inicial do WEKA
85
Figura 16: configuração de parâmetros no WEKA
2.6 Técnicas de Mineração de Textos
2.6.1 Mineração de Texto
A maneira mais comum de se registrar informações é utilizando textos livres, onde
idéias, opiniões, considerações, observações, pensamentos são expressos e armazenados. Nas
organizações, há muito conhecimento deste tipo armazenado na forma de formulários, atas,
manuais, normas, procedimentos, correio eletrônico, memorandos, comunicações formais,
entre outras.
Segundo Mark Dixon, a Mineração de Texto combina técnicas de extração,
recuperação de informações, processamento da linguagem natural e sumarização de
documentos com os métodos de Mineração de Dados [DIXON97]. Entretanto, por
normalmente utilizar dados não estruturados, os processos de Mineração de Texto são
considerados mais complexos que os processos de Mineração de Dados.
Este tema é bastante recente, com poucas ferramentas disponíveis. Trabalhos têm sido
realizados no sentido de definir algoritmos mais adequados para este fim, bem como
estabelecer ferramentas que possam combinar o conhecimento disponível em textos com
conhecimentos formalizados de maneira estruturada, como nos bancos de dados.
86
2.6.2 Tarefas Básicas
Assim como na Mineração de Dados, o conceito de tarefas básicas pode ser aplicado à
Mineração de Texto.
2.6.2.1
Agrupamento
Segundo Wives:
O objetivo do agrupamento de informações textuais é separar uma série de
documentos dispostos de forma desorganizada em um conjunto de grupos
que contenham documentos de assuntos similares [WIVES99].
Em se tratando de informações textuais, os algoritmos de agrupamento consideram as
palavras que compõem os documentos analisados como atributos a serem utilizados para a
comparação. São as palavras as unidades que podem ser identificadas, quantificadas,
caracterizadas e medidas.
Quando se utiliza as palavras de um documento como atributos, pode ocorrer a perda
de informações de caráter semântico. Estudos recentes procuram considerar a relação
semântica entre as palavras de um documento [LOH99], para permitir um processo mais
eficiente de agrupamento, onde os grupos de documentos possam representar melhor os
assuntos a que dizem respeito. Entretanto, estas modalidades de pesquisa requerem um grande
volume de recursos computacionais para sua efetivação, o que ainda representa um limitador
para estas técnicas.
Os agrupamentos de informações textuais podem ser classificados em relação à forma
como os grupos são construídos e em relação à complexidade do tempo de execução dos
algoritmos utilizados.
Quanto à forma, podem ser [CUT 92 apud WIVES99]:
a) Partição Total (flat partition): os objetos são distribuídos em classes distintas, não
havendo relação direta entre as classes. Os documentos são separados
exaustivamente e colocados em grupos totalmente diferentes.
b) Partição hierárquica (hierarchic partition): o processo de identificação de grupos é
geralmente realimentado recursivamente, utilizando tanto objetos quanto grupos já
identificados previamente como entrada para o processamento. Deste modo,
constrói-se uma hierarquia de grupos de objetos na forma de uma árvore.
Quanto à complexidade do tempo de execução, podem ser:
87
a) Constantes: são utilizados para se limitar o tempo máximo de execução de um
determinado conjunto de dados, evitando uma elevação exponencial deste tempo
quando da inserção de novos conjuntos [SIL 97 apud WIVES99].
b) Lineares: aumentam o tempo de processamento de maneira linear de acordo com o
aumento do conjunto de dados processados. Normalmente, neste caso são
utilizados algoritmos que não exigem a comparação de todos os objetos entre si.
c) Quadráticos: o tempo de processamento sobre um aumento exponencial com a
inclusão de novos conjuntos de objetos a serem processados. Isto ocorre como
conseqüência da necessidade de se comparar todos os objetos entre si. Assim, com
a inserção de um novo objeto provocará a comparação deste com todos os outros, e
também dos outros entre si novamente [CUT 92 apud WIVES99].
2.6.2.2
Classificação
As peculiaridades relativas à classificação em mineração de texto são estabelecidas
principalmente pelo fato de se considerar as palavras de um documento como os atributos de
comparação. Assim, operações de classificação em uma base textual exigem volumes de
processamento muito superiores aos correspondentes em bases estruturadas.
Assim, podem ser utilizadas as mesmas estratégias empregadas na mineração de
dados, quais sejam [WIVES00]:
a) Regras de inferência
b) Modelos conexionistas
c) Método de similaridade de vetores
d) Árvores de decisão
e) Classificadores de Bayes
2.6.3 Ferramenta para a Mineração de Texto
Para a mineração de texto, utilizou-se como ferramenta de apoio o aplicativo Eurekha,
desenvolvido pelo pesquisador Leandro Wives [WIVES99]. Abaixo, a tela de entrada do
Eurekha, com arquivos já carregados.
88
Figura 17: tela de entrada do Eurekha.
O Eurekha tem por objetivo auxiliar o processo de análise e recuperação de
informações provenientes de bases de dados textuais [VARGA00].
As operações fundamentais do aplicativo são relacionadas à análise do conteúdo de
textos, buscando identificar aqueles que contêm assuntos similares. Os documentos
identificados como similares são unidos em um conjunto, utilizando técnicas específicas de
agrupamento (clustering). Ao final do processo de análise, o aplicativo apresenta os diferentes
grupos encontrados e seus respectivos documentos.
89
Figura 18: grupos no Eurekha
Os documentos que o Eurekha analisa podem ser das origens mais variadas, uma vez
que a ferramenta foi construída para utilizar textos não formatados e sem uma estrutura
padrão. Isto permite que sejam analisadas inclusive páginas da Web [VARGA00].
O Eurekha apresenta algumas funções que permitem uma análise de conteúdo de uma
coleção de documentos, como uma análise lexical, onde são relacionadas as palavras contidas
em cada documento e seus respectivos valores de freqüência e relevância. Também podem ser
listadas as palavras mais relevantes de um determinado agrupamento, normalmente as que são
determinantes para a classificação do documento em determinado agrupamento.
O aplicativo oferece também uma considerável lista de palavras que podem ser
consideradas “palavras negativas”, ou stop words. Estas palavras normalmente têm caráter
genérico, e não agregam sentido no contexto da pesquisa, devendo ser desprezadas. Assim, o
Eurekha já traz cadastrados conjuntos de stop words, tais como advérbios, pronomes,
preposições, artigos, numerais cardinais e ordinais, entre outras. É possível ainda definir
grupos de stop words que sejam relacionados ao assunto pesquisado. A figura a seguir
apresenta a janela de escolha dos grupos de stop words do Eurekha.
90
Figura 19: Janela de stop words do Eurekha
2.6.3.1
Algoritmos de mineração de texto
O Eurekha utiliza algoritmos de agrupamento descritos por Wives [WIVES99]. Para o
cálculo da freqüência relativa, é utilizada uma fórmula prevista por Salton [SAL 83 apud
WIVES99], a qual indica o quanto uma palavra é relevante para o documento a partir do
estabelecimento do número de ocorrências da mesma no referido documento.
Frel x =
F abs x
N
(1)
Na fórmula (1), a freqüência relativa (Frel) de uma palavra x em um documento é
calculada dividindo-se sua freqüência absoluta (Fabs) pelo número total de palavras (N).
Para o cálculo de similaridades, Wives desenvolveu uma fórmula a partir da proposta
de Oliveira [OLI 96 apud WIVES99], denominada média por operadores fuzzy, apresentada a
seguir:
91
k
gs ( X , Y ) =
∑ gih(a, b)
h =1
n
(2)
onde:
a) gs é o grau de similaridade entre os documentos X e Y;
b) gi é o grau de igualdade entre os pesos do termo h (peso a no documento X e peso
b no documento Y);
c) h é um índice para os termos comuns aos dois documentos;
d) k é o número total de termos comuns aos dois documentos;
e) n é o número total de termos nos dois documentos, sem contagem repetida.
Na fórmula acima, o termo gi é a representação de:
(3)
onde:
Na fórmula (2) é utilizado um contador incrementado a cada vez que uma palavra é
encontrada nos dois documentos comparados. A fórmula (3) é utilizada para introduzir um
fator qualitativo no cálculo, estabelecendo pesos a partir da freqüência relativa do termo nos
dois documentos.
Ao final do processo, obtém-se uma matriz de similaridade onde os valores variam no
intervalo [0,1], o valor [0] indica documentos sem nenhuma semelhança, e o valor [1] indica
documentos muito similares [WIVES99].
2.7 Ontologia da linguagem
Na filosofia, o termo ontologia significa o estudo do ser enquanto ser e de suas
propriedades transcendentais. A preservar essa característica, sua aplicação em áreas tais
92
como a Gestão do Conhecimento ou áreas ligadas à Tecnologia da Informação, implicaria
numa abordagem mais fenomenológica, em que se procuraria concentrar mais nos fenômenos
propriamente ditos que em suas explicações. Ainda que essa caracterização não seja
rigorosamente seguida nas áreas mencionadas, definições como a de Gruber, em que “uma
ontologia é uma representação formal e explícita de uma conceitualização compartilhada”
[GRUBE93], permitem a formalização de conceitos e aspectos que, ao final, ajudam a
compreender os intrincados e complexos processos interpretativos decorrentes da condição
humana.
A Ontologia da Linguagem proposta por Flores, Winograd, Graves, Echeverría e
vários outros, segue esta linha, quando tratam da linguagem como ação e à qual atribuem um
caráter formal e estruturado. Nos termos de Echeverría [ECHEV99], por exemplo, ao mesmo
tempo em que se considera que "a linguagem não é o foco nem a preocupação principal da
ontologia da linguagem, mas seu interesse principal são os seres humanos", também se
considera que, enquanto humanos, nos constituímos na ação. Segundo Echeverría, não só
atuamos conforme somos, mas também “somos conforme atuamos” [ECHEV99], o que
confere um poderoso e sugestivo vínculo dos fenômenos interpretativos relacionados ao ser
humano às ações destes. Tal característica vem sendo progressivamente explorada na
constituição de um potente ferramental com aplicações as mais diversas e, em particular, nas
áreas relacionadas à gestão. A Ontologia da Linguagem considera que as pessoas são “seres
lingüísticos”, e apresenta uma série de postulados que justificam essa consideração, tornandose, assim, um assunto bastante extenso. No contexto deste trabalho serão apresentadas apenas
as principais considerações sobre atos lingüísticos e juízos, itens considerados fundamentais
para a realização deste estudo.
2.7.1 Atos lingüísticos básicos
Basicamente, os atos lingüísticos se constituem de afirmações e declarações.
As afirmações são atos lingüísticos originados da observação factual sobre uma
“realidade externa” que interlocutores possam observar. Decorrem da percepção sensorial
humana e são, em geral, tidas como “objetivas” (embora o mais correto fosse considerá-las
“intersubjetivas”, dado que não dependem exclusivamente da pessoa que as enuncia). São
verdadeiras ou falsas, conforme se revelem (ou não) óbvias de imediato ou sejam passíveis de
serem evidenciadas por qualquer “testemunha”. Segundo essa perspectiva, com as afirmações,
“a palavra segue o mundo”.
93
As declarações são atos lingüísticos que, de forma muito mais eloqüente, alteram o
ambiente em que se inserem o observador declarante com os que com ele estão associados no
contexto em que se dá a declaração.
As declarações se pautam na autoridade que o
observador declarante tem para proferi-las, e, ao fazê-lo, estabelece uma nova realidade a
partir de sua declaração. Com as declarações, ao contrário das afirmações, “o mundo segue a
palavra”.
A tabela a seguir descreve sumariamente conceitos relacionados às afirmações e às
declarações[ECHEV99]:
Tabela 4: Sobre afirmações e declarações
AFIRMAÇÕES
DECLARAÇÕES
• Observador relata o que observa.
• A palavra segue o mundo.
• Podem ser:
− Falsas ou verdadeiras de acordo com a
evidência que se prove seja aceita pelos
demais;
− Relevantes ou irrelevantes de acordo com
nossas inquietações.
•
•
•
•
COMPROMISSO
COMPROMISSOS
Observador gera novos contextos através do falar.
O observador opta, toma decisões.
O mundo segue a palavra.
Podem ser: válidas ou inválidas, de acordo com a
autoridade conferida a quem as profere.
• Quando afirma, o observador assume o • Quando declara, o observador assume os seguintes
compromisso de que suas afirmações são
compromissos:
verdadeiras.
− Que suas declarações sejam válidas (ou seja, que
tenha autoridade para fazê-las).
− Que atuará de forma consistente com o que
declara.
A tabela abaixo relaciona os principais itens relacionados às promessas [ECHEV99]:
Tabela 5: Sobre promessas
ITEM
Elementos
COMPONENTE
Orador
Ouvinte
Ação
Fator tempo
Processos
Fazer a promessa
Cumprir a promessa
Ações lingüísticas
Oferta + declaração de aceitação
94
ITEM
COMPONENTE
Petição + declaração de aceitação
Domínios
Sinceridade: o conteúdo de conversações e compromissos
públicos é igual ao conteúdo de conversações e compromissos
privados
Competência: condição de efetiva execução da parte de quem
se compromete
2.7.2 Juízos
Juízos pertencem à classe das declarações. Como toda declaração, os juízos podem
ser: válidos ou inválidos, de acordo com a autoridade conferida a quem os faz. Além disso, os
juízos podem ser ainda: fundamentados ou não-fundamentados (ou fundados ou infundados),
de acordo com as ações executadas no passado que são utilizados para respaldá-los.
Juízos são como bússolas para o futuro. Quando se estabelecem juízos, utiliza-se no
presente experiências do passado como guia para o futuro. Por exemplo, toma-se a
declaração: Miguel é uma pessoa sensata. A partir de alguma observação do passado - Miguel
realizou algo no passado - emite-se a declaração que Miguel se mostra, aqui e agora, no
presente, uma pessoa sensata. Então, podem-se esperar, no futuro, atitudes sensatas de
Miguel.
Fundamentação de juízos
São cinco os passos para a fundamentação de juízos, a saber:
a) Definir com qual propósito se estabelece o juízo: sempre existe um motivo para a
emissão de um juízo. Quando é emitido, abrem-se ou fecham-se possibilidades no
futuro. Por exemplo: quando é emitido o juízo “Mário é um executivo eficiente”
antecipam-se algumas ações no futuro, como a delegação a Mário de tarefas
relevantes que somente pessoas eficientes podem cumprir.
95
b) Definir em que domínio está sendo julgado: quando se emite um juízo,
normalmente isto é feito dentro de um domínio particular de observação, ou seja, o
conjunto de parâmetros que se possui ao emitir o juízo.
c) Definir com que padrões está sendo julgado: os padrões de julgamento se
constituem do conjunto de comportamentos normalmente praticados, do ponto de
vista histórico, cultural, moral e social.
d) Definir quais são as afirmações de suporte que respaldam este juízo: as afirmações
de suporte podem ou não validar os juízos. Estas são constituídas de observações
objetivas de fatos que podem ser descritos e comprovados.
e) Fundamentar o juízo com outras pessoas: os juízos, por serem essencialmente
discrepáveis (uma vez que dependem genuinamente do observador que os emite) e
em geral temporários (uma vez que “ação mata juízo” e novas ações por parte da
entidade julgada podem perfeitamente descaracterizar o juízo original!), cumpre
resguardar-se no processo de fundamentação, compartilhar esse processo com
outras pessoas, as quais, por virem de outras histórias e experiências podem trazer
nova luz às interpretações vigentes.
96
CAPÍTULO 3
3 METODOLOGIA
3.1 Considerações gerais
3.1.1 Coleta e análise de dados
Os dados necessários para a pesquisa foram obtidos a partir da exploração de um
recorte da base de dados do Currículo Lattes. Esta base de dados encontra-se atualmente
hospedada em computadores do CNPq. O sistema de armazenamento é composto por
servidores Sun, sistema operacional Solaris 5.7 e gerenciador de bancos de dados Oracle
Server 8i. A partir da extração de um número limitado de registros desta base, foram aplicadas
técnicas de Descoberta de Conhecimento em Bases de Dados e Descoberta de Conhecimento
em Textos para efetuar a preparação dos dados para o processo de mineração, tantas vezes
quanto foi necessário para a obtenção de padrões de comportamento úteis.
3.1.2 Delimitação do estudo
Este trabalho contemplou a pesquisa de algoritmos de Mineração de Dados e
Mineração de Texto, no contexto do assunto Descoberta de Conhecimento em Bases de
Dados e da Gestão do Conhecimento.
Não foi construída uma ferramenta completa e acabada, mas sim o desenvolvimento
de estudos de casos com a utilização de algoritmos de Mineração de Dados e Mineração de
Texto sobre dados da Plataforma Lattes, para a geração de conhecimento organizacional.
3.2 Especificação da Pesquisa
Este trabalho apresenta dois estudos de caso, um utilizando Mineração de Dados e
outro utilizando Mineração de Textos. Ambos foram realizados a partir de dados obtidos da
97
Plataforma Lattes, respectivamente: definição do perfil dos docentes que orientam alunos de
iniciação científica, a partir de informações sobre concessões de bolsas do PIBIC – Programa
de Institucional de Bolsa de Iniciação Científica; e geração de agrupamentos para a
identificação de linhas de pesquisa em uma universidade a partir de informações sobre
publicações de seus pesquisadores e docentes, a partir dos títulos das publicações e de suas
palavras-chave.
3.2.1 Perfil do orientador do PIBIC
Com o objetivo de exemplificar o potencial de geração de conhecimento
organizacional da Plataforma Lattes, preparou-se, seguindo as metodologias citadas
anteriormente, um estudo para a definição do perfil de orientadores do PIBIC – Programa
Institucional de Bolsa de Iniciação Científica.
O PIBIC – Programa Institucional de Bolsa de Iniciação Científica, é patrocinado pelo
CNPq, e foi criado para promover a iniciação do aluno na produção do conhecimento e sua
convivência cotidiana com o procedimento científico em suas técnicas, organização e
métodos, despertar vocação científica e incentivar novos talentos potenciais entre estudantes
de graduação, mediante suas participações em projetos de pesquisa, preparando-os para o
ingresso na pós-graduação.
Segundo o CNPq, os objetivos específicos do programa são [CNPQ03a]:
a) Propiciar à instituição um instrumento de formulação de política de iniciação à
pesquisa para alunos de graduação.
b) Estimular uma maior articulação entre a graduação e pós-graduação.
c) Contribuir para a formação de recursos humanos para a pesquisa.
d) Contribuir de forma decisiva para reduzir o tempo médio de permanência dos
alunos na pós-graduação.
e) Estimular pesquisadores produtivos a envolverem alunos de graduação nas
atividades científica, tecnológica e artístico-cultural.
f) Proporcionar ao bolsista, orientado por pesquisador qualificado, a aprendizagem
de técnicas e métodos de pesquisa, bem como estimular o desenvolvimento do
pensar cientificamente e da criatividade, decorrentes das condições criadas pelo
confronto direto com os problemas de pesquisa.
98
Enquanto gestor do programa, o CNPq necessita de parâmetros para avaliar o
desempenho dos bolsistas e dos orientadores, com o objetivo de corrigir eventuais distorções
e proporcionar uma distribuição mais eficiente dos valores destinados ao programa.
Um dos indicadores que se deseja apurar é o perfil dos orientadores que obtiveram
maior sucesso em seu trabalho de orientação. Para tal, foi definido como problema para
Mineração de Dados o estabelecimento de uma relação entre os alunos que receberam bolsas
do programa de iniciação científica, e que posteriormente obtiveram titulação em programas
de mestrado e/ou doutorado.
A partir de informações obtidas nos sistemas de administração dos programas de
fomento do CNPq e da base de dados da Plataforma Lattes, procurou-se caracterizar os
orientadores conforme o sucesso de seus ex-orientados em um programa de mestrado ou
doutorado.
3.2.2 Agrupamento de docentes a partir de suas publicações
A revolução tecnológica e o grande avanço nas áreas de pesquisa estão gerando, cada
vez mais, linhas de trabalho e pesquisa que abrangem uma grande variedade de assuntos.
Os gestores de programas de graduação e pós-graduação nas instituições de ensino,
bem como os gestores de unidades de pesquisa, geralmente necessitam de informações sobre
as áreas de atuação e áreas de interesse de seus colaboradores, no intuito de aproveitar melhor
o potencial criativo do grupo para o desenvolvimento dos trabalhos de educação e pesquisa.
Procurando contribuir com a geração de conhecimento organizacional sobre essa
questão, este estudo de caso buscou identificar, a partir de técnicas de Mineração de Textos,
as principais linhas de pesquisa de um determinado conjunto de docentes e pesquisadores, a
partir de exploração das informações armazenadas no Currículo Lattes.
Foram utilizadas informações sobre os trabalhos científicos e tecnológicos do grupo de
professores do programa Mestrado em Gestão do Conhecimento e da Tecnologia da
Informação da Universidade Católica de Brasília, armazenados na base de dados da
Plataforma Lattes, utilizando-se os títulos dos trabalhos e publicações, suas palavras-chaves e
as áreas de interesse cadastrados no Currículo Lattes.
99
3.3 Metodologia utilizada nos estudos de caso
Foram utilizadas duas metodologias para o desenvolvimento dos estudos de caso. Do
ponto de vista de Gestão do Conhecimento, utilizou-se o Modelo Genérico de Gestão do
Conhecimento proposto por Stollenwerk [STOLL01]. Do ponto de vista de Descoberta de
Conhecimento em Bases de Dados e Descoberta de Conhecimento de Texto, utilizou-se o
método proposto por Fayyad [FAYYA96].
Tanto o Modelo Genérico de Gestão do Conhecimento quanto o Método de
Descoberta de Conhecimento em Bases de Dados foram descritos no Capítulo 2 .
A utilização destes métodos foi de fundamental importância para o desenvolvimento
dos estudos de caso. Inicialmente, procurou-se identificar os pontos de convergência entre
eles, e concluiu-se que os dois modelos podem ser utilizados em conjunto, sendo que a
Descoberta de Conhecimento pode ser utilizada como uma das etapas do processo de Gestão
do Conhecimento.
A partir do Modelo Genérico de Gestão do Conhecimento de Stollenwerk, verificou-se
que a Descoberta de Conhecimento em Bases de Dados possui maior afinidade com a fase de
Criação, por considerar que o conhecimento descoberto a partir de bases de dados é um
conhecimento novo, fruto da exploração e do relacionamento de informações anteriormente
armazenadas, mas que ainda não representavam conhecimento organizacional. Neste
contexto, a Descoberta de Conhecimento em Bases de Dados é mais uma das ferramentas que
podem ser utilizadas para a geração de conhecimento nas organizações. Não é o único meio,
mas pode ser considerado um importante recurso para a geração de conhecimento. As figuras
a seguir representam o relacionamento entre os dois modelos.
Figura 20: Gestão do Conhecimento e Descoberta de Conhecimento em BD
100
Figura 21: interação da Gestão do Conhecimento e da Descoberta de Conhecimento
A ênfase deste trabalho é na geração de conhecimento organizacional a partir da
aplicação de técnicas de Mineração de Dados e Mineração de Textos. Considerando que estas
técnicas estão localizadas na etapa Criação do Conhecimento do Modelo Genérico de Gestão
do Conhecimento de Stollenwerk, as outras etapas deste modelo serão citadas apenas para
contextualizar a pesquisa no âmbito da Gestão do Conhecimento, mas não serão
profundamente exploradas.
3.4 Etapas da pesquisa
A partir das metodologias acima mencionadas, procedeu-se a execução do conjunto de
etapas relacionadas em cada uma delas. É necessário esclarecer que o Modelo Genérico de
Gestão de Conhecimento proposto por Stollenwerk [STOLL01] propõe duas etapas que são
relativamente similares, quais sejam: a etapa de captura e aquisição de conhecimento e a etapa
de criação de conhecimento. Segundo Stollenwerk [STOLL01]:
Uma questão discutida na literatura é se há uma diferença significativa entre
as ações de captura do conhecimento já existente na organização e as de criar
novo conhecimento.
101
E ainda: “ambas agregam novos conhecimentos ao macroprocesso de Gestão de
Conhecimento das organizações” [STOLL01]. Assim, optou-se neste trabalho por utilizar as
sub-etapas destas duas etapas concomitantemente, por melhor se adequar ao escopo proposto
e à base de dados utilizada.
A seguir, o detalhamento de cada uma das etapas cumpridas. Para fins de organização
dos itens apresentados, serão apresentas em um mesmo grupo as tarefas relativas à Gestão do
Conhecimento, e posteriormente, em outro grupo, as tarefas relativas aos processos de
Descoberta de Conhecimento em Bases de Dados e Descoberta de Conhecimento em Texto.
3.4.1 Gestão do Conhecimento
3.4.1.1
Identificação das competências críticas
Nesta etapa definiu-se, como competência crítica para a gestão de Ciência e
Tecnologia, dentro do escopo desta pesquisa, o conhecimento dos perfis profissionais e de
produtividade dos pesquisadores e docentes que fizeram parte do conjunto de dados
pesquisado.
Esta identificação ocorreu a partir de reuniões com docentes da Universidade Católica
de Brasília, e foi corroborada por gestores de Ciência e Tecnologia do CNPq, organização
responsável pela Plataforma Lattes.
Esta etapa seguiu as seguintes orientações [STOLL01]:
a) Criação de agenda de competências essenciais: segundo mencionado
anteriormente, foi definido como competência essencial, para este trabalho, o
conhecimento dos perfis profissionais e de produtividade dos pesquisadores e
docentes que fizeram parte do conjunto de dados pesquisado. Este item foi
considerado suficiente e adequado como competência necessária para o
desenvolvimento deste estudo.
b) Identificação de lacunas entre as competências existentes e as competências
necessárias: a partir da competência essencial definida, foi estabelecido que seria
importante a construção de mecanismos para melhor aproveitar as informações
sobre os pesquisadores e docentes armazenadas nos diversos módulos da
Plataforma Lattes. Apesar de já existirem ferramentas de consultas às informações
ali armazenadas, buscar-se-ia a geração de conhecimento organizacional a partir
102
das técnicas de Descoberta de Conhecimento em Bases de Dados que permitissem
reduzir a distância entre a competência existente e a competência desejada.
c) Desdobramento dessas competências nas áreas de conhecimento: a
competência essencial identificada foi relacionada com conhecimentos em
tecnologia da informação, de onde vieram as ferramentas para a exploração da
base de dados e para a geração de conhecimento a partir da execução de
algoritmos apropriados e utilizando recursos computacionais.
d) Identificação das fontes internas e externas de conhecimento: foi definida,
como fonte potencial para a geração do conhecimento necessário para a
competência estabelecida, a base de dados da Plataforma Lattes.
e) Proposição de soluções para a redução da distância entre as competências
existentes e as competências necessárias: para a redução desta distância, foi
proposta a exploração de informações armazenadas na base de dados da
Plataforma Lattes no intuito de se gerar conhecimento organizacional que
permitisse o incremento da capacidade de decisão dos gestores de Ciência e
Tecnologia.
3.4.1.2
Captura, aquisição e criação de conhecimento
Definida a competência essencial relacionada com o escopo deste trabalho, passou-se
a tratar da etapa de captura e aquisição de conhecimento. Esta etapa seguiu os seguintes
passos [STOLL01]:
a) O primeiro passo foi procurar identificar fontes – internas ou externas – do
conhecimento pretendido, ou seja, conhecimento sobre o perfil dos pesquisadores
e docentes que fizeram parte dos estudos de caso. Como o objeto principal deste
estudo é a geração de conhecimento organizacional a partir da Plataforma Lattes,
esta foi naturalmente escolhida como principal fonte a ser pesquisada e tratada
para no intuito de se adquirir o conhecimento desejado.
b) O passo seguinte foi a seleção das estratégias de aquisição. Como o objeto deste
estudo é a utilização de técnicas de Descoberta de Conhecimento em Bases de
Dados e Descoberta de Conhecimento em Texto para a geração de conhecimento
organizacional, definiu-se como método de aquisição a exploração de dados da
Plataforma Lattes utilizando procedimentos e algoritmos específicos para extração
de conhecimento.
103
c) O terceiro passo se constituiu na aquisição e formalização do conhecimento.
Utilizou-se das metodologias de Descoberta de Conhecimento em Bases de Dados
e Descoberta de Conhecimento em Textos para explorar partes da base de dados da
Plataforma Lattes. Estas tarefas de exploração serão detalhadas em seções
posteriores.
Os trabalhos de Descoberta de Conhecimento em Bases de Dados são fortemente
relacionados à experimentação, pois é necessário executar os algoritmos, avaliar os resultados
e submeter ciclicamente os dados até que sejam definidos os melhores algoritmos e
parâmetros para um determinado conjunto de informações.
3.4.1.3
Seleção e validação
Esta etapa do Modelo Genérico de Gestão do Conhecimento tem objetivos
semelhantes aos objetivos da etapa de Interpretação e Avaliação da metodologia de
Descoberta de Conhecimento. Em ambos os casos, esta etapa procura identificar, entre os
produtos gerados pelas etapas anteriores, aqueles que são significativos.
Assim, os seguintes itens deverão ser observados:
a) Analisar o conjunto de padrões obtidos e os grupos gerados da Mineração de
Dados e Mineração de Texto.
b) Identificar, a partir do conhecimento já existente, os grupos e padrões que podem
agregar novos conhecimentos que sejam úteis à organização.
c) Indicar a necessidade de repetição das etapas anteriores, se isto representar a
possibilidade de obtenção de padrões e grupos mais interessantes para a geração de
conhecimento útil à organização.
Esta validação deverá ser feita por especialistas no assunto pesquisado, que, utilizando
o conhecimento prévio, o histórico da organização, as experiências pessoais, analisarão os
padrões e grupos gerados pelas técnicas de Descoberta de Conhecimento em Bases de Dados
e Descoberta de Conhecimento em Texto em busca daqueles padrões e agrupamentos que
podem gerar novos conhecimentos para organização.
3.4.1.4
Etapas posteriores
Como não é objetivo deste trabalho implementar uma estrutura computacional
completa, e sim elaborar estudos de casos que validem as discussões apresentadas, os itens a
seguir se constituirão em propostas de arquitetura de Tecnologia da Informação, ferramentas e
104
bancos de dados que poderão ser posteriormente implementados no intuito de cumprir as
etapas do Modelo Genérico de Gestão do Conhecimento de Stollenwerk. Serão aqui
apresentados para se contextualizar os processos de Descoberta de Conhecimento em Bases
de Dados e Descoberta de Conhecimento em Textos com a Gestão do Conhecimento.
Organização e armazenagem
A etapa posterior à seleção e validação do conhecimento é a sua organização e
armazenagem, para permitir que o conhecimento capturado ou gerado seja preservado para a
sua posterior utilização pelos componentes da instituição.
A formalização do conhecimento capturado ou gerado tem por objetivo ainda
possibilitar uma recuperação rápida, fácil, correta e segura deste conhecimento.
Apesar de não ser uma obrigatoriedade, a utilização de ferramentas da Tecnologia da
Informação é importante para a organização e o armazenamento do conhecimento obtido.
Para isso, os seguintes itens deverão ser observados:
a) Classificar o conhecimento anteriormente avaliado e selecionado.
b) Definir a arquitetura de Tecnologia da Informação que serão utilizadas.
c) Definir as ferramentas de Tecnologia da Informação que poderão ser utilizadas ou
construídas
para
o
armazenamento,
manutenção
e
disponibilização
do
conhecimento.
d) Criar e gerenciar os bancos de dados que armazenarão o conhecimento
formalizado.
Compartilhamento
Para que possa ser convertido em vantagens competitivas para a organização, o
conhecimento deve ser tratado de forma que possa ser compartilhado entre os membros desta
organização. Entretanto, a prática demonstra, em geral, que muitas informações e
conhecimento ficam restritos a pequenos grupos de indivíduos.
Novamente, a importância de se utilizar de recursos da Tecnologia da Informação é
salientada, no intuito de se permitir que o conhecimento organizacional esteja disponível para
a utilização por todos os que dele vierem necessitar.
105
Aplicação
O objetivo do processo de Descoberta de Conhecimento é a possibilidade de aplicação
prática dos conhecimentos criados ou apreendidos. Não basta que estes sejam descobertos,
selecionados, avaliados, armazenados, distribuídos. Não gerarão nenhuma vantagem
competitiva se não forem efetivamente aplicados nas atividades da organização.
Para tal, é necessário que as organizações se empenhem no sentido de utilizar o
conhecimento organizacional para produzir benefícios concretos, na melhoria do desempenho,
no lançamento de novos produtos, na conquistas de novos mercados, no atendimento
satisfatório de seus clientes [STOLL01].
É importante observar que a própria aplicação do conhecimento organizacional pode
gerar mais conhecimento para a organização, se este processo for devidamente registrado,
avaliando-se objetivamente os ganhos obtidos, as dificuldades encontradas, os benefícios
alcançados. É um processo cíclico que pode aumentar continuamente o conhecimento da
organização.
3.4.2 Descoberta de Conhecimento em Bases de Dados
Para este estudo de caso, foi escolhida uma avaliação do perfil dos orientadores de
alunos de orientação científica do PIBIC – Programa Institucional de Bolsa de Iniciação
Científica.
A partir de uma necessidade prática dos gestores do programa no CNPq, buscou-se
identificar, através da aplicação de técnicas de Descoberta de Conhecimento em Bases de
Dados, o perfil dos orientadores do PIBIC que obtiveram os melhores resultados junto aos
seus alunos participantes do programa.
As informações necessárias para a condução do estudo de caso foram obtidas da base
de dados da Plataforma Lattes, dos sistemas de Fomento do CNPq e da base de dados de
alunos titulados da CAPES.
Os dados originais se encontravam armazenados em bases de dados relacionais Oracle
8i, instaladas em servidores Sun Microsystems.
As ferramentas utilizadas para a extração e manipulação dos dados foram:
a) Oracle SQL*PLUS
b) Linguagem de programação Oracle PLSQL
c) Editor de textos vi
106
d) Planilha Microsoft Excel
e) Aplicativo de mineração de dados WEKA
O estudo de caso foi delimitado a partir de algumas considerações sobre os dados
armazenados e seus períodos de coleta e processamento, conforme segue:
a) O CNPq armazena em seus arquivos informações históricas sobre o programa de
bolsas para iniciação científica. Entretanto, encontrava-se à disposição na base de
dados relacionais Oracle 8i apenas os dados coletados a partir do ano de 1994.
Essa foi então a data inicial para a extração de informações sobre os alunos
beneficiários e os docentes que os orientaram.
b) O principal fator para definir o sucesso do programa da iniciação científica, no
contexto deste estudo de caso, foi a avaliação da quantidade de alunos
beneficiários do programa que posteriormente obtiveram titulação stricto sensu.
Assim, foi necessário estabelecer um período de corte dos dados de entrada das
bolsas de PIBIC em uma data que fosse coerente com uma média de tempo que o
aluno leva para ingressar em um programa de pós-graduação, cursá-lo e concluí-lo,
contado após a conclusão do curso de graduação. O tempo mínimo estipulado para
tal foi de dois anos. Portanto, foram coletados dados relativos às bolsas de PIBIC
até o período de 1999, este inclusive.
c) Todos os orientadores considerados para este estudo de caso deveriam possuir
cadastrado o seu Currículo Lattes, uma vez que esta foi a fonte principal de
informações para a identificação do perfil do pesquisador.
A seguir, serão apresentadas as atividades executadas em cada uma das etapas da
referida metodologia.
3.4.2.1
Seleção
A partir das definições sobre o conjunto de dados que seria utilizado, o trabalho de
seleção se constituiu em um esforço para coletar o conjunto de registros necessários a partir
das tabelas relacionais dos Sistemas de Fomento, da Plataforma Lattes e da base de alunos
titulados da CAPES.
Do sistema de controle das operações de Fomento do CNPq foram extraídas as
informações a respeito das bolsas de PIBIC concedidas no período de 1994 a 1999. Estes
dados
foram
coletados
a
ORIENTADORES_PROCESSOS.
partir
das
tabelas
relacionais
PROCESSOS
e
107
Das tabelas relacionais do Currículo Lattes foram retiradas as informações pessoais
dos orientadores envolvidos com as bolsas de PIBIC.
Da tabela relacional ALUNOS_TITULADOS_CAPES foram retiradas as informações
sobre os estudantes que obtiveram titulação stricto sensu no período de 1996 a 2002. Estas
datas foram definidas seguindo a orientação inicial de utilizar o tempo mínimo de dois anos
após a conclusão do curso de graduação pelo aluno beneficiário de bolsas do PIBIC como
referência para o ingresso e conclusão de programas de pós-graduação.
Das tabelas do Diretório de Instituições foram retiradas informações sobre as instituições
relacionadas aos orientadores e alunos de PIBIC.
Ao fim desta etapa, obteve-se como resultado um conjunto de tabelas populadas com
os recortes de informações correspondentes das tabelas originais. A seguir, um resumo da
quantidade de registros contemplados:
Tabela 6: quantidade de processos de IC por ano
ANO
QUANTIDADE DE PROCESSO DE INICIAÇÃO CIENTÍFICA
1996
13.963
1997
15.433
1998
16.902
1999
16.555
2000
16.403
2001
18.045
2002
17.645
2003
15.506
TOTAL
130.452
A seguir, foram obtidas as informações da CAPES sobre os alunos titulados stricto
sensu, no período de 1996 a 2002. A seguir, a distribuição por ano dos registros selecionados:
108
Tabela 7: Quantidade de alunos titulados por ano
ANO
QUANTIDADE DE ALUNOS TITULADOS
1996
13.509
1997
15.637
1998
16.745
1999
20.243
2000
23.724
2002
45.503
TOTAL
135.361
3.4.2.2
Pré-processamento
A partir dos dados obtidos na etapa de seleção, foram geradas tabelas de trabalho com
as informações necessárias ao estudo de caso. Estas tabelas contêm as informações de
detalhes dos processos de PIBIC, os códigos dos orientadores e alunos, as informações
curriculares dos orientadores, enfim, os dados necessários para a montagem dos arquivos de
entrada para a ferramenta de mineração de dados.
Como o foco inicial é no orientador, os dados foram organizados e modelados
considerando o código do orientador como chave principal. Este formato viria a facilitar as
etapas posteriores de transformação e mineração de dados.
Uma das atividades desta etapa é a seleção de colunas das tabelas principais. Para a
geração das tabelas de trabalho, foram selecionadas apenas as colunas que traziam as
informações consideradas necessárias para o estudo de caso. Este processo tem por objetivo
reduzir o volume de dados trabalhados, com reflexos positivos no tempo de processamento.
Foram tratados ainda, nesta etapa, os registros cujas colunas selecionadas
apresentavam algum tipo de ruído, ou seja, alguma inconsistência. Foram encontrados alguns
registros com datas incoerentes, mas, em geral, a qualidade dos dados de entrada foi
considerada satisfatória. Esta boa qualidade dos dados decorreu da utilização de restrições de
entrada implementadas tanto no nível do banco de dados quanto no nível da aplicação,
diminuindo consideravelmente a necessidade de aplicação de algoritmos para a redução de
ruídos nesta etapa.
109
Nesta etapa foi ainda realizado um trabalho para identificar os bolsistas do programa
de bolsa de iniciação científica que constavam da base de titulados da CAPES. Como as bases
de dados do CNPq e da CAPES não são originalmente integradas , foi necessário utilizar de
algoritmos de comparação textual para incrementar a qualidade da pesquisa. O primeiro passo
foi efetuar uma pesquisa a partir do nome dos alunos. Para aumentar o número de acertos, foi
utilizada uma rotina para eliminar caracteres especiais e excessos de espaços das colunas de
nome nas tabelas envolvidas. A seguir, todos os nomes tiveram seus caracteres transformados
em letras maiúsculas.
Para evitar problemas com homônimos, foi utilizada a coluna da tabela da CAPES que
traz informações sobre um documento de identificação do aluno, utilizando esta para
comparar com as informações armazenadas na base de dados do CNPq. Ao final deste
trabalho, foram identificados 7.325 ex-bolsistas do programa de bolsas de iniciação científica
que constavam da base de dados de alunos titulados da CAPES.
Tabela 8: Ex-bolsistas PIBIC titulados stricto sensu
ANO
3.4.2.3
EX-BOLSISTAS TITULADOS
1996
127
1997
180
1998
485
1999
1.158
2000
2.007
2002
3.368
TOTAL
7.325
Transformação
Uma vez escolhidas as tabelas e as colunas necessárias para o estudo a ser realizado,
fez-se necessário efetuar uma série de alterações nos dados, tanto na sua forma de
apresentação quanto no conteúdo de algumas colunas. Foram realizadas:
a) Totalizações por orientador: para utilização da ferramenta de mineração de dados,
foi necessário transformar informações sobre a produção científica e tecnológica
em colunas que representam quantidade. As tabelas originais, segundo sua
modelagem, armazenam um registro para cada produção cadastrada. Este formato
110
não é adequado para servir de entrada para os algoritmos de mineração. Assim,
fez-se necessário criar colunas específicas para os tipos de produção que seriam
considerados, e armazenar nestas colunas os totais de trabalhos publicados. Para
isso, foram utilizadas rotinas escritas na linguagem PLSQL e executadas no banco
de dados onde estavam armazenadas as tabelas temporárias. Estes totais foram
obtidos a partir dos seguintes tipos de trabalho:
a.1. Produção artística e cultural
a.2. Artigos publicados
a.3. Livros publicados
a.4. Capítulos de livros publicados
a.5. Dissertações orientadas
a.6. Teses orientadas
b) Substituição de valores para torná-los compatíveis entre si: foi necessário realizar
alterações no conteúdo de algumas colunas para compatibilizar os seus valores.
Por exemplo: algumas datas estavam no formato DD/MM/AAAA, enquanto outras
foram armazenadas como campos texto no formato dd-mm-aa. Foram então
utilizadas rotinas escritas em linguagem PLSQL e executadas no banco de dados
para a adequação destes valores.
c) Discretização de variáveis11: para a utilização dos algoritmos de mineração de
dados, foi necessário efetuar um trabalho de discretização de variáveis, onde
valores de domínios que apresentam um conjunto muito elevado de valores foram
transformados em faixas específicas. Por exemplo: a coluna idade, obtida
inicialmente pela aplicação de um cálculo a partir da data de nascimento
armazenada, foi transformada em um número que representa sua posição em uma
faixa de valores. Assim, foram criadas inicialmente quatro faixas para representar
a idade do orientador:
c.1. Menor que 40 anos
c.2. Entre 40 e 50 anos
c.3. Entre 50 e 60 anos
11
Discretização de variáveis: processo que consiste em estabelecer faixas de valores para itens excessivamente
granulares.
111
c.4. Maior que 60 anos
d) Transformações e filtros de caracteres: foi necessário utilizar rotinas para efetuar
algumas transformações em campos de natureza textual, para aumentar a eficiência
dos algoritmos de mineração que seriam posteriormente utilizados. Destas colunas
foram retirados os caracteres especiais, os espaços em excesso, todos os caracteres
alfabéticos foram transformados em letras maiúsculas. Este processo foi realizado
através da aplicação de rotinas escritas na linguagem PLSQL e executadas no
banco de dados onde se encontravam armazenadas as tabelas temporárias.
Para que a ferramenta de mineração de dados pudesse ser utilizada, foi necessário
preparar um conjunto de arquivos no formato indicado pelo WEKA. Para tal, as tabelas
relacionais utilizadas foram consolidadas em um modelo desnormalizado, onde um registro
contém todas as informações totalizadas de um determinado orientador.
Abaixo, um exemplo de arquivo gerado para a ferramenta WEKA:
@RELATION Orientadores_0015
@ATTRIBUTE COD_RH_ORIENTADOR NUMERIC
@ATTRIBUTE STA_CURRICULO {S,N}
@ATTRIBUTE TIT_MAXIMA {Graduacao,Especializacao,Mestrado,Doutorado,Posdoutorado,Livre-docencia,Nivel_tecnico}
@ATTRIBUTE ANOS_TITULACAO NUMERIC
@ATTRIBUTE IDADE NUMERIC
@ATTRIBUTE SEXO {M,F}
@ATTRIBUTE FAIXA_IDADE {<40,40-50,50-60,>60}
@ATTRIBUTE QTD_ORIENT_TOTAL NUMERIC
@ATTRIBUTE QTD_ORIENT_TITUL NUMERIC
@ATTRIBUTE PRD_ART_COMP NUMERIC
@ATTRIBUTE PRD_TRB_PUBL NUMERIC
@ATTRIBUTE PRD_LVR_PUBL NUMERIC
@ATTRIBUTE PRD_LVR_CAPT NUMERIC
@ATTRIBUTE PRD_ORT_DISS NUMERIC
@ATTRIBUTE PRD_ORT_TESE NUMERIC
@ATTRIBUTE PERC_ORIENT_TITUL NUMERIC
@ATTRIBUTE FAIXA_TITUL_TOTAL {0,1,2,3,4,5,6,7,8,9}
@ATTRIBUTE FAIXA_ORIENT_TOTAL {1,2,3,4,5,6,7,8,9}
@ATTRIBUTE FAIXA_ANOS_TITUL {1-10,10-20,20-30,30-40,40-50,50-60,<1}
@ATTRIBUTE CLASSE {BM,FR,OT}
@data
0000849502,N,Nivel_tecnico,999,43,M,40-50,9,1,0,0,0,0,0,0,10,1,6,?,BM
0000858587,N,Nivel_tecnico,999,55,M,50-60,4,0,0,0,0,0,0,0,0,0,4,?,FR
0000009890,S,Pos-doutorado,4,53,F,50-60,4,0,1,1,1,5,2,0,0,0,4,1-10,FR
0000088129,S,Doutorado,3,54,F,50-60,8,0,1,8,0,4,1,0,0,0,6,1-10,OT
0000088137,S,Doutorado,23,57,M,50-60,13,2,0,14,1,0,12,0,10,2,7,20-30,BM
Figura 22: arquivo de entrada para o WEKA
112
Esta etapa demandou um considerável esforço, uma vez que foram necessárias
sucessivas operações de transformação de dados. Ao final desta, obteve-se como resultado as
tabelas temporárias carregadas e transformadas e os arquivos de entrada do WEKA gerados.
3.4.2.4
Mineração de Dados
Uma vez que a base de dados estava consolidada e preparada para gerar os arquivos no
formato do aplicativo que seria utilizado para a mineração de dados, passou-se à etapa de
mineração propriamente dita.
Para tal, foi necessário gerar um arquivo no formato definido pela ferramenta, onde
cada registro contém informações consolidadas do fato que se deseja estudar. Como o foco da
pesquisa é orientador de iniciação científica, os registros foram agrupados pela chave do
orientador.
A partir dos dados consolidados, utilizou-se o aplicativo WEKA para realizar diversas
sessões de mineração de dados. Foi escolhido o algoritmo de classificação J48, que gera
árvores de decisão, utilizadas para o processo de classificação das informações.
3.4.2.5
Interpretação e avaliação
Após a etapa de mineração, Fayyad [FAYYA96] propõe uma etapa onde o produto
final é interpretado e avaliado com o objetivo de identificar os resultados potencialmente úteis
para a organização.
Por questões de organização deste trabalho, esse assunto será tratado no capítulo
seguinte.
3.4.3 Descoberta de Conhecimento em Textos
Para este estudo de caso, foi realizada uma análise da produção científica e
tecnológica dos docentes do programa MGCTI – Mestrado em Gestão do Conhecimento e da
Tecnologia da Informação da Universidade Católica de Brasília, a partir das informações
cadastradas no Currículo Lattes, com o objetivo de identificar as linhas de pesquisa destes
docentes. A partir desta identificação, gerar conhecimento organizacional para ser utilizado na
geração de políticas de gestão do referido programa.
113
As informações necessárias para a condução do estudo de caso foram obtidas da base
de dados do Currículo Lattes, e da base de dados do sistema de controle de recursos humanos
da Universidade Católica de Brasília.
Os dados originais do Currículo Lattes se encontravam armazenados em bases de
dados relacionais Oracle 8i, instaladas em servidores Sun Microsystems.
As ferramentas utilizadas para a extração e manipulação dos dados foram:
a) Oracle SQL*PLUS
b) Linguagem de programação Oracle PLSQL
c) Editor de textos vi
d) Planilha Microsoft Excel
e) Aplicativo de mineração de texto Eurekha
O estudo de caso foi delimitado a partir de algumas considerações sobre os dados
armazenados e seus períodos de coleta e processamento, conforme segue:
f) As informações sobre a produção científica e tecnológica de cada docente foram
extraídas da base de dados de currículos da Plataforma Lattes. Assim, somente os
itens de produção que se encontravam cadastrados naquela base de dados na data
da coleta foram considerados.
g) Foram consideradas as datas de publicação de cada trabalho, para fins de
identificação da produção realizada pelo docente enquanto pertencente aos quadros
da Universidade Católica de Brasília.
Foi utilizada a metodologia para Descoberta de Conhecimento em Textos adaptada da
metodologia de Descoberta de Conhecimento em Bases de Dados proposta por Fayyad
[FAYYA96]. A seguir, serão apresentadas as atividades executadas em cada uma das etapas
da referida metodologia.
3.4.3.1
Seleção
A partir das definições sobre o conjunto de dados que seria utilizado, o trabalho de
seleção se constituiu em um esforço para coletar o conjunto de registros necessários a partir
das tabelas relacionais do Currículo Lattes, bem como obter as informações institucionais
necessárias sobre os docentes a partir de consultas ao setor de administração de pessoal da
Universidade Católica de Brasília.
114
Do Currículo Lattes foram extraídas as informações sobre a produção científica e
tecnológica dos envolvidos na pesquisa. A partir da relação de nomes dos docentes do
MGCTI, foram executadas rotinas de extração de dados sobre a base do Currículo Lattes, com
a geração de tabelas de trabalho que passaram a armazenar o conjunto de registros que dizia
respeito às informações curriculares e à produção de cada docente. As ferramentas utilizadas
nesta etapa foram:
a) Oracle SQL*PLUS: interface de acesso ao banco de dados
b) Comandos SQL
c) Linguagem PLSQL
Da Universidade Católica, foram levantadas informações sobre a data de ingresso de
cada docente no programa MGCTI, informações estas obtidas através de uma solicitação à
secretaria deste programa, que por sua vez obteve os dados do setor responsável pela
administração de pessoal.
Ao fim desta etapa, obteve-se como resultado um conjunto de tabelas de trabalho
populadas com os recortes de informações correspondentes das tabelas originais. Abaixo, um
resumo da quantidade de registros contemplados:
Tabela 9: Quantidades de registros de docentes e produção
ITEM
QUANTIDADE
Docentes
TABELA
22 DOCENTES
Produção Científica e Tecnológica
1.341 PRODUCAO_CIENTIF_TECNOL
Palavras-chave
1.007 PLV_CHAVE
3.4.3.2
Pré-processamento
A partir dos dados obtidos na etapa de seleção, foram geradas tabelas de trabalho com
as informações necessárias ao estudo de caso. Estas tabelas contêm as informações
curriculares dos orientadores, e detalhes sobre a sua produção científica e tecnológica, dados
necessários para a montagem dos arquivos de entrada para a ferramenta de mineração de
texto.
115
Uma das atividades desta etapa é a seleção de colunas das tabelas principais. As
tabelas de trabalho foram reestruturadas, mantendo somente as colunas que traziam as
informações consideradas necessárias para o estudo de caso. Este processo tem por objetivo
reduzir o volume de dados manuseado, com reflexos positivos no tempo de processamento e
na complexidade do conjunto de informações tratado.
Foram tratados ainda, nesta etapa, os registros cujas colunas selecionadas
apresentavam algum tipo de ruído, ou seja, alguma inconsistência. Em geral, a qualidade de
dos dados de entrada foi considerada satisfatória. Esta boa qualidade dos dados decorreu da
utilização, pelos sistemas de origem, de restrições de entrada implementadas tanto no nível do
banco de dados quanto no nível da aplicação, diminuindo a necessidade de aplicação de
algoritmos para a redução de ruídos.
Outras tarefas cumpridas nesta etapa:
a) Formatação para preparar os documentos com um único padrão: a entrada de
dados para a ferramenta Eurekha, utilizada na etapa de mineração de textos, são
arquivos textuais, sem a necessidade de uma estruturação prévia. Assim, os dados
que seriam utilizados foram formatados nas tabelas de trabalho de maneira a
facilitar a geração destes arquivos de texto.
b) Eliminação de linhas e caracteres de controle: os arquivos de texto foram gerados a
partir das tabelas de trabalho sem a existência de caracteres de controle, exceto o
caractere de fim de linha. Outros controles, como definição de parágrafos, tabelas,
tabulações, entre outros, não foram utilizados.
c) Criação de uma lista de palavras negativas: com o objetivo de remover dos textos
gerados palavras que não agregam significado especial, foram geradas listas de
palavras negativas (stop words), e acrescentadas ao conjunto de listas de palavras
negativas já existentes no Eurekha. Estas novas listas geradas dizem respeito ao
conjunto de dados pesquisado, e foram identificadas tanto anteriormente à primeira
execução das rotinas de mineração de texto, quanto incrementadas após a obtenção
dos primeiros resultados. Como o processo Descoberta de Conhecimento em
Textos é cíclico, após cada execução das tarefas de agrupamento procurava-se
identificar novas palavras candidatas à listas de palavras negativas, buscando
evidenciar o conjunto de palavras que realmente poderia acrescentar sentido ao
conjunto de textos pesquisado. A seguir, são relacionadas as principais palavras
negativas identificadas:
116
Tabela 10: Lista de palavras negativas
A
ANO
APLICACAO
ATRAVES
AVALIACAO
BASEADO
BR
BRASIL
BRASILEIRA
BRASILEIRO
BRS
CARACTERISTICA
CARACTERISTICAS
CASO
DATA
DESENVOLVIMENTO
DF
DIFERENTE
DISTRITO
DURANTE
EMBRAPA
EN
ENTRE
ESPECIE
ESTADO
ESTUDO
FEDERAL
FOI
FUNCAO
GO
HA
III
INTERNACIONAL
MEDICO
MG
MODELO
PERIODO
PROBLEMA
PROBLEMAS
PROCESS
PRODUCAO
PROJETO
PROJETOS
PROPOSTA
REGIAO
SANTOS
SAO
SERVICO
SISTEMA
SISTEMAS
SOFTWARE
SP
SUA
SUAS
TAMBEM
TESTE
UCB
USO
UTILIZACAO
UTILIZANDO
Ao final desta etapa, obteve-se um conjunto de tabelas de trabalho que contavam
somente com as colunas necessárias para a pesquisa.
3.4.3.3
Transformação
Com o objetivo de tornar os textos que seriam gerados mais adequados para o
processamento posterior de mineração, os registros das tabelas de trabalho foram submetidos
a alguns processos de transformação, conforme segue:
a) Adaptação do vocabulário: esta tarefa teve como objetivo a substituição de
palavras semelhantes, ou de mesmo significado, por um único termo que
representasse o significado de todas elas. Este processo tem conseqüências diretas
no tempo de processamento e na qualidade dos grupos formados, uma vez que
aumenta a repetição de uma determinada palavra que expressa o significado de
todas as que foram substituídas, reduzindo o universo de palavras tratadas, bem
como passando a ter um peso maior na identificação dos grupos. Para viabilizar
esta tarefa foi construída uma rotina no banco de dados, composta por uma tabela
117
de apoio e rotinas de programação escritas na linguagem PLSQL. A partir das
tabelas de trabalho que armazenavam os campos textuais que representavam os
títulos da produção científica e tecnológica de cada docente, bem como as
palavras-chaves a ela relacionadas, estas rotinas foram executadas substituindo-se
as palavras que constavam da lista armazenada na tabela de sinônimos. Este
processo se repetiu várias vezes, devido a característica cíclica dos processos de
Descoberta de Conhecimento, onde, após cada execução do aplicativo de
mineração de textos, eram identificadas mais algumas palavras candidatas à lista
de sinônimos.
b) Eliminação de diferenças morfológicas de determinadas palavras: segundo o
que propôs Hwee [NG97], podem ser utilizadas técnicas que identificam os
radicais das palavras, buscando uma maior unificação dos termos utilizados pela
substituição de variações morfológicas da uma mesma palavra pelo seu radical.
Uma aplicação mais generalizada destas técnicas não foi a opção adotada neste
estudo de caso, uma vez que o tempo de processamento para este tipo de tarefa é
relevante, bem como existe uma necessidade de constituição ou utilização de uma
extensa base de palavras e seus radicais. Entretanto, foi utilizada a mesma
estrutura criada para o tratamento dos sinônimos para a substituição de alguns
termos que causavam um certo desvio na geração dos agrupamentos. Estes termos
foram identificados após cada execução do aplicativo de mineração de textos, e
passavam a integrar a lista de sinônimos armazenada na referida tabela de apoio.
c) Eliminação de caracteres especiais: este processo tem por objetivo tornar mais
simples o conjunto de palavras considerado. Através da eliminação de caracteres
especiais, e da substituição de caracteres que representam a acentuação
característica no conjunto de caracteres que compõe as línguas latinas por seus
correspondentes sem acentuação, obteve-se um conjunto de palavras mais similar.
Outro beneficio obtido foi a correção de algumas palavras grafadas incorretamente
em conseqüência da utilização equivocada de caracteres acentuados. Para realizar
esta tarefa foram utilizadas rotinas escritas na linguagem de programação PLSQL,
e aplicadas sobre as tabelas de trabalho armazenadas no banco de dados.
d) Transformação de todos os caracteres para um mesmo padrão quanto à
utilização de letras maiúsculas e minúsculas: todos os termos utilizados para a
geração dos arquivos para a ferramenta de mineração de textos teve seu conjunto
118
de caracteres transformados para caracteres maiúsculos. Assim,uma mesma
palavra não corre o risco de ser considerada em grupos distintos por diferenças de
tipo de grafia em caixa alta ou caixa baixa. Estas rotinas também foram escritas em
linguagem de programação PLSQL e aplicadas sobre as tabelas de trabalho
armazenadas no banco de dados.
Após a execução das rotinas de transformação acima citadas, as tabelas de trabalho
encontravam-se prontas para permitir a geração dos arquivos de texto que foram utilizados
como entrada para a ferramenta de mineração de textos.
Para facilitar a identificação dos membros dos agrupamentos que seriam gerados, foi
criado um arquivo textual para cada docente, contendo os títulos de sua produção científica e
tecnológica e as palavras-chave relacionadas.
3.4.3.4
Mineração de Texto
O objetivo deste estudo é verificar a possibilidade de agrupamentos de docentes a
partir de sua produção científica e tecnológica, para a identificação de linhas de pesquisa
comuns. Uma diretiva utilizada foi a fixação da pesquisa durante o período em que o docente
passou a ser colaborador do programa MGCTI, justamente buscando identificar as linhas de
produção enquanto vinculado ao referido programa.
Outra diretiva foi a observação da evolução do grupo no tempo. Como o programa
MGCTI foi iniciado em 1998, este foi o ano inicial definido para a de coleta dos dados. Foram
estabelecidos quatro períodos para a avaliação: os biênios 1998/1999, 2000/2001, o período
de 2002 a 2004 e o período total de 1998 a 2004. Entretanto, é necessário registrar que, do ano
de 2004, foram utilizados apenas os três primeiros meses.
Para as tarefas de mineração de texto foi utilizada a ferramenta Eurekha, descrita no
segundo capítulo deste trabalho.
Os principais passos para a geração de agrupamentos pelo Eurekha foram:
Criação de projeto
Criação de um novo projeto na tela inicial da ferramenta, ou a abertura de um projeto
criado anteriormente.
119
Figura 23: Eurekha – Novo Projeto/Abrir Projeto
Adição dos arquivos
Adicionar o conjunto de arquivos que será avaliado. Será solicitada a localização dos
arquivos que serão utilizados pelo Eurekha para a realização dos agrupamentos. Estes
arquivos podem ser do formato texto, “html” ou arquivos-fonte das linguagens C e Pascal.
Para este estudo de caso foram utilizados arquivos no formato texto livre, gerados a partir das
tabelas de trabalho do banco de dados. A seguir, a tela utilizada para adicionar arquivos.
120
Figura 24: Eurekha – adicionar arquivos
Definição das “palavras negativas”
Escolher as listas de palavras negativas (stop words). Podem ainda ser criadas novas
listas de palavras negativas, e utilizadas em conjunto com as listas previamente fornecidas
pela ferramenta. Para este estudo de caso foi criada a lista “Currículo_001”, com o conjunto
de palavras negativas identificadas na etapa de pré-processamento. A seguir, uma figura que
ilustra a utilização de listas de palavras negativas.
121
Figura 25: Eurekha – listas de palavras negativas
Identificação dos relacionamentos
Acionar o botão “Identificar relacionamentos”, para executar a primeira fase do
processo de agrupamento. Esta etapa pode ser bastante demorada, dependendo do volume de
texto presente nos arquivos selecionados.
122
Figura 26: Eurekha – identificar relacionamentos
Identificação dos grupos
Esta etapa é constituída de duas fases: na primeira, deve-se acionar o botão
“Visualizar grupos”, para verificar os agrupamentos identificados. Será aberta outra janela do
Eurekha com a relação dos agrupamentos identificados.
123
Figura 27: Eurekha – visualizar grupos
A seguir, escolher o algoritmo que será utilizado para o agrupamento, o coeficiente de
similaridade desejado e acionar o botão “Reagrupar”.
Para este estudo de caso, foi escolhido o algoritmo Best Star. Segundo Wives
[WIVES99], este algoritmo foi desenvolvido com o objetivo de solucionar o problema do
algoritmo stars, que atribui um objeto ao primeiro grupo cujo grau de similaridade satisfaça a
restrição do grau mínimo. Esta situação não é desejada neste estudo de caso, porque podem
existir grupos onde o objeto teria um grau de afinidade maior.
Assim, no algoritmo Best Star, os objetos identificados como sendo mais similares a
um determinado grupo, mesmo que já agrupados, são reorganizados e atribuídos ao grupo de
maior afinidade.
Outra vantagem deste algoritmo diz respeito ao fato de identificar uma relação mais
natural entre os objetos, elaborando grupos mais coerentes com a realidade, uma vez que os
objetos são colocados automaticamente no grupo com o qual possui relação mais forte.
A partir de testes realizados com os outros algoritmos, verificou-se que o Best Star era
realmente o mais indicado, uma vez que foi a escolha que permitia a geração de grupos mais
coesos e uma quantidade menor de grupos unitários.
124
O coeficiente de sensibilidade também foi avaliado, e o melhor valor de ajuste foi
colocá-lo na posição inicial. Isso se explica pela característica dos arquivos de entrada,
constituídos de um número relativamente pequeno de palavras. Para arquivos com essa
característica, o coeficiente de similaridade, no caso de utilização do algoritmo Best Star,
apresenta melhores resultados se ajustado para a posição inicial, que significa a aceitação de
uma distância proporcionalmente maior entre os termos identificados. Caso este coeficiente
seja aumentado, o número de grupos unitários aumenta diretamente, o que não é desejável.
Figura 28: Eurekha – reagrupar
Identificação de necessidade de ajustes e re-processamento.
Após a avaliação dos grupos gerados, deve ser verificada a necessidade de realizar
alterações nos arquivos de entrada que possam aprimorar a qualidade dos agrupamentos
gerados, e re-executar todo o processo, se for o caso.
A seguir, serão apresentadas as tarefas executadas para a avaliação dos quatro
períodos acima mencionados:
Primeiro período – 1998 a 1999
Cinco dos atuais professores do MGCTI que se encontravam vinculados ao programa
neste período registraram produção no Currículo Lattes. Foram utilizadas as informações de
125
sua produção científica e tecnológica cadastradas no Currículo Lattes com data entre 1998 e
1999, extraídas da base de dados de trabalho, a qual representa os resultados das etapas
anteriores de seleção, pré-processamento e transformação.
Depois de todos os ajustes considerados necessários, como adequação do dicionário de
sinônimos e das listas de palavras negativas, obteve-se o seguinte resultado para este conjunto
de arquivos:
Figura 29: Agrupamento 1998/1999
Segundo período – 2000 a 2001
Oito dos atuais professores do MGCTI que se encontravam vinculados ao programa
neste período registraram produção no Currículo Lattes. Foram utilizadas as informações de
sua produção científica e tecnológica cadastradas no Currículo Lattes com data entre 2000 e
2001, extraídas da base de dados de trabalho, a qual representa os resultados das etapas
anteriores de seleção, pré-processamento e transformação.
Depois de todos os ajustes considerados necessários, como adequação do dicionário de
sinônimos e das listas de palavras negativas, obteve-se o seguinte resultado para este conjunto
de arquivos:
126
Figura 30: Agrupamento 2000/2001
Terceiro período – 2004 a março de 2004
Dezesseis dos atuais professores do MGCTI que se encontravam vinculados ao
programa neste período registraram produção no Currículo Lattes. Foram utilizadas as
informações de sua produção científica e tecnológica cadastradas no Currículo Lattes com
data entre 2002 a 2004, extraídas da base de dados de trabalho, a qual representa os resultados
das etapas anteriores de seleção, pré-processamento e transformação.
Depois de todos os ajustes considerados necessários, como adequação do dicionário de
sinônimos e das listas de palavras negativas, obteve-se o seguinte resultado para este conjunto
de arquivos:
127
Figura 31: Agrupamento 2002 a 2004
Quarto período – 1998 a março de 2004
Foram utilizadas as informações de sua produção científica e tecnológica cadastradas
no Currículo Lattes com data entre 1998 e março de 2004, extraídas da base de dados de
trabalho, a qual representa os resultados das etapas anteriores de seleção, pré-processamento e
transformação.
Depois de todos os ajustes considerados necessários, como adequação do dicionário de
sinônimos e das listas de palavras negativas, obteve-se o seguinte resultado para este conjunto
de arquivos:
128
Figura 32: Agrupamento 1998 a março de 2004
3.4.3.5
Interpretação e avaliação
Esta etapa de interpretação e avaliação dos resultados da mineração de texto
normalmente é realizada em conjunto com especialistas no assunto tratado, com o objetivo de
identificar resultados significativos e úteis para a organização.
Este trabalho é feito normalmente a partir da experiência pessoal dos especialistas,
sem a utilização de um método específico para este fim.
Neste estudo de caso, será proposta a utilização de um método para esta etapa, no
sentido de facilitar o trabalho dos profissionais diretamente envolvidos com as tarefas de
interpretação e avaliação.
Este método corresponde a uma adaptação dos estudos de Flores, que propôs uma
“Ontologia da Linguagem”, descrita sumariamente no segundo capítulo deste trabalho.
A partir de juízos estabelecidos durante o processo de Descoberta de Conhecimento
em Texto, nesta etapa serão utilizados os mecanismos propostos de se identificar, a respeito
destes juízos:
a) Os propósitos
b) Os domínios
c) As afirmações de suporte
129
d) Os padrões de julgamento
Avaliados à luz destes itens, os resultados das etapas anteriores de Descoberta de
Conhecimento podem constituir-se em novos conhecimentos organizacionais devidamente
constituídos, resultados de uma análise sistemática.
Os resultados desta etapa serão tratados no Capítulo 4.
130
CAPÍTULO 4
4 ANÁLISE DOS RESULTADOS
4.1 Estudo de caso: perfil do orientador do PIBIC
Com o objetivo de exemplificar o potencial de geração de conhecimento
organizacional da Plataforma Lattes, preparou-se, seguindo as metodologias citadas
anteriormente, um estudo preliminar sobre a definição do perfil de orientadores do PIBIC –
Programa Institucional de Bolsa de Iniciação Científica.
4.1.1 Resultados da Mineração de Dados
Após as várias sessões de mineração de dados executadas, o resultado obtido foi
pouco satisfatório. Em função da base de orientadores ser muito pulverizada – cada orientador
teve poucos bolsistas, e poucos destes bolsistas já obtiveram titulação stricto sensu – o
algoritmo de classificação não conseguiu estabelecer um conjunto de regras que apresentasse
utilidade prática. A maioria dos resultados apresentou somente classificações óbvias, e pouco
relevantes. Além disso, o fator de certeza da maioria das regras geradas foi menor que 50%.
Entretanto, apesar de insatisfatório do ponto de vista da Mineração de Dados,
constatou-se um ganho em termos de conhecimento organizacional dado pela revisão das
premissas em que o especialista se orientou para definir o problema. O estudo permitiu que
fosse verificado que não poderia ser estabelecido como medida de sucesso de uma orientação
em iniciação científica o fato de o indivíduo concluir um programa de mestrado, contando
somente com as informações armazenadas.
Apesar das diversas sessões de mineração de dados não terem apresentado padrões
novos e com elevado fator de certeza, o processo de DCBD, nas fases anteriores, foi relevante
para a descoberta de conhecimento. A partir do manuseio dos dados e informações, das
transformações realizadas, e do próprio resultado da mineração de dados, passou-se a
131
conhecer com maior profundidade o conjunto de informações que se tem disponível sobre os
bolsistas, sobre os orientadores e sobre o processo de concessão de bolsas de uma maneira
geral.
A partir destes novos conhecimentos adquiridos no decorrer do processo, foi possível
obter outros resultados, descritos a seguir:
4.1.2 Resultados finais
A geração de conhecimento em DCBD pode acontecer em todas as etapas, e não
somente na Mineração de Dados. No estudo preliminar realizado, as etapas iniciais de
seleção, pré-processamento e transformação já forneceram informações relevantes.
Como o objetivo deste estudo preliminar é identificar um perfil dos orientadores de
iniciação científica, selecionou-se um conjunto de dados sobre bolsistas que pudesse ser
confrontado com a base de dados sobre titulados em cursos de mestrado e doutorado da
CAPES. Assim, a orientação inicial era identificar os alunos que participaram do programa do
PIBIC e que posteriormente obtiveram titulação stricto sensu. Optou-se, então, por selecionar
dados dos bolsistas de iniciação científica no período de 1994 a 1999, considerando o tempo
médio para a conclusão de programas de mestrado e o posterior cadastramento destas
informações na base de dados da CAPES.
Neste período, passaram pelo programa PIBIC aproximadamente 45 mil alunos, sendo
orientados por aproximadamente 19 mil docentes. O gráfico a seguir mostra a distribuição da
quantidade de bolsistas por orientador.
Bolsistas por orientador
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
1000
1
2
2000
3
4
Orientadores 7422 5037 2865 1813
Figura 33: bolsistas por orientador
3000
4000
5000
6000
7000
8000
5
6
7
8
9
10
11
12
13
14
981
586
345
197
89
53
27
13
8
6
132
Verificou-se que a maioria dos orientadores trabalhou com apenas um orientando
neste período. Assim, para eliminar distorções causadas por pequenas quantidades, optou-se
por trabalhar apenas com o grupo que orientou cinco ou mais alunos.
Este grupo de aproximadamente 2.300 docentes orientou aproximadamente quinze mil
alunos – uma média de 7,2 alunos por orientador, enquanto os outros 16.700 docentes
orientaram aproximadamente 30.000 alunos, uma média de 1,7 alunos por orientador. Existe
uma pequena distorção nestes valores, provocada pelo fato de um aluno eventualmente ter
sido orientado por mais de um docente ao longo de sua formação.
35000
30000
25000
20000
Orientadores
15000
Bolsistas
10000
5000
0
1
2
Figura 34: grupos de bolsistas por orientador
Utilizou-se, então, o conjunto de orientadores com maior percentual de bolsistas,
como base de entrada para a definição de perfil. Deste grupo, verificou-se a quantidade de
alunos orientados que posteriormente obtiveram titulação stricto sensu. Observou-se que, do
conjunto de 2.313 orientadores, 1.073 não tiveram nenhum aluno titulado. Abaixo, um gráfico
com essa variação.
133
Alunos titulados
Quantidade de Alunos Titulados por Orientador
6
4
2
0
0
Qtd. Orientadores
100
200
300
400
500
600
700
800
900 1000 1100
0
1
2
3
4
5
6
7
1073
673
363
136
50
12
4
2
Figura 35: alunos titulados por orientador
Selecionou-se, então, os orientadores que tiveram alunos titulados em programas
stricto sensu, e, a partir deste conjunto, obteve-se um perfil inicial do orientador de PIBIC
com índices de sucesso. A seguir, as características deste perfil:
134
Orientadores por sexo
Orientadores por tem po de titulação
17%
25%
41%
01-10
42%
75%
Feminio
10-20
Masculino
20- 30
Orientadores por faixa de idade
Orientadores por form ação
34%
42%
66%
58%
Dout orado
40-50
Pos-dout orado
50-60
Orientadores por tipo de instituição
Tipo de produção científica
14%
27%
42%
19%
5%
3%
73%
17%
Est adual
Federal
Artigo
Trabalhos em eventos
Livro publicado
Capit ulo de livro
Orient açao - dissertação
Orient ação - t ese
Figura 36: resumo do perfil do orientador
4.2 Estudo de caso: agrupamento de docentes
Neste estudo de caso, procurou-se utilizar as informações curriculares dos docentes do
programa MGCTI - Mestrado em Gestão do Conhecimento e da Tecnologia da Informação da
Universidade Católica de Brasília para gerar agrupamentos que pudessem contribuir para a
identificação das linhas de pesquisa que poderiam ser relacionadas ao programa.
Para a avaliação dos resultados, buscou-se a utilização de conceitos ligados à
ontologia da linguagem, à qual foi feita referência no segundo capítulo deste trabalho.
135
4.2.1 Resultados da Mineração de Texto
Após a execução de todas as fases propostas pela metodologia adaptada da proposta de
Fayyad [FAYYA96], procurou-se verificar quais resultados poderiam ser aproveitados para a
geração de conhecimento organizacional.
4.2.1.1
Seleção dos resultados da mineração de texto
Foi avaliada a produção científica e tecnológica dos docentes em quatro períodos: de
1998 a 1999, de 2000 a 2001, de 2002 a 2004 e no período total de 1998 a 2004, que
corresponde ao período de existência do programa MGCTI. Foram utilizadas as informações
de sua produção científica e tecnológica cadastradas no Currículo Lattes, extraídas da base de
dados de trabalho, a qual representa os resultados das etapas anteriores de seleção, préprocessamento e transformação.
No primeiro período, cinco dos atuais professores do MGCTI que se encontravam
vinculados ao programa registraram informações de seus trabalhos no Currículo Lattes. No
segundo período, este número foi de oito professores. No terceiro período foram encontrados
registros de dezesseis professores. No quarto período, que compreendeu todo o tempo de
existência do programa (1998 a 2004), foram processados registros de dezoito professores.
Depois de todos os ajustes considerados necessários, como a adequação do dicionário de
sinônimos e das listas de palavras negativas12, foram obtidos os seguintes resultados:
No primeiro período foram identificados dois agrupamentos, caracterizados pelos
centróides13 (i) {inteligente, neural, modelo} e (ii) {gestão, construção, competências,
estratégia}. O primeiro agrupamento está mais relacionado com temas como DCBD e
Inteligência Artificial, ou seja, à Tecnologia da Informação. O segundo está mais relacionado
com a Gestão do Conhecimento.
No segundo período foi identificado um agrupamento, pelos centróides {informação,
neural, modelo, desenvolvimento}, indicando temas mais relacionados à Tecnologia da
Informação. O viés da Gestão do Conhecimento não foi identificado.
12
Palavras negativas (stopwords): conjunto de palavras consideradas não representativas no processo de
mineração de texto (e.g.: advérbios, numerais, conjunções, artigos).
13
Centróides: são os itens mais representativos que caracterizam determinado agrupamento.
136
No terceiro período foram identificados quatro agrupamentos: (i) {conhecimento,
informação, gestão, máquina}; (ii) {conhecimento, gestão, virtual, informação}; (iii)
{qualidade, objeto, Java}; (iv) {métrica, engenharia, qualidade}. Percebe-se então uma maior
definição das áreas de interesse e uma maior caracterização interdisciplinar do MGCTI.
No quarto período a identificação multidisciplinar do programa é confirmada, a partir
da identificação de cinco agrupamentos caracterizados pelos centróides: (i) {neural, modelo,
conhecimento, inteligente}; (ii) {conhecimento, gestão, informação, modelo}; (iii)
{qualidade, objeto, desenvolvimento}; (iv) {competências, aprendizagem, ontologia,
suporte}; (v) {métrica, engenharia, qualidade}.
Tabela 11: Centróides dos agrupamentos por período
Período
1998-1999
Centróides por grupo
1-INTELIGENTE NEURAL MODELO
2-GESTAO CONSTRUCAO COMPETENCIAS ESTRATEGICA
2000-2001
1-INFORMACAO MODELO NEURAL DESENVOLVIMENTO
2002-2004
1-CONHECIMENTO INFORMACAO GESTAO MAQUINA
2-CONHECIMENTO GESTAO VIRTUAL INFORMACAO
3-QUALIDADE OBJETO J2EE
4-METRICA ENGENHARIA QUALIDADE
1998-2004
1-NEURAL MODELO CONHECIMENTO INTELIGENTE
2-CONHECIMENTO GESTAO INFORMACAO MODELO
3-QUALIDADE OBJETO DESENVOLVIMENTO
4-COMPETENCIAS APRENDIZAGEM ONTOLOGIA SUPORTE
5-METRICA ENGENHARIA QUALIDADE
Foram realizadas também algumas totalizações da produção científica e tecnológica
dos envolvidos na pesquisa. A tabela a seguir apresenta os totais de produção por tipo e ano.
137
Tabela 12: MGCTI – Totais de produção por ano
TIPO DE PRODUCAO
Apresentação de Trabalho
Artigo publicado em periódicos
Curso de curta duração ministrado
Demais trabalhos relevantes
Dissertação de mestrado
Iniciação Científica
Livro ou capítulo de livro
Monografia de curso de aperfeiçoamento
Organização de evento
Orientação em andamento
Outra produção bibliográfica
Banca de comissões julgadoras
Participação: banca de conclusão (M/D)
Participações em eventos
Texto em jornal ou revista
Trabalho de conclusão de graduação
Trabalho publicado em anais de evento
Trabalhos técnicos
TOTAL GERAL
1998
3
1
3
2
9
1999 2000 2001 2002 2003
4
4
5
2
4
1
11
1
2
6
2
1
9
11
5
9
32
3
2
12
1
3
2
4
2
7
2
6
14
1
1
2
5
1
6
27
64
1
4
6
9
2
1
1
4
5
17
10
8
22
39
77
3
2
1
3
2
27
16
56 122 270
TOTAL
8
26
3
29
46
17
10
9
2
20
2
8
98
23
3
27
158
11
500
Foi identificada uma acentuada elevação no quantitativo da produção científica e
tecnológica dos docentes do MCGTI durante o período avaliado. As figuras abaixo
apresentam as curvas de crescimento dos principais tipos de produção:
12
Total
11
10
9
8
Tipo de Produção
Apresentação de Trabalho
Artigo publicado em periódicos
Demais trabalhos relevantes
Livro ou capítulo de livro
Trabalhos técnicos
6
6
5
4
3
3
4
3
3
2
2
0
1998
4
1999
2
1
1
1
2000
2001
2002
ANO_
Figura 37: Produção por ano – I
4
2
2003
138
90
Total
80
77
70
64
60
Tipo de Produção
Dissertação de mestrado
50
40
Participação em banca de trabalhos de
conclusão
Participações em eventos
39
32
30
Trabalho publicado em anais de evento
27
22
20
10
10
3
2
0
1998
8
1
1
1999
2000
9
6
9
2002
2003
6
5
4
2001
ANO_
Figura 38: Produção por ano – II
Foram realizadas também algumas totalizações para a identificação qualitativa da
produção científica e tecnológica dos docentes do MGCTI. A figura a seguir apresenta as
percentuais de publicações e participações em eventos qualificados em nacionais e
internacionais. Apesar de pequena, observa-se uma elevação do percentual de participação em
eventos e publicações internacionais.
TIPO DE PRODUCAO (Tudo)
100%
Soma de QTDE
80%
8
60%
8
39
25
73
143
CATEGORIA
Nacional
Internacional
40%
7
20%
1
5
2
13
29
2002
2003
0%
1998
1999
2000
2001
ANO
Figura 39: Percentual de trabalhos por idioma de publicação
139
4.2.1.2
Juízos emitidos
Após a seleção dos resultados do processo de mineração de texto, onde foram
identificados os agrupamentos por período, foram emitidos os seguintes juízos:
a) O MGCTI avança no sentido de se constituir como um grupo efetivamente
interdisciplinar.
b) As áreas de interesse do programa MGCTI, no que se refere à pesquisa, tornam-se
progressivamente mais claras.
c) Melhora, a cada ano, a produção técnico-científica do programa.
4.2.1.3
Fundamentação dos juízos
Propósito da pesquisa
Desejando identificar as vocações do MGCTI, surgiu a oportunidade de verificação
das linhas de produção dos docentes que participam do programa. A partir das informações
sobre a produção científica e tecnológica contida no Currículo Lattes, decidiu-se utilizar estes
dados para relacionar os docentes entre si, com o objetivo de identificar áreas de afinidade.
Assim, o propósito desta avaliação é identificar as linhas de pesquisa possíveis, a
partir da produção de cada docente.
Propósito dos juízos
Identificar as áreas de interesse dos docentes do MGCTI e o potencial de produção do
grupo. Esta identificação abre possibilidades para ações que incrementem o processo
produtivo, inclusive com possíveis direcionamentos dos trabalhos para eventos e publicações
de maior significado.
Domínios
Os principais domínios considerados na avaliação foram:
a) Espaço das publicações (nacionais ou internacionais)
b) Idioma de publicação
140
Padrões de julgamento
a) Qualis Multidisciplinar da CAPES
b) Qualidade dos eventos
c) Tipo de eventos
Afirmações de suporte
a) Os agrupamentos resultantes dos processos de mineração de texto passaram de
dois para quatro do período inicial para o período final avaliado.
b) Os números da produção científica e tecnológica do MGCTI cresceram ano a ano.
c) Apesar de pequeno, ocorreu um aumento no percentual de publicações e
participações em eventos internacionais.
d) Algumas publicações ocorreram em veículos citados no Qualis14 Multidisciplinar.
14
Qualis: lista com a classificação dos veículos utilizados pelos programas de pós-graduação para a divulgação
dos resultados da produção científica e tecnológica de seus alunos e professores, elaborado pela CAPES –
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior do Ministério da Educação.
141
5 CONCLUSÕES E TRABALHOS FUTUROS
As bases de dados formadas a partir de sistemas transacionais normalmente
armazenam uma grande quantidade de informações passíveis de serem exploradas e capazes
de revelar relações não explícitas. Os processos de DCBD podem ser utilizados para a
obtenção de conhecimento útil a partir dos dados contidos nestas bases.
Das etapas mencionadas neste trabalho, as fases de seleção, pré-processamento e
transformação dos dados normalmente são as que mais consomem tempo e recursos. O tempo
gasto nestas etapas é inversamente proporcional à qualidade dos dados armazenados. Por isso,
pode se concluir que os sistemas que prezaram pelas etapas de projeto e que cuidaram para
uma correta implementação das regras de negócio e manutenção da integridade dos dados
podem ser muito mais facilmente explorados com técnicas de DCBD.
Apesar das etapas iniciais de tratamento dos dados representarem uma grande parcela
do trabalho total, a etapa de Mineração de Dados pode ser considerada a mais complexa. A
escolha, ou o desenvolvimento de algoritmos de reconhecimento de padrões pode representar
um grande desafio para a equipe. A grande quantidade de interações e iterações necessárias
para a obtenção de padrões que possam se tornar úteis e valiosos pode exigir grandes recursos
computacionais e mão de obra altamente especializada.
Todo o processo deve contar com a presença de especialistas no negócio pesquisado,
com participação maior ou menor, dependendo da etapa. Sua presença é fundamental nas
etapas de Mineração de Dados e Interpretação/Avaliação, onde os padrões obtidos devem ser
avaliados buscando identificar conhecimento útil que possa ser incorporado ao sistema.
A simples extração de padrões não acrescenta conhecimento à organização. Para tal, é
necessário que os especialistas identifiquem, a partir dos resultados gerados, aqueles que são
úteis e possuem valor agregado. Neste sentido, a utilização de um método que auxilie o
processo de avaliação dos resultados pode facilitar a obtenção de bons resultados.
O estudo relativo ao perfil dos orientadores do PIBIC pôde demonstrar o potencial da
Plataforma Lattes para geração de conhecimento organizacional. Apesar de o referido estudo
ter sido realizado sobre um volume reduzido de dados e variáveis, foi possível estabelecer
relações para a identificação de um perfil dos docentes que orientaram alunos de iniciação
científica.
142
Já o segundo estudo de caso, sobre os docentes do Programa MGCTI da Universidade
Católica de Brasília, demonstrou que os resultados da DCBD podem ser potencializados pela
utilização metódica da definição de juízos e de sua fundamentação. Uma percepção anterior,
informal, que indicava a vocação interdisciplinar do programa MGCTI foi confirmada com a
mineração de texto e com a identificação dos agrupamentos por período. Os juízos
estabelecidos, uma vez devidamente fundamentados, têm proporcionado uma discussão muito
mais detalhada de cada um dos itens estudados.
O processo como um todo trouxe uma percepção mais apurada e clara dos desígnios
vocacionais e dos rumos do Programa objeto do estudo, trazendo mais visibilidade e
conhecimento organizacional sobre o MGCTI, seus docentes, sua produção científica e
tecnológica, suas linhas de interesse, etc. Tudo isso pode ser acrescentado à base de
conhecimento da instituição, e será importante para a definição dos rumos a seguir. Remete-se
novamente à Ontologia da Linguagem, que traz o conceito de que os juízos podem fechar ou
abrir possibilidades no futuro. Acredita-se, neste caso, que várias possibilidades possam ser (e
têm sido) abertas.
Finalmente, pode concluir que o processo de DCBD representa uma excelente
oportunidade para as organizações que desejam utilizar melhor suas bases de dados, no
sentido de se obter conhecimento, e conseqüentemente, incrementar os seus negócios a partir
deste conhecimento organizacional descoberto.
Trabalhos futuros podem ser desenvolvidos a partir das reflexões iniciadas, tais como:
a) Agregação, ao processo de mineração de texto da produção científica e
tecnológica, dos resumos dos respectivos trabalhos. O presente estudo utilizou
somente os títulos das publicações e as palavras-chave, que era o material
disponível na Plataforma Lattes. O acréscimo dos resumos dos trabalhos pode
trazer uma maior quantidade de palavras que podem ser associadas, aumentando as
possibilidades de identificação das linhas de interesse.
b) Mineração de texto para a geração de uma taxonomia relativa aos grupos de
pesquisa.
c) Mineração de texto para a verificação de consistência entre linhas de pesquisa
declaradas e a real produção científica e tecnológica.
d) Identificação de competências dos pesquisadores e docentes a partir de suas
informações curriculares.
143
REFERÊNCIAS BIBLIOGRÁFICAS
[AGRAW94] AGRAWAL, R., SRIKANT, R. Fast Algorithms for Mining Association Rules.
IBM Research Report RJ 9839. IBM Almaden Research Center, Junho
de 1994
[AMARA01] AMARAL, Fernanda C. N. do Data Mining – Técnicas e Aplicações para o
Marketing Direto, São Paulo: Berkeley Brasil, 2001.
[BABCO94] BABCOCK, C. Parallel Processing Mines Retail Data, Computerwork, n. 6,
set. 1994.
[BISHO95]
BISHOP, Christopher M. Neural networks for pattern recognition. Oxford:
Oxford University Press, 1995
[BRASI02]
BRASIL, Lourdes M. Inteligência Artificial – Modelos Conexionistas
Departamento de Informática, UFPB - Universidade Federal da Paraíba,
2002.
[CHEN96]
CHEN, Ming-Syan, HAN, Jiawei, YU, Philip S. Data mining: an overview
from a database perspective. IEEE Transactions on Knowledge and Data
Engineering, v. 8, n.6, p.866-883, dez. 1996.
[CNPQ03]
CNPq, Plataforma Lattes
Disponível em: lattes.cnpq.br
Acesso em: 21 de maio de 2003
[CNPQ03a]
CNPq, PIBIC
Disponível em: http://www.cnpq.br/bolsas_auxilios/modalidades/pibic.htm
Acesso em: 27 de maio de 2003
[CNPQ03b]
CNPq, Diretório dos Grupos de Pesquisa no Brasil, Estratificação
Disponível em: http://lattes.cnpq.br/censo2002/estratificacao/index_estrat.htm
Acesso em: 30 de maio de 2003
144
[DRUCK94] DRUCKER, Peter F. The Age of Social Transformation, The Atlantic Monthly,
Boston, United States
Disponível em:
http://www.theatlantic.com/politics/ecbig/soctrans.htm#Drucker
Acesso em: 15 out. 2003
[DIXON97]
DIXON, Mark An Overview of Document Mining Technology
Disponível em:
http://www.geocities.com/ResearchTriangle/Thinktank/1997/mark/writings/dm.
html
Acesso em: 23 mai. 2003.
[ECHEV99] ECHEVERRÍA, Rafael. La Ontologia del Lenguaje, Chile, Dólmen, 408 pp.
1999.
[FAYYA96] FAYYAD, Usama; Piatetsky-Shapiro, G; Smyth, P. Advances In Knowledge
Discovery and Data Mining, 1a ed., Cambridge - Massachusetts: Mit
Press, 1996.
[FAUSS94]
FAUSSET, Laurene V. Fundamentals of Neural Networks - Architectures.
Algorithms, and Applications, Prentice Hall, 1994.
[FELDM97] FELDMAN, Ronen; HIRSH, Haym. Exploiting background information in
knowledge discovery from text. Journal of Intelligent Information
Systems, Boston, v.9, n.1, July/Aug 1997.
[FERREI01] FERREIRA, Aurélio Buarque de Holanda. Minidicionário da Língua
Portuguesa, São Paulo, Nova Fronteira, 2001.
[FERREI03] FERREIRA, L.A. BAX, M.P. A Importância da Gestão do Conhecimento para
o Marketing de Relacionamento. In: 6º Simpósio Internacional de Gestão
do Conhecimento - ISKM, Curitiba, agosto 2003.
[FISHE87]
FISHER, D. Knowledge Acquisition via Incremental Conceptual Clustering.
Machine Learning, v.2,n.2,1987
[FLORE88]
FLORES, F., GRAVES, M., HARTFIELD, B., WINOGRAD, T. Computer
System and the Design of Organizational Interaction in ACM Trans. of
Information Systems, Vol. 6. nro. 2, USA, 1988.
145
[GRECO02] GREGO, Maurício A Petrobras doma seus terabytes, InfoExame, São Paulo:
ano 18, n. 203, p. 78-79, fev. 2003.
[GRUBE93] GRUBER,
T.
R.
A
Translation
Approach
to
Portable
Ontology
Specifications.Knowledge Systems Laboratory - Stanford University,
Stanford, CA, Technical Report ,1993.
[HARRI98]
HARRISON, Thomas H. Intranet Data Warehouse: São Paulo: Berkeley
Brasil, 1998.
[UHLMA02] UHLMANN, Günter W. Teoria Geral dos Sistemas, CISC, São Paulo.
Visitado em 30/03/2003
Disponível em:
http://www.cisc.org.br/biblioteca/teoria_sistemas.pdf
[KOWAL97] KOWALSKI,
Gerald.
Information
retrieval
systems:
theory
and
implementation. Boston : Kluwer Academic Publishers, 1997.
[LOH99]
LOH, Stanley; WIVES, Leandro Krug; FRAINER, Antônio Severo.
Recuperação semântica de documentos textuais na internet. In:
Conferencia Latino-Americana de Informática (CLEI), XXV, 1999,
Assunción, Paraguay. Memórias del CLEI'99 (Tomo 2). Assunción,
Paraguay: Universidad Autónoma de Asunción, 1999.
[LOH01]
LOH, Stanley, REATEGUI, Eliseu, WIVES, Leandro Krug, OLIVEIRA, Jose
Palazzo Moreira de, GAMEIRO, Maurício Almeida. Formalizando e
Explorando Conhecimento Tácito com a Tecnologia de Text Mining para
Inteligência. In: ISKM/DM 2001, 2001, Curitiba, 13 a 15 de Agosto.
Anais. 2001
[LUCEN01] LUCENA, Percival de; Paula, Marcos Ferreira de, Árvores de Decisão Fuzzy
Disponível em: www.icmc.sc.usp.br/~percival/download/fidt.pdf
Acesso em: 21 mai. 2003.
[LUCEN02] LUCENA FILHO, Gentil. J. Notas de Aula Universidade Católica de Brasília,
Brasília, 2002.
[MEDLE98] MEDLER, David A. A brief history of connectionism. Department of
Psychology, University of Alberta, Alberta, Canada, In: Neural
146
Computing Survey 1, p. 61-101, 1998.
Disponível em: http://www.icsi.berkeley.edu/~jagota/NCS/vol1.html
Acesso em: 25 mai. 2003.
[NG97]
NG, Hwee et al. Feature selection, perceptron learning, and a usability
casestudy for text categorization. In: Special Interest Group on
Information Retrieval - SIGIR, 1997. New York: Association for
Computing Machinery, 1997.
[NONAK97] NONAKA, Ikujiro, TAKEUCHI, Hiro. Criação de Conhecimento na Empresa,
Tradução: Ana Beatriz Rodrigues, Priscilla Martis Celeste, Rio de
Janeiro, Campus, 1997.
[OSORI99]
OSORIO, Fernando, VIEIRA, Renata. Sistemas Híbridos Inteligentes. In:
ENIA – Encontro Nacional de Inteligência Artificial, Congresso da SBC,
Rio de Janeiro, 1999.
[PRADO98] PRADO, Hércules A. Abordagens híbridas para mineração de dados, exame
de qualificação, Porto Alegre: CPGCC da UFRGS, 1998.
[REZEN03]
REZENDE, Solange Oliveira. Introdução à Inteligência Artificial, Institutuo
de Ciências Matemáticas e de Computação, USP, São Paulo.
Visitado em 29/03/2003
Disponível em:
http://www.icmc.sc.usp.br/~solange/IA/iag_int/tsld001.htm
[SALGA02] SALGADO, Cândido G. Comportamento de Regras de Associação e sua
Aplicação para Análise de Dados Médicos. 2002. Dissertação (Mestrado
em Ciência da Computação) - Universidade de Brasília
[SETZE03]
SETZER, Valdemar W. Dado, Informação, Conhecimento e Competência,
Instituto de Matemática e Estatística - IME, São Paulo.
Visitado em 29/03/2003
Disponível em:
http://www.cidade.usp.br/educar2001/mod5ses2.php
[SILVA02]
SILVA, Edilberto M. Descoberta de Conhnecimento com o uso de Text
Mining: Cruzando o Abismo de Moore. 2002. Dissertação (Gestão do
147
Conhecimento e da Tecnologia da Informação) - Universidade Católica
de Brasília
[SOUSA03] SOUSA, Paulo de Tarso Costa de. Mineração de Dados para Indução de um
Modelo de Gestão do Conhecimento. 2003. Dissertação (Gestão do
Conhecimento e da Tecnologia da Informação) - Universidade Católica
de Brasília
[STOLL01]
STOLLENWERK, Maria de Fátima Ludovico. Gestão do Conhecimento:
conceitos e modelos. In: Inteligência Organizacional e Competitiva. Kira
Tarapanoff (organizadora). Brasília, Editora Universidade de Brasília,
2001.
[TEIXE00]
TEIXEIRA FILHO, Jayme. Gerenciando o Conhecimento. Rio de Janeiro,
SENAC, 2000.
[TOFFL94]
TOFFLER, A. Powershift: As Mudanças do Poder. Rio de Janeiro, Record,
1994
[UHLMA02] UHLMANN, Günter W. Teoria Geral dos Sistemas, CISC, São Paulo.
Visitado em 30/03/2003
Disponível em:
http://www.cisc.org.br/biblioteca/teoria_sistemas.pdf
[VARGA00] VARGA, Lilia M. Inteligência Competitiva na Empresa, UFRGS, Porto
Alegre.
Visitado em 12/01/2004
Disponível em:
http://read.adm.ufrgs.br/read17/artigo/artigo1.htm
[VIDAL98]
VIDAL, Antônio Geraldo R. Projeto e Desenvolvimento de Sistemas de
Informação, FEA/USP, São Paulo.
Visitado em 30/03/2003
Disponível em:
http://www.fea.usp.br/cursos/graduacao/arquivos/ead451-05.PDF
[WEKA01]
WEKA Projet WEKA 3: Machine Learning Software in Java. Universidade de
Waikato
148
Disponível em: http://www.cs.waikato.ac.nz/ml/weka/
Acesso em: 12 jun. 2003
[WIIG93]
WIIG, K. M. Knowledge management foundations: thinking about thinking –
how people and organizations create, represent and use knowledge.
Arligton, Texas: Schema, 1993. v.1.
[WITTE99]
WITTEN, Ian H., FRANK, Eibe: Data Mining: Practical Machine Learning
Tools e Techniques with Java Implementations . Morgan Kaufmann
Publ., 1999.
[WIVES99] WIVES, Leando Krug Um Estudo sobre Agrupamento de Documentos
Textuais em Processamento de Informações não Estruturadas usando
Técnicas de Clustering , Porto Alegre: UFRGS, 1999.
[WIVES00]
WIVES, Leandro Krug. Tecnologias De Descoberta de Conhecimento em
Textos Aplicadas à Inteligência Competitiva, Porto Alegre: UFRGS,
2000.
Download