F.10.1 - Documentação e Informação Científica. USO DA PLATAFORMA LATTES POR ASSUNTO: RECUPERAÇÃO AUTOMÁTICA DE IDENTIFICADORES DOS CURRÍCULOS LATTES 1* Aline G. C. Brito , Luc Quoniam 2 1. Doutoranda PPGCTS e Pesquisadora NIT Materiais - UFSCar; *[email protected] 2. Livre docente Université Aix Marseille III – Professor PPGCTS/UFSCar e PPGA/UNINOVE Palavras Chave: Plataforma Lattes; Recuperação da informação; Busca por assunto. Introdução Nos últimos anos, tem se revelado um especial interesse a extração de conhecimentos em base de dados devido à descoberta de conhecimento que pode ser obtida a partir do tratamento de conjuntos de dados disponíveis nos repositórios de produção científica. Como por exemplo: banco de dados de produções bibliográficas; de orientação acadêmica; de projetos de pesquisa; e de diretórios de grupos de pesquisa. No Brasil estão disponíveis relevantes sistemas de informação da atuação científica e tecnológica de pesquisadores, como a Plataforma Lattes (PL) e o Diretório de Grupos de Pesquisa (DGP). Utilizados principalmente para avaliações isoladas de grupos ou instituições, o que dificulta, quando não inviabiliza, o mapeamento de lacunas ou pólos de conhecimento nas diversas áreas de pesquisa (DIGIAMPIETRI, et al., 2012). O objetivo deste trabalho foi desenvolver e aplicar uma ferramenta para coleta automática de Identificadores dos Currículos Lattes mediante a Plataforma Lattes para posterior uso do software ScriptLattes por assunto. O método de pesquisa será uma pesquisa ação Thiollent (2004, p. 14) desenvolvida no NIT-Materiais/UFSCar mediante a pesquisa bibliográfica. Resultados e Discussão A Plataforma Lattes é uma iniciativa do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) em realizar um grande esforço na integração de bases de currículos acadêmicos de instituições públicas e privadas em uma única plataforma. Os chamados Currículos Lattes são atualmente considerados um padrão brasileiro de avaliação, representando um histórico das atividades científicas / acadêmicas / profissionais de pesquisadores cadastrados. O principal resultado compreendeu uma lista com os Identificadores (IDs) de Currículos Lattes extraídos da PL. A metodologia, representada na Figura 1, consiste em cinco passos descritos a seguir: 1) elaboração de uma expressão de busca adequada para a PL; 2) utilização da Busca Avançada na PL; 3) elaboração e uso de um script programado em Python (ScriptExtract 1) que extrai os Identificadores de 10 dígitos de todos os Currículos Lattes em páginas HTML; 4) elaboração e uso de um outro script (ScriptExtract 2) que converte os IDs de 10 dígitos em IDs de 16 dígitos, que servem como entrada para o software livre ScriptLattes (MENA-CHALCO; CESAR JR, 2009); e 5) a obtenção da Lista Final com todos os IDs dos pesquisadores da área compreendida pela expressão de busca. Figura 1. Procedimentos metodológicos. Na Tabela 1 é possível visualizar o esquema em que a lista, resultado final dos procedimentos, está estruturada. Na coluna 1 encontra-se os números Identificadores de cada currículo e consequentemente de cada pesquisador, visto que o cadastro de um currículo está associado ao CPF do pesquisador. Na segunda coluna tem-se apenas uma vírgula por linha, que é o caractere utilizado para separação dos dados entre as colunas 1 e 3. A terceira coluna possui os nomes por extenso de cada pesquisador. Tabela 1. Estrutura lista final. Nº Lattes Identificador Nome do pesquisador 0000000000000000 , XXXXX XXXXX XXXXX 0000000000000000 , XXXXX XXXXX XXXXX 0000000000000000 , ... XXXXX XXXXX XXXXX ... O ScriptExtract (1 e 2) pode ser obtidos em https://bitbucket.org/vlab4u/. A Lista Final é a principal entrada para se executar o ScriptLattes. Software livre que permite a criação de relatórios acadêmicos de forma automática, considerando apenas informações cadastrada nos Currículos Lattes. O software proporciona a análise de um conjunto de pesquisadores em cima de uma lista de interesse. Os resultados permitem analisar um conjunto de valiosos indicadores de produção acadêmica, bem como relatos de produção, coautoria, geoposicionamento, etc. Conclusões O resultado apresentado permite o uso do ScriptLattes por assunto, pois parte-se de uma lista de identificadores extraídos mediante uma expressão de busca composta por palavras-chave e não por uma lista de nomes integrantes de um Programa de Pós-Graduação ou de um Grupo de Pesquisa. A Lista Final compreende o primeiro passo para o desenvolvimento de uma sistemática de integração e aquisição de informações a nível micro, meso e macro dos dados científicos nacionais, além da oportunidade de aplicação da sistemática em outras áreas do conhecimento. Agradecimentos À Capes. NIT-Materiais. ____________________ DIGIAMPIETRI, L. A. ET. AL. Minerando e caracterizando dados dos currículos lattes. Brazilian Workshop on Social Network Analysis and Mining. Anais... In: BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING. Curitiba, PR, Brasil: 2012 MENA-CHALCO, J. P.; CESAR-JR, R. M. Scriptlattes: an opensource knowledge extraction sytem from the lattes plataform. Journal of the Brazilian Computer Society. v. 15, n. 4, p. 31–39, 2009. PYTHON. Welcome to. Disponível em: <http://python.org/>. Acesso em: 28 fev. 2014. THIOLLENT, M. Metodologia da pesquisa-ação. 13 ed. São Paulo: Cortez, 2004. 67ª Reunião Anual da SBPC