UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE MATEMÁTICA DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO LEANDRO MACHADO ANDRADE MINERAÇÃO DE TEXTOS: UMA EXPERIÊNCIA COM OS TEMAS PARA DISCURSO SEMI-DIRIGIDO (TDS) DO PROJETO ALIB Salvador 2013 LEANDRO MACHADO ANDRADE MINERAÇÃO DE TEXTOS: UMA EXPERIÊNCIA COM OS TEMAS PARA DISCURSO SEMI-DIRIGIDO (TDS) DO PROJETO ALIB Monografia apresentada ao Curso de graduação em Ciência da Computação, Departamento de Ciência da Computação, Instituto de Matemática, Universidade Federal da Bahia, como requisito parcial para obtenção do grau de Bacharel em Ciência da Computação. Orientadora: Profa . Claro Salvador 2013 Dra . Daniela Barreiro RESUMO O Projeto Atlas Linguístico do Brasil (Projeto ALiB), sediado no Instituto de Letras da UFBA, possui um sistema denominado ALiBWeb. Os textos do Projeto ALiB são transcrições resultantes de gravações feitas com informantes de todo o território brasileiro. Essas transcrições são feitas exatamente da forma como esses informantes pronunciam as palavras, sem nenhum tipo de correção gramatical, buscando-se o real uso da língua. O presente trabalho teve como objetivo desenvolver uma ferramenta para analisar e extrair informações dos textos orais produzidos pelos informantes do Projeto ALiB e previamente transcritos. O processamento desses textos tem como objetivo principal encontrar termos específicos como: "tu", "você", "nós", "a gente", "ter", "haver", "existir"e suas respectivas variações, bem como identificar e classificar morfologicamente os verbos que foram utilizados ao lado dos pronomes destacados dos textos: a) primeira pessoa do plural (nós), com pronome implícito ou explícito; b) 2a pessoa do singular (tu), com pronome implícito ou explícito e c) 3a pessoa do singular (em contextos em que possam ocorrer você e a gente), com pronome implícito ou explícito. Também são localizados os verbos "ter", "haver"e "existir"flexionados em qualquer modo e tempo, visando futuros estudos de contextos em que possam ocorrer em sentido existencial. Um dos desafios desse projeto foi identificar, nos textos, esses verbos conjugados fora da norma padrão. Experimentos foram realizados com o intuito de validar a proposta apresentada. Palavras-chave: Mineração de Textos, Projeto ALiB, projeto final. ABSTRACT The Linguistic Atlas of Brazil Project (Project Alib), based at the Institute of Arts Federal University of Bahia, has a system called ALiBWeb. Texts Project Alib resulting transcripts of recordings made ??with informants throughout Brazil. These transcriptions are made exactly the way these informants pronounce words without any grammatical accuracy, searching for the real use of language. This study aimed to develop a tool to analyze and extract information from oral texts produced by the informants Project Alib and previously transcribed. The processing of these texts has as main objective to find specific terms such as "you", "you", "we", "us", "have", "be", "there"and their variations, as well as identify and classified morphologically verbs that were used alongside the pronouns highlighted texts: a) the first person plural (we) with pronoun implicit or explicit b) 2nd person singular (tu) with pronoun implicit or explicit c) 3rd person singular (in contexts that may occur and you people), with implicit or explicit pronoun. Are also located the verbs "be", "there"and "there"bent in any way and time, aiming for future studies in contexts that may occur in the existential sense. One of the challenges of this project was to identify, in the texts, these conjugated verbs outside the standard norm. Experiments were performed in order to validate the proposal. Keywords: Text Mining, ALiB Project, final project. LISTA DE FIGURAS 2.1 Etapas do processo do KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.1 Estrutura Organizacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.1 Arquitetura do Analisador TDS . . . . . . . . . . . . . . . . . . . . . . . . . . 27 5.1 Tu x Você . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 5.2 Etiquetação do Analisador para Tu x Você . . . . . . . . . . . . . . . . . . . . 30 5.3 Gráfico comparativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 5.4 Nós / A gente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 5.5 Análise da ferramenta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.6 Gráfico comparativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5.7 Ocorrências pronomes implícitos x explícitos . . . . . . . . . . . . . . . . . . 34 5.8 Etiquetagem Ter/Haver/Existir . . . . . . . . . . . . . . . . . . . . . . . . . . 35 5.9 Etiquetagem da ferramenta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 5.10 Gráfico comparativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 SUMÁRIO 1 2 3 4 5 Introdução 7 1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2 Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3 Estrutura do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 FUNDAMENTAÇÃO TEÓRICA 9 2.1 KDD e KDT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2 Mineração de Textos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3 Processamento de linguagem natural - PLN . . . . . . . . . . . . . . . . . . . 17 Projeto ALiB 20 3.1 Histórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.2 Concepção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.4 Comitê Nacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.5 Estrutura Organizacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Analisador TDS para o ALiBWeb 24 4.0.1 Arquitetura Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.0.2 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Experimentos e Resultados. 28 5.1 28 Ambiente de desenvolvimento . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 6 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 5.2.1 Tu / Você . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 5.2.2 Nós / A gente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 5.2.3 Ter / Haver / Existir . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Conclusão Referências Bibliográficas 37 38 7 1 INTRODUÇÃO O Projeto ALiB (Projeto Atlas Linguístico do Brasil) (PROJETO. . . , 2013), sediado no Instituto de Letras da UFBA, realiza estudos sobre as características da língua falada em todo o território brasileiro. A língua portuguesa do Brasil possui muitas variações em sua forma falada, o que desperta o interece do Projeto ALiB nas variações linguísticas presentes nas diversas regiões do país. Em algumas, por exemplo, fala-se com mais frequência o pronome "você"em substituição ao pronome "tu". Assim, o ALiB tem o objetivo de estudar essas características de cada região do Brasil. Atualmente, a forma mais comum de armazenamento de informações é, sem dúvida, em formato textual. Mesmo com o crescente aumento da criação e divulgação de conteúdos em formato visual, cujo principal meio de disseminação é a internet, ainda se fazem necessários os textos para melhor descrever a transmissão da informação desejada. A automatização da descoberta do conhecimento é custosa, visto que a linguagem natural não requer uma estruturação padronizada, contem ambiguidades e frequentemente apresentam erros que dificultam o trabalho. 1.1 MOTIVAÇÃO O processo de análise desses estudos se inicia com entrevistas feitas em áudio pelos integrantes, conhecidos como inquiridores, do projeto e transcrevendo-os para textos, que representam os inguéritos. Esses inguéritos são transcritos exatamente como os informantes pronunciam suas palavras, com os seus erros gramaticais e de pronúncia. Nos textos são etiquetados, manualmente, os termos importantes da pesquisa para se chegar a um perfil da lingua falada daquela região a que o texto pertence. Os principais termos procurados pelo Projeto ALiB são: "tu", "você", "nós", "a gente", os vebos "ter", "existir"e "haver", bem como as ocorrências dos pronomes implícitos e explícitose e dos seus respectivos verbos. 8 1.2 PROPOSTA Diante da tarefa desgastante e lenta de etiquetação manual feita pelos analistas do Projeto ALiB, o presente projeto tem por principal objetivo de identificar a etiquetação de pronomes e verbos, como tu, você, nós, a gente, ter, haver, existir, automatizando esta tarefa para os textos TDS (Temas para Discursos Semidirigidos) do Projeto ALiB. Além da etiquetação explícita, este projeto tem a função de identificar as ocorrências implícitas desses pronomes nos textos. Uma ferramenta foi desenvolcida com o intuito de auxiliar essa etiquetação. O analisador morfológico JSpell (JSPELL, 2013), presente na ferramenta CoGroo (COGROO, 2013), foi incorporado na ferramenta proposta com o intuito de realizar a etiquetação das palavras desejadas quanto à sua respectiva classe gramatical. 1.3 ESTRUTURA DO TRABALHO Este trabalho está organizado em capítulos: o segundo capítulo apresenta a fundamentação teórica, com uma descrição dos das técnicas e tecnologias a serem utilizadas no processo de criação da ferramenta. No capítulo 3 é apresentado o Projeto ALiB. No capítulo 4 é apresentada a proposta deste trabalho, descrevendo o seu objetivo geral, a sua finalidade e como o processo foi automatizado dentro do Projeto ALiB. No capítulo 5 são apresentados os experimentos e resultados onde são descritos os experimentos realizados e os resultados obtidos. ao final é apresentado a conclusão e os trabalhos futuros. 9 2 FUNDAMENTAÇÃO TEÓRICA Segundo (BARION; LAGO, 2008), com o avanço da informatização, surge cada vez mais, um grande volume de informação armazenada em banco de dados. Estes dados, na maioria das vezes, incluem informações valiosas, como por exemplo, tendências e padrões que poderiam ser usados para auxiliar nas tomadas de decisões dentro das empresas. Entretanto, apesar das grandes evoluções surgidas nos Sistemas Gerenciadores de Banco de Dados, torna-se impossível extrair conhecimento para tomadas de decisões a partir dessas bases de dados. Muitas técnicas foram estudadas e desenvolvidas com a finalidade de resgatar informações valiosas contidas nessas bases de dados. Dentre essas técnicas está a chamada Descoberta do Conhecimento em Banco de Dados (Knowledge Discovered in Databases - KDD). Em geral, um processo de descoberta de conhecimento consiste em uma iteração das seguintes etapas: • Pré processamento: netsa etapa os dados são preparados para serem apresentados às técnicas de data mining. Os dados são selecionados (quais os dados que são importantes), purificados (retirar inconsistências e incompletude dos dados) e pré-processados (reapresentá-los de uma maneira adequada para o data mining). Este passo é realizado sob a supervisão e conhecimento de um especialista, pois o mesmo é capaz de definir quais dados são importantes, assim como o que fazer com os dados antes de utilizá-los a mineração de dados. • Mineração de dados: é onde os dados preparados são processados, ou seja, é onde se faz a mineração dos dados propriamente dita. O principal objetivo desse passo é transformar os dados de uma maneira que permita a identificação mais fácil de informações importantes. • Pós processamento: o resultado do data mining é avaliado, visando determinar se algum conhecimento adicional foi descoberto, assim como a análise dos fatos gerados. Para 10 esse passo, várias maneiras de análise podem ser utilizadas, por exemplo: o resultado do data mining pode ser expresso em um gráfico, em que análise dos dados passa a ser uma análise do comportamento do gráfico. Segundo (ZANUSSO, 2013), Data Mining é o processo de descobrir informações relevantes, como padrões, associações, mudanças, anomalias e estruturas, em grandes quantidades de dados armazenados em banco de dados, depósitos de dados ou outros repositórios de informação. Devido à disponibilidade de enormes quantias de dados em formas eletrônicas, e à necessidade iminente de extrair delas informações e conhecimentos úteis a diversas aplicações, por exemplo, na análise de mercado, administração empresarial, apoio à decisão, etc. De acordo com (AMORIM, 2006), a mineração de dados pode ser definida como um conjunto de técnicas automáticas de exploração de grandes massas de dados de forma a descobrir novos padrões e relações que, devido ao volume de dados, não seriam facilmente descobertas manualmente. Ainda que as técnicas da Mineração de Dados sejam antigas, foi apenas nos últimos anos que passaram a ser usadas como exploração de dados, por vários motivos (CARVALHO, 2005): • O volume de dados disponível atualmente é enorme - Mineração de Dados é uma técnica que só se aplica a grandes massas de dados, pois necessita disto para calibrar seus algoritmos e extrair dos dados conclusões confiáveis. Empresas de telefonia, cartões de crédito, bancos, televisão por assinatura, comércio eletrônico, entre outras, vem gerando a cada dia uma grande quantidade de dados sobre seus serviços e clientes. Estes dados são passíveis de análise por mineração. • Os dados estão sendo organizados - Com a tecnologia do datawarehouse, os dados de várias fontes estão sendo organizados e padronizados de forma a possibilitar sua organização dirigida para o auxílio à decisão. As técnicas de mineração de dados necessitam de bancos de dados limpos, padronizados e organizados; • Os recursos computacionais estão cada vez mais potentes - A mineração de dados necessita de muitos recursos computacionais para operar seus algoritmos sobre grandes quantidades de dados. O aumento da potência computacional, devido ao avanço tecnológico e à queda dos preços dos computadores, facilita o uso da mineração de dados atualmente. 11 O avanço da área de banco de dados, construindo bancos de dados distribuídos, também auxiliou em muito à mineração de dados. • A competição empresarial exige técnicas mais modernas de decisão - As empresas da área de finanças, telecomunicações e seguro experimentam a cada dia mais competição. Como estas empresas sempre detiveram em seus bancos de dados uma enorme quantidade de informação, é natural que a mineração de dados tenha se iniciado dentro de seus limites. Atualmente, outras empresas buscam adquirir dados para analisar melhor seus caminhos futuros através dos sistemas de apoio à decisão. Para empresas de serviços, a aquisição de dados é importante, pois precisam saber que serviço oferecer a quem. Para outras empresas, até a venda das informações pode ser um produto. • Programas comerciais de mineração de dados já podem ser adquiridos - As técnicas de mineração de dados são antigas conhecidas da Inteligência Artificial, porém somente recentemente saíram dos laboratórios para as empresas. Alguns pacotes já podem ser encontrados no comércio, contendo algumas destas técnicas. As técnicas mais recentes, no entanto, ainda se encontram no campo acadêmico, sendo necessário que a empresa se dirija a uma universidade que realize pesquisa para obter ajuda. 2.1 KDD E KDT O KDD é um processo de descoberta dos dados armazenados, com maior sentido. As etapas do KDD estão dispostas na figura 2.1. Figura 2.1: Etapas do processo do KDD KDD é uma área interdisciplinar específica que surgiu em resposta à necessidade de novas abordagens e solução para viabilizar a análise de grandes bancos de dados. Particularmente, 12 KDD tem obtido sucesso na área de marketing, onde a análise de banco de dados de clientes revela padrões de comportamento e preferências que facilitam a definição de estratégias de vendas (ROMãO, 2012). Segundo (BARION; LAGO, 2008), as etapas pertencentes ao KDD são: • Dados - O KDD se baseia no armazenamento de dados estruturados. • Seleção de Dados - Após ter definido o domínio sobre o qual se pretende executar o processo de descoberta, a próxima etapa é selecionar e coletar o conjunto de dados ou variáveis necessárias. • Processamento - Esta etapa é também conhecida como pré-processamento, visando eliminar os dados que não se adequam às informações, com base nos algoritmos, ou seja, dados incompletos, problemas de definição de tipos, eliminação de tuplas repetidas, etc. • Transformação - Nesta etapa os dados deverão ser armazenados adequadamente para facilitar na utilização das técnicas de mineração de dados. • Mineração de Dados - A atividade de descoberta do conhecimento é onde são processados os algoritmos de aprendizado de máquina e de reconhecimento de padrões. A maioria dos métodos de Data Mining são baseados em conceitos de aprendizagem de máquina, reconhecimento de padrões, estatística, classificação, clusterização, modelos gráficos. • Interpretação/Avaliação - Nessa etapa final, os resultados do processo de descoberta do conhecimento podem ser mostrados de diversas formas, porém devem ser apresentadas de forma que o usuário possa entender e interpretar os resultados obtidos. Porém, as etapas pertencentes ao KDD, representadas na figura 2.1, necessitam de dados já estruturados. 80% das informações de uma empresa estão contidas em formato de textos (TAN, 1999). 80% do conteúdo online também está em formato texto (CHEN, 2001). Restando 20% de informações para serem trabalhadas e interpretadas. 2.2 MINERAÇÃO DE TEXTOS A área de Mineração de Textos (Text Mining), também conhecida como KDT (Knowledge Discovery in Text) ou Descoberta de Conhecimentos em Textos (MONTEIRO; GOMES; OLIVEIRA, 2006), surgiu com a finalidade de tratar os dados e as informações não-estruturadas 13 considerando o alto nível de complexidade envolvida neste tipo de representação de informação (SOUZA; NAGLIS, 2008). O que diferencia a mineração de dados da mineração de textos é que na primeira os dados estão organizados em tabelas na base de dados. Restando ao processo de mineração tratar esses dados para extrair conhecimento relevante, utilizando técnicas da mineração como, por exemplo: Indução e/ou Extração de Regras, Redes Neurais, Algoritmos Evolucionários, Técnicas estatísticas (classificadores e redes Bayesianas), Conjuntos Difusos (ROMãO, 2012). Já na mineração de textos, os dados estão armazenados na forma de texto livre, em linguagem natural, com informações pertencentes a distintos domínios de interesse misturados entre si. Tornando o processo de descoberta do conhecimento muito mais trabalhoso e complicado. A mineração de texto será importante neste projeto por oferecer um conjunto de métodos para descobrimento automático de informações e padrões em textos. Tornando possível encontrar associações, descobrir padrões que indicarão o significado de cada palavra contida nos textos de linguagem natural. Esse processo de descoberta do conhecimento em textos não estruturados é formado, geralmente, pela execução de algumas técnicas de mineração de textos. De acordo com (ARANHA; PASSOS, ), para manipular textos, antes é preciso estrutura-los. Isto é, utilizar algum procedimento que transforme os caracteres em objetos relacionados entre si. A lógica dessa transformação está presente no próprio texto, através de padrões linguísticos. Para se entender o processamento de textos faz-se necessário ter um pouco de conhecimento de áreas como informática, linguística e ciência cognitiva. É preciso também entender dos significados de uma palavra para entender como se processa a sintaxe de uma língua. As variações culturais na escrita de uma língua para outra é um complicador para um sistema de processamento de textos. Assim, cada sistema de processamento de texto deve levar em consideração em qual língua o texto está escrito, para que possa ser definido com clareza e com quais parâmetros o texto deve ser analisado. Para processar o texto, deve-se dividi-lo em partes menores, sem que se quebre a composição da linguagem, analisando a composição léxica das palavras e depois seus relacionamentos sintáticos. Essas palavras são, então, classificadas e organizadas. A mineração de texto surgiu com a finalidade de tratar os dados e as informações não estruturadas considerando o alto nível de complexidade envolvida neste tipo de representação de 14 informação (MONTEIRO; GOMES; OLIVEIRA, 2006). A mineração de textos surge, então, da necessidade de se descobrir, de forma automática, informações (padrões e anomalias) em textos. Mineração de textos é um conjunto de métodos usados para navegar, organizar, achar e descobrir informações em bases de textos (BARION; LAGO, 2008). Segundo o Text Mining Research Group, "Mineração de textos é a procura por padrões em um texto em linguagem natural e pode ser definido como o processo de análise do texto para extrair informação dele para um propósito em particular". De acordo com (MONTEIRO; GOMES; OLIVEIRA, 2006), a mineração de textos possui três principais etapas. Existe a etapa de pré-processamento ou preparação dos dados, Análise dos dados e extração do conhecimento e a etapa de pós-processamento ou avaliação das descobertas. 1. Extração Com a extração queremos encontrar informações específicas no texto. A técnica da extração procura por padrões e a partir deles extrair dados não estruturados e transforma-los em dados úteis, estruturados e com algum significado. 2. Categorização A categorização associa categorias pré-definidas ao texto. O intuito é facilitar a busca das informações que estão espalhadas pelos textos. 3. Clustering A clusterização ajuda na identificação de características semelhantes nos textos. Gerando novas informações a partir de métricas definidas a priori. O clustering cria classes para agrupar partes dos textos que sejam comuns. 4. Sumarização A sumarização, como o próprio nome sugere, é um resumo do texto completo. Ela leva em consideração os termos mais importantes e relevantes para gerar uma ideia geral do contexto e estruturar apenas o que realmente interessa. ETAPAS DA MINERAÇÃO DE TEXTOS: 1. Coleta Nessa etapa serão selecionados os textos que serão as fontes do conhecimento a ser descoberto pelo projeto. Os textos gerados a partir das transcrições do projeto ALIB serão enviados para o sistema, onde se iniciará o processo. 2. Pré-processamento Essa é uma das etapas mais custosas da mineração de textos. Aqui é necessário muita pesquisa e experimentos para se identificar qual a técnica é mais adequada ao nosso caso. A depender do objetivo da mineração de texto, pode-se aplicar 15 diferentes técnicas de pré-processamento. Nessa etapa é feita a tokenização (MOURA, 2009) das palavras e o desmembramento do texto em partes menores. Os tokens podem ser criados de acordo com regras da linguagem e seus delimitadores. É necessário também realizar o processo de Stemming (BARION; LAGO, 2008). Revista de Ciências Exatas e Tecnologia), pois uma palavra pode assumir algumas variações no texto como, por exemplo: plural ou formas de gerúndio. Então o processo de Stemming remove essas variações. 3. Indexação É importante no ramo da recuperação da informação, que necessita de rapidez e eficiência na localização das informações armazenadas. Como as buscas são feitas geralmente por palavras-chaves, é importante a utilização de estruturas de dados que indexem de forma eficiente essas palavras armazenadas. 4. Processamento É nessa etapa que ocorre a efetiva busca por novos conhecimentos. A escolha do algoritmo de processamento vai depender do objetivo do trabalho, que podem variar entre aprendizado de máquina, redes neurais, bancos de dados, estatísticas, dentre outros. 5. Análise da Informação Também conhecida como pós-processamento, nessa fase é verificado se o objetivo da mineração foi alcançado. No nosso caso, para esse projeto em questão, essa análise deve ser feita por pessoas integrantes do Projeto ALiB. Numa busca por conhecimentos e informações em textos não estruturados devemos identificar sentenças e categorizar palavras. A categorização, a que nos propomos fazer neste trabalho, será direcionada à classificação morfológica das palavras. As mais de 400 mil palavras existentes na língua portuguesa estão classificadas, no geral, em 10 classes gramaticais (CLASSES. . . , ), que são: 1. SUBSTANTIVO - É dita a classe que dá nome aos seres, mas não nomeia somente seres, como também sentimentos, estados de espírito, sensações, conceitos filosóficos ou políticos, etc. 2. ARTIGO - Classe que abriga palavras que servem para determinar ou indeterminar os substantivos, antecedendo-os. Exemplo: o, a, os, as, um, uma, uns, umas. 3. ADJETIVO - Classe das características, qualidades. Os adjetivos servem para dar características aos substantivos. 16 4. PRONOME - Palavra que pode acompanhar ou substituir um nome (substantivo) e que determina a pessoa do discurso. 5. VERBO - Palavras que expressam ações ou estados se encontram nesta classe gramatical. 6. ADVÉRBIO - Palavras que se associam a verbos, adjetivos ou outros advérbios, modificandoos. 7. NUMERAL - Como o nome diz, expressam quantidades, frações, múltiplos, ordem. 8. PREPOSIÇÃO - Servem para ligar uma palavra à outra, estabelecendo relações entre elas. 9. CONJUNÇÃO - São palavras que ligam orações, estabelecendo entre elas relações de coordenação ou subordinação. 10. INTERJEIÇÃO - Contesta-se que esta seja uma classe gramatical como as demais, pois algumas de suas palavras podem ter valor de uma frase. Mesmo assim, podemos definir as interjeições como palavras ou expressões que evocam emoções, estados de espírito. O objetivo será classificar o maior número possível das palavras com uma margem satisfatória de acertos; essa margem será determinada numa próxima fase quando forem testados alguns métodos para Reconhecimento de Entidades Mencionadas (REM). De acordo com (SANTOS; CARDOSO, 2007), uma Entidade Mencionada (EM) é constituída por uma sequência de palavras no texto. Segundo (JúNIOR, 2011), o REM objetiva identificar e classificar os nomes das entidades contidas em um texto não estruturado. As principais entidades encontradas em textos são: pessoa, organização, local, tempo e outros nomes aplicados a domínios específicos. O REM pode ser classificado como um problema de classificação, onde tem como objetivo atribuir a cada valor de entrada uma classe, que pode ser chamada de Entidade Mencionada EM. Um valor de entrada pode ser identificado como um token e a EM representa a classe associada a esse token. Por exemplo: a classe PESSOA pode ter como token as palavras João, Marcelo, Maria. Claro que devemos levar em consideração o contexto onde as palavras estão inseridas. Como é o caso da frase: "A avenida João Dias está engarrafada", nesse caso a palavra "João"não iria se referir a um token de PESSOA, mas poderia se referir a um token de Local. Outra técnica importante para o desenvolvimento desse trabalho é o processamento de cadeias de caracteres. Segundo (ZIVIANI, 2006), uma cadeia de caracteres é uma sequência 17 qualquer de elementos, e essas cadeias aparecem no processamento de textos em linguagem natural, códigos, dicionários, sequenciamento de DNA em biologia computacional, dentre outros. Vamos dar ênfase aos algoritmos da classe que abrange o casamento de cadeias, onde temos algoritmos para pesquisa exata e pesquisa aproximada. Esse segundo tipo de pesquisa será útil quando nos depararmos com palavras escritas de forma incorreta, como, por exemplo, uma pessoa que pronuncia a palavra "andando"como "andano", "varrer"como "barrer". Esse é, provavelmente, um dos maiores desafios dessa proposta. No casamento de cadeias, os caracteres são escolhidos de um conjunto denominado alfabeto. Como exemplo, podemos citar uma cadeia de bits, onde seu alfabeto é constituído por 0’s e 1’s, { 0,1 } . Para formalizarmos o casamento de cadeias, citamos um texto T que pode ser considerado um arranjo T[0..n-1] de tamanho n, e um padrão P que também é um arranjo P [ 0..m-1 ] de tamanho m, onde m ≤ n. No primeiro momento nosso sistema irá trabalhar com o texto T unicamente, sem nenhum conhecimento prévio do seu conteúdo. Em um segundo momento, um novo processamento será necessário para varrer e identificar as palavras que foram pronunciadas em variâncias gramaticais e de forma. Para o primeiro momento temos algoritmos de uma categoria onde o Padrão e o texto não são pré-processados e no segundo temos Padrão e texto pré-processados. Padrão e o texto não são pré-processados: os algoritmos são do tipo sequencial, on-line e de tempo real, pois não temos conhecimento sobre o padrão e o texto para dar alguma informação para o sistema. Esses algoritmos dessa categoria têm uma complexidade de tempo O(mn) e de espaço O(1), para o pior caso. Como exemplo, podemos citar o algoritmo de força bruta. Padrão e texto são pré-processados: nessa categoria os algoritmos constroem um índice para permitir uma complexidade de tempo O(log n) ou ate menos, porém a complexidade de espaço fica em O(n). O tempo grande desprendido no pré-processamento acaba compensando no final, quando forem necessárias pesquisas às palavras. 2.3 PROCESSAMENTO DE LINGUAGEM NATURAL - PLN Processamento de Linguagem Natural (PLN) é uma área de Ciência da Computação que estuda o desenvolvimento de programas de computador que analisam, reconhecem e/ou geram textos em linguagens humanas, ou linguagens naturais. Desde o surgimento das técnicas de PLN, muitos avanços foram obtidos, mas a compreensão plena de linguagem natural por métodos computacionais está ainda longe de ser resolvida. Apesar disso, o tratamento computacional 18 da língua e bases textuais é um campo muito promissor (LOPES; VIEIRA, ). Ainda de acordo com (LOPES; VIEIRA, ), o PLN não é uma tarefa trivial devido à rica ambiguidade da linguagem natural. Essa ambiguidade torna o PLN diferente do processamento das linguagens de programação de computador, as quais são formalmente definidas evitando, justamente, a ambiguidade. Segundo (BARROS; ROBIN, 2001), o PLN é uma vertente da inteligencia artificial (IA) que tem por objetivo interpretar e gerar textos em uma língua natural, como por exemplo (Português, Inglês, Francês, Espanhol, etc). A pesquisa em PLN se divide em duas sub-áreas de trabalho: interpretação e geração. De um ponto de vista linguístico, o foco das pesquisas em PLN pode estar em um de cinco níveis de análise (LOPES; VIEIRA, ): (a) fonético ou fonológico, (b) morfológico, (c) sintático, (d) semântico ou (e) pragmático. Todos esses níveis possuem suas características próprias e suas dificuldades associadas, mas cada aplicação de PLN pode ter a preocupação mais voltada para um subconjunto desses níveis. Para que um sistema computacional interprete uma sentença em linguagem natural, é necessário manter informações morfológicas, sintáticas e semânticas, armazenadas em um dicionário, juntamente com as palavras que o sistema compreende (OLIVEIRA, ). Para o contexto do presente trabalho, a análise morfológica tem fundamental importância. O analisador morfológico tem a função de identificar palavras e expressões que encontram-se de maneira isolada no texto. Esse processo é auxiliado por marcadores, como pontuação e espaços em branco por exemplo. A morfologia trata as palavras quanto a sua estrutura, forma, flexão e classificação, no que se refere a cada um dos tipos de palavras. Assim, uma palavra ou uma sentença gramaticalmente correta pode ser substituída por outra que pertença ao mesmo tipo ou classe, sem que se altere a estrutura correta da frase. Dentre essas classes podemos exemplificar: substantivo, verbo, adjetivo, etc. Dentro de um mesmo tipo de palavra, temos que considerar suas variações de gênero, tempo verbal, número, pessoa, etc. Essas variações constituem os grupos de regras que caracterizam os comportamentos das palavras de uma linguagem. Através da gramática da linguagem a ser analisada e das informações do analisador morfológico, o analisador sintático procura construir árvores de derivação para cada sentença, mos- 19 trando como as palavras estão relacionadas entre si (OLIVEIRA, ). 20 3 PROJETO ALIB O Projeto Atlas Linguístico do Brasil (Projeto AliB), sediado no Instituto de Letras da UFBA, possui um sistema chamado ALiBWeb. Nesse sistema estão cadastradas todas as informações, coletadas até hoje, provenientes das pesquisas feitas em campo pelas equipes do ALiB. O trabalho dos integrantes do ALiB, responsáveis pela coleta dos dados, consiste em percorrer várias regiões predeterminadas do Brasil em busca de informações a respeito das mais variadas formas e características da língua falada em cada um desses lugares. Os informantes são escolhidos levando em consideração idade, classe social, nível de escolaridade, sexo, dentre outros fatores. A entrevista é constituída por perguntas predefinidas que induzem os informantes a pronunciarem uma palavra desejada em específico pelo inquiridor e por discursos livres, onde o informante pode narrar uma história vivida por ele, algo pessoal, que ele possa discursar da forma mais livre possível e demonstrar como ele realmente fala no dia a dia. Esses diálogos são gravados em áudio e posteriormente transcritos para o ALiBWeb. Os textos gerados a partir do discurso livre são identificados como Temas para Discursos Semidirigidos (TDS), esses textos servirão como fonte de entrada para a mineração dso textos a que esse projeto se propõe. A partir da ferramenta proposta neste trabalho, um novo módulo será criado para incorporar as funcionalidades desenvolvidas. 3.1 HISTÓRICO O Projeto ALiB, Projeto Atlas Linguístico do Brasil, tem por meta a realização de um atlas geral no Brasil no que diz respeito à língua portuguesa (PROJETO. . . , 2013). Tem como objetivo o conhecimento dos dialetos existentes no Brasil, durante todo o desenvolvimento dos estudos linguísticos e filológicos, ganha corpo nesse final/começo de milênio, a partir de iniciativa de um grupo de pesquisadores do Instituto de Letras. A UFBA sedia essa atitude pioneira ao empreender a concretização dessa proposta que se realiza como projeto conjunto que envolve hoje doze Universidades. A manifestação em favor da elaboração de um atlas linguístico brasileiro teve seu início por volta de 1952. As dificuldades de variada ordem levaram os dialec- 21 tólogos brasileiros a iniciarem o trabalho de mapeamento linguístico do Brasil pela realização de atlas regionais. 3.2 CONCEPÇÃO A ideia do Atlas Linguístico do Brasil foi retomada por ocasião do Seminário Nacional Caminhos e Perspectivas para a Geolinguística no Brasil, realizado em Salvador, na Universidade Federal da Bahia, com a participação de dialectólogos brasileiros e do Diretor do ALiR (Atlas Linguistique Roman), Prof. Michel Contini (Grenoble). Nessa ocasião foi criado um Comitê Nacional, integrado pelos autores dos cinco atlas lingüísticos regionais publicados e por um representante dos atlas em andamento. São eles: os Professores Suzana Alice Marcelino da Silva Cardoso (UFBA), que preside o Comitê, Jacyra Andrade Mota (UFBA), Maria do Socorro Silva de Aragão (UFPB), Mário Roberto Lobuglio Zágari (UFJF), Vanderci de Andrade Aguilera (UEL) e Walter Koch, representando os atlas em andamento (PROJETO. . . , 2013). Em 2002, após a publicação do Atlas Lingüístico-Etnográfico da Região Sul do Brasil - ALERS, sob a coordenação do Professor Walter Koch, integra-se ao Comitê a professora Aparecida Negri Isquerdo, como nova representante dos atlas em andamento. 3.3 OBJETIVOS O Projeto ALiB fundamenta-se nos princípios gerais da Geolinguística contemporânea (PROJETO. . . , 2013). 1. Descrever a realidade linguística do Brasil, no que tange à língua portuguesa, com enfoque prioritário na identificação das diferenças diatópicas (fônicas, morfossintáticas e léxico-semânticas) consideradas na perspectiva da Geolinguística. 2. Oferecer aos estudiosos da língua portuguesa (linguistas, lexicólogos, etimólogos, filólogos, etc.), aos pesquisadores de áreas afins (história, antropologia, sociologia, etc.) e aos pedagogos (gramáticos, autores de livros-texto, professores) subsídios para o aprimoramento do ensino/aprendizagem e para uma melhor interpretação do caráter multidialetal do Brasil. 3. Estabelecer isoglossas com vistas a traçar a divisão dialetal do Brasil, tornando evidentes as diferenças regionais através de resultados cartografados em mapas linguísticos e realizar estudos interpretativos de fenômenos considerados. 22 4. Examinar os dados coletados na perspectiva de sua interface com outros ramos do conhecimento - história, sociologia, antropologia, etc. - de modo a poder contribuir para fundamentar e definir posições teóricas sobre a natureza da implantação e desenvolvimento da língua portuguesa no Brasil. 5. Oferecer aos interessados nos estudos linguísticos um considerável volume de dados que permita aos lexicógrafos aprimorarem os dicionários, ampliando o campo de informações; aos gramáticos atualizarem as informações com base na realidade documentada pela pesquisa empírica; aos autores de livros didáticos adequarem a sua produção à realidade cultural de cada região; aos professores aprofundar o conhecimento da realidade linguística, refletindo sobre as variantes de que se reveste a língua portuguesa no Brasil e, consequentemente, encontrando meios de, sem desprestigiar os seus dialetos de origem, levar os estudantes ao domínio de uma variante tida como culta. 6. Contribuir para o entendimento da língua portuguesa no Brasil como instrumento social de comunicação diversificado, possuidor de várias normas de uso, mas dotado de uma unidade sistêmica. 3.4 COMITÊ NACIONAL O Comitê Nacional é o órgão que dirige e coordena todas as atividades do Projeto ALiB. Seus membros representam os atlas regionais já publicados e os atlas em andamento no Brasil. Por ocasião da sua constituição em 1996, o Comitê foi formado por seis membros, representantes dos cinco atlas linguísticos então publicados, mais um representante de todos os atlas em andamento, o Professor Walter Koch. Com a publicação, porém, do Atlas LinguísticoEtnográfico da Região Sul do Brasil (ALERS), em 2002, sob coordenação de Koch, integra-se ao Comitê a Professora Aparecida Negri Isquerdo, como nova representante dos atlas em andamento, passando o Professor Koch a representar o ALERS. Durante o IV Workshop, realizado em abril de 2004, em Salvador, em virtude do lançamento do Atlas Linguístico Sonoro do Pará, o Professor Abdelhak Razky (UFPA) foi incluído como oitavo membro do Comitê Nacional, representando esse atlas. O Comitê é, assim, formado por um Diretor Presidente, um Diretor Executivo e, atualmente, seis Diretores Científicos. 23 3.5 ESTRUTURA ORGANIZACIONAL O Projeto ALiB está organizado de acordo com a figura 3.1 a seguir. Figura 3.1: Estrutura Organizacional 24 4 ANALISADOR TDS PARA O ALIBWEB O presente trabalho propôs desenvolver uma ferramenta que será integrada ao sistema ALiBWeb, cuja função é automatizar a etiquetação das transcrições dos textos produzidos pelo Projeto ALiB. Essa etiquetação se refere à identificação dos termos específicos: "tu", "você", "nós", "a gente", "ter", "haver", "existir"e suas respectivas variações. Os verbos identificados ao lado desses pronomes destacados nos textos também serão etiquetados de acordo com suas classes gramaticais. A primeira pessoa do plural deverá ser etiquetada. Quando pronunciado corretamente, o referido pronome é transcrito sem alterações. Assim, ao se encontrar o termo "nós", a ferramenta irá marcá-lo no texto. Há casos, porém, onde a pronúncia desse pronome é feita de forma errada, resultando um som mais próximo do termo "nois", que também será sinalizado no texto por refletir o mesmo sentido do pronome correto. O pronome na 2a pessoa do singular (tu) também será etiquetado, assim como a 3a pessoa do singular (você ou a gente). Para esses casos, deverão ser identificados os pronomes que encontram-se explícitos e implícitos no texto. Os verbos "ter", "haver"e "existir"serão marcados no texto, bem como suas respectivas variações em modo e tempo. Para auxiliar no desenvolvimento do projeto, foi utilizada a ferramenta CoGroo (COGROO, 2013). Essa ferramenta é, internamente, um corretor gramatical, um analisador e anotador de textos. Ele se enquadra no ramo da computação conhecido como Processamento de Linguagens Naturais (PLN). O objetivo de utilizar o CoGroo é o aproveitamento do analisador morfológico para a lingua portuguesa do Brasil que ele incorporou, o Jspell (JSPELL, 2013). Um analisador morfológico tem a função de caracterizar uma palavra com relação ao gênero, número, categoria gramatical, etc. O Jspell é uma ferramenta livre para análise morfológica e corrector ortográfico, originalmente para sistemas baseados em Unix. O código fonte é baseado 25 no Ispell (ISPELL, 2013). Está orientado para a verificação ortográfica/morfológia de textos/palavras da língua portuguesa. O Jspell foi desenvolvido em 1994 por Ulisses Pinto e José João Almeida, agora fazendo parte do projecto Natura.O nome do Jspell deriva do iSpell (I+1) (JSPELL, 2013). O CoGroo foi escolhido para ser integrado à ferramenta por ser desenvolvido na linguagem de programação Java (ORACLE, 2013a), é um recurso pronto, que vem sofrendo frequentes atualizações e pode ser utilizado e ser de fácil integração com o sistema já existente do Projeto ALiB, desenvolvido também em Java. O Jspell, por estar disponível em C e Perl, não foi utilizado diretamente por ter sua integração mais custosa, já que está disponível em uma linguagem diferente da utilizada neste trabalho. O CoGroo irá auxiliar na medida em que as palavras existentes no português do Brasil forem encontradas, termos pertencentes à norma culta que estão sempre corretos gramaticalmente. Porém, os textos fornecidos pelo ALiB, têm como característica peculiar a existência de palavras escritas exatamente como são pronunciadas por seus informantes, pessoas que possuem vícios de linguagem, que em um discurso livre não se preocuparão com a fonética correta das palavras. Como citado anteriormente, uma palavra como o pronome "nós"pode ser pronunciada como "nois"simplesmente, ou uma frase como "nós fomos"pode ser pronunciada como "nois fomu". Casos como estes não seriam considerados na análise do CoGroo de forma satisfatória ao se deparar com palavras inexistentes an norma culta, com erros gramaticais. O ALiB tem como objetivo gerar um atlas geral do Brasil no que diz respeito à língua portuguesa. Este projeto busca a forma como as pessoas, ao redor de todo o território brasileiro, pronunciam determinadas palavras, como elas conjugam os verbos, se falam da forma correta gramaticalmente ou se referem a determinados fenômenos com uma palavra ou se o chamam por outra. Ao fim desse processo tem-se em mãos uma gravação em áudio que será transcrita exatamente como os informantes pronunciaram. Inclusive os erros de pronúncia, de conjugação, dentre outros casos que fogem à norma culta da língua portuguesa. O próximo processo é classificar todas as entidades relevantes dos textos, tudo isso feito manualmente, e salvar em documentos textuais. O que torna um processo cansativo e demorado. O TDS é uma transcrição de um discurso livre do informante. O texto gerado é armazenado na base de dados do ALiB. O texto gerado é constituído por todo o diálogo entre o inquiridor e o informante, sendo demarcado no texto a quem pertence cada fala transcrita. O diálogo do 26 inquiridor é demarcado com "INQ - "e do informante com "INF - ". O objetivo do ALiB no TDS é identificar como as pessoas falam nas diversas regiões do Brasil. Se essas pessoas pronunciam mais o "tu"ao invés de "você", as variações de "você": "cê", "ocê", "vossa merce", dentre outras. A pesquisa contempla também a identificação da utilização dos termos "ter", "haver"e "existir". Se estão utilizando o "existir"onde deveriam utilizar o "haver". Outra pesquisa feita nesses textos é a ocorrência da conjugação dos verbos na primeira pessoa do plural, bem como a ocorrência do pronome nós e suas variações, como por exemplo: "nóis", "a gente". Toda essa pesquisa é feita hoje em arquivos textos, buscando pelas palavras ou termos utilizando os buscadores presentes nos editores de textos disponíveis no mercado e verificando, a cada busca, a quantidade das ocorrências encontradas, de forma visual e manual apenas. A proposta do projeto é automatizar essa última etapa do processo. Pretende-se identificar e classificar as entidades encontradas nos textos transcritos, realizadas por um sistema automático que se aproxime ao máximo da classificação manual feita hoje pelos integrantes do Projeto ALiB de forma rápida e eficiente, que facilite a visualização. Para isso, foram utilizadas algumas técnicas necessárias já descritas anteriormente para fazer os tratamentos necessários nos textos e aliado a isso disponibilizar uma interface no sistema ALiBWeb que seja possível pesquisar nos textos as entidades desejadas, marcando os termos encontrados com cores que facilitem a identificação na pesquisa de qualquer palavra contida nos textos. Também será incorporada na mesma interface uma estatística dos termos encontrados durante a análise. Dados como a quantidade e a porcentagem referente a cada termo encontrado. 4.0.1 ARQUITETURA PROPOSTA O analisador TDS proposto possui três módulos principais que interagem com a ferramenta CoGroo. Durante o pré-processamento do texto é verificado e separado quais as partes são importantes para a análise. Nos textos TDS do ALiB existem partes referentes à fala do inquiridores e partes referentes ao informante. Apenas o texto que diz respeito ao informante será considerado na análise. Textos não necessários não serão analisados, não passando pela análise e serão retornados sem nenhuma alteração. Todo texto a ser analisado será enviado para a verificação morfológica do CoGroo. Em seguida será feita a busca pelos termos a serem etiquetados. Após etiquetar todos os termos necessários, o texto passa por um pós processo de formatação para gerar o texto final como resultado. 27 A figura 4.1, descreve como está estruturada a ferramenta proposta. Na interação com o CoGroo o texto a ser analisado morfologicamente é passado como parâmetro e como retorno é devolvido uma lista de tokens contendo a análise gramatical para cada sentença. Figura 4.1: Arquitetura do Analisador TDS 4.0.2 ALGORITMO No que se diferencia esse trabalho, os algoritmos de identificação de pronomes implícitos e explícitos têm como meio de ação, primeiramente, a identificação de um verbo conjugado no tempo desejado e verificar se ele foi precedido de um pronome que corresponda à sua conjugação. As ocorrências dos pronomes desejados e verbos conjugados, logo em seguida, em tempos diferentes do correto ou mesmo escritos de maneira errada, resultado da pronúncia equivocadada do informante foi feita de maneira que um pronome procurado, ao ser identificado, o algorítmo verificará à frente a possibilidade de haver uma palavra não identificada na sequência. Para verificar o comportamento da ferramenta, o capítulo seguinte descreve como foram feitos os experimentos e os resultados alcançados. 28 5 EXPERIMENTOS E RESULTADOS. Este capítulo apresenta alguns experimentos realizados com o intuito de validar a ferramenta desenvolvida. 5.1 AMBIENTE DE DESENVOLVIMENTO O desenvolvimento do projeto utilizou a linguagem de programação Java (ORACLE, 2013a), juntamente com o framework JSF 2 (ORACLE, 2013b). A máguina onde a ferramenta foi desenvolvida é configurada com processador intel core i5, 4GB de memória ram, sistema operacional windows 7 64 bits. Para a utilização da ferramenta CoGroo (vesão 4.0.0) (COGROO, 2013), foi necessário também utilizar o framework Maven (APACHE, 2013), responsável por gerenciar as dependências do projeto que utiliza o CoGroo e configurar um ambiente de desenvolvimento padronizado seguindo boas práticas. Os experimentos feitos refletem uma comparação entre a etiquetação feita manualmente com a etiquetação feita pela ferramenta desenvolvida. 5.2 EXPERIMENTOS Dois experimentos foram realizados. O primeiro corresponde à etiquetação dos textos com "tu / você", "ter / haver / existir"e "nós / A gente"através do algoritmo proposto. O segundo experimento corresponde ao desempenho do algoritmo em relação à etiquetação manual. Para tal, as medidas de precisão, cobertura e medida F foram utilizadas. Existem diversas medidas que podem ser utilizadas para avaliar o desempenho de um Sistema de Recuperação de Informação. As medidas mais utilizadas são precisão e cobertura 29 (BARTH, 2013). Cobertura Cobertura é a razão entre o número de documentos recuperados que são relevantes para uma consulta e o total dos documentos na coleção que são relevantes para a consulta. Precisão Precisão (P) é a proporção dos documentos recuperados que são relevantes para uma dada consulta em relação ao total de documentos recuperados. Essa medida reflete a eficiência dos resultados do sistema, revelando a proporção das respostas corretas (RC) dentre todas as respostas resultantes (RR) do sistema. P= RC RR Medida F Um Sistema de Recuperação de Informação pode equilibrar precisão e cobertura. No caso extremo, um sistema que retorna todos os documentos da coleção de documentos como seu conjunto de resultados tem a garantia de uma cobertura igual a 100%, mas terá baixa precisão. Por outro lado, um sistema pode retornar um único documento e ter um baixo índice de cobertura, mas teria uma chance razoável de 100% de precisão. Uma forma de definir uma média harmônica entre precisão e cobertura é através da medida F (BARTH, 2013). O experimento foi subdividido em três seções abaixo: 5.2.1 TU / VOCÊ Preparação do texto: O texto utilizado para este experimento foi fornecido pelo Projeto ALiB. O referido arquivo continha etiquetados as ocorrêcias do "você", "cê"e "ocê". Por não possuir nenhuma ocorrência do pronome "tu", foram adicionadas, manualmente, algumas frases com a utilização do "tu". O arquivo não continha os totalizadores das etiquetações, fato este que foi preciso contabilizar manualmente. O texto consta na figura 5.1. Etiquetado em verde estão os termos encontrados com sentido de "você", em amarelo as ocorrências do pronome "tu". Execução da ferramenta O texto preparado foi posto em análise pela ferramenta. Obtendo os resultados da figura 5.2 30 Figura 5.1: Tu x Você Figura 5.2: Etiquetação do Analisador para Tu x Você Resultados Alcançados O texto analisado possui 16 termos a serem etiquetados, 4 ocorrências de "tu"e 12 ocorrências para o "você"e suas variações. 31 Figura 5.3: Gráfico comparativo 5.2.2 NÓS / A GENTE Preparação do texto: Os arquivos disponibilizados pelo Projeto ALiB não dispõem de textos etiquetados para ocorrências de "nós"e "A gente". Assim, a partir dos textos disponíveis, foi gerado manualmente as etiquetações e os totalizadores para a realização dos experimentos, de acordo coma figura 5.4. A etiquetação manual destaca em amarelo o pronome "nós", em verde as variações do "nós", "a gente"está etiquetado em azul, verbos identificados an primeira pessoa do plural estão em cinza e em vermelho verbos conjugados de forma errada ou escritos com erros de grafia para a primeira pessoa do plural. Execução da ferramenta: O texto foi então submetido para análise pela ferramenta. O resultado obtido encontra-se na figura 5.5. Em azul a ferramenta marcou os termos "nós"e "a gente", em amarelo foram marcados os verbos, em cinza a classificação dso verbos corretos e em vermelho a informação referente aos verbos conjugados ou escritos de forma errada. Resultados Alcançados: Observando os textos etiquetados e os gráficos 5.6 e 5.7, podemos verificar que a identificação dos termos não foi total. Houve erro para se identificar termos com problemas de grafia e que representavam um termo de relevância. 32 INQ. – Você pode contar pra gente alguma coisa assim marcante na sua vida? Contar um fato marcante, alguma coisa. INF. – Um fato marcante? Nós busquemo a pessoa. INQ. – Uma coisa assim que você se lembre e possa contar pra gente. INF. – A gente foi tocá, voltei alegre e satisfeito. E nois tá assim. INQ. – Como foi lá assim? INF. – A gente disfilô. O trio disfila na avenida. Do Pelorium ao Campo grande, né?, disfilano. INQ. – Certo. INF. – Nois disfila. Porque nós fumo lá. (Relato espontâneo a propósito do QSM 031) INQ. – E, fale um pouco assim sobre seu irmão né, alguma coisa, né? de seu irmão. INF. – Num tem muita coisa assim porque ele não mora junto cumigo, não. Moramu separado. INQ. – Hum. INF. – Nós fomos morar em lá im São Paulo. INF. – Estamos morando aqui agora. A gente veio embora mesmo. INF. – Nós Estamos morando aqui agora. A gente veio embora mesmo. INF. – Testando: se nós tem tempo. INQ. – Certo. E assim, no caso, se você tivesse alguma coisa assim de seu irmão, como é que você falaria, né? Tem ... Ele deixou alguma coisa aí? INF. – Não. Porque a gente somos irmãos não por parte de pai, por parte de mãe. Ele morava com a vó dele e eu moro com minha vó. Figura 5.4: Nós / A gente 33 Figura 5.5: Análise da ferramenta 5.2.3 TER / HAVER / EXISTIR Preparação do texto: Os arquivos disponibilizados pelo Projeto ALiB não dispõem de textos etiquetados para ocorrências de "ter", "haver"e "existir". Assim, a partir dos textos disponíveis, foi gerado manualmente as etiquetações e os totalizadores para a realização dos experimentos. O texto produzido está representado na figura 5.8. Execução da ferramenta: Após submeter o texto gerado à análise da ferramenta, o texto etiquetado foi gerado conforme a figura 5.9. 34 Figura 5.6: Gráfico comparativo Figura 5.7: Ocorrências pronomes implícitos x explícitos Resultados Alcançados: A identificação dos termos e suas variações foi efetivada com sucesso pela ferramenta de acordo com o gráfico 5.10. A identificação simplificada dos termos ocorreu de maneira normal e satisfatória como era de se esperar. Por se tratar de buscas simples em texto os termos "tu", "você", "ter", "haver", "existir", "nós"e "a gente"são identificas pela ferramenta na sua totalidade. As variações de modo e tempo para os verbos foram encontrados também. Porém, na figura 5.7, constatamos 35 Figura 5.8: Etiquetagem Ter/Haver/Existir Figura 5.9: Etiquetagem da ferramenta 36 Figura 5.10: Gráfico comparativo que na identificação dos nós emplícitos e de erros de grafia/conjugação a ferramenta teve um desempenho inferior na etiquetação em relação à etiquetação manual. Isso se deve a alguns casos onde o pronome está implícito e o verbo a ele referente está descrito de maneira errada, o que dificulta a sua identificação por parte da ferramenta. 37 6 CONCLUSÃO Este trabalho teve como finalidade a elaboração de uma ferramenta capaz de analisar textos TDS do Projeto ALiB e etiquetar os termos relevantes para suas pesquisas. As técnicas abordadas pela pesquisa de termos relevantes em textos por meio da mineração de textos, a recuperação da informação e o processamento de linguágem natural serviram na compreenção dos meios necessários para a realização dos objetivos deste trabalho. As dificuldades foram muitas na elaboração deste trabalho. O processo de descoberta do conhecimento em textos, inicialmente realizado por meio de algoritmos desenvolvidos de forma autônoma não surtiram muitos resultados positivos. Alguns termos etiquetados de forma incorreta e outros não etiquetados quando deveriam ser fez gerar a necessidade de utilizar uma ferramenta que permitisse uma avaliação gramatical melhor dos textos. Posteriormente, a utilização de uma ferramenta para processar o texto e gerar os tokens da análise morfológica tornou o processo da etiquetação mais próximos da feita manualmente. A ferramenta incorporada, CoGroo, tinha a função apenas de definir as classes gramaticais dos termos dos textos. Porém, como o diferencial da proposta desse trabalho é a etiquetação em meio a textos com erros gramaticais, erros de grafia, a utilização do CoGroo apenas não se mostraria totalmente eficiente. Com o auxílio desse analisador, a elaboração de algoritmos próprios capazes de identificar pronomes implícitos, verbos conjugados de forma errada e com erros de grafia tornou-se possível. Para trabalhos futuros, seria muito importante a elaboração de um analisador sintático e semântico para, além de agregar mais funções à ferramenta, tornar o processo de descoberta do conhecimento mais eficiente e preciso em textos para a lingua portuguesa. 38 REFERÊNCIAS BIBLIOGRÁFICAS AMORIM, T. Conceitos, técnicas, ferramentas e aplicações de mineração de dados para gerar conhecimento a partir de bases de dados. 2006. APACHE. Apache Maven Project. 2013. Disponível em: <http://maven.apache.org/>. ARANHA, C.; PASSOS, E. A tecnologia de mineração de textos. Disponível em: <http://revistas.facecla.com.br/index.php/reinfo/article/download/171/66>. BARION, E. C. N.; LAGO, D. MineraÇÃo de textos. Revista de Ciências Exatas e Tecnologia, v. 3, n. 3, 2008. BARROS, F. de A.; ROBIN, J. Processamento de linguagem natural. Revista Eletrônica de Iniciação Científica - ISSN 1519-8219, 2001. BARTH, F. J. Uma breve introdução ao tema recuperação de informação. Revista de Informática Teórica e Aplicada: RITA., 2013. CARVALHO, L. A. V. D. Datamining - A Mineração de Dados no Marketing, Medicina, Economia, Engenharia e Administração. [S.l.]: Ciencia Moderna, 2005. 254 p. ISBN 8573934441. CHEN, H. Knowledge Management Systems: A Text Mining Perspective. Tucson, Arizona: University of Arizona. [S.l.]: Knowledge Computing Corporation, 2001. 254 p. ISBN 8522105251. CLASSES de Palavras. InfoEscola. Disponível em: <http://www.infoescola.com/portugues/classes-de-palavras/>. COGROO. 2013. Disponível em: <http://ccsl.ime.usp.br/redmine/projects/cogroo/wiki/CoGrOOF unciona>. ISPELL. 2013. Disponível em: <http://natura.di.uminho.pt/wiki/doku.php?id=dicionarios:mainispell>. JSPELL. 2013. Disponível em: <http://natura.di.uminho.pt/webjspell/jsolhelp.pl>. JúNIOR, O. D. Reconhecimento de nomes de pessoas e organizações em textos forenses usando uma variação do modelo oculto de markov. XXIV Congresso da Sociedade Brasileira de Computação., 2011. Disponível em: <http://www.lsi.ufu.br/documentos/publicacoes/ano/2004/JAIcap5.pdf>. LOPES, L.; VIEIRA, R. Processamento de linguagem natural e o tratamento computacional de linguagens científicas. LINGUAGENS ESPECIALIZADAS EM CORPORA MODOS DE DIZER E INTERFACES DE PESQUISA, p. 183–201. Organizadoras: 39 Cristina Lopes Perna; Heloísa Koch Delgado; Maria José Finatto. Disponível em: <http://www.inf.ufrgs.br/procpar/disc/cmp135/trabs/992/Parser/parser.html>. MONTEIRO, L. d. O.; GOMES, I. R.; OLIVEIRA, T. Etapas do processo de mineração de textos - uma abordagem aplicada a textos em português do brasil. p. 4, 2006. Disponível em: <http://200.169.53.89/download/CD%20congressos/2006/SBC%202006/pdf/arq0166.pdf>. MOURA, P. N. D. S. Reconhecimento de entidades mencionadas utilizando uma abordagem de hidden markov model. 2009. OLIVEIRA, F. A. D. D. Processamento de linguagem natural: princípios básicos e a implementação de um analisador sintático de sentenças da língua portuguesa. Acessado em 14/05/2013. Disponível em: <http://www.inf.ufrgs.br/procpar/disc/cmp135/trabs/992/Parser/parser.html>. ORACLE. Java. 2013. Disponível em: <http://www.java.com/ptB R/download/ f aq/whatis j ava.xm>. ORACLE. JavaServer Faces Technology. 2013. Disponível em: <http://www.oracle.com/technetwork/java/javaee/javaserverfaces-139869.html>. PROJETO ALiB. 2013. ROMãO, W. Descoberta de conhecimento relevante em banco de dados sobre ciência e tecnologia. 2012. SANTOS, D.; CARDOSO, N. Reconhecimento de entidades mencionadas em português. 2007. Disponível em: <http://www.linguateca.pt/superb/busca p ubl.pl?idi = 1162460062>. SOUZA, H. B. d.; NAGLIS, D. L. Mineração de dados : uma aplicação na base de dados de artigos de periódicos científicos das áreas de informação (abcdm). 2008. Disponível em: <http://bdm.bce.unb.br/handle/10483/158>. TAN, A.-H. Text mining: The state of the art and the challenges. 1999. Disponível em: <http://www3.ntu.edu.sg/sce/labs/erlab/publications/papers/asahtan/tm p akdd99.pd f >. ZANUSSO, M. B. Datam ining.2013. ZIVIANI, N. Projeto de Algoritmos: Com implementação em Java e C++. [S.l.]: Thomson, 2006. 642 p. ISBN 8522105251.