UNIVERSIDADE FEDERAL DA BAHIA MINERAÇÃO DE TEXTOS

Propaganda
UNIVERSIDADE FEDERAL DA BAHIA
INSTITUTO DE MATEMÁTICA
DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
LEANDRO MACHADO ANDRADE
MINERAÇÃO DE TEXTOS: UMA
EXPERIÊNCIA COM OS TEMAS PARA
DISCURSO SEMI-DIRIGIDO (TDS) DO
PROJETO ALIB
Salvador
2013
LEANDRO MACHADO ANDRADE
MINERAÇÃO DE TEXTOS: UMA
EXPERIÊNCIA COM OS TEMAS PARA
DISCURSO SEMI-DIRIGIDO (TDS) DO
PROJETO ALIB
Monografia apresentada ao Curso de
graduação em Ciência da Computação,
Departamento de Ciência da Computação,
Instituto de Matemática, Universidade Federal da Bahia, como requisito parcial para
obtenção do grau de Bacharel em Ciência da
Computação.
Orientadora: Profa .
Claro
Salvador
2013
Dra .
Daniela Barreiro
RESUMO
O Projeto Atlas Linguístico do Brasil (Projeto ALiB), sediado no Instituto de Letras da
UFBA, possui um sistema denominado ALiBWeb. Os textos do Projeto ALiB são transcrições
resultantes de gravações feitas com informantes de todo o território brasileiro. Essas transcrições são feitas exatamente da forma como esses informantes pronunciam as palavras, sem
nenhum tipo de correção gramatical, buscando-se o real uso da língua. O presente trabalho teve
como objetivo desenvolver uma ferramenta para analisar e extrair informações dos textos orais
produzidos pelos informantes do Projeto ALiB e previamente transcritos. O processamento desses textos tem como objetivo principal encontrar termos específicos como: "tu", "você", "nós",
"a gente", "ter", "haver", "existir"e suas respectivas variações, bem como identificar e classificar
morfologicamente os verbos que foram utilizados ao lado dos pronomes destacados dos textos:
a) primeira pessoa do plural (nós), com pronome implícito ou explícito; b) 2a pessoa do singular (tu), com pronome implícito ou explícito e c) 3a pessoa do singular (em contextos em que
possam ocorrer você e a gente), com pronome implícito ou explícito. Também são localizados
os verbos "ter", "haver"e "existir"flexionados em qualquer modo e tempo, visando futuros estudos de contextos em que possam ocorrer em sentido existencial. Um dos desafios desse projeto
foi identificar, nos textos, esses verbos conjugados fora da norma padrão. Experimentos foram
realizados com o intuito de validar a proposta apresentada.
Palavras-chave: Mineração de Textos, Projeto ALiB, projeto final.
ABSTRACT
The Linguistic Atlas of Brazil Project (Project Alib), based at the Institute of Arts Federal
University of Bahia, has a system called ALiBWeb. Texts Project Alib resulting transcripts of
recordings made ??with informants throughout Brazil. These transcriptions are made exactly
the way these informants pronounce words without any grammatical accuracy, searching for the
real use of language. This study aimed to develop a tool to analyze and extract information from
oral texts produced by the informants Project Alib and previously transcribed. The processing of
these texts has as main objective to find specific terms such as "you", "you", "we", "us", "have",
"be", "there"and their variations, as well as identify and classified morphologically verbs that
were used alongside the pronouns highlighted texts: a) the first person plural (we) with pronoun
implicit or explicit b) 2nd person singular (tu) with pronoun implicit or explicit c) 3rd person
singular (in contexts that may occur and you people), with implicit or explicit pronoun. Are also
located the verbs "be", "there"and "there"bent in any way and time, aiming for future studies
in contexts that may occur in the existential sense. One of the challenges of this project was
to identify, in the texts, these conjugated verbs outside the standard norm. Experiments were
performed in order to validate the proposal.
Keywords: Text Mining, ALiB Project, final project.
LISTA DE FIGURAS
2.1
Etapas do processo do KDD . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
3.1
Estrutura Organizacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
4.1
Arquitetura do Analisador TDS . . . . . . . . . . . . . . . . . . . . . . . . . .
27
5.1
Tu x Você . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
5.2
Etiquetação do Analisador para Tu x Você . . . . . . . . . . . . . . . . . . . .
30
5.3
Gráfico comparativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
5.4
Nós / A gente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
5.5
Análise da ferramenta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
5.6
Gráfico comparativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
5.7
Ocorrências pronomes implícitos x explícitos . . . . . . . . . . . . . . . . . .
34
5.8
Etiquetagem Ter/Haver/Existir . . . . . . . . . . . . . . . . . . . . . . . . . .
35
5.9
Etiquetagem da ferramenta . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
5.10 Gráfico comparativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
SUMÁRIO
1
2
3
4
5
Introdução
7
1.1
Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.2
Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.3
Estrutura do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
FUNDAMENTAÇÃO TEÓRICA
9
2.1
KDD e KDT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.2
Mineração de Textos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.3
Processamento de linguagem natural - PLN . . . . . . . . . . . . . . . . . . .
17
Projeto ALiB
20
3.1
Histórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
3.2
Concepção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.3
Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.4
Comitê Nacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.5
Estrutura Organizacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
Analisador TDS para o ALiBWeb
24
4.0.1
Arquitetura Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
4.0.2
Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
Experimentos e Resultados.
28
5.1
28
Ambiente de desenvolvimento . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2
6
Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
5.2.1
Tu / Você . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
5.2.2
Nós / A gente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
5.2.3
Ter / Haver / Existir . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
Conclusão
Referências Bibliográficas
37
38
7
1
INTRODUÇÃO
O Projeto ALiB (Projeto Atlas Linguístico do Brasil) (PROJETO. . . , 2013), sediado no
Instituto de Letras da UFBA, realiza estudos sobre as características da língua falada em todo o
território brasileiro. A língua portuguesa do Brasil possui muitas variações em sua forma falada,
o que desperta o interece do Projeto ALiB nas variações linguísticas presentes nas diversas
regiões do país. Em algumas, por exemplo, fala-se com mais frequência o pronome "você"em
substituição ao pronome "tu". Assim, o ALiB tem o objetivo de estudar essas características de
cada região do Brasil.
Atualmente, a forma mais comum de armazenamento de informações é, sem dúvida, em
formato textual. Mesmo com o crescente aumento da criação e divulgação de conteúdos em
formato visual, cujo principal meio de disseminação é a internet, ainda se fazem necessários
os textos para melhor descrever a transmissão da informação desejada. A automatização da
descoberta do conhecimento é custosa, visto que a linguagem natural não requer uma estruturação padronizada, contem ambiguidades e frequentemente apresentam erros que dificultam o
trabalho.
1.1
MOTIVAÇÃO
O processo de análise desses estudos se inicia com entrevistas feitas em áudio pelos integrantes, conhecidos como inquiridores, do projeto e transcrevendo-os para textos, que representam
os inguéritos. Esses inguéritos são transcritos exatamente como os informantes pronunciam
suas palavras, com os seus erros gramaticais e de pronúncia. Nos textos são etiquetados, manualmente, os termos importantes da pesquisa para se chegar a um perfil da lingua falada daquela
região a que o texto pertence. Os principais termos procurados pelo Projeto ALiB são: "tu",
"você", "nós", "a gente", os vebos "ter", "existir"e "haver", bem como as ocorrências dos pronomes implícitos e explícitose e dos seus respectivos verbos.
8
1.2
PROPOSTA
Diante da tarefa desgastante e lenta de etiquetação manual feita pelos analistas do Projeto
ALiB, o presente projeto tem por principal objetivo de identificar a etiquetação de pronomes
e verbos, como tu, você, nós, a gente, ter, haver, existir, automatizando esta tarefa para os
textos TDS (Temas para Discursos Semidirigidos) do Projeto ALiB. Além da etiquetação explícita, este projeto tem a função de identificar as ocorrências implícitas desses pronomes nos
textos. Uma ferramenta foi desenvolcida com o intuito de auxiliar essa etiquetação. O analisador morfológico JSpell (JSPELL, 2013), presente na ferramenta CoGroo (COGROO, 2013),
foi incorporado na ferramenta proposta com o intuito de realizar a etiquetação das palavras
desejadas quanto à sua respectiva classe gramatical.
1.3
ESTRUTURA DO TRABALHO
Este trabalho está organizado em capítulos: o segundo capítulo apresenta a fundamentação
teórica, com uma descrição dos das técnicas e tecnologias a serem utilizadas no processo de
criação da ferramenta. No capítulo 3 é apresentado o Projeto ALiB. No capítulo 4 é apresentada
a proposta deste trabalho, descrevendo o seu objetivo geral, a sua finalidade e como o processo
foi automatizado dentro do Projeto ALiB. No capítulo 5 são apresentados os experimentos e
resultados onde são descritos os experimentos realizados e os resultados obtidos. ao final é
apresentado a conclusão e os trabalhos futuros.
9
2
FUNDAMENTAÇÃO TEÓRICA
Segundo (BARION; LAGO, 2008), com o avanço da informatização, surge cada vez mais,
um grande volume de informação armazenada em banco de dados. Estes dados, na maioria das
vezes, incluem informações valiosas, como por exemplo, tendências e padrões que poderiam ser
usados para auxiliar nas tomadas de decisões dentro das empresas. Entretanto, apesar das grandes evoluções surgidas nos Sistemas Gerenciadores de Banco de Dados, torna-se impossível
extrair conhecimento para tomadas de decisões a partir dessas bases de dados.
Muitas técnicas foram estudadas e desenvolvidas com a finalidade de resgatar informações
valiosas contidas nessas bases de dados. Dentre essas técnicas está a chamada Descoberta do
Conhecimento em Banco de Dados (Knowledge Discovered in Databases - KDD).
Em geral, um processo de descoberta de conhecimento consiste em uma iteração das seguintes etapas:
• Pré processamento: netsa etapa os dados são preparados para serem apresentados às
técnicas de data mining. Os dados são selecionados (quais os dados que são importantes), purificados (retirar inconsistências e incompletude dos dados) e pré-processados
(reapresentá-los de uma maneira adequada para o data mining). Este passo é realizado
sob a supervisão e conhecimento de um especialista, pois o mesmo é capaz de definir
quais dados são importantes, assim como o que fazer com os dados antes de utilizá-los a
mineração de dados.
• Mineração de dados: é onde os dados preparados são processados, ou seja, é onde se faz a
mineração dos dados propriamente dita. O principal objetivo desse passo é transformar os
dados de uma maneira que permita a identificação mais fácil de informações importantes.
• Pós processamento: o resultado do data mining é avaliado, visando determinar se algum
conhecimento adicional foi descoberto, assim como a análise dos fatos gerados. Para
10
esse passo, várias maneiras de análise podem ser utilizadas, por exemplo: o resultado do
data mining pode ser expresso em um gráfico, em que análise dos dados passa a ser uma
análise do comportamento do gráfico.
Segundo (ZANUSSO, 2013), Data Mining é o processo de descobrir informações relevantes,
como padrões, associações, mudanças, anomalias e estruturas, em grandes quantidades de dados
armazenados em banco de dados, depósitos de dados ou outros repositórios de informação.
Devido à disponibilidade de enormes quantias de dados em formas eletrônicas, e à necessidade
iminente de extrair delas informações e conhecimentos úteis a diversas aplicações, por exemplo,
na análise de mercado, administração empresarial, apoio à decisão, etc.
De acordo com (AMORIM, 2006), a mineração de dados pode ser definida como um conjunto de técnicas automáticas de exploração de grandes massas de dados de forma a descobrir
novos padrões e relações que, devido ao volume de dados, não seriam facilmente descobertas
manualmente.
Ainda que as técnicas da Mineração de Dados sejam antigas, foi apenas nos últimos anos
que passaram a ser usadas como exploração de dados, por vários motivos (CARVALHO, 2005):
• O volume de dados disponível atualmente é enorme - Mineração de Dados é uma técnica que só se aplica a grandes massas de dados, pois necessita disto para calibrar seus
algoritmos e extrair dos dados conclusões confiáveis. Empresas de telefonia, cartões de
crédito, bancos, televisão por assinatura, comércio eletrônico, entre outras, vem gerando
a cada dia uma grande quantidade de dados sobre seus serviços e clientes. Estes dados
são passíveis de análise por mineração.
• Os dados estão sendo organizados - Com a tecnologia do datawarehouse, os dados de
várias fontes estão sendo organizados e padronizados de forma a possibilitar sua organização dirigida para o auxílio à decisão. As técnicas de mineração de dados necessitam de
bancos de dados limpos, padronizados e organizados;
• Os recursos computacionais estão cada vez mais potentes - A mineração de dados necessita de muitos recursos computacionais para operar seus algoritmos sobre grandes quantidades de dados. O aumento da potência computacional, devido ao avanço tecnológico e
à queda dos preços dos computadores, facilita o uso da mineração de dados atualmente.
11
O avanço da área de banco de dados, construindo bancos de dados distribuídos, também
auxiliou em muito à mineração de dados.
• A competição empresarial exige técnicas mais modernas de decisão - As empresas da área
de finanças, telecomunicações e seguro experimentam a cada dia mais competição. Como
estas empresas sempre detiveram em seus bancos de dados uma enorme quantidade de
informação, é natural que a mineração de dados tenha se iniciado dentro de seus limites.
Atualmente, outras empresas buscam adquirir dados para analisar melhor seus caminhos
futuros através dos sistemas de apoio à decisão. Para empresas de serviços, a aquisição
de dados é importante, pois precisam saber que serviço oferecer a quem. Para outras
empresas, até a venda das informações pode ser um produto.
• Programas comerciais de mineração de dados já podem ser adquiridos - As técnicas de
mineração de dados são antigas conhecidas da Inteligência Artificial, porém somente
recentemente saíram dos laboratórios para as empresas. Alguns pacotes já podem ser
encontrados no comércio, contendo algumas destas técnicas. As técnicas mais recentes,
no entanto, ainda se encontram no campo acadêmico, sendo necessário que a empresa se
dirija a uma universidade que realize pesquisa para obter ajuda.
2.1
KDD E KDT
O KDD é um processo de descoberta dos dados armazenados, com maior sentido. As etapas
do KDD estão dispostas na figura 2.1.
Figura 2.1: Etapas do processo do KDD
KDD é uma área interdisciplinar específica que surgiu em resposta à necessidade de novas
abordagens e solução para viabilizar a análise de grandes bancos de dados. Particularmente,
12
KDD tem obtido sucesso na área de marketing, onde a análise de banco de dados de clientes
revela padrões de comportamento e preferências que facilitam a definição de estratégias de
vendas (ROMãO, 2012).
Segundo (BARION; LAGO, 2008), as etapas pertencentes ao KDD são:
• Dados - O KDD se baseia no armazenamento de dados estruturados.
• Seleção de Dados - Após ter definido o domínio sobre o qual se pretende executar o
processo de descoberta, a próxima etapa é selecionar e coletar o conjunto de dados ou
variáveis necessárias.
• Processamento - Esta etapa é também conhecida como pré-processamento, visando eliminar os dados que não se adequam às informações, com base nos algoritmos, ou seja,
dados incompletos, problemas de definição de tipos, eliminação de tuplas repetidas, etc.
• Transformação - Nesta etapa os dados deverão ser armazenados adequadamente para
facilitar na utilização das técnicas de mineração de dados.
• Mineração de Dados - A atividade de descoberta do conhecimento é onde são processados os algoritmos de aprendizado de máquina e de reconhecimento de padrões. A maioria
dos métodos de Data Mining são baseados em conceitos de aprendizagem de máquina,
reconhecimento de padrões, estatística, classificação, clusterização, modelos gráficos.
• Interpretação/Avaliação - Nessa etapa final, os resultados do processo de descoberta do
conhecimento podem ser mostrados de diversas formas, porém devem ser apresentadas
de forma que o usuário possa entender e interpretar os resultados obtidos.
Porém, as etapas pertencentes ao KDD, representadas na figura 2.1, necessitam de dados já
estruturados. 80% das informações de uma empresa estão contidas em formato de textos (TAN,
1999). 80% do conteúdo online também está em formato texto (CHEN, 2001). Restando 20%
de informações para serem trabalhadas e interpretadas.
2.2
MINERAÇÃO DE TEXTOS
A área de Mineração de Textos (Text Mining), também conhecida como KDT (Knowledge
Discovery in Text) ou Descoberta de Conhecimentos em Textos (MONTEIRO; GOMES; OLIVEIRA, 2006), surgiu com a finalidade de tratar os dados e as informações não-estruturadas
13
considerando o alto nível de complexidade envolvida neste tipo de representação de informação
(SOUZA; NAGLIS, 2008). O que diferencia a mineração de dados da mineração de textos é
que na primeira os dados estão organizados em tabelas na base de dados. Restando ao processo
de mineração tratar esses dados para extrair conhecimento relevante, utilizando técnicas da mineração como, por exemplo: Indução e/ou Extração de Regras, Redes Neurais, Algoritmos
Evolucionários, Técnicas estatísticas (classificadores e redes Bayesianas), Conjuntos Difusos
(ROMãO, 2012). Já na mineração de textos, os dados estão armazenados na forma de texto
livre, em linguagem natural, com informações pertencentes a distintos domínios de interesse
misturados entre si. Tornando o processo de descoberta do conhecimento muito mais trabalhoso e complicado.
A mineração de texto será importante neste projeto por oferecer um conjunto de métodos
para descobrimento automático de informações e padrões em textos. Tornando possível encontrar associações, descobrir padrões que indicarão o significado de cada palavra contida nos
textos de linguagem natural.
Esse processo de descoberta do conhecimento em textos não estruturados é formado, geralmente, pela execução de algumas técnicas de mineração de textos. De acordo com (ARANHA; PASSOS, ), para manipular textos, antes é preciso estrutura-los. Isto é, utilizar algum
procedimento que transforme os caracteres em objetos relacionados entre si. A lógica dessa
transformação está presente no próprio texto, através de padrões linguísticos. Para se entender
o processamento de textos faz-se necessário ter um pouco de conhecimento de áreas como informática, linguística e ciência cognitiva. É preciso também entender dos significados de uma
palavra para entender como se processa a sintaxe de uma língua.
As variações culturais na escrita de uma língua para outra é um complicador para um sistema
de processamento de textos. Assim, cada sistema de processamento de texto deve levar em
consideração em qual língua o texto está escrito, para que possa ser definido com clareza e com
quais parâmetros o texto deve ser analisado. Para processar o texto, deve-se dividi-lo em partes
menores, sem que se quebre a composição da linguagem, analisando a composição léxica das
palavras e depois seus relacionamentos sintáticos. Essas palavras são, então, classificadas e
organizadas.
A mineração de texto surgiu com a finalidade de tratar os dados e as informações não
estruturadas considerando o alto nível de complexidade envolvida neste tipo de representação de
14
informação (MONTEIRO; GOMES; OLIVEIRA, 2006). A mineração de textos surge, então,
da necessidade de se descobrir, de forma automática, informações (padrões e anomalias) em
textos. Mineração de textos é um conjunto de métodos usados para navegar, organizar, achar e
descobrir informações em bases de textos (BARION; LAGO, 2008).
Segundo o Text Mining Research Group, "Mineração de textos é a procura por padrões em
um texto em linguagem natural e pode ser definido como o processo de análise do texto para
extrair informação dele para um propósito em particular".
De acordo com (MONTEIRO; GOMES; OLIVEIRA, 2006), a mineração de textos possui
três principais etapas. Existe a etapa de pré-processamento ou preparação dos dados, Análise
dos dados e extração do conhecimento e a etapa de pós-processamento ou avaliação das descobertas.
1. Extração Com a extração queremos encontrar informações específicas no texto. A técnica da extração procura por padrões e a partir deles extrair dados não estruturados e
transforma-los em dados úteis, estruturados e com algum significado.
2. Categorização A categorização associa categorias pré-definidas ao texto. O intuito é
facilitar a busca das informações que estão espalhadas pelos textos.
3. Clustering A clusterização ajuda na identificação de características semelhantes nos textos. Gerando novas informações a partir de métricas definidas a priori. O clustering cria
classes para agrupar partes dos textos que sejam comuns.
4. Sumarização A sumarização, como o próprio nome sugere, é um resumo do texto completo. Ela leva em consideração os termos mais importantes e relevantes para gerar uma
ideia geral do contexto e estruturar apenas o que realmente interessa.
ETAPAS DA MINERAÇÃO DE TEXTOS:
1. Coleta Nessa etapa serão selecionados os textos que serão as fontes do conhecimento a
ser descoberto pelo projeto. Os textos gerados a partir das transcrições do projeto ALIB
serão enviados para o sistema, onde se iniciará o processo.
2. Pré-processamento Essa é uma das etapas mais custosas da mineração de textos. Aqui
é necessário muita pesquisa e experimentos para se identificar qual a técnica é mais adequada ao nosso caso. A depender do objetivo da mineração de texto, pode-se aplicar
15
diferentes técnicas de pré-processamento. Nessa etapa é feita a tokenização (MOURA,
2009) das palavras e o desmembramento do texto em partes menores. Os tokens podem
ser criados de acordo com regras da linguagem e seus delimitadores. É necessário também realizar o processo de Stemming (BARION; LAGO, 2008). Revista de Ciências
Exatas e Tecnologia), pois uma palavra pode assumir algumas variações no texto como,
por exemplo: plural ou formas de gerúndio. Então o processo de Stemming remove essas
variações.
3. Indexação É importante no ramo da recuperação da informação, que necessita de rapidez e eficiência na localização das informações armazenadas. Como as buscas são feitas
geralmente por palavras-chaves, é importante a utilização de estruturas de dados que indexem de forma eficiente essas palavras armazenadas.
4. Processamento É nessa etapa que ocorre a efetiva busca por novos conhecimentos. A
escolha do algoritmo de processamento vai depender do objetivo do trabalho, que podem
variar entre aprendizado de máquina, redes neurais, bancos de dados, estatísticas, dentre
outros.
5. Análise da Informação Também conhecida como pós-processamento, nessa fase é verificado se o objetivo da mineração foi alcançado. No nosso caso, para esse projeto em
questão, essa análise deve ser feita por pessoas integrantes do Projeto ALiB.
Numa busca por conhecimentos e informações em textos não estruturados devemos identificar sentenças e categorizar palavras.
A categorização, a que nos propomos fazer neste trabalho, será direcionada à classificação
morfológica das palavras. As mais de 400 mil palavras existentes na língua portuguesa estão
classificadas, no geral, em 10 classes gramaticais (CLASSES. . . , ), que são:
1. SUBSTANTIVO - É dita a classe que dá nome aos seres, mas não nomeia somente
seres, como também sentimentos, estados de espírito, sensações, conceitos filosóficos ou
políticos, etc.
2. ARTIGO - Classe que abriga palavras que servem para determinar ou indeterminar os
substantivos, antecedendo-os. Exemplo: o, a, os, as, um, uma, uns, umas.
3. ADJETIVO - Classe das características, qualidades. Os adjetivos servem para dar características aos substantivos.
16
4. PRONOME - Palavra que pode acompanhar ou substituir um nome (substantivo) e que
determina a pessoa do discurso.
5. VERBO - Palavras que expressam ações ou estados se encontram nesta classe gramatical.
6. ADVÉRBIO - Palavras que se associam a verbos, adjetivos ou outros advérbios, modificandoos.
7. NUMERAL - Como o nome diz, expressam quantidades, frações, múltiplos, ordem.
8. PREPOSIÇÃO - Servem para ligar uma palavra à outra, estabelecendo relações entre
elas.
9. CONJUNÇÃO - São palavras que ligam orações, estabelecendo entre elas relações de
coordenação ou subordinação.
10. INTERJEIÇÃO - Contesta-se que esta seja uma classe gramatical como as demais, pois
algumas de suas palavras podem ter valor de uma frase. Mesmo assim, podemos definir
as interjeições como palavras ou expressões que evocam emoções, estados de espírito.
O objetivo será classificar o maior número possível das palavras com uma margem satisfatória de acertos; essa margem será determinada numa próxima fase quando forem testados alguns
métodos para Reconhecimento de Entidades Mencionadas (REM). De acordo com (SANTOS;
CARDOSO, 2007), uma Entidade Mencionada (EM) é constituída por uma sequência de palavras no texto. Segundo (JúNIOR, 2011), o REM objetiva identificar e classificar os nomes
das entidades contidas em um texto não estruturado. As principais entidades encontradas em
textos são: pessoa, organização, local, tempo e outros nomes aplicados a domínios específicos.
O REM pode ser classificado como um problema de classificação, onde tem como objetivo atribuir a cada valor de entrada uma classe, que pode ser chamada de Entidade Mencionada EM.
Um valor de entrada pode ser identificado como um token e a EM representa a classe associada
a esse token. Por exemplo: a classe PESSOA pode ter como token as palavras João, Marcelo,
Maria. Claro que devemos levar em consideração o contexto onde as palavras estão inseridas.
Como é o caso da frase: "A avenida João Dias está engarrafada", nesse caso a palavra "João"não
iria se referir a um token de PESSOA, mas poderia se referir a um token de Local.
Outra técnica importante para o desenvolvimento desse trabalho é o processamento de cadeias de caracteres. Segundo (ZIVIANI, 2006), uma cadeia de caracteres é uma sequência
17
qualquer de elementos, e essas cadeias aparecem no processamento de textos em linguagem
natural, códigos, dicionários, sequenciamento de DNA em biologia computacional, dentre outros. Vamos dar ênfase aos algoritmos da classe que abrange o casamento de cadeias, onde
temos algoritmos para pesquisa exata e pesquisa aproximada. Esse segundo tipo de pesquisa
será útil quando nos depararmos com palavras escritas de forma incorreta, como, por exemplo,
uma pessoa que pronuncia a palavra "andando"como "andano", "varrer"como "barrer". Esse é,
provavelmente, um dos maiores desafios dessa proposta.
No casamento de cadeias, os caracteres são escolhidos de um conjunto denominado alfabeto.
Como exemplo, podemos citar uma cadeia de bits, onde seu alfabeto é constituído por 0’s e
1’s, { 0,1 } . Para formalizarmos o casamento de cadeias, citamos um texto T que pode ser
considerado um arranjo T[0..n-1] de tamanho n, e um padrão P que também é um arranjo P [
0..m-1 ] de tamanho m, onde m ≤ n. No primeiro momento nosso sistema irá trabalhar com
o texto T unicamente, sem nenhum conhecimento prévio do seu conteúdo. Em um segundo
momento, um novo processamento será necessário para varrer e identificar as palavras que
foram pronunciadas em variâncias gramaticais e de forma. Para o primeiro momento temos
algoritmos de uma categoria onde o Padrão e o texto não são pré-processados e no segundo
temos Padrão e texto pré-processados.
Padrão e o texto não são pré-processados: os algoritmos são do tipo sequencial, on-line e de
tempo real, pois não temos conhecimento sobre o padrão e o texto para dar alguma informação
para o sistema. Esses algoritmos dessa categoria têm uma complexidade de tempo O(mn) e
de espaço O(1), para o pior caso. Como exemplo, podemos citar o algoritmo de força bruta.
Padrão e texto são pré-processados: nessa categoria os algoritmos constroem um índice para
permitir uma complexidade de tempo O(log n) ou ate menos, porém a complexidade de espaço
fica em O(n). O tempo grande desprendido no pré-processamento acaba compensando no final,
quando forem necessárias pesquisas às palavras.
2.3
PROCESSAMENTO DE LINGUAGEM NATURAL - PLN
Processamento de Linguagem Natural (PLN) é uma área de Ciência da Computação que
estuda o desenvolvimento de programas de computador que analisam, reconhecem e/ou geram
textos em linguagens humanas, ou linguagens naturais. Desde o surgimento das técnicas de
PLN, muitos avanços foram obtidos, mas a compreensão plena de linguagem natural por métodos computacionais está ainda longe de ser resolvida. Apesar disso, o tratamento computacional
18
da língua e bases textuais é um campo muito promissor (LOPES; VIEIRA, ).
Ainda de acordo com (LOPES; VIEIRA, ), o PLN não é uma tarefa trivial devido à rica
ambiguidade da linguagem natural. Essa ambiguidade torna o PLN diferente do processamento
das linguagens de programação de computador, as quais são formalmente definidas evitando,
justamente, a ambiguidade.
Segundo (BARROS; ROBIN, 2001), o PLN é uma vertente da inteligencia artificial (IA) que
tem por objetivo interpretar e gerar textos em uma língua natural, como por exemplo (Português,
Inglês, Francês, Espanhol, etc). A pesquisa em PLN se divide em duas sub-áreas de trabalho:
interpretação e geração.
De um ponto de vista linguístico, o foco das pesquisas em PLN pode estar em um de cinco
níveis de análise (LOPES; VIEIRA, ): (a) fonético ou fonológico, (b) morfológico, (c) sintático, (d) semântico ou (e) pragmático. Todos esses níveis possuem suas características próprias
e suas dificuldades associadas, mas cada aplicação de PLN pode ter a preocupação mais voltada
para um subconjunto desses níveis. Para que um sistema computacional interprete uma sentença
em linguagem natural, é necessário manter informações morfológicas, sintáticas e semânticas,
armazenadas em um dicionário, juntamente com as palavras que o sistema compreende (OLIVEIRA, ).
Para o contexto do presente trabalho, a análise morfológica tem fundamental importância. O
analisador morfológico tem a função de identificar palavras e expressões que encontram-se de
maneira isolada no texto. Esse processo é auxiliado por marcadores, como pontuação e espaços
em branco por exemplo. A morfologia trata as palavras quanto a sua estrutura, forma, flexão
e classificação, no que se refere a cada um dos tipos de palavras. Assim, uma palavra ou uma
sentença gramaticalmente correta pode ser substituída por outra que pertença ao mesmo tipo ou
classe, sem que se altere a estrutura correta da frase. Dentre essas classes podemos exemplificar:
substantivo, verbo, adjetivo, etc. Dentro de um mesmo tipo de palavra, temos que considerar
suas variações de gênero, tempo verbal, número, pessoa, etc. Essas variações constituem os
grupos de regras que caracterizam os comportamentos das palavras de uma linguagem.
Através da gramática da linguagem a ser analisada e das informações do analisador morfológico, o analisador sintático procura construir árvores de derivação para cada sentença, mos-
19
trando como as palavras estão relacionadas entre si (OLIVEIRA, ).
20
3
PROJETO ALIB
O Projeto Atlas Linguístico do Brasil (Projeto AliB), sediado no Instituto de Letras da
UFBA, possui um sistema chamado ALiBWeb. Nesse sistema estão cadastradas todas as informações, coletadas até hoje, provenientes das pesquisas feitas em campo pelas equipes do ALiB.
O trabalho dos integrantes do ALiB, responsáveis pela coleta dos dados, consiste em percorrer
várias regiões predeterminadas do Brasil em busca de informações a respeito das mais variadas
formas e características da língua falada em cada um desses lugares. Os informantes são escolhidos levando em consideração idade, classe social, nível de escolaridade, sexo, dentre outros
fatores. A entrevista é constituída por perguntas predefinidas que induzem os informantes a
pronunciarem uma palavra desejada em específico pelo inquiridor e por discursos livres, onde
o informante pode narrar uma história vivida por ele, algo pessoal, que ele possa discursar da
forma mais livre possível e demonstrar como ele realmente fala no dia a dia. Esses diálogos são
gravados em áudio e posteriormente transcritos para o ALiBWeb. Os textos gerados a partir do
discurso livre são identificados como Temas para Discursos Semidirigidos (TDS), esses textos
servirão como fonte de entrada para a mineração dso textos a que esse projeto se propõe. A
partir da ferramenta proposta neste trabalho, um novo módulo será criado para incorporar as
funcionalidades desenvolvidas.
3.1
HISTÓRICO
O Projeto ALiB, Projeto Atlas Linguístico do Brasil, tem por meta a realização de um atlas
geral no Brasil no que diz respeito à língua portuguesa (PROJETO. . . , 2013). Tem como objetivo o conhecimento dos dialetos existentes no Brasil, durante todo o desenvolvimento dos
estudos linguísticos e filológicos, ganha corpo nesse final/começo de milênio, a partir de iniciativa de um grupo de pesquisadores do Instituto de Letras. A UFBA sedia essa atitude pioneira
ao empreender a concretização dessa proposta que se realiza como projeto conjunto que envolve hoje doze Universidades. A manifestação em favor da elaboração de um atlas linguístico
brasileiro teve seu início por volta de 1952. As dificuldades de variada ordem levaram os dialec-
21
tólogos brasileiros a iniciarem o trabalho de mapeamento linguístico do Brasil pela realização
de atlas regionais.
3.2
CONCEPÇÃO
A ideia do Atlas Linguístico do Brasil foi retomada por ocasião do Seminário Nacional
Caminhos e Perspectivas para a Geolinguística no Brasil, realizado em Salvador, na Universidade Federal da Bahia, com a participação de dialectólogos brasileiros e do Diretor do ALiR
(Atlas Linguistique Roman), Prof. Michel Contini (Grenoble). Nessa ocasião foi criado um Comitê Nacional, integrado pelos autores dos cinco atlas lingüísticos regionais publicados e por
um representante dos atlas em andamento. São eles: os Professores Suzana Alice Marcelino da
Silva Cardoso (UFBA), que preside o Comitê, Jacyra Andrade Mota (UFBA), Maria do Socorro
Silva de Aragão (UFPB), Mário Roberto Lobuglio Zágari (UFJF), Vanderci de Andrade Aguilera (UEL) e Walter Koch, representando os atlas em andamento (PROJETO. . . , 2013). Em
2002, após a publicação do Atlas Lingüístico-Etnográfico da Região Sul do Brasil - ALERS,
sob a coordenação do Professor Walter Koch, integra-se ao Comitê a professora Aparecida Negri Isquerdo, como nova representante dos atlas em andamento.
3.3
OBJETIVOS
O Projeto ALiB fundamenta-se nos princípios gerais da Geolinguística contemporânea
(PROJETO. . . , 2013).
1. Descrever a realidade linguística do Brasil, no que tange à língua portuguesa, com enfoque prioritário na identificação das diferenças diatópicas (fônicas, morfossintáticas e
léxico-semânticas) consideradas na perspectiva da Geolinguística.
2. Oferecer aos estudiosos da língua portuguesa (linguistas, lexicólogos, etimólogos, filólogos, etc.), aos pesquisadores de áreas afins (história, antropologia, sociologia, etc.) e aos
pedagogos (gramáticos, autores de livros-texto, professores) subsídios para o aprimoramento do ensino/aprendizagem e para uma melhor interpretação do caráter multidialetal
do Brasil.
3. Estabelecer isoglossas com vistas a traçar a divisão dialetal do Brasil, tornando evidentes as diferenças regionais através de resultados cartografados em mapas linguísticos e
realizar estudos interpretativos de fenômenos considerados.
22
4. Examinar os dados coletados na perspectiva de sua interface com outros ramos do conhecimento - história, sociologia, antropologia, etc. - de modo a poder contribuir para
fundamentar e definir posições teóricas sobre a natureza da implantação e desenvolvimento da língua portuguesa no Brasil.
5. Oferecer aos interessados nos estudos linguísticos um considerável volume de dados que
permita aos lexicógrafos aprimorarem os dicionários, ampliando o campo de informações; aos gramáticos atualizarem as informações com base na realidade documentada
pela pesquisa empírica; aos autores de livros didáticos adequarem a sua produção à realidade cultural de cada região; aos professores aprofundar o conhecimento da realidade
linguística, refletindo sobre as variantes de que se reveste a língua portuguesa no Brasil e,
consequentemente, encontrando meios de, sem desprestigiar os seus dialetos de origem,
levar os estudantes ao domínio de uma variante tida como culta.
6. Contribuir para o entendimento da língua portuguesa no Brasil como instrumento social
de comunicação diversificado, possuidor de várias normas de uso, mas dotado de uma
unidade sistêmica.
3.4
COMITÊ NACIONAL
O Comitê Nacional é o órgão que dirige e coordena todas as atividades do Projeto ALiB.
Seus membros representam os atlas regionais já publicados e os atlas em andamento no Brasil.
Por ocasião da sua constituição em 1996, o Comitê foi formado por seis membros, representantes dos cinco atlas linguísticos então publicados, mais um representante de todos os
atlas em andamento, o Professor Walter Koch. Com a publicação, porém, do Atlas LinguísticoEtnográfico da Região Sul do Brasil (ALERS), em 2002, sob coordenação de Koch, integra-se
ao Comitê a Professora Aparecida Negri Isquerdo, como nova representante dos atlas em andamento, passando o Professor Koch a representar o ALERS.
Durante o IV Workshop, realizado em abril de 2004, em Salvador, em virtude do lançamento
do Atlas Linguístico Sonoro do Pará, o Professor Abdelhak Razky (UFPA) foi incluído como
oitavo membro do Comitê Nacional, representando esse atlas.
O Comitê é, assim, formado por um Diretor Presidente, um Diretor Executivo e, atualmente,
seis Diretores Científicos.
23
3.5
ESTRUTURA ORGANIZACIONAL
O Projeto ALiB está organizado de acordo com a figura 3.1 a seguir.
Figura 3.1: Estrutura Organizacional
24
4
ANALISADOR TDS PARA O
ALIBWEB
O presente trabalho propôs desenvolver uma ferramenta que será integrada ao sistema
ALiBWeb, cuja função é automatizar a etiquetação das transcrições dos textos produzidos pelo
Projeto ALiB. Essa etiquetação se refere à identificação dos termos específicos: "tu", "você",
"nós", "a gente", "ter", "haver", "existir"e suas respectivas variações.
Os verbos identificados ao lado desses pronomes destacados nos textos também serão etiquetados de acordo com suas classes gramaticais. A primeira pessoa do plural deverá ser etiquetada. Quando pronunciado corretamente, o referido pronome é transcrito sem alterações.
Assim, ao se encontrar o termo "nós", a ferramenta irá marcá-lo no texto. Há casos, porém,
onde a pronúncia desse pronome é feita de forma errada, resultando um som mais próximo do
termo "nois", que também será sinalizado no texto por refletir o mesmo sentido do pronome
correto. O pronome na 2a pessoa do singular (tu) também será etiquetado, assim como a 3a pessoa do singular (você ou a gente). Para esses casos, deverão ser identificados os pronomes que
encontram-se explícitos e implícitos no texto. Os verbos "ter", "haver"e "existir"serão marcados
no texto, bem como suas respectivas variações em modo e tempo.
Para auxiliar no desenvolvimento do projeto, foi utilizada a ferramenta CoGroo (COGROO,
2013). Essa ferramenta é, internamente, um corretor gramatical, um analisador e anotador de
textos. Ele se enquadra no ramo da computação conhecido como Processamento de Linguagens
Naturais (PLN). O objetivo de utilizar o CoGroo é o aproveitamento do analisador morfológico
para a lingua portuguesa do Brasil que ele incorporou, o Jspell (JSPELL, 2013).
Um analisador morfológico tem a função de caracterizar uma palavra com relação ao gênero,
número, categoria gramatical, etc. O Jspell é uma ferramenta livre para análise morfológica e
corrector ortográfico, originalmente para sistemas baseados em Unix. O código fonte é baseado
25
no Ispell (ISPELL, 2013). Está orientado para a verificação ortográfica/morfológia de textos/palavras da língua portuguesa. O Jspell foi desenvolvido em 1994 por Ulisses Pinto e José
João Almeida, agora fazendo parte do projecto Natura.O nome do Jspell deriva do iSpell (I+1)
(JSPELL, 2013).
O CoGroo foi escolhido para ser integrado à ferramenta por ser desenvolvido na linguagem
de programação Java (ORACLE, 2013a), é um recurso pronto, que vem sofrendo frequentes
atualizações e pode ser utilizado e ser de fácil integração com o sistema já existente do Projeto
ALiB, desenvolvido também em Java. O Jspell, por estar disponível em C e Perl, não foi utilizado diretamente por ter sua integração mais custosa, já que está disponível em uma linguagem
diferente da utilizada neste trabalho.
O CoGroo irá auxiliar na medida em que as palavras existentes no português do Brasil forem
encontradas, termos pertencentes à norma culta que estão sempre corretos gramaticalmente. Porém, os textos fornecidos pelo ALiB, têm como característica peculiar a existência de palavras
escritas exatamente como são pronunciadas por seus informantes, pessoas que possuem vícios
de linguagem, que em um discurso livre não se preocuparão com a fonética correta das palavras. Como citado anteriormente, uma palavra como o pronome "nós"pode ser pronunciada
como "nois"simplesmente, ou uma frase como "nós fomos"pode ser pronunciada como "nois
fomu". Casos como estes não seriam considerados na análise do CoGroo de forma satisfatória
ao se deparar com palavras inexistentes an norma culta, com erros gramaticais.
O ALiB tem como objetivo gerar um atlas geral do Brasil no que diz respeito à língua
portuguesa. Este projeto busca a forma como as pessoas, ao redor de todo o território brasileiro,
pronunciam determinadas palavras, como elas conjugam os verbos, se falam da forma correta
gramaticalmente ou se referem a determinados fenômenos com uma palavra ou se o chamam
por outra. Ao fim desse processo tem-se em mãos uma gravação em áudio que será transcrita
exatamente como os informantes pronunciaram. Inclusive os erros de pronúncia, de conjugação,
dentre outros casos que fogem à norma culta da língua portuguesa. O próximo processo é
classificar todas as entidades relevantes dos textos, tudo isso feito manualmente, e salvar em
documentos textuais. O que torna um processo cansativo e demorado.
O TDS é uma transcrição de um discurso livre do informante. O texto gerado é armazenado
na base de dados do ALiB. O texto gerado é constituído por todo o diálogo entre o inquiridor
e o informante, sendo demarcado no texto a quem pertence cada fala transcrita. O diálogo do
26
inquiridor é demarcado com "INQ - "e do informante com "INF - ". O objetivo do ALiB no TDS
é identificar como as pessoas falam nas diversas regiões do Brasil. Se essas pessoas pronunciam
mais o "tu"ao invés de "você", as variações de "você": "cê", "ocê", "vossa merce", dentre
outras. A pesquisa contempla também a identificação da utilização dos termos "ter", "haver"e
"existir". Se estão utilizando o "existir"onde deveriam utilizar o "haver". Outra pesquisa feita
nesses textos é a ocorrência da conjugação dos verbos na primeira pessoa do plural, bem como
a ocorrência do pronome nós e suas variações, como por exemplo: "nóis", "a gente". Toda
essa pesquisa é feita hoje em arquivos textos, buscando pelas palavras ou termos utilizando os
buscadores presentes nos editores de textos disponíveis no mercado e verificando, a cada busca,
a quantidade das ocorrências encontradas, de forma visual e manual apenas.
A proposta do projeto é automatizar essa última etapa do processo. Pretende-se identificar e classificar as entidades encontradas nos textos transcritos, realizadas por um sistema
automático que se aproxime ao máximo da classificação manual feita hoje pelos integrantes do
Projeto ALiB de forma rápida e eficiente, que facilite a visualização. Para isso, foram utilizadas
algumas técnicas necessárias já descritas anteriormente para fazer os tratamentos necessários
nos textos e aliado a isso disponibilizar uma interface no sistema ALiBWeb que seja possível
pesquisar nos textos as entidades desejadas, marcando os termos encontrados com cores que
facilitem a identificação na pesquisa de qualquer palavra contida nos textos. Também será incorporada na mesma interface uma estatística dos termos encontrados durante a análise. Dados
como a quantidade e a porcentagem referente a cada termo encontrado.
4.0.1
ARQUITETURA PROPOSTA
O analisador TDS proposto possui três módulos principais que interagem com a ferramenta
CoGroo. Durante o pré-processamento do texto é verificado e separado quais as partes são
importantes para a análise. Nos textos TDS do ALiB existem partes referentes à fala do inquiridores e partes referentes ao informante. Apenas o texto que diz respeito ao informante será
considerado na análise. Textos não necessários não serão analisados, não passando pela análise
e serão retornados sem nenhuma alteração.
Todo texto a ser analisado será enviado para a verificação morfológica do CoGroo. Em
seguida será feita a busca pelos termos a serem etiquetados. Após etiquetar todos os termos
necessários, o texto passa por um pós processo de formatação para gerar o texto final como
resultado.
27
A figura 4.1, descreve como está estruturada a ferramenta proposta. Na interação com o
CoGroo o texto a ser analisado morfologicamente é passado como parâmetro e como retorno é
devolvido uma lista de tokens contendo a análise gramatical para cada sentença.
Figura 4.1: Arquitetura do Analisador TDS
4.0.2
ALGORITMO
No que se diferencia esse trabalho, os algoritmos de identificação de pronomes implícitos
e explícitos têm como meio de ação, primeiramente, a identificação de um verbo conjugado no
tempo desejado e verificar se ele foi precedido de um pronome que corresponda à sua conjugação.
As ocorrências dos pronomes desejados e verbos conjugados, logo em seguida, em tempos
diferentes do correto ou mesmo escritos de maneira errada, resultado da pronúncia equivocadada do informante foi feita de maneira que um pronome procurado, ao ser identificado, o
algorítmo verificará à frente a possibilidade de haver uma palavra não identificada na sequência.
Para verificar o comportamento da ferramenta, o capítulo seguinte descreve como foram
feitos os experimentos e os resultados alcançados.
28
5
EXPERIMENTOS E
RESULTADOS.
Este capítulo apresenta alguns experimentos realizados com o intuito de validar a ferramenta
desenvolvida.
5.1
AMBIENTE DE DESENVOLVIMENTO
O desenvolvimento do projeto utilizou a linguagem de programação Java (ORACLE, 2013a),
juntamente com o framework JSF 2 (ORACLE, 2013b). A máguina onde a ferramenta foi desenvolvida é configurada com processador intel core i5, 4GB de memória ram, sistema operacional windows 7 64 bits. Para a utilização da ferramenta CoGroo (vesão 4.0.0) (COGROO,
2013), foi necessário também utilizar o framework Maven (APACHE, 2013), responsável por
gerenciar as dependências do projeto que utiliza o CoGroo e configurar um ambiente de desenvolvimento padronizado seguindo boas práticas.
Os experimentos feitos refletem uma comparação entre a etiquetação feita manualmente
com a etiquetação feita pela ferramenta desenvolvida.
5.2
EXPERIMENTOS
Dois experimentos foram realizados. O primeiro corresponde à etiquetação dos textos com
"tu / você", "ter / haver / existir"e "nós / A gente"através do algoritmo proposto. O segundo
experimento corresponde ao desempenho do algoritmo em relação à etiquetação manual. Para
tal, as medidas de precisão, cobertura e medida F foram utilizadas.
Existem diversas medidas que podem ser utilizadas para avaliar o desempenho de um Sistema de Recuperação de Informação. As medidas mais utilizadas são precisão e cobertura
29
(BARTH, 2013).
Cobertura
Cobertura é a razão entre o número de documentos recuperados que são relevantes para
uma consulta e o total dos documentos na coleção que são relevantes para a consulta.
Precisão Precisão (P) é a proporção dos documentos recuperados que são relevantes para
uma dada consulta em relação ao total de documentos recuperados. Essa medida reflete a eficiência dos resultados do sistema, revelando a proporção das respostas corretas (RC) dentre todas
as respostas resultantes (RR) do sistema.
P=
RC
RR
Medida F Um Sistema de Recuperação de Informação pode equilibrar precisão e cobertura.
No caso extremo, um sistema que retorna todos os documentos da coleção de documentos
como seu conjunto de resultados tem a garantia de uma cobertura igual a 100%, mas terá baixa
precisão. Por outro lado, um sistema pode retornar um único documento e ter um baixo índice
de cobertura, mas teria uma chance razoável de 100% de precisão. Uma forma de definir uma
média harmônica entre precisão e cobertura é através da medida F (BARTH, 2013).
O experimento foi subdividido em três seções abaixo:
5.2.1
TU / VOCÊ
Preparação do texto: O texto utilizado para este experimento foi fornecido pelo Projeto
ALiB. O referido arquivo continha etiquetados as ocorrêcias do "você", "cê"e "ocê". Por não
possuir nenhuma ocorrência do pronome "tu", foram adicionadas, manualmente, algumas frases
com a utilização do "tu". O arquivo não continha os totalizadores das etiquetações, fato este que
foi preciso contabilizar manualmente. O texto consta na figura 5.1. Etiquetado em verde estão
os termos encontrados com sentido de "você", em amarelo as ocorrências do pronome "tu".
Execução da ferramenta O texto preparado foi posto em análise pela ferramenta. Obtendo
os resultados da figura 5.2
30
Figura 5.1: Tu x Você
Figura 5.2: Etiquetação do Analisador para Tu x Você
Resultados Alcançados O texto analisado possui 16 termos a serem etiquetados, 4 ocorrências de "tu"e 12 ocorrências para o "você"e suas variações.
31
Figura 5.3: Gráfico comparativo
5.2.2
NÓS / A GENTE
Preparação do texto: Os arquivos disponibilizados pelo Projeto ALiB não dispõem de
textos etiquetados para ocorrências de "nós"e "A gente". Assim, a partir dos textos disponíveis,
foi gerado manualmente as etiquetações e os totalizadores para a realização dos experimentos,
de acordo coma figura 5.4. A etiquetação manual destaca em amarelo o pronome "nós", em
verde as variações do "nós", "a gente"está etiquetado em azul, verbos identificados an primeira
pessoa do plural estão em cinza e em vermelho verbos conjugados de forma errada ou escritos
com erros de grafia para a primeira pessoa do plural.
Execução da ferramenta: O texto foi então submetido para análise pela ferramenta. O
resultado obtido encontra-se na figura 5.5. Em azul a ferramenta marcou os termos "nós"e "a
gente", em amarelo foram marcados os verbos, em cinza a classificação dso verbos corretos e
em vermelho a informação referente aos verbos conjugados ou escritos de forma errada.
Resultados Alcançados: Observando os textos etiquetados e os gráficos 5.6 e 5.7, podemos
verificar que a identificação dos termos não foi total. Houve erro para se identificar termos com
problemas de grafia e que representavam um termo de relevância.
32
INQ. – Você pode contar pra gente alguma coisa assim marcante na sua vida? Contar um fato
marcante, alguma coisa.
INF. – Um fato marcante? Nós busquemo a pessoa.
INQ. – Uma coisa assim que você se lembre e possa contar pra gente.
INF. – A gente foi tocá, voltei alegre e satisfeito. E nois tá assim.
INQ. – Como foi lá assim?
INF. – A gente disfilô. O trio disfila na avenida. Do Pelorium ao Campo grande, né?, disfilano.
INQ. – Certo.
INF. – Nois disfila. Porque nós fumo lá.
(Relato espontâneo a propósito do QSM 031)
INQ. – E, fale um pouco assim sobre seu irmão né, alguma coisa, né? de seu irmão.
INF. – Num tem muita coisa assim porque ele não mora junto cumigo, não. Moramu separado.
INQ. – Hum.
INF. – Nós fomos morar em lá im São Paulo.
INF. – Estamos morando aqui agora. A gente veio embora mesmo.
INF. – Nós Estamos morando aqui agora. A gente veio embora mesmo.
INF. – Testando: se nós tem tempo.
INQ. – Certo. E assim, no caso, se você tivesse alguma coisa assim de seu irmão, como é que
você falaria, né? Tem ... Ele deixou alguma coisa aí?
INF. – Não. Porque a gente somos irmãos não por parte de pai, por parte de mãe. Ele morava
com a vó dele e eu moro com minha vó.
Figura 5.4: Nós / A gente
33
Figura 5.5: Análise da ferramenta
5.2.3
TER / HAVER / EXISTIR
Preparação do texto: Os arquivos disponibilizados pelo Projeto ALiB não dispõem de
textos etiquetados para ocorrências de "ter", "haver"e "existir". Assim, a partir dos textos disponíveis, foi gerado manualmente as etiquetações e os totalizadores para a realização dos experimentos. O texto produzido está representado na figura 5.8.
Execução da ferramenta: Após submeter o texto gerado à análise da ferramenta, o texto
etiquetado foi gerado conforme a figura 5.9.
34
Figura 5.6: Gráfico comparativo
Figura 5.7: Ocorrências pronomes implícitos x explícitos
Resultados Alcançados: A identificação dos termos e suas variações foi efetivada com
sucesso pela ferramenta de acordo com o gráfico 5.10.
A identificação simplificada dos termos ocorreu de maneira normal e satisfatória como era
de se esperar. Por se tratar de buscas simples em texto os termos "tu", "você", "ter", "haver",
"existir", "nós"e "a gente"são identificas pela ferramenta na sua totalidade. As variações de
modo e tempo para os verbos foram encontrados também. Porém, na figura 5.7, constatamos
35
Figura 5.8: Etiquetagem Ter/Haver/Existir
Figura 5.9: Etiquetagem da ferramenta
36
Figura 5.10: Gráfico comparativo
que na identificação dos nós emplícitos e de erros de grafia/conjugação a ferramenta teve um
desempenho inferior na etiquetação em relação à etiquetação manual. Isso se deve a alguns
casos onde o pronome está implícito e o verbo a ele referente está descrito de maneira errada, o
que dificulta a sua identificação por parte da ferramenta.
37
6
CONCLUSÃO
Este trabalho teve como finalidade a elaboração de uma ferramenta capaz de analisar textos
TDS do Projeto ALiB e etiquetar os termos relevantes para suas pesquisas.
As técnicas abordadas pela pesquisa de termos relevantes em textos por meio da mineração
de textos, a recuperação da informação e o processamento de linguágem natural serviram na
compreenção dos meios necessários para a realização dos objetivos deste trabalho.
As dificuldades foram muitas na elaboração deste trabalho. O processo de descoberta do
conhecimento em textos, inicialmente realizado por meio de algoritmos desenvolvidos de forma
autônoma não surtiram muitos resultados positivos. Alguns termos etiquetados de forma incorreta e outros não etiquetados quando deveriam ser fez gerar a necessidade de utilizar uma ferramenta que permitisse uma avaliação gramatical melhor dos textos. Posteriormente, a utilização
de uma ferramenta para processar o texto e gerar os tokens da análise morfológica tornou o processo da etiquetação mais próximos da feita manualmente. A ferramenta incorporada, CoGroo,
tinha a função apenas de definir as classes gramaticais dos termos dos textos. Porém, como o
diferencial da proposta desse trabalho é a etiquetação em meio a textos com erros gramaticais,
erros de grafia, a utilização do CoGroo apenas não se mostraria totalmente eficiente. Com o
auxílio desse analisador, a elaboração de algoritmos próprios capazes de identificar pronomes
implícitos, verbos conjugados de forma errada e com erros de grafia tornou-se possível.
Para trabalhos futuros, seria muito importante a elaboração de um analisador sintático e
semântico para, além de agregar mais funções à ferramenta, tornar o processo de descoberta do
conhecimento mais eficiente e preciso em textos para a lingua portuguesa.
38
REFERÊNCIAS BIBLIOGRÁFICAS
AMORIM, T. Conceitos, técnicas, ferramentas e aplicações de mineração de dados para gerar
conhecimento a partir de bases de dados. 2006.
APACHE. Apache Maven Project. 2013. Disponível em: <http://maven.apache.org/>.
ARANHA, C.; PASSOS, E. A tecnologia de mineração de textos. Disponível em:
<http://revistas.facecla.com.br/index.php/reinfo/article/download/171/66>.
BARION, E. C. N.; LAGO, D. MineraÇÃo de textos. Revista de Ciências Exatas e Tecnologia,
v. 3, n. 3, 2008.
BARROS, F. de A.; ROBIN, J. Processamento de linguagem natural. Revista Eletrônica de
Iniciação Científica - ISSN 1519-8219, 2001.
BARTH, F. J. Uma breve introdução ao tema recuperação de informação. Revista de
Informática Teórica e Aplicada: RITA., 2013.
CARVALHO, L. A. V. D. Datamining - A Mineração de Dados no Marketing, Medicina,
Economia, Engenharia e Administração. [S.l.]: Ciencia Moderna, 2005. 254 p. ISBN
8573934441.
CHEN, H. Knowledge Management Systems: A Text Mining Perspective. Tucson, Arizona:
University of Arizona. [S.l.]: Knowledge Computing Corporation, 2001. 254 p. ISBN
8522105251.
CLASSES de Palavras. InfoEscola. Disponível em:
<http://www.infoescola.com/portugues/classes-de-palavras/>.
COGROO. 2013. Disponível em:
<http://ccsl.ime.usp.br/redmine/projects/cogroo/wiki/CoGrOOF unciona>.
ISPELL. 2013. Disponível em:
<http://natura.di.uminho.pt/wiki/doku.php?id=dicionarios:mainispell>.
JSPELL. 2013. Disponível em: <http://natura.di.uminho.pt/webjspell/jsolhelp.pl>.
JúNIOR, O. D. Reconhecimento de nomes de pessoas e organizações em textos forenses usando
uma variação do modelo oculto de markov. XXIV Congresso da Sociedade Brasileira de Computação., 2011. Disponível em: <http://www.lsi.ufu.br/documentos/publicacoes/ano/2004/JAIcap5.pdf>.
LOPES, L.; VIEIRA, R. Processamento de linguagem natural e o tratamento computacional de linguagens científicas. LINGUAGENS ESPECIALIZADAS EM CORPORA
MODOS DE DIZER E INTERFACES DE PESQUISA, p. 183–201. Organizadoras:
39
Cristina Lopes Perna; Heloísa Koch Delgado; Maria José Finatto. Disponível em:
<http://www.inf.ufrgs.br/procpar/disc/cmp135/trabs/992/Parser/parser.html>.
MONTEIRO, L. d. O.; GOMES, I. R.; OLIVEIRA, T. Etapas do processo de mineração de
textos - uma abordagem aplicada a textos em português do brasil. p. 4, 2006. Disponível em:
<http://200.169.53.89/download/CD%20congressos/2006/SBC%202006/pdf/arq0166.pdf>.
MOURA, P. N. D. S. Reconhecimento de entidades mencionadas utilizando uma abordagem
de hidden markov model. 2009.
OLIVEIRA, F. A. D. D. Processamento de linguagem natural: princípios básicos e a implementação de um analisador sintático de sentenças da língua portuguesa. Acessado em 14/05/2013.
Disponível em: <http://www.inf.ufrgs.br/procpar/disc/cmp135/trabs/992/Parser/parser.html>.
ORACLE. Java. 2013. Disponível em:
<http://www.java.com/ptB R/download/ f aq/whatis j ava.xm>.
ORACLE. JavaServer Faces Technology. 2013. Disponível em:
<http://www.oracle.com/technetwork/java/javaee/javaserverfaces-139869.html>.
PROJETO ALiB. 2013.
ROMãO, W. Descoberta de conhecimento relevante em banco de dados sobre ciência e
tecnologia. 2012.
SANTOS, D.; CARDOSO, N. Reconhecimento de entidades mencionadas em português.
2007. Disponível em: <http://www.linguateca.pt/superb/busca p ubl.pl?idi = 1162460062>.
SOUZA, H. B. d.; NAGLIS, D. L. Mineração de dados : uma aplicação na base de dados
de artigos de periódicos científicos das áreas de informação (abcdm). 2008. Disponível em:
<http://bdm.bce.unb.br/handle/10483/158>.
TAN, A.-H. Text mining: The state of the art and the challenges. 1999. Disponível em:
<http://www3.ntu.edu.sg/sce/labs/erlab/publications/papers/asahtan/tm p akdd99.pd f >.
ZANUSSO, M. B. Datam ining.2013.
ZIVIANI, N. Projeto de Algoritmos: Com implementação em Java e C++. [S.l.]: Thomson,
2006. 642 p. ISBN 8522105251.
Download