View/Open

Propaganda
DESENVOLVIMENTO DE FERRAMENTA DE MINERAÇÃO DE BIG DATA NA
WEB PROFUNDA (DEEP WEB) PARA A PESQUISA EM SAÚDE: O CASO DAS
DOENÇAS NEGLIGENCIADAS.
Autoria: André Moraes dos Santos, Carlos Mamori Kono, Leandro Ranolfi Girardi,
Rodolfo Ribeiro Silva
Palavras chave: big data, deep web, minning, doenças negligenciadas
Contextualização
As doenças negligenciadas (DN) não são lucrativas para a indústria farmacêutica e atingem
populações que não possuem expressão política ou comercial (p.ex.dengue). As informações
sobre DN disponíveis na web profunda podem ser úteis aos profissionais, pesquisadores e
gestores públicos na busca de soluções para as DN. Porém, o acesso e análise dos grandes
volumes de dados (big data) exige a construção de métodos e ferramentas para a mineração
destas informações.
Objetivos
Este trabalho teve como objetivo o desenvolvimento de um método para a mineração de big
data na web profunda aplicada ao campo de doenças negligenciadas no Brasil.
Metodologia
O desenvolvimento de um método para a mineração de dados na web profunda, caracteriza-se
como uma forma de pesquisa ação, combinando o contexto social com a engenharia de
sistemas. A fonte de dados foi o Diretório dos Grupos de Pesquisa no Brasil (DGP) mantido
pelo CNPq. Adotamos o método de Pesquisa-Ação, o qual tem sido utilizado pela área de
sistemas de informações com o propósito de gerar conhecimento a partir da solução de
problemas práticos (Baskerville & Myers, 2004).
Fundamentação Teórica
Para analisar grandes volumes de informações (big data) na web profunda (deep web) é
necessário desenvolver métodos e ferramentas específicas para a mineração e análise destes
dados, como, por exemplo, mecanismos de mining (Agarwal & Dhall, 2010). Um sistema de
WebMinning deve ser capaz de interagir, extrair, filtrar, converter e disponibilizar as
informações online para um formato apropriado a análise e tomada de decisão (Liu, Wang, &
Agrawal, 2012; Zhang, Du, & Wang, 2013).
Resultados e Análises
A partir do método desenvolvido foi possível gerar informações em doenças negligenciadas
como: população de pesquisadores e grupos de pesquisa; relações de colaboração (redes
sociais); publicação científica; análise textual de publicações; representação cartográfica dos
grupos de pesquisa; pesquisadores e grupos de pesquisa centrais . O método foi testado e
validado por um grupo de especialistas em doenças negligenciadas. Os especialistas relataram
a validade do método e a confiabilidade dos resultados.
_____________________________________________________________________
Anais do II SINGEP e I S2IS – São Paulo – SP – Brasil – 07 e 08/11/
1/2
Considerações Finais
O método desenvolvido neste estudo pode ser replicado para outras áreas e bases de dados,
contribuindo para uma melhor compreensão do campo e estado da pesquisa em diversos
temas. Todo o processo foi baseado totalmente em soluções informatizadas de código aberto e
livre, como ScriptLattes, Treecloud, Javaview, NetView, e Python.
_____________________________________________________________________
Anais do II SINGEP e I S2IS – São Paulo – SP – Brasil – 07 e 08/11/
2/2
Download