DESENVOLVIMENTO DE FERRAMENTA DE MINERAÇÃO DE BIG DATA NA WEB PROFUNDA (DEEP WEB) PARA A PESQUISA EM SAÚDE: O CASO DAS DOENÇAS NEGLIGENCIADAS. Autoria: André Moraes dos Santos, Carlos Mamori Kono, Leandro Ranolfi Girardi, Rodolfo Ribeiro Silva Palavras chave: big data, deep web, minning, doenças negligenciadas Contextualização As doenças negligenciadas (DN) não são lucrativas para a indústria farmacêutica e atingem populações que não possuem expressão política ou comercial (p.ex.dengue). As informações sobre DN disponíveis na web profunda podem ser úteis aos profissionais, pesquisadores e gestores públicos na busca de soluções para as DN. Porém, o acesso e análise dos grandes volumes de dados (big data) exige a construção de métodos e ferramentas para a mineração destas informações. Objetivos Este trabalho teve como objetivo o desenvolvimento de um método para a mineração de big data na web profunda aplicada ao campo de doenças negligenciadas no Brasil. Metodologia O desenvolvimento de um método para a mineração de dados na web profunda, caracteriza-se como uma forma de pesquisa ação, combinando o contexto social com a engenharia de sistemas. A fonte de dados foi o Diretório dos Grupos de Pesquisa no Brasil (DGP) mantido pelo CNPq. Adotamos o método de Pesquisa-Ação, o qual tem sido utilizado pela área de sistemas de informações com o propósito de gerar conhecimento a partir da solução de problemas práticos (Baskerville & Myers, 2004). Fundamentação Teórica Para analisar grandes volumes de informações (big data) na web profunda (deep web) é necessário desenvolver métodos e ferramentas específicas para a mineração e análise destes dados, como, por exemplo, mecanismos de mining (Agarwal & Dhall, 2010). Um sistema de WebMinning deve ser capaz de interagir, extrair, filtrar, converter e disponibilizar as informações online para um formato apropriado a análise e tomada de decisão (Liu, Wang, & Agrawal, 2012; Zhang, Du, & Wang, 2013). Resultados e Análises A partir do método desenvolvido foi possível gerar informações em doenças negligenciadas como: população de pesquisadores e grupos de pesquisa; relações de colaboração (redes sociais); publicação científica; análise textual de publicações; representação cartográfica dos grupos de pesquisa; pesquisadores e grupos de pesquisa centrais . O método foi testado e validado por um grupo de especialistas em doenças negligenciadas. Os especialistas relataram a validade do método e a confiabilidade dos resultados. _____________________________________________________________________ Anais do II SINGEP e I S2IS – São Paulo – SP – Brasil – 07 e 08/11/ 1/2 Considerações Finais O método desenvolvido neste estudo pode ser replicado para outras áreas e bases de dados, contribuindo para uma melhor compreensão do campo e estado da pesquisa em diversos temas. Todo o processo foi baseado totalmente em soluções informatizadas de código aberto e livre, como ScriptLattes, Treecloud, Javaview, NetView, e Python. _____________________________________________________________________ Anais do II SINGEP e I S2IS – São Paulo – SP – Brasil – 07 e 08/11/ 2/2