16° TÍTULO: GESTÃO DE RECURSOS NA SAÚDE: MINERAÇÃO DE DADOS SOBRE DADOS ABERTOS GOVERNAMENTAIS CATEGORIA: EM ANDAMENTO ÁREA: CIÊNCIAS EXATAS E DA TERRA SUBÁREA: COMPUTAÇÃO E INFORMÁTICA INSTITUIÇÃO: FACULDADE DE TECNOLOGIA TERMOMECÂNICA AUTOR(ES): ANA RAQUEL BERTELLI DE OLIVEIRA, LEONARDO LAZARINI ORIENTADOR(ES): CAMILA MARIANE COSTA SILVA 1. Introdução Durante as últimas décadas, com a evolução dos recursos tecnológicos e com o crescente uso de sistemas de informação, os frequentes censos e monitoramentos passaram a acumular um número cada vez maior de dados de diferentes origens, datas e temas. Para garantir que estes dados estarão disponíveis a todas as pessoas, em 18 de novembro de 2011 foi declarada a Lei nº 12.527 (BRASIL, 2011), cuja principal motivação é garantir o acesso à informação. Viu-se a oportunidade de tratar e processar estes dados, advindos da INDE (INDE, 2016), por meio de um processo de descobrimento de informações em bases de dados - KDD (Knowledge-Discovery in Databases). Com este processo, é possível encontrar padrões e montar um ou mais modelos de conhecimento, que podem ser utilizados em um sistema de apoio a decisão (FAYAAD; PIATETSKYSHAPIRO; SMYTH, 1996). Note-se que um Sistema de Apoio a Decisão - SAD é uma ferramenta cuja principal finalidade é, a partir do tratamento e disponibilização de informações, auxiliar gestores e/ou pessoas envolvidas em decisões estratégicas a efetivar suas escolhas no contexto de uma organização (pública ou privada) (POLLONI, 2001). 2. Objetivo Este estudo busca responder o problema de pesquisa: como os dados abertos governamentais podem ser tratados para auxiliar a gestão de recursos na área de saúde? Neste sentido, este projeto tem como objetivo desenvolver uma ferramenta de apoio à decisão que auxilie a gestão de recursos na área de saúde. 3. Método de Pesquisa Esta pesquisa tem uma abordagem exploratória em relação a seus objetivos (GIL, 2010), pois será desenvolvida uma ferramenta que apresentará, de maneira estruturada, informações que, inicialmente, não estavam relacionadas. Esta exploração envolve: Seleção de dados demográficos e da área de Saúde (doenças e distribuição de unidades de saúde); A coleta de dados quantitativos, contidas em planilhas (.csv), da INDE que são carregados numa ferramenta, desenvolvida para este estudo; Os dados coletados são submetidos a tratamentos de consolidação, limpeza e integração na ferramenta desenvolvida; Após consolidação do conjunto de dados, estes são inseridos na ferramenta WEKA para pré-processamento e geração dos modelos de conhecimento; Desenvolvimento de uma ferramenta de apoio à tomada de decisão, utilizando as linguagens PHP e Java, para visualização dos resultados dos modelos gerados e para inserção de novos dados para análise. 4. Desenvolvimento Até o momento foram coletados dados do Portal Brasileiro de Dados Abertos (PBDA, 2016), onde diversos conjuntos de dados, agrupados por determinados temas, são disponibilizados. Há conjuntos de dados referentes a saúde, geografia, transporte, sociedade e outros. Além da coleta em si, os dados já foram préprocessados e agrupados por cidade, possuindo diversos atributos relacionados a ela como grau de escolaridade dos moradores, clima da região, tipo de solo, rendimentos médios familiares e etc. Para realizar esta etapa, foi desenvolvida uma plataforma capaz de importar e realizar o pré-processamento de forma automática, necessitando pouca interação humana. O processo KDD foi iniciado pela primeira etapa, a de pré-processamento, onde dados de diversas fontes foram coletados e tratados. Estes dados foram submetidos a diversos algoritmos de teste, gerando modelos de conhecimento preliminares tentando distinguir os fatores que mais influenciam na incidência de AIDS, malária e microcefalia. Para gerar os modelos de conhecimento foi utilizado o software Weka (UW, 2016), cujo código é aberto e foi desenvolvido pela universidade de Waikato, especialista em mineração de dados. Todo o conjunto faz parte de uma ferramenta governamental de apoio a decisão que está sendo desenvolvida. Esta permitirá que os governantes visualizem as áreas de risco onde determinada doença possa incidir, podendo prevenir ou auxiliar de forma mais efetiva as áreas afetadas (cidades que possuem maior risco disseminação de determinadas doenças). 5. Resultados Preliminares Os dados coletados foram importados utilizando a ferramenta desenvolvida, sendo que todos realizados com sucesso. Além disto, os algoritmos de integração dos dados foram desenvolvidos e facilitaram no processo de importação e padronização do banco de dados. As doenças testadas até o momento foram AIDS, microcefalia e malária, selecionando atributos diferentes dependendo no método de disseminação de cada doença. A microcefalia, por exemplo, considerou como alto risco as cidades que possuem temperatura quente a maior parte do ano, áreas urbanizadas com mais chuvas durante o ano. Os modelos de conhecimento gerados apresentaram uma taxa de acerto que variam de 80% (malária) a 91% (AIDS e microcefalia), selecionando os atributos mais importantes e que mais contribuem para distinguir as áreas de maior risco de incidência de cada doença. 6. Fontes Consultadas BRASIL. Constituição Federal (2011). Lei nº 12527, de 18 de novembro de 2011. Lei Nº 12.527, de 18 de novembro de 2011. Brasília, 18 nov. 2011. Disponível em: <http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm>. Acesso em: 10 ago. 2016. FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From Data Mining to Knowledge Discovery in Databases. American Association For Artificial Intelligence, p.37-54, set. 1996. Disponível em: <http://www.csd.uwo.ca/faculty/ling/ cs435/fayyad.pdf>. Acesso em: 07 ago. 2016. GIL, Antônio Carlos. Como elaborar Projetos de Pesquisa. 5 ed. São Paulo: Atlas, 2010. INDE – Infraestrutura Nacional de Dados Espaciais (Org.). Infraestrutura Nacional de Dados Espaciais. 2016. Disponível em: <http://www.inde.gov.br/>. Acesso em: 01 ago. 2016. PBDA - Portal Brasileiro de Dados Abertos (Org.). Portal Brasileiro de Dados Abertos. 2016. Disponível em: <http://dados.gov.br/>. Acesso em: 01 ago. 2016. POLLONI, Enrico G. F. Administrando sistemas de informação: estudo de viabilidade. 2.ed. São Paulo: Futura, 2001. UW – University of Waikato (Org.). WEKA - Data Mining Software in Java. 2016. Disponível em: <http://www.cs.waikato.ac.nz/>. Acesso em: 02 ago. 2016.