Pentaho: Ferramenta de melhoria na qualidade das informações em um hospital universitário Luiz Fernando Stopa Arcenio Coordenação de Informática do Hospital Universitário – COIN/HU/UFGD Universidade Federal da Grande Dourados [email protected] Resumo: Da necessidade de melhorar as informações adquiridas com a implantação do sistema AGHU, através da utilização de uma ferramenta que pudesse facilitar a pesquisa e manipulação dos dados, bem como na melhoria da qualidade da informação gerada. O Pentaho vem desta forma permitir a aquisição e manipulação destes dados, e através de sua interface web divulgar as informações para todo o hospital. Foi criado um cubo para manipular os dados das consultas ambulatoriais de tal forma a verificar os atendimentos realizados. Como resultado pode ser visto que o Pentaho permite sua de utilização de diversas formas tanto para o processo de ETL como para a manipulação e divulgação das informações. 1. Introdução O Hospital Universitário da UFGD foi incorporado pela Universidade Federal da Grande Dourados em 2009, e em um processo de reestruturação tecnológica do software de gestão dos atendimentos hospitalares e ambulatoriais, tornou-se um dos seis HU´s do projeto piloto do Aplicativo de Gestão dos Hospitais Universitários – AGHU. Atualmente já foram implantados os módulos de registros de pacientes, internação, prescrição médica, ambulatório e indicadores, mas percebeu-se a falta de relatórios gerenciais para acompanhamento dos atendimentos realizados, pelo fato do projeto estar em fase de desenvolvimento de outros módulos também importantes. Nesta lacuna percebeu-se a necessidade de uma ferramenta de pudesse agregar esses valores ao sistema utilizado, gerando consultas e cálculos apresentados na forma de relatórios e gráficos. A ferramenta utilizada tratar dos dados foi o Pentaho, uma ferramenta de análise de dados, monitoramento de indicadores e data mining. No presente artigo servirá para demonstrar as vantagens e desvantagens do Pentaho dentro de um ambiente hospitalar, para isso foram modelados apenas os dados dos registros de atendimentos ambulatoriais, contendo o registro dos agendamentos, atendimentos e pacientes faltosos para consultas especializadas. Este artigo, segundo Alves et all (2008) é de natureza tecnológica, sob a luz de o referencial teórico busca a sua aplicação teórica no cotidiano administrativo hospitalar, tratando o assunto de uma forma simples, mas com resultados de impacto na forma de gestão do hospital, mas de caráter exploratório, objetivando o fomento da utilização das ferramentas de BI nas mais diversas formas na gestão dos hospitais universitários. O projeto foi desenvolvido de forma a estudar o sistema AGHU e seu módulo de BI embutido, e desta forma verificar novas oportunidades de obtenção de informações relevantes para a administração e assim implementar o Pentaho Business Analytics, conseguindo aliar a melhoria tecnológica com a gestão administrativa. As seções seguintes apresentam os dados utilizados e conseguidos na implementação do Pentaho no Hospital Universitário da Universidade Federal da Grande Dourados, ficando distribuído da seguinte forma. A seção 2 apresenta os conceitos de BI e Governança de Dados para melhor qualidade das informações. A seção 3 apresenta o Pentaho Business Analytics como ferramenta para Governança de Dados. A seção 4 apresenta a implementação do Pentaho no HU de Dourados/MS. A seção 5 apresenta os resultados conseguidos e observações decorrentes do projeto e por fim a seção 5 apresenta as conclusões e trabalhos futuros. 2. BI e Governança de Dados A forma como os dados foram tratados na evolução de sua utilização pelas empresas e no aumento de sua importância, então tempos a era da gerência dos dados com a utilização dos SGBD´s, depois passamos para o período da gerência da informação com a utilização dos primeiros depósitos de dados, também chamados de data warehouse onde visualizamos até hoje. Agora partindo para a gerência do conhecimento com a utilização de variáveis e modelos taxonômicos definidos pela especialidade das empresas, conforme Barbieri (2011). Não basta apenas armazenar dados em DW, precisa-se de agregar ainda mais valores aos dados armazenados e as informações atualmente adquiridas. Uma nova necessidade tem que ser perseguida pelas empresas: a qualidade das informações. A qualidade das informações deve ser de tal forma que não basta saber quantos foi vendido, mas porque determinado produto vende menos em determinada unidade. Neste processo a Governança de TI vem para contribuir no aumento da segurança, diminuir os riscos, melhorar o desempenho, otimizar e reduzir custos; alinhando TI aos negócios da empresa através do suporte á tomada de decisões. Conseguido através de práticas, padrões e relacionamentos estruturados dentro de todos os níveis da estrutura da empresa. Segundo Alves et all (2004), os sistemas de informação são partes irreversíveis das modernas organizações de forma decisiva na agregação de vantagem competitiva, através da transformação de dados em informação. Essa vantagem é alcançada através do planejamento estratégico, buscando o alinhamento dos planos operacionais e objetivos dos negócios. Neste bojo na busca da qualidade das informações temos a governança de dados, com foco na organização e controle sobre os dados para a produção da informação e conhecimento, conforme Barbieri (2011). Em Wilson (2002), discursa sobre um conjunto de aplicações que de forma estruturada, produz informações através de dados que foram agrupados, armazenados, analisados e disponibilizados a todos os níveis organizacionais; essa suite é chamada de Business Inteligence. Essa arquitetura é formada de três componentes, sendo o primeiro que fará a extração, limpeza, integração e carga no DW, o segundo é o próprio DW que armazenará os dados e o terceiro, tornará acessível todas as informações aos usuários finais, permitindo a manipulação e visualização de diversas formas. A Pentaho, segundo Barbieri (2011), vem nesta proposta de suite para ferramenta de BI, podendo ser utilizada em ambiente totalmente open source, desde o sistema operacional, servidor web, SGBD, acessibilidade em dispositivos móveis, capacidade de alocação do banco de dados em memória. 3. Pentaho Business Analytics como ferramenta de BI Pentaho Business Analytics é uma solução completa que abrange o BI, integração de dados e mineração de dados, conforme a Figura 3.1. Em Pentaho (2012), destacam como características da suite: 1. Com simples apontar e clicar em uma interface web, o usuário pode acessar e manipular seus dados na forma de relatórios e dashboard; 2. Relatórios interativos altamente formatados; 3. Permite o monitoramento de indicadores críticos através de dashbords, incluindo até geoprocessamento; 4. Ferramentas analíticas, com interface intuitiva para manipulação das múltiplas dimensões, bem como a navegação entre os dados; 5. Permite a análise de dados através de dispositivos móveis 6. Ferramenta para extração, transformação e carga em uma interface gráfica intuitiva; 7. Mineração de dados através de algoritmos que buscam a correlação de eventos para melhorar futuros resultados; 8. Recursos de TI que permitem desenvolver, implantar e gerenciar o acesso dos usuários à aplicação; 9. Implantação flexível, podendo ser na rede local, computação nas nuvens e embarcados/integrados em sistemas de informação. Figura 3.1. Arquitetura do Pentaho Open Suite A versão utilizada no projeto foi a instalação compactada no arquivo biserver-ce3.5.0.stable.tar.gz, compostos pelo Pentaho Administration Console e Pentaho User Console, de forma que o primeiro foi utilizado para criar os usuários que acessarão os cubos1 e no segundo foi utilizado os recursos de Data Source, Jpivot e WAQR. Foi dedicado para o projeto um servidor virtualizado possuindo dois processadores E5620 de 2.4GHz com 4GB de memória RAM, sendo o sistema operacional utilizado Linux Ubuntu, versão 10.04 LTS (Lucid Lynx). 4. Pentaho no Projeto AGHU No processo de reestruturação do HU, fazendo parte como piloto da implantação do sistema, a versão atualmente utilizada apresenta um módulo de BI para análise dos dados das internações e consultas ambulatoriais. Como este módulo está em fase de desenvolvimento, e apresenta limitações na disponibilidade dos dados, em relação a quantidade e flexibilidade de acessar os dados. O AGHU – Aplicativo de Gestão para Hospitais Universitários, segundo AGHU (2012), vem com a proposta de padronizar as práticas assistenciais e administrativas para uma melhoria no processo de atendimento. 1 Também chamado de dicing, demonstra os dados na forma de três eixos, podendo ser os procedimentos ambulatoriais por município em determinado período, podendo ser anual, mensal ou diário. Surge então a necessidade de melhorar os relatórios gerencias para a administração do HU. O AGHU utiliza como SGBD o PostgreSQL2, na versão 8.1.4. E para montagem do ambiente do Pentaho, optou-se por utilizar uma duplicação do banco de dados para outro servidor, ficando desta forma, separado o aplicativo do ambiente de BI. Desta forma o Pentaho fará as consultas nesta cópia e a exibição dos dados através da interface web nativo da suite. Em Oliveria (2002), ressalta que para realizar as consultas consiste em cinco fases, conforme apresentado nas próximas seções. 4.1 Definição das consultas As consultas devem refletir as necessidades de informações do HU, sendo neste projeto a análise será realizada sobre os dados das consultas ambulatoriais. Através das consultas por ano, mês e dia, contendo as especialidades, tipo de consulta, tipo de grade de consulta, atendimentos e faltantes e por município. A Figura 4.1.1 apresenta as dimensões das consultas ambulatoriais. aip_cidades aip_logradouros codigo NUMERIC <pk> nome VARCHAR uf_sigla VARCHAR . NUMERIC <pk> codigo cdd_codigo NUMERIC <fk> . . aip_enderecos_pacientes aip_pacientes aac_consultas codigo NUMERIC <pk> . agh_especialidades NUMERIC <pk> seq nome_especialidade VARCHAR . aac_grade_agendamen_consultas . seq NUMERIC <pk> pre_esp_seq NUMERIC <fk1> pre_ser_matricula NUMERIC <fk2> codigo pac_codigo grd_seq dt_consultas ret_seq ind_sit_consulta fag_caa_seq dthr_inicio fag_tag_seq numero cod_central NUMERIC <pk> NUMERIC <fk1> NUMERIC <fk2> DATE NUMERIC CHAR NUMERIC DATE NUMERIC NUMERIC NUMERIC . . pac_codigo NUMERIC <fk1> bcl_clo_lgr_codigo NUMERIC <fk2> cdd_codigo NUMERIC <fk3> rap_pessoas_fisicas codigo NUMERIC <pk> nome VARCHAR . rap_servidores matricula NUMERIC <pk> pes_codigo NUMERIC <fk> Figura 4.1.1. Tabela de fatos e dimensões da modelagem das consultas ambulatoriais 4.2 Acesso e recuperação de dados Definido as informações necessárias pela administração, chega a fase de adquirir os dados do banco de dados do AGHU. Em Wilson (2002), este processo é realizado em três fases: extração, transformação e carga. Na primeira fase fica a definição da fonte de dados, neste caso a fonte serão apenas os dados nas tabelas que possuem dados das consultas ambulatoriais realizadas. Para a segunda fase fica a definição do formato dos dados extraídos anteriormente como: padronização dos tipos de dados, reformatação das datas, agrupamento de campos para formar novo dado, etc. Já na última fase, é a carga dos dados, no caso do projeto, fica a criação do cubo através da criação de um Data Source dentro do Pentaho. 2 Segundo PostgreSQL (2012), é um sistema gerenciador de banco de dados (SGBD) objeto-relacional de código aberto e roda em todos os grande sistemas operacionais. Figura 4.2.1. Data Source do cubo das consultas ambulatoriais Na fase de carga, o data source na Figura 4.2.1, possuirá os dados definidos na fase de definição das consultas, de uma forma que uma vez executado o SQL de recuperação dos dados, os dados serão apresentados de forma denormalizada, bem como a forma de agregação da métrica definida, conforme Barbieri (2011). Esta estrutura dos dados na modelagem multidimensional3 é chamado de Star Scheme ou esquema estrela e apresenta melhor ganho de desempenho nas consultas ao cubo, pela redução das consultas para agrupar as tabelas, uma vez que o agrupamento foi realizado na etapa anterior. 4.3 Cálculo, manipulação e análise Nesta fase temos a figura do cubo OLAP, segundo Barbieri (2011), ele permite a manipulação dos dados de forma dimensional, permitindo à rotação de planos ou pivotamento do eixo das dimensões, mudando desta forma a visualização dos dados. O cubo permite que através ferramentas OLAP – On-line Analytical Processing possam ser feitas análises multidimensionais dos dados. As ferramentas OLAP podem possuir diversas arquiteturas, e dependendo da necessidade aplica-se uma. Segundo Oliveira (2002) as arquiteturas podem ser: • DOLAP – Desktop On Line Analytical Processing: o cliente realiza uma consulta SQL no servidor, que retorna um microcubo no qual são realizadas as análises na máquina cliente. A vantagem desta arquitetura é a redução no tráfego na rede e redução do processamento no servidor. A desvantagem é que o microcubo não pode ser muito grande causando demora na análise. • ROLAP – Relational On Line Analytical Processing: a consulta SQL é enviada ao servidor de banco de dados relacional, que a processa e mantém o cubo no servidor, ou seja, todo o processamento é realizado no servidor. A vantagem se encontra na análise de grandes volumes de dados e como desvantagem, muitos usuários acessando simultaneamente poderá provocar perda de desempenho. • MOLAP – Multidimensional On Line Analytical Processing: nesta arquitetura em um servidor multidimensional o usuário acessa, monta e manipula os dados diretamente no servidor. A vantagem fica por conta do desempenho, mas prejudicada pela escalabilidade e alto custo de aquisição. • HOLAP – Hybrid On Line Analytical: esta arquitetura é uma mescla entre ROLAP e MOLAP. Nesta mistura a vantagem fica com grande desempenho e escalabilidade. Nos dados do cubo pode-se realizar uma navegação quanto à granularidade dos dados de forma que podem ser de um nível mais alto até o nível mais baixo de detalhamento, também 3 Modelagem multidimensional segundo Wilson (2002) tem por objetivo apresentar os dados em uma arquitetura padrão e intuitiva, com alta desempenho. chamado de drill-down, ou vice-versa, também chamado de drill-up. Esta navegação/manipulação pode ser realizada através da reordenação dos campos dentro do ícone “Open LDAP Navigator” do Jpivot do Pentaho, conforme a Figura 4.3.1, com a retirada de um campo, mudança da métrica utilizada ou mudar a ordem dos campos no cubo. Figura 4.3.1. Manipulação do cubo com OLAP Navigator 4.4 Apresentação das informações Dentro da suite do Pentaho há a possibilidade de visualizar os dados no Jpivot4 de acordo com o layout do cubo e juntamente com gráfico que pode ser personalizado conforme a necessidade através de diversos atributos, conforme a Figura 4.4.1. Figura 4.4.1. Resultado dos dados manipulados e o gráfico gerado Através do data source criado também há a possibilidade de serem criados relatórios personalizados, com o wizard do Web Ad Hoc Query And Reporting Service (WAQR) de forma fácil e intuitiva utilizando seus templates pré-estabelecidos. 4 Camada de apresentação de gráficos e tabelas para as consultas OLAP. 4.5 Disseminação da informação As informações poderão ser acessadas através de uma interface web do próprio Pentaho, através da autenticação do usuário e liberação para acessar aos cubos de acordo com o perfil a qual pertence. Os cubos gerados podem ser compartilhados com determinados usuários com possibilidade de manipulá-los apenas ou podendo alterar a estrutura preparada na seção 5.3, bem como personalizar e salvar para acessos futuros. As informações recuperadas podem ser exportadas em diversos formatos como: HTML, Excel, CSV, PDF e RTF, facilitando outras manipulações ou envio para outros setores. 5. Resultados Conforme os dados apresentados anteriormente, tornam-se visível que da forma como foi modelado o Pentaho é possível adquirir e manipular muito mais dados do que os permitidos através do módulo de BI embarcado no sistema AGHU. Na manipulação inicial dos dados, também foi verificado que na fase de extração, não havia a necessidade de se fazer a agregação dos dados, mas apenas indicar as dimensões que se quer manipular, desta forma o próprio Jpivot faz a agregação dos dados de acordo com a métrica estabelecida. Em uma análise inicial pode ser verificado erros de inconsistência devido a alguns campos não terem sidos preenchidos, desta forma determinadas dimensões apresentou valores nulos, apesar de apresentarem valores nas métricas. Como as consultas foram realizadas sobre uma cópia replicada do banco de dados do sistema, também evidenciou que a manipulação de grande volumes de dados, há uma relativa demora na apresentação do resultado. Este fato pode justificar que o módulo de BI do AGHU ser apenas limitados a algumas informações sobre as consultas, mas que não abrange todas as necessidades do hospital, como por exemplo, saber a quantidade de pacientes atendidos por município. Foi apresentado o Pentaho para alguns setores do hospital, e ficou clara a necessidade de informações por parte dos setores. Alguns setores se entusiasmaram com a ferramenta e solicitou a inclusão de algumas informações nos cubos já gerados. 6. Conclusões Da forma como foram criados os cubos, ficou clara a facilidade em se apropriar e manipular os dados das mais diversas fontes de dados. O Pentaho permite uma grande flexibilidade na montagem do ambiente, de forma que os usuários não precisem de muitos conhecimentos para manipular os dados. Mas também na simplicidade na montagem ficaram as limitações nesta forma de implementação do Pentaho, como métricas de demandam muitos cálculos e a própria questão da comparação e simulações e projeções futuras. Nesta limitação encontrada, fica então como sugestão a utilização do Pentaho Data Integration, através de sua ferramenta chamada Kettle, onde segundo Kettle (2012) é uma poderosa ferramenta de ETL para a importação dos dados transacionais e a criação de modelos dimensionais que serão analisados pelo Mondrian. Segundo Mondrian (2012), essa é uma ferramenta OLAP que permite a análise de grandes volumes de dados em tempo real sendo uma solução para as limitações encontradas no projeto desenvolvido na manipulação das métricas. Outra ferramenta que merece ser citado para a melhoria do ambiente de BI e na qualidade dos dados através da criação de painéis ou dashboards. Os painéis podem ser utilizados para monitorar a atuação do hospital em tempo real na forma de mostradores e gráficos. Os painéis podem ser criados através do Community Dashborad Editor, segundo CDE (2012), é um editor gráfico que permite a criação de dashboard sem a necessidade de escrever nenhum código HTML ou Javascript. A tabela 6.1 apresenta as funções encontradas no Pentaho Business Analytics e outras ferramentas dedicadas que efetuam as mesmas funções, mas com melhor detalhamento e qualidade. Fazendo uma comparação com as funções necessárias para se desenvolver um ambiente de BI, o Pentaho Business Analytics possui todas as funções necessárias, onde com conhecimentos básicos já é possível criar um ambiente para a obtenção e análise de dados dos sistemas transacionais. Tabela 6.1 – Funções encontradas no Pentaho Business Analytics e outras ferramentas Função ETL OLAP Pentaho Business Analytics Data Source Jpivot Relatório Gráficos WAQR WAQR Outras Ferramentas Pentaho Data Integration - Kettle Pentaho Analysis Services Community Edition – Mondrian Pentaho Report Designer – PRD Community Dashborad Editor - CDE 7. Referências Bibliográficas AGHU – Aplicativo de Gestão para Hospitais Universitários. Disponível em: http://www.hcpa.ufrgs.br/content/view/4439/1505/. Acesso em 02/03/2012. Alves, Rêmulo Maia; Figueiredo, Cristhiane Xavier; Zambalde, André Luiz. Sistemas de Informação. Lavras/MG: UFLA/FAEPE, 2004. Alves, Rêmulo Maia; Pádua, Clarindo Isaías Pereira da Silva e; Zambalde, André Luiz. O documento científico em ciência da computação e sistemas de informação. Lavras/MG: DCC/UFLA, 2008. Barbieri, Carlos. BI2 – Business Inteligence: modelagem e qualidade. São Paulo/SP: Editora Elsevier, 2011. CDE – Community Dashboard Editor. Disponível em: http://www.webdetails.pt/. Acesso em 15/03/2012. Gonçalves, Marcio. Extração de Dados para Data Warehouse. Rio de Janeiro/RJ: Axcell Books, 2003. Kettle – Pentaho Data Integration. Disponível em: http://kettle.pentaho.com. Acesso em 15/03/2012. Mondrian – Pentaho Analysis Service Community Edition. Disponível em: http://mondrian.pentaho.com/. Acesso em 15/03/2012. Oliveira, W. J. Data Warehouse. Florianópolis/SC: Editora Visual Books, 2002. Pentaho – Pentaho Business Analytics. Disponível em: http://www.pentaho.com/explore/pentahobusiness-analytics/. Acesso em 05/03/2012. PostgreSQL. Disponível em: http://www.postgresql.org.br/sobre. Acesso em 05/03/2012.