Pentaho: Ferramenta de melhoria na qualidade das informações em

Propaganda
Pentaho: Ferramenta de melhoria na qualidade das informações em um hospital
universitário
Luiz Fernando Stopa Arcenio
Coordenação de Informática do Hospital Universitário – COIN/HU/UFGD
Universidade Federal da Grande Dourados
[email protected]
Resumo: Da necessidade de melhorar as informações adquiridas com a
implantação do sistema AGHU, através da utilização de uma ferramenta que
pudesse facilitar a pesquisa e manipulação dos dados, bem como na melhoria da
qualidade da informação gerada. O Pentaho vem desta forma permitir a
aquisição e manipulação destes dados, e através de sua interface web divulgar as
informações para todo o hospital. Foi criado um cubo para manipular os dados
das consultas ambulatoriais de tal forma a verificar os atendimentos realizados.
Como resultado pode ser visto que o Pentaho permite sua de utilização de
diversas formas tanto para o processo de ETL como para a manipulação e
divulgação das informações.
1. Introdução
O Hospital Universitário da UFGD foi incorporado pela Universidade Federal da Grande Dourados
em 2009, e em um processo de reestruturação tecnológica do software de gestão dos atendimentos
hospitalares e ambulatoriais, tornou-se um dos seis HU´s do projeto piloto do Aplicativo de Gestão
dos Hospitais Universitários – AGHU. Atualmente já foram implantados os módulos de registros de
pacientes, internação, prescrição médica, ambulatório e indicadores, mas percebeu-se a falta de
relatórios gerenciais para acompanhamento dos atendimentos realizados, pelo fato do projeto estar
em fase de desenvolvimento de outros módulos também importantes.
Nesta lacuna percebeu-se a necessidade de uma ferramenta de pudesse agregar esses valores
ao sistema utilizado, gerando consultas e cálculos apresentados na forma de relatórios e gráficos. A
ferramenta utilizada tratar dos dados foi o Pentaho, uma ferramenta de análise de dados,
monitoramento de indicadores e data mining.
No presente artigo servirá para demonstrar as vantagens e desvantagens do Pentaho dentro
de um ambiente hospitalar, para isso foram modelados apenas os dados dos registros de
atendimentos ambulatoriais, contendo o registro dos agendamentos, atendimentos e pacientes
faltosos para consultas especializadas.
Este artigo, segundo Alves et all (2008) é de natureza tecnológica, sob a luz de o referencial
teórico busca a sua aplicação teórica no cotidiano administrativo hospitalar, tratando o assunto de
uma forma simples, mas com resultados de impacto na forma de gestão do hospital, mas de caráter
exploratório, objetivando o fomento da utilização das ferramentas de BI nas mais diversas formas na
gestão dos hospitais universitários. O projeto foi desenvolvido de forma a estudar o sistema AGHU
e seu módulo de BI embutido, e desta forma verificar novas oportunidades de obtenção de
informações relevantes para a administração e assim implementar o Pentaho Business Analytics,
conseguindo aliar a melhoria tecnológica com a gestão administrativa.
As seções seguintes apresentam os dados utilizados e conseguidos na implementação do
Pentaho no Hospital Universitário da Universidade Federal da Grande Dourados, ficando
distribuído da seguinte forma. A seção 2 apresenta os conceitos de BI e Governança de Dados para
melhor qualidade das informações. A seção 3 apresenta o Pentaho Business Analytics como
ferramenta para Governança de Dados. A seção 4 apresenta a implementação do Pentaho no HU de
Dourados/MS. A seção 5 apresenta os resultados conseguidos e observações decorrentes do projeto
e por fim a seção 5 apresenta as conclusões e trabalhos futuros.
2. BI e Governança de Dados
A forma como os dados foram tratados na evolução de sua utilização pelas empresas e no aumento
de sua importância, então tempos a era da gerência dos dados com a utilização dos SGBD´s, depois
passamos para o período da gerência da informação com a utilização dos primeiros depósitos de
dados, também chamados de data warehouse onde visualizamos até hoje. Agora partindo para a
gerência do conhecimento com a utilização de variáveis e modelos taxonômicos definidos pela
especialidade das empresas, conforme Barbieri (2011).
Não basta apenas armazenar dados em DW, precisa-se de agregar ainda mais valores aos
dados armazenados e as informações atualmente adquiridas. Uma nova necessidade tem que ser
perseguida pelas empresas: a qualidade das informações. A qualidade das informações deve ser de
tal forma que não basta saber quantos foi vendido, mas porque determinado produto vende menos
em determinada unidade.
Neste processo a Governança de TI vem para contribuir no aumento da segurança, diminuir
os riscos, melhorar o desempenho, otimizar e reduzir custos; alinhando TI aos negócios da empresa
através do suporte á tomada de decisões. Conseguido através de práticas, padrões e relacionamentos
estruturados dentro de todos os níveis da estrutura da empresa.
Segundo Alves et all (2004), os sistemas de informação são partes irreversíveis das
modernas organizações de forma decisiva na agregação de vantagem competitiva, através da
transformação de dados em informação. Essa vantagem é alcançada através do planejamento
estratégico, buscando o alinhamento dos planos operacionais e objetivos dos negócios. Neste bojo
na busca da qualidade das informações temos a governança de dados, com foco na organização e
controle sobre os dados para a produção da informação e conhecimento, conforme Barbieri (2011).
Em Wilson (2002), discursa sobre um conjunto de aplicações que de forma estruturada,
produz informações através de dados que foram agrupados, armazenados, analisados e
disponibilizados a todos os níveis organizacionais; essa suite é chamada de Business Inteligence.
Essa arquitetura é formada de três componentes, sendo o primeiro que fará a extração, limpeza,
integração e carga no DW, o segundo é o próprio DW que armazenará os dados e o terceiro, tornará
acessível todas as informações aos usuários finais, permitindo a manipulação e visualização de
diversas formas.
A Pentaho, segundo Barbieri (2011), vem nesta proposta de suite para ferramenta de BI,
podendo ser utilizada em ambiente totalmente open source, desde o sistema operacional, servidor
web, SGBD, acessibilidade em dispositivos móveis, capacidade de alocação do banco de dados em
memória.
3. Pentaho Business Analytics como ferramenta de BI
Pentaho Business Analytics é uma solução completa que abrange o BI, integração de dados e
mineração de dados, conforme a Figura 3.1. Em Pentaho (2012), destacam como características da
suite:
1. Com simples apontar e clicar em uma interface web, o usuário pode acessar e manipular seus
dados na forma de relatórios e dashboard;
2. Relatórios interativos altamente formatados;
3. Permite o monitoramento de indicadores críticos através de dashbords, incluindo até geoprocessamento;
4. Ferramentas analíticas, com interface intuitiva para manipulação das múltiplas dimensões,
bem como a navegação entre os dados;
5. Permite a análise de dados através de dispositivos móveis
6. Ferramenta para extração, transformação e carga em uma interface gráfica intuitiva;
7. Mineração de dados através de algoritmos que buscam a correlação de eventos para
melhorar futuros resultados;
8. Recursos de TI que permitem desenvolver, implantar e gerenciar o acesso dos usuários à
aplicação;
9. Implantação flexível, podendo ser na rede local, computação nas nuvens e
embarcados/integrados em sistemas de informação.
Figura 3.1. Arquitetura do Pentaho Open Suite
A versão utilizada no projeto foi a instalação compactada no arquivo biserver-ce3.5.0.stable.tar.gz, compostos pelo Pentaho Administration Console e Pentaho User Console, de
forma que o primeiro foi utilizado para criar os usuários que acessarão os cubos1 e no segundo foi
utilizado os recursos de Data Source, Jpivot e WAQR. Foi dedicado para o projeto um servidor
virtualizado possuindo dois processadores E5620 de 2.4GHz com 4GB de memória RAM, sendo o
sistema operacional utilizado Linux Ubuntu, versão 10.04 LTS (Lucid Lynx).
4. Pentaho no Projeto AGHU
No processo de reestruturação do HU, fazendo parte como piloto da implantação do sistema, a
versão atualmente utilizada apresenta um módulo de BI para análise dos dados das internações e
consultas ambulatoriais. Como este módulo está em fase de desenvolvimento, e apresenta
limitações na disponibilidade dos dados, em relação a quantidade e flexibilidade de acessar os
dados. O AGHU – Aplicativo de Gestão para Hospitais Universitários, segundo AGHU (2012), vem
com a proposta de padronizar as práticas assistenciais e administrativas para uma melhoria no
processo de atendimento.
1
Também chamado de dicing, demonstra os dados na forma de três eixos, podendo ser os procedimentos
ambulatoriais por município em determinado período, podendo ser anual, mensal ou diário.
Surge então a necessidade de melhorar os relatórios gerencias para a administração do HU.
O AGHU utiliza como SGBD o PostgreSQL2, na versão 8.1.4. E para montagem do ambiente do
Pentaho, optou-se por utilizar uma duplicação do banco de dados para outro servidor, ficando desta
forma, separado o aplicativo do ambiente de BI. Desta forma o Pentaho fará as consultas nesta cópia
e a exibição dos dados através da interface web nativo da suite.
Em Oliveria (2002), ressalta que para realizar as consultas consiste em cinco fases, conforme
apresentado nas próximas seções.
4.1
Definição das consultas
As consultas devem refletir as necessidades de informações do HU, sendo neste projeto a análise
será realizada sobre os dados das consultas ambulatoriais. Através das consultas por ano, mês e dia,
contendo as especialidades, tipo de consulta, tipo de grade de consulta, atendimentos e faltantes e
por município. A Figura 4.1.1 apresenta as dimensões das consultas ambulatoriais.
aip_cidades
aip_logradouros
codigo NUMERIC <pk>
nome
VARCHAR
uf_sigla VARCHAR
.
NUMERIC <pk>
codigo
cdd_codigo NUMERIC <fk>
.
.
aip_enderecos_pacientes
aip_pacientes
aac_consultas
codigo NUMERIC <pk>
.
agh_especialidades
NUMERIC <pk>
seq
nome_especialidade VARCHAR
.
aac_grade_agendamen_consultas
.
seq
NUMERIC <pk>
pre_esp_seq
NUMERIC <fk1>
pre_ser_matricula NUMERIC <fk2>
codigo
pac_codigo
grd_seq
dt_consultas
ret_seq
ind_sit_consulta
fag_caa_seq
dthr_inicio
fag_tag_seq
numero
cod_central
NUMERIC <pk>
NUMERIC <fk1>
NUMERIC <fk2>
DATE
NUMERIC
CHAR
NUMERIC
DATE
NUMERIC
NUMERIC
NUMERIC
.
.
pac_codigo
NUMERIC <fk1>
bcl_clo_lgr_codigo NUMERIC <fk2>
cdd_codigo
NUMERIC <fk3>
rap_pessoas_fisicas
codigo NUMERIC <pk>
nome VARCHAR
.
rap_servidores
matricula
NUMERIC <pk>
pes_codigo NUMERIC <fk>
Figura 4.1.1. Tabela de fatos e dimensões da modelagem das consultas ambulatoriais
4.2
Acesso e recuperação de dados
Definido as informações necessárias pela administração, chega a fase de adquirir os dados do banco
de dados do AGHU. Em Wilson (2002), este processo é realizado em três fases: extração,
transformação e carga. Na primeira fase fica a definição da fonte de dados, neste caso a fonte serão
apenas os dados nas tabelas que possuem dados das consultas ambulatoriais realizadas. Para a
segunda fase fica a definição do formato dos dados extraídos anteriormente como: padronização dos
tipos de dados, reformatação das datas, agrupamento de campos para formar novo dado, etc. Já na
última fase, é a carga dos dados, no caso do projeto, fica a criação do cubo através da criação de um
Data Source dentro do Pentaho.
2
Segundo PostgreSQL (2012), é um sistema gerenciador de banco de dados (SGBD) objeto-relacional de código
aberto e roda em todos os grande sistemas operacionais.
Figura 4.2.1. Data Source do cubo das consultas ambulatoriais
Na fase de carga, o data source na Figura 4.2.1, possuirá os dados definidos na fase de
definição das consultas, de uma forma que uma vez executado o SQL de recuperação dos dados, os
dados serão apresentados de forma denormalizada, bem como a forma de agregação da métrica
definida, conforme Barbieri (2011). Esta estrutura dos dados na modelagem multidimensional3 é
chamado de Star Scheme ou esquema estrela e apresenta melhor ganho de desempenho nas
consultas ao cubo, pela redução das consultas para agrupar as tabelas, uma vez que o agrupamento
foi realizado na etapa anterior.
4.3
Cálculo, manipulação e análise
Nesta fase temos a figura do cubo OLAP, segundo Barbieri (2011), ele permite a manipulação dos
dados de forma dimensional, permitindo à rotação de planos ou pivotamento do eixo das dimensões,
mudando desta forma a visualização dos dados. O cubo permite que através ferramentas OLAP –
On-line Analytical Processing possam ser feitas análises multidimensionais dos dados.
As ferramentas OLAP podem possuir diversas arquiteturas, e dependendo da necessidade
aplica-se uma. Segundo Oliveira (2002) as arquiteturas podem ser:
• DOLAP – Desktop On Line Analytical Processing: o cliente realiza uma consulta SQL no
servidor, que retorna um microcubo no qual são realizadas as análises na máquina cliente. A
vantagem desta arquitetura é a redução no tráfego na rede e redução do processamento no
servidor. A desvantagem é que o microcubo não pode ser muito grande causando demora na
análise.
• ROLAP – Relational On Line Analytical Processing: a consulta SQL é enviada ao servidor
de banco de dados relacional, que a processa e mantém o cubo no servidor, ou seja, todo o
processamento é realizado no servidor. A vantagem se encontra na análise de grandes
volumes de dados e como desvantagem, muitos usuários acessando simultaneamente poderá
provocar perda de desempenho.
• MOLAP – Multidimensional On Line Analytical Processing: nesta arquitetura em um
servidor multidimensional o usuário acessa, monta e manipula os dados diretamente no
servidor. A vantagem fica por conta do desempenho, mas prejudicada pela escalabilidade e
alto custo de aquisição.
• HOLAP – Hybrid On Line Analytical: esta arquitetura é uma mescla entre ROLAP e
MOLAP. Nesta mistura a vantagem fica com grande desempenho e escalabilidade.
Nos dados do cubo pode-se realizar uma navegação quanto à granularidade dos dados de
forma que podem ser de um nível mais alto até o nível mais baixo de detalhamento, também
3
Modelagem multidimensional segundo Wilson (2002) tem por objetivo apresentar os dados em uma arquitetura
padrão e intuitiva, com alta desempenho.
chamado de drill-down, ou vice-versa, também chamado de drill-up. Esta navegação/manipulação
pode ser realizada através da reordenação dos campos dentro do ícone “Open LDAP Navigator” do
Jpivot do Pentaho, conforme a Figura 4.3.1, com a retirada de um campo, mudança da métrica
utilizada ou mudar a ordem dos campos no cubo.
Figura 4.3.1. Manipulação do cubo com OLAP Navigator
4.4
Apresentação das informações
Dentro da suite do Pentaho há a possibilidade de visualizar os dados no Jpivot4 de acordo com o
layout do cubo e juntamente com gráfico que pode ser personalizado conforme a necessidade
através de diversos atributos, conforme a Figura 4.4.1.
Figura 4.4.1. Resultado dos dados manipulados e o gráfico gerado
Através do data source criado também há a possibilidade de serem criados relatórios
personalizados, com o wizard do Web Ad Hoc Query And Reporting Service (WAQR) de forma fácil
e intuitiva utilizando seus templates pré-estabelecidos.
4
Camada de apresentação de gráficos e tabelas para as consultas OLAP.
4.5
Disseminação da informação
As informações poderão ser acessadas através de uma interface web do próprio Pentaho, através da
autenticação do usuário e liberação para acessar aos cubos de acordo com o perfil a qual pertence.
Os cubos gerados podem ser compartilhados com determinados usuários com possibilidade de
manipulá-los apenas ou podendo alterar a estrutura preparada na seção 5.3, bem como personalizar
e salvar para acessos futuros. As informações recuperadas podem ser exportadas em diversos
formatos como: HTML, Excel, CSV, PDF e RTF, facilitando outras manipulações ou envio para
outros setores.
5. Resultados
Conforme os dados apresentados anteriormente, tornam-se visível que da forma como foi modelado
o Pentaho é possível adquirir e manipular muito mais dados do que os permitidos através do
módulo de BI embarcado no sistema AGHU. Na manipulação inicial dos dados, também foi
verificado que na fase de extração, não havia a necessidade de se fazer a agregação dos dados, mas
apenas indicar as dimensões que se quer manipular, desta forma o próprio Jpivot faz a agregação
dos dados de acordo com a métrica estabelecida.
Em uma análise inicial pode ser verificado erros de inconsistência devido a alguns campos
não terem sidos preenchidos, desta forma determinadas dimensões apresentou valores nulos, apesar
de apresentarem valores nas métricas. Como as consultas foram realizadas sobre uma cópia
replicada do banco de dados do sistema, também evidenciou que a manipulação de grande volumes
de dados, há uma relativa demora na apresentação do resultado. Este fato pode justificar que o
módulo de BI do AGHU ser apenas limitados a algumas informações sobre as consultas, mas que
não abrange todas as necessidades do hospital, como por exemplo, saber a quantidade de pacientes
atendidos por município.
Foi apresentado o Pentaho para alguns setores do hospital, e ficou clara a necessidade de
informações por parte dos setores. Alguns setores se entusiasmaram com a ferramenta e solicitou a
inclusão de algumas informações nos cubos já gerados.
6. Conclusões
Da forma como foram criados os cubos, ficou clara a facilidade em se apropriar e manipular os
dados das mais diversas fontes de dados. O Pentaho permite uma grande flexibilidade na montagem
do ambiente, de forma que os usuários não precisem de muitos conhecimentos para manipular os
dados. Mas também na simplicidade na montagem ficaram as limitações nesta forma de
implementação do Pentaho, como métricas de demandam muitos cálculos e a própria questão da
comparação e simulações e projeções futuras.
Nesta limitação encontrada, fica então como sugestão a utilização do Pentaho Data
Integration, através de sua ferramenta chamada Kettle, onde segundo Kettle (2012) é uma poderosa
ferramenta de ETL para a importação dos dados transacionais e a criação de modelos dimensionais
que serão analisados pelo Mondrian. Segundo Mondrian (2012), essa é uma ferramenta OLAP que
permite a análise de grandes volumes de dados em tempo real sendo uma solução para as limitações
encontradas no projeto desenvolvido na manipulação das métricas.
Outra ferramenta que merece ser citado para a melhoria do ambiente de BI e na qualidade
dos dados através da criação de painéis ou dashboards. Os painéis podem ser utilizados para
monitorar a atuação do hospital em tempo real na forma de mostradores e gráficos. Os painéis
podem ser criados através do Community Dashborad Editor, segundo CDE (2012), é um editor
gráfico que permite a criação de dashboard sem a necessidade de escrever nenhum código HTML
ou Javascript.
A tabela 6.1 apresenta as funções encontradas no Pentaho Business Analytics e outras
ferramentas dedicadas que efetuam as mesmas funções, mas com melhor detalhamento e qualidade.
Fazendo uma comparação com as funções necessárias para se desenvolver um ambiente de BI, o
Pentaho Business Analytics possui todas as funções necessárias, onde com conhecimentos básicos
já é possível criar um ambiente para a obtenção e análise de dados dos sistemas transacionais.
Tabela 6.1 – Funções encontradas no Pentaho Business Analytics e outras ferramentas
Função
ETL
OLAP
Pentaho Business Analytics
Data Source
Jpivot
Relatório
Gráficos
WAQR
WAQR
Outras Ferramentas
Pentaho Data Integration - Kettle
Pentaho Analysis Services Community Edition –
Mondrian
Pentaho Report Designer – PRD
Community Dashborad Editor - CDE
7. Referências Bibliográficas
AGHU – Aplicativo de Gestão para Hospitais Universitários. Disponível em:
http://www.hcpa.ufrgs.br/content/view/4439/1505/. Acesso em 02/03/2012.
Alves, Rêmulo Maia; Figueiredo, Cristhiane Xavier; Zambalde, André Luiz. Sistemas de
Informação. Lavras/MG: UFLA/FAEPE, 2004.
Alves, Rêmulo Maia; Pádua, Clarindo Isaías Pereira da Silva e; Zambalde, André Luiz. O
documento científico em ciência da computação e sistemas de informação. Lavras/MG:
DCC/UFLA, 2008.
Barbieri, Carlos. BI2 – Business Inteligence: modelagem e qualidade. São Paulo/SP: Editora
Elsevier, 2011.
CDE – Community Dashboard Editor. Disponível em: http://www.webdetails.pt/. Acesso em
15/03/2012.
Gonçalves, Marcio. Extração de Dados para Data Warehouse. Rio de Janeiro/RJ: Axcell Books,
2003.
Kettle – Pentaho Data Integration. Disponível em: http://kettle.pentaho.com. Acesso em
15/03/2012.
Mondrian
–
Pentaho
Analysis
Service
Community Edition.
Disponível
em:
http://mondrian.pentaho.com/. Acesso em 15/03/2012.
Oliveira, W. J. Data Warehouse. Florianópolis/SC: Editora Visual Books, 2002.
Pentaho – Pentaho Business Analytics. Disponível em: http://www.pentaho.com/explore/pentahobusiness-analytics/. Acesso em 05/03/2012.
PostgreSQL. Disponível em: http://www.postgresql.org.br/sobre. Acesso em 05/03/2012.
Download