Open Source Business Intelligence com Java e Pentaho BI Suite

Propaganda
pentaho_
Open Source
Business
Intelligence com
Conheça o ambiente de BI livre mais
utilizado no Brasil e saiba como essa
poderosa ferramenta foi construída sobre
a plataforma Java
Givanildo Santana do Nascimento | [email protected]
é graduado em Sistemas de Informação, especialista em Melhoria de Processos de Software e mestre em Ciência da Computação.
Possui as certificações Certified Function Point Specialist, Sun Certified Java 2 Platform Programmer e Sun Certified Web Component
Developer for J2EE Platform. Trabalha como analista de Sistemas na Petrobras, desenvolvendo soluções de TIC para Exploração e
Produção de Petróleo. É sócio-diretor da empresa MPS Soluções em Tecnologia da Informação, na qual atua como consultor em TI
e conduz um projeto de Bussiness Intelligence para o Poder Judiciário brasileiro. É membro da equipe técnica da Revista MundoJ,
escrevendo e revisando artigos e cobrindo eventos de tecnologia no Brasil e no exterior.
O
termo Business Intelligence (BI) define um conjunto de conceitos e métodos para melhorar a
tomada de decisão por meio de sistemas baseados
em dados e informações. Trata-se de um termo amplo que combina arquitetura, ferramentas, bancos
de dados, aplicações, processos e metodologias, no
contexto dos sistemas de suporte à decisão. O BI
Aplicativos
operacionais
Software de
automação de
escritórios
representa a habilidade de se estruturar, integrar e
explorar informações normalmente guardadas em
estruturas de Data Warehouse (DW) e Data Marts
(DM), com o objetivo de desenvolver percepções, entendimentos e conhecimentos capazes de conduzir
organizações a um melhor processo de tomada de
decisão (BARBIERI, 2011).
Data Mart
E
T
L
OLAP
Dados externos
Data Mining
Equipamentos de
automação
FONTES DE DADOS
EXTRAÇÃO, TRANSFORMAÇÃO E CARREGAMENTO
Figura 1. Componentes de um ambiente BI. Fonte: Cazella (2011).
/ 20
DATA WAREHOUSE
EXPLORAÇÃO
Java
e Pentaho BI Suite
Community Edition
A maioria das ferramentas e aplicações de Business Intelligence são
tidas como custosas e complexas. De fato, integrar um grande volume de dados e deles extrair informações que suportem a tomada de
decisões não é uma tarefa simples. Porém muitos projetos de BI não
dispõem de orçamentos capazes de patrocinar a aquisição de ferramentas comerciais com custos expressos em quatro ou mais dígitos,
em dólares. Esses custos elevados impediriam o início de muitos projetos executados por empresas de pequeno e médio porte. Por outro
lado, os recursos de integração de dados e análise de informações
oferecidos pelas ferramentas comerciais são muito importantes no
desenvolvimento de aplicações de BI profissionais. A solução desse
problema técnico-econômico pode ser encontrada nas ferramentas
livres de BI. Este artigo apresenta o Pentaho BI Suite Community
Edition, a ferramenta de BI livre mais utilizada no Brasil, desenvolvida sobre a plataforma Java.
O ambiente de BI, ilustrado na figura 1, é composto pelas fontes de dados operacionais, pelos processos de Extração, Transformação e Carregamento
(ETL), pelo DW, DM e pelos métodos de exploração.
Os dados operacionais são carregados nas bases DW
e DM por processos ETL. Durante a carga, os processos ETL também realizam operações de limpeza,
preenchimento e correção nos dados. Após serem
carregados no DW, os dados preenchem os DM modelados de forma dimensional, orientados a assuntos ou processos de negócio. O DW e os DM são então explorados pelo usuário utilizando ferramentas
de processamento analítico OLAP e técnicas de mineração de dados (CAZELLA, 2011).
O número de projetos de BI cresceu rapidamente
em todo o mundo, de acordo com os relatórios anuais
do Gartner Group. A tabela 1 mostra que o BI integra
a lista das dez maiores prioridades em Tecnologia da
Informação (TI) desde 2005 e esteve no topo dessa
lista por quatro anos consecutivos, de 2006 a 2009.
De uma forma mais ampla, as empresas priorizaram
a melhoria dos processos de negócios, entendendo
que as informações e o conhecimento fornecidos pelas aplicações de BI são elementos essenciais para
o aumento da eficiência e da efetividade, suporte à
competitividade e à inovação. Assim, investimentos em aplicações de BI focadas em mineração de
dados aumentaram 4,8% de 2005 para 2006 e 11,2%
de 2007 para 2008 (GARTNER GROUP, 2005a, 2005b,
2006, 2007, 2008, 2009, 2010, 2011).
21 \
NEW ANALYSIS VIEW
NEW REPORT
MANAGE CONTENT
NEW DATA SOURCE
Figura 2. Componentes do Pentaho integrados. Fonte: http://community.pentaho.com/.
Tabela 1. Prioridade das aplicações de BI de 2005 a 2011. aplicação desenvolvida não atenderia aos recursos de
ANO
PRIORIDADE MELHORAR
PROCESSOS DE
NEGÓCIO
PRIORIDADE
BI
2005
1ª
2ª
2006
1ª
1ª
2007
1ª
1ª
2008
1ª
1ª
2009
1ª
1ª
2010
1ª
5ª
5ª
5ª
2011
Fonte: Gartner Group (2005b, 2006, 2007, 2008, 2009, 2010, 2011).
Contudo, o agravamento da crise financeira internacional provocou cortes significativos nos orçamentos de TI a partir de 2009. Isto fez com que o
BI deixasse de ocupar o primeiro lugar na lista das
maiores prioridades em TI e, em 2010 e 2011, caísse
para a quinta posição. Em seu lugar, foram priorizadas tecnologias de maior produtividade, menor risco
e retorno de investimento mais rápido (GARTNER
GROUP, 2005a, 2005b, 2006, 2007, 2008, 2009, 2010,
2011).
Nesse contexto, as ferramentas Open Source Business Intelligence (OSBI) desempenham um papel
essencial para a viabilização de muitos projetos de
BI que não dispõem de dezenas ou centenas de milhares de dólares para investirem em ferramentas
comerciais já em seu início. Os recursos poupados
podem ser investimentos em hardware, treinamento
e serviços de desenvolvimento. Porém não é possível abrir mão da qualidade, da funcionalidade, da riqueza de recursos e da produtividade conferida pelas
ferramentas tradicionais de BI. Sem esses atributos, a
/ 22
informação e usabilidade do cliente.
O Pentaho é uma plataforma de BI livre desenvolvida em Java e mantida pela empresa Pentaho
Corporation, com o apoio de uma comunidade crescente de desenvolvedores no Brasil e em todo o mundo. Os componentes do Pentaho contemplam ferramentas de integração de dados (ETL) e metadados,
relatórios, dashboards, análises OLAP, gestão de conteúdo e mineração de dados. A figura 2 mostra como
esses componentes são combinados em um ambiente
orientado à analise de dados e informações. Ao integrar esses componentes, a plataforma Pentaho possibilita o desenvolvimento de soluções complexas para
problemas de negócios que demandam o processamento de grandes volumes de dados.
O Pentaho é distribuído em três edições diferentes: Community Professional e Enterprise. A edição
Community, está disponível gratuitamente no site
http://community.pentaho.com/. As edições Professional e Enterprise possuem recursos adicionais e
planos de suporte prestados pela Pentaho Corporation e seus parceiros, mas são licenciadas mediante
subscrição anual. Os recursos adicionais das edições
pagas incluem suporte a Mobile e ferramentas avançadas de integração de dados e relatórios.
Este artigo tem o objetivo de apresentar uma visão geral do ambiente Pentaho BI Suite Community
Edition, descrevendo os seus principais componentes. Antes de descrever o ambiente Pentaho serão
apresentadas as técnicas fundamentais de Data Warehousing, as diferenças entre aplicações transacionais e analíticas e os fundamentos da mineração de
dados. O entendimento dessas técnicas é essencial
para o aprendizado pleno do Pentaho BI Suíte.
OPERACIONAL
DATA WAREHOUSE
ACESSAR
INCLUIR
EXCLUIR
EXCLUIR
CARREGAR
INCLUIR
ACESSAR
ALTERAR
Carregamento e acesso a
grandes quantidades de dados
Tratamento de dados registro
por registro
Figura 4. Operações sobre os dados no OLTP e no OLAP. Fonte: Cazella (2011).
Data Warehousing
Os Sistemas de Online Transaction Processing
(OLTP) suportam a execução dos processos de negócio, coletam e armazenam os dados em bancos de dados estruturados, na maior parte dos casos, de acordo
com a modelagem relacional normalizada. Estruturas
de dados relacionais normalizadas são eficientes para
a atualização e o armazenamento de dados, entre
outros motivos, por minimizarem redundâncias. No
entanto, na medida em que o volume de dados armazenados aumenta, a eficiência para a realização de
processamento analítico diminui, pois é necessário
obter as informações desejadas em múltiplas tabelas, frequentemente localizadas em bancos de dados
distintos. As alternativas existentes para se melhorar
o desempenho da execução de consultas em bases
OLTP, como criação de índices e desnormalização de
banco de dados, terminam por prejudicar o desempenho da atualização de dados (NASCIMENTO, 2012).
Já os Sistemas OLAP normalmente acessam dados
em estruturas informacionais como o DW, tendo como
principais propriedades:
1. orientação a assuntos ou processos de negócio;
2. integração;
3. não volatilidade;
4. variação no tempo e
5. suporte à decisão.
A integração de dados é considerada a característica mais importante do DW. Esta característica
garante a unicidade na representação dos dados que
passam do ambiente operacional para o DW. Os dados que populam o DW são originários de diversos
sistemas operacionais, documentos semi-estruturados e fontes de dados externas. Cada um desses ambientes apresenta características específicas, como,
por exemplo, tipos e domínios de dados, unidades de
medidas e convenções internas. Um exemplo clássico
é a notação para o gênero (masculino ou feminino);
nos sistemas operacionais, o gênero pode ser representado por valores como “M” ou “F”, “m” ou “f”, “1”
ou “2”. No DW esses valores precisam ser integrados
em domínio único, por isso durante o processo de integração eles são convertidos para um estado uniforme, como ilustra a figura 3.
AMBIENTE OPERACIONAL
DATA WAREHOUSE
Aplicação A–M,F
Aplicação B–H,M
Aplicação C–0,1
M,F
Figura 3. Integração de dados de gênero no DW.
Em geral, a passagem de dados das bases operacionais para o DW não é tão simples quanto uma
mera extração e carga de registros. Muitas vezes é
necessário realizar transformações, conversões, integração e consolidação de dados. Os processos ETL são
responsáveis pela realização dessas tarefas.
As operações realizadas nos bancos de dados
operacionais incluem inserção, atualização, exclusão
e consulta, geralmente de um registro por vez. Já no
DW, são realizadas operações de carga e acesso aos
dados em grandes lotes, como mostra a figura 4.
A granularidade é o nível de detalhamento dos
dados no DW. Quanto maior for o nível de detalhes
que se deseja armazenar, menor será a granularidade.
O nível de granularidade afeta diretamente o volume
de dados armazenados e o tipo de informações que
poderão ser obtidas nas consultas. Quando se tem um
nível de granularidade muito alto, há uma economia
de espaço de armazenamento, mas também há uma
limitação quanto à utilização dos dados para atender
a consultas mais detalhadas. Quando se tem um nível
de granularidade muito baixo, há uma maior disponibilidade de dados para as operações de consulta, em
23 \
Data Mart
Data Mart
COMPRAS
VENDAS
Data Mart
ESTOQUE
DATA WAREHOUSE
Figura 5. Relação entre os Data Marts e o Data Warehouse corporativo.
Um exemplo de modelo dimensional do DM Vendas é apresentado na figura 7. A tabela-fato representa as vendas de produtos. As dimensões representam
o cliente que comprou os produtos (Quem), os produtos vendidos (O Quê), a data da venda (Quando) e o
armazém é o local onde os produtos foram vendidos
(Onde). As medidas são o valor e a quantidade de unidades vendidas.
A modelagem dimensional se contrapõe à modelagem normalizada, pois utiliza a redundância dos
dados como forma de facilitar e acelerar a recuperação de informações.
Mineração de dados
A Descoberta de Conhecimento em Bases de Dadetrimento de uma maior necessidade de espaço de dos (DCBD) é o processo de busca e extração de coarmazenamento e recursos computacionais para pro- nhecimento em bases de dados. Fayyad et al. (1996)
cessamento.
definiram DCBD como o processo não trivial de identificação de padrões válidos e potencialmente úteis,
Data Marts
perceptíveis a partir dos dados. Nesta concepção, a
Na visão de Kimball e Ross (2002) um Data Mart DCBD refere-se a todo processo de extração de coconstitui-se em um subconjunto lógico de um DW nhecimento útil oculto em bancos de dados. O cocorporativo. Um DM também pode ser considerado nhecimento a ser descoberto deve satisfazer a três
um repositório de dados relacionados a um proces- propriedades: deve ser correto (tan­to quanto possíso de negócio ou a um elemento da cadeia de valor vel); compreensível por usuários humanos e também
organizacional, geralmente modelado de forma di- deve ser interessante, útil ou novo. Além disso, o mémensional (BOUMAN e DONGEN, 2009). A figura 5 todo de descoberta do conhecimento deve apresenilustra três Data Marts relacionados aos processos de tar três características: deve ser eficiente (acura­do),
Vendas, Compras e Estoque, extraídos de um DW cor- genérico (aplicável a vários tipos de dados) e flexível
porativo central.
(facilmente modificável).
A modelagem dimensional é uma forma de moJá a Mineração de Dados (MD) é a busca por redelagem de dados em termos de fatos, dimensões e lacionamentos e padrões distintos que existem, mas
medidas, visando oferecer maior suporte à análise. A que estão ocultos em grandes volumes de dados. Até
figura 6 apresenta o esquema de um modelo dimen- 1995, muitos autores conside­ravam os termos DCBD e
sional composto por um fato e quatro dimensões. Os MD como sinônimos, mas a DCBD é mais abrangente
fatos representam eventos ou transações do negócio, do que a MD. A MD é o processo de pesquisa em grancomo pedidos, compras, vendas, entre outros exem- des volumes de dados para extração de conhecimenplos. Dimensões são entidades envolvidas nos fatos, to utilizando técnicas de Estatística, Probabilidade e
descrevendo: o quê, quem, onde e quando um fato Inteligência Computacional, para procurar relações
aconteceu. Uma medida é um atributo ou variável de similaridade ou discordância entre dados, com o
numérica acerca de um fato que expressa grandezas objetivo de encontrar padrões, irregularidades e recomo quantidade, valor e custo (KIMBALL e ROSS, gras. Seu intuito é transformar dados aparentemente
2002).
desprovidos de conexão em informações relevantes
para a tomada de decisão e avaliação de resultados.
O QUÊ
A principal motivação para a utilização de MD é
a grande disponibilidade de dados armazenados eletronicamente, com informações úteis, porém ocultas,
podendo auxiliar na previsão de um conhecimento
QUEM
ONDE
FATO
futuro. Em outras palavras, a MD é utilizada para se
descobrir informações sem uma prévia formulação de
hipóteses e buscar por algo não intuitivo, tornando
dados inexpressivos em conhecimento valioso e estratégico.
QUANDO
Existem diversos métodos de MD para encontrar
respostas ou extrair conhecimento em repositórios
Figura 6. Esquema estrela com um fato e suas dimensões.
de dados, sendo os mais importantes para a DCBD:
/ 24
Dimensão tempo
Id_tempo (PK)
dara_SQL
dia_da_semana
numero_semana
mes
etc.
»»
»»
»»
»»
Tabela fato
Id_tempo (PK)
Id_produto (FK)
Id_armazem(FK)
Id_cliente (FK)
venda_dolar
unidades_vendidas
custo_dolar
Dimensão cliente
Id_cliente (PK)
nome_cliente
perfil_cliente
endereço
etc.
Descreve as características da dimensão
Chave primária simples
Atributos textuais e discretos
Fontes de restrições às consultas
»»
»»
»»
»»
Grande quantidade de dados
Chave primária composta pelas FKs
Atributos numéricos e valores
Contém as medições do negócio
Dimensão produto
Id_produto (PK)
codigo
descricao
marca
categoria
etc.
Dimensão armazém
Id_armazem (PK)
nome_armazem
endereço
distrito
etc.
Figura 7. Modelo dimensional do DM Vendas. Fonte: Cazella (2011).
Classificação, Modelos de Relacionamento entre Variáveis, Análise de Agrupamento, Sumarização, Modelo de Dependência, Regras de Associação e Análise
de Séries Temporais (FAYYAD et al., 1996).
As técnicas de Mineração de Dados desempenham as tarefas de classificação ou agrupamento dos
dados e de descoberta de regras de associação entre
os dados. Entre os métodos de Mineração de Dados
capazes de fazer o re­conhecimento de padrões destacam-se as árvores de decisão, as máquinas de vetores
de suporte, os métodos estatísticos, as redes neurais,
os algoritmos genéticos e as meta-heurísticas de uma
forma geral. Estas técnicas vêm sendo amplamente
exploradas na literatura e são atualmente suportadas
por ferramentas que disponibilizam os diversos algoritmos já implementados, testados e otimizados, para
uso em uma série de aplicações.
Tanto o BI quanto a DCBD têm como finalidade
transformar dados em informações e conhecimento,
visando dar suporte à tomada de decisão. Para isso,
utilizam-se de técnicas como DW e DM para preparação dos dados, para permitir que o usuário explore os
dados por meio de ferramentas de análise e realizam
MD para reconhecer padrões e regras por meio da Inteligência Computacional. A disponibilidade de um
DW ajuda no processo de DCBD porque: (1) os dados
são submetidos a limpeza antes de serem carregados
no DW e (2) o acesso aos dados no DW é muito mais
eficiente devido à forma como eles são estruturados.
Desta forma, uma tabela-fato de um DM dimensional
tem condições favoráveis à DCBD, pois armazena dados limpos, íntegros e de acesso facilitado. A tabela-fato representa uma matriz multidimensional na
qual todas as variáveis que serão submetidas à MD
encontram-se presentes.
Pentaho BI Suite Community Edition
O ambiente Pentaho BI Suite integra as principais ferramentas, tecnologias e disciplinas do BI. O
alicerce de toda a suíte é a Plataforma Java Standard
Edition. Desta forma, o Pentaho roda sobre a máquina virtual Java, portanto se beneficia de todas as
vantagens conferidas pelo Java, como portabilidade
(write once, run anywhere), extensibilidade e robustez. É possível integrar o Pentaho a outras aplicações
Java, executando processos ETL, acionando relatórios
e dashboards diretamente a partir de outras aplicações. Por exemplo, a Listagem 1 apresenta o código
Java para execução de uma transformação de dados
desenvolvida no Pentaho Data Integration.
Listagem 1. Código Java para execução de uma transformação de dados desenvolvida no Pentaho Data
Integration.
public static void runTransformation(String filename) {
try {
StepLoader.init();
EnvUtil.environmentInit();
TransMeta transMeta = new TransMeta(filename);
Trans trans = new Trans(transMeta);
}
trans.execute(null); // É possível passar parâmetros
// para a transformação ao invés de null.
trans.waitUntilFinished();
if ( trans.getErrors() > 0 ) {
throw new RuntimeException( “Ocorreram erros
na execução da transformação.” );
}
} catch ( KettleException e ) {
// TODO Tratar exceção.
System.out.println(e);
}
25 \
Figura 8. Componentes do ambiente em uma visão de camadas.
A figura 8 apresenta os componentes do ambiente
em uma visão de camadas. A camada de integração
de dados e aplicações oferece ferramentas ETL, gestão de metadados e de integração entre aplicações.
A camada de Business Intelligence Plataform oferece
os recursos de segurança, administração, lógica de
negócios e gestão de repositórios. Sobre essa camada
rodam os serviços de relatórios construídos em tempo de projeto, relatórios e análises ad-hoc criadas
pelo próprio usuário de acordo com as suas necessidades de informação, análises (OLAP), mineração de
dados, dashboards e gestão de processos. Esses serviços são expostos ao usuário final por uma camada
de apresentação que suporta os navegadores Web,
portais, suítes de escritórios, Web services e e-mail.
Portanto o ambiente Pentaho compreende todos os
principais recursos esperados de um ambiente de BI
profissional.
O primeiro passo para a utilização do Pentaho é
baixar os seus componentes a partir do site http://
community.pentaho.com/. Como acontece com muitas ferramentas gratuitas, o caminho entre o download da ferramenta e o seu funcionamento pleno requer
leituras de sites e fóruns especializados como o Planeta Pentaho (ver referências). Este artigo não tem a
proposta de ser um tutorial detalhado sobre a configuração do Pentaho, mas uma referência de alto nível
sobre os seus componentes.
A suíte Pentaho surgiu a partir da integração de
diversos projetos open-source em um ambiente ra/ 26
zoavelmente integrado. O Pentaho Reporting foi desenvolvido
a partir do JfreeReport; o Pentaho Analysis engine a partir
do Mondrian; o Pentaho Analysis client teve o projeto jPivot
como ponto de partida; Pentaho
Data Integration é o nome dado
à incorporação do Kettle à suíte
Pentaho; o Weka deu origem ao
Pentaho Data Mining; entre outros exemplos. Por isso, a política de licenciamento do Pentaho
é complexa e confusa, composta
por uma miríade de licenças,
sendo umas pouco permissivas
e outras mais liberais. Entre as
principais licenças da suíte pode-se destacar:
»» Eclipse Public License Version 1.0 (EPLv1)
»» Mozilla Public License 1.1
(MPLv1.1)
»» GNU General Public License Version 2 (GPLv2)
»» GNU Lesser General Public License Version 2.1
(LGPLv2.1)
»» Eclipse Public License Version 1.0 (EPLv1)
»» Apache License, Version 2.0
»» GNU General Public License Version 3 (GPLv3)
De forma geral, a política de licenciamento permite a utilização do Pentaho Community Edition
para o desenvolvimento e execução de aplicações da
mesma forma como se desenvolvem aplicações utilizando Eclipse, Tomcat, Hibernate e JFreeReport. Porém se qualquer alteração for feita nos componentes
da suíte, a aplicação desenvolvida passa a estar sujeita às mesmas regras de licenciamento do componente original, muitas vezes levando à necessidade de
abertura do código-fonte. Mais informações sobre as
licenças podem ser encontradas nos links disponíveis
nas referências deste artigo.
Pentaho BI Platform and Server
O Pentaho BI Platform Community Edition é
composto principalmente por duas aplicações Web, a
Pentaho Administration Console (PAC) e a Pentaho
User Console (PUC). A PAC é a interface para o gerenciamento do status do servidor Pentaho, dos usuários
e perfis de acesso às aplicações. A PAC também permite a configuração de Data Sources e o agendamento de serviços de integração de dados e relatórios. Essas funcionalidades da PAC estão ilustradas na figura
9. Em sua distribuição padrão, a PAC é uma aplicação
Web empacotada como um WAR e publicada em um
container Web Jetty.
Figura 9. Pentaho Administration Console (PAC).
Já a PUC é a interface por meio da qual o usuário
tem acesso às aplicações de BI publicadas no servidor
Pentaho. A figura 10 apresenta a tela inicial do PUC.
Após a autenticação do usuário, a PUC apresenta as
aplicações de BI, análises OLAP e dashboards para
os quais lhe foram autorizados os acessos. A figura
11 apresenta a PUC exibindo um conjunto de análises OLAP disponíveis para o usuário e uma janela de
boas-vindas.
ção, Transformação e Carga (ETL). O PDI admite uma
grande variedade de fontes de dados, oferece muitas
possibilidades de transformação, validação e saídas
para os dados transformados. A figura 12 ilustra um
processo ETL para uma tabela de produtos. Os dados
são extraídos de uma tabela de produtos e inseridos
no fluxo, no qual passam por cálculos, adição de outras informações, até serem inseridos ou atualizados na tabela de destino. Como se pode observar, o
processo é gráfico e bastante intuitivo. Os recursos
oferecidos gratuitamente pelo PDI são compatíveis
com os das ferramentas ETL comerciais disponíveis
no mercado.
O PDI foi desenvolvido sobre a plataforma Eclipse. Ele oferece as perspectivas Data Integration,
Model e Visualize (ver figura 12). Todo o desenvolvimento ETL é feito na perspectiva Data Integration.
As perspectivas Model e Visualize são destinadas ao
desenvolvimento na abordagem Agile BI. Esta abordagem permite que uma transformação ETL seja
o ponto de partida para a construção de um Cubo
OLAP, o Model, e a visualização das análises OLAP
diretamente no PDI (Visualize). O Pentaho Agile BI
permite o desenvolvimento BI de uma forma muito
flexível, indo do dado bruto à informação agregada
com muita rapidez.
Figura 10. Pentaho User Console (PUC).
Figura 12. Pentaho Data Integration (PDI), também conhecido
como Kettle.
Pentaho Analysis Services (Mondrian)
O Mondrian é o servidor OLAP que permite aos
usuários do Pentaho analisarem grandes volumes de
informações. Ele oferece recursos de exploração de
dados tradicionais em OLAP como drill, slice e dice.
Na edição Community, a interface com o usuário é
provida pelos plugins JPivot e Saiku Analytics. As edições Professional e Enterprise possuem também um
plugin proprietário que oferece uma experiência com
Figura 11. Aplicações e arquivos apresentados na PUC.
o usuário final superior à do JPivot e do Saiku, comparável à usabilidade encontrada nas ferramentas
Pentaho Data Integration (Kettle)
comerciais líderes de mercado. A figura 13 apresenta
O Pentaho Data Integration (PDI), também co- uma janela de análise de lucros por país, utilizando
nhecido como Kettle, é uma ferramenta de integra- os recursos disponíveis nas versões comerciais do
ção de dados para construção de processos de Extra- Pentaho.
27 \
Figura 13. Pentaho Analysis Services (Mondrian).
Pentaho Reporting
O Pentaho Reporting Community Edition inclui
o Pentaho Report Designer (figura 14), o Pentaho Report Engine e o Pentaho Reporting SDK. Trata-se de
um ambiente completo para a construção de relatórios desenvolvido sobre o JFreeReport. Esse ambiente
suporta diversas fontes de dados e exporta os relatórios para PDF, Excel, HTML, texto, texto formatado,
XML e csv. O funcionamento do Pentaho Report Designer é parecido com o da maioria das ferramentas
de construção de relatórios. Existem bandas específicas para as áreas de cabeçalho, corpo e rodapé dos
relatórios. O que chama a atenção é a fidelidade com
a qual os dados são exportados para os diversos formatos. Um relatório apresentado em HTML pode ser
visto em Excel ou PDF com a mesma formatação.
Figura 15. Exemplo de dashboard interativo criado no Community
Dashboard Framework (CDF).
Pentaho Data Mining (Weka)
O Pentaho Data Mining corresponde à ferramenta a Waikato Environment for Knowledge Analysis
(Weka). O Weka oferece uma série de algoritmos clássicos de mineração de dados implementados e disponíveis para realização de análises avançadas nos dados. A figura 16 apresenta regras de associação entre
os dados reconhecidas por meio do algoritmo Apriori.
A figura 17 ilustra em um gráfico 3D as mesmas regras
de associação reconhecidas pelo algoritmo Apriori.
Figura 16. Regras de associação entre os dados reconhecidas por
meio do algoritmo Apriori.
Figura 14. Pentaho Report Designer.
Community Dashboard Framework
Um requisito muito comum em aplicações de BI
é a construção de painéis gerenciais (ou dashboards).
Para essa finalidade, o Pentaho utiliza do Community
Dashboard Framework (CDF). A figura 15 apresenta
um exemplo de dashboard interativo criado no CDF. Figura 17. Regras de associação exibidas em um gráfico 3D.
/ 28
Considerações Finais
Este artigo apresentou uma visão geral do ambiente Pentaho BI Suite Community Edition, descrevendo os seus principais componentes. Também
foram apresentados conceitos fundamentais de Data
Warehousing, OLTP, OLAP e mineração de dados.
Em tempos de crise financeira internacional,
muitos projetos de BI, especialmente os executados
por empresas de pequeno e médio porte, não dispõem de orçamentos capazes de patrocinar a aquisi-
ção de ferramentas comerciais com custos elevados.
Por outro lado, os recursos de integração de dados e
análise de informações oferecidos pelas ferramentas
comerciais são muito importantes no desenvolvimento de aplicações de BI profissionais. O Pentaho
BI Suite Community Edition apresenta-se como uma
solução econômica e eficiente para esse problema. A
comunidade Pentaho no Brasil é muito forte e existem casos de sucesso muito significativos de aplicações profissionais desenvolvidas no Pentaho.
/referências
> BARBIERI, C. BI2 - Business Intelligence: modelagem e
qualidade. Rio de Janeiro: Campus, 2011.
> BOUMAN, R.; DONGEN, J. Pentaho Solutions: Business
Intelligence and Data Warehousing with Pentaho and
MySQL. Wiley Publishing. Indianapolis. 2009.
> CAZELLA, S. C. Tecnologias para Inteligência
Competitiva. 1. ed. São Leopoldo: Editora Unisinos. 2011.
> FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P.;
UTHURUSAMY, R. Advances in Knowledge Discovery and
Data Mining. 1996. AAAIPress, The Mit Press.
> ______. Gartner EXP Worldwide Survey of Nearly 1,600
CIOs Shows IT Budgets in 2010 to be at 2005 Levels.
2010. Disponível em http://www.gartner.com/it/page.
jsp?id=1283413. Acesso em 01 out. 2011.
_> _____. Gartner Executive Programs Worldwide Survey of
More Than 2,000 CIOs Identifies Cloud Computing as Top
Technology Priority for CIOs in 2011. 2011. Disponível em
> GARTNER GROUP. Gartner says more than 50 percent
http://www.gartner.com/it/page.jsp?id=1526414. Acesso
of data warehouse projects will have limited acceptance or
em 01 out. 2011.
will be failures through 2007. 2005a. Disponível em http://
www.gartner.com/press_releases/asset_121817_11.html.
Acesso em 01 out. 2011.
> ______. Gartner Survey of 1,300 CIOs Shows IT Budgets
to Increase by 2.5 Percent in 2005. 2005b. Disponível em
http://www.gartner.com/press_releases/asset_117739_11.
html. Acesso em 01 out. 2011.
> ______. Gartner Survey of 1,400 CIOs Shows
Transformation of IT Organisation is Accelerating. 2006.
Disponível em http://www.gartner.com/press_releases/
asset_143678_11.html. Acesso em 01 out. 2011.
> ______. Gartner EXP Survey of More than 1,400 CIOs
> KIMBALL, R.; ROSS, M. Data warehouse toolkit: o guia
completo para modelagem dimensional. Rio de Janeiro:
Campus, 2002. 494p.
> NASCIMENTO, GIVANILDO SANTANA. AgileKDD: um
processo ágil para a engenharia de sistemas de descoberta
do conhecimento. Dissertação (Mestrado em Ciência da
Computação) - Universidade Federal de Sergipe, 2012.
> Pentaho Analysis Services (Mondrian) - http://
mondrian.pentaho.com/
> Pentaho BI Platform License FAQ - http://community.
pentaho.com/faq/platform_licensing.php
Shows CIOs Must Create Leverage to Remain Relevant to
> Pentaho BI Suite Community Edition - http://
the Business. 2007. Disponível em http://www.gartner.com/
community.pentaho.com/
it/page.jsp?id=501189. Acesso em 01 out. 2011.
> Pentaho Data Integration (Kettle) - http://kettle.
> ______. Gartner EXP Worldwide Survey of 1,500 CIOs
pentaho.com/
Shows 85 Percent of CIOs Expect “Significant Change” Over
> Pentaho Data Mining (Weka) - http://weka.pentaho.
Next Three Years. 2008. Disponível em http://www.gartner.
com/it/page.jsp?id=587309. Acesso em 01 out. 2011.
> ______. Gartner EXP Worldwide Survey of More than
1,500 CIOs Shows IT Spending to Be Flat in 2009.
com/
> Pentaho Open Source Projects Licenses - http://www.
pentaho.com/license/
2009. Disponível em http://www.gartner.com/it/page.
> Pentaho Reporting - http://reporting.pentaho.com/
jsp?id=855612. Acesso em 01 out. 2011.
> Planeta Pentaho - http://planetapentaho.com.br/
29 \
Download