Ferramentas de Business Intelligence Open Source para PMEs

Propaganda
Instituto Politécnico de Coimbra
Instituto Superior de Engenharia de Coimbra
Departamento de Engenharia Informática e de Sistemas
Ferramentas de Business Intelligence
Open Source para PMEs
Marco Tereso
Mestrado em Informática e Sistemas
Coimbra, Dezembro, 2011
Instituto Politécnico de Coimbra
Instituto Superior de Engenharia de Coimbra
Departamento de Engenharia Informática e de Sistemas
Mestrado em Informática e Sistemas
Projecto Industrial
Relatório Final
Ferramentas de Business Intelligence
Open Source para PMEs
Marco Tereso
Orientador:
Dr. Jorge Bernardino
ISEC - DEIS
Coimbra, Dezembro, 2011
Agradecimentos
A conclusão desta dissertação é o culminar da realização de um grande objetivo. Este
foi o maior desafio ao nível académico e só se tornou possível graças ao grupo de
pessoas que diariamente me apoiaram e incentivaram. Como tal, deixo aqui os meus
agradecimentos:
Ao Professor Doutor Jorge Rodrigues Bernardino que orientou e acompanhou de forma
assídua o meu trabalho, tornando possível esta dissertação.
Aos meus pais, por todo o esforço que fazem diariamente e que sempre me
incentivaram a estudar.
À minha irmã, que me incentivou a entrar no ensino superior.
A todos os professores e colegas do Mestrado que directa ou indirectamente
contribuíram para a minha formação.
Ao Engº Jorge Vieira que se disponibilizou a apoiar o processo de implementação
prática num caso real.
E a todos os amigos de longa data que são inúmeros e teria uma lista infindável para
referir, sem esquecer as pessoas que mais de perto acompanharam todo este trajecto,
que prestaram um apoio essencial, mesmo preferindo o anonimato.
"Se não puder se destacar pelo talento, vença pelo esforço."
(Dave Weinbaum)
Ferramentas Open Source BI para PMEs
Resumo
RESUMO
Em época de contenção de despesas e oscilações constantes dos mercados, inovação e
otimização devem ser os fatores chave para o desbloqueio da economia. A sustentabilidade e
presença no mercado de pequenas e médias empresas é constantemente ameaçada face à
concorrência e competitividade apresentadas pelas grandes empresas. Uma das soluções para
o aumento da competitividade e rentabilidade das pequenas e média empresas é a aquisição de
ferramentas de Business Intelligence. Face às dificuldades de investimento encontradas, por
parte das empresas apresentamos no contexto do nosso trabalho um conjunto de ferramentas
de Business Intelligence open source que garantidamente apresentam qualidade suficiente
para servir interesses e necessidades de pequenas e médias empresas. O nosso trabalho
contempla uma investigação em torno de ferramentas Business Intelligence open source,
avaliando-as e comparando-as em diversos parâmetros. A nossa avaliação baseou-se
inicialmente na descrição das ferramentas e posteriormente na implementação e exploração
prática das mesmas. Os resultados preliminares são bastante atrativos e realçam a qualidade
das ferramentas de Business Intelligence open source analisadas. Para valorizar o nosso
trabalho recorremos à implementação de uma das ferramentas sobre um projeto numa PME,
com o principal objetivo de demonstrarmos na prática que a implementação destas
ferramentas é simples e é claramente viável. Em suma, as ferramentas de Business
Intelligence existentes no mercado constituem uma alternativa viável às soluções comerciais e
não envolvem gastos acrescidos. As ferramentas analisadas apresentam alguma maturidade, e
uma interface com o utilizador aceitável, traduzindo-se numa menor dificuldade de adaptação
por parte do utilizador. Em suma as ferramentas de Business Intelligence open source
representam uma solução alternativa viável perante as soluções comerciais, com a mais-valia
de serem gratuitas e não implicarem custos de aquisição por parte das empresas.
i
Ferramentas Open Source BI para PMEs
Resumo
ABSTRACT
In times of cost containment and constant fluctuations of markets, innovation and
optimization should be the keys to unlocking the economy. The market for small and medium
enterprises is constantly threatened in the face of competition and competitiveness made by
large companies. One solution to increase the competitiveness and profitability of small and
medium business is the acquisition of business intelligence tools. Given the difficulties of
business investment, we present in our work a toolkit of open source Business Intelligence. It
is guaranteed to have sufficient quality to serve the interests and needs of small and medium
enterprises. Our work includes one research about open source Business Intelligence tools,
evaluating them and comparing them on various parameters. Our assessment was initially
based on the description of tools and later in implementation. Preliminary results are very
attractive and allow highlight the quality of business intelligence tools open source analyzed.
To enhance our work we resorted to implementing one of the tools on a real project in an
SME, with the main objective to demonstrate in practice that the implementation of these
tools is simple and is clearly feasible. In short, the business intelligence tools on the market
are a viable alternative to commercial solutions and do not involve a big investment. The
analyzed tools have some maturity, and a user interface acceptable, translating into lower
difficulty of adaptation by the user. The open source Business Intelligence tools represent a
viable alternative before the paid solutions, with the advantage of being free and do not
involve acquisition costs, for companies.
ii
Ferramentas Open Source BI para PMEs
Palavras-Chave
Palavras-Chave
Open Source
Business Intelligence
PMEs
Data Warehousing
Keywords
Open Source
Business Intelligence
SMEs
Data Warehousing
i
Ferramentas Open Source BI para PMEs
Símbolos e Abreviaturas
ABREVIATURAS
AGPL – Affero General Public License
AJAX – Asynchronous Javascript and XML
API – Application Programming Interface
BAM - Business Activities Monitoring
BD – Base de Dados
BI – Business Intelligence
BIRT – Business intelligence Reporting Tools
BPM - Business Process Management
CE – Community Edition
CRM – Customer Relationship Management
CSS – Cascading Style Sheets
CSV – Comma-Separated Values
DBMS – Database Management System
DFSG - Debian Free Software Guidelines
DSP – Decision Studio Professional
DW – Data Warehouse
EJB – Enterprise Java Beans
ERP – Enterprise Resource planning
ETL - Extract, Transform, Load
FSF - Free Software Foundation
GEO – Geo-referenced
GIS - Geographic Information System
GPL – General Public License
HTML – Hypertext Markup language
IDE - Integrated Development Environment
J2EE – Java 2 Enterprise Edition
JDBC – Java Database Conectivity
JVM – Java Virtual Machine
JOLAP – Java Online Analytical Processing
JSP – Java Server Pages
KPI – Key Performance Indicator
MDX - Multidimensional Expressions
ODBC – Open Data Base Connectivity
OLAP – On-line Analytical Processing
ii
Ferramentas Open Source BI para PMEs
Símbolos e Abreviaturas
OLTP – Online Transaction Processing
OSI - Open Source Iniciative
PDF – Portable Document Format
PDI – Pentaho Data Integration
PHP – Hypertext Preprocessor
PMEs – Pequenas e médias empresas
POJO – Plain Old Java Objects
QBE - Query by Example
RDBMS – Relational Database Management System
ROI – Return On Investment
SaaS – Software as a Service
SGBD - Sistema de Gestão de Base de Dados
SI – Sistemas de Informação
SIG – Sistema de Informação Geográfica
SQL – Structured Query Language
SWF - Shockwave Flash
TOS – Talend Open Studio
UE – União Europeia
XML - Extensible Markup Language
XMLA – Extensible Markup Language for Analysis
WCAG - Web Content Accessibility Guidelines
WEKA - Waikato Environment for Knowledge Analysis
iii
ÍNDICE
CAPÍTULO 1 - INTRODUÇÃO
CAPÍTULO 2 - ESTADO DA ARTE
CAPÍTULO 3 - BUSINESS INTELLIGENCE
3.1 - Descrição do conceito de Business Intelligence
3.1.1 - Benefícios e Objetivos
3.1.2 – Vantagens
3.1.3 – Desvantagens
3.1.4 - Fracassos de BI
3.1.5 - Arquitetura de BI
3.2 - Propriedades de BI
3.2.1 - Data Warehouse
3.2.2 - Data Marts
3.2.3 – Metadados
3.2.4 – ETL
3.2.5 - Cubos de dados
3.2.6 – OLAP
3.2.6.1 - Arquiteturas OLAP
3.2.6.2 - Elementos OLAP
3.2.7 – Dashboards
3.2.8 - Data Mining
3.2.9 - GEO/GIS
3.2.10 – KPIs
3.2.11 - Importação e Exportação de dados
3.2.12 – OLTP
3.2.13 – Relatórios
CAPÍTULO 4 – SOFTWARE OPEN SOURCE E PMES
4.1 - Vantagens do Software Open Source
4.2 - Desvantagens do Software Open Source
4.3 - Onde encontrar Software Open Source?
4.4 – Descrição de PME
CAPÍTULO 5 - FERRAMENTAS BI OPEN SOURCE
5.1 - Suites BI Open Source
5.1.1 – JasperSoft
5.1.2 – OpenI
5.1.3 – Palo
5.1.4 – Pentaho
5.1.5 – SpagoBI
5.1.6 – Vanilla
5.2 – Comparação entre as ferramentas Suite BI Open Source
1
5
9
9
10
11
12
13
14
15
15
15
16
17
17
18
19
20
21
21
22
23
23
23
23
25
26
27
27
30
33
33
33
36
38
40
42
45
47
i
5.3 - Outras Ferramentas BI
5.3.1 – Eclipse BIRT
5.3.2 – Mondrian
5.3.3 – Kettle
5.3.4 – Jpivot
5.3.5 – Weka
5.3.6 - RapidMiner
CAPÍTULO 6 - AVALIAÇÃO PRÁTICA DAS FERRAMENTAS
6.1. – Instalação de requisitos comuns às quatro ferramentas
6.2 – Instalação de JasperSoft
6.3 – Instalação de Pentaho
6.4 – Instalação de SpagoBI
6.5 – Instalação de Vanilla
6.6 - Avaliação técnica das ferramentas
6.6 - Conclusão da avaliação
CAPÍTULO 7 - IMPLEMENTAÇÃO NUMA PME
7.1 - Instalação de Pentaho em Windows
7.2 - Construção da Data Warehouse
7.2.1 - Descrição do negócio
7.2.2 - Objectivo
7.2.3 - Desafio
7.2.4 - Estratégia
7.2.5 - Questões às quais a DW deve conseguir responder
7.2.6 - Granularidade
7.2.7 - Identificação de estrelas e dimensões
7.2.8 - Tabela de factos Factos_Energy
7.2.9 - Dimensão Park
7.2.10 - Dimensão Element
7.2.11 - Dimensão Time
7.2.12 - Tabela de factos Factos_Average
7.2.13 - Dimensão Incident
7.2.14 - Dimensão Responsability
7.2.15 - Gerar código MySQL para a construção da DW
7.3 - Processo de ETL
7.3.1 - Dimensão Park
7.3.2 - Dimensão Element
7.3.3 - Dimensão Responsability
7.3.4 - Dimensão Incident
7.3.5 - Dimensão Time
7.3.6 Tabela de factos Factos_Energy
ii
50
50
51
52
53
53
54
57
57
59
60
62
63
64
69
71
71
73
82
82
82
82
82
83
83
86
86
87
87
87
88
89
89
89
90
94
97
99
102
103
7.3.7 - Tabela de factos Factos_Average
7.4 - Construção de cubos OLAP
7.4.1 - Linguagem MDX
7.4.2 - PAT Analysis Tool
7.4.2.1 - Instalação de PAT Plugin 0.8 no Pentaho CE 3.8
7.4.2.2 - Criação de análises com PAT Analysis
7.4.2.3 - Exemplos práticos do projeto utilizando PAT Analysis
7.4.3 - Saiku
7.4.3.1 Instalação de Saiku 2.0 no Pentaho BI Server CE 3.8
7.4.3.2 - Exemplos práticos do projeto utilizando Saiku
7.4.4 - Pentaho Mondrian
7.5 - Criação de dashboards
7.5.1 - Instalação CDF-DE
7.6 - Criação de relatórios
CAPÍTULO 8 - CONCLUSÕES E TRABALHO FUTURO
REFERÊNCIAS
ANEXOS - A
Open Source Business Intelligence tools for SMEs
ANEXOS - B
Commercial or open source business intelligence tools?
ANEXOS - C
Open Source CRM Systems for SMEs
ANEXOS - D
Top Busines Intelligence Software for Small and Medium Enterprises
ANEXOS - E
Better Decisions With Open Source Business Intelligence Tools
106
109
109
110
111
111
112
115
115
115
117
119
120
125
131
135
139
147
153
167
171
iii
ÍNDICE DE FIGURAS
Figura 3.1. Ilustração da pirâmide de processos de Business Intelligence
Figura 3.2. Arquitetura de processos de Business Intelligence
Figura 3.3. Cubo tridimensional com o total de vendas
Figura 4.1. Gráfico da percentagem dos tipos de empresas a nível Mundial
Figura 5.1. Arquitectura JasperSoft
Figura 5.2. Relatório JasperSoft
Figura 5.3. Arquitectura da aplicação OpenI
Figura 5.4. Elementos gráficos OpenI
Figura 5.5. Ambiente Microsoft Excel composto do separador Palo
Figura 5.6. Conjunto de funcionalidades Pentaho
Figura 5.7. Ilustração de funcionalidades GEO de Pentaho
Figura 5.8. Conjunto de funcionalidades SpagoBI
Figura 5.9. Painel de visualização SpagoBI
Figura 5.10. Painel de visualização Vanilla
Figura 5.11. Painel de visualização Vanilla
Figura 5.12. Versão de Vanilla a correr em dispositivos móveis
Figura 5.13. Ambiente de trabalho Eclipse BIRT
Figura 5.14. Ambiente de trabalho Mondrian
Figura 5.15. Ambiente de trabalho Pentaho Data Integration (PDI)
Figura 5.16. Representação de um cubo de dados e respetivo gráfico em JPivot
Figura 5.17. Ilustração de um exemplo de uma análise Weka
Figura 5.18. Análise de Data Mining
Figura 6.1. Percentagem de referências encontradas, relativamente a cada ferramenta
Figura 7.1. Configuração da variável JAVA_HOME
Figura 7.2. Configuração da variável JRE_HOME
Figura 7.3. Servidor Pentaho BI CE 3.8 instalado com sucesso
Figura 7.4. Opção de Reverse Engineer
Figura 7.5. Escolha do tipo de base de dados a converter
Figura 7.6. Selecção do script SQL da base de dados
Figura 7.7. Progresso da ação de Reverse Engineer
Figura 7.8. Modelo físico da base de dados
Figura 7.9. Opção de Seleção de tipo de base de dados actual e futuro
Figura 7.10. Seleção do tipo da nova base de dados
Figura 7.11. Seleção da opção para gerar a nova base de dados
Figura 7.12. Escolha de diretório e nome do ficheiro
Figura 7.13. Ficheiro gerado
Figura 7.14. Script base dados em Bloco de Notas
Figura 7.15. Ambiente de trabalho da ferramenta HeidiSQL 6.0
iv
10
14
18
30
36
36
37
38
39
41
42
43
45
46
46
47
51
52
52
53
54
55
70
72
72
73
74
75
76
76
77
78
78
79
79
80
80
81
Figura 7.16. Modelo concetual da DW
84
Figura 7.17. Modelo físico da DW
85
Figura 7.18. Tabela de factos “Factos_Energy”
86
Figura 7.19. Dimensão Park
86
Figura 7.20. Dimensão Element
87
Figura 7.21. Dimensão Time
87
Figura 7.22. Tabela de factos, Factos_Average
88
Figura 7.23. Dimensão Incident
88
Figura 7.24. Dimensão Responsability
73
Figura 7.25. Esquema de ETL de carregamento da dimensão Park
90
Figura 7.26. Ilustração do elemento tMap_1
92
Figura 7.27. Constituição da dimensão Park da DW.
92
Figura 7.28. Ilustração dos dados visíveis através do visualizador de dados
93
Figura 7.29. Ficheiro Excel gerado pelo processo de ETL
93
Figura 7.30. Esquema do processo ETL da dimensão Element
94
Figura 7.31. Representação do elemento tMap_1
96
Figura 7.32. Dimensão Element
96
Figura 7.33. Processo de ETL para a dimensão responsability
97
Figura 7.34. Representação do elemento tMap_1 do processo de ETL
98
Figura 7.35. Dimensão Responsability
99
Figura 7.36. Modelo de ETL da dimensão Incident
99
Figura 7.37. Representação do elemento tMap_1
100
Figura 7.38. Definição de uma expressão para obter o valor da duração de tempo 101
Figura 7.39. Dimensão Incident
101
Figura 7.40. Processo de ETL da tabela de factos factos_energy
103
Figura 7.41. Representação do elemento tMap_2
105
Figura 7.42. Ilustração do elemento tMap_1
106
Figura 7.43. Tabela de factos “factos_energy”
106
Figura 7.44. Processo de ETL da tabela de factos factos_average
107
Figura 7.45. Representação do elemento tMap_2
107
Figura 7.46. Representação do elemento tMap_1
108
Figura 7.47. Tabela de factos factos_average
108
Figura 7.48. Visualização dos dados com o elemento tLogRow_1
109
Figura 7.49. Ícones do ambiente de trabalho de Pentaho
111
Figura 7.50. Ambiente de trabalho PAT Analysis
112
Figura 7.51. Cubo de dados por dia por hora
113
Figura 7.52. Valores de radiação solar por dia por hora
114
Figura 7.53. Quantidade de incidentes por estado
114
Figura 7.54. Ícone Saiku no ambiente de trabalho de Pentaho
115
Figura 7.55. Ambiente de trabalho Saiku
116
v
Figura 7.56. Ícone New Analysis View no ambiente de trabalho de Pentaho
117
Figura 7.57. Janela para seleção de cubo de dados
118
Figura 7.58. representação OLAP com a ferramenta do servidor 3.8
118
Figura 7.59. Ambiente de trabalho Pentaho atualizado com a nova funcionalidade
CDE
121
Figura 7.60. Ambiente de trabalho de CDE.
121
Figura 7.61. Seleção de um Template existente disponível no plugin.
122
Figura 7.62. Separador Components
123
Figura 7.63. Representação do separador Data Sources.
123
Figura 7.64. Dashboards do caso prático.
124
Figura 7.65. Primeiro passo para a contrução de um relatório de dados
126
Figura 7.66. Segundo passo para a criação de um relatório
126
Figura 7.67. Terceiro passo para a criação de um relatório de dados.
127
Figura 7.68. Quarto passo para a criação de um relatório
128
Figura 7.69. Ilustração do relatório produzido no formato de HTML.
128
Figura 7.70. Ilustração do relatório produzido no formato PDF.
129
vi
ÍNDICE DE TABELAS
Tabela 3.1. Demonstração elementos OLAP
Tabela 4.1. Características das PME
Tabela 5.1 Comparação de funcionalidades
Tabela 5.2. Comparação das ferramentas quanto à linguagem de programação
de desenvolvimento
Tabela 5.3. Tipo de sistemas operativos que suportam as ferramentas
Tabela 5.4. Comparação das ferramentas relativamente às suas versões disponíveis
Tabela 5.5. Informações relevantes de cada uma das ferramentas
Tabela 6.1. Avaliação das funcionalidades de BI e caraterísticas das ferramentas
Tabela 6.2. Distribuições e suporte
Tabela 6.3. Avaliação quanto aos tipos de base de dados suportados
Tabela 6.4. Funcionalidades OLAP
Tabela 6.5. Funcionalidades de Dashboards
Tabela 6.6. avaliação aos elementos de KPIs
Tabela 6.7. avaliação das caraterísticas dos relatórios
Tabela 6.8. Avaliação do portal quanto à internacionalização
Tabela 6.9. Classificação das ferramentas na escala de 1 a 5
Tabela 6.10. Classificação das ferramentas de 1 a 4 tendo em conta a preferência
Tabela 7.1. Arquitectura da DW a construir
19
30
47
48
48
49
49
64
65
65
66
67
67
67
68
68
69
83
vii
CAPÍTULO 1
1. INTRODUÇÃO
Os graves problemas económicos que afetam atualmente a economia global, conduzem à
instabilidade dos mercados. As tendências de oscilação da economia mundial são um
entrave à inovação e ao desenvolvimento das empresas, face à incapacidade de
investimento e à insegurança demonstrada relativamente à sua rentabilização. Os fatores
condicionantes da estabilidade da economia obrigam todo o tecido empresarial a fazer
esforços de contenção na despesa e à redução dos custos da atividade. Focando a nossa
visão sobre o continente europeu, somos constantemente confrontados com informações
que nos revelam o atual estado caótico da economia europeia. O crescimento económico
caminha de mãos dadas com a produção e as exportações, na ausência destes dois fatores
não existe crescimento económico.
Face aos elevados custos de produção, resultantes da atividade laboral diária das
empresas, e face às várias medidas de austeridade que vigoram em alguns países da união
europeia, torna-se difícil para as empresas produzirem em larga escala e a preços que
permitam competir com os preços apresentados pelos produtos comercializados pelos
mercados externos e pelas grandes empresas. A incapacidade de investimento por parte
das pequenas e médias empresas (PMEs) na otimização dos seus processos de negócio,
representa um grave problema. A produção em larga escala muitas vezes contrapõe-se
com a necessidade de investir e inovar nos métodos de trabalho e de produção, é a estes
investimentos que na generalidade as empresas não se expõem, faltando-lhes a
capacidade para investir, otimizar e rentabilizar o seu negócio. Os fatores de fixação no
mercado das PMEs bem como a sua rentabilidade, estão diretamente relacionados com a
sua capacidade de produção em larga escala, e com a sua capacidade de resposta.
As grandes empresas de um modo geral não têm problemas de inovar e investir porque
normalmente têm capacidade económica para o fazerem, mas, representam uma
percentagem reduzida de todo o conjunto empresarial.
O contexto do nosso trabalho são as PMEs, focando-nos nas dificuldades apresentadas
pelas PMEs em fixarem-se de forma sólida no mercado e em competir com as grandes
empresas. Com isto, o nosso trabalho tem como principal objetivo apresentar soluções
viáveis para PMEs, que representam 99,9 % do número total de empresas portuguesas,
98% da totalidade das empresas da União Europeia (UE a 27) (ECEI, 2010/2011) e mais
de 98% das empresas à escala mundial (Global Alliance of SMEs, 2010). Atendendo a
estes números é fácil perceber a importância das PMEs e qual o nosso interesse de
solucionar medidas de rentabilidade e crescimento, tendo em conta alguns fatores
1
CAPÍTULO 1
especiais como a incapacidade destas empresas em investir, diminuir os custos resultantes
da sua atividade de produção e aumentar os seus lucros.
Neste contexto pretendemos solucionar parte das dificuldades de otimização e melhoria
dos processos de negócio das empresas. Para isto, sugerimos a adoção de práticas e
ferramentas de Business Intelligence (BI). O conceito de BI não é novo, mas só nos
últimos anos tem conhecido uma maior divulgação e aceitação junto das empresas. O
recurso a práticas de BI subentende que existam dados provenientes da atividade
empresarial, que se possam processar de forma a obter informação e conhecimento
capazes de suportar o apoio a tomada de decisão por parte de gestores e analistas de
negócio. Os dados resultantes da atividade empresarial são a matéria-prima de processos
e ferramentas de BI. As ferramentas de BI têm como principal objetico o cruzamento dos
dados da atividade económica e exibindo-os de forma gráfica. O recurso a ferramentas BI
permite através do cruzamento de dados extrair informações relevantes (p.ex: no sector
das energias renováveis, identificar qual a localização do parque eólico que produz mais
energia), identificar problemas no processo de negócio (p.ex: identificar qual a marca de
motores das torres eólicas que apresentam maior taxa de indisponibilidade), estes dois
exemplos permitem gestores e analistas de negócio tomar decisões (p.ex: reforçar os
parques que produzem mais; adquirir motores das marcas que apresentam maior taxa de
atividade).
Tendo em conta o custo das ferramentas de BI comerciais, dificilmente suportados por
PMEs, focaremos a nossa investigação essencialmente em ferramentas open source. As
ferramentas open source são desenvolvidas por comunidades de programadores sem fins
lucrativos, que se dedicam à produção de software seguindo um conjunto de regras
estabelecidas pela OSI (Open Source Iniciative), de entre as quais a disponibilização de
software de forma gratuita. A disponibilização do código para a comunidade por parte das
comunidades de desenvolvimento open source permite solucionar em parte a capacidade
de investimento por parte das PMEs. Apesar do foco do nosso trabalho ser essencialmente
a divulgação de ferramentas de BI open source, existe no mercado inúmeras ferramentas
que apresentam uma alternativa de qualidade às ferramentas comerciais (p.ex: Mozilla
Firefox, MySQL, PHP, Open Office).
Após a investigação e a análise às ferramentas de BI open source existentes no mercado,
iremos analisar e comparar um conjunto de ferramentas elegendo as melhores, mediante
um plano de avaliação. Para justificarmos que as ferramentas de BI open source são
viáveis iremos proceder à demonstração prática da utilização de uma ferramenta, Pentaho,
num projeto empresarial de âmbito real. A nossa demonstração prática detalha todos os
passos da implementação de uma ferramenta de BI, tais como: a construção de uma Data
Warehouse (DW); especificação de processos de ETL (Extract, Transform, Load); criação
de cubos de dados OLAP (On-Line Analytical Processing); criação de dashboards;
criação de relatórios de dados.
2
CAPÍTULO 1
A demonstração prática do nosso trabalho tem por base sustentar a nossa conclusão, de
que as ferramentas de BI open source apresentam uma solução claramente viável e que
permite a inovação, desenvolvimento e otimização dos processos de negócio das
empresas. Se por um lado a aquisição de software BI open source não implica custos, a
sua implementação e utilização podem significar alguns custos para as empresas, tendo
em conta que as ferramentas requerem utilizadores que possuam conhecimentos base de
informática, especialmente nas áreas de base de dados, Data Warehousing, ETL e OLAP.
As comunidades de desenvolvimento de ferramentas BI open source ao longo dos últimos
anos têm tentado acompanhar os desenvolvimentos das ferramentas comerciais.
Destacamos que um dos maiores desenvolvimentos está relacionado com o aumento da
facilidade de interação com o utilizador. As versões mais recentes apresentam uma
interação com o utilizador mais amigável, incluindo funcionalidades de drag and drop em
alguns processos. Face a este desenvolvimento reconhecido, prevemos que num curto
período de tempo as ferramentas de BI open source, se tornem ainda mais fáceis de
utilizar e estejam acessíveis a qualquer utilizador sem conhecimentos base de informática.
1.1. Principais Contribuições deste trabalho
O principal objetivo do nosso trabalho é contribuir para o avanço da ciência e do
conhecimento. Neste contexto, identificámos um problema, a necessidade de rentabilizar
e otimizar o processo de negócio das PMEs. Identificado o problema vamos tentar. De um
modo geral as nossas principais contribuições do nosso trabalho são:
•
•
•
•
•
•
•
•
•
•
Solucionar a redução de custos da atividade normal das PMEs.
Identificar um problema que apresenta facilidade de retorno sobre o investimento.
A divulgação da importância do conceito de BI.
Divulgação de ferramentas open source como uma solução viável para o
problema.
A demonstração prática da utilização de ferramentas open source e consequentes
avaliações.
Comparação prática de várias ferramentas BI, e consequente avaliação.
Apresentar um conjunto de elementos que suporte a escolha de ferramentas open
source como uma opção de redução de custos.
Ajudar na decisão do processo de aquisição.
Apoiar os processos de implementação e desenvolvimento.
Mostrar que as ferramentas BI open source são claramente uma solução
alternativa às ferramentas comerciais.
De um modo geral são estas as contribuições que pretendemos acrescentar com o
desenvolvimento desta investigação.
3
CAPÍTULO 1
1.2. Estrutura do relatório
Este trabalho encontra-se estruturado em oito capítulos. O capítulo atual, é o capítulo
introdutório no qual procurámos descrever o problema, e apresentar a nossa solução para
a resolução do mesmo.
O capítulo 2, estado da arte, tem como por base a divulgação de outros trabalhos
desenvolvidos na área e que de certa forma suportaram (através da sua informação) e
incentivaram o desenvolvimento do nosso trabalho, pretendendo dar a conhecer outros
trabalhos relacionados.
O capítulo 3 apresenta uma descrição detalhada sobre o conceito de Business Intelligence
e todas as suas propriedades. É feita ainda referência aos benefícios e objetivos da
utilização de BI, vantagens, desvantagens e fracassos.
O capítulo 4 apresenta uma descrição base sobre software open source e sobre PMEs, que
são o foco do nosso trabalho. Neste capítulo são apresentadas vantagens e desvantagens
do software open source e ainda referência aos repositórios Web onde é possível adquirir
software open source.
O capítulo 5 apresenta um estado da arte relativamente aos pacotes de soluções de BI
open source, comparação das ferramentas e ainda uma secção de ferramentas auxiliares,
especificas para determinados processos.
No capítulo 6 procede-se à descrição dos processos de instalação dos quatro melhores
pacotes de ferramentas, consequente avaliação técnica e uma conclusão da avaliação da
qual resulta a eleição da melhor ferramenta BI open source que será utilizada para
implementação no caso prático.
O capítulo 7 apresenta todos os passos de implementação prática de uma ferramenta de BI
open source numa PME. Este é o capítulo mais extenso e que descreve em detalhe a
construção de uma DW, a implementação de processos de ETL, a construção de cubos de
dados OLAP, a criação de relatórios e a utilização de plugins para os processos de criação
de cubos de dados e dashboards.
Por fim, o capitulo 8, apresenta as conclusões a nível prático e teórico de todo o
desenvolvimento do nosso trabalho.
De referir ainda a existência do capítulo 9 de referências e em anexo um conjunto de
cinco artigos científicos desenvolvidos e publicados no âmbito do nosso trabalho de
investigação.
4
CAPÍTULO 2
2. ESTADO DA ARTE
O trabalho desenvolvido em torno da área da nossa investigação é um pouco escasso,
existindo poucas referências bibliográficas no contexto da nossa investigação.
Ainda assim destacamos alguns trabalhos nesta área de investigação. Num trabalho de
investigação, Christian Thomsen e Torben Pedersen identificaram que se notava um
aumento de empresas a procurarem soluções de BI open source, mas que a confiança
sobre este tipo de ferramentas estava um pouco aquém, quando comparada com a
aceitação registada em torno de ferramentas open source de outras áreas (Thomsen &
Pedersen, 2008). A sua investigação procurou classificar as soluções de BI existentes no
mercado, avaliando os seus aspetos técnicos e a mais-valia que estas representam. Nesta
investigação foram comparadas dez ferramentas de ETL, seis sistemas de gestão de bases
de dados (SGBD), dois servidores OLAP e sete ferramentas cliente OLAP.
Os mesmos autores desenvolveram uma investigação semelhante no ano 2005 e
procuraram comparar a evolução das ferramentas durante esse período de tempo.
Relativamente ao tipo de ferramentas em análise os autores definem os SGBDs como as
ferramentas open source mais desenvolvidas e que maior número de funcionalidades
adquiriram durante aquele período de tempo. Relativamente às ferramentas de ETL
identificam a existência de uma evolução clara nas suas funcionalidades. Relativamente
aos servidores OLAP identificam Mondrian como melhor ferramenta disponível, quanto
às ferramentas cliente OLAP defendem que existe várias ferramentas no mercado ainda
que se apresentem pouco desenvolvidas.
Numa publicação da Pentaho (Pentaho, 2008), a comunidade alerta para o facto de as
empresas estarem a procurar a aquisição de ferramentas BI como solução para a
rentabilização dos seus processos de negócio sem a certeza de se as ferramentas que estão
a adquirir são as mais indicadas para os seus processos de negócio. O problema
identificado pela comunidade é que, gestores de negócio se deixam levar pelas
campanhas de marketing por parte das empresas que produzem ferramentas BI, sem
avaliar se as caraterísticas das ferramentas suportam as suas necessidades, ação que
muitas vezes se traduz em maus investimentos. Desta forma, Pentaho tenta alertar os
mercados para o facto das soluções open source terem como vantagem o facto de
poderem ser alteradas à medida do negócio e por outro lado a facilidade de mudar de
ferramenta sempre que se justifique, sem que isso traduza perdas excessivas.
Por sua vez, Matteo Golfarelli desenvolveu uma investigação (Golfarelli, 2009), que
identificou a desconfiança dos mercados perante a potencialidade das soluções de BI open
source como alternativa às ferramentas comerciais. O objetivo da sua investigação era
avaliar quais as potencialidades das ferramentas de BI open source e quais os limites da
sua adoção em projetos reais. Golfarelli procurou desta forma avaliar se o contexto de
5
CAPÍTULO 2
software open source representaria uma alternativa válida às plataformas comerciais na
área de BI. Para fundamentar a sua investigação recorreu à análise de três pacotes de
soluções de BI open source, sendo eles: JasperSoft, Pentaho e SpagoBI (versões
disponíveis até dezembro de 2008). Golfarelli na sua investigação não procurou medir
resultados de eficiência mas procurar uma resposta para o seu problema relativamente à
viabilidade da sua aplicação em ambientes reais. As conclusões a que chegou foi que o
principal defeito das soluções de BI open source é a ausência de uma camada de
Metadados. Da comparação entre as ferramentas concluiu que face à versão comercial a
versão open source de Pentaho poderia ser mais abrangente e que a versão SpagoBI open
source é idêntica à versão comercial das ferramentas Pentaho e SpagoBI. Num outro tipo
de análise referiu que PMEs procuram cada vez mais a aquisição de software deste tipo
para colmatar despesas. Identifica ainda que a prematuridade, permanência no mercado e
evolução levantam dúvidas no mercado, defendendo que um 20 anos de conhecimento
nesta área e a experiência poderão fazer a diferença no futuro.
Em (JasperSoft, 2009) é descrita uma análise interessante, sustentada por um estudo
(Ventana Research, 2006) que concluiu que 48% dos inquiridos esperam que a
implementação de ferramentas open source BI signifiquem um corte de 50% nas
despesas, quando comparada com o custo das ferramentas comerciais. O mesmo estudo
refere ainda que 25% dos inquiridos estimam que os custos dispendidos com os dois tipos
de software sejam equivalentes. O estudo (JasperSoft, 2009) procura apresentar resultados
relativamente aos custos ocultos da implementação de ferramentas de BI open source e
comparar com os custos das ferramentas comerciais, verificando se as ferramentas open
source são uma alternativa viável. Deste estudo o autor conclui que a implementação de
do conceito BI tem significado um grande investimento de alto retorno, considerando que
os preços de software das versões comerciais se têm tornado um entrave para aquisição
por parte das empresas. O autor conclui ainda que a implementação de ferramentas de BI
open source em empresas constituídas por equipas ágeis e com conhecimentos poderão
significar pouco investimento e um maior retorno sobre o investimento. A distribuição do
código permite a empresas com conhecimentos na área de informática adaptarem o
software tendo em conta as necessidades das empresas, construindo desta forma uma
solução viável e funcional sem grandes investimentos.
No mesmo contexto, destacamos também (Damiani et al., 2009) que identificaram a
ausência de documentação relativamente ao conjunto de soluções de BI no mercado,
destacando que o trabalho de investigação existente na área se prendia com comparações
das funcionalidades das ferramentas. Posto isto, os autores apresentam uma visão geral
sobre as diversas ferramentas e frameworks relacionadas com a área de BI, descrevendo
um caso prático, modelos de custo e o seu risco de adoção. No âmbito da sua investigação
os autores referem que um dos principais problemas das versões comerciais para o
cliente, prende-se com o facto de antes do cliente obter resultados já efetuou gastos
dispendiosos com a aplicação, enquanto que ao implementar soluções open source pode
6
CAPÍTULO 2
controlar o seu investimento à medida que vai obtendo resultados. Os autores concluem
que os fatores de risco relacionados com a implementação de soluções de BI open source,
são o facto de não conterem trabalhadores com conhecimentos de informática na sua
estrutura empresarial e o receio de que os projetos sejam desapoiados/abandonados.
É importante perceber quais os valores que pretendemos poupar na implementação de
ferramentas open source que possam substituir ferramentas comerciais, em (Ferreita et
al., 2010) é efetuada uma análise comparativa entre as principais ferramentas comerciais e
open source mediante vários critérios, de entre os quais o valor dos custos de aquisição
entre uma das principais ferramentas comercial, Microsoft e a ferramenta gratuita
Pentaho. Segundo esse estudo, os custos com a ferramenta comercial rondam os 25.000
reais o que equivale a cerca de 10.000 euros. Uma quantia que pesa no orçamento de
qualquer PME. A estes custos acrescem o valor das licenças anualmente, e uma restrição
ao número de utilizadores.
O nosso trabalho de investigação foca-se essencialmente nas ferramentas de BI open
source, tendo em conta que a sua aquisição não implica custos. Os custos das ferramentas
comerciais são bastante elevados, muitas vezes inflacionados pelos custos das licenças e
renovação das mesmas dentro de um período de tempo. Face à fraca capacidade de
investimento por parte das PMEs, neste tipo de ferramentas pretendemos solucionar o
nosso problema com ferramentas gratuitas. Neste contexto existe algum trabalho já
desenvolvido, ainda que se considere escasso. Já existe algum trabalho realizado
relacionado com o estado da arte de ferramentas de BI open source e comparação das
funcionalidades disponibilizadas pelas diversas ferramentas. Relativamente à comparação
de custos da aplicação de ferramentas comerciais e ferramentas open source a informação
é mais escassa. Quanto a informação relacionada com a comparação dos custos das
ferramentas BI comerciais também não existe muita informação.
7
8
CAPÍTULO 3
3. BUSINESS INTELLIGENCE
No âmbito do nosso trabalho, pretendemos investigar de forma aprofundada o conceito de
Business Intelligence (BI). Para melhor compreendermos o conceito de BI, iremos
apresentar a sua definição, os seus benefícios e objetivos, as suas vantagens e
desvantagens, os seus fracassos e a sua arquitetura. Numa segunda fase, descrevemos as
propriedades e conceitos relacionados com a área de BI. Neste capítulo pretendemos
apresentar a definição de todos os conceitos relacionados com o termo de BI de modo a
facilitar a compreensão dos capítulos seguintes.
3.1. Descrição do conceito de Business Intelligence
O conceito de Business Intelligence foi definido em 1989 por Howard Dresner como:
“concepts and methods to improve business decision making by using fact-based support
systems” (Power, 2007), ou seja, conjunto de conceitos e métodos que pretendem
melhorar a atividade de tomada de decisão de negócio por parte de gestores e analistas,
apoiadas pelos sistemas de suporte à decisão. O conceito BI não tem a finalidade de
decidir, apenas tem o objetivo de reunir elementos visuais capazes de suportar a tomada
de decisões por parte de gestores e analistas de negócio. Como podemos constatar o
conceito de BI não é recente, a sua definição surgiu há mais de duas décadas ainda assim,
possui atualmente um maior reconhecimento, sendo classificado como um conceito de
topo atualmente. O facto de o conceito não ser novo mas só ter atingido recentemente o
reconhecimento das suas potencialidades, pode ser justificado com o facto da adoção
tardia de sistemas de informação (SI), por parte das empresas (Varajão et al. 2011). Os
sistemas de informação ganharam um relevo enorme na atividade das empresas, passando
a ser essencial a sua utilização nas atividades laborais. Os sistemas de informação
permitem auxiliar a atividade das empresas, através do registo de dados. Os dados
registados e guardados num sistema de gestão de base de dados permitem gerar
informação, é esta informação que permite após ser trabalhada, gerar métricas para a
otimização do negócio. Foi com base na necessidade de implementar processos de análise
de informação e a partir dela extrair conhecimento que nasceu o termo BI. O conceito de
BI é mais vantajoso quanto maior for a quantidade de dados relacionados com a atividade
empresarial disponíveis. Uma empresa que não possua dados da sua atividade de negócio
não possui elementos que sustentem a instalação de ferramentas de BI.
Os dados são a matéria-prima das ferramentas de BI, quando agrupados originam
informação. Por sua vez, um conjunto de informação origina conhecimento. É através do
conhecimento extraído dos dados que se torna possível otimizar processos e métodos de
trabalho.
As ferramentas BI existem para apoiar gestores e analistas de negócio. As ferramentas BI
simplesmente ilustram o cruzamento de dados, não tomam decisões por si, apenas reúnem
9
CAPÍTULO 3
elementos capazes de suportar a tomada de decisão de gestores e analistas de negócio. A
análise da informação proveniente dos aglomerados de dados permite aos analistas de
negócio extraírem conhecimentos e por conseguinte: estabelecerem métricas e estratégias
de negócio, estimar e prever oscilações de mercado e apoiar a tomada de decisão.
A Figura 3.1 ajuda a ilustrar o processo de BI, representado por uma pirâmide, em que o
conjunto de dados representados na base da pirâmide suporta o conjunto de informações.
Por sua vez, a informação sustenta o topo da pirâmide, que coincide com o processo de
tomada de decisão.
Decisão
Informação
Dados
Figura 3.1. Ilustração da pirâmide de processos de Business Intelligence
Uma ferramenta de BI deve apresentar funcionalidades que permitam:
•
•
•
•
•
•
Obter e modelar dados provenientes de sistemas de gestão de base de dados
(SGBDs);
Extrair, transformar, efetuar limpeza e carregamento de dados;
Visualizar análises de dados;
Mostrar dados em forma de dashboards;
Implementação de processos de Data Mining;
Criação de relatórios de dados.
3.1.1. Benefícios e objetivos
O principal objetivo de um sistema de BI é promover o cruzamento de dados e facilitar a
tomada de decisão. Os principais objetivos e benefícios da utilização de BI são
(Rodrigues, 2006):
•
•
•
•
•
10
Antecipar alterações de mercados;
Antecipar ações dos competidores diretos;
Descobrir novos ou potenciais agentes competidores;
Aprender com os sucessos e falhas dos outros
Conhecer melhor as capacidades próprias
CAPÍTULO 3
•
•
•
•
Conhecer novos conceitos e metodologias que causem impacto na atividade de
negócio
Conquistar novos mercados
Avaliar e rever os processos de negócio
Auxiliar na implementação de novas práticas de negócio
3.1.2. Vantagens
À medida que o conhecimento avança vão se verificando novos progressos, baseados na
melhoria de práticas e costumes. O desenvolvimento de novas práticas e de novos
conceitos, coincide com a necessidade de descobrir e desenvolver novas estratégias que
facilitem e melhorem os processos existentes. Deste modo, o conceito de BI surge no
âmbito de acrescentar vantagens aos métodos inicialmente existentes. Para melhor
classificar as capacidades das ferramentas de BI, passamos a enumerar as vantagens da
sua implementação, nas empresas e organizações (Rodrigues, 2006).
•
•
•
•
•
•
•
•
•
•
•
•
Aumento da qualidade no planeamento operacional e estratégico: o conhecimento
extraído dos resultados obtidos permite um planeamento mais sustentado.
Agilização do processo de tomada de decisão: a monitorização dos dados através
de representações gráficas torna os processos de tomada de decisão mais simples e
menos morosos.
Diminuição dos custos da atividade empresarial: cortes na atividade
administrativa.
Maior credibilidade na previsão de mudança de ações.
Aumento da credibilidade sobre as ações e sobre a qualidade dos produtos.
Aumento da competitividade: a redução dos custos da atividade empresarial
conduz a um aumento da competitividade.
Maior rentabilidade: a identificação de problemas e de fatores de sucesso permite
rentabilizar os processos de negócio.
Redução de custos operacionais: a implementação de ferramentas de BI permite
diminuir gastos com agentes de decisão.
Ampliação da carteira de clientes: o agrupamento de dados relativos aos clientes,
permite traçar um perfil e conhecer as necessidades do cliente, ajudando a definir
estratégias capazes de amealhar maior número de clientes.
Aumento da lealdade dos clientes: a possibilidade de traçar um perfil dos clientes
da empresa ajuda a identificar os grupos de clientes que maiores garantias de
lealdade oferecem.
Retorno sobre o investimento (ROI) mais rápido em projetos BI: a redução dos
gastos com analistas de negócio e gestores, bem como a rentabilidade oferecida
pela implementação de soluções de BI, acelera a recuperação do investimento.
Maior controlo e menor percentagem de erro: fruto da segurança coordenada, com
acesso restrito a dados mediante cada tipo de utilizador; garantia de qualidade da
11
CAPÍTULO 3
•
•
•
informação; cruzamento de dados diversos, provenientes de sistemas de
informação (SI) e fontes de dados diversas.
Partilha de informação entre grupos distintos: a monitorização dos problemas dos
diferentes setores empresariais, numa única ferramenta facilita a partilha de
informação.
Melhor interação com os utilizadores: é possível obter respostas/análises em
tempo real e proceder à realização de análises de setores de negócio distintos na
mesma ferramenta.
Informação on-line: possibilidade de decidir em qualquer lugar e a qualquer hora.
3.1.3. Desvantagens
Do conceito de Business Intelligence não advêm só vantagens, também existem algumas
desvantagens resultantes da implementação de ferramentas de BI. De entre as
desvantagens enumeramos:
•
•
•
•
•
•
•
12
Custo: a aquisição de ferramentas BI tem um custo elevado, as ferramentas
proprietárias são dispendiosas e as ferramentas open source não dispensam
conhecimentos e formação base para a sua utilização; os sistemas que oferecem
suporte a este tipo de ferramentas necessitam de hardware com boa capacidade de
processamento e resposta. O processamento de grandes quantidades de dados pode
representar um congestionamento das redes internas.
Suporte: a utilização deste tipo de ferramentas requer algum conhecimento base,
alguma documentação de suporte e/ou formação; aspetos relacionados com o
suporte aos sistemas muitas vezes também representam uma desvantagem, tendo
em conta que este tipo de ferramentas requer sistemas com uma boa capacidade de
processamento.
ROI: o retorno sobre o investimento pode levar algum tempo, tudo depende do
volume de negócio e dos gastos dispendidos com a obtenção, configuração e
assistência.
Uso limitado: de um modo geral este tipo de soluções, nomeadamente as
proprietárias, possui licenças restritas a um número de utilizadores ou
computadores.
Complexidade: a utilização de ferramentas de BI requer pessoas com
conhecimentos básicos na área de informática para a sua utilização.
Implementação morosa: o processo de construção de uma Data Warehouse,
implementação de processos ETL (Extract, Transform, Load), construção de
cubos de dados OLAP (On-line Analytical Processing) e posteriormente a
construção de dashboards é um processo moroso.
Acumulação de dados históricos: o conceito é mais viável quão maior for a
quantidade de dados e o intervalo de tempo da sua recolha, isto representa um
CAPÍTULO 3
•
•
enorme avolumado de dados, que requer uma grande capacidade de
processamento.
A adoção deste tipo de ferramentas por parte das empresas e organizações ainda
não atingiu a maioridade: tendo em conta fatores como o custo e a capacidade de
investimento por parte das empresas.
Fracassos de BI (descritos na secção seguinte).
3.1.4. Fracassos de BI
Com base num estudo desenvolvido pela Information Builders (empresa de
desenvolvimento de soluções BI proprietárias), é possível verificar que o interesse pela
adoção de ferramentas BI aumentou, mas que nem sempre a adoção de ferramentas BI é
sinónimo de sucesso. Segundo esse estudo existe um enorme número de projetos BI que
terminam em fracasso. No mesmo estudo são identificadas as principais razões que
conduzem a esse fracasso (Pino, 2011).
Das dez razões expressas temos como principais responsáveis pelo fracasso:
•
•
•
•
•
•
•
O processo de levantamento de requisitos pouco claro: é importante definir KPIs
(Key Performace Indicators) de forma concisa e correta para que o processo de
tomada de decisão seja o mais correto e coerente.
Existência de dados incorretos ou incompletos: é vulgar a existência de dados
desatualizados, incorretos ou inacessíveis. Este tipo de dados com pouca
qualidade representa um problema nos projetos de BI.
Envolvimento de utilizadores finais tardiamente: tal como noutros tipos de
projetos é importante integrar utilizadores finais no desenvolvimento do projeto,
de forma a precaver anomalias e tornar o projeto mais acessível e à medida do
utilizador e dos seus processos normais de trabalho.
Resultados finais num prazo médio de dois anos: nos casos em que o cliente não
recebe versões provisórias do projeto para ir testando e avaliando o projeto,
conhecendo apenas o projeto na sua parte final, pode representar um fracasso na
abordagem e implementação de requisitos.
Falta de gestão da mudança: é importante existir um grupo de pessoas responsável
por acompanhar o desenvolvimento do projeto de modo a gerir atempadamente
ajustes e mudanças. Da ausência de gestão de mudanças resultam custos
adicionais e atrasos na entrega final do projeto.
Cumprimento e segurança descuidados: muitas vezes as equipas de
desenvolvimento não se preocupam com questões de segurança, este é um aspeto
que deve ser tido em conta para sigilo de dados.
Documentação pobre sobre o ambiente de trabalho da aplicação: é comum nas
ferramentas de BI pouca documentação sobre a ferramenta que normalmente varia
de versão para versão.
13
CAPÍTULO 3
•
•
•
Recursos de hardware
ardware estimados de forma incorreta:: a capacidade necessária por
vezes é subestimada, resultando desse erro de cálculos clientes insatisfeitos.
Funcionários centrados no Excel:
Excel a mudança de costumes é uma barreira para os
utilizadores, tornando-se
tornando se difícil abandonar hábitos que foram adquirindo ao longo
do tempo, em que se familiarizaram com determinada aplicação.
Orçamentação
ação inadequada:
inadequada: erros de orçamentação resultam sempre em clientes
insatisfeitos.
3.1.5. Arquitetura de BI
Para uma melhor compreensão de todos os passos dos processos de BI vamos analisar a
sua arquitetura. A Figura 3.2
3. ilustra a arquitetura de um processoo de BI.
BI
Figura 3.2. Arquitetura de processos de Business Intelligence
A arquitetura de BI,, ilustrada na Figura 3.2, pode ser analisada em cinco passos.
Passamos a descreve-los:
Passo 1 •
Recolha de dados:: os dados podem ser provenientes de bases de dados
dado de sistemas
de informação diversos, ERP (Enterprise Resource planning), CRM (Customer
Relationship Management),
Management) ‘flat files’ ou de ficheiros de dados externos
(normalmente ficheiros Excel e/ou CSV (Comma-Separated
(Comma Separated Values)).
Passo 2 •
14
Processo de tratamento
tratamento de dados: processo de ETL (Extract, Transform, Load),
neste passo os dados são trabalhados, extraídos, transformados e carregados para
uma DW, Data Marts ou cubos de dados.. Por vezes existe incoerência de dados ou
necessidade de transformar dados para outro
outro formato que não o original, este é o
CAPÍTULO 3
processo de ”Transformação”, (p. ex: transformar mês 1 em ‘janeiro’; Sim ou Não
em ‘1’ e ‘0’ respetivamente, etc.).
Passo 3 •
Carregamento de dados: após o passo 1 e 2, a última operação de ETL é o
carregamento de dados, este carregamento de dados pode ser efetuado para DWs
(Data Warehouses), Data Marts (DWs mais pequenas, normalmente associadas a
um setor do negócio) e cubos de dados.
Passo 4 •
Criação de elementos BI: após o carregamento dos dados é possível usufruir das
várias funcionalidades das ferramentas de BI, nomeadamente, construção de
relatórios, análises de Data Mining, consultas ad-hoc, consultas OLAP, criação de
dashboards e análises geográficas.
Passo 5 •
Monitorização e interação com o utilizador: o último passo é a apresentação de
resultados ao utilizador, o utilizador tem a possibilidade de visualizar os
resultados obtidos dos processos de cruzamento de dados e interagir com a
ferramenta.
3.2. Propriedades de BI
Antes de avançarmos, e para percebermos melhor os conceitos presentes na Figura 3.2,
que representa a arquitetura de BI, vamos conhecer melhor, de forma detalhada cada um
dos elementos.
3.2.1. Data Warehouse
Data Warehouse é o termo que designa armazém de dados, na prática uma DW é um
sistema de armazenamento de dados de grandes dimensões, desenvolvido para guardar
grandes quantidades de dados de vários processos de negócio. A sua estrutura foi
desenvolvida a pensar num acesso menos moroso aos dados, a sua arquitetura dispensa as
normalizações conhecidas da arquitetura de bases de dados relacionais, aumentando o
desempenho das consultas à base de dados. A estrutura de um Data Warehouse é
constituída por dois tipos de elementos, tabelas de factos (guardam os valores resultantes
da medição de negócio) e dimensões (elementos chave de um negócio ou de cada
processo de negócio) (Wikipédia, Data Warehouse).
3.2.2. Data Marts
Os Data Marts são repositórios de dados que representam um subconjunto de dados de
um Data warehouse. Habitualmente os Data Marts surgem associados a conceitos
específicos ou processos de negócio próprios. Vendas, controlo de stocks, vendas
15
CAPÍTULO 3
semanais, são alguns exemplos do que é um Data Mart. Os Data Marts são atualmente
estruturas bastante flexíveis, preferencialmente constituídas por dados atómicos.
3.2.3. Metadados
O conceito de metadados surgiu em 1969 e foi criado por Jack Myres (Pereira et al,
2005), designando os dados que descreviam registos de arquivos convencionais. Por
outras palavras, metadados são dados utilizados para descrever outros dados, isto é, dados
que guardam informação relativamente aos dados a que se referem.
Os metadados são utilizados como um dicionário de informação, neste contexto são
metadados todas as informações relacionadas com (Wikipédia-Data Warehouse, 2011):
•
•
•
•
•
•
•
•
•
•
•
•
16
Origem dos dados: informação que permite saber a proveniência dos dados.
Fluxo de dados: os elementos de dados necessitam de ter identificado os fluxos
nos quais sofrem transformações.
Formato dos dados: todos os elementos possuem designação relativamente ao tipo
e tamanho de dados.
Nomes e ‘alias’: todos os elementos devem ser identificados por um nome. O
nome pode ser da área de negócio ou um nome técnico, os alias também estão
inseridos neste contexto.
Definições de negócio: esta informação tem bastante importância, tendo em conta
que especifica o tipo de negócio ou o processo de negócio.
Regras de transformação: esta informação retrata as ações praticadas no processo
de extração, transformação e limpeza dos dados.
Atualização de dados: a referência temporal é importante para definir atualizações
sobre os dados.
Requisitos de teste: devem conter informação relativamente aos intervalos de
valores corretos no preenchimento de dados.
Indicadores de qualidade de dados: é possível integrar informação relativamente à
qualidade dos dados, tendo em conta a sua origem e o número de processamentos
efetuados sobre esse dado, por exemplo.
Triggers automáticos: podem existir processos automáticos associados aos
metadados definidos.
Responsabilidade sobre a informação: deve ser identificado o responsável pelo
registo dos dados e o responsável pelos processos de transformação sobre os
mesmos.
Acesso e segurança: restrição de utilizadores com acesso aos dados e informações
relativamente à segurança são aspetos muito importantes.
CAPÍTULO 3
3.2.4. ETL
O conjunto de processos de ETL (Extract, Transform, Load) divide-se em três passos,
Extração, Transformação e Carregamento. Este é um dos processos mais críticos de BI.
No processo de extração é importante que se conheça a validade dos dados a fim de os
transformar da melhor forma. O processo de transformação pode ser dispensável em
alguns casos e bastante complexo noutros. No processo de transformação podem ocorrer
diversos tipos de transformações, tais como (Kimball, 2008):
•
•
•
•
•
•
•
•
•
Seleção de determinadas colunas de dados a carregar.
Limpeza de dados (Transformação de “Masculino” da fonte de dados para “M” na
Data Warehouse, por exemplo).
Codificação de valores de forma livre (Transformar “Masculino” e “Sr.” Em “M”,
por exemplo).
Derivação de um novo valor calculado (Intervalo_tempo = data_final –
data_inicial).
Junção de dados, provenientes de fontes distintas.
Resumo de várias linhas de dados (p. ex: a soma de totais de vendas por loja e por
região).
Gerar valores de chaves substitutas (Surrogate Keys).
Transposição ou rotação (converter colunas em linhas e vice versa).
Separação de uma coluna por várias colunas (p. ex: a separação de um campo data
do tipo ‘aaaa-mm-dd’ em ‘aaaa’, ‘mm’ e ‘dd’).
Após a estruturação do modelo de ETL, procede-se ao último passo, que retrata o
processo de carregamento dos dados para uma Data Warehouse ou Data Mart.
3.2.5. Cubos de dados
O cubo de dados é a representação de um formato lógico que permite modelar e visualizar
dados em diversas perspetivas. O cubo de dados é constituído por dimensões e tabelas de
factos.
As dimensões representam atributos do repositório de dados, apresentando as suas células
os valores relativos às medidas de interesse registadas pelas tabelas de factos (Veras,
2009).
A Figura 3.3 ilustra um cubo tridimensional com o total de vendas de um produto num
determinado mês numa região específica.
17
CAPÍTULO 3
Figura 3.3. Cubo tridimensional com o total de vendas
Na Figura 3.3 é possível visualizarmos um cubo de dados com três dimensões, a partir da
representação do cubo é possível conhecer o total de vendas relativamente aos produtos
(A, B, C, D, E e F), nos meses de (Janeiro, Fevereiro, Março, Abril, Maio e Junho), por
região (Norte, Sul, Este e Oeste).
3.2.6. OLAP
O conceito OLAP (On-Line Analytical Processing) define o processamento analítico
online dos dados. Permite a visualização de conjuntos de dados organizados em cubos
multidimensionais. A sua finalidade é a de reunir conjuntos de dados de forma organizada
e hierárquica fornecendo uma melhor organização dos dados, ajudando a uma melhor
compreensão por parte dos utilizadores. Estes processos são extremamente importantes
no auxílio à tomada de decisão (Anzanello, 2007).
Para uma melhor compreensão das caraterísticas das aplicações OLAP passamos a
enumerá-las:
•
•
•
18
Cubo de dados – é uma estrutura multidimensional que permite analisar dados de
forma simples (elemento descrito anteriormente em 3.2.5).
Dimensão – é uma unidade de análise que agrupa dados de negócio. As dimensões
fazem parte dos cabeçalhos de linhas e colunas.
Hierarquia – composta por todos os níveis de uma dimensão. Existem dois tipos
de hierarquias, as balanceadas e as não balanceadas. Na hierarquia balanceada os
níveis são equivalentes, nas hierarquias não balanceadas não existe equivalência
de níveis. Como exemplo, olhemos para uma dimensão geográfica país, Portugal
não possui estados enquanto que os Estados Unidos da América (EUA) possuem
CAPÍTULO 3
•
cinquenta estados. Este é um exemplo de hierarquia não balanceada em que
Portugal não possui o subnível estado e os EUA possuem. Por outro lado, Portugal
possui distritos enquanto que os EUA não.
Membro – é um subconjunto de uma dimensão, a tabela seguinte ilustra um
exemplo prático, apresentando o sub nível e os seus membros de uma dimensão
geográfica.
Tabela 3.1. Demonstração elementos OLAP
Nível
Região
Países
Estados/províncias
•
Membros
Europa, América do Norte, Ásia
Portugal, Brasil, EUA
Califórnia, Boston
Medida – dimensão especial utilizada para fazer comparações. Esta dimensão
surge associada a elementos como somas de totais, médias, custos, lucros, taxas,
etc.
3.2.6.1. Arquiteturas OLAP
Mediante a forma de armazenamento de dados necessários a uma aplicação OLAP, devese procurar aplicar a arquitetura que melhor satisfaça as pretensões do utilizador/cliente.
As arquiteturas OLAP de armazenamento são (Araújo, 2009):
•
•
MOLAP – Multidimensional On-Line Analytical Processing, representa a
arquitetura OLAP tradicional. Nesta arquitetura os dados são guardados em cubos
multidimensionais e não na base de dados. O utilizador trabalha os dados do cubo
e manipula-os diretamente no servidor. Esta arquitetura tem como vantagens o
alto desempenho (os cubos são construídos previamente e no servidor) e a
execução de cálculos complexos (todos os cálculos são gerados previamente
aquando da criação do cubo de dados). Esta arquitetura tem como desvantagens a
baixa escalabilidade (a vantagem de performance adquirida com a execução
prévia de cálculos torna-a numa arquitetura limitada relativamente à quantidade de
dados) e investimentos altos (esta arquitetura exige bastantes investimentos
adicionais na projeção de cubos).
ROLAP – Relational On-Line Analytical Processing, os dados são provenientes
de bases de dados relacionais. A manipulação de dados da base de dados aparenta
as operações de Slice/Dice (descritas em 3.2.6.2) e cada ação Slice/Dice equivale
à junção de uma cláusula ‘WHERE’ em uma consulta SQL (Structured Query
Language). Esta arquitetura tem como vantagens a alta escalabilidade (utilizando
esta arquitetura não existe limitação à quantidade de dados a serem analisados) e a
possibilidade de recorrer a funcionalidades implícitas no próprio SGBD (Sistema
de Gestão de Base de Dados). Esta arquitetura apresenta como desvantagens, o
baixo desempenho (tendo em conta que cada relatório de dados representa pelo
19
CAPÍTULO 3
•
•
menos uma consulta SQL, estas consultas podem ser morosas nos casos em que a
base de dados possua grandes quantidades de dados) e o facto de ser limitada
pelas funcionalidades SQL (torna-se constrangedor executar cálculos complexos
utilizando SQL).
HOLAP – Hybrid On-Line Analytical Processing, tecnologia recente que tem por
base a junção de MOLAP e ROLAP, oferecendo uma junção de performance
existente no MOLAP e escalabilidade proveniente do ROLAP. HOLAP utiliza
cubos de dados multidimensionais, em casos de necessidade de maior informação,
esta arquitetura possibilita acesso à base de dados relacional. As vantagens são o
alto desempenho (cubos de dados armazenam a síntese da informação) e a alta
escalabilidade (a informação detalhada fica guardada na base de dados relacional).
A desvantagem desta arquitetura é o seu custo, sendo a que detém o custo mais
elevado de entre as arquiteturas OLAP.
DOLAP – Desktop On-Line Analytical Processing, arquitetura que permite ao
utilizador emitir uma consulta para o servidor obtendo o cubo de dados respetivo,
posteriormente o cubo de dados será analisado na estação cliente. As vantagens
desta arquitetura são o pouco tráfego na rede (o processamento OLAP é todo ele
efetuado na estação cliente), ausência de sobrecarga do servidor de base de dados
(tendo em conta que todo o processamento acontece na estação cliente) e a
portabilidade de dados oferecida pela arquitetura. A desvantagem desta arquitetura
é a limitação do tamanho do cubo de dados (caso o cubo de dados seja grande, a
análise passa a ser morosa colocando até em causa a capacidade de suporte da
estação cliente).
3.2.6.2. Elementos OLAP
As ferramentas OLAP permitem fazer várias ações sobre os cubos de dados. Para melhor
conhecermos os conceitos vamos descreve-los:
•
•
•
20
Consultas ad-hoc: o termo ad-hoc deriva do latim, e tem o significado de “para
isto” ou “para esta finalidade”, que atribui um valor de especificidade por parte do
termo. Este é um tipo de consultas geradas pelo utilizador da aplicação a dada
altura, tendo em conta as suas necessidades, procedendo ao cruzamento de dados
de forma espontânea e aplicando métodos que o conduzam à obtenção dos
resultados pretendidos.
Slice-and-Dice: funcionalidade que possibilita alteração de visão e perspetivas.
Permite a alteração da posição dos dados e a troca de linhas por colunas, com o
objetivo de facilitar a análise por parte dos utilizadores.
Drill-down/up: funcionalidade que permite visualizar informação em maior
detalhe (p. ex: na dimensão tempo a informação pode ir até ao detalhe hora,
minuto, segundo).
CAPÍTULO 3
•
•
Drill-Through: funcionalidade que permite realizar uma consulta SQL, associando
as instruções SQL como filtros da consulta.
Drill-across: processo de consultas combinadas a várias tabelas de factos,
agrupando os resultados num único conjunto de dados. Um exemplo da utilização
de este conceito é a criação de duas estrelas idênticas em que a primeira estrela
guarda uma previsão de dados e a segunda estrela será composta por dados reais.
Neste caso prático as duas estrelas devem ser compostas pelas mesmas dimensões
de forma a ser possível a comparação entre dados previstos e dados reais
(Thornthwaite, 2005).
Para além destas funcionalidades, as ferramentas de OLAP permitem normalmente
visualizar gráficos ilustrativos dos dados representados nas dimensões do cubo
(Anzanello, 2007).
3.2.7. Dashboards
O termo dashboard pode ser entendido como um painel de bordo. São responsáveis por
demonstrar de forma ilustrada o desempenho dos processos de negócio de toda a
organização (Wikipédia-Dashboards, 2011). Podem ser representados num painel virtual
composto por uma ou mais camadas constituídas por instrumentos virtuais, como: Knobs
(espécie de manómetros), mostradores e gráficos diversos (barras, colunas, bolhas, área,
etc.), e tabelas.
Os dashboards relativamente à sua aplicação podem classificar-se como (Eckerson,
2006):
•
•
•
Dashboards operacionais: Permitem a monitorização e acompanhamento dos
processos de negócio, por parte de supervisores e trabalhadores.
Dashboards táticos: voltados para o acompanhamento de processos
departamentais. Este tipo de dashboards é destinado a gerentes e analistas de
negócio.
Dashboards estratégicos: permitem acompanhar a execução dos objetivos
estratégicos delineados pelas empresas. Este tipo de dashboards é destinado a
gestores, executivos e restante organização.
No conceito de BPM (Business Process Management) os dashboards devem ser o
resultado final da fase de BAM (Business Activities Monitoring).
3.2.8. Data Mining
O conceito de Data Mining, ou prospeção de dados (traduzido para português), é o
processo responsável pela exploração de grandes quantidades de dados. Este processo tem
como principal objetivo a procura de padrões consistentes, como regras de associações ou
sequências temporais. Estes padrões permitem detetar relacionamentos sistemáticos entre
variáveis, em busca de subconjuntos de dados (Wikipédia-Data Mining, 2011).
21
CAPÍTULO 3
Os processos de Data Mining partem geralmente da seleção de algumas colunas de DWs
ou Data Marts. Este conceito trabalha sobre sequências de dados, implementando
técnicas das áreas de estatística, recuperação de informação através da área de
inteligência artificial e reconhecimento de padrões. Vejamos um exemplo prático para
uma melhor perceção das capacidades de Data Mining.
Sequência original: ABCXYABCZKABDKCABCTUABEWLABCWO
Após analisarmos atentamente a sequência acima, podemos verificar que:
•
•
Existem sequências de dados que se repetem, “AB” e “ABC”.
Existe segmentação de carateres tendo “AB” e “ABC” como prefixo.
"ABCXY"
"ABCZK"
"ABDKC"
"ABCTU"
"ABEWL"
"ABCWO"
Atendendo aos dados representados acima, podemos descrever estes segmentos de dados
recorrendo a representações genéricas.
"ABC??", "ABD??", "ABE??" e "AB???"
O carater ‘?’ representa qualquer letra. Pegando nesta representação podemos partir para
um caso prático de exemplo. Suponhamos que ‘A’ representa a compra de um produto,
(p. ex: pão), ‘B’ representa a aquisição de leite enquanto que ‘C’ possa indicar um tipo de
leite (p. ex: meio gordo). Na prática com estes dados ficamos a saber que os clientes que
compraram pão também compraram leite. Esta é uma das várias abordagens que o
conceito Data Mining nos permite avaliar. Este tipo de informação permite tomar
medidas de incentivo ao cliente. Normalmente as superfícies comerciais, tendem a expor
este tipo de produtos lado a lado para facilitar a ação do cliente e ao mesmo tempo
incentivar a sua compra.
Este é um dos conceitos BI recente mas que tem evoluído bastante nos últimos anos.
3.2.9. GEO/GIS
Um Sistema de Informação Geográfica (SIG), ou Geographic Information System (GIS),
é um sistema composto de hardware, software, informação espacial e procedimentos
computacionais. Estes procedimentos permitem uma melhor análise de forma
simplificada, e uma melhor gestão ou representação do espaço e dos factos que nele
22
CAPÍTULO 3
ocorrem. Este tipo de sistemas é utilizado com o intuito de detetar e delinear
acontecimentos no espaço físico.
Em BI, este tipo de sistemas é utilizado para análises no espaço, permitindo a utilização
de mapas (p. ex: Google Maps) para especificar zonas com maior poder de compra, maior
número de vendas, maior venda a nível de produtos, etc (Wikipédia-GEO, 2011).
3.2.10. KPIs
Os Key Performance Indicators (KPIs), são indicadores chave de desempenho, tem como
principal objetivo medir quaisquer resultados das medidas implementadas. Nos
dashboards é comum existirem várias referências de KPIs, servindo essencialmente para
verificar se os resultados obtidos estão a superar ou a falhar as metas pretendidas. É uma
funcionalidade bastante importante em BI, facilitando a visualização de resultados e
comparando-os com as metas a alcançar.
3.2.11. Importação e Exportação de dados
O processo de importação de dados está relacionado com a introdução de dados no
sistema provenientes de fontes externas. Estes dados podem ser provenientes de bases de
dados externas ou ficheiros de dados.
A exportação de dados é o processo disponibilizado pelas aplicações de BI, que permite
exportar dados para fontes externas, normalmente para suporte Excel, PDF (Portable
Document Format) e visualizações em HTML (Hypertext Markup Language), por
exemplo.
3.2.12. OLTP
Online Transaction Processing (OLTP), termo que designa os sistemas de processamento
de transações, isto é, são sistemas concebidos para registar todas as transações implícitas
a uma determinada organização. No dia a dia utilizamos alguns sistemas deste tipo, como
são os casos dos processos de transações bancárias que registam todas as atividades afetas
a cada cliente, reservas on-line, utilização de cartões de crédito, etc. Também os sistemas
ERP (Enterprise Resource Planning) se enquadram nesta categoria (Wikipédia-OLTP,
2011).
3.2.13. Relatórios
Relatórios BI são constituídos por um conjunto de elementos diversos de BI. Ilustram
relatórios construídos à medida de uma necessidade, compostos de elementos distintos
como: tabelas de dados, dashboards, cubos de dados, análises de Data Mining, análises
de referenciação geográfica, KPIs etc. É possível configurar a sua construção de modo a
obter relatórios relativos a períodos de tempo específicos (hora, dia, semana, mês,
trimestre, semestre, ano, etc.) ou elementos exclusivos (nº de vendas de determinado
23
CAPÍTULO 3
produto, total de vendas de determinada loja, etc.). Os relatórios representam um dos
elementos mais importantes de visualização dos processos de BI.
24
CAPÍTULO 4
4. SOFTWARE OPEN SOURCE E PMEs
Neste capítulo abordamos os conceitos de software open source e apresentamos uma
descrição sobre PMEs, definindo as suas caraterísticas.
O termo open source (código aberto) foi criado pela open source Iniciative (OSI) em
1988. De um modo geral, estamos perante um tipo de software que respeita as políticas de
liberdade estipuladas pela Free Software Foundation (FSF), que são também partilhadas
pelo projeto Debian Free Software Guidelines (DFSG).
Por vezes o software open source é vulgarizado por software gratuito, no entanto, existem
algumas diferenças entre “software gratuito” e “software open source”; a principal
diferença é que o software gratuito apesar de não implicar custos não é desenvolvido
sobre as regras de software open source, estipuladas pela OSI (OSI, 2011), nem
reconhecido como software open source por parte da OSI e FSF.
Uma aplicação Open Source deve, segundo a OSI, garantir as dez regras seguintes (OSI,
2011):
•
•
•
•
•
•
•
•
•
Distribuição livre: a licença não deve restringir a venda ou distribuição gratuita do
programa bem como a distribuição do software como componente de outro
programa.
Código fonte: o código fonte da aplicação deve estar incluído ou ter acesso
gratuito. Deve ainda ser obtido de forma fácil e clara.
Trabalhos derivados: as modificações e redistribuições têm de ser permitidas bem
como a possibilidade de redistribuição do mesmo sobre a mesma licença.
Integridade do autor do código fonte: a licença pode restringir a distribuição de
código modificado se as mesmas licenças permitirem que as modificações sejam
redistribuídas como patches (pequenas funcionalidades).
Sem descriminação contra pessoas ou grupos: ninguém pode ser impedido de
utilizar o software.
Sem descriminações contra grupos de trabalho: A sua utilização não pode ser
proibida em nenhuma atividade. Por exemplo, não se pode proibir que o software
seja utilizado em qualquer empresa ou até para fins de pesquisas genéticas.
Distribuição de licença: a licença que acompanha o software tem obrigatoriamente
de suportar a totalidade do produto, evitando a necessidade de licenças adicionais.
Licença não deve ser específica para um produto: a licença de um software não
deve depender do facto deste fazer parte de uma distribuição particular de
software.
Licença não pode ser restrita a outro software: a licença não pode obrigar por
exemplo, a que outro software com o qual é incluída, seja também ele open
source.
25
CAPÍTULO 4
•
Licença deve ser tecnologicamente neutra: a licença não deve estabelecer uma
tecnologia individual, estilo ou interface para ser aplicado no programa.
Todo o software que garanta as dez medidas acima enunciadas designa-se por software
open source. O software gratuito não considerado open source, normalmente falha
alguma (s) das regras mencionadas pela OSI, sendo desta forma considerado de software
gratuito. Muitas vezes, este tipo de projetos surge associado a versões de demonstração de
projetos comerciais, em que o cliente tem apenas acesso a parte das funcionalidades,
sendo o acesso restrito a uma quantidade de espaço de alocação no caso de projetos Web;
acesso a uma licença periódica que expira num curto período de tempo; ou que possibilita
explorar o ambiente de trabalho mas não permite exportar ou guardar o trabalho
produzido.
Tal como outros tipos de software, o open source tem vantagens mas também apresenta
alguns inconvenientes (Martins e Oliveira, 2008), (open source, 2007). Para uma melhor
perceção dos pontos fortes e fracos do software open source, iremos descrever nas
secções seguintes as suas principais vantagens e desvantagens.
4.1. Vantagens do Software Open Source
Podemos afirmar que as principais vantagens da utilização de software open source são:
•
•
•
•
•
•
•
26
Baixo custo: para além do software ser gratuito, os equipamentos de hardware
necessários não são tão exigentes em termos de capacidade de processamento,
quando comparados com os requisitos de hardware exigidos pelo software
comercial, permitindo desta forma, reduzir o valor dispendido com os próprios
dispositivos.
Suporte da comunidade: o conceito de open source permite a troca de informação
e esclarecimento de dúvidas perante a comunidade de desenvolvimento, bem
como a contribuição na programação do software juntamente com a equipa de
desenvolvimento. Normalmente existem fóruns de discussão associados a cada
projeto.
O software pode ser partilhado e utilizado para fins diversos.
Acesso ao código fonte, permitindo por isso o seu estudo, alteração e
implementação de novos módulos de funcionalidades.
Possibilidade de adaptação às reais necessidades de cada organização, a
disponibilização do código permite a adaptação do mesmo às pretensões de cada
identidade.
Constante atualização das versões através da contribuição da comunidade que o
suporta.
Possibilidade de experimentar o software sem que isso implique qualquer custo.
Este factor contribui para a seleção do software que melhor se enquadre na real
CAPÍTULO 4
•
necessidade da instituição, evitando desperdício em aquisições de software que
não satisfaça os requisitos pretendidos.
Facilidade em aceder a software open source, nomeadamente acedendo aos
repositórios específicos para download deste tipo de software (em 4.3 serão
enumerados alguns repositórios de software open source).
4.2. Desvantagens do Software Open Source
De entre as desvantagens do software open source, destacamos as seguintes:
•
•
•
•
Projetos em constante desenvolvimento: o que significa que os projetos podem
ainda não ter atingido o grau de maturidade aceitável.
Problemas no software: o facto de ser uma comunidade open source a
desenvolver, por vezes suscita dúvidas relativamente à qualidade do produto final.
Contudo, de um modo geral nos últimos anos assistimos a uma grande melhoria
nos processos de teste das aplicações, mas ainda assim continuam a ser suscetíveis
de conterem alguns bugs e falhas no seu desenvolvimento, o que por vezes
também acontece em software comercial.
Inexistência de informação: à exceção de uma minoria de projetos open source
bem sucedidos, existe uma maioria de projetos open source que possuem pouca
informação relativamente à instalação e ao suporte das aplicações.
Continuidade dos projetos: esta nem sempre é assegurada, porque depende do tipo
de aceitação por parte do mercado, e do objetivo da comunidade de o tornar um
projeto comercial, estando o seu desenvolvimento condicionado pelo trabalho das
equipas de voluntários.
Muitos são os projetos bem sucedidos do “mundo” open source que surgiram no mercado
pelas comunidades de desenvolvimento e que posteriormente foram adquiridos por
grandes empresas, patenteando e tornando-os software de licença comercial. Por
exemplo, a Apple usa software open source como base do seu sistema operativo; o
sistema operativo da Google para dispositivos móveis, o Android, é também open source;
o Firefox e o Google Chrome, Web browsers open source, já são mais usados do que o
Internet Explorer.
Existem muitos outros tipos de software que mantêm a sua licença open source para
cativar o mercado e desenvolvem uma versão comercial com mais funcionalidades, de
modo a financiar o desenvolvimento dos seus projetos.
4.3. Onde encontrar Software Open Source?
Nesta secção iremos apresentar uma lista de repositórios Web, onde é possível: adquirir
software open source, aceder a informação de suporte, esclarecer dúvidas em blogues de
discussão, participar no desenvolvimento de projetos entre outras opções.
27
CAPÍTULO 4
Existem repositórios específicos na Internet para disponibilizar projetos open source
desenvolvidos pelas comunidades de desenvolvimento. A existência destes repositórios
permite que as comunidades de desenvolvimento possam divulgar e alocar os seus
projetos com maior facilidade, bem como, proporcionar aos utilizadores um acesso a
software open source de forma simples.
Os repositórios de projetos open source, permitem proceder ao download e partilha de
projetos, procurando desta forma angariar e divulgar novos projetos bem como despertar
o interesse de possíveis colaboradores.
Alguns dos projetos open source detêm um repositório próprio pertencente à sua
comunidade de desenvolvimento, que permite discussão e esclarecimento de dúvidas
entre os membros da equipa de desenvolvimento e os utilizadores. Esta é uma forma de
entender as dificuldades diversas dos utilizadores e de detetar eventuais bugs que
necessitem de ser corrigidos nas versões futuras.
Com a exceção dos projetos indicados na secção anterior, a grande maioria dos projetos
open source são alocados e partilhados em repositórios comuns, acessíveis a todo o tipo
de público em geral. De seguida, iremos listar alguns dos repositórios de projetos Open
Source mais divulgados, indicando também o link respetivo da página Web onde pode ser
efetuado o download do software (Martins e Oliveira, 2008):
•
•
•
•
28
SourceForge (http://sourceforge.net/) - neste repositório é possível: colocar
projetos desenvolvidos e em desenvolvimento; apresenta uma lista de projetos
agrupados por mês de realização; permite visualizar estatísticas de downloads e
colaboração; visualizar o número de downloads registados de cada projeto;
contém browser, blogues e um separador de suporte no qual se encontra toda a
documentação.
Freshmeat (http://freshmeat.net/) – este repositório disponibiliza funcionalidades
para: visualizar projetos e artigos inscritos mais recentemente; guardar também
artigos; pesquisa de projetos associados a tags; disponibilizar informação acerca
de cada projeto; discussões e esclarecimento de dúvidas em blogues.
Hotscripts (http://www.hotscripts.com/) – este repositório permite: visualizar um
conjunto de projetos agrupados por linguagem de programação; ter conhecimento
relativamente ao top de projetos procurados; disponibiliza uma avaliação dos
projetos mais populares; a utilização de fóruns e blogues diversos para a partilha
de informação.
RubyForge (http://rubyforge.org/) – este repositório oferece: suporte para projetos
desenvolvidos na linguagem Ruby; uma listagem de projetos que necessitam de
ajuda no desenvolvimento; apresenta valores estatísticos relativamente aos
projetos mais ativos na semana corrente; exibe a lista dos projetos mais recentes; e
mostra o top de projetos com maior número de downloads registado.
CAPÍTULO 4
•
•
•
•
•
•
•
•
Savannah (http://savannah.gnu.org/) – este repositório disponibiliza aos
utilizadores acesso às últimas notícias da comunidade; permite a consulta de
projetos; apresenta valores estatísticos do repositório; exibe uma lista dos projetos
que necessitam de colaboradores para o seu desenvolvimento; expõe o top de
popularidade de cada projeto; mostra a lista de projetos alocados recentemente.
CodeHaus (http://www.codehaus.org/) – neste repositório é possível: a pesquisa
de projetos; aceder a um separador de projetos mais recentes; visualizar
informação de suporte e das comunidades de desenvolvimento.
Tigris (http://www.tigris.org/) – este repositório permite: visualizar projetos de
forma ordenada por categorias; pesquisar projetos; filtrar projetos por nome e
conteúdo; obter informação relativamente à utilização dos IDE de
desenvolvimento, bem como acesso aos mesmos.
OpenSymphony (http://www.opensymphony.com) – este repositório é o mais
rudimentar de todos, quando comparado com os apresentados anteriormente. Este
repositório apenas permite fazer downloads e aceder ao código fonte de cada
projeto.
Unesco (http://www.unesco.org/cgi-bin/webworld/portal_freesoftware/cgi/page.
cgi?d=1) – neste repositório é possível: aceder à documentação de
desenvolvimento dos projetos; obter informação relativa a cada projeto; ver uma
listagem de projetos mais recentes; a pesquisa de projetos por palavras-chave;
visualizar os diretórios criados mais recentemente e criar links para novos
projetos.
OSS4lib (http://www.oss4lib.org/) – neste repositório destacamos: a pesquisa de
projetos por categoria e por linguagem de programação; a visualização de uma
lista dos comentários mais recentes; o acesso aos protocolos e standards das
normas de qualidade do desenvolvimento de projetos; a visualização de um grupo
de artigos e sites recentes.
TheOpenDisc (http://www.theopendisc.com/) – neste repositório é possível fazer
download de uma aplicação que permite o download de projetos de várias
categorias. O repositório é composto de wikis e fóruns para a partilha de
conhecimento.
OpenSourceWindows (http://www.opensourcewindows.org) – este repositório
apresenta uma lista de projetos open source com link direto para as suas páginas
oficiais.
O software open source oferece uma boa solução para colmatar quase todas as
necessidades. De referir, que só o repositório SourceForge.net conta com mais de 300 mil
projetos registados.
29
CAPÍTULO 4
4.4. Descrição de PME
Um foco importante do nosso trabalho de investigação
investigaç são as PMEs. Segundo a definição
europeia, PME é toda a empresa que
que possua um número total inferior a duzentos e
cinquenta trabalhadores efetivos;
efetivos um volume de negócio inferior ou igual a cinquenta
milhões de euros; e um balanço total menor ou igual a quarenta e três milhões de euros
(EEN, 2011).
A Comissão Europeia adotou
adot em maio de 2003 uma nova definição para as empresas,
com a criação do conceito de microempresas, pequenas empresas e médias empresas. As
microempresas são todas as empresas que possuam um número total de funcionários
inferior a dez; um volume de negócios
negócios que não exceda os dois milhões de euros; e um
balanço total que não ultrapasse também os dois milhões de euros.. São consideradas
pequenas empresas, todas aquelas que tenham menos de cinquenta trabalhadores efetivos;
efetivos
um volume de negócios e um balanço total
total que não excedam os dez milhões de euros. A
Tabela 4.1 permite analisar todos estes valores divididos pelas diferentes categorias.
Tabela 4.1.
4. Caraterísticas das PME (EEN, 2011)
Categoria
Média empresa
Pequena empresa
Microempresa
Efectivos
< 250
< 50
< 10
Volume de Negócios
<= 50.000.000€
<= 10.000.000€
<= 2.000.000€
Balanço total
<= 43.000.000€
43.000.000
<= 10.000.000€
10.000.000
<= 2.000.000€
2.000.000
Como já fora referido, inicialmente na secção
se ção introdutória, as PMEs têm um peso enorme
na totalidade de todas as empresas tanto
tanto a nível nacional, europeu e Mundial. A Figura
4.1 ilustra um gráfico circular que nos ajuda a perceber qual a verdadeira importância das
PMEs na economia europeia e mundial, segundo as referências (ECEI, 2010/2011) e
(Global
Global Alliance of SMEs, 2010).
2010 O gráfico
áfico relativamente à percentagem de cada tipo de
empresas a nível nacional não foi produzido face à dificuldade de representação do valor
mais baixo (0.01%) referente às grandes empresas,
empresas, tendo por base (ECEI, 2010/2011).
Percentagem de PMEs a nível Mundial
98%
PMEs
Outras
2%
Figura 4.1. Gráfico da percentagem
percenta
dos tipos de empresas a nível Mundial
30
CAPÍTULO 4
A representação da percentagem de PMEs é avassaladora, o que destaca a importância da
nossa investigação, em querer solucionar um problema que abrange um enorme número
de casos práticos.
31
32
CAPÍTULO 5
5. FERRAMENTAS BI OPEN SOURCE
Após uma primeira abordagem sobre os principais conceitos relacionados com a área de
Business Intelligence, vamos começar a especificar em maior detalhe o nosso trabalho de
investigação. O nosso trabalho de investigação tem como objetivo proceder ao
levantamento do estado da arte relativamente a ferramentas open source de BI no intuito
de as avaliar relativamente às suas funcionalidades de modo a encontrar as melhores
soluções de integração para as PME´s. Após a avaliação das aplicações open source BI
será escolhida a melhor solução que será implementada num projeto empresarial de
âmbito real numa PME.
Os passos da investigação serão descritos nas próximas secções do nosso trabalho.
5.1. Suites BI Open Source
Inicialmente procedeu-se a um levantamento do estado da arte de todas as ferramentas
open source relacionadas com a área de BI. Podemos constatar que existem bastantes
ferramentas, algumas delas desenvolvidas exclusivamente para áreas especificas, isto é,
processos de BI independentes (p. ex: processos de Data Mining, processos de ETL,
OLAP, etc.). Inicialmente começamos por descrever as ferramentas que são consideradas
‘Suite’, este termo é usado para descrever ferramentas que agrupam um conjunto de
funcionalidades BI. Como analisaremos ao longo da nossa investigação, algumas Suites
de BI integram alguns projetos independentes, tornando-as mais funcionais e com maior
ênfase de mercado.
Nesta secção iremos descrever sucintamente as principais Suites open source Business
Intelligence. As ferramentas analisadas são as seguintes: JasperSoft, OpenI, Palo,
Pentaho, SpagoBI e Vanilla.
5.1.1. JasperSoft
Segundo a própria JasperSoft (JasperSoft, 2011), a empresa é uma líder em processos
Business Intelligence. Atualmente com mais de 8.500 clientes comerciais distribuídos por
96 países. O nível de downloads da sua aplicação JasperSoft ultrapassa os 3.5 milhões.
Estima-se que o software JasperSoft seja o software de BI mais utilizado em todo o
mundo. JasperSoft é uma ferramenta open source que possui uma licença GNU GPL
(General Public Licence).
Jaspersoft Business Intelligence Suite, inclui um servidor, Jasper Server, que permite:
criar relatórios interativos, gráficos de diferentes tipos, consultas ad-hoc (possibilidade de
consultas em tempo real, permite a utilizadores com poucos conhecimentos SQL,
acederem a informação proveniente de bases de dados), interface de desenho de
relatórios, análises OLAP, ferramentas de integração de dados ETL e recurso a
bibliotecas java que permitem comunicação escalável.
33
CAPÍTULO 5
JasperSoft é uma aplicação fácil de implementar e que tem uma arquitetura incremental,
isto torna-a uma aplicação robusta e capacitiva. Possibilita a analistas e profissionais, uma
capacidade de conhecimento e observação mais aprofundadas.
JasperSoft permite a criação de relatórios e possui algumas propriedades interessantes na
criação dos mesmos, permitindo:
•
•
•
•
•
Facilidade na criação e parametrização de relatórios, sob o conceito de arrastar e
soltar (drag-and-drop);
Fazer consultas ad-hoc e criação de relatórios em tempo real;
Formatação de relatórios de forma detalhada;
Acesso a dados via XML (Extensible Markup Language), Hibernate, EJB
(Enterprise Java Beans), POJO (Plain Old Java Object) ou tipos personalizados;
Programação e distribuição automática de relatórios em diferentes formatos.
JasperSoft detém propriedades de criação de dashboards, das quais de destacam:
•
•
•
A facilidade de manuseamento através das funcionalidades de arrastar e soltar;
A possibilidade de realizar consultas ad-hoc e análises de dados em memória;
A possibilidade de elaborar páginas com tabelas, crosstabs (processo que incide
no cruzamento de dados de duas vistas de dados diferentes), gráficos, indicadores
de entrada de parâmetros em tempo real e Mash-ups (combinação de dados entre
duas ou mais fontes de dados).
As análises elaboradas em JasperSoft são baseadas em pradões ROLAP (Relational On
Line Analytical Processing), com acesso MDX padronizados para Web ou interface em
folhas de cálculo Excel.
JasperSoft permite análises de dados em memória, possibilita configurações para
processar dados em memória ou provenientes de uma base de dados relacional.
JasperSoft inclui mecanismos ETL para integração de dados. As funcionalidades ETL de
JasperSoft são suportadas pela ferramenta Talend, que disponibiliza:
•
•
•
Interface gráfico intuitivo para construção de modelos ETL;
Alto desempenho e portabilidade na geração de código Java ou Perl;
Monitorização de atividades para gestão de tarefas ETL.
A ferramenta JasperSoft possui um servidor (Jasper Server) de alta performance para
relatórios. O servidor pode ser implementado como aplicação stand-alone ou integrado
com outras aplicações. Permite consultas avançadas, análises de dados e criação de
relatórios. O servidor possui:
•
•
34
Conceito drag-and-drop, ad-hoc e query builder via comando de metadados;
Painel de software drag-and-drop com tecnologia live-refresh e mash-up;
CAPÍTULO 5
•
•
•
•
•
•
•
Análise de dados em memória;
Construção de gráficos sobre a tecnologia flash;
Conjunto de relatórios personalizados;
Agendamento de relatórios e controlo de histórico de versões;
Relatórios de segurança;
Acesso a fontes de dados relacionais XML, Hibernate, EJB, POJO’s e fontes
personalizadas;
Segurança de dados por linha e coluna.
O servidor Jasper possui uma arquitetura escalável, sendo baseada em tecnologia Web de
padrão aberto, com recurso a XML, JDBC (Java Database Connectivity), Hibernate, Java
e Web Services. O servidor é totalmente integrado em Java.
O pacote de aplicação Jasper Server é constituído por MySQL, Apache Tomcat, Portal
Liferay, abrangente para Web Services, Java e API’s HTML. O servidor contém ainda
uma particularidade interessante, suporta serviços Web não Java, .NET(C#), C++ e PHP
(Hypertext Preprocessor).
Jasper Server permite exportação de relatórios nos formatos de pdf, Html, xls, flash, doc,
rtf e ods/odt.
Relatórios, consultas ad-hoc, dashboards e mash-up’s são baseados em tecnologia AJAX
(Asynchronous Javascript And XML) e HTML de forma dinâmica.
JasperSoft permite a utilizadores sem conhecimentos técnicos sobre bases de dados ou
linguagens de consulta a bases de dados criarem relatórios e consultas ad-hoc. Para isso,
basta arrastar e soltar itens de visão empresarial definir filtros, parâmetros e gerar
consultas sem dificuldades acrescidas.
A análise em memória funciona sobre a dinâmica de AJAX com HTML. Esta
funcionalidade permite consultas ad-hoc, exploração de dados sobre o conceito multidimensional data-pivoting, perfuração, corte, classificação e filtro de dados. Estes
processos evitam sobrecarga de sistemas com criação de Data Warehouses e de consultas
OLAP baseadas em MDX.
iReport é uma ferramenta concebida para desenho de relatórios, permite o controlo total
sobre o seu conteúdo e aspeto. Esta funcionalidade é incluída no pacote JasperSoft.
A funcionalidade iReport permite:
•
•
•
•
Criação de relatórios pixel-perfect;
Pré-visualização de relatórios em diferentes formatos;
Formatação do modelo de impressão;
Upload e download de relatórios oriundos do repositório do servidor Jasper;
35
CAPÍTULO 5
•
•
•
•
Personalizar e editar gráficos baseados em tecnologia flash;
Construir gráficos de consultas SQL, MDX e domínios Jasper Server;
Drill-Through;
Girar texto.
JasperSoft inclui também funcionalidades GEO, a aplicação é constituída e auxiliada por
centenas de mapas.
JasperSoft é uma aplicação robusta, confiável e atualizável, permite uma abordagem de
integração faseada e pode ser adaptada consoante as necessidades do utilizador.
JasperSoft é um pacote BI apreciável, possui suporte para as funcionalidades principais
de BI, apresenta apenas algumas lacunas, são elas a inexistência funcionalidades de Data
Mining e inexistência de KPIs.
Figura 5.1. Arquitetura JasperSoft e Figura 5.2. Relatório JasperSoft (JasperSoft, 2011)
A Figura 5.1 ilustra a arquitetura da ferramenta JasperSoft. É possível visualizar o
conjunto de ferramentas que constitui a Suite JasperSoft. Na base da arquitetura surgem
os processos de ETL a cargo da ferramenta Talend, Posteriormente e após os processos de
ETL é possível utilizar iReports, JasperServer, JasperReports e JasperAnalysis, para os
processos de criação de relatórios e análises. Na camada superior estão representados os
elementos de visualização e interação do utilizador com a ferramenta.
A Figura 5.2 mostra um conjunto de elementos BI produzidos com auxílio de JasperSoft,
em cima da esquerda para a direita é possível visualizarmos um gráfico de barras, um
indicador de performance gráfico e um gráfico de progressão. Em baixo, da esquerda para
a direita temos uma tabela de dados, uma listagem de dados e parte de um mapa de um
sistema de informação geográfica.
5.1.2. OpenI
OpenI (OpenI, 2011) é uma ferramenta que suporta fontes de dados OLAP, bases de
dados relacionais, modelos de dados estatísticos e modelos de Data Mining. Esta é uma
ferramenta Web ideal para interagir com fontes de dados OLAP.
36
CAPÍTULO 5
A aplicação disponibiliza aos utilizadores componentes gráficas, tabelas Pivot, navegação
e configurações. OpenI permite gerar relatórios OLAP, criar processos de Data Mining e
Dashboards. A aplicação é desenvolvida sobre a linguagem de programação Java.
A ferramenta OpenI é auxiliada por alguns dispositivos de ligação, sendo a ligação entre a
aplicação e as bases de dados relacionais estabelecida através de JDBC, para fontes de
dados OLAP é utilizada a linguagem XMLA (Extensible Markup Language for Analysis),
que é um protocolo de comunicaçãosuportado pelos servidores OLAP Microsoft Analysis
Services e Mondrian. No caso de funcionalidades de Data Mining a ferramenta incorpora
um aplicativo o RProject aplicativo open source que funciona sobre uma API
(Application Programming Interface) nativa designada de RServe.
Os relatórios são suportados pela ferramenta JasperReports, tornando-se possível integrar
nestes relatórios bases de dados relacionais, relatórios OLAP e conteúdos de Data
Mining.
A interface é concebida para utilizadores distintos, com a finalidade de tornar acessível
não só a pessoas ligadas ao desenvolvimento mas a toda a comunidade, oferecendo um
interface amigável.
Em termos de segurança são regidas as especificações da tecnologia J2EE (Java 2
Enterprise Edition), após o login de utilizador, é possível aos utilizadores com permissões
de administrador configurar aspetos visíveis por parte de utilizadores com permissões
diferentes das de administrador.
Figura 5.3. Arquitetura da aplicação OpenI (OpenI, 2011)
A Figura 5.3 ilustra a arquitetura da aplicação OpenI, a aplicação é constituída pelas
componentes de interface com o utilizador, definição do tipo de relatórios suportados pela
aplicação, componentes de ligação entre funcionalidades internas da aplicação e
servidores externos, nomeadamente servidores Olap, RDBMS (Relational Database
Management System) e Data Mining. A aplicação é suportada por um servidor J2EE.
37
CAPÍTULO 5
OpenI é um pacote de funcionalidades BI de valor, ainda assim peca numa primeira
análise pela inexistência de um módulo de propriedades de ETL, pela impossibilidade de
exportar dados e pela ausência do módulo de KPI.
Figura 5.4. Elementos gráficos de OpenI (OpenI, 2011)
A Figura 5.4 mostra o painel de visualizações da ferramenta OpenI, na figura surge
representado tabelas de dados, gráficos de barras, gráficos circulares e gráficos de
progressão.
5.1.3. Palo
Palo ou JPalo (Palo, 2011), é uma ferramenta OLAP desenvolvida pela empresa Jedox
AG, cujo seu inicio de atividade remonta ao ano de 2002, sob alçada de Kristian Raue.
A Suite Palo engloba o grupo de funcionalidades Jedox, Palo OLAP Server, Palo Web,
Palo ETL Server e Palo Para Excel.
OLAP é o processo chave da ferramenta Palo. O servidor de OLAP Palo fornece
estabilidade, desempenho e algoritmos de lógica inovadores. O servidor permite multisessão em tempo real.
Palo Web concentra todas as componentes da aplicação num interface Web. Palo Web
permite criar e fazer a gestão de relatórios OLAP e a visualização de processos ETL. A
suite Palo permite acesso direto a utilizadores via Microsoft Excel e Open Office Calc.
Palo ETL Server é a componente de aquisição de dados na Web que permite extrair,
transformar, carregar bases de dados de sistemas transacionais, bases de dados simples,
DWs e outras fontes de dados externas.
A versão Palo concebida para suportes Microsoft Office Excel e Oppen Office Calc,
permite resolver problemas relacionados com o limite de dados a processar e o seu tempo
de processamento. Evita os habituais transtornos resultantes da necessidade de alteração
das habituais folhas de cálculo para sistemas de gestão de dados mais complexos. Esta
funcionalidade permite trabalhar sobre bases de dados de registos em folhas de cálculo.
38
CAPÍTULO 5
Palo para Excel inclui um servidor de base de dados OLAP robusto e disponibiliza os
plugins Oppen Office Calc Add-in e Miccrosoft Excel Add-in. Para usufruir das
funcionalidades destes plugins, basta instalá-los no Open Office Calc ou no Microsoft
Excel. Após instalados aparecerá um novo separador de funcionalidades na ferramenta
(Calc ou Excel), que permite construir um conjunto de elementos de BI.
No setor de análises, planeamentos e relatórios, Palo para Excel possui:
•
•
•
Uma base de dados multidimensional em memória, disponível para todos os
utilizadores;
Suporte para processos básicos de BI, consolidação de dados em tempo real e
propriedade write-back;
Suporte para planeamentos, análises, criação de relatórios, consolidação na área
das finanças e controlo de vendas.
Microsoft Office Excel Add-in e Oppen Office Calc Add-in, funcionam como um
aplicativo adicional fácil de instalar, permite acesso às funcionalidades Palo OLAP Server
a partir do Excel ou do Calc. Palo para Excel funciona nas versões Microsoft Office XP,
2003 e 2007, em alternativa funciona também no Oppen Office Calc.
Figura 5.5.Ambiente Microsoft Excel composto do separador Palo (Dashboardspy, 2011).
A Figura 5.5 ilustra o separador de funcionalidades Palo, instalado com recurso ao
aplicativo Microsoft Office Excel Add-in.
A ferramenta Palo baseia-se em células, isto é, não se baseia nos registos mas nas
próprias células das folhas de cálculo, daí a sua compatibilidade com as folhas de cálculo.
Resumidamente as caraterísticas de Palo são:
•
Propriedade write-back (dados só serão escritos em memória principal, quando
forçados a sair da memória cache);
39
CAPÍTULO 5
•
•
•
•
•
•
•
•
Direitos de utilizador;
Tecnologia de cálculo baseada em células;
Multidimensional;
Hierárquico;
Baseado em memória e tempo real;
Baseado em servidor;
Subconjuntos;
Regras.
Palo é uma plataforma baseada em folhas de cálculo, possibilita integração de dados
provenientes de folhas de cálculo Microsoft Excel e de Open Office Calc. A integração de
dados ETL e as consultas OLAP são as funcionalidades de maior relevo da plataforma.
Os recursos para gerar gráficos e relatórios são os disponibilizados pelas aplicações de
suporte (Microsoft Excel ou Open Office Calc).
5.1.4. Pentaho
Pentaho (Pentaho, 2011) é uma das ferramentas de Business Intelligence mais divulgadas
e conceituadas. Pentaho é uma ferramenta de apoio à decisão composta por dois tipos de
versões, Community que detém parte das funcionalidades totais da ferramenta sendo
completamente gratuita (versão open source) e uma versão Enterprise que contém todas
as funcionalidades (versão comercial).
As soluções Pentaho são soluções desenvolvidas com recurso à linguagem de
programação Java e podem ser executadas a partir de uma JVM (Java Virtual Machine).
Pentaho incorpora a ferramenta Kettle para abordagens de ETL (também designada de
pentaho Data Integration); para o cruzamento de dados OLAP incorpora as ferramentas
Mondrian e Ramsetcube; possui funcionalidades próprias para criação de relatórios de
dados; contém propriedades de Data Mining baseadas na aplicação Weka; e disponibiliza
ainda propriedades relacionadas com a criação e visualização de dashboard.
A versão Community de demonstração online permite fazer análises através de um
mecanismo próprio da Pentaho ou com recurso a xanalyzer, permite a criação e
visualização de gráficos sendo possível a escolha de entre diversos tipos de gráficos
existentes na plataforma.
É possível a criação de: relatórios, relatórios de análise e dashboards. A aplicação
disponibiliza algumas livrarias Widget (componente de interface gráficas, p. ex: janelas,
botões, menus, ícones, etc.) de Dashboards, são elas vistas de análise, KPIs e excertos de
relatórios. Os relatórios podem ser visualizados e exportados nos formatos de Html, pdf,
xls, csv, rtf e plain text.
40
CAPÍTULO 5
MDX (MultiDimensional eXpression) é a linguagem de consultas à base de dados
integrada na ferramenta, é também ela a tecnologia que sustenta as funcionalidades
OLAP da aplicação, as consultas podem ser exportadas em ficheiros pdf ou xls.
A ferramenta disponibiliza um WorkSpace que permite inserir e publicar elementos a
serem analisados.
Figura 5.6. Conjunto de funcionalidades Pentaho (Pentaho, 2011)
A Figura 5.6 ilustra o conjunto de funcionalidades disponibilizadas pela aplicação
Pentaho, apresentadas sob a forma de arquitetura. Surgem ilustrados 4 grupos de
funcionalidades distintos: relatórios (produção, operação e ad-hoc), análises (Data
Mining, OLAP e Drill & Explode), dashboards (métricas, KPIs e alertas) e processos de
gestão (integração, definição e execução).
Pentaho é um dos pacotes de BI open source mais poderosos do mercado.
41
CAPÍTULO 5
Figura 5.7. Ilustração de funcionalidades GEO de Pentaho (Dashboardinsight, 2011).
A Figura 5.7 ilustra uma representação das funcionalidades de GEO de Pentaho, com a
utilização de informação e indicadores de performance gráficos.
5.1.5. SpagoBI
SpagoBI (SpagoBI, 2011) é uma aplicação desenvolvida pela SpagoWorld, fundada em
2006 e suportada por uma comunidade open-source. A ferramenta SpagoBI possui uma
licença GNU LGPL (Lesser General Public Licence), que permite aos utilizadores
usufruir da totalidade das funcionalidades da aplicação.
Esta ferramenta tem diversas funcionalidades, destacando-se: a criação e exportação de
relatórios, a criação de gráficos, a integração de dados através de processos de ETL, a
realização de análises através de processos OLAP, os processos de Data Mining, os
processos de consultas simples a bases de dados, a criação de filtros de consulta e as
propriedades geográficas. O conjunto de todas estas funcionalidades enumeradas torna a
SpagoBI uma aplicação BI Suite.
O servidor de aplicação, SpagoBI Server, fornece e disponibiliza as funcionalidades da
ferramenta, destacando-se: servidor de aplicação, serviço de login, criação de dashboard,
processos de Data Mining, sistema de suporte a bases de dados DBMS (Database
Management System), ETL (Extract, Transform, Load), serviços de referenciação
geográfica (GEO/GIS), agenda de tarefas, servidor OLAP (On-Line Analytical
Processing), criação de relatórios, realização de consultas a bases de dados e servidor
Web. A Figura 5.8 ilustra o conjunto de funcionalidades existentes na Suite SpagoBI,
acompanhadas pela informação relativamente às ferramentas que lhe oferecem suporte
(ilustrada no canto superior direito de cada ícone).
42
CAPÍTULO 5
Figura 5.8. Conjunto de funcionalidades SpagoBI (SpagoBI, 2011)
Da análise à Figura 5.8 verificamos que SpagoBI permite a criação e visualização de
relatórios estruturados com recurso a tabelas, gráficos e aglomerados de dados, estes
relatórios têm a possibilidade de serem exportados em diferentes tipos de formatos, pdf,
txt, xls, html, xml, csv e rtf. Esta funcionalidade utiliza como recurso de sustentação as
ferramentas Eclipse BIRT, JasperReport e BusinessObject.
As propriedades OLAP disponibilizadas pela ferramenta permitem uma análise
multidimensional efetuada com recurso às perspetivas de drill-down, drill-across, sliceand-dice e drill-through (nome associado ao processo de mudança de uma dimensão para
uma outra). Os processos de OLAP são suportados pelos motores OLAP,
JPivot/Mondrian, JPalo/Mondrian, JPivot/XMLA Server.
As propriedades gráficas têm como suporte a ferramenta JFreeChart, esta funcionalidade
permite o desenho de gráficos de diferentes tipos, barras, circulares, histogramas, etc.
A ferramenta disponibiliza mecanismos de Dashboard, permite a visualização de gráficos
no formato SWF (Shockwave Flash), exibindo KPIs (Key Performance Indicators), estes
KPIs são exibidos em tempo real. A ferramenta disponibiliza requisitos de criação, gestão
e visualização de KPIs, permitindo aplicar diferentes especificações, entre elas, regras de
cálculo, limites e regras de alarme, que condicionarão a ilustração do gráfico final.
SpagoBI detém uma funcionalidade para a elaboração de cockpits que permite a junção
de diferentes documentos em apenas um, isto é, permite a elaboração de um documento
capaz de conter elementos de OLAP, Dashboards, Data Mining entre outros.
43
CAPÍTULO 5
A ferramenta disponibiliza mecanismos geográficos, que permitem interligar dados em
tempo real com dados provenientes de uma Data Warehouse, esta funcionalidade é
suportada por duas aplicações, GEO e GIS.
O processo de Data Mining nesta ferramenta, é suportado pela aplicação Weka, esta
ferramenta permite a extração de padrões e informação relevante de uma quantidade de
dados considerável.
A ferramenta fornece um motor próprio de consultas, QBE (Query by Example), as
consultas podem ser definidas pelos utilizadores de forma gráfica, esta funcionalidade
permite ainda a elaboração de consultas, verificação de resultados, exportar dados,
guardar consultas e criação de modelos de relatórios.
A opção Smart Filter permite criar formulários de consulta simples, utilizando a opção de
filtragem de dados de forma a poder selecionar informação mais válida e específica.
No campo de acessibilidade de comunicação a ferramenta disponibiliza a opção de
produzir relatórios tabulares, acessíveis tendo em conta a especificação WCAG (Web
Content Accessibility Guidelines).
A ferramenta possui um aplicativo designado de RT Console, que permite monitorizar
dados em tempo real, monitorar processos de negócio e BAM (Business Activity
Monitoring), que é a monitorização da atividade de negócio.
As funcionalidades de ETL do SpagoBI integram a aplicação TOS (Talend Open Studio).
A aplicação permite a publicação de documentos nos formatos do Microsoft Office e
Open Office.
SpagoBI disponibiliza ainda uma funcionalidade designada de dossiê, esta funcionalidade
permite agrupar de forma organizada, elementos como relatórios, a esta informação
podem ser adicionadas notas.
A ferramenta é disponibilizada nas versões, SpagoBI Studio (permite criar e modificar
documentos de análise como relatórios, gráficos etc.), SpagoBI Meta (aplicação mais
ligada à área de metadados) e SpagoBI SDK (serviço que agrupa as funcionalidades da
aplicação suportadas pelo servidor).
SpagoBI é um pacote de funcionalidades de BI de grande dimensão. O seu conjunto de
funcionalidades torna-a uma plataforma composta e com potencial, face a outras
ferramentas apresenta um grande número de funcionalidades e disponibiliza-as numa
única versão sem quaisquer custos. A incapacidade de realizar consultas ad-hoc, é o
ponto frágil deste pacote de funcionalidades face a outros existentes no mercado.
44
CAPÍTULO 5
Figura 5.9. Painel de visualização SpagoBI (SpagoBI, 2011)
A Figura 5.9 ilustra algumas propriedades BI possíveis de execução por parte da
ferramenta SpagoBI, nomeadamente a criação de gráficos de barras em 3D, tabelas de
dados e gráficos de progressão em tempo real.
5.1.6. Vanilla
Segundo o site oficial, BPM Conceil é o grupo francês líder em soluções open source BI,
é esta a organização responsável pelo desenvolvimento da plataforma Vanilla. A
plataforma Vanilla é uma solução de BI completa, pois possui todas as funcionalidades de
processos BI. A plataforma Vanilla permite efetuar: análises, criação de relatórios,
representação de tabelas de dados, definição de KPIs e análises de Data Mining.
Das funcionalidades da plataforma Vanilla, destaca-se:
•
•
•
•
•
•
•
•
•
A integração de metadados, com recurso às aplicações Birt e iReport;
A inclusão de KPIs;
Modalidade de Software as a Service (SaaS) habilitado, permite hospedagem de
projetos diferentes, num único servidor;
Pacote administrativo de gestão de servidores de auxílio à aplicação;
Pacotes Java para criação e implantação de documentos de BI (sem manipulação
de xml);
Integração completa de dashboards, relatórios, cubos de dados, ETL e
documentos;
Portal com funções BI, relatórios de anotações, livros de histórico e relatórios;
Caraterísticas de BI, conteúdo de colunas dinâmicas, fontes de dados alternativas,
modo burst (para validação da politica de segurança);
ETL integrado com suporte para SQL Server, OLAP, FreeMetrics &
FreeMetadata.
45
CAPÍTULO 5
A versão mais recente, versão V3.4 GA incute algumas novidades face às versões
anteriores, para que a plataforma consiga acompanhar as tendências e necessidades de
mercado. As novas funcionalidades são:
•
•
•
•
•
A existência de um servidor de cluster e acompanhamento;
Aumento de performance de dashboards, grelhas de dados (tipo Excel)
inovadoras;
Sistemas de gestão de conteúdos de indexação e segurança integrados;
Consultas ad-hoc;
Integração nos relatórios de tabelas cruzadas e gráficos.
A plataforma Vanilla encontra-se também disponível numa versão para sistemas
operativos Android.
Vanilla é uma das plataformas de maior destaque atualmente, para além do suporte a
todas as funcionalidades BI, a plataforma começa também a migrar para dispositivos de
suporte móvel, o que a torna uma das plataformas com um maior índice de
reconhecimento no momento.
Figuras 5.10 e 5.11. Painel de visualização Vanilla (Freeanalysis, 2011)
As Figuras 5.10 e 5.11 ilustram o ambiente de trabalho da ferramenta Vanilla, na Figura
5.10 surgem representados dois gráficos de progressão, enquanto que na Figura 5.11 é
exibido um gráfico de área.
46
CAPÍTULO 5
Figura 5.12. Versão de Vanilla a correr em dispositivos móveis (Freeanalysis, 2011)
A Figura 5.12 ilustra uma representação da versão Vanilla para dispositivos móveis. A
figura mostra-nos um relatório de dados composto por um gráfico circular e na parte
inferior a representação de uma tabela de dados. A versão inicial para dispositivos móveis
foi desenvolvida para sistemas Android. A disponibilização de uma versão móvel
representa a capacidade de inovação e objetivo de acompanhamento da inovação dos
mercados, por parte da organização BPM Conseil.
5.2. Comparação entre as ferramentas Suite BI Open Source
Após uma análise relativamente ao estado da arte de ferramentas de BI open source,
pretendemos comparar todas as Suites BI open source analisadas anteriormente em 5.1. A
Tabela 5.2.a apresenta uma comparação entre todas as Suites BI analisadas, tendo em
conta as funcionalidades de cada uma. A tabela foi preenchida com os elementos
recolhidos das várias fontes analisada.
Tabela 5.1. Comparação de funcionalidades
Funcionalidades das Ferramentas Open Source Business Intelligence
Funcionalidades
JasperSoft OpenI Palo Pentaho SpagoBI Vanilla
×
×
Consultas ad-hoc
Dashboards
×
×
Data Mining
×
ETL
×
Exportação de dados
×
×
×
GEO/GIS
Gráficos
×
×
×
KPIs
OLAP
Relatórios
47
CAPÍTULO 5
A Tabela 5.1 permite avaliar que todas as ferramentas permitem a criação de relatórios e
dashboards e todas possuem funcionalidades de OLAP. Pentaho possui todas as
funcionalidades enquanto que SpagoBI e Vanilla apenas falham num ponto de avaliação
cada, consultas ad-hoc e funcionalidades de GEO respetivamente. Da análise podemos
ainda observar que OpenI é a ferramenta que apresenta o menor número de
funcionalidades.
A Tabela 5.2 apresenta uma descrição/comparação relativamente à linguagem de
programação utilizada no desenvolvimento de cada ferramenta.
Tabela 5.2. Comparação das ferramentas quanto à linguagem de programação de
desenvolvimento
Linguagem de Desenvolvimento das Ferramentas Open Source Business Intelligence
Linguagens
JasperSoft OpenI Palo Pentaho SpagoBI Vanilla
×
Java
×
×
×
×
×
Perl
×
×
×
×
×
PHP
Na Tabela 5.2 é possível avaliar que à exceção de Vanilla todas as ferramentas são
desenvolvidas em Java. JasperSoft é também desenvolvidas em Perl, sendo Vanilla a
única ferramenta em análise desenvolvida em PHP. A análise desta tabela é interessante
do ponto de vista que ao acedermos a software open source temos a possibilidade de
desenvolver novas funcionalidades, e a linguagem Java é claramente mais cativante para
o público que qualquer uma outra.
A Tabela 5.3 identifica os sistemas operativos capazes de suportar cada uma das
ferramentas.
Tabela 5.3. Tipo de sistemas operativos que suportam as ferramentas
Sistemas operativos que Suportam as Ferramentas Open Source Business Intelligence
Sistema Operativo
JasperSoft OpenI Palo Pentaho SpagoBI Vanilla
Linux
×
×
×
Unix
Windows
A Tabela 5.3 permite identificar que todas as ferramentas são suportadas por sistemas
operativos Linux e Windows. Os sistemas operativos Unix apenas suportam, segundo os
elementos de consulta, as ferramentas: Pentaho, SpagoBI e Vanilla.
A Tabela 5.4 identifica o tipo de versões disponíveis no mercado de cada uma das
ferramentas, sendo avaliadas quanto à disponibilidade de versões open source, comerciais
e móveis.
48
CAPÍTULO 5
Tabela 5.4. Comparação das ferramentas relativamente às suas versões disponíveis
Versões das Ferramentas Open Source Business Intelligence
Versão
JasperSoft OpenI Palo Pentaho SpagoBI
Community
×
Enterprise
#
#
*
#
×
Mobile
# Apenas na versão paga.
Vanilla
×
* Na versão analisada não possuía, atualmente já possui.
Mediante a análise à Tabela 5.4 é possível reter que apenas SpagoBI e Vanilla são
verdadeiramente ferramentas open source, isto significa que não possuem versões
comerciais. Outro aspeto importante que podemos reter da análise à Tabela 5.4 é o facto
de que a comunidade de desenvolvimento de Vanilla foi pioneira na disponibilização de
uma versão otimizada para dispositivos móveis (em versões open source).
A Tabela 5.5 contém elementos relativamente ao ano de desenvolvimento e ao tipo de
licença que cada uma das ferramentas possui.
Tabela 5.5. Informações relevantes de cada uma das ferramentas.
Aspetos
Ano de
desenvolvimento
Tipo Licença
Outros aspetos das Ferramentas Open Source Business Intelligence
JasperSoft
OpenI
Palo
Pentaho
SpagoBI
Vanilla
2005
2005
2002
2004
2006
2010
GNU GPL
GNU GPL
GNU GPL
GNU GPL
GNU GPL
GNU GPL
Da análise à Tabela 5.5 podemos verificar que todas as ferramentas possuem uma licença
do tipo GNU GPL. Vanilla é a ferramenta mais recente enquanto que Palo é uma das
ferramentas open source pioneiras no mercado (não podemos considerar que tenha sido a
pioneira porque existiram ao longo dos anos ferramentas que foram sendo
descontinuadas, como o caso de BEE Project).
As principais conclusões que retiramos da análise a estas cinco tabelas, são que:
•
•
•
•
•
•
A ferramenta Pentaho é a que disponibiliza mais funcionalidades.
As ferramentas SpagoBI e Vanilla não suportam apenas uma funcionalidade cada,
do conjunto de funcionalidades avaliadas.
JasperSoft é uma ferramenta com potencial, falhando apenas em dois aspetos da
avaliação.
As ferramentas OpenI e Palo são as que disponibilizam menos funcionalidades.
SpagoBI e Vanilla são das ferramentas analisadas as únicas que são
verdadeiramente open source (apenas possuem uma única versão, community, que
disponibiliza todas as funcionalidades disponibilizadas no pacote de soluções).
Palo poderá ser uma solução viável em empresas que não possuam na sua
estrutura alguém com conhecimentos base de informática nem possibilidades de
49
CAPÍTULO 5
•
•
contratar uma pessoa com essas caraterísticas. A ferramenta poderá ser viável
tendo em conta que dispõem de um plugin para Calc e Excel, que normalmente
são ambientes com os quais os recursos humanos das empresas se sentem mais
familiarizados.
Vanilla poderá ser uma opção difícil de incluir em empresas que os seus recursos
humanos não estejam familiarizados com a linguagem de programação PHP, isto
porque, normalmente Java oferece um maior ávontade aos utilizadores.
Vanilla foi a ferramenta pioneira a desenvolver e disponibilizar uma versão para
dispositivos móveis na versão open source. Recentemente SpagoBI também já
disponibiliza uma versão para dispositivos móveis na sua nova versão 3.0.
Tendo por base estas conclusões e a análise às tabelas anteriores, consideramos que
JasperSoft, Pentaho, SpagoBI e Vanilla são as melhores ferramentas open source
existentes no mercado, sendo as que mais funcionalidades disponibilizam e maior
confiança oferecem.
5.3. Outras Ferramentas
Para darmos a conhecer mais algumas ferramentas open source da área de BI, sem que
constituam um pacote de soluções, iremos descrever sucintamente algumas ferramentas
que compõem pacotes de soluções funcionando como módulos extra. As ferramentas aqui
analisadas são as seguintes: Eclipse Birt, Mondrian, Kettle, Jpivot, Weka e RapidMiner.
5.3.1. Eclipse Birt
Em 2004 a Actuate Corporation juntamente com a fundação Eclipse iniciaram o projeto
Eclipse BIRT (Business Intelligence Reporting Tools) (Eclipse BIRT, 2011). Birt é uma
ferramenta open source flexível e de forte aceitação de mercado. BIRT funciona sobre o
IDE Eclipse, funcionando como um plugin ideal para: conceção de relatórios,
visualização de dados, análises e extrações de dados, acessos a bases de dados de
diferentes tipos, transformação de dados, aplicar lógicas de negócio sobre dados, filtrar e
formatar dados, a monitorização de resultados para o utilizador.
De um modo geral a ferramenta BIRT inclui:
•
•
•
•
•
•
•
50
Extensão de acesso a dados;
Personalização de dados;
Reutilização de componentes/bibliotecas;
Facilidade de integração;
Internacionalização;
Apresentação de dados de forma flexível;
Múltiplas ferramentas de desenvolvimento e desenho.
CAPÍTULO 5
BIRT é uma ferramenta implementada em linguagem java, os seus resultados podem ser
monitorizados através de funcionalidades Java, em aplicações stand-alone ou Java EE
para vistas Web.
Os relatórios gerados por BIRT, são relatórios XML (Extensible Markup Language).
BIRT permite acesso a bases de dados via Classic Models Inc. Simple Database, Flat File,
JDBC, Scripted, Web Services e XML.
Figura 5.13. Ambiente de trabalho Eclipse BIRT (Wikipédia-BIRT, 2011)
A Figura 5.13 ilustra o ambiente de trabalho da aplicação Eclipse BIRT. Ao analisarmos a
Figura 5.13 é possível verificar que se trata de um interface normal do IDE (Integrated
Development Environment) Eclipse. No topo da figura é possível visualizar os vários
menus de opções, uma barra lateral do lado esquerdo com funcionalidades de desenho e
indicação de diretórios. No centro da figura surge representada a área de desenho de
gráficos acompanhada pelas suas opções de especificação de funcionalidades.
5.3.2. Mondrian
A aplicação Mondrian (Mondrian, 2011) é a ferramenta de servidor OLAP, que permite a
construção de cubos de dados com várias perspetivas e dimensões. Esta ferramenta
permite o cruzamento de dados entre diferentes estrelas de negócio. Esta ferramenta é
desenvolvida com recurso à linguagem de programação Java e implementa as linguagens
de modelação MDX, XML for Analysys e especificações JOLAP (Java Online Analytical
Processing ), recebe dados de várias fontes incluindo SQL Server.
51
CAPÍTULO 5
Figura 5.14. Ambiente de trabalho Mondrian (Pentaho, 2011)
A Figura 5.14 ilustra o ambiente de trabalho da aplicação Mondrian, que possui um
interface simples e intuitivo. No topo da janela representada na figura, surgem os menus
de opções. No lado esquerdo da figura surgem representados a lista de elementos que
constituem o esquema atual, composto de cubos de dados, dimensões, elementos e
métricas. No centro da figura é apresentada alguma informação relativamente à dimensão
selecionada, é também nesta área que é possível visualizar o cubo de dados quando
selecionado nas opções disponibilizadas na barra de ferramentas.
5.3.3. Kettle
Kettle (Kettle, 2011) é uma ferramenta de apoio à integração de dados baseada nas
tecnologias de ETL (Extract-Transform-Load), tem a capacidade de ler e escrever dados
em sistemas Oracle, PosgreSQL, MySQL, SQLServer entre outros e permite importar
dados de ficheiros csv, xls e bases de dados ODBC exclusivamente na versão Windows.
Kettle também designada de Data Integration é o módulo de ETL incorporado por
Pentaho. A ferramenta é intuitiva e possui um ambiente de trabalho de fácil utilização
dotado de capacidades de construção de modelos de ETL com recurso a drag and drop.
Figura 5. 15. Ambiente de trabalho Pentaho Data Integration (PDI) (Pentaho, 2011)
52
CAPÍTULO 5
A Figura 5.15 mostra um esquema de ETL desenvolvido com recurso à utilização da
ferramenta Kettle também designada por PDI (Pentaho Data Integration). O interface da
ferramenta é simples e intuitivo, no topo da figura surgem os habituais menus de opções,
do lado esquerdo da imagem o conjunto de funcionalidades de ETL, neste caso estão
visíveis funcionalidades relativamente à entrada de dados. No centro da figura surge a
área de trabalho do projeto, em que é possível visualizar um conjunto de processos
interligados por setas que representam o sentido do fluxo de dados. No processo de ETL
representado na Figura 5.15 as fontes de dados são um ficheiro Excel e uma base de
dados Access que seguem várias etapas de transformação até ao carregamento dos dados
numa tabela designada por”fact-target”.
5.3.4. JPivot
O JPivot (JPivot, 2011) é uma biblioteca JSP (Java Server Pages) que permite o desenho
de gráficos e tabelas de dados OLAP, dispõe das opções de drill down e slice-and-dice.
Mondrian e XMLA servem de suporte para os processos de OLAP.
Figura 5.16. Representação de um cubo de dados e respetivo gráfico em JPivot
(Bestanalytics, 2011)
Na Figura 5.16 é possível visualizar um cubo de dados representado por uma tabela, e o
respetivo gráfico de barras representando os dados do cubo. JPivot utiliza consultas MDX
para a construção dos seus cubos de dados. Mais à frente iremos descrever este tipo de
consultas desenvolvido nesta linguagem (MDX).
5.3.5. Weka
Weka (Waikato Environment for Knowledge Analysis) (Weka, 2011) é uma ferramenta
open source que permite agregar algoritmos da área de inteligência artificial. O objetivo
desta ferramenta é permitir através do agregado de dados a extração de conhecimento
indutivo e dedutivo. Esta ferramenta permite a análise computacional de dados e
estatísticas aplicando conceitos de Data Mining, suportando processos de tomada de
decisão (Wikipédia-Weka, 2011).
53
CAPÍTULO 5
A ferramenta Weka é desenvolvida na linguagem de programação Java, o que lhe
concede um tipo de arquitetura flexível e portátil. A ferramenta é desenvolvida possui
uma licença do tipo GPL.
Figura 5.17. Ilustração de um exemplo de uma análise Weka (Queensu, 2011)
A Figura 5.17 permite visualizar a representação de um conjunto de frações em grelha
que delimitam conjuntos de pontos de várias cores (definindo-se por clusters em Data
Mining), a representação destes gráficos de dispersão permite extrair conhecimento
relativamente à disposição de cada cluster e relativamente às diferentes cores que os
constituem.
5.3.6. RapidMiner
RapidMiner (RapidMiner, 2011) é um software open source de Data Mining produzido
sob licença AGPL (Affero General Public License) (GNU, 2011). RapidMiner é a
continuação da versão do antigo software YALE (Yet Another Learning Environment),
ambiente de análise de textos e dados. A versão inicial foi desenvolvida pela Unidade de
Inteligência Artificial da Universidade de Dortmund, no ano de 2001. Segundo
informação contida na página Web da Rapid-I (Rapid-I, 2011), RapidMiner é a solução
open source de Data Mining líder. Estima-se que existam milhares de utilizadores da
ferramenta, distribuídos por mais de 40 países.
RapidMiner é uma ferramenta stand-alone desenvolvida em linguagem Java, utilizada
para investigação e realização de projetos. RapidMiner integra algoritmos e documentos
da ferramenta WEKA.
RapidMiner disponibiliza:
54
CAPÍTULO 5
•
•
•
•
•
•
•
Integração de dados de ETL;
Análises OLAP;
Construção de relatórios diversos;
Interação com utilizador intuitiva e poderosa para análises de processos;
Repositório para processos de manipulação de dados e metadados;
Carregamento de dados, transformação e modelação de dados;
Processos de DataMining.
RapidMiner funciona nas principais plataformas de BI e em todos os tipos de sistemas
operativos. Os processos da aplicação são suportados por arquivos XML. A ferramenta
possui linguagem de script para operações com dados provenientes de bases de dados.
RapidMiner possibilita manipulação de dados provenientes de: folhas Excel, bases de
dados Access, Oracle, IBM DB2, Microsoft SQL Server, Sybase, Ingres, MySQL,
Postgres, SPSS, Dbase, arquivos de texto e outros.
RapidMiner é um pacote de funcionalidades estável, apresentando como mais valia os
processos de Data Mining, ainda assim, permite integração de dados ETL, possibilita
consultas OLAP, e permite a produção de relatórios e dashboards.
Figura 5.18. Análise de Data Mining (Amoldit, 2011)
A Figura 5.18 ilustra uma análise de Data Mining constituída com recurso à ferramenta
RapidMiner. A ferramenta é composta por um menu de opções que oferece um conjunto
de funcionalidades e por uma área de visualização que permite analisar processos de Data
Mining.
55
56
CAPÍTULO 6
6. AVALIAÇÃO PRÁTICA DAS FERRAMENTAS
Após a análise de todas as Suites BI na secção anterior, procedemos à escolha das quatro
melhores ferramentas para proceder à sua instalação e avaliar aspetos mais técnicos de
cada uma delas a fim de eleger a melhor solução para implementar num projeto real de
uma PME.
A nossa escolha relativamente às quatro melhores Suites BI recaiu sobre JasperSoft,
Pentaho, SpagoBI e Vanilla. A nossa escolha foi premeditada tendo em conta os
resultados expressos nas tabelas 5.1 até 5.5.
Após identificadas as melhores ferramentas procedemos à sua instalação a fim de
podermos avaliá-las quanto às suas funcionalidades e caraterísticas técnicas.
As quatro ferramentas foram instaladas numa máquina Virtual criada com a ferramenta
Oracle VM VirtualBox Manager, na qual foi instalado o sistema operativo open source
Ubuntu 10.10. As ferramentas foram instaladas em quatro máquinas virtuais, cada uma
com uma ferramenta instalada, de forma a poder explorar cada ferramenta de forma mais
eficaz. Este fator ajudou na avaliação da dificuldade da instalação de cada ferramenta,
tendo em conta que para cada uma das ferramentas teve de se proceder à instalação de
todos os componentes necessários (Java, MySQL, etc.).
A escolha do sistema operativo Ubuntu recaiu pelo facto de este ser o mais utilizado
atualmente e por ser uma versão desenvolvida com base na versão Debian com a
particularidade de ser atualizada semestralmente. Apesar da comunidade de
desenvolvimento lançar uma nova versão Ubuntu semestralmente, têm a particularidade
de prestar apoio de suporte a cada versão, durante os dezoito meses seguintes. Este fator
foi importante porque permitia usufruir de apoio de suporte caso fosse necessário.
6.1. Instalação de requisitos comuns às quatro ferramentas
As quatro ferramentas que pretendemos instalar, têm a necessidade da instalação prévia
de alguns requisitos comuns. De modo a não repetir os mesmos passos na descrição dos
passos de instalação das quatro ferramentas, procedemos à especificação dos passos de
instalação comuns às quatro ferramentas. A instalação de todas as quatro ferramentas
necessita das instalações prévias dos requisitos, explícitos nos próximos passos.
Os requisitos comuns às quatro ferramentas são, a instalação dos pacotes Java (sun),
definição das variáveis de ambiente (JAVA_HOME e JRE_HOME) e a instalação de
MySQL. Os próximos passos explicam os procedimentos a seguir para instalar os
requisitos necessários (Ambiente Livre, 2011).
Passo 1 - Instalação do Java (Sun)
57
CAPÍTULO 6
•
•
O primeiro passo é abrir uma janela do terminal com permissões de “root”.
O segundo passo é atualizar as funcionalidades do repositório do Ubuntu, para
isso, na janela do terminal deve digitar o seguinte código:
# sudo apt-get update
•
De seguida é necessário digitar o comando que se segue para proceder ao
download dos pacotes de Java.
# sudo apt-get install Sun-java6-jdk Sun-java6-jre
•
Após a conclusão do download dos pacotes Java, surgirá uma mensagem
relativamente aos termos da licença, deve ser aceite o acordo para proseguir com a
instalação.
A instalação dos pacotes Java foi concluída com sucesso.
Passo 2 – Definir variáveis de ambiente
•
Para um bom funcionamento das ferramentas, é necessário definir as variáveis de
ambiente JAVA_HOME e JRE_HOME. Aceda ao diretório onde se encontra o
link de Java, que normalmente se encontra em:
# cd /usr/lib/jvm
•
O diretório deverá conter uma pasta relativamente à versão Java instalada e o link
de Java. Deve abrir a pasta e digitalizar no terminal com permissões de “root” o
seguinte comando:
# sudo gedit /etc/enviroment
•
Ao ficheiro devem ser adicionadas as linhas:
JAVA_HOME=/usr/lib/jvm/java-6-sun
JRE_HOME=/usr/lib/jvm/java-6-sun
•
•
Verifique se os diretórios e os ficheiros existem nos diretórios descritos.
Caso não possua o ficheiro /etc/enviroment, configure as variáveis acedendo a
/etc/profile inserindo as linhas:
export JAVA_HOME=/usr/lib/jvm/java-6-sun
export JRE_HOME=/usr/lib/jvm/java-6-sun
•
•
Guarde as alterações efetuadas ao ficheiro e saia do editor.
Para a atualização dos passos anteriores, deve reiniciar o sistema operativo.
Passo 3 – Instalar MySQL
•
58
A instalação de MySQL é necessária para guardar as definições base das
ferramentas, tal como dados de utilizador e códigos de acesso. Para proceder à
CAPÍTULO 6
instalação de MySQL aceda ao terminal. Proceda à instalação de MySQL Server e
MySQL Client, digitalizando no terminal o seguinte comando:
# sudo apt-get install mysql-server-5.1 mysql-client-5.1
•
•
Nova mensagem de termos e licença deverá aparecer, aceitando os termos de
contrato deverá ainda digitar de seguida, a senha de “root” para MySQL.
Para testar a instalação digite na janela do Terminal o seguinte comando:
# mysql –u root -p
•
De seguida digite a senha de “root” definida anteriormente.
Se o processo de instalação for concluído com sucesso deverá aparecer a consola de
MySQL.
Neste momento possuímos os requisitos base necessários para o funcionamento das
ferramentas, para cada uma basta proceder ao download dos seus ficheiros de instalação e
proceder com os passos de instalação mencionados nas próximas secções.
6.2. Instalação de JasperSoft
Para proceder à instalação de JasperSoft, deve garantir que efetuou os passos definidos
em 6.1. Os passos de instalação da ferramenta JasperSoft são os seguintes:
Passo 1 - Criar diretório para instalar JasperServer
•
$
O primeiro passo para a instalação da ferramenta JasperServer é a criação de um
diretório para a sua instalação.
mkdir /home/<username>/jasperserver
Passo 2 - Obter ficheiro de instalação JasperServer
•
O próximo passo é fazer o download do ficheiro de instalação da ferramenta
JasperServer. Para obter o ficheiro de instalação (Jasperreports-server-cp-4.0.0linux-installer.bin) basta aceder à página “http://jasperforge.org/website/
jasperserverwebsite/JSJA%20Website/js_download.html?header=project&target=
jasperserver” e selecionar o ficheiro mediante o sistema operativo pretendido, no
nosso caso Linux.
Passo 3 - Instalar JasperServer
•
$
Após o download, o ficheiro .bin deve ser executado na pasta criada anteriormente
no passo 1.
sudo sh jasperreports-server-cp-4.0.0-linux-installer.bin
59
CAPÍTULO 6
•
Durante a instalação surgirá pedidos de confirmação relativamente aos
componentes que o utilizador pretende instalar, surgirá a opção de instalar pacotes
Java e MySQL, se seguiu 6.1. deve indicar que não os pretende instalar.
Passo 4 - Iniciar a ferramenta
•
$
$
Após a instalação da ferramenta para iniciar a sua utilização deve inserir as
instruções que se seguem no terminal de comando.
cd /home/<username>/jasperserver
jasperctl.sh start
Passo 5 – Login da aplicação
•
•
A aplicação corre em http://localhost:8080/jasperserver .
As credenciais de login na aplicação são:
Username: jasperadmin
Password: jasperadmin
6.3. Instalação de Pentaho
Para a instalação de Pentaho tomamos por base o tutorial de instalação (Ambiente Livre,
2011). Inicialmente deve proceder à realização dos passos descritos em 6.1.
A instalação de Pentaho BI Server 3.8 CE (Community Edition) segue os seguintes
passos:
Passo 1 – Download da aplicação Pentaho BI Server 3.8 e consequente instalação
•
•
O download da aplicação pode ser feito diretamente acedendo ao link
“http://sourceforge.net/projects/pentaho/files/Business%20Intelligence%20Server/
3.8.0-stable/biserver-ce-3.8.0-stable.tar.gz/download”
Após a conclusão do download, deve descompactar o ficheiro descarregado. Para
descompactar o arquivo digite o seguinte comando:
# tar xzvf .tar.gz
•
•
Após descompactado o ficheiro, obtemos duas pastas, “administration-console” e
“biserver-ce”
De seguida vamos criar uma pasta para Pentaho no diretório /opt, diretório
aconselhado por defeito. Para proceder à criação de uma pasta devemos digitar o
seguinte código:
# sudo mkdir /opt/pentaho
60
CAPÍTULO 6
•
Por fim, vamos transferir as pastas descompactadas para o novo diretório.
#mv administration-console /opt/pentaho
#mv biserver-ce /opt/pentaho
Passo 2 – Criar utilizadores de Pentaho no sistema operativo. Este é um passo opcional,
mas oferece algumas vantagens relativamente a questões de acessibilidade de
utilizadores.
•
Para criar um grupo de utilizadores Pentaho execute o seguinte comando:
# sudo groupadd pentaho
•
Para criar um utilizador de sistema para Pentaho execute o comando:
# sudo useradd –r –g pentaho pentaho
•
Para atribuir permissões ao grupo e ao utilizador criados execute o seguinte
comando:
# sudo chown –R pentaho:pentaho /opt/pentaho
Passo 3 – Iniciar a aplicação Pentaho BI Server 3.8
•
Aceda ao diretório de instalação de Pentaho
# cd /opt/pentaho/
•
De seguida é necessário atribuir permissões para a execução de arquivos com a
extensão .sh no diretório, para efetuar esta ação execute os comandos seguintes:
# chmod 755 administration-console/*.sh
# chmod 755 biserver-ce/*.sh
# chmod 755 biserver-ce/tomcat/bin/*.sh
•
Para inicializar o servidor Apache Tomcat de Pentaho digite o seguinte comando:
# sudo –u pentaho JAVA_HOME=/usr/lib/jvm/java-6-sun ./start-pentaho.sh
•
Para testar Pentaho digite no browser o seguinte link:
http://localhost:8080/pentaho
•
Para inicializar Pentaho Administrator console execute os seguintes comandos:
# cd /opt/pentaho/administration-console
# sudo ./start-pac.sh
•
Para testar “Pentaho Administrator Console” aceda no browser a:
http://localhost:8099
•
Para utilizar a aplicação, o utilizador por defeito é “admin” e a senha de validação
é “password”.
61
CAPÍTULO 6
6.4. Instalação de SpagoBI
A instalação da ferramenta SpagoBI requer que sejam seguidos os passos descritos em
6.1. Posteriormente para proceder à instalação da ferramenta basta seguir os passos
seguintes. Os passos que se seguem foram utilizados para instalação da versão 2.8.0 de
SpagoBI.
Passo 1 – Download do ficheiro
•
Acedendo à página “http://forge.ow2.org/project/download.php?group_id=204&
file_id=17517” acede diretamente à página de download da versão 2.8.0
compacta. Esta versão contém todos os elementos instalados sobre o servidor
Apache Tomcat, apenas necessita que descompacte os ficheiros.
Passo 2 – Criação de um diretório para a ferramenta
•
Após o download do ficheiro deve proceder à criação de um diretório para
descompactar o ficheiro. O comando que se segue permite criar um diretório
“spagobi”
# sudo mkdir /opt/spagobi
Passo 3 – Descompactar ficheiros
•
Tendo em conta que o ficheiro compactado tem a extensão .zip utilizamos o
comando seguinte para o descompactar.
# unzip .zip
•
Após descompactar ficamos com uma pasta com a extensão “All-In-OneSpagoBI-2.8.0-apache-tomcat-6.0.18-02252011”.
Passo 4 – Mover pasta descompactada para o diretório criado
•
Devemos proceder à movimentação da pasta descompactada para o diretório
criado, o comando que se segue permite efetuar esse passo.
#mv All-In-One-SpagoBI-2.8.0-apache-tomcat-6.0.18-02252011 /opt/spagobi
Passo 5 – Iniciar a aplicação
•
Após a conclusão de todos os passos anteriores a aplicação encontra-se pronta
para utilização. Para iniciar a aplicação deve executar os passos:
# sudo ./apache-tomcat-6.0.18/bin/startup.sh
# sudo ./apache-tomcat-6.0.18/bin/OOStart.sh
•
Para testar a aplicação digite no seu browser o link abaixo.
http://localhost:8080/SpagoBI
62
CAPÍTULO 6
•
Para proceder ao login na aplicação utilize um dos pares utilizador/senha
seguintes.
Administrador: biadmin/biadmin
Utilizador: biuser/biuser
Demonstração: bidemo/bidemo
6.5. Instalação de Vanilla
A instalação de Vanilla requer a instalação dos requisitos enumerados em 6.1. A versão
de vanilla que pretendemos instalar é a versão 3.4 GA (GA significa que é uma versão
estável de Vanilla).
Passo 1 – Download do ficheiro
•
Acedendo à página “http://forge.bpm-conseil.com/frs/download.php/114/vanillatomcat-mysql-3.4.0_GA.zip” acede diretamente à página de download da versão
3.4 de Vanilla, esta versão é compacta. Esta versão contém todos os elementos
instalados sobre o servidor Apache Tomcat, apenas necessita da descompactação
dos seus ficheiros.
Passo 2 – Criação de um diretório para a ferramenta
•
Após o download do ficheiro deve proceder à criação de um diretório para
descompactar o ficheiro. O comando que se segue permite criar um diretório
“vanilla”
# sudo mkdir /opt/vanilla
Passo 3 – Descompactar ficheiros
•
Tendo em conta que o ficheiro compactado tem a extensão .zip utilizamos o
comando seguinte para o descompactar.
# unzip .zip
•
Após descompactar ficamos com uma pasta com a extensão vanilla-tomcat-mysql3.4.0_GA.
Passo 4 – Mover pasta descompactada para o diretório criado
•
Devemos proceder à movimentação da pasta descompactada para o diretório
criado, o comando que se segue permite efetuar esse passo.
#mv vanilla-tomcat-mysql-3.4.0GA/opt/vanilla
Passo 5 – Iniciar aplicação
•
Após a conclusão de todos os passos anteriores a aplicação encontra-se pronta
para utilização. Para iniciar a aplicação deve executar os seguinte comando:
63
CAPÍTULO 6
# sudo ./ vanilla-tomcat-mysql-3.4.0GA/start-vanilla.sh
•
Para testar a aplicação digite no seu browser o link abaixo.
http://localhost:8080/vanilla
Vanilla disponibiliza acesso para três tipo de utilizadores, “Admin”, “Designer” e “User”.
A senha de validação surge na caixa de validação de forma automática, bastando
selecionar o tipo de utilizador com que pretende iniciar a aplicação.
6.6. Avaliação técnica das ferramentas
Após a instalação dos quatro pacotes de soluções BI, procedemos à exploração de cada
uma delas e ao preenchimento das tabelas que se seguem, tendo em conta a nossa
apreciação e avaliação relativamente às caraterísticas e funcionalidades disponíveis.
A Tabela 6.1 apresenta a comprovação de alguns dados anteriormente descritos
relativamente às caraterísticas e funcionalidades de BI, que cada uma das ferramentas
suporta. A Tabela 6.1 não acrescenta nada de novo, apenas a comprovação dos elementos
obtidos na fase de investigação.
Tabela 6.1. Avaliação das funcionalidades de BI e caraterísticas das ferramentas
Avaliação das funcionalidades dos pacotes de BI
Funcionalidades:
JasperSoft
Pentaho
SpagoBI
3.8
4.0
2.8.0
Versão
Web
Web
Web
Tipo aplicação
Gratuito
Gratuito
Gratuito
Custo
Opção de impressão
ETL
OLAP
Data Mining
GEO/GIS
Dashboards
Consultas ad-hoc
KPIs
Relatórios
Exportação de dados
Linguagem de programação
Acesso ao código
Possibilidade de alterar código
Constituintes
Vanilla
3.4
Web
Gratuito
×
Código
Java/Perl
Java
Java
Java
×
×
Após a comprovação dos elementos anteriormente descritos, procuramos descrever
alguns aspetos e referenciar os ambientes em que testámos as aplicações e consequente
apresentação dos resultados obtidos. A Tabela 6.2 apresenta os resultados relativamente
a: tipo de distribuição das ferramentas, sistemas operativos, e Web browsers suportados.
64
CAPÍTULO 6
Tabela 6.2. Distribuições e suporte
Componentes
Tipos
Tipo de
distribuição
Sistema
Operativo
Compacta
Módulos
Linux
Windows
Mozilla
Firefox
Internet
Explorer
Google
Chrome
Safari
Web Browsers
Suportados
Ferramentas de Business Intelligence Open Source
JasperSoft
Pentaho
SpagoBI
Vanilla
×
×
×
×
Através da análise à Tabela 6.2 é possível verificarmos que JasperSoft e Pentaho são duas
ferramentas distribuídas em módulos, isto é, a sua versão servidor não agrupa todas as
funcionalidades (ETL e ferramenta para a criação de dashboards essencialmente)
enquanto que SpagoBI e Vanilla possuem uma distribuição compacta (o módulo de ETL
é externo em nas quatro ferramentas). Nos sistemas operativos em que testámos as
aplicações (Linux e Windows), as quatro ferramentas foram suportadas. Todos os Web
browsers testados (Mozilla Firefox, Internet Explorer, Google Chrome e Safari) são
compatíveis com as quatro ferramentas, o que potencializa ainda mais as ferramentas.
A Tabela 6.3 apresenta os resultados para as quatro ferramentas, relativamente aos tipos
de bases de dados suportados por cada uma. Os tipos de base de dados avaliados, foram
selecionados mediante a lógica de mais utilizados e mais comuns entre as ferramentas.
Tabela 6.3. Avaliação quanto aos tipos de base de dados suportados
Tipos de Base de dados
suportadas
MySQL
Oracle
SQL Server
Access
PostgreSQL
Hypersonic
Base de dados genéricas
Outros
Ferramentas de Business Intelligence Open Source
JasperSoft Pentaho
SpagoBI
Vanilla
×
×
×
×
×
×
×
×
×
×
×
A Tabela 6.3 permite identificar que existe alguma discrepância em termos de resultados,
não existindo uma ferramenta que se destaque maioritariamente. Da análise podemos
reter que todas as ferramentas suportam base de dados MySQL e todas possibilitam
65
CAPÍTULO 6
acesso a dados provenientes de bases de dados genéricas (dados provenientes de ficheiros
Excel por exemplo).
A Tabela 6.4 apresenta uma avaliação relativamente às funcionalidades disponíveis pelas
componentes OLAP de cada ferramenta.
Tabela 6.4. Funcionalidades OLAP
Análises OLAP
Navegação OLAP
MDX Editor
Configurar tabelas
Mostrar propriedades
Escolher opções de visualização
Suprimir colunas/linhas sem
dados
Mudar disposição de eixos
Drill Menber
Drill Position
Drill Replace
Drill Through
Mostrar gráficos
Configurar gráficos
Configurar output
Configurar impressão
Output para Excel
Imprimir em PDF
Guardar opções
Ferramentas de Business Intelligence Open Source
JasperSoft
Pentaho
SpagoBI
Vanilla
×
×
×
×
×
×
×
×
×
×
×
A Tabela 6.4 permite-nos avaliar que todas as ferramentas possuem navegação OLAP,
fazem uso da funcionalidade MDX Editor, permitem a criação de gráficos dos cubos de
dados e permitem exportar dados para Excel e em formato PDF. Uma curiosidade é o
facto de JasperSoft não disponibilizar funcionalidades de Drill sobre os dados.
A Tabela 6.5 apresenta uma avaliação relativamente às funcionalidades disponíveis na
secção de dashboards.
66
CAPÍTULO 6
Tabela 6.5. Funcionalidades de Dashboards
Dashboards
Tabelas
Medidores
Gráficos de progressão
Gráficos de barras
Gráficos de colunas
Gráficos circulares
Gráficos de área
Gráficos de bolhas
Ferramentas de Business Intelligence Open Source
JasperSoft Pentaho
SpagoBI
Vanilla
×
A Tabela 6.5 ilustra a ausência da possibilidade de construir gráficos de bolhas na
ferramenta Vanilla. Os restantes elementos avaliados são suportados por todas as
ferramentas.
A Tabela 6.6 especifica as caraterísticas avaliadas sobre KPIs, de notar que JasperSoft
não tendo funcionalidades de KPI regista incumprimento ao conjunto de aspetos
avaliados. As restantes ferramentas satisfazem todas as especificações.
Tabela 6.6. Avaliação aos elementos de KPIs
KPIs
Descrição
Informação
Ilustração
Ferramentas de Business Intelligence Open Source
JasperSoft
Pentaho
SpagoBI
Vanilla
×
×
×
A Tabela 6.7 apresenta resultados relativos às caraterísticas da secção de construção e
visualização de relatórios. Analisando a tabela é possível verificar que todos os elementos
de avaliação foram cumpridos pelas quatro ferramentas.
Tabela 6.7. avaliação das caraterísticas dos relatórios
Relatórios
Desenho
Templates
Estruturação
Visualização
Ferramentas de Business Intelligence Open Source
JasperSoft
Pentaho
SpagoBI
Vanilla
A Tabela 6.8 apresenta os resultados da avaliação do portal das quatro ferramentas BI em
relação às línguas que cada uma suporta. As línguas analisadas são o conjunto de línguas
suportadas pelas quatro ferramentas.
67
CAPÍTULO 6
Tabela 6.8. Avaliação do portal quanto à internacionalização
Línguas do Portal
Português Brasil
Espanhol
Françês
Inglês
Italiano
Alemão
Holandês
Chinês
Ferramentas de Business Intelligence Open Source
JasperSoft
Pentaho
SpagoBI
Vanilla
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
×
Analisando a tabela concluímos que Pentaho é a ferramenta com maior
internacionalização, JasperSoft a menos internacionalizada e que todas as ferramentas
disponibilizam a aplicação em inglês.
Após uma análise mais técnica e relativamente às caraterísticas e funcionalidades,
passamos agora a avaliar as ferramentas numa avaliação mais pessoal e relativamente a
aspetos de usabilidade e suporte.
A Tabela 6.9 apresenta uma avaliação na escala de 1 a 5 relativamente a alguns
parâmetros de avaliação, em que “5” representa a escala máxima e “1” o valor mínimo da
escala.
Tabela 6.9. Classificação das ferramentas na escala de 1 a 5
Parâmetros de avaliação
Facilidade de aquisição
Facilidade de instalação
Facilidade de utilização
Qualidade de Interacção com o
Utilizador
Velocidade de processamento
Facilidade na compreensão de código
Informação disponível
Documentação
Fóruns
Classificação da página de suporte
Total
Ferramentas de Business Intelligence Open Source
JasperSoft
Pentaho
SpagoBI
Vanilla
3
5
3
5
5
5
4
4
4
4
4
4
3
4
4
3
4
4
4
4
3
3
37
3
4
5
5
5
4
44
3
4
3
3
3
3
34
3
4
3
4
4
5
39
A tabela 6.9 apresenta dados de ordem pessoal, estes dados resultam da avaliação
realizada no decorrer da utilização das ferramentas. Os valores apresentados pelo campo
total da tabela permite avaliar Pentaho como a ferramenta que amealhou um maior
número de pontos na classificação, e SpagoBI com o menor número total apresentado.
68
CAPÍTULO 6
Voltando a repetir parte da tabela anterior vamos atribuir novos valores a cada uma das
ferramentas tendo em conta uma escala de preferências de 1 a 4 em que 1 representa a
ferramenta com maior preferência e 4 a de menor preferência. A Tabela 6.10 apresenta os
resultados obtidos da nossa apreciação.
Tabela 6.10. Classificação das ferramentas de 1 a 4 tendo em conta a preferência
Parâmetros de avaliação
Facilidade de aquisição
Facilidade de instalação
Facilidade de utilização
Qualidade de Interacção com o
Utilizador
Velocidade de processamento
Informação disponível
Documentação
Fóruns
Classificação da página de suporte
Total
Ferramentas de Business Intelligence Open Source
JasperSoft Pentaho
SpagoBI
Vanilla
4
2
3
1
4
1
2
3
2
1
3
4
2
1
4
3
1
2
2
4
3
24
4
1
1
1
2
14
3
3
3
3
4
28
2
4
4
2
1
24
Na tabela Pentaho é a ferramenta de maior destaque, sendo a preferida em 6 parâmetros
de avaliação num total de 9. O campo total representado na tabela deve ser interpretado
tendo em conta que a menor soma será a que apresenta um nível de preferência mais alto.
Da análise da tabela constatamos que JasperSoft e Vanilla apresentam a mesma soma
enquanto que SpagoBI fica um pouco mais atrás.
Mediante todos estes dados e focando essencialmente a nossa decisão nas avaliações de
ordem pessoal, pela estabilidade que apresenta, pelas funcionalidades que disponibiliza,
pela quantidade de documentação e pelos valores expressos na linha total consideramos
que Pentaho é a melhor ferramenta de Business Intelligence open source.
6.7. Conclusão da avaliação
Após a avaliação dos quatro pacotes de soluções BI, e tendo em conta os resultados
obtidos dessa avaliação procedemos à escolha da aplicação a ser utilizada num projeto
empresarial de âmbito real numa PME.
A nossa escolha recaiu sobre a ferramenta Pentaho, não pela sua maior popularidade a
nível de mercado mas essencialmente pelas funcionalidades que disponibiliza e mais
importante ainda pela quantidade de elementos de suporte que possui (documentação,
fóruns de discussão, apoio ao cliente, etc.). Quando falamos de ferramentas open source,
normalmente uma das principais desvantagens é a escassez de documentação de suporte,
esse é um entrave claro nos outros três pacotes de ferramentas. SpagoBI é claramente a
aplicação que possui menos documentação, talvez por ter estado descontinuada durante
algum período de tempo recentemente. Ainda assim, SpagoBI face à quantidade de
69
CAPÍTULO 6
funcionalidades que apresenta esperava-se que possuísse maior número de elementos de
suporte. Se recorrermos a um motor de busca Web (no nosso caso utilizámos o Google,
que é o mais utilizado) e procurarmos pelo nome das quatro ferramentas podemos
verificar e comparar a percentagem de documentação existente para cada ferramenta. O
gráfico ilustrado na Figura 6.1, representa os valores em percentagem do número de
referências a cada ferramenta encontrados na Internet.
Google
Vanilla
7%
SpagoBI
16%
Pentaho
24%
JasperSoft
53%
Figura 6.1. Percentagem de referências encontradas, relativamente a cada ferramenta
Da análise à Figura 6.1 é possível verificar que JasperSoft possui a maior percentagem de
referências, este fator pode dever-se ao facto de elementos JasperSoft suportarem outras
ferramentas, nomeadamente, SpagoBI, Vanilla, Pentaho, ferramentas de CRM, etc. Um
dos exemplos de utilização de ferramentas JasperSoft é a utilização dos módulos
JasperReports para a criação de relatórios em várias outras ferramentas. Pentaho surge na
segunda posição com aproximadamente um quarto da percentagem total, estes números
são um pouco enganadores porque na prática Pentaho disponibiliza mais suporte e mais
documentação, o que nos leva a justificar este facto com o célebre provérbio de que
“Quantidade não é qualidade!”. SpagoBI surge com uma quota modesta de 16%, surgindo
como a terceira ferramenta com mais documentação, este fator pode ser justificado tendo
em conta que SpagoBI passou por um período em que esteve desativo, embora
recentemente tenha sido novamente continuado. Por fim, Vanilla ocupa apenas 7% da
totalidade dos registos de documentação, o facto de ser uma ferramenta recente pode
incidir sobre os resultados apresentados.
70
CAPÍTULO 7
7. IMPLEMENTAÇÃO NUMA PME
Após a análise das ferramentas e a consequente escolha de Pentaho como a melhor
solução a aplicar na nossa demonstração prática, surgiu a oportunidade de envolvimento
do nosso trabalho com um projeto empresarial de âmbito real numa PME. O projeto
consiste na construção de uma Data Warehouse, partindo de um modelo de base de dados
relacional de um sistema de controlo de parques de captura de energias renováveis (eólica
e solar), fornecido por uma PME que apoiou o nosso projeto. Na nossa aplicação prática
tivemos o cuidado de utilizar apenas software open source exceto: o Sistema Operativo,
pelo simples facto de que no ambiente empresarial não se utilizar o Sistema Operativo
Linux; e a ferramenta de arquitetura de Base de Dados, Power Designer 12.5, tendo em
conta a necessidade de transformar a base de dados fornecida, SQL Server para MySQL.
De seguida apresentaremos de forma sucinta todos os passos abrangidos na
implementação prática do nosso projeto.
7.1. Instalação de Pentaho em Windows
Anteriormente em 6.3 descrevemos os passos de instalação de Pentaho Server 3.8 no
sistema operativo Ubuntu, mas tendo em conta que o projeto prático será implementado
em sistemas operativos Windows procedemos à instalação do servidor Pentaho também
em sistema operativo Windows.
De seguida apresentamos os passos de instalação da ferramenta no sistema operativo
Windows (a versão utilizada foi o Windows XP).
Passo1 – Instalar Java (sun)
O primeiro passo para a instalação da ferramenta Pentaho é proceder à instalação do JDK
(Java Development Kit) caso ainda não se encontre instalado.
•
•
Para proceder ao download do ficheiro de instalação basta aceder em
“http://www.oracle.com/technetwork/java/javase/downloads/index.html”,
escolhendo a versão do JDK tendo em conta a arquitetura do computador (32/64
bits).
Após o download deve proceder à instalação do JDK através da execução do
ficheiro obtido.
Passo 2 – Definir as variáveis de sistema
A execução de Pentaho em Windows requer a configuração das variáveis JAVA_HOME
e JRE_HOME.
•
Para a configuração das variáveis basta aceder ao painel de controlo do
computador, selecionar “sistemas”, em “sistemas” seleciona-se a aba de
71
CAPÍTULO 7
•
“configurações avançadas”, clicando-se de seguida em “variáveis de ambiente”.
Para criar uma nova variável seleciona-se a opção “novo” em “variáveis de
utilizador”.
Surgirá uma janela como a representada nas figuras 7.1 e 7.2, que ilustram a nossa
configuração das variáveis. O campo nome da variável deve ser preenchido com o
nome de cada uma das variáveis enquanto que no valor da variável deve surgir
informação relativamente ao diretório em que se encontram instaladas as
componentes JDK e JRE do Java.
Figura 7.1. e 7.2. Configuração das variáveis JAVA_HOME e JRE_HOME
Passo 3 – Instalação de Pentaho BI Server 3.8
•
•
•
•
•
•
72
Para proceder ao download do ficheiro de instalação de Pentaho BI Server CE 3.8
acedemos à página “http://sourceforge.net/projects/pentaho/files/Business%20
Intelligence%20Server/3.8.0-stable/”.
Procedemos ao download da versão estável 3.8 (definida como stable)
descarregando o ficheiro “biserver-ce-3.8.0-stable.zip”.
Criamos um novo diretório pentaho e descompactamos o ficheiro biserver-ce3.8.0-stable.zip
O nosso diretório Pentaho contém dois diretórios, (“administration-console” e
“biserver-ce”).
Para iniciar o Pentaho execute o ficheiro start-pentaho.bat
Digite o endereço http://localhost:8080/pentaho e verifique se funciona.
CAPÍTULO 7
Figura 7.3. Servidor Pentaho BI CE 3.8 instalado com sucesso
Os tipos de utilizador e as respetivas senhas, já se encontram atribuídas por defeito, basta
selecionar o utilizador e o campo senha é preenchido automaticamente. Existem quatro
tipos de utilizadores registados no Pentaho BI Server CE 3.8, sendo eles (Utilizadore
Pentaho, 2011):
•
•
•
•
Joe – Diretor executivo – este utilizador possui permissões de administrador, é lhe
atribuída a possibilidade de utilizar todas as funcionalidades de Pentaho e
permissão total sobre o Pentaho User Console.
Suzy – Diretora de Tecnologia – este tipo de utilizador usufrui de permissões de
utilizadores comuns, diretor de tecnologia e serviços de informação.
Pat – Desenvolvedor – este utilizador pode usufruir das funcionalidades de
utilizadores comuns (visualizar elementos) e ainda possui poder para desenvolver
elementos.
Tiffany – Gerente de desenvolvimento – este tipo de utilizador possui permissões
de utilizador comum, desenvolvimento e gestão de desenvolvimento.
A senha de acesso para todos os tipos de utilizadores é “password”.
No nosso caso prático iremos utilizar o tipo de utilizador “Joe”, que nos permite usufruir
de todas as funcionalidades disponibilizadas pelo servidor Pentaho.
7.2. Construção da Data Warehouse
A aplicação prática do nosso projeto tem por base implementar uma ferramenta de BI
open source (neste caso Pentaho) sobre um sistema de controlo de parques de captura de
energias renováveis (eólicos e solares). A nossa componente prática incide apenas sobre
73
CAPÍTULO 7
parques eólicos, ainda que a base de dados dos sistemas seja comum e a DW
desenvolvida possa suportar os dois tipos de parques.
Da realização de um workshop com o cliente, foi possível conhecer melhor a base de
dados do sistema de suporte aos parques de captura de energias renováveis e especificar
as necessidades a suportar pela Data Warehouse a construir.
O cliente forneceu-nos uma base de dados SQL Server, o primeiro objetivo é transformála numa base de dados open source, neste caso escolhemos MySQL. No processo de
transformação do modelo da base de dados de SQL Server para MySQL utilizámos a
ferramenta Power Designer 12.5, que possui uma funcionalidade de ”Reverse Engineer”,
que nos permite transformar o script de base de dados fornecido para o seu modelo físico
de arquitetura. Posteriormente é possível gerar uma nova base de dados a partir do
modelo físico da arquitetura da base de dados fornecida pela empresa. Os passos
seguintes ilustram o procedimento de transformar a base de dados de SQL Server em
MySQL.
Inicialmente é necessário proceder à opção de ”Reverse Engineer” do script de base de
dados para obter o modelo físico. Após inicializar a ferramenta, no separador ”File”
temos a opção ”Reverse Engineer”, dentro dessa opção vamos escolher a opção
”Databases”. A Figura 7.4 ilustra o primeiro passo do procedimento de ‘Reverse
Engineer’ e ajuda a compreensão dos passos.
Figura 7.4. Opção de Reverse Engineer
O primeiro passo, como demonstra na Figura 7.4 é aceder ao menu ”File”, selecionar a
opção ”Reverse Engineer” e escolher a opção ‘Database’.
74
CAPÍTULO 7
De seguida surge-nos uma janela na qual devemos especificar o nome que pretendemos
atribuir ao modelo físico e indicar qual o tipo de base de dados que pretendemos
converter, neste caso Microsoft SQL Server 2005. A Figura 7.5 ilustra estes passos.
Figura 7.5. Escolha do tipo de base de dados a converter
Após a confirmação do passo anterior, surge uma nova janela, nesta janela devemos
especificar o caminho do script SQL da base de dados a converter, selecionando o
primeiro ícone da janela ou premindo a conjunção de teclas ‘Ctrl + N’. A Figura 7.6
ilustra este passo.
75
CAPÍTULO 7
Figura 7.6. Selecção do script SQL da base de dados
Após a confirmação dos passos anteriores, deve surgir no ecrã uma barra de progresso do
processo de ”Reverse Engineer”, como mostra a Figura 7.7,o relatório do processo de
execução da operação surge ilustrado na parte inferior da imagem.
Figura 7.7. Progresso da ação de Reverse Engineer
76
CAPÍTULO 7
Finalmente, temos o processo de ”Reverse Engineer” finalizado, e a arquitetura do
modelo físico da base de dados gerada. A Figura 7.8 mostra parte da arquitetura do
modelo físico da base de dados gerada nos passos anteriores.
Figura 7.8. Modelo físico da base de dados
Os próximos passos coincidem com a transformação do modelo físico atual para uma
base de dados MySQL. Para continuar com o processo, primeiramente é necessário
proceder à seleção do tipo de base de dados corrente e seleção do tipo de base de dados
futura. Na ferramenta Power Designer 12.5 é necessário especificar antes de gerar novos
elementos o tipo de base de dados corrente e o novo tipo de base de dados, caso seja
diferente. No nosso caso, pretendemos transformar um modelo físico de uma base de
dados SQL Server numa base de dados MySQL, o que obriga a este procedimento. No
separador ”Database” devemos selecionar a primeira opção ”Change Current DBMS”,
como demonstra na Figura 7.9.
77
CAPÍTULO 7
Figura 7.9. Opção de Seleção de tipo de base de dados atual e futuro
Após a seleção da opção surge-nos uma janela no ecrã como mostra a Figura 7.10, em
que devemos especificar na área ”New” da aba ”General”, o tipo de base de dados que
pretendemos gerar, neste caso MySQL 5.0, como mostra a Figura 7.10.
Figura 7.10. Seleção do tipo da nova base de dados
78
CAPÍTULO 7
Posteriormente procedemos aos passos para gerar a nova base de dados, no separador
”Database” devemos selecionar a opção ”Generate Database” ou pressionar o conjunto de
teclas ‘Ctrl + G’. A Figura 7.11 mostra o passo descrito.
Figura 7.11. Seleção da opção para gerar a nova base de dados
Surgirá no ecrã uma janela na qual deve ser selecionado o diretório a guardar o script de
base de dados gerado e especificar o seu respetivo nome. Este passo é ilustrado pela
Figura 7.12.
Figura 7.12. Escolha de diretório e nome do ficheiro
79
CAPÍTULO 7
Após a confirmação do passo anterior, surgirão duas novas janelas no ecrã, uma com a
lista de resultados do processo de gerar a base de dados e uma outra com a descrição do
ficheiro gerado, sendo possível editar esse ficheiro através da ferramenta Bloco de Notas.
A Figura 7.13 ilustra as novas janelas no ecrã, resultantes do passo anterior.
Figura 7.13. Ficheiro gerado
Ao editarmos o ficheiro na opção ”Edit”, surge-nos no ecrã o ficheiro em Bloco de Notas,
como ilustra a Figura 7.14.
Figura 7.14. Script base dados em Bloco de Notas
80
CAPÍTULO 7
A Figura 7.14 ilustra parte do script da base de dados, contendo informação relativamente
ao tipo de base dados, data de criação e a respetiva sintaxe MySQL.
Agora que já geramos o script MySQL da base de dados do sistema de recolha de
energias, vamos corrê-lo também numa ferramenta open source, HeidiSQL 6.0. A Figura
7.15 ilustra o ambiente de trabalho da ferramenta, do lado esquerdo da figura é possível
ver parte da lista de tabelas geradas pelo script, ao centro da figura na área de ‘Query’, foi
colocada a totalidade do script a executar, na parte inferior da imagem surge a descrição
de todos os passos executados na sessão atual da aplicação.
Figura 7.15. Ambiente de trabalho da ferramenta HeidiSQL 6.0
Neste momento já conhecemos a estrutura da base de dados, as suas tabelas e os seus
campos, conhecemos assim os elementos que vão sustentar a nossa Data Warehouse.
Posteriormente foi-nos fornecido um script de dados para inserção na base de dados, que
foi executado como no passo anterior.
Nos próximos passos apresentaremos uma descrição sucinta da construção da nossa Data
Warehouse para o sistema de controlo de parques eólicos e solares. O projeto tem como
principal objetivo a implementação de uma ferramenta de Business Intelligence open
source, num sistema de gestão de energias renováveis. O sistema que irá suportar o nosso
projeto foi concebido de forma a oferecer suporte ao sistema de energias eólicas e ao
sistema de energias solares. A construção de uma Data Warehouse segue vários passos,
que passamos a enumerar de seguida.
81
CAPÍTULO 7
7.2.1. Descrição do Negócio
O sistema de gestão de parques eólicos e solares, tem como principal objetivo controlar e
registar as ações diárias dos diversos elementos que o constituem. É essencial o controlo
dos diversos dados relacionados com o funcionamento dos diferentes elementos desses
mesmos parques. Sucintamente a atividade de negócio prende-se com o controlo de todos
os elementos constituintes de um parque de energias renováveis e a medição dos valores
diários de energia capturados pelos elementos de cada parque.
7.2.2. Objetivo
O principal objetivo na construção da nossa Data Warehouse é controlar os diferentes
elementos que constituem o sistema de captura de energias e monitorizar a sua
rentabilidade, funcionamento e controlo de incidentes registados.
7.2.3. Desafio
Planeamento e construção de uma Data Warehouse que guarde a informação essencial do
sistema de controlo de parques de energias renováveis, parques eólicos e solares.
7.2.4. Estratégia
A principal estratégia na construção da Data Warehouse é a construção de um modelo de
arquitetura que suporte o sistema de gestão de energias eólicas e o sistema de gestão de
energias solares.
7.2.5. Questões às quais a DW deve conseguir responder
Quando se desenvolvemos uma DW é importante definir qual a estrutura que deve ter,
fazendo uma seleção da informação que realmente é necessária para avaliar os processos
de negócio. Posto isto, é importante que o cliente ou representante do cliente elabore uma
descrição detalhada sobre o conjunto de métricas que pretende extrair do negócio. O
desenvolvimento de uma DW tem o fundamento de tentar reunir a informação que
suporte as necessidades exigidas pelo cliente. Desta forma, o cliente deve colocar as
questões às quais quer obter resposta por parte da DW. Em seguida enumeramos um
conjunto de questões que o cliente quer ver esclarecidas através da nossa implementação
prática.
Qual o parque que produz mais energia?
Qual o ramal que produz mais energia?
Qual a torre por ramal que produz mais energia?
Quais as condições climatéricas que contribuem para uma maior produção de
energia?
Qual a posição geográfica mais rentável na produção de energia?
Qual a época do ano mais propicia à captura de energia?
Qual o tipo de torres que detém melhores índices de rendimento?
Qual o tipo de torres mais suscetíveis de avarias?
Qual o tempo médio de reparação de avarias por tipo?
Qual o tipo de reparação mais dispendiosa?
Quais os valores médios de energia capturada por dia, por parque e por ramal?
82
CAPÍTULO 7
7.2.6. Granularidade
Define-se por granularidade o grau de detalhe a que uma DW deve responder. A
informação guardada numa DW poderá ter maior detalhe ou menor detalhe tendo em
conta as exigências da avaliação estipulada pelo cliente. Se analisarmos uma dimensão
“tempo” o nosso nível de granularidade pode repartir-se em (ano, semestre, trimestre,
mês, semana, dia, hora, minuto, segundo), ou simplesmente (ano, mês, dia, hora).
Quantidade de energia produzida por parque, por ramal, por torre, por dia.
Custos manutenção por tipo de avaria, por elemento, por tempo dispendido.
7.2.7. Identificação de estrelas e dimensões
Da reunião do conjunto de elementos descritos anteriormente, procedemos à identificação
das estrelas, dimensões e tabelas de factos. Da nossa análise idealizámos a criação de um
modelo arquitetónico de DW constituído por duas estrelas, uma estrela relacionada com
os processos de recolha de energia e uma estrela para registo de avarias e incidentes.
A Tabela 7.1 apresenta as estrelas, as suas respetivas dimensões e as tabelas de factos.
Tabela 7.1. Arquitetura da DW a construir
Estrela
Captura de energia
Manutenção
Dimensões
Parque
Elemento
Tempo
Parque
Elemento
Tempo
Incidente
Responsabilidade
Factos
Factos_energy
Factos_average
A partir das descrições presentes na Tabela 7.1. procedemos à criação do modelo
concetual da Data Warehouse. Para a criação dos modelos, concetual e físico utilizámos
também a ferramenta Power Designer 12.5. A Figura 7.1.7.a ilustra o modelo conceptual
da arquitetura da DW.
Segundo a nossa perspetiva, vamos ter uma DW com duas estrelas, suportadas por duas
tabelas de factos e cinco dimensões. A estrela relacionada com os processos de recolha de
energia é composta pela tabela de factos (Factos_Energy) que guarda as métricas
(activePower, reactivePower e solarRadiation) e interage com as dimensões (Park,
Element e Time). A dimensão ”Park” guarda todos os dados relacionados com o parque
eólico/solar. A dimensão ”Element” regista os dados relativamente a cada elemento de
captura de energia que constitui o parque. A dimensão ”Time” é a dimensão responsável
por associar cada registo ao momento em que acontece, registando dados de 15 em 15
83
CAPÍTULO 7
minutos, fazendo uma média dos resultados registados a cada intervalo de 15 minutos.
Estas três dimensões também constituem a estrela de ocorrências de avarias composta
pela tabela de factos (Factos_Average) que regista as métricas (power, duration e
solarRadiation), que registarão o valor de ”power” a duração do incidente e os valores de
radiação solar de modo a perceber a gravidade do problema tendo em conta a energia que
não foi possível capturar nesse intervalo de tempo. Esta estrela é ainda composta pelas
dimensões (Responsability e incident) que guardam o tipo de responsabilidade e dados
relativamente ao incidente (descrição, duração e estado de resolução) respetivamente.
A Figura 7.16 que se segue ilustra a arquitetura do modelo concetual da DW construída.
Factos_Energy
activePower
Float
reactivePower Float
solarRadiation Float
Factos_Energy_Park
Factos_Energy_Element
Factos_Energy_Time
Park
Element
Time
ID_Park
<pi> Integer
<M>
name
Variable characters (60)
country
Variable characters (60)
zone
Variable characters (60)
cluster
Variable characters (60)
installed_power
Integer
ID_Element
<pi> Integer
<M>
name
Variabl e characters (60)
type
Integer
brand
Variabl e characters (60)
model
Variabl e characters (60)
softwareVersion
Variabl e characters (20)
manufactureDate
Variabl e characters (50)
diameter
Variabl e characters (50)
minimumUnavailability
Variabl e characters (50)
ID_T ime <pi> Integer
<M>
year
Integer
moth
Variable characters (10)
day
Integer
hour
Variable characters (8)
Key_1 <pi>
Key_1 <pi>
Key_1 <pi>
Factos_Average_Park
Factos_Average_T ime
Factos_Average_Element
Factos_Average
power
Integer
Float
duration
solarRadiation Float
Factos_Average_Responsability
Factos_Average_Incident
Responsability
Incident
<M>
ID_Responsability <pi> Integer
type
Variable characters (60)
<pi> Integer
<M>
ID_Incident
descriptionIncident
Variable characters (60)
durationIncident
Variable characters (60)
stateIncident
Variable characters (60)
Key_1 <pi>
Key_1 <pi>
Figura 7.16. Modelo concetual da DW.
No modelo concetual, as tabelas de factos (factos_energy e factos_average) apenas
possuem os atributos que representam as métricas que se pretendem extrair. Todas as
relações entre as tabelas são do tipo ”1:N” em que as dimensões estão do lado ”1” e as
tabelas de factos do lado ”N”, de modo a que ao gerar o diagrama físico, as tabelas de
factos tendo em conta a normalização, recebam todas as chaves primárias de cada uma
das dimensões como chaves forasteiras, para que possuam toda a informação
relativamente a cada registo.
84
CAPÍTULO 7
A Figura 7.17 ilustra a arquitetura do modelo físico da DW, o modelo físico é o novo
modelo que resulta da normalização definida no modelo conceptual, representado na
Figura 7.16. No novo modelo gerado, as únicas diferenças surgem nas tabelas de factos
(Factos_Energy e Factos_Average), que recebem como chaves forasteiras (foreign keys)
os atributos chave primária (primary key) de cada uma das dimensões a si associadas. Os
elementos ”ID” de cada dimensão vão permitir associar todos os registos guardados na
DW e obter informação mais detalhada quando necessário.
O modelo físico é gerado automaticamente no Power Designer 12.5, selecionando a
opção ”Generate Physical Data Model” no separador ”Tools” ou premindo o conjunto de
teclas ‘Ctrl + Shift + P’.
Factos_Energy
ID_Park
ID_Element
ID_Time
activePower
reactivePower
solarRadiation
int
<fk1>
int
<fk2>
int
<fk3>
float
float
float
FK_FACTOS_ENERGY_TIME
FK_FACTOS_ENERGY_PARK
FK_FACTOS_ENERGY_ELEMENT
Time
Element
Park
ID_Park
name
country
zone
cluster
installed_power
ID_Element
name
type
brand
model
softwareVersion
manufactureDate
diameter
minimumUnavailability
int
<pk>
varchar(60)
varchar(60)
varchar(60)
varchar(60)
int
int
<pk>
varchar(60)
int
varchar(60)
varchar(60)
varchar(20)
varchar(50)
varchar(50)
varchar(50)
ID_Time
year
moth
day
hour
int
<pk>
int
varchar(10)
int
varchar(8)
FK_FACTOS_AVERAGE_TIME
FK_FACTOS_AVERAGE_PARK
FK_FACTOS_AVERAGE_ELEMENT
Factos_Average
ID_Element
ID_Park
ID_Time
ID_Incident
ID_Responsability
power
duration
solarRadiation
FK_FACTOS_AVERAGE_RESPONSABILITY
int
int
int
int
int
int
float
float
<fk1>
<fk2>
<fk3>
<fk4>
<fk5>
FK_FACTOS_AVERAGE_INCIDENT
Responsability
Incident
ID_Responsability int
<pk>
type
varchar(60)
ID_Incident
descriptionIncident
durationIncident
stateIncident
int
<pk>
varchar(60)
varchar(60)
varchar(60)
Figura 7.17. Modelo físico da DW.
85
CAPÍTULO 7
A Figura 7.17 ilustra a arquitetura do modelo físico que sustenta a nossa DW.
Para uma melhor perceção da estrutura da nossa DW, vejamos em detalhe a descrição de
cada uma das tabelas (dimensões e factos) que constituem a arquitetura da DW.
7.2.8. Tabela de factos Factos_Eenrgy
A tabela “Factos_Energy” é a tabela de factos da estrela de produção de energia
responsável por estabelecer a ligação com as dimensões que constituem a mesma estrela.
A Figura 7.18 ilustra a estrutura da tabela em análise.
Factos_Energy
ID_Park
ID_Element
ID_Time
activePower
reactivePower
solarRadiation
int
<fk1>
int
<fk2>
int
<fk3>
float
float
float
Figura 7.18. Tabela de factos “Factos_Energy”
Os atributos da tabela ilustrada na Figura 7.18 são os atributos chave de cada uma das
dimensões da estrela de captura de energia e as métricas “activePower” (mede o valor da
potência ativa), “reactivePower” (mede o valor da potência reativa) e “solarRadiation”
(que mede os valores da radiação solar).
7.2.9. Dimensão Park
A dimensão “Park” é responsável por guardar o registo de dados relacionados com cada
parque de captura de energias renováveis.
A Figura 7.19 ilustra a estrutura da tabela da dimensão “Park”. A dimensão “Park” é
partilhada também pela estrela de manutenção.
Park
ID_Park
name
country
zone
cluster
installed_power
int
<pk>
varchar(60)
varchar(60)
varchar(60)
varchar(60)
int
Figura 7.19. Dimensão Park
A dimensão “Park” é composta pelo atributo chave primária (ID_Park), atributos de
informação relativamente ao parque como: nome (name); país de localização (country);
zona de localização (zone); identificação do cluster (cluster); e o valor de potência
instalada (installed_power).
86
CAPÍTULO 7
7.2.10. Dimensão Element
A dimensão “Element” é responsável por guardar informação relativamente a cada
elemento constituinte do parque de captura de energias renováveis.
A Figura 7.20 ilustra a estrutura da tabela relativa à dimensão “Element”. A dimensão
“Element” é partilhada também pela estrela de manutenção.
Element
ID_Element
name
type
brand
model
softwareVersion
manufactureDate
diameter
minimumUnavailability
int
<pk>
varchar(60)
int
varchar(60)
varchar(60)
varchar(20)
varchar(50)
varchar(50)
varchar(50)
Figura 7.20. Dimensão Element
A tabela relativa à dimensão “Element” é composta pelo seu atributo chave primária
(ID_Element), e por um conjunto de informação relativamente à descrição do elemento e
suas caraterísticas. Os atributos que a completam são: descrição do elemento (name); tipo
de elemento (type); marca do elemento (brand); modelo (model); versão do software
instalado no elemento (softwareVersion); data de fabrico (manufactureDate); diâmetro
(diameter); e indisponibilidade mínima (minimumUnavailability).
7.2.11. Dimensão Time
A dimensão “Time” é responsável por guardar dados relacionados com o tempo. A Figura
7.21 mostra a constituição da tabela. A dimensão “Time” é partilhada também pela estrela
de manutenção.
Time
ID_Time
year
moth
day
hour
int
<pk>
int
varchar(10)
int
varchar(8)
Figura 7.21. Dimensão Time
A tabela da dimensão “Time” é constituída pelo seu atributo chave primária (ID_Time) e
pelos atributos que guardam informação relativamente ao ano (year), mês (moth), dia
(day) e hora (hour).
7.2.12. Tabela de factos Factos_Average
A tabela de factos “Factos_Average” é responsável por interligar as dimensões da estrela
de manutenção. A sua estrutura é composta pelos atributos chave primária de cada uma
87
CAPÍTULO 7
das dimensões da estrela de manutenção e das suas métricas (“power”, “duration” e
“solarRadiation”). A Figura 7.22 ilustra a estrutura da tabela.
Factos_Average
ID_Element
ID_Park
ID_Time
ID_Incident
ID_Responsability
power
duration
solarRadiation
int
int
int
int
int
int
float
float
<fk1>
<fk2>
<fk3>
<fk4>
<fk5>
Figura 7.22. Tabela de factos, Factos_Average
As métricas da tabela pretendem medir a capacidade do elemento danificado (power), a
duração da avaria de modo a identificar os danos causados (duration) e a radiação solar
que se fez sentir durante o período de tempo em que o equipamento esteve em fase de
manutenção.
7.2.13. Dimensão Incident
A dimensão “Incident” tem como objetivo guardar os dados relativos aos incidentes
ocorridos. A Figura 7.23 ilustra a estrutura da tabela.
Incident
ID_Incident
descriptionIncident
durationIncident
stateIncident
int
<pk>
varchar(60)
varchar(60)
varchar(60)
Figura 7.23. Dimensão Incident
A dimensão “Incident” é composta pelo seu atributo chave primária (ID_Incident), pela
informação descritiva do incidente (descriptionIncident), duração do incidente
(durationIncident) e estado do incidente (stateIncident). O incidente pode ter sete estados
diferentes, sendo eles:
•
•
•
•
•
•
•
Restored 100%.
Open.
Closed.
Pending.
Locally Recognized.
Recognized.
Restored < 100%.
7.2.14. Dimensão Responsability
A dimensão “Responsability” é responsável por guardar informação relativamente ao tipo
de responsabilidade dos agentes de manutenção sobre o incidente.
88
CAPÍTULO 7
Responsability
<pk>
ID_Responsability int
type
varchar(60)
Figura 7.24. Dimensão Responsability
A Figura 7.24 ilustra a tabela da dimensão “Responsability”, que é composta pelo atributo
chave primária (ID_Responsability) e pelo atributo que regista o tipo de responsabilidade
(type).
7.2.15. Gerar código MySQL para a construção da DW
Os passos de criação do código MySQL para gerar a Data Warehouse construída nos
passos anteriores, são os mesmos que foram seguidos em 7.1. Para a criação do código
MySQL para gerar a DW recorrendo ao Power Designer 12.5, basta seguir os passos
ilustrados pelas figuras 7.11, 7.12, 7.13, 7.14 e 7.15.
7.3. Processos de ETL
O processo de ETL é dos passos mais importantes para o preenchimento correto da nossa
Data Warehouse. Aquando do desenvolvimento dos processos de ETL ainda estávamos
numa fase de avaliação das quatro ferramentas (JasperSoft, Pentaho, SpagoBI e Vanilla),
posto isto a ferramenta escolhida para o desenvolvimento dos processos de ETL foi
Talend. Esta escolha deveu-se ao facto de Talend ser adotada por todas as ferramentas BI
em análise, ainda que Pentaho possua um módulo específico (Pentaho Data Integration),
para os processos de ETL. Posteriormente analisámos o Pentaho Data Integration e
classificamo-lo como uma ótima solução fácil de usar e bastante apelativa. Esta escolha
surgiu também para demonstrar que as ferramentas open source têm a particularidade de
se tornarem compatíveis, sendo que a conciliação/utilização de ferramentas diferentes é
possível, complementando-se umas às outras.
Após construída a Data Warehouse, e após a definição dos elementos chave da base de
dados que seriam importantes analisar, procedemos ao inicio da construção do processo
de ETL.
7.3.1. Dimensão Park
A dimensão “Park” é carregada através do processo de ETL ilustrado na Figura 7.25.
89
CAPÍTULO 7
Figura 7.25. Esquema de ETL de carregamento da dimensão Park
A Figura 7.25 representa o esquema de ETL que permite carregar os dados da dimensão
“Park”. Na figura é possível identificar 5 elementos diferentes: fontes de dados, tabela de
mapeamentos, visualização de dados transformados, exportação de dados para um
ficheiro Excel e carregamento da dimensão Park da DW.
Os elementos “power_plant”, “zone”, “country”, “cluster” representam fontes de dados
de entrada. O elemento “tMap_1” é responsável pelo mapeamento de dados das várias
fontes de dados para a dimensão “park”, para o ficheiro de Excel “tFileOutputExcel_1” e
para o visualizador de registos “tLogRow_1”.
Os dados a carregar para a dimensão “park” da DW provêm de várias tabelas da base de
dados original, que suporta o sistema de energias renováveis. Para uma melhor perceção
do processo de extração de dados procedemos à descrição das consultas MySQL de cada
elemento de entrada de dados.
O elemento “country” segue a seguinte sintaxe MySQL de consulta.
"SELECT country.CTY_ID, country.CTY_NAME
FROM country"
O element “zone” contribui para o processo de transformação de dados com o resultado
da consulta que se segue.
"SELECT zone.ZON_ID, zone.CTY_ID, zone.ZON_NAME
FROM zone"
O element “power_plant” fornece os dados resultantes da consulta seguinte.
"SELECT power_plant.PWP_ID,
power_plant.NOD_ID,
power_plant.ZON_ID,
power_plant.ITO_ID,
power_plant.CLUS_ID,
power_plant.GPP_LAST_UPDATE,
power_plant.GPP_USER_LAST_UPDATE,
power_plant.GPP_DELETED,
90
CAPÍTULO 7
FROM
power_plant.PWP_NAME,
power_plant.PWP_COMPANY,
power_plant.PWP_INSTALL_DATE,
power_plant.PWP_INSTALLED_POWER,
power_plant.PWP_LINK_POINT,
power_plant.PWP_CAN_BE_LIMITED,
power_plant.PWP_LIMITE_TYPE,
power_plant.PWP_APPARENT_POW_LIMIT_DOMAIN,
power_plant.PWP_POWER_FACTOR_DOMAIN,
power_plant.PWP_APPARENT_POWER_LIMIT,
power_plant.PWP_REACTIVE_POWER_LIMIT,
power_plant.PWP_TYPE,
power_plant.PWP_ASSIGNED_POWER,
power_plant.PWP_MAX_FEED_POWER,
power_plant.PWP_MAX_REACTIVE_POWER,
power_plant.PWP_NOMINAL_POWER
power_plant"
Existem dois elementos “power_plant”, em que a consulta seguinte existe apenas para
fornecer os dados necessários para a DW e o anterior é responsável por manter a relação
com os atributos dos restantes elementos de entrada de dados.
"SELECT power_plant.PWP_ID,
power_plant.NOD_ID,
power_plant.ZON_ID,
power_plant.ITO_ID,
power_plant.CLUS_ID,
power_plant.PWP_NAME
FROM power_plant"
Por fim a fonte de dados “cluster”, que disponibiliza os dados resultantes da consulta que
se segue.
"SELECT cluster.CLUS_NAME,
cluster.CLUS_ID
FROM cluster"
A Figura 7.26 ilustra o element tMap_1, responsável por suportar o processo de
mapeamento de dados de tabelas para as respetivas fontes de destino, aplicando alguns
processos de transformação.
91
CAPÍTULO 7
Figura 7.26. Ilustração do elemento tMap_1
Na Figura 7.26 é possível visualizar do lado esquerdo as fontes de dados, em que o
atributo “PWP_INSTALLED_POWER” mapeia os seus dados para o atributo
“INSTALLED_POWER” da dimensão “Park” e do ficheiro Excel. Do lado esquerdo da
imagem estão representados os três elementos de saída de dados, a dimensão “Park” da
DW (dimension_park), o ficheiro de Excel (park_data) e o visualizador de registos (tlr).
Na zona inferior da imagem é possível visualizar o tipo de dados dos atributos de cada
elemento e proceder à sua alteração bem como outras especificações (p.ex: tamanho dos
campos). É possível inserir novos campos e proceder à eliminação de outros existentes
em cada elemento de entrada e saída.
A Figura 7.27 ajuda a perceber melhor qual a relação de cada elemento com os atributos
da dimensão “Park” da DW.
Figura 7.27. Constituição da dimensão Park da DW.
O elemento “tLogRow_1” ilustrado no processo de ETL da dimensão “Park”, foi
utilizado com a finalidade de facilitar a visualização dos dados gerados pelo processo
92
CAPÍTULO 7
para avaliar os resultados obtidos, antes de proceder ao carregamento direto dos dados
para a DW. O tipo de dados visíveis através do elemento “tLogRow_1” são os dados
ilustrados na Figura 7.28 na parte central no canto inferior direito da imagem.
Figura 7.28. Ilustração dos dados visíveis através do visualizador de dados
Por fim, vamos mostrar os dados mapeados para o ficheiro Excel. A Figura 7.29 ilustra as
seis colunas dos dados mapeados através do elemento “tMap_1”. A possibilidade de
exportar dados para ficheiros Excel é uma vantagem que possibilita a extração de
informação e criação de gráficos de forma simples utilizando uma ferramenta de
conhecimento comum para a grande parte dos recursos humanos de qualquer empresa.
Figura 7.29. Ficheiro Excel gerado pelo processo de ETL
93
CAPÍTULO 7
7.3.2. Dimensão Element
A dimensão “Element” tal como fora descrito anteriormente, tem como objetivo possuir
informação diversa que permita identificar cada elemento de um parque de captura de
energias renováveis. A Figura 7.30 mostra o esquema de ETL implementado.
Figura 7.30. Esquema do processo ETL da dimensão Element
A dimensão “element” é suportada pelos elementos de entrada (“element”,
“manufacturedDate”, “minimumUnavability”, “brand”, “diameter”, “model”, “name”,
“element_type” e “softwareVersion”), pelo elemento de mapeamento “tMap_1” e pelo
elemento de saida “element”.
A fonte de dados “element” possui a seguinte sintaxe de consulta.
"SELECT element.ELE_ID,
element.ETY_ID,
element.GPP_LAST_UPDATE,
element.GPP_USER_LAST_UPDATE,
element.GPP_DELETED
FROM element"
Tendo em conta que a dimensão “Element” é constituída pela descrição de vários
elementos independentes, e tendo em conta a arquitetura da base de dados do sistema de
controlo dos parques, alguns atributos necessitam de consultas com recurso à inclusão da
cláusula ‘WHERE’, o preenchimento do campo “manufacturedDate” requer uma consulta
condicionada como descreve a sintaxe seguinte.
"SELECT b.ELE_ID, b.ELA_VALUE_STR
FROM attribute_i18n a, element_attributes b
WHERE ATI_NAME='Manufacture Date' and a.ATR_ID = b.ATR_ID;"
O elemento de entrada “minimumUnavability” fornece os dados provenientes da consulta
que se segue, que também apresenta uma consulta condicionada.
94
CAPÍTULO 7
"SELECT b.ELE_ID, b.ELA_VALUE_STR
FROM attribute_i18n a, element_attributes b
WHERE ATI_NAME='Minimum Unavailability' and a.ATR_ID = b.ATR_ID;"
O elemento de entrada “brand” fornece os dados provenientes da seguinte consulta
condicionada que se segue.
"SELECT b.ELE_ID, b.ELA_VALUE_STR
FROM attribute_i18n a, element_attributes b
WHERE ATI_NAME='Brand' and a.ATR_ID = b.ATR_ID;"
O elemento de entrada “diameter” retorna os dados provenientes da consulta
condicionada que se segue.
"SELECT b.ELE_ID, b.ELA_VALUE_STR
FROM attribute_i18n a, element_attributes b
WHERE ATI_NAME='Diameter' and a.ATR_ID = b.ATR_ID;"
O elemento de entrada “model” disponibiliza o conjunto de dados provenientes da
consulta condicionada:
"SELECT b.ELE_ID, b.ELA_VALUE_STR
FROM attribute_i18n a, element_attributes b
WHERE ATI_NAME='Model' and a.ATR_ID = b.ATR_ID;"
O elemento de entrada “name” fornece os dados provenientes da consulta que se segue,
que também apresenta uma consulta condicionada.
"SELECT b.ELE_ID, b.ELA_VALUE_STR
FROM attribute_i18n a, element_attributes b
WHERE ATI_NAME='Name' and a.ATR_ID = b.ATR_ID;"
O elemento de entrada “element_type” apresenta os dados resultantes da consulta que se
segue.
"SELECT element_type.ETY_ID,
element_type.GPP_LAST_UPDATE,
element_type.GPP_USER_LAST_UPDATE,
element_type.GPP_DELETED,
element_type.ETY_TYPE,
element_type.ETY_PWP_TYPE,
element_type.ETY_ALLOW_MULTIPLE
FROM element_type"
O element de entrada “softwareVersion” fornece os dados provenientes da consulta que
se segue, que também apresenta uma consulta condicionada.
"select ELE_ID, ELA_VALUE_STR
From attribute_i18n a, element_attributes b
where ATI_NAME = 'Software Version' and a.ATR_ID = b.ATR_ID;"
95
CAPÍTULO 7
O elemento de mapeamento “tMap_1” surge representado na Figura 7.31 é possível
visualizar a relação entre elementos de entrada através do elemento chave primária
comum aos elementos chave forasteiras, essa representação surge ilustrada na figura do
lado esquerdo através da representação das chaves de cor roxa presentes nas tabelas de
atributos representadas. Neste caso o mapeamento é feito apenas para a dimensão
“Element”.
Figura 7.31. Representação do elemento tMap_1
A Figura 7.32 representa de forma otimizada o conjunto dos atributos mapeados para a
dimensão “Element” da DW.
Figura 7.32. Dimensão Element
Na figura é fácil de analisar a proveniência dos dados de cada atributo da dimensão
“Element”, os atributos da coluna “Expression” são provenientes das diferentes fontes,
96
CAPÍTULO 7
identificadas na primeira parte da descrição de cada atributo (fonte + . + atributo),
enquanto que na coluna “Column” estão listados os atributos da dimensão “Element” da
DW.
7.3.3. Dimensão Responsability
A dimensão “Responsability” tem como objetivo guardar os dados relativamente à
responsabilidade pela manutenção dos equipamentos. O processo de ETL desenvolvido
para o carregamento de dados na dimensão “responsability” é o que surge ilustrado na
Figura 7.33.
Figura 7.33. Processo de ETL para a dimensão responsability
O processo de ETL apresentado na Figura 7.33, é composto pelas fontes de entrada de
dados (“incident”, ”incident_cause” e “incident_cause_i18n”), pelo ficheiro Excel de
saida “tFileoutputExcel_1”, pelo elemento de mapeamento “tMap_1” e pela dimensão
“responsability” da DW.
Os dados fornecidos por cada elemento de entrada de dados são os que se fazem
representar de seguida.
A fonte de dados “incident” retorna os valores obtidos através da consulta que se segue.
"SELECT incident.INC_ID,
incident.ICS_ID,
incident.ICL_ID,
incident.IMD_ID,
incident.PKE_ID,
incident.ICC_ID,
incident.IDS_ID,
incident.GPP_LAST_UPDATE,
incident.GPP_USER_LAST_UPDATE,
incident.GPP_DELETED,
incident.INC_CODE,
incident.INC_NOTES,
incident.INC_START_DATE,
incident.INC_END_DATE,
97
CAPÍTULO 7
FROM
incident.INC_IMPACT
incident"
A fonte de dados “incident_cause” retorna os valores obtidos através da consulta que se
segue.
"SELECT incident_cause.ICC_ID,
incident_cause.GPP_LAST_UPDATE,
incident_cause.GPP_USER_LAST_UPDATE,
incident_cause.GPP_DELETED,
incident_cause.ICC_INTERNAL
FROM incident_cause"
A fonte de dados “incident_cause_i18n”, que é uma tabela que apresenta a tradução dos
atributos, retorna os valores obtidos através da consulta que se segue.
"SELECT incident_cause_i18n.ICC_ID,
incident_cause_i18n.LGG_ID,
incident_cause_i18n.GPP_LAST_UPDATE,
incident_cause_i18n.GPP_USER_LAST_UPDATE,
incident_cause_i18n.GPP_DELETED,
incident_cause_i18n.ICI_NAME
FROM incident_cause_i18n"
A Figura 7.34 apresenta o processo de mapeamento praticado sobre o elemento
“tMap_1”. O elemento “tMap_1” apresentado na Figura 7.34 não acrescenta nada de
novo relativamente aos elementos de mapeamento descritos nos passos anteriores.
Figura 7.34. Representação do elemento tMap_1 do processo de ETL
98
CAPÍTULO 7
A Figura 7.35 permite visualizar em maior detalhe a tabela de atributos que constituem a
dimensão “Responsability” da DW.
Figura 7.35. Dimensão Responsability
7.3.4 Dimensão Incident
A dimensão “Incident” é responsável por guardar todos os dados que descrevam um
incidente. O processo de ETL para o carregamento de dados da dimensão “Incident” da
nossa DW, surge representado na Figura 7.36. Este processo é simples, apenas é apoiado
por duas tabelas da base de dados, a tabela “incident” e a tabela que guarda os valores da
tradução dos estados dos incidentes. O campo estado é preenchido com informação que
permite descrever o estado de resolução/conhecimento do incidente. Para além dos
elementos de entrada já descritos, o modelo é constituído ainda por um elemento de
mapeamento de dados “tMap_1”, por um ficheiro Excel “tFileOutputExcel_1” e pela
dimensão “incident” da DW.
Figura 7.36. Modelo de ETL da dimensão Incident
A tabela “incident” disponibiliza para mapeamento os dados resultantes da consulta que
se segue.
"SELECT incident.INC_ID,
incident.ICS_ID,
incident.ICL_ID,
incident.IMD_ID,
incident.PKE_ID,
incident.ICC_ID,
incident.IDS_ID,
incident.GPP_LAST_UPDATE,
incident.GPP_USER_LAST_UPDATE,
incident.GPP_DELETED,
99
CAPÍTULO 7
FROM
incident.INC_CODE,
incident.INC_NOTES,
incident.INC_START_DATE,
incident.INC_END_DATE,
incident.INC_IMPACT
incident"
Por sua vez a tabela “incident_state_i18n” disponibiliza os dados provenientes da
consulta seguinte.
"SELECT incident_state_i18n.ICS_ID,
incident_state_i18n.LGG_ID,
incident_state_i18n.GPP_LAST_UPDATE,
incident_state_i18n.GPP_USER_LAST_UPDATE,
incident_state_i18n.GPP_DELETED,
incident_state_i18n.ICI_NAME
FROM incident_state_i18n"
A Figura 7.37 ilustra o elemento de mapeamento “tMap_1”, este elemento acrescenta
algumas novidades face aos restantes, o recurso a um processo de transformação na ação
de mapeamento de dados. Ao centro da imagem existe uma tabela, esta tabela permite
inserir processos de transformação sobre os dados de entrada e mapeá-los para o destino
após o processo de transformação.
Figura 7.37. Representação do elemento tMap_1
A dimensão possui um atributo “duration” que guarda valores relativamente à duração do
incidente, os dados disponibilizados na tabela “incident” são as datas de inicio e as datas
100
CAPÍTULO 7
de fim do incidente ocorrido, pondo isto, necessitamos de definir uma expressão que
através destes dois valores nos retorne a duração. A Figura 7.38 ilustra esses passos.
Figura 7.38. Definição de uma expressão para obter o valor da duração de tempo
A Figura 7.38 demonstra o processo de construção de uma expressão que permita retornar
o valor da duração do incidente. A estratégia é a subtracção da data de inicio à data de
término para obter o total da duração do incidente. Para isto procedemos à utilização da
expressão:
TalendDate.diffDate(incident.INC_END_DATE,incident.INC_START_DATE,“dd”)
Em que ‘dd’ define que a diferença deve ser exibida em dias.
A Figura 7.39 representa a dimensão “Incident” em maior detalhe.
Figura 7.39. Dimensão Incident
O elemento resultante da expressão surge representado na coluna “Expression” com a
descrição “Var.INC_END_DATE”.
101
CAPÍTULO 7
7.3.5. Dimensão Time
A dimensão “Time” é uma exceção ao que tem sido descrito nos processos de ETL
anteriores. Face à complexidade encontrada e à inexistência de documentação e
funcionalidades específicas no Talend Open Studio 3.2 para o preenchimento de
dimensões de tempo, o processo seguido no mapeamento de dados para a dimensão
“Time” da DW foi diferente dos anteriores. A solução encontrada foi o desenvolvimento
de um script em PHP (linguagem Web open source), que nos permitisse guardar dados
para todos os meses em ficheiros diferentes e no final correr a totalidade do ficheiro no
motor de base de dados de forma direta.
Inicialmente foi estipulado em conjunto com o cliente, que a dimensão “Time” deveria
possuir dados a partir do ano de 2008 e com registos de tempo de quinze em quinze
minutos. Pondo estes dados desenvolvemos o script PHP que se segue, não exigindo
grande esforço de compreensão. De um modo geral os aspetos que mudam do atual script
para os outros desenvolvidos é o nome do ficheiro, o valor de inicio da variável “$id”, o
valor de “$ano”, o valor relativamente ao dia máximo do mês em “$dia<=?”, em que ‘?’
será o número total de dias de cada mês e a descrição do mês na cláusula de “VALUES”.
<?php
$ficheiro = fopen("Janeiro.txt","w");
$id = 1;
$hora = 0;
$ano = 2008;
for($dia = 1;$dia <= 31;$dia++){
for($h = 0;$h < 24;$h++){
$r = 0;
for($r = 0;$r < 4;$r++){
Switch($r){
case 0:
$str="INSERT INTO timer (ID_TIME,ano, mes, dia, hora) VALUES
(".$id.",".$ano.",' January ',".$dia.",'".$h.":00');";
fputs($ficheiro,$str);
$id+=1;
break;
case 1:
$str="INSERT INTO timer (ID_TIME,ano, mes, dia, hora) VALUES
(".$id.",".$ano.",' January ',".$dia.",'".$h.":15');";
fputs($ficheiro,$str);
$id+=1;
break;
case 2:
$str="INSERT INTO timer (ID_TIME,ano, mes, dia, hora) VALUES
(".$id.",".$ano.",' January ',".$dia.",'".$h.":30');";
fputs($ficheiro,$str);
$id+=1;
break;
102
CAPÍTULO 7
case 3:
$str="INSERT INTO timer (ID_TIME,ano, mes, dia, hora) VALUES
(".$id.",".$ano.",'January',".$dia.",'".$h.":45');";
fputs($ficheiro,$str);
$id+=1;
break;
}
}
}
}
fclose($ficheiro);
?>
De um modo geral, nas primeiras linhas é especificado o nome do ficheiro a produzir, e
os valores das variáveis descritas em cima. Inicia-se um ciclo que vai desde o primeiro
dia do mês até ao último dia. Dentro deste ciclo existe um ciclo para cada hora do dia, que
inicia nas 0h e se prolonga até às 24h, mas dentro deste ciclo existe ainda um novo ciclo
que é repetido quatro vezes, de modo a registar dados de quinze em quinze minutos, ou
seja, quatro vezes por hora. A cada quarto de hora será produzida a respetiva linha no
ficheiro, esta linha de carateres tem a particularidade de ser a concatenação de elementos
que originam instruções MySQL prontas a correr no editor de base de dados.
7.3.6. Tabela de factos Factos_Energy
As tabelas de factos são tabelas constituídas por chaves forasteiras de todas as dimensões
da sua estrela e pelos atributos de medida. São compostas de algarismos e permitem
aceder a toda a informação dos registos dos dados de cada dimensão. Após descritos
todos os processos de ETL das dimensões vamos especificar agora os processos de ETL
das tabelas de factos. A Figura 7.40 ilustra o processo de ETL da tabela de factos
“factos_energy”.
Figura 7.40. Processo de ETL da tabela de factos factos_energy
103
CAPÍTULO 7
O processo de ETL é composto pelos elementos de entrada de dados (“park”, “element”,
“activePower”, “reactivePower”, “SolarRadiation” e “timer”), os elementos de
mapeamento “tMap_1” e “tMap_2”, visualizador de dados “tLogRow_1” e a tabela de
factos da DW “factos_energy”.
Os elementos disponíveis por cada elemento de entrada, são os disponibilizados pelas
consultas que se seguem.
A métrica “activePower” é satisfeita pela consulta que se segue, esta consulta recorre a
uma cláusula “WHERE” para a seleção dos dados pretendidos, neste caso em que o
atributo “ANM_ID” tenha o valor de 5001.
"SELEC Tanalogical_values.PKE_ID, analogical_values.ANV_VALUE
FROM analogical_values
WHERE
analogical_values.ANM_ID = '5001';"
A métrica “reactivePower” é satisfeita pela consulta que se segue, esta consulta recorre a
uma cláusula “WHERE” para a seleção dos dados pretendidos, neste caso em que o
atributo “ANM_ID” tenha o valor de 5002.
"SELECTanalogical_values.PKE_ID, analogical_values.ANV_VALUE
FROM analogical_values
WHERE
analogical_values.ANM_ID = '5002';"
A métrica “SolarRadiation” tendo em conta que é um valor instável durante todo o tempo,
e tendo em conta que regista valores diferentes a cada quinze minutos, surgiu a
necessidade de construir uma consulta complexa que nos permitisse guardar em cada
quinze minutos o valor médio registado durante esse intervalo de tempo. A consulta que
se segue representa essa operação.
"SELECT ID_TIME, YEAR(criticalsys.analogical_values.ANV_TIMESTAMP) as
\"ano2\",
MONTHNAME(criticalsys.analogical_values.ANV_TIMESTAMP) as mes2,
DAY(criticalsys.analogical_values.ANV_TIMESTAMP) as \"dia2\",
HOUR(criticalsys.analogical_values.ANV_TIMESTAMP) as \"hora2\",
(SELECT CASE WHEN
MINUTE(criticalsys.analogical_values.ANV_TIMESTAMP)>=00 AND
MINUTE(criticalsys.analogical_values.ANV_TIMESTAMP) <15 then 00
WHEN MINUTE(criticalsys.analogical_values.ANV_TIMESTAMP)>=15 AND
MINUTE(criticalsys.analogical_values.ANV_TIMESTAMP) <30 then 15
WHEN MINUTE(criticalsys.analogical_values.ANV_TIMESTAMP)>=30 AND
MINUTE(criticalsys.analogical_values.ANV_TIMESTAMP) <45 then 30
ELSE 45 END) as \"Minuto\",
concat(HOUR(criticalsys.analogical_values.ANV_TIMESTAMP),':',
(SELECT CASE WHEN MINUTE(ANV_TIMESTAMP)>=00 AND MINUTE(ANV_TIMESTAMP)
<15 then '00'WHEN
MINUTE(criticalsys.analogical_values.ANV_TIMESTAMP)>=15 AND
104
CAPÍTULO 7
MINUTE(criticalsys.analogical_values.ANV_TIMESTAMP) <30 then 15
WHEN MINUTE(criticalsys.analogical_values.ANV_TIMESTAMP)>=30 AND
MINUTE(criticalsys.analogical_values.ANV_TIMESTAMP) <45 then 30 ELSE 45
END) ) as \"time2\",avg(ANV_VALUE) as \"SolarRadiation\"
FROM timer, criticalsys.analogical_values
WHERE criticalsys.analogical_values.ANM_ID = 5006 and
mes=MONTHNAME(criticalsys.analogical_values.ANV_TIMESTAMP) and dia =
DAY(criticalsys.analogical_values.ANV_TIMESTAMP) and
ano=YEAR(criticalsys.analogical_values.ANV_TIMESTAMP) and
hora=concat(HOUR(criticalsys.analogical_values.ANV_TIMESTAMP),':',
(SELECT CASE WHEN MINUTE(ANV_TIMESTAMP)>=00 AND MINUTE(ANV_TIMESTAMP)
<15 then '00'WHEN
MINUTE(criticalsys.analogical_values.ANV_TIMESTAMP)>=15 AND
MINUTE(criticalsys.analogical_values.ANV_TIMESTAMP) <30 then 15
WHEN MINUTE(criticalsys.analogical_values.ANV_TIMESTAMP)>=30 AND
MINUTE(criticalsys.analogical_values.ANV_TIMESTAMP) <45 then 30 ELSE 45
END) )GROUP BY DAY(criticalsys.analogical_values.ANV_TIMESTAMP),
HOUR(criticalsys.analogical_values.ANV_TIMESTAMP),Minuto;"
O processo de ETL possui dois elementos de mapeamento, a Figura 7.41 demonstra a
representação do elemento de mapeamento “tMap_2”, em que o único processo que
ocorre é o carregamento dos valores da métrica de “SolarRadiation” e o respetivo valor de
“ID_TIME”. Este mapeamento permite abordar de forma separada um processo mais
complexo.
Figura 7.41. Representação do elemento tMap_2
A Figura 7.42 ilustra o elemento de mapeamento tMap_1 que permite o mapeamento para
o visualizador de dados e para a dimensão da DW. O atributo “SOLARRADIATION”
105
CAPÍTULO 7
presente na tabela de factos recebe os valores provenientes de tMap_2 associados com
“ID_TIME”.
Figura 7.42. Ilustração do elemento tMap_1
A Figura 7.43 apresenta de forma mais visível os atributos e a origem dos dados da tabela
de factos “factos_energy”.
Figura 7.43. Tabela de factos “factos_energy”
7.3.7. Tabela de factos Factos_Average
A tabela de factos “factos_average” guarda a informação necessária relativamente a todos
os dados relativos a incidentes e manutenção.
O processo de ETL para o carregamento de dados nesta tabela de factos, é composto por
seis fontes de dados de entrada (“park”, “element”, “SolarRadiation”, “timer”,
“responsability” e “incident”), os elementos de mapeamento (“tMap_1” e “tMap2”) o
visualizador de registos “tLogRow_1” e a tabela de factos “factos_average”.
106
CAPÍTULO 7
A Figura 7.44.a ilustra o processo de ETL da tabela de factos “factos_average”.
Figura 7.44. Processo de ETL da tabela de factos factos_average
O elemento “tMap_2” é igual ao ilustrado na Figura 7.40, dispensando apresentações.
Figura 7.45. Representação do elemento tMap_2
O elemento tMap_1 possui também uma variável de expressão igual à especificada na
Figura 7.38.
107
CAPÍTULO 7
Figura 7.46. Representação do elemento tMap_1
A Figura 7.47 ilustra a estrutura da tabela de factos “factos_average”, apresentando os
atributos e a proveniência dos dados que sustentam cada atributo.
Figura 7.47. Tabela de factos factos_average
O elemento “tLogRow_1” utilizado neste esquema de ETL possui mais dados que o
visualizador de registos ilustrado anteriormente na Figura 7.28. A Figura 7.48 permite
visualizar um grupo de dados através da utilização do visualizador de dados
“tLogRow_1”.
108
CAPÍTULO 7
Figura 7.48. Visualização dos dados com o elemento tLogRow_1
A Figura 7.48 permite visualizar através do elemento “tLogRow_1” um conjunto de
dados composto em oito colunas, tantas como o número de atributos definidos para a
visualização.
7.4. Construção de Cubos OLAP
Pentaho, tal como tem vindo a ser analisado, é uma ferramenta composta por módulos,
em que, alguns desses módulos são construídos por comunidades externas, que se
dedicam a construir módulos específicos de BI para integração no servidor de
funcionalidades Pentaho. Nas análises e criação de cubos OLAP, a versão Pentaho Server
3.8 disponibiliza uma funcionalidade para criação de análises. Na nossa atividade prática
utilizámos a ferramenta disponível para a criação de análises disponibilizada no servidor e
ainda implementámos e explorámos mais duas, PAT Analysis Tool e Saiku. Para uma
melhor perceção das capacidades de cada uma destas ferramentas vamos falar um pouco
sobre cada uma delas, descrever os passos de instalação e proceder à construção de cubos
OLAP com auxílio de cada uma delas.
Um aspeto comum em cada um destes módulos é o recurso à linguagem MDX, que
requer algum conhecimento e alguma informação sobre a mesma.
7.4.1. Linguagem MDX
MDX (Multidimensional Expressions) é uma linguagem de consulta para bases de dados
OLAP relacionais. A linguagem foi desenvolvida para consultar e manipular dados
armazenados por cubos OLAP. Algumas das ferramentas que a utilizam conseguem
109
CAPÍTULO 7
converter sintaxe SQL para MDX ainda que não exista uma conversão base (WikipédiaMDX, 2011).
A sintaxe de MDX possui seis tipos de dados distintos.
•
•
•
•
•
•
Escalar: pode representar um número ou uma cadeia de carateres.
Dimensão ou Hierarquia: representa a dimensão de um cubo. (p.ex: [Tempo])
Nível: representa o nível de uma hierarquia de dimensão. (p.ex:
[Tempo].[Ano].[Mês]).
Membros: representa o membro de uma hierarquia de dimensão. (p.ex:
[Tempo].[Mês].[dezembro 2011]).
Tupla:
representa
um
conjunto
de
dados
agrupados.
(p.ex:
[Tempo].[Mês].[dezembro],
[Clientes].[Zona].[All
Clientes].[Coimbra],
[Measures].[Sales]).
Conjunto: representa um grupo de dados com a mesma dimensão ou hierarquia.
(p.ex:
{([Measures].[Sales], [Tempo].[Ano].[2006]),
([Measures].[Sales],
[Tempo].[Ano].[2007])}).
Para uma melhor compreensão vamos descrever um exemplo prático.
SELECT
NON EMPTY {[Measures].[pc__sum(ACTIVEPOWER)],[Measures].[pc__sum(
SOLARRADIATION)]} ON COLUMNS,
NON EMPTY {Hierarchize({Order({[pc__dia].[All pc__dias].Children,
[pc__dia].[2].Children, [pc__dia].[5].Children, [pc__dia].[8].Children,
[pc__dia].[21].Children }, [pc__dia].CurrentMember.Name, ASC )
}) } ON ROWS FROM
[dw_sisenergias2]
A consulta acima apresenta no cubo de dados a soma das métricas (ACTIVEPOWER e
SOLARRADIATION) por colunas e nas linhas do cubo os valores respetivos nos dias 2,
5, 8 e 21 de forma ascendente, com base na tabela dw_sisenergias2. Como podemos
analisar a estrutura e a sintaxe é um pouco mais complexa que a linguagem SQL.
7.4.2. PAT Analysis Tool
PAT Analysis Tool é um módulo de OLAP desenvolvido pela organização Analytical
Labs, liderada por Tom Barber e Paul Stoellberger que idealizaram a construção de uma
ferramenta open source que suportasse a realização de análises completas. No futuro a
ideia da organização é subdividir o atual projeto por vários módulos de forma a fornecer
uma ferramenta mais estruturada e com maior número de funcionalidades.
PAT tem como objetivo apresentar os resultados de consultas à DW, através da
representação de cubos de dados e gráficos ilustrativos das diferentes consultas.
110
CAPÍTULO 7
7.4.2.1. Instalação de PAT Plugin 0.8 no Pentaho
No nosso caso prático procedemos à instalação de uma versão PAT plugin que se instala
com facilidade no servidor Pentaho BI Server CE 3.8 e em poucos passos torna-se
funcional.
O primeiro passo a seguir para proceder à instalação da ferramenta PAT é aceder ao link
“http://code.google.com/p/pentahoanalysistool/” e proceder ao download do ficheiro, no
nosso caso ‘pat-plugin-0.8.zip’.
•
•
•
•
•
Após o download da aplicação deve parar o servidor tomcat da aplicação Pentaho
caso esteja a ser utilizado e posteriormente seguir os passos seguintes.
Extrair o ficheiro .zip para o diretório de instalação de Pentaho para
\pentaho\biserver-ce\pentaho-solutions\system.
Iniciar o servidor Pentaho.
Verificar a instalação acedendo em http://localhost:8080/pentaho/home.
Verificar o novo ícone “New PAT Analysis”, como ilustra a Figura 7.49.
Figura 7.49. Ícones do ambiente de trabalho de Pentaho
•
E está pronto a utilizar.
7.4.2.2. Criação de análises com PAT Analysis
Após a instalação da ferramenta é possível a criação de análises com PAT, os próximos
passos vão explicar o processo de criação de análises com a ferramenta (Barber et. Al,
2010).
Inicialmente é necessário que o utilizador selecione o ícone “New PAT Analysis”,
posteriormente aparece uma janela onde é possível criar e configurar ligações a bases de
dados, selecionar cubos de dados já existentes no repositório ou procurar ajuda online
relativamente à utilização da ferramenta. Aquando da seleção de um cubo de dados, a
111
CAPÍTULO 7
aplicação envia-nos diretamente para um painel de desenho do cubo de dados, com
recurso a funcionalidades de drag and drop ou especificação de consultas através da
linguagem MDX.
A Figura 7.50 ilustra o ambiente de desenvolvimento de cubo de dados OLAP e o menu
de opções mencionado.
Figura 7.50. Ambiente de trabalho PAT Analysis.
Na figura é possível visualizar o separador PAT, em cima estão os menus para conexão a
base de dados, cubo de dados e ajuda respetivamente. Do lado esquerdo do separador
estão as dimensões e as métricas, do lado direito o painel de desenho, basta arrastar os
elementos para a estrutura do cubo ou programar em MDX. O ícone de reciclagem no
canto inferior direito é utilizado para eliminar elementos que não estejam corretos no
cubo de dados.
7.4.2.3. Exemplos práticos do projeto utilizando PAT Analysis
Para uma melhor demonstração das potencialidades de PAT, procedemos à demonstração
de elementos práticos do nosso projeto. Um dos objetivos em termos de análise era
desenvolver um cubo de dados que nos permitisse avaliar a oscilação dos valores de
potência ativa, potência reativa e radiação solar ao longo do dia corrente. A Figura 7.51
ilustra essa consulta.
112
CAPÍTULO 7
Figura 7.51. Cubo de dados por dia por hora
A Figura 7.51 ilustra um cubo de dados com a respetiva representação gráfica, com
recurso a um gráfico de progressão. A representação gráfica surge acompanhada da
respetiva legenda tornando mais fácil a análise dos dados do cubo. Os dados disponíveis
na consulta apenas contemplam cinco períodos do dia, de realçar que a cada período
identificado correspondem os valores médios registados durante o intervalo de quinze
minutos. No topo da área de trabalho de PAT estão disponíveis algumas funcionalidades,
vista de MDX, exportação de dados, inserção e visualização de gráficos, inclusão de
maior detalhe de informação, ascendente de dados, descendente de dados, desativar
opções de Drill, ativar ausência de registos em branco, mudança de eixos e
funcionalidade de Drill Through.
Num segundo exemplo, pretendemos visualizar a mesma consulta mas apenas para a
métrica “SOLARRADIATION”, e vamos selecionar a opção de visualizar os resultados
num gráfico de barras.
113
CAPÍTULO 7
Figura 7.52. Valores de radiação solar por dia por hora
A Figura 7.52 ilustra os valores de radiação solar para o dia corrente em cinco períodos
do dia diferentes. A ferramenta de análise disponibiliza a possibilidade de visualizar
gráficos em 3D, e aplicar diferentes estilos de visualização.
Figura 7.53. Quantidade de incidentes por estado
114
CAPÍTULO 7
A Figura 7.53 mostra uma consulta relativamente aos tipos de estado de incidentes e a
quantidade de registos em cada estado de conclusão. Existe a representação de um gráfico
circular.
7.4.3. Saiku
Saiku também desenvolvido pela organização Analytical Labs é uma ferramenta open
source modular de análises, e surgiu com o objetivo de simplificar o processo de análises
de dados internos da aplicação.
7.4.3.1. Instalação de Saiku 2.0 no Pentaho BI Server CE 3.8
A ferramenta encontra-se disponível para download em “http://analytical-labs.com/” ou
acedendo diretamente a “http://analytical-labs.com/downloads/saiku-plugin-2.0.zip”.
•
•
•
•
•
Após o download da aplicação descompacta-se o ficheiro saiku-plugin-2.0SNAPSHOT.zip.
Termine a execução do servidor Pentaho caso esteja inicializado.
Copie a pasta saiku para o diretório \pentaho\biserver-ce\pentahosolutions\system.
Reinicie o servidor Pentaho BI Server CE 3.8.
Verificar o novo ícone “New Saiku Analytics”, como ilustra a Figura 7.54.
Figura 7.54. Ícone Saiku no ambiente de trabalho de Pentaho
•
E está pronto a utilizar.
7.4.3.2. Exemplos práticos do projeto utilizando Saiku
Após a instalação, para inicializar a construção de análises com recurso a Saiku basta
clicar em “New Saiku Analytics” e logo de seguida será aberta a aplicação no ambiente
de trabalho Pentaho. A Figura 7.55 ilustra o painel de desenvolvimento de Saiku.
115
CAPÍTULO 7
Figura 7.55. Ambiente de trabalho Saiku.
O exemplo representado na figura tem a seguinte sintaxe MDX:
SELECT
NON EMPTY
{Hierarchize({[Measures].[pc__ACTIVEPOWER],[Measures].[pc__REACTIVEPOWER
], [Measures].[pc__SOLARRADIATION]})} ON COLUMNS,
NON EMPTY {Hierarchize({[pc__ID_ELEMENT].[pc__ID_ELEMENT].Members})} ON
ROWS
FROM [dw_sisenergias_energy]
WHERE {Hierarchize({[pc__ID_PARK].[pc__ID_PARK].Members})}
Saiku em termos de construção de cubos de dados é mais atrativo que PAT Analysis, mas
de um modo geral é bastante mais rudimentar. No ambiente de trabalho ilustrado na
Figura 7.55 é possível visualizar na área Saiku, do lado direito uma dropdownlist o grupo
de dimensões e as métricas disponíveis pela consulta. A área de desenho é composta pelo
menu de opções composto pelos elementos:
•
•
•
•
•
116
Run query - funcionalidade para gerar o cubo de dados caso a funcionalidade
“automatic execution” não se encontre ativa.
Automatic execution - permite gerar o cubo de dados em tempo real, é possível
ativar e desativar esta opção.
Toggle fields - esta funcionalidade permite visualizar o cubo de dados produzido,
em ambiente alargado.
Non-empty - opção que omite dados em branco.
Swap axis - opção vulgar para a troca de eixos, em que colunas passam a
apresentar os dados das linhas e vise versa.
CAPÍTULO 7
•
•
•
•
Drill Through current query – permite aplicar a função Drill Through no cubo de
dados corrente.
Show MDX - funcionalidade que permite aceder ao código de consulta MDX.
Export XLS - Saiku permite extrair dados para Excel.
Export CSV - exportação para ficheiros CSV também é suportada no Saiku.
Na área de desenho é possível construir o cubo de dados através de drag and drop,
arrastando dimensões e métricas para os separadores:
•
•
•
Columns – área restrita aos dados a visualizar nas colunas do cubo de dados.
Rows – área de definição de dados a apresentar nas linhas do cubo.
Filter – Saiku também permite filtrar dados relativamente a elementos específicos.
O cubo de dados é representado à medida que vai sendo construído, caso a opção
“Automatic execution” esteja ativa. O plugin quando comparado com PAT Analysis
torna-se mais rudimentar em termos de visualização, não disponibilizando opções para a
criação de gráficos ilustrativos dos dados apresentados pelo cubo.
7.4.4. Pentaho Mondrian
O servidor Pentaho já possui uma funcionalidade para construção de cubos OLAP, o
Mondrian. Essa funcionalidade encontra-se disponível no ambiente de trabalho Pentaho.
Na Figura 7.56 é possível visualizar o ícone respetivo, acompanhado pela descrição “New
Analysis View”.
Figura 7.56. Ícone New Analysis View no ambiente de trabalho de Pentaho
Após seleccionar a opção surge no ecrã uma nova janela, representada na Figura 7.57.
117
CAPÍTULO 7
Figura 7.57. Janela de seleção de cubo de dados
A janela representada na Figura 7.57 pretende que o utilizador selecione o cubo de dados
que pretende trabalhar.
A Figura 7.58 ilustra um exemplo da utilização da ferramenta. O exemplo em análise
representa os valores da potência ativa num dia específico em cinco horas distintas.
Figura 7.58. Representação OLAP com a ferramenta do servidor 3.8
Em termos visuais a ferramenta tem menor qualidade que PAT, em termos de construção
de cubos de dados o processo é pegar num cubo de dados previamente definido e
apresenta-lo graficamente, o processo de construção segue assim outros passos, sem
existência da possibilidade de construção de cubos de dados recorrendo a processos de
drag and drop. De um modo geral esta é uma boa solução ainda que rudimentar.
118
CAPÍTULO 7
7.5. Criação de Dashboards
Os dashboards são um dos elementos BI mais importantes, transformam conjuntos de
dados em elementos gráficos. Existem algumas soluções Pentaho para a criação de
dashboards, Pentaho é compatível com algumas ferramentas como JFree Charts ou
Fusion Charts por exemplo, mas todas estas ferramentas são um pouco arcaicas e
requerem bastantes conhecimentos técnicos de informática por parte dos seus
utilizadores, nomeadamente conhecimentos da linguagem de programação Java. A
maioria das ferramentas trabalham sobre o ambiente de Eclipse, que possibilita a criação
de dashboards com recurso a programação de ficheiros que posteriormente sejam
interpretados pelo servidor de Pentaho.
Para a criação dos nossos dashboards da atividade prática recorremos à utilização de uma
Framework inovadora, CDF-DE (Community Dashboard Framework – Dashboard
Editor).
Esta Framework de desenvolvimento de dashboards para a versão CE de Pentaho, foi
desenvolvida por Pedro Alves e Klose Ingo, dois membros da comunidade de
desenvolvimento de Pentaho.
Os dois membros da comunidade desenvolveram um plugin de fácil utilização e com
alguns benefícios, nomeadamente (CDF, 2011):
•
•
•
•
•
•
•
•
•
•
A criação de dashboards com necessidade de pouca/nenhuma utilização de
javascript.
Facilidade em definir objetos, painéis e variáveis.
Carregamento automático de painéis em desenvolvimento.
Atualização automática dos dashboards relativamente à alteração dos valores dos
dados.
Geração automática de elementos de navegação, caixas de texto selecionadores,
etc.
Separação de elementos de html e definição de componentes.
Integração com OpenStreetmaps.
Facilidade de integração com o servidor.
Disponibilização de templates.
Suporte a vários tipos de base de dados.
Possibilidade da criação de um ficheiro CSS (Cascading Style Sheets) que defina as
formatações gerais do painel.
A quantidade de benefícios é clara, a facilidade de utilização da ferramenta é um fator
crítico na nossa avaliação, procuramos solucionar um problema sem grandes
investimentos, este é o plugin ideal tendo em conta que não exige grandes conhecimentos
aprofundados de informática por parte dos utilizadores. Em seguida apresentamos um
119
CAPÍTULO 7
tutorial de instalação do plugin e alguns exeplos práticos de utilização do mesmo, no
nosso caso prático.
7.5.1. Instalação CDF-DE
No nosso caso prático procedemos à instalação do plugin CDF-DE, a instalação do plugin
é simples, tal como os plugins de análise de dados instalados e descritos em 7.3.2.1 e
7.3.3.1. Para a instalação apoiada do plugin basta seguir os passos seguintes.
Passo 1 – Download do plugin
•
•
Inicialmente deve proceder ao download do ficheiro de instalação do plugin. O
ficheiro pode ser encontrado em “http://code.google.com/p/cdf-de/downloads
/list”.
Ainda não existe uma versão estável do plugin ainda assim procedemos ao
download do ficheiro mais atualizado atualmente o “CDE-bundle-1.0RC3.tar.bz2”, as versões estáveis contêm a palavra “stable” na nomenclatura do
ficheiro.
Passo 2 – Descompactar ficheiro
•
•
Após efectuado o download deve proceder à descompactação do ficheiro “CDEbundle-1.0-RC3.tar.bz2”.
Após descompactado, o resultado deve ser o seguinte conjunto de diretórios:
/bi-developers
/cde_sample
/cdf
/CST
/system/
............../cda
............. /pentaho-cdf
............. /pentaho-cdf-dd
Passo 3 – Mover pastas descompactadas
•
No diretório de instalação de Pentaho selecione as pastas “\biserver-ce\pentahosolutions” e mova para a atual diretoria as seguintes pastas:
/bi-developers
/cde_sample
/cdf
/CST
/system/
…………/cda
…………/pentaho-cdf
…………pentaho-cdf-dd
120
CAPÍTULO 7
Figura 7.59. Ambiente de trabalho Pentaho atualizado com a nova funcionalidade CDE
A Figura 7.59. ilustra o ambiente de trabalho Pentaho com a nova Framework de
dashboards instalada, “New CDE Dashboard”. O plugin está pronto a utilizar, ao
selecionar “New CDE Dashboard” será iniciada a aplicação, a Figura 7.60 ilustra o
ambiente de trabalho da aplicação. Para iniciar a utilização do plugin recomenda-se a
visualização do tutorial acessível em:
“http://www.youtube.com/watch?v=cW8YzwC2uNU&feature=player_ embedded #!”
Figura 7.60. Ambiente de trabalho de CDE
O cabeçalho da aplicação CDE é composto por um menu composto pelas opções (criar
novo dashboard, guardar dashboard, guardar como, atualizar dashboard e propriedades
do dashboard). O menu da direita, é composto por separadores de opções técnicas.
No separador de “Layout” é possível estruturar a apresentação de dashboards, definindo
blocos de instruções HTML, ficheiros de CSS e JavaScript. Esta estruturação pode ser
feita de forma manual recorrendo aos ícones de construção presentes em “Layout
Structure” (criar colunas, criar linhas, criar blocos de código HTML, etc.) ou selecionar
um dos Templates já estruturados e disponíveis para utilização. A Figura 7.61 ilustra a
seleção de um dos Template disponibilizados pelo plugin.
121
CAPÍTULO 7
Figura 7.61. Seleção de um Template existente disponível no plugin.
O separador “Components” disponibiliza um conjunto de elementos a adicionar ao painel
de dashboards. Neste separador é possível definir gráficos de diferentes tipos, definir
caixas de seleção, incluir tabelas entre outros componentes. Nas propriedades de cada
elemento é possível definir em que painel do Layout deve surgir representado, especificar
conteúdo, especificar dados, cores, etc. A Figura 7.62 ilustra o separador “Components”.
Ao fazermos duplo clique sobre a janela do CDE podemos visualizar a aplicação numa
nova aba do nosso browser, num ambiente de trabalho expandido, como ilustra a Figura
7.62.
Figura 7.62. Separador Components.
122
CAPÍTULO 7
No separador “Components” representado na Figura 7.62, surge a inserção de dois
componentes do grupo de gráficos, um gráfico de barras “bar1” e um gráfico circular
“pie1”. Na imagem é possível visualizar as propriedades do gráfico circular “pie1”.
O separador “Data Sources” é composto pelo conjunto de elementos relacionados com
diferentes tipos de bases de dados e tipos de consultas. No nosso caso prático vamos
necessitar apenas de utilizar consultas SQL via JDBC, mas a Figura 7.63, permite ter uma
maior percepção do conjunto de componentes de base de dados disponíveis.
Figura 7.63. Representação do separador Data Sources.
A Figura 7.63 mostra as propriedades definidas para uma base de dados SQL designada
de “ds1”. O acesso aos dados é feito com recurso a JDBC, e requer que nas propriedades
da consulta seja definido o driver (com.mysql.jdbc.Driver) na segunda variável “Name” e
o URL de acesso à base de dados, que neste caso é “jdbc:mysql://localhost:3306/
dw_sisenergias”.
Cada componente gráfica deve ser associada a um elemento “Data Source” de modo a
representar os dados resultantes da sua consulta. A sintaxe SQL é definida na variável
“Query” das propriedades da “Data Source”.
Por fim o separador “Preview”, este não é um separador de opções, funciona apenas como
uma funcionalidade que tem como objetivo apresentar o resultado final.
A atividade prática que a empresa pretende visualizar em dashboard é uma representação
dos valores de potência ativa agrupados por mês, no ano corrente. Na nossa base de dados
apenas constam dados relativamente aos meses de junho e agosto.
123
CAPÍTULO 7
A Figura 7.64 apresenta o resultado prático da nossa atividade prática, representado
através de um gráfico de barras e um gráfico circular.
Figura 7.64. Dashboards do caso prático.
Da análise à Figura 7.64 podemos concluir que o mês de Agosto representa valores de
potência ativa bastante mais elevados que o mês de Junho. A ferramenta permite a
inserção de legendas de forma automática, inserção de valores nos eixos dos gráficos de
barras e representação dos valores registados.
7.6. Criação de Relatórios
A criação de relatórios é uma possibilidade no Pentaho BI Server CE 3.8. Define-se por
relatório de Business Intelligence a uma componente que permita apresentar um conjunto
de dados, que se façam representar por diferentes tipos de elementos, nomeadamente
análises, gráficos e tabelas.
O plugin CDF-DE também possibilita a construção de relatórios, compostos de um
conjunto de dashboards, tendo como contrapartida o facto de os exibir apenas de forma
gráfica, não tendo a possibilidade de os exportar para outro formato.
Como atividade prática foi-nos atribuída a tarefa de desenvolver um relatório tendo em
conta a análise dos valores de potência ativa, potência reativa e irradiação solar registados
no dia corrente ao longo dos períodos de tempo que possuam registos. No nosso caso
prático vamos utilizar a ferramenta incluída no servidor Pentaho que se faz representar no
ambiente de trabalho pelo ícone “New Report”.
A Figura 7.65 ilustra o ambiente de trabalho da ferramenta de criação de relatórios. A
ferramenta é um pouco rudimentar, não permite a personalização dos relatórios em
termos de cores e tipos de letra, estilos (CSS) apenas disponibiliza seis modelos de
124
CAPÍTULO 7
templates de relatórios que podem ser aplicados ao relatório a produzir. Os passos de
construção de um relatório são simplificados e não requerem grandes conhecimentos de
informática por parte dos utilizadores. A estruturação do relatório é feita através de drag
and drop o que também facilita a ação do utilizador.
De seguida apresentamos os passos para a contrução do nosso relatório da atividade
prática.
A Figura 7.65 ilustra o primeiro passo para a criação de um relatório, seleção do cubo de
dados (cubos previamente criados na opção “New Data Source”), e do template. Ambos
os passos são ilustrados no lado esquerdo do ambiente de trabalho da aplicação
representada na Figura 7.65.
Figura 7.65. Primeiro passo para a contrução de um relatório de dados
Após a seleção do cubo de dados e do respetivo template, com o qual pretendemos
construir o relatório avançamos para o próximo passo. O passo seguinte é a estruturação
do relatório a contruir. Surge no ambiente de trabalho representado na Figura 7.65 os
itens provenientes do cubo de dados, representados do lado esquerdo da figura, e do lado
direito uma pré-definição da estrutura do relatório a ser construída com os elementos do
cubo. Este processo é realizado através da ação de arrastar os itens do cubo para a
estrutura do relatório. A estrutura do relatório é composta por um ou mais níveis, que se
farão representar em cada linha do relatório, e pela respetiva informação de detalhe. A
camada de filtros “Filters”, não é obrigatória, no nosso caso não a vamos utilizar.
125
CAPÍTULO 7
Figura 7.66. Segundo passo para a criação de um relatório
Após estruturado o relatório, prosseguimos até ao passo da formatação. No passo de
formatação é possível formatar tipos de representação de dados (p.ex: apresentação do
carater de percentagem ou monetário) e o alinhamento das variáveis relativamente à
posição que ocupam no relatório. No nosso caso apenas iremos utilizar as propriedades de
alinhamento. A Figura 7.67 ilustra o terceiro passo da criação de um relatório de dados no
ambiente de trabalho.
Figura 7.67. Terceiro passo para a criação de um relatório de dados.
O quarto, e último passo para a criação de um relatório em Pentaho prende-se com as
opções de criação do relatório. Aspetos como a orientação do apecto de saída do relatório
126
CAPÍTULO 7
(Horizontal/Vertical), tipo/formato de papel (A4, A5, etiquetas, etc.), descrição do
relatório, definição de informações de cabeçalho e rodapé e formato de saída.
Figura 7.68. Quarto passo para a criação de um relatório
A Figura 7.68 ilustra o ecrã do último passo da criação de um relatório. No canto inferior
direito da imagem surge uma caixa de seleção que permite apresentar o relatório em
HTML como mostra a Figura 7.69, em PDF representado pela Figura 7.70 e ainda nos
formatos de Excel e CSV.
Figura 7.69. Ilustração do relatório produzido no formato de HTML.
127
CAPÍTULO 7
Figura 7.70. Ilustração do relatório produzido no formato PDF.
Como podemos verificar a criação de relatórios em Pentaho não apresenta grandes
dificuldades e é um processo rápido e simples. A possibilidade de exportar os relatórios
produzidos em diferentes formatos é uma mais-valia.
128
CAPÍTULO 8
8. CONCLUSÕES E TRABALHO FUTURO
O nosso trabalho de investigação teve como objetivo procurar solucionar um problema,
ajudar as PMEs a encontrar uma ferramenta de BI open source, capaz de servir as suas
exigências, procurando reduzir os custos da sua atividade laboral e da mesma forma
otimizar os seus processos de negócio. Na nossa investigação procurámos obter as
melhores respostas e as melhores soluções para resolver o nosso mesmo problema.
A relevância atribuída à descoberta da solução para um determinado problema é tão
maior, quão maior for a necessidade de resolução do mesmo e quanto maior for a
dimensão abrangida pelo problema. O facto das PMEs representarem uma percentagem
acima dos 98% à escala mundial, confere-lhes uma importância tremenda no tecido
económico de qualquer país, qualquer comunidade. Em época de oscilações constantes de
mercado, o crescimento das PMEs, que representam 98% da economia mundial, poderá
traduzir-se num fator de estabilidade económica.
Vários são os problemas que afetam o dia a dia das PMEs, nomeadamente (Comissão
Europeia, 2006):
• Dificuldade em aumentar a capacidade de produção
• Necessidade de criar uma equipa de apoio ao desenvolvimento da empresa
• Aquisição de mão de obra qualificada no mercado de trabalho
• Dificuldades no acesso a financiamento
• Burocracias sobre a livre importação de mercadorias estrangeiras, que apresentam
um forte entrave ao escoamento das empresas nacionais.
• Dificuldades em se internacionalizarem, o aumento das exportações é o caminho a
seguir, ainda que, seja difícil à grande maioria destas empresas se
internacionalizarem.
• Dificuldade de se imporem no mercado face à forte concorrência
• A necessidade de investir na rentabilização das empresas
Atendendo à lista de problemas enumerados, tendo em conta as respostas apresentadas na
publicação (Comissão Europeia, 2006) podemos constatar que o âmbito do nosso trabalho
permite solucionar quatro dos oito pontos descritos (dificuldade em aumentar a
capacidade de produção; necessidade de criar uma equipa de apoio ao desenvolvimento
da empresa; dificuldade de se imporem no mercado face à forte concorrência; necessidade
de investir na rentabilização das empresas).
Em tempos de grave crise económica e grande oferta e concorrência de mercado,
indicamos a adoção de práticas de BI como uma solução de inovação e otimização dos
processos de negócio das PMEs.
A adoção de práticas de Business Intelligence por parte das PMEs, possibilita a resolução
em parte, deste tipo de problemas. Para uma adoção completa ao conceito de BI é
necessário que as empresas adquiram ferramentas informáticas que permitam agilizar
processso e resultados. Mais uma vez convém referir que as ferramentas de Business
129
CAPÍTULO 8
Intelligence não têm capacidade de decidir por si, apenas reúnem um conjunto de
elementos capazes de suportar a tomada de decisão de analistas e gestores de negócio.
O conceito de BI torna-se mais preciso e rentável quanto maior for a quantidade de dados
da atividade de negócio disponíveis para análise. O processo de BI tem mais
possibilidades de sucesso quando o seu planeamento de negócio é bem definido por parte
dos analistas e gestores.
Tendo em conta o problema que procurámos resolver e todos estes aspetos relacionados
com a adoção de práticas de BI identificámos as ferramentas de BI open source como
uma solução viável de implementação por parte das PMEs.
Após uma profunda análise relativamente ao estado da arte de ferramentas de BI
existentes no mercado identificámos as ferramentas JasperSoft, Pentaho, SpagoBI e
Vanilla como as melhores soluções de BI open source. Posteriormente procedemos a uma
análise técnica das ferramentas, suportada pela instalação e exploração das
funcionalidades disponibilizadas em cada um destes pacotes de BI. Da nossa análise
elegemos Pentaho como a melhor ferramenta de BI open source da atualidade. A
quantidade de documentação de suporte existente foi um dos fatores críticos da nossa
avaliação, do qual reconhecemos que a ferramenta Pentaho será a que melhor suporte
oferece.
Após a análise e consequente eleição da melhor ferramenta, procurámos avaliar se
Pentaho suportava as necesidades de uma PME. Para isso, recorremos à implementação
da ferramenta sobre um sistema de produção de energia eólica, e verificámos que a
ferramenta Pentaho na sua versão open source disponibiliza elementos suficientes de
suporte à aplicação de técnicas de BI numa PME. Os resultados obtidos na nossa
implementação prática permitem avaliar quais os parques de recolha de energias
solar/eólicos produzem mais energia, quais os meses mais rentáveis, quais os elementos
do parque estão sob processos de manutenção e qual a duração desses processos, etc.
Da nossa análise consideramos que o processo de adoção a práticas de BI é normalmente
moroso e requer pessoal especializado (com conhecimentos mínimos), nas áreas de base
de dados, Data Warehousing, ETL e OLAP. O processo de estruturação de uma DW deve
seguir alguma rigidez na sua construção e deve ser bem definido para que consiga dar
resposta a todos os fatores que se pretendam medir. Este é um processo que envolve
alguns custos caso as empresas não tenham na sua estrutura pessoal com conhecimentos
nestas áreas. Na nossa investigação procuramos ao máximo reduzir na programação para
avaliar a facilidade de interação cliente/aplicação.
Do nosso trabalho de investigação podemos concluir que o mercado de ferramentas de BI
open source, oferece boas soluções viáveis de aquisição por parte das PMEs. Todas as
ferramentas analisadas têm potencial para satisfazer as reais necessidades das PMEs. De
um modo geral, as versões open source das ferramentas OpenI e Palo apresentam
algumas lacunas, relativamente à inexistência de várias funcionalidades de BI quando
comparadas com restantes ferramentas analisada. Relativamente às ferramentas
130
CAPÍTULO 8
JasperSoft, Pentaho, SpagoBI e Vanilla, da nossa abordagem todas elas apresentam uma
solução viável de implementação por parte das PMEs.
JasperSoft é uma ferramenta evoluída, capaz de suportar as tarefas da área de BI, dispõe
ainda de módulos de funcionalidades que são utilizados por outras ferramentas open
source como é o caso do JasperReports.
A ferramenta Pentaho face à sua popularidade e à sua capacidade e desenvolvimento
apresentado, é uma ferramenta que para além de ser muito utilizada cativa o
desenvolvimento de plugins por parte de outras comunidades ou por elementos da própria
comunidade. Ferramentas como as que exploramos na nossa demonstração prática são um
claro exemplo disso. Apesar de ter sido a única ferramenta que utilizámos para o
desenvolvimento do caso prático, permitie-nos avaliar que é uma ferramenta com bastante
potencial, que dispõe de vários plugins fáceis de instalar e de fácil interação com o
utilizador, disponibilizando funcionalidades de drag and drop em alguns dos seus
módulos/plugins.
Dos pacotes de ferramentas analisados é importante referir que apenas SpagoBI e Vanilla
são verdadeiramente software open source, são as únicas ferramentas que não possuem
versão comercial.
É curioso que Vanilla sendo a aplicação mais recente de todas as analisadas, foi pioneira
na disponibilização de uma versão para dispositivos móveis, o que nos perspetiva que seja
uma ferramenta a ter em conta doravante.
Da nossa implementação prática podemos concluir que a ferramenta utilizada, Pentaho,
satisfez todas as necessidades exigidas pelo caso prático. O principal objetivo era
desenvolver uma DW que permitisse guardar dados relativamente à produção de energia e
dados relacionados com os aspetos de manutenção.
Pentaho é claramente uma solução viável e alternativa às soluções comerciais. A
aprendizagem e a adaptação à ferramenta não foi morosa, nem necessitou de grandes
conhecimentos de informática, ainda que tenhamos tentado apresentar as soluções com
interface mais acessível, exemplo disso é a simplicidade da utilização de todos os plugins
que implementámos na versão servidor de Pentaho.
Em suma, consideramos que as ferramentas de BI open source possuem capacidades
suficientes para serem uma solução alternativa às ferramentas comerciais. A sua aquisição
por parte das PMEs para além de não implicar custos, não tem condicionantes
relacionados com licenças, taxas ou datas de validade do produto.
Como trabalho futuro é importante acompanhar o desenvolvimento das ferramentas de BI
open source. Seria importante proceder a uma avaliação relativamente aos custos médios
da implementação de soluções de BI open source nas PMEs, no intuito de comparar a
realidade dos custos dispendidos na aplicação de ferramentas comerciais com os custos da
aplicação de ferramentas open source. Esta seria uma avaliação que teria maior
credibilidade se ambos os tipos de ferramentas fossem aplicados na mesma PME e ao
mesmo projeto. Por vezes a avaliação das ferramentas tem principal foco sobre as suas
caraterísticas descritas pela comunidade de desenvolvimento e não numa avaliação
131
CAPÍTULO 8
profunda. Seria importante proceder à avaliação de ferramentas de forma mais profunda,
contribuindo para uma avaliação mais crítica das ferramentas.
132
REFERÊNCIAS
REFERÊNCIAS BIBLIOGRÁFICAS
European Commission Enterprise and Industry (ECEI), (2010/2011). Ficha Informativa
relative ao SBA Portugal. http://ec.europa.eu/enterprise/policies/sme/facts-figuresanalysis/performance-review/pdf/2010_2011/portugal_pt.pdf
Global Alliance of SMEs, (2010). Global SME Expo 2010.
http://www.globalsmes.org/html/index.php?func=expo2010&lan=en
Thomsen, C., Pedersen, T., B. (2008). A Survey of Open Source Tools for Business
Intelligence.
Golfarelli, M. (2009). Open Source BI Platforms: a Funcional and Architectural
Comparision.
Ferreira, M., Silva, R., Vieira, V., Guimarães, C., Carvalho, J. (2010). Um estudo de caso
com análise comparativa entre ferramentas de BI livre e proprietária.
Lacy, M. K. O. (2010). SpagoBI – Plataforma BI livre e aberta. Revista Espírito Livvre.
Varajão, J., Santana, D., Cunha, M., Castro, S. (2011). Adopção de sistemas CRM nas
grandes empresas portuguesas.
http://www.computerworld.com.pt/media/2011/07/estudo_CRM.pdf
Rodrigues, G. L. (2006). Business intelligence. http://amigonerd.net/trabalho/33758business-intelligence
Power, D. J. (2007). A Brief History of Decision Support Systems.
http://dssresources.com/ history/dsshistory.html
Pereira, A. M., Júnior, D. I. R., Neves, G. L. C. (2005). Metadados para a Descrição de
Recursos da Internet: As novas tecnologias desenvolvidas para o padrão Dublin Core
e a sua utilização. revista.acbsc.org.br/index.php/racb/article/download/414/527
Thornthwaite, W., (2005). Design Tip #68 Simple Drill-Across in SQL.
http://www.kimballgroup.com/html/designtipsPDF/DesignTips2005/DTKU68Simple
Drill-AcrossinSQL.pdf
Eckerson, W. W. Deploying Dashboards and Scorecards. TDWI Report, Vol. 22, 2006
Pentaho, (2008). Pentaho Open Source Business Intelligence Platform.
http://www.redhat.com/solutions/intelligence/collateral/pentaho_technical_whitepape
r.pdf
JasperSoft, (2009). Open Source Business Intelligence Costs and Benefits. What You
Need To Know.
Ventana Research, (2006). Open Source BI: A Ventana Research Primary Research
Study. San Mateo, CA: Ventana Research, 2006.
Damiani, E., Fratil, F., Monteverdi, C., (2009). Open Source BI Adoption. Department of
Information Technology, University of Milan – Italy.
Kimball, R. (2008). The Data Warehouse Lifecycle Toolkit.
Pino, M. (2011). Dez razões mais frequentes para o fracasso do BI.
http://www.treinaweb.com.br/blog/2011/06/
133
REFERÊNCIAS
Wikipédia-Data Warehouse. http://pt.wikipedia.org/wiki/Armaz%C3%A9m_de_dados
[Acedido em dezembro, 2011]
Veras, M. (2009). Cubos de Dados. http://gestaodati10.blogspot.com/2009/08/cubos-dedados.html
Campos, R. A., (2005). Qualidade de dados em Data Warehouse. TCC (Graduação em
Bacharelado em Sistemas de Informação). Centro de Ensino Superior de Juiz de Fora,
Juiz de Fora.
Anzanello, C. A. (2007). OLAP Conceitos e Utilização.
http://www.fag.edu.br/professores/limanzke/Administra%E7%E3o%20de%20Sistem
as%20de%20Informa%E7%E3o/OLAP.pdf
Araújo, R. (2009). BI: Arquitecturas OLAP.
http://rogerioaraujo.wordpress.com/2009/05/27/bi-arquiteturas-olap/
Barber, T., Selwood, W., Green, M. (2010). Pat User Guide the Definitive Edition
Wikipédia-Dashboards. http://pt.wikipedia.org/wiki/Painel_de_bordo
Wikipédia-Data Mining. [Acedido em dezembro, 2011]
http://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_dados
Wikipédia-GEO. [Acedido em dezembro, 2011]
http://pt.wikipedia.org/wiki/Sistema_de_informa%C3%A7%C3%A3o_geogr%C3%
A1fica [Acedido em dezembro, 2011]
Wikipédia-OLTP. http://pt.wikipedia.org/wiki/OLTP [Acedido em dezembro, 2011]
Wikipédia-Weka. http://pt.wikipedia.org/wiki/Weka [Acedido em dezembro, 2011]
Wikipédia-MDX. http://en.wikipedia.org/wiki/MultiDimensional_eXpressions [Acedido
em dezembro, 2011]
Wikipédia-BIRT. http://en.wikipedia.org/wiki/File:Eclipse_BIRT_Report_Designer.png
[Acedido em dezembro, 2011]
Dashboardspy, [Acedido em dezembro, 2011]
http://dashboardspy.com/dashboard-screenshot-MIS-cockpit-excel- palo.html
Dashboardinsight,
http://www.dashboardinsight.com/dashboards/screenshots/pentahodashboards-one.aspx [Acedido em dezembro, 2011]
Freeanalysis, http://freeanalysis.wordpress.com/page/2/?archives-list=1 [Acedido em
dezembro, 2011]
Queensu, http://research.cs.queensu.ca/home/cisc333/tutorial/Weka.html [Acedido em
dezembro, 2011]
Amoldit, http://arnoldit.com/wordpress/2009/04/11/rapidminer-open-source-data-mining/
[Acedido em dezembro, 2011]
Bestanalytics, http://www.bestanalytics.net/2011/07/jpivot-ms-analysis-2000/ [Acedido
em dezembro, 2011]
Open Source Initiative (OSI). (2011). http://www.opensource.org/
Martins, S. e Oliveira, L., (2008) "Software Open Source - o copo meio cheio ou meio
vazio?", http://nortebad.wordpress.com/2008/12/12/software-open-source-ocopomeio-cheio-ou-meio-vazio/
134
REFERÊNCIAS
Open Source (2007), http://www.deei.fct.ualg.pt/~a28998/sie2007/OLPCfinal.pdf
Enterprise Europe Network (EEN). (2011). Definição Europeia de PME.
Decision Studio, http://decisionstudio.com/ [Acedido em outubro, 2011]
JasperSoft, http://www.jaspersoft.com/ [Acedido em novembro, 2011]
OpenI, http://openi.org/ [Acedido em setembro, 2011]
Palo, http://www.jedox.com/ [Acedido em outubro, 2011]
Pentaho, http://www.pentaho.com/[Acedido em dezembro, 2011]
RapidMiner, http://rapid-i.com/content/view/181/190/ [Acedido em novembro, 2011]
Rapid-I, http://rapid-i.com/ [Acedido em novembro, 2011]
SpagoBI, http://www.spagoworld.org/xwiki/bin/view/SpagoWorld/ [Acedido em
novembro, 2011]
Talend,
http://www.talend.com/products-data-integration/talend-open-studio.php
[Acedido em novembro, 2011]
Vanilla, http://www.bpm-conseil.com/ [Acedido em novembro, 2011]
R Project, http://www.r-project.org/ [Acedido em novembro, 2011]
iReport, http://jasperforge.org/projects/ireport [Acedido em novembro, 2011]
Kettle, http://kettle.pentaho.com/ [Acedido em novembro, 2011]
Ramsetcube, http://www.ramsetcube.com/ [Acedido em novembro, 2011]
GNU. (2011). http://www.gnu.org/licenses/agpl.html
Weka, http://www.cs.waikato.ac.nz/ml/weka/ [Acedido em novembro, 2011]
Eclipse BIRT, http://www.eclipse.org/birt/phoenix/ [Acedido em novembro, 2011]
JPivot, http://jpivot.sourceforge.net/ [Acedido em novembro, 2011]
Mondrian, http://en.wikipedia.org/wiki/Mondrian_OLAP_server [Acedido em Maio,
2011]
Ambiente Livre. http://www.ambientelivre.com.br/tutoriais-pentaho-bi/131-instalacaodo-pentaho-bi-server-no-ubuntu-server.html [Acedido em novembro, 2011]
Utilizadores Pentaho, http://www.ambientelivre.com.br/tutoriais-pentaho-bi/221-senhasportas-urls-e-roles-padroes-no-pentaho-business-intelligence-ce.html [Acedido em
novembro, 2011]
Comissão Europeia. (2006). Europa: uma oportunidade para as PMEs portuguesas.
http://www.adrave.pt/ficheiros/docs/37-dossier%20PME%20na%20UE.pdf
Forrester Research, http://www.forrester.com/rb/research [Acedido em novembro, 2011]
IDC, http://www.idc.com/ [Acedido em novembro, 2011]
Bloor Research, http://www.bloorresearch.com/ [Acedido em novembro, 2011]
SugarCRM, http://www.sugarcrm.com/crm/ [Acedido em novembro, 2011]
Salesforce, http://www.salesforce.com/ [Acedido em novembro, 2011]
SAP, http://www.sap.com/index.epx [Acedido em novembro, 2011]
Actuate Corporation, http://www.actuate.com/home/ [Acedido em novembro, 2011]
CDF,
http://wiki.pentaho.com/display/COM/Community+Dashboard+Framework
[Acedido em Novembro, 2011]
135
REFERÊNCIAS
136
ANEXO A
Open Source Business Intelligence tools for SMEs
Marco Tereso
Jorge Bernardino
Departamento Engenharia Informática e Sistemas
IPC – Instituto Superior de Engenharia de Coimbra
Coimbra, Portugal
[email protected]
Departamento de Engenharia Informática e de Sistemas
IPC – Instituto Superior de Engenharia de Coimbra
Coimbra, Portugal
[email protected]
Abstract— In times of rapid change, intense competition,
companies looking for innovations, new market segments and
especially understand the time to act, the new market trends. To
assist managers in making decisions, appeals to the business
intelligence tools. In this work are evaluated and compared open
source tools for Business Intelligence: SpagoBI, Open, Pentaho,
JasperSoft, Palo and Vanilla. Thus, only free available solutions
are analyzed for use by SMEs in order to maintain their
competitive advantage in an increasingly global market.
Keywords- Business Intelligence; Open Source; PME’s.
Introdução
A implementação de sistemas de apoio à decisão
nas pequenas e médias empresas (PME’s) é uma
necessidade, agravada pela concorrência e
competitividade praticada pelas grandes empresas, o
que obriga a esforços extra por parte das PME’s
com o intuito de produzirem a preços de mercado
competitivos. Atualmente, a generalidade das
empresas possui sistemas de Tecnologias da
Informação (TI), que permitem recolher, processar,
transmitir e disseminar dados. Os sistemas de TI são
concebidos para registar enormes quantidades de
dados resultantes da atividade operacional das
empresas. Os dados registados pelos sistemas de TI
permitem aos gestores das empresas extrair
informação e conhecimento do ramo de negócio e
das tendências de mercado; este conhecimento é
essencial para a tomada de decisões por parte dos
responsáveis pela gestão empresarial. As maiores
dificuldades das PMEs prendem-se com a colocação
dos seus produtos no mercado a preços
competitivos e a rentabilidade dos custos da sua
atividade. Face a estes problemas, este trabalho tem
como finalidade efetuar um levantamento do estado
da arte de ferramentas open source de Business
Intelligence (BI). As ferramentas BI permitem
agrupar grandes quantidades de dados e organizálos de forma a reunir informação relevante no apoio
à tomada de decisão. Este tipo de ferramentas
permite gerar gráficos, tabelas, relatórios e
estatísticas, permitindo aos gestores visualizar
irregularidades e tendências de negócio relevantes.
Os processos de BI são também bastante
importantes na área das vendas e de marketing.
Neste trabalho apresentamos soluções exequíveis de
ferramentas open source BI para as PME’s, Estas
soluções podem também ser aplicadas em grandes
empresas, embora o nosso foco seja nas PMEs, que
representam 98% da totalidade das empresas na
União Europeia, e que atravessam maiores
dificuldades para contenção das suas despesas. O
nosso objetivo é apresentar uma lista de ferramentas
BI gratuitas existentes no mercado e efetuar a
comparação e análise destas ferramentas. O estudo
realizado contemplou apenas ferramentas open
source, tendo em conta que o principal objetivo é
reduzir as despesas nas PME’s e aumentar os seus
lucros.
Este artigo está estruturado da seguinte forma: na
secção II é apresentado o estado de arte de
ferramentas open source Business Intelligence, na
137
ANEXO A
secção III é efectuada a comparação entre as
ferramentas em análise. Por último, na secção IV
são apresentadas as conclusões e uma descrição do
trabalho futuro.
Ferramentas Open Source
Business Intelligence
A área de Business Intelligence (BI) [1] está em
grande evolução do ponto de vista científico e
tecnológico, contudo não existem muitos artigos
publicados sobre a avaliação ou comparação de
ferramentas open-source BI; apenas podemos
destacar os trabalhos de Thomsen e Pedersen [2],
Golfarelli [3] e Ferreira et al. [4].
O nosso trabalho resulta da necessidade do
aumento da competitividade e da redução de custos
por parte das pequenas e médias empresas,
oferecendo: um levantamento de soluções de
mercado BI sem custos; capacidade de estruturar e
melhorar os seus processos de negócio; apoio nas
tomadas de decisão; capacidade de competição com
empresas mais consolidadas.
Nesta secção apresentaremos o estado da arte
relativamente às seis ferramentas BI analisadas:
SpagoBI [5], OpenI [6], Pentaho [7], JasperSoft [8],
Palo [9] e Vanilla [10].
exportação de relatórios, a criação de gráficos, a
integração de dados através de processos ETL, a
análise através de processos OLAP, os processos de
Data Mining, os processos de consultas simples a
bases de dados, a criação de filtros de consulta e as
propriedades
georreferenciadas..O
servidor
SpagoBI fornece e disponibiliza as funcionalidades
da ferramenta: servidor de aplicação, serviço de
login, Dashboard, Data Mining, sistema de suporte
a bases de dados, ETL (Extract, Transform, Load),
serviços de referenciação geográfica (GEO/GIS),
agenda de tarefas, servidor OLAP, criação de
relatórios, consultas a bases de dados e servidor
Web. A Figura 1 ilustra as diversas funcionalidades
existentes na Suite SpagoBI.
SpagoBI
SpagoBI [5] é uma aplicação desenvolvida pela
SpagoWorld, fundada em 2006 e suportada por uma
comunidade open source. A ferramenta SpagoBI
possui uma licença GNU LGPL (Lesser General
Public Licence), que permite aos utilizadores
usufruir da totalidade das suas funcionalidades. A
ferramenta SpagoBI é desenvolvida em linguagem
Java e disponibilizada unicamente na versão
Community., isto é, completamente gratuita.
A
ferramenta
funcionalidades,
138
SpagoBI
contém
diversas
destacando-se: a criação e
Figura 1: Conjunto de funcionalidades SpagoBI [5]
Para a criação e visualização de relatórios são
utilizadas
as
ferramentas
Eclipse
BIRT,
JasperReport e BusinessObject. O serviço de OLAP
é suportado pelos motores JPivot/Mondrian,
JPalo/Mondrian e JPivot/XMLA Server. A SpagoBI
disponibiliza mecanismos de Dashboard, permitindo
a visualização de gráficos no formato swf e exibindo
KPIs (Key Performance Indicators) em tempo real.
Este conjunto de funcionalidades torna-a uma
ferramenta robusta e com elevado potencial, face a
ANEXO A
outras ferramentas. De salientar que SpagoBI é um
pacote de soluções BI completo e que disponibiliza
o seu conjunto de funcionalidades numa única
versão e sem custos para o utilizador.
OpenI
OpenI [6] é uma ferramenta em constante
desenvolvimento desde 2002, que possui também
ela uma licença GNU GPL, sendo desenvolvida em
linguagem Java. A ferramenta OpenI encontra-se
disponível em duas versões, Community que detém
parte das funcionalidades da ferramenta sendo
completamente gratuita e Enterprise que contém
todas as funcionalidades disponíveis pela solução,
sendo esta versão paga.
A aplicação disponibiliza um leque de
aplicativos de BI: elaboração de gráficos, criação de
tabelas Pivot, geração de relatórios OLAP e
processos de Data Mining.
A interface da aplicação é apelativa e não oferece
dificuldades acrescidas na sua utilização para
qualquer tipo de utilizador. Para um melhor
enquadramento com a estrutura da aplicação
mostra-se na Figura 2 uma ilustração da arquitetura
da ferramenta.
Figura 2: Arquitetura da aplicação OpenI [11]
A Figura 2 ilustra a arquitetura da ferramenta
OpenI, que é constituída por: camada de interação
com o utilizador, na qual se reúnem as
funcionalidades de BI disponíveis para o utilizador;
camada de definição do conjunto de relatórios,
disponibilizados pela aplicação; camada de
componentes de ligação entre funcionalidades
internas da aplicação e servidores externos,
nomeadamente servidores OLAP, RDBMS
(Relational Database Management System) e Data
Mining; camada de segurança e servidor de
aplicação J2EE.
A ferramenta OpenI apresenta um conjunto de
funcionalidades BI de qualidade, ainda assim peca
numa primeira análise pela inexistência de um
módulo de ETL, pela impossibilidade de exportar
dados e pela ausência de um módulo de KPIs.
Pentaho
A Pentaho [7] foi fundada no ano de 2004 por um
grupo de colaboradores com grande experiência na
área de Business Intelligence. A ferramenta Pentaho
é desenvolvida em linguagem Java, possui uma
licença GNU GPL, e é disponibilizada em duas
versões, Community que detém parte das
funcionalidades
da
ferramenta
sendo
completamente gratuita e Enterprise que contém
todas as funcionalidades disponíveis pela solução,
mas com custos para o utilizador. A versão
Community de demonstração online permite realizar
análises através de um mecanismo próprio da
Pentaho ou recorrendo ao Xanalyzer e à criação e
visualização de gráficos de diferentes tipos. A
Pentaho possibilita a criação de relatórios simples,
relatórios de análise e Dashboards. A ferramenta
disponibiliza algumas bibliotecas Widget de
Dashboards que funcionam como vistas de análise
e KPIs. O cruzamento de dados OLAP é suportado
pelas aplicações Mondrian e Ramsetcube, sendo as
propriedades de Data Mining suportadas pelo
módulo Weka.
139
ANEXO A
A Figura 3 ilustra o conjunto de funcionalidades
disponibilizadas pela aplicação Pentaho, que
surgem representadas sob a forma de arquitetura por
camadas. Surgem ilustrados quatro grupos de
funcionalidades: relatórios (produção, operação e
ad-hoc), análises (Data Mining, OLAP e Drill &
Explode), Dashboards (métricas, KPIs e alertas) e
processos de gestão (integração, definição e
execução).
Figura 3: Conjunto de funcionalidades Pentaho [12]
Pentaho é um dos pacotes de BI open source mais
poderosos, muito equivalente à ferramenta
SpagoBI; a diferença é que, a Pentaho não suporta
funcionalidades de georreferenciação GEO/GIS na
sua versão Community.
JasperSoft
JasperSoft surgiu em 2001, inicialmente designada
por Panscopic, posteriormente Teodor Danciu
(fundador do JasperReports) juntou-se à equipa
Panscopic e em 2004 surgiu a JasperSoft. Esta é
uma ferramenta open source desenvolvida em Perl e
Java, possuindo uma licença GNU GPL. JasperSoft
é disponibilizada nas versões Community e
Enterprise. A versão Community de JasperSoft BI é
disponibilizada em três produtos individuais:
servidor JasperReports, JasperSoft OLAP e ETL
JasperSoft.
140
Jaspersoft BI Suite, é incorporada por um servidor
(Jasper Server) que permite: criação de relatórios
interactivos, criação de diferentes tipos de gráficos,
consultas ad-hoc (possibilidade de consultas em
tempo real, permitindo a utilizadores com poucos
conhecimentos de SQL acederem a informação
proveniente de bases de dados), desenho e
estruturação de relatórios, análises OLAP,
integração de processos de ETL e disponibilidade
da funcionalidade query builder. JasperSoft é uma
ferramenta fácil de implementar e possui uma
arquitetura incremental. JasperSoft permite aos
utilizadores sem conhecimentos técnicos sobre
bases de dados ou linguagens de consulta a bases de
dados, criarem relatórios e consultas ad-hoc,
recorrendo às propriedades de drag-and-drop,
definir itens de visão empresarial, definir filtros de
dados, especificar parâmetros e gerar consultas sem
dificuldades acrescidas. JasperSoft inclui também
funcionalidades de georreferenciação, a aplicação é
constituída e auxiliada por centenas de mapas de
escala mundial. JasperSoft é uma aplicação robusta,
confiável e actualizável, permitindo uma abordagem
de integração por fases que pode ser adaptada
consoante as necessidades.
JasperSoft é um pacote BI aceitável que possui
suporte para as principais funcionalidades de BI.
Contudo, apresenta algumas lacunas nomeadamente
a inexistência de um módulo de Data Mining e a
inexistência de funcionalidades de KPIs.
Palo
Palo [9] ou JPalo (Java Palo), é uma ferramenta
desenvolvida pela empresa Jedox AG, que iniciou a
sua atividade no ano de 2002. A ferramenta Palo
possui uma licença GNU GPL e é desenvolvida em
Java, disponível nas versões Enterprise e
Community. A Suite Palo é constituída pelo grupo
de funcionalidades Jedox: Palo OLAP Server, Palo
ANEXO A
TABELA 1. COMPARAÇÃO DE FERRAMENTAS OPEN SOURCE BUSINESS
INTELLIGENCE
Funcionalidades
Vanilla
Ferramentas Open Source Business
Intelligence
Palo
BPM Conceil [10] é um grupo francês de soluções
open source BI, sendo esta a organização
responsável pelo desenvolvimento da ferramenta
Vanilla. Esta ferramenta distingue-se de todas as
outras por ser desenvolvida em linguagem PHP,
mas a par das restantes também possui uma licença
GNU GPL. A ferramenta Vanilla permite: efetuar
análises de dados, construir relatórios, gerar e
analisar tabelas de dados, criar gráficos, definir
KPIs e empregar processos de Data Mining. Vanilla
recorre às ferramentas BIRT e iReports com o
intuito de fornecer capacidade de integração de
Após o trabalho de estudo relativamente ao estado
de arte de ferramentas open source BI, nesta secção
faremos uma comparação relativamente às
funcionalidades de cada ferramenta. A Tabela 1
apresenta uma comparação das ferramentas em
análise tendo em conta as suas funcionalidades,
características e os sistemas operativos que as
suportam.
JasperSoft
Vanilla
Comparação das Ferramentas
Pentaho
Resumidamente, Palo é uma ferramenta baseada em
folhas de cálculo que possibilita a integração de
dados provenientes de folhas de cálculo Excel e
Calc. A integração de dados ETL e as consultas
OLAP são as funcionalidades de maior relevo da
ferramenta. Os recursos para gerar gráficos e
relatórios são os disponibilizados pela aplicação de
suporte (Microsoft Excel ou Open Office Calc).
Vanilla é uma das ferramentas de maior destaque
atualmente, para além do suporte a todas as
funcionalidades BI, a ferramenta começa também a
migrar para dispositivos de suporte móvel,
tornando-a uma das ferramentas com elevadas
perspectivas de progressão.
OpenI
A versão Palo é concebida para suportes Microsoft
Office Excel e Open Office Calc. Palo para Excel
inclui um servidor de base de dados OLAP e a
componente Microsoft Excel Add-in/Open Office
Calc Add-in, que permite adicionar um separador de
funcionalidades de BI no ambiente da aplicação
(Excel ou Calc), este separador possui um leque de
funcionalidades que permitem trabalhar os dados
registados nas folhas de cálculo.
metadados. Vanilla tem a capacidade de alocar
diferentes projetos num único servidor e
disponibiliza no seu portal acesso aos diferentes
relatórios e a um livro de histórico. A ferramenta
Vanilla também está disponível numa versão para
sistemas operativos Android. Das ferramentas
analisadas, Vanilla é a única ferramenta open
source BI que disponibiliza uma versão do seu
software para dispositivos móveis.
SpagoBI
Web, Palo ETL Server e Palo para Excel. Os
processos de OLAP são os que maior destaque
merecem na aplicação. Palo OLAP Server fornece
estabilidade, desempenho, algoritmos de lógica
inovadores e permite trabalhar num ambiente multisessão em tempo real. Palo Web é um interface
Web que permite criar e gerir relatórios OLAP e
visualizar processos de ETL.
Relatórios
Gráficos
Dashboards
OLAP
ETL
Data Mining
KPIs
Exportação de dados
141
ANEXO A
Vanilla
Palo
JasperSoft
Pentaho
OpenI
Funcionalidades
SpagoBI
Ferramentas Open Source Business
Intelligence
GEO/GIS
Consultas ad-hoc
Características
Licença GNU GPL
Excel e ao Open Office Calc. A ferramenta Vanilla
é idêntica ao pacote de soluções Pentaho, sendo
semelhantes as funcionalidades disponibilizadas.
Um aspecto importante a referir é o facto de a
ferramenta Vanilla possuir uma versão para
dispositivos móveis, um factor que abre grandes
perspectivas de futuro nas funcionalidades open
source de BI.
Versão Única
Sistema Operativo
Linux
Windows
Unix
A primeira conclusão retirada deste estudo, é o
facto da ferramenta SpagoBI ser dos pacotes BI em
análise mais completos e cuja versão única
(Community) conter mais funcionalidades que a
grande maioria das versões (Enterprise) dos
restantes pacotes de soluções BI analisados. A
ferramenta OpenI tem como ponto fraco a
inexistência de métodos próprios de ETL e a
impossibilidade de exportar dados; é portanto uma
ferramenta francamente mais rudimentar face à
SpagoBI. Pentaho é uma ferramenta consistente e
bastante completa a par da SpagoBI. O único
aspecto que difere entre elas é a ausência de suporte
de localização GEO/GIS na ferramenta Pentaho.
JasperSoft é uma ferramenta de BI poderosa, carece
apenas de processos de Data Mining e KPIs quando
comparada com SpagoBI e Pentaho, ainda assim é
das ferramentas analisadas mais equilibrada, visto
que permite consultas ad-hoc e gestão de
localização GEO/GIS. A ferramenta Palo não
suporta processos de Data Mining, KPIs e
funcionalidades de localização GEO/GIS. Palo
possibilita consultas ad-hoc, que são uma mais valia
para esta ferramenta. Palo tem como factor
relevante o facto de se poder adicionar ao Microsoft
142
Conclusões e trabalho Futuro
Os dados são o factor mais importante na
implementação de soluções BI num negócio, pois é
a partir destes dados que é possível extrair
informação capaz de originar conhecimento
essencial para a elaboração e imposição de métricas
de negócio. As pequenas e médias empresas
(PME’s) necessitam cada vez mais de definir boas
estratégias de negócio para que se consigam
solidificar no mercado. O recurso a ferramentas BI
por parte das empresas permite aos gestores
basearem as suas decisões no conhecimento
extraído dos seus dados. O crescimento das
empresas não está apenas relacionado com a sua
área de atividade e pela procura, mas a boa gestão e
a inclusão de boas práticas de negócio têm um peso
relevante para a saúde económica empresarial.
O presente trabalho teve como base o levantamento
do estado de arte de ferramentas BI open source,
com o objetivo de avaliar pacotes de soluções BI
sem custos, vocacionados de aplicação nas
pequenas e médias empresas. Estes pacotes de
soluções são também passíveis de serem utilizados
em grandes empresas, embora o nosso trabalho
resulte da necessidade das PMEs tornarem-se mais
lucrativas, diminuindo despesas e grandes
investimentos. Antes da escolha da ferramenta que
pretendemos implementar, é importante estipular
quais as necessidades do processo de negócio, para
posteriormente ser identificado o conjunto de
ANEXO A
soluções válidas e adequadas às suas reais
necessidades.
Como trabalho futuro pretendemos prosseguir a
análise das ferramentas, com o objetivo de avaliar
outros aspetos de ordem técnica e de usabilidade.
Posteriormente iremos proceder à implementação
das ferramentas em ambiente empresarial usando
um caso real.
Referências
[1]
D. J. Power (2007-03-10). "A Brief History of Decision Support
Systems, version 4.0". DSSResources.COM. World Wide Web,
http://DSSResources.COM/history/dsshistory.html, version 4.0, March
10, 2007.
[2]
Christian Thomsen e Torben Bach Pedersen "A Survey of Open Source
Tools for Business Intelligence", International Journal of Data
Warehousing and Mining, Volume 5, nº3, 2009, pp.56-75.
[3] Matteo Golfarelli, "Open Source BI Platforms: a Functional and
Architectural Comparison", Proceedings of the 11th International
Conference, DaWaK 2009, Linz, Austria, pp.287-297.
[4] Manuele Ferreira, Robson Silva, Vaninha Vieira, Carina Guimarães e
Juliana Carvalho, "Um estudo de caso com ánalise comparativa entre
ferramentas de BI livre e proprietária", UDESC, VI Escola Regional de
Banco de Dados, Joinville, Brasil, Abril 2010.
[5] Miguel Koren O'Brien de Lacy, "SpagoBI - Plataforma BI livre e
aberta", Revista Espírito Livre, Junho de 2010 .
[6] http://openi.org/, 6-02-2011
[7] http://www.pentaho.com/ , 7-02-2011
[8] http://www.jaspersoft.com/ , 8-02-2011
[9] http://www.jpalo.com/en/ , 8-02-2011
[10] http://vanilla-bi.com/ , 9-02-2011
[11] http://openi.sourceforge.net/openi_product.html , 6-02-2011
[12] http://www.crunchbase.com/company/pentaho , 7-02-2011
143
144
ANEXO B
Commercial or open source business intelligence tools?
Marco Tereso
Jorge Bernardino
Departamento Engenharia Informática e de Sistemas
IPC – Instituto Superior de Engenharia de Coimbra
Coimbra, Portugal
[email protected]
Departamento de Engenharia Informática e de Sistemas
IPC – Instituto Superior de Engenharia de Coimbra
Coimbra, Portugal
[email protected]
Abstract— In order to stay competitive in a global world, the
organizations must use business intelligence techniques for
obtaining and processing relevant information quickly and cost
effectively. These techniques include the activities of decision
support systems, query and reporting, online analytical
processing (OLAP), statistical analysis, text mining, data
mining and visualization. Consequently, the importance of
using business intelligence tools is crucial for the success of
actual organizations. Yet, many organizations are learning that
this no easy task to decide which business intelligence tool to
choose to expand their business. In this way, this work will
evaluate the characteristics and costs of eight major business
intelligence tools: four commercial (IBM Cognos, Microsoft BI,
MicroStrategy and Oracle BI) and four open source solutions
(JasperSoft, Pentaho, SpagoBI and Vanilla). The main
objective is to present the differences in functionality between
the various platforms, estimating overall usability, helping
decision managers to choose the best tool.
Keywords-Business Intelligence; Open Source BI Tools;
Commercial BI Tools.
•
INTRODUCTION
Business Intelligence (BI) is a broad category of
applications and technologies for gathering, storing,
analyzing, and providing access to data to help managers
make better business decisions. Business Intelligence
applications include the activities of decision support
systems, query and reporting, online analytical processing
(OLAP), statistical analysis, text mining, data mining and
visualization [2].
The benefit from business intelligence platforms for
organizations is extremely important. Business intelligence
platforms allows managers and business analysts monitor
data and statistics, make decisions, analyze market trends,
study the insertion of new products and maintain profitable
and long-lasting relationships with customers in order to stay
competitive in a global world.
Currently, there are several known cases of success, from
implementing business intelligence tools in various business
segments. The resource to business intelligence platforms is
extremely important in order to monitor market trends,
technological innovation and make the most work activity of
the company. The business intelligence tools are intended to
assist business managers in making decisions, drawing on
data analysis and applying them to metrics that enable them
to extract knowledge. The processes of business intelligence
help make business more profitable and dynamic. When is
time to choose one business intelligence platform is
important that companies have some knowledge about
existing platforms on the market. There are several tools in
the business intelligence market with different types of
licenses, which we can break up in two main groups:
commercial and open source platforms. Before making a
decision for the business intelligence platform to acquire,
business managers must take into account the features of the
tool to satisfy the needs of the organization, check whether
the minimum requirements of the platform are supported by
the company computer system.
The implementation of business intelligence platforms in an
organization requires some additional efforts. Some of the
problems regarding the adoption of business intelligence for
organizations is directly related to: acquisition of skilled
human resources in the area of databases, changes in
organizational structure forcing the inclusion of new
employees, implementation of new standards of regulation
and planning of new work methods. This study compares the
features of four commercial business intelligence platforms:
IBM Cognos [3], Microsoft BI [5], MicroStrategy [7] and
Oracle BI [9], with four open source platforms: JasperSoft
[11], Pentaho [13], SpagoBI [15] and Vanilla [17].
This article is structured as follows: section 2 analyzes
the advantages and drawbacks of open source platforms and
commercial platforms. In section 3 we describe the four
major commercial tools, and section 4 the four major open
source tools. In section 5 is presented a comparison between
all tools. Finally, section 6 concludes the paper by
summarizing the main conclusions of our research and
pointing out directions for future work.
•
COMMERCIAL OR OPEN SOURCE TOOLS?
Before we proceed with some of the business intelligence
solutions in the market is important to establish some of the
benefits and disadvantages of using open source or
commercial tools. The most relevant aspect of open source
tools is that they are free and allow access to the code, with
the possible modification of the various modules. In contrast
145
ANEXO B
to the open source tools, commercial tools are paid and often
represent an extra expense, unbearable for the vast majority
of companies. One of the advantages of open source
platforms are if they do not serve the needs of the
organization, can be replaced by other platforms without a
cost; this does not happen with commercial platforms. The
open source tools generally require lower system
requirements than commercial applications. This factor is
justified in assuming that those who can not invest in
software may not invest in hardware. As open source has
advantages compared to commercial tools, it also has
disadvantages. The open source projects are in constant
development, which means that some projects have not yet
reached the desired maturity. The fact that open source tools
are developed by a community of contributors raises some
doubts about product quality. A lack of development
methods and quality standards can be a reality in a
community of open source development. The open source
tools are usually seen as less reliable, given that the testing
process is typically narrow in scope, although in recent years
has improved. Absence of documentation is one of the other
critical factors of open source tools; only a minority of
successful open source projects provides some
documentation to support the use of the solution. The
continuity of the open source projects is not always
guaranteed, this being more a factor to take into account.
The idea that the acquisition of open source software
does not involve costs is sometimes wrong. Often the open
source tools do not satisfy all the pretensions of the
customer, costing to adapt them to meet their needs,
involving costs. Such adjustments in open source platforms
can be expensive. Upon the acquisition of open source
software should be checked if it meets the requirements of
the organization, to decide for a more viable solution.
The commercial business intelligence platforms also
have advantages, which we can summarize: the maturity of
the platforms, the level of confidence that they offer, the
amount of documentation that usually provide, the customer
service, the continuity of the platform on the market and are
more user friendly.
Some of the disadvantages of commercial platforms are:
high acquisition costs, the requirement to be connected to the
sellers, typically require more hardware resources and the
difficulty of transition to other platforms, taking into account
the costs and terms of contract.
When have to decide which platform to acquire is
important to take in consideration the points above and if the
tool fulfills the needs of the organization. In the following
sections we will review four major commercial and four
open source platforms.
•
MAJOR COMMERCIAL BUSINESS
INTELLIGENCE TOOLS
The four major commercial business intelligence
platforms are IBM Cognos [3], Microsoft BI [5],
MicroStrategy [7] and Oracle BI [9]. This statement is based
on the study of Gartner: "Magic Quadrant for Business
146
Intelligence Platforms Report"[1], which gives a distribution
of the main commercial business intelligence platforms, as
shown in Figure 1.
Figure 1. Magic Quadrant for Business Intelligence Platforms [1]
Generally, commercial tools are more attractive and have
a simpler user interface, more user-friendly. Apart from a
greater confidence on commercial platforms, these platforms
evolve to facilitate adaptation of users.
The commercial business intelligence platforms are more
confidence due to its rigid testing procedures.
We analyze the features of each of the four major
commercial business intelligence tools independently.
IBM Cognos
The business intelligence platform from IBM has named
Cognos [3], currently in version 10.1. Cognos was a
company acquired by IBM.IBM Cognos allows: query and
reporting (gives the performance of ad-hoc queries, issuing
and structuring of reports, enabling adaptation of the models'
own reports), OLAP analysis, scorecarding, dashboarding,
real-time monitoring, statistics, planning and budgeting,
extending BI (convenient methods for delivering business
intelligence to a wider audience), collaborative BI (modern
tools for collaborating, building stronger teams and
stimulating better decisions) and importing/exporting data.
The Figure 2 shows the IBM Cognos architecture. The
architecture show the different features layers. Starting in the
upper layer, “Clients” is the layer that allows queries, create
reports, analysis, view reports and others. The second layer
“Request/Result“ is responsible for transmitting the XML
query to “Query Planning” layer and send the results back to
to “Clients”. The third layer “Query Planning” receives the
data for the process of execution queries. The fourth layer
“Query Execution” is responsible for executing the queries.
The fifth layer “Adapters” represents the IT systems that
ANEXO B
make the link between data and users. Finally layer six “Data
Sources” is the data layer, consisting of databases and data
files.
Figure 2. IBM Cognos architecture [4]
Microsoft BI
According to Gartner [1], Microsoft emerged as the
leading tool of business intelligence tools market.
In the business intelligence processes Microsoft [5] uses
two of its solutions packages: Microsoft Office and
Microsoft SQL Server. The features of Data Warehouse,
Data Marts and Operational Data are supported by SQL
Server; data integration by SQL Integration Services; data
analysis by SQL Analysis Services and operations with
reports served by SQL Reporting Services.
Excel supports the features of end-user analysis tool and
the business intelligence portal uses Sharepoint. The business
scorecards, analytics and planning tools are supported by
PerformancePoint.
This platform allows: querying, analysis, reporting, data
integration, synchronization, searches, cloud storage and
importing/exporting data.
The Figure 3 shows the Microsoft Business Intelligence
architecture. The architecture show the features supported by
the Office and SQL Server, separated by different
application layers.
MicroStrategy
According to Gartner [1], Microstrategy [7] holds the
third podium position of commercial business intelligence
platforms market leaders.
Currently at version 9 and is available in optimized
solutions for mobile environments, including iPad, iPhone
and BlackBerry.
The main features of the MicroStrategy are: querying,
reporting (allows the development and structuring of reports)
OLAP analysis (allows the analysis and construction of an
intelligent data cubes, MDX connection and incorporates a
ROLAP server), dashboarding, data mining and
importing/exporting data.
The Figure 4 shows MicroStrategy platform architecture.
The physical layer of the application is made up of databases
and operational databases for decision support. The logic
layer enables the preparation of scorecards, dashboards,
reports, OLAP cubes, advanced analysis, proactive alerts and
notifications. The visual layer is composed of Web browsers,
enterprise portals and Microsoft Office applications.
Figure 4. MicroStrategy architecture [8]
Figure 3. Microsoft Business Intelligence architecture [6]
Oracle BI
According to Gartner [1], Oracle BI [9] holds the second
podium position of commercial business intelligence
platforms market leaders.
Oracle BI is available in the market as package, called
Oracle Business Intelligence Enterprise Edition (OBIEE).
The OBIEE offers a range of solutions necessary to create
and view reports. OBIEE allows the development of several
tests for the data.
In a more detailed OBIEE allows: to create interactive
dashboards, reporting and publishing, answers (ad-hoc
analysis), delivers (proactive detection and alerts),
disconnected analytics, Microsoft Office Plug-in and a Web
Services.
147
ANEXO B
The Figure 5 shows the OBIEE architecture. OBIEE
architecture has three layers: physical, logic and application.
The physical layer consists of databases, data warehouses,
data files and business processes. The logic layer can work
and display the data of: interactive dashboards, ad-hoc
analysis, proactive detection, alerts, reporting, publishing and
support to the Microsoft Office applications. The application
layer represents the set of applications that can be used in the
data: sales, services, contact center, marketing, order
management, supply chain, financial and human resources.
The set of modules that make up the community version
of the tool features available for creating and viewing
reports, various graphics, dashboards, OLAP and ETL
processes, analysis of geo-referencing, export data and adhoc queries. This platform was developed for Linux and
Windows operating systems.
The Figure 6 shows JasperSoft architecture.
Figure 6. JasperSoft architecture [12]
FIGURE 5. OBIEE ARCHITECTURE [10]
•
MAJOR OPEN SOURCE BUSINESS
INTELLIGENCE TOOLS
The communities of developing open source business
intelligence solutions are required along with their
employees to optimize their platforms, contributing to a
steady development, making them more functional solutions.
In this section we present a brief description of the
potential of JasperSoft [11], Pentaho [13], SpagoBI [15] and
Vanilla [17] platforms. The analysis platforms have one
feature in common, the fact that all have a GNU GPL
license.
We analyze the features of each of the four major open
source business intelligence platforms independently.
JasperSoft
JasperSoft [11] is an open source business intelligence
platform developed in Java and Perl language. JasperSoft has
two proprietary versions, Enterprise and Professional in
addition to the Community version. The Community is a free
version, this version is not available in a single package but
in three individual modules: Jasper Reports Server,
JasperSoft OLAP and ETL JasperSoft. The Jasper Reports
Server module enables the creation, structuring and
displaying BI reports; JasperSoft OLAP module is the tool
that allows linking of data and parameterization of the
different views of the data cube, ETL JasperSoft is the
module that allows the tool creating the structure of
production, processing and loading data.
148
Pentaho
Pentaho [13] is one of the most popular open source
business intelligence platform, developed in Java, the tool is
available in two versions, Community and Enterprise. Like
other platforms, the Community version is free and the
Enterprise version is a paid solution.Pentaho is a platform
consisting of a set of integrated tools. Pentaho incorporates
the Kettle application for ETL processes, Mondrian and
Ramsetcube in OLAP processes, Weka for properties of data
mining. Pentaho allows creating reports, creating charts,
dashboards, data manipulation processes through ETL and
OLAP, data mining processes, KPI's, exports of data and adhoc queries. Pentaho uses MDX to access and manipulate
data from databases. The tool is available for Linux,
Windows and Unix operating systems.
The Figure 7 shows Pentaho architecture layers.
ANEXO B
Vanilla
Vanilla [17] is an open source business intelligence
platform developed in PHP language. Vanilla is available in
a single version, community. Vanilla is a complete platform
taking into account that integrates all main functionalities of
business intelligence. The platform allows to create reports,
perform analysis, generate and analyze data tables, charting
several, dashboards, ad-hoc queries, integrate OLAP and
ETL processes, define KPIs, data export and use of
procedures of Data Mining.
Vanilla uses the tools BIRT and iReports for the purpose
of metadata integration. Vanilla allows filing several separate
projects, and an historical book.
The platform is available in a version for mobile
operating system Android, highlighting the monitoring effort
of innovation on the part of the development group. Vanilla
is available for Linux, Windows and Unix operating systems.
The Figure 9 shows Vanilla architecture.
Figure 7. Pentaho architecture [14]
SpagoBI
SpagoBI [15] is an open source business intelligence
platform developed in Java. SpagoBI is available in a single
version, Community. This is the most comprehensive free
platform, because has all the main features of business
intelligence and provides them as a single release covering
its users with a good solution that offers all its capabilities in
a package completely free.
SpagoBI contains features for creating and exporting
reports, charting several, development of dashboards, data
integration using ETL processes, analyzes, processes using
OLAP, data mining processes, implementation of filters in
queries, export data, ad-hoc queries and features GEO/GIS.
The tool is available for Linux, Windows and Unix operating
systems.
The Figure 8 shows SpagoBI features.
Figure 9. Vanilla architecture [17]
•
COMPARISON BETWEEN COMERCIAL AND
OPEN SOURCE BUSINESS INTELLIGENCE TOOLS
In this section we intend to illustrate a comparative table
of the different features offered by each platform. The results
are related to the research work on the 8 platforms.
Figure 7. SpagoBI features [16]
TABELA 1. COMPARISION BETWEEN OPEN SOURCE AND COMMERCIAL
BUSINESS INTELLIGENCE
149
ANEXO B
JasperSoft
Pentaho
SpagoBI
Vanilla
IBM
Microsoft
MicroStrategy
Oracle
Business Intelligence Platforms
Open Source
Commercial
Reports
Dashboards
OLAP
ETL
Features
Data Mining
Data export
GEO/GIS
Ad-hoc queries
Linux
Windows
KPIs
Unix
In open source platforms, Pentaho and SpagoBI are
identical platforms, having all the main features and are
available for major operating systems. JasperSoft has neither
Data Mining features nor KPI’s. JasperSoft does not support
UNIX operating system. Vanilla just does not have
GEO/GIS features. Microsoft Business Intelligence platform
does not available to Linux and Unix, but if resort to Wine
tool it is possible.
The commercial platforms are identical, processing all
the features analyzed. Relatively to operating system, Oracle
does not support Unix.
Pentaho and SpagoBI are equivalent to commercial
platforms, being an alternative with lower acquisition costs.
•
CONCLUSIONS AND FUTURE WORK
The importance of implementing business intelligence
tools in an organization is unquestionable, given the
recognized importance of use of such platforms, it is
important when seeking to implement one that meets the
needs, from a standpoint of cost / quality.
When choosing a platform, organizations should prevail
their choice taking into account the advantages and
disadvantages that we announced.
It is important to realize the capabilities of the
organizational structure in terms of basic knowledge of
business intelligence tools. Aspects such as knowledge of
data modeling languages are sometimes essential and you
must have qualified people with such knowledge in the
organization.
150
The choice between open source or commercial tools
should take into account the financial situation of the
company or organization and their capacity for investement
and maintenance.
The commercial adoption of evaluation tools have the
advantage of providing interfaces easier to use and which do
not require much knowledge of informatics by users, this is
the main advantage that sometimes makes the difference in
business without people with knowledge. As for open source
tools, already have very large features common to
commercial tools but in return are more difficult to use.
In our analysis, the open source BI tools with the greatest
potential are clearly Pentaho and SpagoBI.
For the commercial platforms, we highlight the two
platforms on top of market leadership, Microsoft BI and
Oracle BI. This conclusion is partly motivated by the
publication of Gartner [1].
As future work we intend to determine the average cost
of maintaining two types of solutions and evaluate the need
to have skilled labor in the organization to implement
business intelligence processes.
REFERENCES
http://www.fdsystems.co.uk/files/Gartner%20BI%20Magic%20Quadrant%
20QlikView.pdf (accessed in 08-06-2011)
Business Intelligence Techniques: A Perspective from Accounting and
Finance, Murugan Anandarajan, Asokan Anandarajan, Cadambi A.
Srinivasan, Springer Verlag, 2004. (accessed in 08-06-2011)
http://www-01.ibm.com/software/data/businessintelligence/ (accessed in
08-06-2011)
http://www.ibm.com/developerworks/data/library/cognos/infrastructure/co
gnos_specific/page529.html (accessed in 08-06-2011)
http://www.microsoft.com/BI/en-us/pages/home.aspx (accessed in 08-062011)
http://www.collectiveintelligence.com/jahia/webdav/site/ciweb/shared/docs
/Presentations/Microsoft%20Business%20Intelligence%20%20Platform%20Overview.pdf (accessed in 08-06-2011)
http://www.microstrategy.com/Software/businessintelligence/index.asp
(accessed in 08-06-2011)
http://www.microstrategy.com/QuickTours/HTML/CompIntel_Template/Q
uickTour/index.asp?vendor=SAS&page=21 (accessed in 08-06-2011)
http://www.oracle.com/technetwork/middleware/bi-enterpriseedition/overview/index.html (accessed in 08-06-2011)
http://www.analyticspartners.com/ProductsServices/obiee.aspx (accessed in
08-06-2011)
http://www.jaspersoft.com/ (accessed in 08-06-2011)
http://www.columnit.com/column-partners/jaspersoft/jaspersoft-businessintelligence.html (accessed in 08-06-2011)
http://www.pentaho.com/ (accessed in 08-06-2011)
http://www.crunchbase.com/company/pentaho (accessed in 08-06-2011)
http://www.spagoworld.org/xwiki/bin/view/SpagoBI/ (accessed in 08-062011)
http://todobi.blogspot.com/2010/11/webinars-gratuitos-de-spagobi.html
(accessed in 08-06-2011)
http://www.bpm-conseil.com/ (accessed in 08-06-2011)
ANEXO C
OPEN SOURCE CRM SYSTEMS FOR SMES
Marco Tereso1 and Jorge Bernardino1
1
Polytechnic of Coimbra – ISEC, Coimbra, Portugal
[email protected], [email protected]
ABSTRACT
Customer Relationship Management (CRM) systems are very common in large companies. However,
CRM systems are not very common in Small and Medium Enterprises (SMEs). Most SMEs do not
implement CRM systems due to several reasons, such as lack of knowledge about CRM or lack of
financial resources to implement CRM systems. SMEs have to start implementing Information Systems
(IS) technology into their business operations in order to improve business values and gain more
competitive advantage over rivals. CRM system has the potential to help improve the business value and
competitive capabilities of SMEs. Given the high fixed costs of normal activity of companies, we intend to
promote free and viable solutions for small and medium businesses. In this paper, we explain the reasons
why SMEs do not implement CRM system and the benefits of using open source CRM system in SMEs. We
also describe the functionalities of top open source CRM systems, examining the applicability of these
tools in fitting the needs of SMEs.
KEYWORDS
CRM, Information Systems, Open Source, SMEs.
1. INTRODUCTION
As companies face increasing competition, wider customer choice, and the challenges of doing
e-Business in the 21st century, many have chosen to implement CRM solutions in response to
their strategic imperative, and to improve the sales and marketing effectiveness and efficiency.
A Customer Relationship Management (CRM) system is a software system designed to
empower a company to maximize profits by reducing costs and increasing revenue; to increase
competitive advantage by streamlining operations; and to achieve business goals. Most
companies have been collecting information about their customers and trying to use this
information to better understand and predict what customers might want next. Therefore, CRM
is both information-based and technology based, and is about building customer loyalty by
putting customers at the center of what a company does. CRM also applies to how customers
experience a company, not just how a company looks at its customers [1].
To survive in the global market, focusing on the customer is becoming a key factor for big and
small companies. It is known that it takes up to five times more money to acquire a new
customer than to get an existing customer to make a new purchase [2]. Therefore, customer
retention is in particular important to Small and Medium Enterprises (SMEs) because of their
limited resources. A second aspect of CRM is that knowing the customer and his/her problems
allows a company to acquire new customers more easily and facilitates targeted cross-selling
[3].
The CRM is a set of processes and methodologies that has as main objective to bring together a
wide range of information about customers and their consumption behaviour. This type of
information allows companies to define groups of users, making possible some sales strategies
and campaigns and promotions targeted at different types of customers.
151
ANEXO C
Open source software for CRM represents a great opportunity for SMEs as they can
significantly impact their competiveness. Given the high fixed costs of normal activity of
companies, we intend to promote open source solutions for small businesses. In this paper, we
present viable solutions, describing the functionalities of top CRM tools, according to recent
publications [4, 5]. We will describe each of these tools to assess their capabilities, their
strengths and the aspects that differ between them, exploring the applicability of each of those
tools in fitting the needs of SMEs.
This paper is structured as follows. In Section 2 we give a brief introduction about Information
Systems (IS) and CRM, and presents the reasons why SMEs do not implement CRM systems.
In Section 3 we list the advantages of open source software. In Section 4 we present CRM open
source systems, with an overview of its features and Section 5 describes related works. Finally,
in Section 6 we present our conclusions and point out future work.
2. INFORMATION SYSTEMS AND CRM
Given the competitive market, companies must adopt strategies that allow them to remain active
in the market and become increasingly competitive. The collection of data resulting from
business activity is extremely important. This process allows data to work in different areas, in
order to make business activity most profitable.
Data is one of the most important and valuable assets for companies and organizations. The
grouped data when generating information is a very important role to reduce uncertainty. The
recognition of the importance of information by business managers led to the development of
information systems. Information systems may have different objectives, taking into account the
type of information we have to process and the desirable results.
The focus of our work is in IS (Information Systems) area, primarily CRM (Customer
Relationship Management) systems. IS are systems that present a set of elements that capture,
store, process and communicate information. There are several types of IS, with each type
designed for a particular purpose.
In this section we intend to specify the importance of collecting data, that later on turns
information in knowledge. We will also explain the importance to implement information
systems into companies and organizations.
We present CRM systems in greater detail, analyzing their characteristics and importance to
companies and organizations to disseminate information regarding the advantages of their use.
2.1. Why SMEs do not implement CRM system
In this competitive market, the client must be regarded as the fundamental entity of an
organization [6]. The importance of satisfying the customer must be seen as a priority. Given
the importance that clients represent to the enterprises economy, especially in SMEs,
organizations must adopt strategies that allow them to define the profile of its customers. It is in
this context that the CRM software has great importance in collecting and recording data.
The data should be regarded as one the most important assets of an organization, that start in
information and will be transformed in knowledge. The organizations have in their data, the
possibility of its future growth. Later using a Decision Support System (DSS) is possible to
identify strengths and areas for improvement in order to optimize business processes and
customer relations. Given all these advantages we must ask why companies do not implement
CRM systems?
152
ANEXO C
The current economic crisis leads companies to adopt strategies in order to fight against the
difficulties. Known the swollen costs of normal business activity, it becomes difficult to SMEs
to make extra investments. Lack of knowledge by SMEs of the existence of free solutions (open
source) is one factor that determines why these tools are not acquired and implemented in the
organizations. Our main goal is to disseminate to SMEs some viable solutions to implement a
free CRM system to improve their business processes.
3. ADVANTAGES OF USING OPEN SOURCE SOFTWARE
Before going further, it is essential answer an important question, that is, which is the advantage
of using open source software?
Regarding the costs, the purchase of open source software is free and the hardware associated to
these systems has lower costs. This is justified, taking into account that those which are looking
for open source software are not available to purchase commercial software, and also usually
don’t have financial resources to invest in more sophisticated equipment.
The open source software has a good quality, despite being developed by community.
Nowadays the releases and the stable versions of software usually suffer an extended inspection
and are exposed to various tests of software quality before being delivered.
Often the commercial software lacks some essential functionalities for organizations. The fact
of commercial software does not provide the source code, not allows adding extra features. The
open source software provides its source code, enabling organizations to develop new
characteristics and integrating them into their applications.
The integration of other complementary software, is an additional possibility. The availability of
the source code allows the integration of different tools. For example, it is possible the
integration of open source databases, open source CRM systems, open source business
intelligence tools, etc.
Simple license management, without license fees, without expired licenses date, etc. is a clear
advantage of using open source software. Open source software usually has a support
community, documentation, discussion forums and constant updates of its versions, updates,
identify and resolve software glitches and bugs.
In summary, the main advantages of using open source software by companies are: free license,
low cost maintenance, support community; the software can be shared and used for various
purposes, access to source code and permission to study and amendment, ability to adapt to the
real needs of each organization, constant updating of versions through the contribution of the
community that supports it, possibility to try the software without any cost and ease of access to
the specific open source repositories to download [25, 26].
For SMEs the main benefit of using open source CRM tools is the ability to adapt the software
to business needs, with opportunity to add new modules developed accordingly to the company
requirements. The possibility to access the code allows the company to benefit of the initially
features available but also to configure the application taking into account their needs and
environment.
Today it is very important that companies make cost containment. The SMEs has here good
solutions that allow the evolution of business and reduce the expenses.
4. OPEN SOURCE CRM TOOLS
153
ANEXO C
In an era of financial crisis and expense reduction it is important that companies keep pace with
changing technologies and markets, adopting strategies for tracking trends, but which are not
expensive. SME’s need low cost CRM solutions that can easily adapt to their business model
and IT structure, instead of having to adapt their business model and IT structure to the CRM
software. In this section our main objective is to disclose open free solutions viable for
implementation by SMEs.
In this particular case we rely on some recent sources of information, namely [4] and [5]. We
will describe open source CRM systems to assess their capabilities, their strengths and the
aspects that differ between them and exploring the applicability of each of those tools in fitting
the needs of SMEs. The open source CRM systems that we analyze are: CiviCRM [7],
OpenCRX [8], OpenTaps [9], SugarCRM [10], Vtiger [11] and Free CRM [12].
4.1. CiviCRM
CiviCRM [7] is an open source tool, based on relationship management solutions. This tool is
web-based, multi-language, and intended to needs of advocacy, non-profit and nongovernmental groups. CiviCRM allows recording data for the various constituents of an
organization as volunteers, activists, donors, customers, employees, suppliers, etc.
The main strengths of the tool are: store information about individuals, organizations and
households; the community of development work regularly in the growth and extension of
system; ease of integration with other websites; CiviCRM integrates directly into the popular
open source Content Management Systems – Drupal and Joomla; save the access history of
each user, using the log record; CiviCRM was designed for use worldwide, allowing the many
localized formats and supporting multi language, such as, French, Spanish, German, Dutch,
Portuguese, etc.; licensed under the GNU AGPL allow a changes in code, add new features, etc.
[7].
The advantages of the web-based applications are the possibility of linking several people at the
same time in different locations, accessibility within and outside the corporate infrastructure,
making communication between people practical and accessible.
CiviCRM has optional components that provide a better service of support to its users. The
CiviCRM components are: CiviContribute – component that allows managing online donations
and contributions to an organization; CiviCase – to manage interactions between people and
organizations; CiviEvent – allows the creation and listing of paid and free events, allows to
create events through the creation of Web pages specifically for this purpose; CiviMail – e-mail
service that lets redirect to the lists and email contacts and various custom reports; CiviMember
– to on-line registration and revalidation of the user account; CiviReport – module tool that
allows to create reports on data that are intended to illustrate [7].
When associate with a CMS (Content Management System) CiviCRM allows a content
management relatively to customers data. With the implementation of the CMS tool the visitors
have the possibility to signing up for events, requesting email updates and donating money.
CiviCRM is a web tool that can be installed on a Web server or an internal server. The
requirements for installing CiviCRM are open source tools, namely: Apache Server 2.0 (or
higher), PHP 5.2.1 (or though PHP 5.3 is only supported from version 3.2 of CiviCRM),
MySQL 5.1.x (or higher), Drupal 6.x ou 7.x/Joomla 1.5.x ou 1.6.x, Server Cronjobs and require
128 Mb of memory [7].
154
ANEXO C
Figure 1. CiviCRM ambient work [20]
The Figure 1 illustrates the application screenshot with several elements, charts, tables,
information, etc. The left side of the figure is visible a chart of donor report, the right of the
figure in top is visible a panel of activity log and in bottom a membership report summary.
4.2. OpenCRX
In 2003 with the need to create a free CRM tool, the Swiss company Crixp Corporation
supported by the Swiss company Omex AG, developed the OpenCRX tool.
OpenCRX is a true open source tool, which has enterprise-class with features like role-based
security, system-wide/pervasive audit-trail, platform independence, virtually unlimited
scalability, and much more. OpenCRX besides the code also provides UML models and the full
javadoc, that allow to the users more knowledge of the system, it is great for programmers [8].
OpenCRX is a tool developed in Java, which can run on any operating system by simply
installing a JVM (Java Virtual Machine). This application lets the user to change the language.
The main characteristics of OpenCRX are [8]: Open source - an open source tool that allows to
adapt real needs. The possibility of re-structure their UML architecture, makes it easier to
amend it; Account Management - allows for a detailed consultation to contacts, activities,
products and states of account; Monitoring of trade, show all possible approaches and prospects
to customers; Management of products and their prices - manage the lists of products and their
prices, enables the conversion of prices for different currencies. For the sales process,
OpenCRX has the particularity to enable the integration of an ERP system for management of
sales processes; Activity management - essential to the creation of groups and activities to
control the number of hours wasted in solving problems; Administration - the security aspects
are taken into account too, the tool allows some control extended as part of their modules;
Integration with e-mail POP / IMAP / SMTP coming from different servers and services of email; Integration with MS Office and Open Office suite tools; Time management - coordination
of working hours and the reconciliation between the various tasks across the enterprise with
customers, it is possible using the functionality CalDAV of the OpenCRX; Diversity of data
support - the tool supports data different data management systems, such as, MySQL, Oracle,
MS SQL Server, PostgreSQL and DB2.
OpenCRX includes business intelligence tools such as BIRT and the construction of reports is
possible. The OpenCRX installation requires: JDK, JEE Server, Apache ANT and a SGBD.
155
ANEXO C
According to [8] OpenCRX is a tool that requires more learning time compared with other
similar open source CRM tools. The fact that it is not a tool based on LAMP (Linux, Apache,
MySQL, PHP) makes it more difficult to install compared with solutions of this type. The ANT
(is a project of Apache Software Foundation, allows building automation software) technology
becomes more complex to implement.
Figure 2. OpenCRX ambient work [21]
In Figure 2 is possible to visualize an application screenshot of OpenCRX. In the left it is a tool
bar, in the right is visible the work ambient composed by tab options and content tables.
4.3. OpenTaps
OpenTaps [9] is an open source tool of CRM + ERP (Enterprise Resource Planning). OpenTaps
was developed thinking in small and medium enterprises and had as its starting point the
Apache Open for Business. OpenTaps was developed in Java language (JEE), which offers
scalability of implementation.
OpenTaps has the following features [15]: eCommerce, Poin-of-sales, inventory, warehouse,
order, customers management and general ledger. OpenTaps allows interconnection with
business intelligence tools (iReport) and mobility integration with Microsoft Outlook, Google
Calendar and mobile phones.
OpenTaps is many used by organizations that are linked to activities such: industrial machinery
manufacturers, online good retailers, online content distributors, telecommunications
companies, independent software vendors and hosted services providers. For these industries,
OpenTaps is used for order management, customer service purchasing, production planning,
inventory management, and manufacturing to shipping and accounting [9].
We enumerate some key features of the tool OpenTaps based on [15] and [16]: OpenTaps has a
web based user interface; internationalization - multi language; integrate marketing and sales customers services, warehouse, supply chain, online and physical stores, and accounting;
marketing - support stores, catalogs, categories and products; promotion store - online
promotion store; cross-sells (are suggested complementary products) and up-sells (update to sell
any product or service) for products; price rules for customers or group-specific pricing;
integration online and Point of Sales (POS); real-time accounting reports; manage the
manufacturing process; plan and automate purchasing and manufacturing.
OpenTaps has also some additional modules namely: project management; human resources;
fixed asset management; Outlook and mobile phone integration with Funambol; integration with
156
ANEXO C
eBay, Google base and Google check out; content management; Point of Sales (POS);
integration eCommerce; Business Intelligence (integration with Pentaho and JasperReports).
The OpenTaps can be applied in systems with the following characteristics: operating systems Windows, Mac OS X, Linux and Solaris; SGBDs - Oracle, Microsoft SQL Server, MySQL and
PostgreSQL; Google Web Toolkit (GWT), allows an use more easy of the OpenTaps.
Figure 3. OpenTaps screenshot [22]
In Figure 3 is illustrated the work ambient of OpenTaps tool. In the left of the figure is visible a
menu options, in top is visible some tabs of options. In the right of the figure is visible the user
‘home’ and in the bottom a table of pending activities.
4.4. SugarCRM
SugarCRM [10] is a software company based in California. SugarCRM includes some features,
such as: sales-force automation, marketing campaigns, customer support, collaboration and
reporting.
SugarCRM is one of the premier CRM solutions, which today has over 4 million of users. The
open source version is developed in PHP, this project is growing rapidly and has an active
developer community [30].
The main features of SugarCRM tool are [10]: scalability of pages to application; contacts
management; relationship accounts; marketing campaigns; tasks and activities management;
documental management; Web portal; occurrences management; processing emails.
The requirements to support the application are: operating systems - Linux, Windows or Unix;
PHP 5.2.x (or higher); MySQL 4.1 (or higher) or MS SQL Server; Apache 1.3 (or higher), IIS 6
(or higher) or NGINX 1.x (or higher, with php-fpm); HD with 100MG; Around 64M of memory
by user.
157
ANEXO C
Figure 4. SugarCRM work ambient [23]
The Figure 4 illustrates the work ambient of SugarCRM. On the left in the figure is visible a
menu options, in top exists some tabs, on the right is illustrate a calendar and a chart, on centre
is visible a table with upcoming appointments of user. In comparison with other tools,
SugarCRM present a big amount of icons and tabs.
4.5. Vtiger
Vtiger [11] is an open source business-oriented solution, built on platforms LAMP/WAMP
(Linux/Windows, Apache, MySQL and PHP).
Vtiger has been developed by the same development community of SugarCRM, with the
intention of developing an open source CRM solution and providing similar functionality to
SugarCRM and Salesforce.com.
Vtiger CRM has 15 modules: covering Marketing, Sales, Support, Inventory, and project
Management functions. Vtiger is available in more than 15 different languages[11].
The main features of Vtiger are: sales automation; control support; Marketing automation;
inventory management; support for multiple database systems; security control; product
customization; integrated calendar; integration with email service; add-ons (plug-in for Outlook,
MS Office, Thunderbird, customers portal and web forms).
Vtiger software needs the following requirements: operating system - Linux or Windows;
Apache 2.0.40 or higher; MySQL 5.1.x or higher; PHP 5.0x or higher; Firefox or Internet
Explorer; minimum of 200 MB free disk space; minimum of 256MB RAM.
158
ANEXO C
Figure 5. VtigerCRM screenshot [24]
The Figure 5 illustrating the appellative ambient of VtigerCRM tool. On the left in figure is
visible a browser search, a list of last viewed, a time zone setting and a calculator. In top of
figure is visible a set of option tabs. In centre of figure is visible the properties of email service.
4.6. Free CRM
Free CRM [12] is an open source CRM software, which is a Web based solution for customer
relationship management and sales force automation. This is a software for up to 50 users that
doesn´t require to download any software. In the open source version, Free CRM is somewhat
limited with regard to storage capacity and security [25].
Free CRM is great for contact and lead tracking, sales and contact management, sales pipeline
management and forecasting, customer services and business management [27].
The main features of FreeCRM are: contact and lead tracking; sales and pipeline management;
support ticket & service management; advanced security & uptime; superior technical support;
tasks; reports; calendar.
FreeCRM has some specifics available functionalities [12]:
Calendar – schedule all of meetings and calls using the scheduler; track team
member’s availability and schedule; set multi-user alerts that send notification
emails to all members.
Company – track calls, history, trouble tickets, and sales activities; introduce
workflow and automation to sales campaigns, vendors and prospects; bridge contact
management data with tasks, deals, calendar events, and more.
Contact – import contact lists from any spreadsheet file; synchronize the new
contacts and related information in real time; empower full sales potential with an
interface that allows to get down to business with contacts database.
Deal – create a complete view of your sales process; analyze the progress any given
campaign, cycle or employee is doing; quantify your sales success over time.
159
ANEXO C
Task – get the tasks priority; create custom tasks types specific for business; assign
tasks to team members or employees; give workflow and status of the tasks; delegate
workload across the team.
Case – customize support issues with our custom fields; assign issues to one or
multiple team members; track the cases so no customer issue falls through the
cracks.
Call – create call campaigns; automate calls; organize follow-up.
Email – integration with the service of POP email.
Doc – management documents.
Form – give customer a quality feedback form; give your staff questionnaires and
scripts; build custom surveys for sales, marketing, and customer satisfaction.
Report – generate charts and graphs of company performance; generate hard
numbers based on calls campaigns, email campaigns, tasks, deals, and much more;
choose from over 70 pre-defined reports.
The requirements systems, necessary to run the application are [28]: Internet Explorer or
Netscape.
Figure 6. FreeCRM screenshot [12]
In Figure 6 is visible the ambient of work of the FreeCRM tool. In the top of figure is visible the
option tabs, on the left is possible view the options menu, in centre of figure is visible the list of
tasks.
5. RELATED WORK
According to a publication of Global Alliance of SMEs [31], SMEs represent over 98% of
companies worldwide; based on this percentage we have focused our research into small firms
with lower investment capacity. CRM systems are a necessity for companies and organizations
to improve their competitiveness. However, there are not many papers focusing into open
160
ANEXO C
source CRM tools. For example [32] and [33], evaluate and present a review of the top 10 CRM
open source solutions based on utility, business models and developer communities. In [32] they
show a comparison between the top 10 CRM tools, containing a features table of each tool,
helping to decide which is the best tool. In a white paper published by CRM Outsiders [34], an
industry blog, and sponsored by SugarCRM is given a description about advantages and
disadvantages of the use the CRM systems by SMEs. In [35] is presented the evaluation about
the costs between open source and proprietary solutions. The choice of CRM tool is very
important, such as, the knowledge of the importance its use, for this purpose, references [36]
and [37] may be useful. In [38] is described an application for evaluating CRM open source
systems. And [39] presents a description about a comparison about assessment methodologies
between free and open source software. However, companies sponsor most of these works and
there are not many research papers. In our work we presented an independent evaluation of open
source CRM tools.
6. CONCLUSIONS AND FUTURE WORK
Nowadays, the contact lists, the customers profile information and a basic knowledge about
customers have a great importance for the enterprises and organizations. Data is the most
important asset in any organization, from which it is possible to extract information and
transform it into knowledge.
The main objective of this work was to promote some open source CRM solutions for small
enterprises and organizations. The adoption of open source CRM tools has many advantages for
SMEs, as the possibility of really trying the system, reduction of vendor lock-in, low licence
cost and possibility of in-depth personalization. Taking into account the importance of data for
enterprises and organizations, is essential the acquisition these tools by enterprises and
organizations.
All the described tools, CiviCRM, OpenCRX, OpenTaps, SugarCRM, Vtiger and Free CRM,
have the particularity of being open source, not entail any licence costs. Each CRM solutions
analyzed here has its particularities, their advantages when compared with others, different
features, different difficulties of using and differences in system requirement.
When choosing of the CRM tool to adopt, is important that the final customer evaluate the tool
taking into account the requirements of the organization and evaluate the features of each tool.
The easiness of adapting the tool is one of the aspects to consider.
It is often difficult to evaluate which the best solution CRM to implement in organizations,
taking into account the best solution is also conditioned by the specific needs of each company.
Taking into account the lack of related works, and how we do not implement in practice each of
the tools, would not be fair to define which/what the best of these solutions. The sources [4] and
[5] elect the same tools as the best open source CRM today. This is a good idea for a future
work, examine in practice, what the top tree best CRM open source systems.
Overall, the CRM tools described here, have the potentiality for help small enterprises and
organizations in their day to day, contributing for contacts management of customers, tasks
management, save the customers data, and define customer profile. Among all the features the
most important is the fact to be open source and without licence costs. From our evaluation, we
conclude that we should not elect any of the tools as the winner. All analyzed tools have
capacities that can be adopted by companies and organizations and all have quality to serve the
needs and requirements of SMEs.
161
ANEXO C
We can conclude the world of open source tools has good solutions to be implemented in small
and medium enterprises. This type of systems also allows the organizations to modernize and
optimize their business processes at low costs.
REFERENCES
[1] Melissa C. Lin A Study of Main stream Features of CRM System And Evaluation Criteria, , 2003
[2] Adrian Payne. Customer Relationship Management. www.crm2day.com, 2002.
[3] Hubert Baumeister, “Customer Relationship Management for SME’s “, Institut fur Informatik,
Munchen, German, 2002
[4] Jun Auza “Best Free and Open Source CRM Software”, June 2010,
http://www.junauza.com/2010/06/open-source-crm-software.html
[5] Sundheer Raju, “Top 7 Free/Open Source “CRM” tools”, January 2011. ToolsJournal,
http://www.toolsjournal.com/tools-world/item/141-top-free-crm-tools
[6] Boon Loh, Khain Koo, Kee Ho and Rosnah Idrus, “A review of Customer Relationship Management
System Benefits and Implementation in Small and Medium Enterprises”, http://www.wseas.us/elibrary/conferences/2011/Brasov2/MCBANTA/MCBANTA-44.pdf
[7] CiviCRM, http://civicrm.org/
[8] OpenCRX, http://www.opencrx.org/index.html
[9] OpenTaps, http://www.opentaps.org/
[10] SugarCRM, http://www.sugarcrm.com/crm/
[11] Vtiger, http://www.vtiger.com
[12] FreeCRM, http://www.freecrm.com/
[13]http://www.opencrx.org/downloads/200705M30_Linux_Magazine_OpenCRX.pdf
[14]http://www.opencrx.org/downloads/200802M39_Linux_Magazine_OpenCRX.pdf
[15] http://en.wikipedia.org/wiki/Opentaps
[16] http://www.opentaps.org/about-opentaps
[17] http://en.wikipedia.org/wiki/SugarCRM
[18]http://sugarcrm.com.pt/item2_detail.php?lang=0&id_channel=11&id_page=4&id=1
[19] http://www.crmreview.org/Salesforce-CRM-Review.htm
[20] http://www.2020media.com/content/view/232/45/
[21] http://download.pmi.it/crm/0/335/opencrx.html
[22] http://ostatic.com/opentaps/screenshot/1
[23]http://www.swotti.com/tmp/swotti/cacheC3VNYXJJCM0=U29MDHDHCMUTU29MDHDHCMU=/
imgSugarCRM2.jpg
[24]http://www.swotti.com/tmp/swotti/cacheDNRPZ2VYIGNYBQ==U29MDHDHCMUTU29MDHDH
CMU=/imgvtiger%20CRM1.jpg
[25] http://www.smallwebusiness.com/free-crm-software .html
[26] http://savedelete.com/best-free-web-based-business-apps.html
[27] http://www.slideshare.net/catiabrito/open-source-449595
[28] http://open-source.gbdirect.co.uk/migration/benefit.html
[29] http://www.outsource2india.com/software/articles/open-source-software.asp
162
ANEXO C
[30] http://www.concentricsky.com/about/technology/sugarcrm/
[31] Global Alliance for SMEs, http://www.globalsmes.org/html/index.php?func=expo2010&lan=en,
June, 2010
[32] Chris, “The top 10 Open Source CRM Systems”, http://crmsearch.com/top-10-open-source-crmsystems.php
[33] Fadi Amroush and A. Baderddeen Alkhoder, “Evaluation of Open Source CRM Systems”, 2008
[34] Chris Bucholtz, “CRM and Small Business: Smaller, Faster, Better”, 2011
[35] SugarCRM, “CRM Total Cost of Ownership: Comparing Open Source Solutions to Proprietary
Solutions”, Business white paper, 2005.
[36] Michelle Murrain, “Open Source CRM”, Nonprofit Open Source Initiative, March 27, 2008
[37] Optaros, “Understanding Open Source CRM”, Optaros white paper,
http://61.153.44.88/crm/optaros_wp_os_crm_20060316.pdf
[38] Lerina Aversano, Maria Tortorella, “Applying EFFORT for Evaluating CRM Open Source
Systems”, Proceedings of Product-Focused Software Process Improvement - 12th International
Conference, PROFES 2011, Torre Canne, Italy, June 20-22, 2011, pp. 202-216.
[39] J.C. Deprez, S. Alexandre, “Comparing Assessment methodologies for Free/Open Source: OpenBRR
& QSOS”, Proceedings of Product-Focused Software Process Improvement, 9th International
Conference, PROFES 2008, Monte Porzio Catone, Italy, June 23-25, 2008, pp. 189-203.
Authors
Short Biography
Jorge Bernardino is Coordinator Professor of
the Department of Systems and
Computer Engineering at the ISEC
(Instituto Superior de Engenharia de
Coimbra) of Polytechnic of Coimbra,
Portugal. He was President of ISEC
from 2005–2010 and President of
Scientific Council during 2003–2005.
He received his PhD Degree in
Computer Engineering from the
Computer Engineering Department of
the University of Coimbra in 2002. He
is member of Software and Systems
Engineering (SSE) group of Centre for
Informatics and Systems of the
University of Coimbra (CISUC)
research centre. His main research
areas are Data Warehousing, Business
Intelligence, database knowledge
management, e-business and elearning.
(Instituto Superior de Engenharia de
Coimbra) where attends the Master of
Informatic and Systems - Software
Development. At this moment is to
finish the master's thesis on open
source business intelligence tools
under the orientation of Prof. Jorge
Bernardino. His main research areas
are Business Intelligence and open
source systems.
Marco Tereso studied Computer Science Information Technology and
Multimedia at ESTGOH (Escola
Superior de Tecnologia e Gestão de
Oliveira do Hospital) and attained his
graduation in 2009. After completion
of graduation joined the ISEC
163
164
ANEXO E
Top Business
Intelligence Software
for Small and Medium
Enterprises
Jorge Bernardino1, Marco Tereso1
Polytechnic of Coimbra - ISEC, Coimbra, Portugal
Email: {[email protected], [email protected]}
1
Abstract— Business Intelligence (BI) is one of the few forms
of sustainable competitive advantage left. However, BI
software are not very common in Small and Medium
Enterprises (SMEs). Most SMEs do not implement BI tools
due to several reasons, such as lack of knowledge about BI
or lack of financial resources to implement BI. In this paper,
we present top open source and commercial solutions,
describing the functionalities of the top BI tools, examining
the applicability of each of those tools in fitting the needs of
SMEs. Finally, the future of BI is addressed to envision the
potential of its growth.
Index Terms—business intelligence, open source BI software,
commercial BI software, SME’s
I. INTRODUCTION
The need to implement decision support systems in
organizations is an unavoidable reality. Currently, the
majority of organizations have Information Technology
(IT) systems, designed to record and store massive
amounts of data resulting from the operational activity.
This data set has to be transformed in information and all
that information will lead to knowledge useful for the
organizations.
The concept of “business intelligence” and “analytics”
include tools and techniques supporting a collection of
user communities across an organization, as a result of
collecting and organizing numerous (and diverse) data
sets to support both management and decision making at
operational, tactical, and strategic levels. Through data
collection, aggregation, analysis, and presentation,
business intelligence can be delivered to best serve a wide
range of target users. Organizations that have matured
their data warehousing programs allow those users to
extract actionable knowledge from the corporate
information asset and rapidly realize business value.
But while traditional data warehouse infrastructures
support business analyst querying and canned reporting
or senior management dashboards, a comprehensive
program for information insight and intelligence can
enhance decision-making process for all types of staff
members in numerous strategic, tactical, and operational
roles. Even better, integrating the relevant information
within the immediate operational context becomes the
differentiating factor. Offline customer analysis providing
general sales strategies is one thing, but real-time
business intelligence can provide specific alternatives to
the sales person talking to a specific customer based on
that customer’s interaction history in ways that best serve
the customer while simultaneously optimizing corporate
profitability as well as the salesperson’s commission.
Maximizing overall benefit to all of the parties involved
ultimately improves sales, increases customer and
employee satisfaction, and improves response rate while
reducing the cost of goods sold – a true win-win for
everyone.
Nevertheless small businesses generally don’t have the
time, finances or employees that big businesses have. In a
small business one will find a whole list of jobs to do
which larger businesses have entire departments to work
on. With resources in short supply, it is imperative to be
careful about how time and money is spent. For many
small and medium enterprises, this can mean eliminating
business intelligence (BI) as this can be seen as an
unnecessary expense or just downright confusing.
However, BI is a vital exercise for any business, no
matter what size.
In this paper we present the top BI tools, in view of
ranking presented in [1], examining the applicability of
each of those tools in fitting the needs of SMEs to see
how we can make business intelligence work for small
and medium enterprises, which represent more than 98%
of worldwide companies [2]. We will analyze the top
open-source tool Actuate BIRT [3]. Following, we
evaluate the top commercial tool of the pure play
vendors, Information Builders [4]. Pure play vendors are
vendors focused primarily upon BI software and services
that have typically been in business for more than 15
years.
This paper is structured as following: Section II gives
details about the top open source tool and Section III
describes the top commercial tool of the pure play
vendors. Finally Section IV presents our conclusions and
the future of BI is addressed to envision the potential of
its growth.
II. OPEN SOURCE BUSINESS INTELLIGENCE TOOL
Many open source solutions related to business
intelligence exists in the market. A number of tools are
more focused on specific processes (ETL-Extract,
Transform,
Loading,
OLAP-Online
Analytical
Processing, Data Mining, Reports, etc.) with others
including a set of these features.
Given the difficulties and mandatory spending cuts in
SMEs, this is a type of solution increasingly requested
and that presents a vast number of successful cases.
Taking into account the maturity recognized, the open
source business intelligence tools are clearly a practicable
solution for SMEs.
Based on the ranking presented in [1], we will examine
the top open source tool: Actuate BIRT [3], which
according to the study, have highest potential. Other
open-source tools include: JasperSoft [7], Pentaho [8] and
165
ANEXO E
SpagoBI [9], but due space limitations are not analyzed in
this paper.
• A. Actuate BIRT
Actuate founded and now co-leads the BIRT (Business
Intelligence and Reporting Tools) open source project
with the Eclipse Foundation, the home of the open source
Eclipse Development Framework [3]. The BIRT project’s
goal was to bring the web design metaphor to creating
visualizations of structured data. Actuate is one of the
first enterprise software companies to make a strategic
commitment to open source for its core technology and
the future of its product line and overall business.
BIRT offers features for design and deployment
including: ad hoc queries and reporting tools, OLAP
processes and dashboards. Innovative aspects of BI such
as Executive Information Systems (EIS) statistical
analysis, modelling capabilities, Data Mining tools, Data
Warehouse Modelling Tools, ETL and Data Quality
Tools, are also presented. BIRT makes use of Talend
Open Studio [17] for ETL processes. Talend Open Studio
is the open source tool, which run in the Eclipse ambient
such as BIRT. The Figure 1 illustrates an ETL sample
schema developed with Talend Open Studio.
Charts in BIRT Report Viewer [18]
The Figure 3 illustrates a set of business intelligence
elements with complex report that includes different
graphs. The figure shows bar charts, pie charts, line
charts, and elements of GIS (Geographic Information
System).
BIRT Report [19]
Talend Open Studio ETL schema [17]
The Figure 2 shows the cylindrical column charts in
the BIRT Report Viewer. In this figure is visible the
options offered by BIRT to: navigate in different pages,
save the chart, print document and export it to other
formats, like Excel and PDF.
166
Actuate BIRT also focuses on innovation and market
trends. The investment in the market for mobile
application is a reality. BIRT has developed applications
for iPhone, iPod, iPad and Android.
The advantage of mobile version is that allows the user
to make decisions anytime and anywhere. The BIRT
Mobile Viewer apps present engaging BIRT reports,
analytics and dashboards for the supported mobile
devices.
The Figure 4 illustrates one screenshot of BIRT
Mobile Viewer for iPad.
ANEXO E
WebFOCUS also offers performance management, in
out-of-the-box solutions for monitoring, tracking and
performance control; advanced analytics, to improve
decision-making; data integrity solutions, providing endto-end management of all metadata; an integration
infrastructure related with the ETL (Extraction Transform
Load) processes; integration with other products, such as
Microsoft Excel and Adobe PDF.
Information Builders have other product associated to
the business intelligence processes, designated by iWay
Software. The iWay software is responsible by the
graphical elements of business intelligence (charts,
dashboards, reports) and by the manipulation data
processes such as ETL.
The Figure 5 show the ETL schema developed with
iWay Software tool.
BIRT Mobile Viewer for iPad [20]
In Figure 4 is visible several elements of business
intelligence namely, pie charts, cylindrical charts vertical
and horizontal, and one data table..
Nowadays, BIRT was considered the top business
intelligence tool [5] and recognized as leader in Mobile
Business.
III. COMMERCIAL BUSINESS INTELLIGENCE TOOL
The commercial business intelligence solutions are
usually more user friendly, but its higher costs for
acquiring and maintaining their licenses are an obstacle to
SMEs.
In this section we present the top commercial BI
solutions of the pure play vendors, which are vendors
focused primarily upon BI software and services that
have typically been in business for more than 15 years
[1]. The top commercial BI analyzed is Information
Builders [4]. Other commercial tools consist of:
MicroStrategy [11], QlikTech [12] and SAS Institute
[13], which are not analyzed.
• A. Information Builders
Information Builders [4] is a private software company
that was established in 1975 in New York.
Information Builders is currently operating in more
than 60 global locations and has built an active customer
base of more than 12.000 major installations in more than
8.000 organizations. Information Builders recently
established a partnership with IBM, which allowed the
company to have around 35.000 new installations.
Information Builders also provides software for
vendors, some market leaders, such as: IBM, SAP, Oracle
and others companies.
The business intelligence product of Information
Builders is called WebFOCUS. WebFOCUS is an
essential tool for managers, analysts, partners, employees
and customers. This is a business intelligence tool that
lets create dashboards, portable analytics and ad hoc
reporting.
iWay Software ETL sample schema [21]
Figure 6 illustrates the filters of data in page header,
data tables, and one pie chart. This elements are showed
with resource to iWay Software features.
iWay Data Profiler screenshot [22]
Figure 7 shows one report with a several different
elements. It is possible to view bar charts, pie charts,
evolution charts, data tables and elements of GIS.
Information Builders have a mobile version, which is
available for iPhone, iPad and Android tablets.
WebFOCUS Mobile presents a robust platform that
has main advantages: the ease to manage content, e-mail
alerts for content updates, user selected report intended
format, intuitive interface, on-demand customization, no
connection required, actionable applications, no device
software to support, no additional hardware required, no
167
ANEXO E
unique design and delivery tools needed and no special
security considerations [6].
WebFOCUS Report [23]
The Figure 8 illustrates the Information Builder mobile
app to run in a tablet and cellular devices.
Screenshot Information Builders mobile version [24]
CONCLUSIONS
Competitiveness and efficiency are key features for
business to achieving the goal of business success.
Nowadays, it is extremely important to SMEs to adhere
to innovation and technological trends.
Consequently, it is important SMEs implement
measures in order to stop consequences of the economic
crisis. The inclusion of business intelligence processes by
SMEs, allows identifying problems, detecting bad
practices so that we can take steps to capitalize on work
processes and business of the company. It is important
SMEs implements business intelligence solutions to
solidify in the market.
When choosing a Business Intelligence tool, there are
several factors to take into consideration: costs, quality of
service, availability of personnel with minimal
knowledge and obligatory features (company can have
requisites not supported by some analyzed tools), among
others. In our point of view it is extremely important
before deciding to have knowledge about the
characteristics of each tool, to meet the requirements of
the SME.
A commercial or open source solution is the question
that SMEs want to see clarified. Through the studies on
which we based our work, and taking into account the
characteristics listed for each tool, we took some
important conclusions.
Commercial tools are solid tools on the market and
have a longer maturity. Its main advantages are the
innovative concepts and a better user interaction. Overall,
168
the greatest advantage of the commercial solutions
described in this paper, is that its use is easier and more
intuitive to the user, excluding the need for the inclusion
of specialist staff to work with such tools.
On the other hand, the open source tools have been
gaining notoriety for its innovative technologies in its
operation and because they are license free.
When choosing BI software it is important that
companies realize the capacity of its staff to work with
business intelligence tools and evaluate the costs that
each tool may have directly or indirectly.
The choice should be measured taking into account the
costs that companies can afford in the short and medium
term. Open source solutions are clearly practicable
solutions that follow the development of commercial
tools, becoming even more profitable.
The future of business intelligence software is brilliant,
since BI is changing how companies are managed,
decisions are made and people perform their jobs. In
addition, major vendors are increasing their commitment
and investment in BI. New and improved means of data
analysis allow organizations to identify new business
trends, assess the spread of disease, or even combat
crime, among many other opportunities that can be
explored.
REFERENCES
2011 Wisdom of Crowds Business Intelligence Market Study.
Dresner Advisory Services, LLC. May 18, 2011
http://www.globalsmes.org/html/index.php?func=expo2010&la
n=en
http://www.actuate.com/home/
http://www.informationbuilders.com/
The Forrester Wave: Open Source Business Intelligence (BI),
Q3 2010. Boris Evelson and Jeffrey S. Hammond. August
10, 2010
http://www.infobuild.fi/pdf/esitteet/Mobile_FS.pdf
http://www.jaspersoft.com/
http://www.pentaho.com/
http://www.spagoworld.org/xwiki/bin/view/SpagoBI/
http://www.informationbuilders.com/
http://www.microstrategy.com/
http://www.qlikview.com/
http://www.sas.com/
The Forrester Wave: Open Source Business Intelligence (BI),
Q3 2010. Boris Evelson and Jeffrey S. Hammond. August
10, 2010
http://www.microstrategy.com/mobile/business-intelligence/
http://www.sas.com/technologies/bi/
http://www.talend.com/products-data-integration/talend-openstudio.php
http://birtworld.blogspot.com/2009/12/calling-client-sidejavascript-from.html
http://birtworld.blogspot.com/2009/06/calling-birt-reports-fromaspnet-using.html
http://itunes.apple.com/fi/app/birt-mobilehd/id370914749?mt=8
http://www.iwaysoftware.com.au/solutions/man/
http://live.lewispr.com/informationbuilders/2010/04/12/informat
ion-builders-announces-webfocus-8-406
http://www.informationbuilders.com.cn/products/webfocus/repo
rt_output_formats.html
http://www.informationbuilders.com/MES
BETTER DECISIONS WITH OPEN SOURCE BUSINESS
INTELLIGENCE TOOLS
Jorge Bernardino*1, Marco Tereso1, Pedro Ribeiro1
1
Instituto Politécnico de Coimbra
ISEC – Instituto Superior de Engenharia de Coimbra
Departamento de Engenharia Informática e de Sistemas (DEIS)
Rua Pedro Nunes
3030-199 Coimbra, Portugal
*Email: [email protected]
Abstract
Business Intelligence is firmly established, in many organizations, as the methodology
of choice for delivering comprehensive views of business states and directions.
Deployed to complement the business processes of an organization, Business
Intelligence tools work with a database management system (DBMS) to improve both
responsiveness and competitiveness. Business Intelligence tools aims to support better
decision-making in organizations. Whereas in the past the Business Intelligence market
was strictly dominated by closed source and commercial tools, the last few years were
characterized by the birth of open source (OS) solutions. The present study evaluated
and compared six Open Source Business Intelligence tools: JasperSoft, OpenI, Palo,
Pentaho, SpagoBI and Vanilla. This way, we show which are the best available free
solutions for organizations, especially those with fewer financial resources in order to
maintain their advantage competitive in an increasingly global market.
Keywords: Business Intelligence; Open Source; On-line Analytic Processing (OLAP);
Decision Support Systems (DSS)
1
1. Introduction
The term Business Intelligence (BI) was first introduced in 1989 by Howard Dresner,
who defined intelligence as “a set of concepts and appropriate methods to support
decision making, using the data provided by support systems to business process”
(Power, 2007). The need to implement decision support systems in organizations is an
unavoidable reality. Currently, the majority of organizations have Information
Technology (IT) systems, designed to record and store massive amounts of data
resulting from the operational activity. This data set has to be transformed in
information and all that information will lead to knowledge useful for the organizations.
OLAP (On-line Analytic Processing) tools are used for querying large data sets
usually available in a data warehouse or a central data repository for obtaining decision
making information. These tools allow non-technical users to extract the information
using predefined analytical data models in the form of self-service information
extraction. On-line Analytic Processing, in combination with the front-end tools,
provides the decision support tools required by the enterprise management. OLAP tools
structure data hierarchically, allowing to visualize it in different ways, enabling analysts
to gain insight into data through fast and interactive access to a variety of possible views
on information. The data recorded in enterprises by the systems of information
technology (IT) can be processed and interpreted using OLAP applications in order to
manipulate and analyze data from multiple perspectives. OLAP is a process of
manipulation and linking of data that allows users to access useful information in a
more standardized way. The process accepts data from multiple sources, thus providing
even greater potential for this type of applications. OLAP is clearly a growing area, and
its evolution is due to the fact that related areas such as Business Intelligence (BI) and
2
Decision Support Systems (DSS) are also in constant expansion. OLAP technologies
are rather required for these two areas (BI and DSS), the functionality checking
information provided by these tools allow to extract information from business
processes. This information extracted from crossing data is extremely important to help
business managers in decision making, and defining metrics for optimization of
business processes. Regarding the difficulties in accessing data, were developed several
types of OLAP architectures, developed to facilitate access to data in specific cases. The
existing OLAP architectures are ROLAP (Relational On-line Analytical Processing),
MOLAP (Multidimensional On-line Analytical Processing) and HOLAP (Hybrid Online Analytical Processing). We are interested in open source software as been defined
by Open Source initiative (OpenSourceInitiative, 2010): software that is freely
distributed without any fees related to use and including the source code; amended
software including all modifications in the software source code must be made available
under the original license. Although the use of the open source software does not have
to involve license costs, the cost of use of any software should be always expressed by
sum of all cost related to software implementation, configuration, maintenance and
support. Besides the zero licence cost, open source software has the following qualities:
reliability, customisability, freedom of choice, support and scalability.
Knowledge is essential to managers and entrepreneurs for making better
decisions. Organizations have to make a big effort to keep pace with market trends,
strategies business and contend with their competitors. Given these problems, this work
aims to survey state of the art of open source Business Intelligence tools to support
managers to make better business decisions.
3
This study only analysed open source tools, free of charge, given that one of the
main objectives is to reduce costs and increase the competitiveness of organizations. We
evaluated and compared six Open Source Business Intelligence tools: (JasperSoft,
2011), (OpenI, 2011), (Palo, 2011), (Pentaho, 2011), (SpagoBI, 2011) and (Vanilla,
2011). We also hope that our study can help to reduce water consumption by the use of
open source business tools, contributing for a sustainable development and a better
world.
The rest of the paper is organized as follows: in Section 2, we describe some
benefits of using open source software instead of commercial solutions. Section 3
presents the summary of the six open source business tools evaluation. Finally the
concluding remarks are presented in section 4.
2. Open source or commercial solutions?
The increasing focus on open-source software has reached the mainstream business
intelligence market. As some organizations are looking to reduce costs in their large BI
deployments, they are hoping that open source gives them greater leverage for their
money. Application developers that are looking for a way to embed BI functionality
into their applications initiate other open-source BI deployments. Similarly,
organizations often cannot afford to roll out BI technology to hundreds or maybe
thousands of users, even from their preferred vendor, because of steep licensing costs
and are therefore considering an open-source solution to complement the current
infrastructure.
4
We must be aware of that evaluating BI is never cost-free. The nature and extent
of those costs can vary widely when evaluating open source and proprietary software.
Evaluating open source BI is not cost-free, even though the software is freely available
for download, and the labour costs should be dramatically lower. This is because the
evaluation of open source BI is more likely to be “bottom up” rather than “top down.”
This means that the technical evaluation and even a pilot implementation may occur at
minimal cost and effort before executives are involved.
One of the biggest problems with commercial solutions is that all the costs are
born upfront by the customer before there is any reward. This dynamic is one of the key
reasons for the growth and popularity of the open source movement. While open source
is evangelized on many fronts, including security, flexibility, and competitive
advantage, organizations adopt open source primarily because of the price/performance
ratio. With open source BI, organizations can adjust spending as they go, depending on
the perceived returns. Almost all of the investment is spent configuring or customizing
the solution to meet the organization’s needs, not on a generic system that needs to be
customized just to work.
Open Source Software / Free Software (OSS/FS) (also abbreviated as FLOSS – Free
and Libre Open Source Software) has risen to immense notoriety. Briefly, FLOSS
programs are those whose license allows the user to run and modify the program at will,
including the right to redistribute copies of both the original and the modified versions.
This kind of license usually requires that copyright notices are maintained but doesn’t
require royalty payments (Cossentino, 2007).
There are a multitude of FLOSS licenses, with varying degrees of openness or
freedom, but all those licenses give open source software the possibility of being freely
5
downloaded and used for any purpose that the user wishes, even if the developers never
intended or predicted such uses. Redistribution, modification and unrestricted access to
source code are also some possibilities present in every FLOSS license.
Nowadays, if a business enterprise has the needed skills to implement, use and
maintain the desired application, there are almost certainly one or two options of
enterprise-class open source software. Some common benefits associated with open
source software include:
• Short Product Cycle;
• Reliable and Secure;
• Freedom from Vendor Lock-In;
• No License Costs.
While Linux, Apache, MySQL, and other open source software are routinely
deployed in the enterprise, open source BI solutions are just at the point where they are
sufficient mature to satisfy user requirements. The major attraction of open source is to
save time and money, but there’s an extra dimension to open source BI – open source
BI allows interaction and evolution in a way that proprietary BI does not.
3. Open Source Business Intelligence Tools Comparison
Business intelligence tools have been created in order to help decision makers to
visualize data and find answers to the problems. The communities developing open
source business intelligence solutions are sought along with their employees to optimize
their tools, thus contributing to a steady development, making more functional
6
solutions. In this section, we present a brief description of the potential of (JasperSoft,
2011), (OpenI, 2011), (Palo, 2011), (Pentaho, 2011), (SpagoBI, 2011) and (Vanilla,
2011). Table 1 summarizes the main functionalities comparison made available by the
open source BI tools.
TABLE 1. OPEN SOURCE BUSINESS INTELLIGENCE TOOLS COMPARISON
Functions
Jasper
OpenI
Palo
Pentaho
SpagoBI
Vanilla
Reports
Graphics
Dashboards
OLAP
ETL
DataMining
KPIs
Data
Exportation
GEO/GIS
Ad-hoc
queries
Java
Perl
PHP
GNU GPL
Linux
Windows
Unix
Community
version only
✔
✔
✔
✔
✔
✘
✘
✔
✔
✔
✔
✘
✔
✘
✔
✔
✔
✔
✔
✘
✘
✔
✔
✔
✔
✔
✔
✔
✔
✔
✔
✔
✔
✔
✔
✔
✔
✔
✔
✔
✔
✔
✔
✘
✔
✔
✔
✔
✔
✘
✘
✔
✔
✘
✔
✘
✔
✔
✔
✔
✔
✔
✘
✔
✔
✔
✘
✔
✘
✘
✔
✔
✔
✘
✔
✘
✘
✔
✔
✔
✘
✔
✘
✘
✔
✔
✔
✔
✔
✘
✘
✔
✔
✔
✔
✘
✘
✔
✔
✔
✔
✔
✘
✘
✘
✘
✔
✔
The first conclusion drawn from this study is that the SpagoBI tool is one of BI
packages more complete and where the Community version, which is the only one,
contains more features than most of the Enterprise versions of the remaining packages
BI solutions analyzed. The OpenI tool has a weak point the lack of proper methods of
ETL and the inability to export data, it is therefore a most rudimentary tool when
compared to SpagoBI. Pentaho is a fairly comprehensive and consistent tool together
7
with SpagoBI. JasperSoft is a powerful BI tool, lacks only the process of Data Mining
and KPIs when compared with SpagoBI and Pentaho is still more balanced analysis
tools because it allows ad hoc queries and managing location GEO/GIS. The Palo tool
does not support data mining processes, KPIs and tracking features GEO/GIS. Palo
enables ad-hoc queries, which are a plus for this tool. Palo has a relevant factor in the
fact that you can add to Microsoft Excel and Open Office Calc. The Vanilla tool is
comparable to Pentaho package with similar features available. An important point to
note is that the Vanilla tool has a version for mobile devices, a factor that opens up
important perspectives for future functionalities in open source BI.
4. Conclusions
The main conclusion we can draw from a study conducted until the moment is that
despite the open source BI platforms can not be considered as sophisticated as the
commercial ones, they already have a high level of reliability and should be considered
a valid alternative in relation to commercial platforms. This is even more evident for
organizations where the amount of data and workload are not critical points. From our
analysis, we conclude that Open Source Business Intelligence platforms are growing
both in features, quality and visual appeal. Of the six tools analyzed, the OpenI is
arguably the least developed, and Pentaho, JasperSoft, and SpagoBI tools are those with
the greatest potential for use in non-profit organizations and Small and Medium
Enterprises environments.
8
References
Cossentino, M. (2007), “Open Source Software”, October,
http://www.pa.icar.cnr.it/cossentino/ICT/ppt/S11%20%20Open%20Source%20Software.pdf
JasperSoft (2011), http://www.jaspersoft.com/
OpenI (2011), http://openi.org/
OpenSourceInitiative (2010), http://www.opensource.org/
Palo (2011), http://www.jpalo.com/en/
Pentaho (2011), http://www.pentaho.com/
Power, D. J. (2007), “A Brief History of Decision Support Systems, version 4.0”.
DSSResources.COM. World Wide Web,
http://DSSResources.COM/history/dsshistory.html, version 4.0, March 10, 2007.
Raymond, E. S. (2010), “The Cathedral and the Bazaar”, November,
http://www.catb.org/~esr/writings/cathedral-bazaar/cathedral-bazaar/
SpagoBI (2011), http://www.spagoworld.org/xwiki/bin/view/SpagoBI/
Vanilla (2011), http://vanilla-bi.com/
9
Download