baixar trabalho em pdf

Propaganda
UNIVERSIDADE DO SUL DE SANTA CATARINA
MARCELO FEIJÓ VARGAS
DATA WAREHOUSE E BIG DATA:
INTELIGÊNCIA COMPETITIVA COM SOFTWARE LIVRE
Florianópolis
2016
MARCELO FEIJÓ VARGAS
DATA WAREHOUSE E BIG DATA:
INTELIGÊNCIA COMPETITIVA COM SOFTWARE LIVRE
Trabalho de Conclusão de Curso apresentado ao Curso
de Especialização em Redes e Segurança da Informação
da Universidade do Sul de Santa Catarina, como
requisito parcial à obtenção do título de Especialista.
Orientador: Profa. Vera Rejane N. Schuhmacher. Dra.
Co-Orientador: Eder Carlos Querino. Esp.
Florianópolis
2016
MARCELO FEIJÓ VARGAS
DATA WAREHOUSE E BIG DATA:
INTELIGÊNCIA COMPETITIVA COM SOFTWARE LIVRE
Este Trabalho de Conclusão de Curso foi julgado
adequado à obtenção do título de Especialista em Redes
e Segurança da Informação e aprovado em sua forma
final pelo Curso de Especialização em Engenharia de
Redes e Segurança da Universidade do Sul de Santa
Catarina.
Florianópolis, 15 de fevereiro de 2016.
______________________________________________________
Profa. Vera Rejane N. Schuhmacher. Dra.
Universidade do Sul de Santa Catarina
“A única maneira de fazer um bom
trabalho é amando o que você faz. Se você
ainda não encontrou, continue procurando.
Não se desespere. Assim como no amor,
você saberá quando tiver encontrado.”
Steve Jobs.
RESUMO
O BI, também conhecido por Inteligência de Negócios ou Inteligência Empresarial, é o
conjunto de tecnologias orientadas a disponibilizar informação e conhecimento em
uma empresa. Sua implementação inclui ferramentas como Customer Relationship
Management (CRM), Data Mining, Data Warehouse, entre outras. Data Warehouse
(DW) e Big Data (BD) são ferramentas cuja concepção e administração são voltados à
bancos de dados ou um volume de dados para apoio à tomada de decisão. O
surgimento de ferramentas que podem ser obtidas gratuitamente (ou a custos
reduzidos), as médias e pequenas empresas começam a se beneficiar da utilização
dessa
tecnologia.
Neste
trabalho
busca-se
demonstrar
a
viabilidade
de
desenvolvimento de um DW e BD a partir de ferramentas distribuídas como software
livre. Para tanto, utiliza-se o Pentaho como pacote de software livre para
desenvolvimento e demonstra-se o uso do mesmo através de um exemplo da própria
ferramenta. Ao final, espera-se contribuir para que as empresas adotem uma postura de
trabalho mais voltada à gestão da informação e à criação de estratégias competitivas.
Palavras-chave: Data Warehouse; Business Intelligence; Big Data; software livre;
estratégias competitivas.
ABSTRACT
The BI, also known as Business Intelligence, is a set of technologies used to provide
information and knowledge on a company. Its implementation includes tools like
Customer Relationship Management (CRM), Data Mining, Data Warehouse, among
others. Data Warehouse (DW) and Big Data (BD) is a tool whose design and
administration are focused on databases or volume of data that support decision
making. The emergence of tools that can be obtained for free (or low-cost), the
medium and small businesses start to benefit from the use of this technology. The
present study attempts to demonstrate the feasibility of developing a DW and BD from
tools distributed as free software. In order to achieve this, the Pentaho is used as a free
software package for DW development and it demonstrates the use of it through an
example of the tool itself. With this work, it is expected to help companies to adopt a
posture more focused on information management and on the creation of competitive
strategies.
Keywords: Data Warehouse; Business Intelligence; Big Data; free software;
competitive strategies.
LISTA DE ILUSTRAÇÕES
Figura 1 - Representação do modelo dimensional.................................................................... 18
Figura 2 - Representação do modelo estrela ............................................................................. 19
Figura 3 - Representação do modelo floco de neves ................................................................ 19
Figura 4 - Drill-Down .............................................................................................................. 25
Figura 5 - Drill Up ................................................................................................................... 26
Figura 6 - Slice and Dice .......................................................................................................... 26
Figura 7 – Imagem mostra como Big Data pode dar retorno através de dados sobre o mercado.
.................................................................................................................................................. 29
Figura 8 - Face do sistema Continuuity – EUA – 2012. .......................................................... 31
Figura 9 - Bubble Chart sobre educação e professores nos EUA – 2009. ............................... 32
Figura 10 - Arquitetura do Pentaho BI..................................................................................... 36
Figura 11 - Inicialização do Pentaho BI Plataform ................................................................. 38
Figura 12 - Login Pentaho ........................................................................................................ 39
Figura 13 - Menu Solutions ...................................................................................................... 39
Figura 14 - Visualização do exemplo disponível ..................................................................... 40
LISTA DE ABREVIATURAS E SIGLAS
BI
BD
CRM
DM
DW
ER
ETC
IBM
JRE
PCI
PPL
SAD
SGBD
OLAP
TI
- Business Intelligence
- Big Data
- Customer Relationship Management
- Data Mining
- Data Warehouse
- Entidade Relacionamento
- Extração, Transformação e Carga
- International Business Machines
- Java Runtime Environment
- Pre-Configured Installation
- Pentaho Public License
- Sistemas de Apoio à Decisão
- Sistema Gerenciador de Banco de Dados
- On-line Analytical Processing
- Tecnologia da Informação
SUMÁRIO
1 INTRODUÇÃO ............................................................................................................................. 10
1.1 APRESENTAÇÃO .......................................................................................................................10
1.2 JUSTIFICATIVA .........................................................................................................................11
1.3 OBJETIVO GERAL .....................................................................................................................14
1.4 OBJETIVOS ESPECÍFICOS........................................................................................................14
1.5 METODOLOGIA .........................................................................................................................14
2 DATA WAREHOUSE .................................................................................................................. 16
2.1 CONCEITOS E CARACTERÍSTICAS DE DATA WAREHOUSE .............................................16
2.2 MODELAGEM DIMENSIONAL ................................................................................................17
2.3 ETAPAS PARA A CRIAÇÃO DE UM DW ...............................................................................21
2.4 EXTRAÇÃO, TRANSFORMAÇÃO E CARGA.........................................................................22
2.5 ON-LINE ANALYTICAL PROCESSING - OLAP ....................................................................24
2.6 OPERAÇÕES BÁSICAS EM DATA WAREHOUSE ...................................................................25
2.7 CONCLUSÃO ..............................................................................................................................27
3 BIG DATA ..................................................................................................................................... 28
3.1 CONCEITOS E MERCADO COM BIG DATA ...........................................................................28
3.2 GRANDES VOLUMES DE DADOS ..........................................................................................30
3.3 BIG DATA E O FUTURO ...........................................................................................................30
3.4 EMPRESAS E OS DADOS .........................................................................................................32
3.5 CONCLUSÃO ..............................................................................................................................33
4 PLATAFORMA PENTAHO ....................................................................................................... 34
4.1 PROCESSOS E DEFINIÇÕES ....................................................................................................34
4.2 LICENÇAS E FORMAS DE OBTENÇÃO DO PENTAHO .......................................................35
4.3 ARQUITETURA ..........................................................................................................................35
4.4 INSTALAÇÃO .............................................................................................................................37
5
CONCLUSÔES E TRABALHOS FUTUROS............................................................................ 41
REFERÊNCIAS .................................................................................................................................. 42
BIBLIOGRAFIA COMPLEMENTAR .....................................................................................................44
10
1
INTRODUÇÃO
1.1 APRESENTAÇÃO
Quanto mais conhecimento a humanidade adquire, mais complexos se
tornam os sistemas, as empresas e a sociedade. Os administradores de empresas
passam a maior parte de seu tempo identificando e analisando informações que os
levam às decisões necessárias para o gerenciamento de seus empreendimentos e
negócios. Vários fatores contribuem para mudanças no modo de se tomar decisões
estratégicas nos negócios e nas empresas (DATAMIND TECHNOLOGY CENTER,
1998).
Pensando nisso, introduziu-se alguns conceitos no mercado, o primeiro e
mais antigo, é o conceito de Data Warehouse (DW), com sua concepção e
administração voltados a bancos de dados para apoio à tomada de decisão. Esse
conceito consiste em organizar os dados corporativos da melhor maneira, para dar
subsídio de informações para a tomada de decisão por parte dos gerentes e diretores
das empresas. Tudo isso em um banco de dados paralelo aos sistemas transacionais da
empresa.
O Data Warehouse (DW) é uma ferramenta no contexto do Business
Intelligence (BI). O BI, também conhecido por Inteligência de Negócios ou
Inteligência Empresarial, é o conjunto de tecnologias orientadas a disponibilizar
informação e conhecimento em uma empresa e inclui ferramentas como Customer
Relationship Management (CRM), Data Mining (DM), Data Warehouse, entre outras
(MACHADO, 2004).
Outro conceito que surgiu no mercado chama-se Big Data, essa tecnologia
descreve uma nova geração de arquiteturas, projetadas para economicamente extrair
11
valor de um grande volume, sobre uma grande variedade de dados, permitindo alta
velocidade de captura, e/ou análise (GANTZ, 2011).
Conhecer mais sobre essas tecnologias permite aos administradores
descobrir novas maneiras de criar diferenciais para uma empresa em uma economia
globalizada, deixando-os mais seguros para definirem metas e adotarem diferentes
estratégias em uma organização. Assim, eles conseguem visualizar, antes de seus
concorrentes, novos mercados e oportunidades, além de atuar de maneiras diferentes
conforme o perfil de seus consumidores.
Esta monografia contribui no sentido de conhecer alguns conceitos sobre
Data Warehouse e Big Data. Além de analisar uma suíte completa de ferramentas
computacionais que podem auxiliar nos processos de tomada de decisões, por
intermédio de um Data Warehouse e Big Data.
O presente trabalho está dividido em cinco capítulos. Este primeiro capítulo
faz a apresentação do tema do trabalho, seguida da definição do problema e da
justificativa desta pesquisa. Os objetivos gerais e específicos também são relacionados,
finalizando com a descrição da metodologia a ser seguida para o desenvolvimento da
pesquisa e para alcançar os objetivos. O segundo capítulo descreve conceitos de DW,
modelagem dimensional, além de dar ênfase às etapas para construção de um DW, o
processo de Extração, Transformação e Carga (ETC) dos dados, modelo dimensional
OLAP (On-line Analytical Processing) e as operações básicas em um DW. No terceiro
capítulo é apresentado a novo conceito chamado de Big Data. Por fim, no quarto
capítulo são registradas as considerações finais e após, as referências bibliográficas
que nortearam o desenvolvimento deste trabalho.
1.2 JUSTIFICATIVA
Para competir no mercado e superar a concorrência, médias e pequenas
empresas precisam saber mais sobre seus clientes, mercado e tecnologias. Torna-se
necessário ter informações confiáveis e no momento certo (HEINRICHS e LIM,
12
2003). Um gerente, para tomar decisões, baseia-se em uma série de relatórios com
informações da empresa. Ter informações em mãos é, portanto, um elemento
importante para quem quer tomar decisões rápidas e que podem trazer vantagens na
hora da competição.
Algumas aplicações dão suporte às empresas no processo de tomada de
decisão, pode-se destacar os Sistemas de Apoio à Decisão (SAD) e os sistemas de
Business Intelligence (BI). Esses sistemas contam com algumas ferramentas para a sua
construção, entre elas, estão os Data Warehouse (DW).
Segundo Inmon (1997), “Data Warehouse (DW) é um conjunto de dados
baseados em assuntos, integrados, não-voláteis e variáveis em relação ao tempo, para
apoio às decisões gerenciais”. Kimball (1997), por sua vez, amplia esse conceito,
incluindo um conjunto de ferramentas e técnicas de projeto que, quando aplicadas às
necessidades específicas dos usuários, permite o planejamento e a construção do DW.
Segundo Torres (1995), no mundo atual dificilmente se pode competir na
grande maioria dos negócios sem o uso da Tecnologia da Informação (TI). Em outras
palavras, existe um relacionamento muito grande entre a TI e o comportamento
estratégico de uma organização. Nesse sentido, a TI não é apenas um elemento
operacional ou integrante de produtos e serviços, pois tem seu valor estratégico em
uma de suas funções mais tradicionais, que é o fornecimento de informações para a
gestão. Dessa forma, um bom conjunto de informações de natureza estratégica pode
tornar a empresa mais competitiva na medida em que melhora a tomada de decisão.
O uso estratégico da informação tem se tornado uma necessidade cada vez
mais clara para as empresas. Quando a informação é bem utilizada, ela pode agregar
valor ao negócio, além de gerar outros benefícios para a empresa, como reduzir custos
ou identificar novos nichos de mercado.
Empresas de maior porte geralmente têm seus sistemas de informação
construídos sob as plataformas de grandes fabricantes de hardware e software, como
IBM, Oracle e Microsoft, os quais apresentam módulos próprios para BI.
Entre as empresas de pequeno e médio porte, esse tipo de sistema tem
aplicação limitada devido ao alto custo das ferramentas proprietárias. Essas empresas,
pressionadas por custos, geralmente buscam soluções tecnológicas insuficientes, pois
13
não têm poder para investir nos recursos necessários para uma estratégia voltada à
inteligência de negócios. Projetos de Business Intelligence e Big Data utilizam
softwares para análise de padrões e gestão da informação, além de outros recursos,
muitas vezes fora do seu alcance.
No entanto, nos últimos anos vem ocorrendo uma interessante mudança
para as empresas, que não envolve grandes investimentos em infra-estrutura
tecnológica. Esta mudança está associada à existência de excelentes softwares livres e
confiáveis, que podem ser utilizados de maneira muito profissional, como bancos de
dados, suítes de escritório, bem como, programas para a implantação de BI e Big Data.
A promessa inovadora do big data é a sua capacidade de tornar as redes
complexas não apenas mais compreensíveis, mas também mais previsíveis e mais
controláveis. A afirmação vem dos pesquisadores da novíssima Ciência das Redes
(ZUPPO, 2013).
Uma das principais colaborações da Ciência das Redes para as organizações
que desejam desenvolver metodologias e ferramentas em big data vem da afirmação de
que devemos ver os dados como parte de um ecossistema. Isso quer dizer que não deve
existir uma abordagem a partir de uma única perspectiva e que todos os participantes
da rede deverão ser levados em conta nos estudos das ameaças e oportunidades na
modelagem de novos empreendimentos (ZUPPO, 2013).
Em consistência com a diversidade dos dados existentes é necessário que a
abordagem metodológica não seja prerrogativa de uma única ciência. Os dados que
temos são universais, gerados por todos (usuários ou não da internet) e com um
potencial de inovação que não deve respeitar fronteiras geográficas ou de domínio do
conhecimento (ZUPPO, 2013).
Diante dessas afirmações, e concordando com elas, aceitamos o desafio de
esquematizar o que seria um ecossistema Big Data. A descrição mais básica de um
sistema de geração de conhecimento a partir de dados digitais seria: a partir de dados
armazenados, aplicamos tecnologias de processamento cujas informações geram
insights para os tomadores de decisão (ZUPPO, 2013)..
Portanto, a importância do BI e Big Data, no planejamento estratégico
começam a ser sentida a partir do momento em que a pequena e média empresa
14
adotam uma postura de trabalho mais voltada à gestão da informação. Somente com
informação íntegra e confiável é possível criar estratégias que atendam melhor seus
clientes e colocar a empresa em um patamar de competitividade mais lucrativo. Com
as ferramentas distribuídas sob a filosofia do software livre, as pequenas e médias
empresas passam a se beneficiar da utilização dessa tecnologia, reduzindo seu custo de
implantação.
1.3 OBJETIVO GERAL
O objetivo geral desse trabalho é os mostrar os conceitos para a viabilidade
de desenvolvimento de um Data Warehouse integrada à Big Data, a partir de um
conjunto de ferramentas distribuídas como software livre.
1.4
OBJETIVOS ESPECÍFICOS
Os objetivos específicos desse trabalho são:
a) Descrever os conceitos de um Data Warehouse e Big Data
b) Definir um pacote de software livre que pode ser utilizado para
desenvolvimento de Data Warehouse e Big Data;
1.5
METODOLOGIA
O presente trabalho de monografia para conclusão do curso foi dividido em
duas etapas. Inicialmente, tem-se uma visão geral do trabalho, na qual descreveu a
15
apresentação do tema, bem como os objetivos, a justificativa, o cronograma, a
metodologia e as referências bibliográficas.
Ainda na primeira etapa, foi realizado um levantamento bibliográfico em
que foram abordados os conceitos de Data Warehouse e Big Data, para inclusão em
projetos de software livre para construção de uma plataforma integrada e completa,
contemplando as tecnologias de Big Data e DW.
Na segunda etapa foi apresentado e dado ênfase para a plataforma Pentaho,
bem como a apresentação, configuração e instalação da mesma.
Ao final, espera-se contribuir para que os usuários finais adotem uma
postura de trabalho mais voltada à gestão da informação, com a informação íntegra e
confiável, criando estratégias e, ainda, colocando a empresa em um patamar de
competitividade lucrativo.
16
2
DATA WAREHOUSE
Neste capítulo é apresentada uma descrição geral do que é um Data
Warehouse (DW), juntamente com alguns conceitos relacionados. Entre os conceitos,
destacam-se a modelagem dimensional, aplicada na fase de projeto de um DW, o
processo de ETC (Extração, Transformação e Carga) e o OLAP (On-Line Analytical
Processing), que permite visualizar e analisar grandes quantidades de dados. As etapas
para a criação de um Data Warehouse também são discutidas, com alguns exemplos
ilustrativos.
2.1 CONCEITOS E CARACTERÍSTICAS DE DATA WAREHOUSE
Inicialmente, são analisadas algumas definições de Data Warehouse
elaboradas por especialistas da área. Segundo Inmon (1997), idealizador do conceito,
Data Warehouse “é uma coleção de dados integrados, orientados por assunto,
variáveis com o tempo e não voláteis, usados para dar suporte ao processo gerencial de
tomada de decisão”.
A partir da definição de DW feita por Inmon (1997) e vista anteriormente, é
possível encontrar as principais características de Data Warehouse, que são:
• Integrado - A integração dos dados ocorre quando os dados são passados
do ambiente transacional, através de diversas fontes de dados, para o
ambiente de DW. Todo dado trazido dos sistemas transacionais para o
ambiente de DW é, anteriormente, consolidado, de forma que passe a ter
um único significado;
• Orientado por assuntos - os dados do Data Warehouse são organizados
de modo a facilitar a análise dos dados, para isso o DW contém
informações orientadas a assuntos importantes para o negócio da empresa
(análise de vendas) e não por aplicação, como em bancos de dados
17
transacionais (aplicação de vendas);
• Variante no Tempo - os dados não são atualizáveis, ou seja, são relativos
a um determinado instante de tempo, o que proporciona o
armazenamento histórico dos dados;
• Não volátil – significa dizer que o Data Warehouse permite apenas a
carga inicial dos dados e consultas a estes dados, ou seja, após serem
integrados, transformados e incluídos, os dados não podem ser alterados.
2.2 MODELAGEM DIMENSIONAL
Nos bancos de dados relacionais, usados nos sistemas transacionais
tradicionais, a redundância dos dados é evitada, sendo aceita somente em
determinados casos em que é realmente necessária. Esta redundância é eliminada
através de processos de normalização. A normalização das tabelas traz benefícios nos
casos em que muitas transações são efetuadas, pois estas se tornam mais simples e
rápidas. No caso de Data Warehouses, ocorre o contrário, as transações operam sobre
um grande volume de dados e não são simples, nem freqüentes, não sendo conveniente
a normalização das tabelas, pois no ambiente de Data Warehouse ocorrem poucas
transações concorrentes e cada transação acessa um grande número de registros
(PERNAS, 2003).
Conforme Pernas (2003), outro ponto que distingue o banco de dados
relacional do Data Warehouse está relacionado à modelagem dos dados. Enquanto que
em um banco de dados relacional geralmente utiliza-se a modelagem Entidade–
Relacionamento (ER), em um DW utiliza-se de uma modelagem lógica denominada de
modelagem dimensional, também chamada de modelagem multidimensional. Assim,
modelagem dimensional é a técnica utilizada para se ter uma visão multidimensional
dos dados.
Segundo Kimball (1997), a modelagem dimensional “é uma técnica de
projeto lógico que busca apresentar os dados em uma estrutura padrão e intuitiva que
18
permite um acesso de alta performance”. Essa é uma técnica antiga usada para criar
bancos de dados simples e compreensíveis.
Um modelo dimensional é composto, basicamente, pela tabela de fatos e
pelas tabelas de dimensões (Figura 1). A tabela de fatos traz o resultado da consulta,
ou seja, os valores de medição representando transações ou eventos referentes aos
negócios da organização e que podem ser passíveis de análise. Uma dimensão pode
agregar sob nomes distintos, um conjunto de itens com características e posições
próprias, tais como meses e trimestres em relação a um período anual (FROZZA,
2006).
Figura 1 - Representação do modelo dimensional
(FONTE: SHIGUNOV, 2007)
Existem várias técnicas para fazer a modelagem dimensional, sendo as
principais: o modelo estrela (Star Schema), que se assemelha a uma estrela, e o modelo
floco de neves (Snow Flake).
Dominante no projeto de DW (KIMBALL, 1997), a modelagem
dimensional no modelo estrela possui as seguintes características:
• Distingue bem as dimensões dos fatos medidos;
• Simplifica a visualização dimensional;
• É eficiente para a realização de consultas;
• Acomoda mudanças mais facilmente.
19
A Figura 2 ilustra um esquema dimensional na forma de estrela para um
DW de vendas, com as dimensões tempo, região, produto, vendedor, cliente e as
medidas da tabela de fatos (valor das vendas, média das vendas).
Figura 2 - Representação do modelo estrela
No modelo floco de neves as tabelas de dimensão são normalizadas, evitam
redundância e requerem mais junções para as consultas (Figura 3).
Figura 3 - Representação do modelo floco de neves
20
De acordo com Barbieri (2001, p. 74), “a modelagem de dados é
seguramente um dos fatores críticos de sucesso num projeto de Data Warehouse, e
pode representar a fronteira entre o sucesso e o seu fracasso”.
Como o modelo relacional trabalha com normalização, suas tabelas
possuem menos registros e não têm redundâncias, apresentando assim uma melhor
performance nas tarefas do dia-a-dia, como inclusões, alterações e exclusões de
registros. Mas ele só é adequado para consultas simples de poucos registros. Para
análises mais complexas, com um universo de registros maior, o modelo dimensional
oferece uma melhor alternativa, economizando em junções com várias tabelas e
armazenando dados que facilitam a análise das informações (HOKAMA et al., 2004,
p. 32).
Para se elaborar um esquema dimensional deve-se levar em conta a
granularidade desejada para a análise. Granularidade se define como o nível com que
os dados estão sumarizados. O grão é o maior nível de detalhamento. O nível
adequado de granularidade deve ser definido de tal forma que atenda às necessidades
do usuário, tendo como limitação os recursos disponíveis (SHIGUNOV, 2007). A
granularidade afeta diversas características em um DW, como o número de diferentes
cruzamentos de dados que podem ser realizados, a infra-estrutura e o espaço em disco
necessário.
Uma dimensão de um cubo é uma coleção de hierarquias de membros,
organizados de maneira conveniente para análise. Um membro é um ponto em uma
hierarquia de uma dimensão, determinado por um conjunto particular de valores de
atributo. Um nível da hierarquia é uma coleção de membros que possuem a mesma
distância da raiz da hierarquia. Cada hierarquia de dimensão está associada a um
atributo da tabela de fatos (MACDONALD e RUBIK, 2007).
21
2.3 ETAPAS PARA A CRIAÇÃO DE UM DW
Kimball (1997) propõe nove etapas para a criação de um banco de dados
dimensional:
a) selecionar o processo de negócio a ser modelado - sendo um processo
executado na organização. Portanto, é importante não se referir a um
departamento ou função de negócio da organização, já que se trata do
processo do negócio. Um exemplo é um modelo dimensional único para
tratar de dados de pedidos, em vez de criar um modelo dimensional para
o departamento de vendas e um para o de marketing, em que ambos
desejam acessar dados de pedidos;
b) declarar o grão (nível de detalhes) do processo de negócio - declarar o
grão significa especificar exatamente o que uma linha da tabela de fatos
representa;
c) escolher as dimensões que se aplicam a cada linha da tabela de fatos quando não há dúvidas a respeito do grão, geralmente as dimensões
podem ser identificadas facilmente;
d) identificar os fatos numéricos que preenchem cada linha da tabela de
fatos - o interesse é analisar as medidas de desempenho do processo de
negócio. Todos os fatos candidatos em um projeto devem ser verdadeiros
para o grão definido na etapa da declaração do grão e fatos típicos são
valores numéricos aditivos, como quantidade vendida ou valor de custo;
e) armazenar os dados pré-calculados na tabela de fatos - para evitar
possíveis inconsistências para o usuário final, todos os dados calculados
são armazenados fisicamente na tabela de fatos;
f) fazer a carga das tabelas de dimensão - neste ponto, a tabela de fatos está
completa e o papel das tabelas de dimensão é fornecer entradas para a
tabela de fatos diretamente de atributos dimensionais;
g) preparar dimensões para suportar evoluções (mudanças) – verifica-se a
possibilidade de determinados valores de atributos das tabelas de
22
dimensões, os quais dificilmente sofrem alterações, necessitarem de
atualizações;
h) definir a amplitude de tempo do histórico do banco de dados - ou seja, a
duração do banco de dados. Esta escolha está relacionada com o período
de tempo da tabela de fatos no Data Warehouse, de acordo com o
processo de negócio da empresa;
i) definir o espaço de tempo com que os dados devem ser extraídos e
carregados no DW – define o intervalo de tempo do processo de extração
de dados dos sistemas transacionais e sua conseqüente carga no DW.
2.4 EXTRAÇÃO, TRANSFORMAÇÃO E CARGA
A etapa de ETC (Extração, Transformação e Carga) é uma das fases mais
críticas de um Data Warehouse, pois divide-se em três fases (BORTOLINI, 2008):
a) a fase de extração dos dados dos sistemas transacionais ou de outras fontes
(planilhas, arquivos e textos);
b) a fase de filtragem, que consiste basicamente em garantir a integridade dos
dados;
c) a fase de carga dos dados no Data Warehouse.
Quando os dados são copiados de sistemas transacionais para o ambiente de
Data Warehouse parece que nada além de simples extrações de dados de um local para
outro está ocorrendo. Em virtude desta enganosa simplicidade, muitas vezes as
empresas acabam perdendo tempo e dinheiro por ter que refazer toda esta parte de
extração. A etapa de ETC tem influência em quase todas as nove etapas de criação de
um DW definidas na seção anterior.
A extração de dados do ambiente operacional para o ambiente de Data
Warehouse demanda uma mudança na tecnologia, pois, muitas vezes, os dados são
23
transferidos de um banco de dados hierárquico, para uma nova tecnologia de SGBD
(Sistema Gerenciador de Banco de Dados) para DW (BORTOLINI, 2008).
Os bancos de dados transacionais armazenam as informações das transações
diárias da empresa. São utilizados por todos os funcionários para registrar e executar
operações pré-definidas, por isso seus dados podem sofrer constantes mudanças. Por
não ocorrer redundância nos dados e as informações históricas não ficarem
armazenadas por muito tempo, este tipo de banco de dados não exige grande
capacidade de armazenamento (BORTOLINI, 2008).
Um DW, por sua vez, armazena dados analíticos, destinados às
necessidades da gerência no processo de tomada de decisões. Isto pode envolver
consultas complexas que necessitam acessar um grande número de registros. Um DW
armazena informações históricas de muitos anos e por isso deve ter uma grande
capacidade de processamento e armazenamento dos dados, os quais se encontram em
dois formatos: detalhados e resumidos (BORTOLINI, 2008).
A seleção de dados do ambiente operacional pode ser muito complexa, pois,
em geral, é necessário selecionar vários campos de um sistema transacional para
compor um único campo no Data Warehouse (por exemplo, o percentual de
lucratividade, que é dado pelo valor do custo sobre o valor da venda), ou integrar
campos de vários sistemas transacionais em um campo com representação única no
DW (por exemplo, um campo representando o sexo de uma pessoa). Ainda, os dados
podem ser reformatados, por exemplo: um campo data do sistema transacional, do tipo
DD/MM/AAAA, pode ser exportado para o outro sistema com o tipo ano e mês como
AAAA/MM/DD (BORTOLINI, 2008).
Podem existir várias fontes de dados diferentes para compor uma
informação, que pode ser oriunda de uma planilha Excel, por exemplo, enquanto uma
outra informação que serve para compor um mesmo fato vem de um arquivo texto.
Quando há vários arquivos de entrada, a escolha das chaves deve ser feita
antes que os arquivos sejam intercalados. Isso significa que, se diferentes estruturas de
chaves são usadas nos diferentes arquivos de entrada, então se deve optar por apenas
uma dessas estruturas (BORTOLINI, 2008). Os arquivos devem ser gerados
obedecendo a mesma ordem das colunas estipuladas no ambiente de Data Warehouse.
24
Pode haver vários resultados e dados podem ser produzidos em diferentes níveis de
resumo pelo mesmo programa de criação do Data Warehouse.
Valores padrões devem ser fornecidos. Às vezes pode existir um campo no
Data Warehouse que não possui fonte de dados. Então, a solução é definir um valor
padrão para estes campos.
Após a definição de como devem ficar os dados no Data Warehouse, há a
necessidade de filtragem dos dados para colocá-los no padrão definido. Por exemplo,
em um sistema transacional, o campo de sexo é preenchido como F ou M, e em um
outro sistema este mesmo dado é preenchido com 0 ou 1. É justamente nesta hora que
entra a parte de filtragem, que é transformar os dados para um padrão definido, que no
exemplo pode ser F ou M.
2.5 ON-LINE ANALYTICAL PROCESSING - OLAP
On-Line Analytical Processing (OLAP) significa analisar uma grande
quantidade de dados para dar suporte ao processo decisório através de consultas ou
análises feitas por analistas, gerentes e executivos. OLAP está associado à interface de
consulta de dados no DW. O termo on-line implica que, até mesmo com a grande
quantidade de dados envolvida, tipicamente muitos milhões de registros, ocupando
muitos gigabytes, o sistema deve responder às consultas (queries) rápidas o suficiente
para permitir uma exploração interativa dos dados (MACDONALD e RUBIK, 2007).
OLAP emprega uma técnica chamada Multidimensional Analysis, ou
Análise Multidimensional. Enquanto um banco de dados relacional armazena todos os
dados na forma de linhas e colunas, um conjunto de dados multidimensional consiste
em eixos e células (MACDONALD e RUBIK, 2007).
As ferramentas OLAP permitem aos usuários analisar os dados em
dimensões múltiplas, como produto, tempo e vendedor. Cada dimensão pode conter
hierarquias, por exemplo, a dimensão tempo pode conter as hierarquias ano, mês e dia.
Os dados nestas dimensões são agregados, ou seja, são resumidos, mas pode-se
25
navegar livremente de uma hierarquia para outra, até se chegar à máxima
granularidade dos dados.
2.6 OPERAÇÕES BÁSICAS EM DATA WAREHOUSE
Em um sistema de Data Warehouse, as principais operações disponíveis nas
interfaces OLAP são:
• Drill Down
A operação Drill Down é utilizada para solicitar uma visão mais
detalhada de um conjunto de dados. Conforme Machado (2004), quando
o usuário aumenta o nível de granularidade, diminui o nível de
detalhamento da informação, como mostra a Figura 4.
• Drill Up
Conforme Machado (2004), com a capacidade de Drill up o usuário pode
navegar do nível de maior detalhe até o mais alto nível de maior
sumarização de dados.
Figura 4 - Drill-Down
26
Fonte: CARUSO - 2007
Figura 5 - Drill Up
Fonte: CARUSO - 2007
• Slice and Dice
A tradução livre é corte e picadinho. Possibilita selecionar apenas uma
parte do cubo para análise dos dados.
São operações para realizar a navegação dos dados na visualização de um
cubo. Slice and Dice significa, em uma forma simplista, a redução do
escopo dos dados em análise, além de mudar a ordem das dimensões,
mudando desta forma a orientação segundo a qual os dados são
visualizados (MACHADO, 2004).
Figura 6 - Slice and Dice
Fonte: CARUSO - 2007
27
2.7
CONCLUSÃO
Para a elaboração de um Data Warehouse é de extrema importância ter
conhecimento de sua estrutura e seus recursos. Com este capítulo, pode-se ter noção
dos conceitos, características, e etapas para o desenvolvimento de um sistema de BI –
Business Intelligence, no caso específico, um Data Warehouse.
Observa-se a necessidade de seguir algumas regras para desenvolver um
DW, as quais são: planejamento, obtenção da fonte de dados, modelagem dimensional,
extração, transformação e carga dos dados e, por fim, as operações básicas em
interfaces OLAP Drill Down, Drill Up e Slice and Dice, importantes para que o
usuário saiba utilizar os recursos de navegação e detalhamento, sumarização das
granularidades e enfim, a disponibilização dos dados para análise e posterior validação
do usuário final.
No caso desta monografia, este capítulo representa a fase de estudos sobre
os conceitos e processos de desenvolvimento de um DW.
28
3
BIG DATA
Neste capítulo mostraremos uma ideia geral sobre o novo conceito chamado
Big Data, além de técnicas e ferramentas para extração de um grande volume de
dados.
O capítulo está organizado da seguinte forma, inicialmente será abordado os
conceitos de Big Data, em seguida será tratado o futuro dessa técnica. Após isso
explicaremos como o mundo empresarial anda fazendo com a utilização do Big Data,
por fim as considerações finais.
3.1 CONCEITOS E MERCADO COM BIG DATA
Já pensou uma situação onde dados de uma loja virtual que vende tanto para
o Brasil como para o exterior, rodando numa plataforma que não suporte nem metade
das informações contida em seu banco de dados, e ainda seu retorno e extração deveria
ser em tempo real?
Há alguns anos atrás o mercado sofria com essas situações apesar de que
seu volume de dados não era tão imenso como é hoje. Com tantas informações para
serem gerenciadas as empresas terão que buscar um modo de lidar com essa montanha
de informações e coletar apenas os dados de valor para os negócios. Um estudo foi
feito recentemente pela Oracle informavam que a falta de controle de dados faz as
empresas perderem em média 14% de seu faturamento.
Um bom exemplo mesmo é a bolsa de valores que antigamente, mesmo
possuindo grandes dados, fazia suas transações de negócios na própria bolsa, em cada
cidade de todos os pais, o famoso pregão viva-voz. Hoje essas transações são cada vez
mais realizadas em tempo real. O mercado está cada dia mais consciente que
informação é tudo para os negócios, investir em dados está dando a muitas empresas
grandes retorno financeiro e a visão de como interagir com esses dados tirando
29
proveito dos mesmos. Hoje as corretoras se organizam e possuem ferramentas que tem
o objetivo de gerenciar e retornar dados que darão um norte aqueles que pretendem
investir.
Abaixo a Figura 07 retirada do site visual.ly mostra como o Big Data pode
mapear grande informações e apresentá-los de forma simples ao mundo.
Figura 7 – Imagem mostra como Big Data pode dar retorno através de dados sobre o
mercado.
Fonte: VISUAL. LY – 2012.
O Business Intelligence já era bem chamativo para o setor de análise de
dados e negócios quando o Big Data apareceu se mostrando bem mais atrativo e
rápido para as respostas, que necessitavam de maior precisão em seu retorno. Hoje no
século 21 “Inteligência de Negócio” é o carro chefe tanto para o mundo Business
Intelligence como para o mundo de TI. Na feira CeBit na Alemanha o Big Data foi
mostrado como o mais novo meio de pesquisa de negócios, como no filme Moneyball
com Brad Pitt onde ele usa ferramentas e o conceito do Big Data para coletar dados
com o objetivo de formar o melhor time de beisebol, assim popularizando a ideia.
30
3.2
GRANDES VOLUMES DE DADOS
Em 2014, durante a Copa do Mundo, o Big Data foi utilizado, mostrando
como o método de extração e análise de dados, esta cada vez mais tomando espaço no
mercado, a metodologia que pode prever os negócios. Também usado nos Jogos
Olímpicos o método está crescendo cada vez mais.
Hoje a busca por cientista de dados esta imensa, salários altíssimos para
esses profissionais.
Em reportagem do jornal O Globo, o executivo de operações da EMC, Pat
Gelsinger, afirmou que o mercado global de Big Data já movimenta US$ 70 bilhões
por ano. (DARROW, 2012, s/p)
Muitas novas ferramentas foram criadas para à utilização desses métodos de
análise de grandes dados, no Vale do Silício várias empresas criam projetos que
procuram imitar a eficaz ferramenta de análise de dados construído pelo Google que
usa a metodologia do Big Data.
3.3
BIG DATA E O FUTURO
Como foi dito anteriormente o acúmulo de dados tem sido imenso de uns
tempos para cá e nos últimos anos esse volume absurdamente cresceu. Com estudos e
pesquisa de que isso seria um problema empresas como Yahoo, Amazon, Intel, IBM e
outros se dedicaram a essa solução, tanto para aumento financeiro como inovação de
mercado.
A Amazon que oferece um conjunto de serviços baseados em Cloud
Computing como o seu Amazon Web Services (AWS) e Amazon Elastic MapReduce,
torna mais fácil e econômico aos clientes extrair e processar informações de grandes
volumes de dados, volume esse que é através do AWS, tem a análise de mapeamento,
análise de dados de serviços e análise de logs da web, principalmente, entre outros.
31
Abaixo matéria tirada da ComputerWorld Blakeley mostra os investimentos dessa
técnica.
A Mazda Motor Corp, que possui 900 revendedores e 800 funcionários nos EUA,
gerencia cerca de 90 terabytes de dados. O arquiteto de infraestrutura das operações
da Mazda na América do Norte, Barry Blakeley, diz que as unidades de negócios e
os revendedores estão gerando quantidades cada vez maiores de arquivos de dados
analíticos, materiais de marketing, bases de dados para inteligência de negócios,
dados do Microsoft SharePoint e muito mais. "Temos tudo virtualizados, incluindo o
armazenamento", afirma Blakeley. (BRANDON,2011, s/p)
Recentemente o Yahoo e o Facebook investiram na análise de grande dados
e adotou um serviço em uma nova plataforma chamada Continuuity, sendo em nuvem
é um ambiente de desenvolvimento em tempo de execução que fica em cima da
infraestrutura do Hadoop e abstrai a complexidade de escrever apps. Abaixo a Figura
08 mostra a interface dessa ferramenta que tem como objetivo extrair grandes
informações geradas por essas redes sociais. (HARRY, 2015)
Figura 8 - Face do sistema Continuuity – EUA – 2012.
Fonte: CONTINUUITY – 2012.
Mas é a IBM que está investindo pesado, já tem um web site educacional
com direito a vídeo aulas, material, downloads das ferramentas e certificações,
mostrando como o Big Data funciona e as ferramentas utilizadas. A buscar por
grandes dados de forma organizada estão aumentando cada vez mais entre as
empresas, como é o caso da Terada, HP, Walmart, Google e muitos outros gigantes
que estão aproveitando essa febre.
32
3.4
EMPRESAS E OS DADOS
Tanto o BigSheets, Hadoop e o MapReduce são excelentes ferramentas
utilizadas para o levantamento de grandes dados. Em diversos sistemas, como as
cotações da bolsa, são gigantescas, precisando muitas vezes ser simples de ser
analisada, o Big Data já foi recomendando para ser utilizado na área de cotações da
bolsa, mas por falta de profissionais na área encontrasse só em especulações.
Com o Hadoop é possível iniciar uma busca organizada por esses valores
colocando palavras chaves, retornando com isso algumas informações que ainda pode
ser peneirada para um melhor entendimento. No caso do BigSheets essas respostas são
bem mais rápidas e eficientes buscando através do twitter ou facebook dados
estatísticos para ser aplicado no negocio.
Um dos módulos interessantes das ferramentas do Big data é o bubble chart
‘gráfico de bolhas’ ele mostra de uma forma bem macro todas as informações
desejadas e uma visão de como será aplicadas, pode passar o mouse sobre cada bolha
para ver o que os projetos têm e quanto eles valem. Abaixo um exemplo do bubble
chart é a Figura 09, que mostra resultados obtidos através do BigSheets.
Figura 9 - Bubble Chart sobre educação e professores nos EUA – 2009.
Fonte: OUSEFUL.INFO – 2009.
33
3.5
CONCLUSÃO
Os conceitos vistos para a elaboração desse trabalho foram técnica de
mapeamento de análises, as ferramentas open source usadas nesse processo, como o
meio empresarial está aceitando a ideia e qual as vantagens que essa nova metodologia
está trazendo para os negócios, tornando assim mais fácil a buscar por informações.
Os resultados encontrados através da busca feita pelas ferramentas que
rodam o Hadoop em sua plataforma trouxeram em formas de gráficos e números
dados que antes não tinham um retorno tão direto e tão rápido, utilizado anteriormente
pelas ferramentas Business Intelligence.
Mesmo essa técnica sendo nova, existe muitas empresas que estão
começando a buscar informações sobre o Big Data e o valor que os dados têm para os
negócios, fazendo com que seja fácil disseminar essa ideia tanto no Brasil como em
outros países. Quando começarmos a utilizar essa técnica para buscar informações do
dia a dia de alguma empresa, fazendo uma avaliação de simples palavras, cruzando
assim dados e disponibilizando informações sobre qual empresa será mais viável para
investir e uma previsão sobre o futuro da empresa que estiver em análise.
O Big Data se for usado de maneira correta, permite também aos analistas
identificar tendências e dá ideias de nicho que ajudam a criar valor e inovações muito
mais rápido do que os métodos convencionais.
34
4
PLATAFORMA PENTAHO
Neste capítulo é apresentada uma descrição geral da plataforma Pentaho,
juntamente com algumas definições e processos. Logo após, é abordado como pode ser
obtida e sua licença de uso. Ainda, descreve-se a arquitetura do Pentaho, sua
instalação, como funciona o Mecanismo de Solução e os demais componentes que
formam a arquitetura.
4.1 PROCESSOS E DEFINIÇÕES
A plataforma Pentaho é um conjunto de software open source para criação
de soluções de BI (Business Intelligence) e Big Data. Ela possui ferramentas para
atender ao processo de criação de soluções de BI de ponta-a-ponta, integrada à uma
gama de opções para banco de dados e outras ferramentas. (TEMATEC, 2008)
Quando uma organização precisa tomar uma decisão é indispensável ter
dados corretos e disponíveis para consulta. Para conseguir isso, ela deve tratar e
consolidar as informações armazenadas nos sistemas e fontes de dados que apóiam seu
negócio em um repositório centralizado, criando “uma única versão da verdade”,
limpa e confiável (processo ETC). Depois, pessoas que entendem do negócio da
empresa devem ter acesso a esse repositório e, usando ferramentas de visualização e
exploração de dados, interpretá-los para finalmente tomar uma decisão (TEMATEC,
2008).
O conjunto destes componentes de softwares, dados, operações e processos
usados para atender uma necessidade específica, para tomar uma decisão, são
chamados de solução.
A Pentaho Inc. integrou e promoveu o desenvolvimento de várias
ferramentas open source que fornecem os recursos necessários para criação de
soluções de BI e Big Data. Esse conjunto é conhecido por Pentaho Open BI Suite e
35
inclui ferramentas para consolidar dados de fontes diversas, criar interfaces visuais
para exploração desses dados e montar soluções para necessidades específicas
(TEMATEC, 2008).
4.2 LICENÇAS E FORMAS DE OBTENÇÃO DO PENTAHO
A plataforma Pentaho é distribuída como código aberto, através da Licença
Pública da Pentaho (PPL - Pentaho Public License). A PPL é uma licença para
software livre de código aberto, similar à Licença Pública do Mozilla (versão 1.1)
(PENTAHO, 2015).
A plataforma Pentaho pode ser baixada gratuitamente, através do endereço
http://www.sourceforge.net/projects/pentaho. Existem várias versões disponíveis.
Através do endereço http://www.pentaho.org pode-se ter acesso a um wizard que ajuda
a determinar a versão correta para cada caso.
Para iniciantes, é recomendável fazer o download de uma versão de
demonstração. Estas versões incluem uma aplicação pré-configurada em um servidor
Jboss, juntamente com alguns exemplos e dados em um servidor Sun Microsystems
JRE.
4.3 ARQUITETURA
O projeto Pentaho BI é constituído de um conjunto completo de
ferramentas de BI e bibliotecas que fornecem funcionalidades de BI aos
desenvolvedores. É uma solução com suporte a relatórios, análises, data mining,
workflow e big data através de uma série de componentes que podem ser distribuídos
juntos ou separados (PENTAHO, 2015).
36
O servidor roda de acordo com o padrão de servidores Java, tais como
Apache TomCat e JBoss. Ele utiliza um método de desenvolvimento, distribuição e
suporte que torna possível o modelo de negócios open source (PENTAHO, 2015).
A Figura 10 apresenta a arquitetura do Pentaho, a qual é composta por
componentes de integração de dados, infra-estrutura e apresentação dos dados e a
origem destes dados.
Figura 10 - Arquitetura do Pentaho BI
Fonte: PENTAHO - 2015
O Pentaho abrange, principalmente, as seguintes áreas de aplicação
(PENTAHO, 2015):
• Relatórios (Reporting): Fornece desde simples relatórios em uma página
web, até relatórios de alta qualidade, tais como relatórios de indicações
financeiras e relatórios ricos em conteúdos, como tabelas, gráficos, entre
outros;
• Análises (Analysis): Permite consultas, exploração interativa com
operações slice-and-dice, drill-down e pivoting. Inclui front-end gráfico
para exploração dos cubos OLAP;
• Painéis (Dashboards): Reúne relatórios, análises e outras exposições em
um único local para simplificar o acesso, podendo ser customizado por
37
usuário ou assunto;
• Data mining: Descobre relacionamentos ocultos nos dados, que podem
ser utilizados para otimizar os processos de negócio e prever resultados
futuros. Permite que os resultados sejam exibidos em um formato de fácil
entendimento ao usuário;
• Workflow: Liga diretamente as medidas de desempenho de negócio aos
processos, promovendo um ciclo contínuo de melhorias.
• Big Data: Fornece algumas ferramentas de desenvolvimento que
permitem extrair e preparar os dados para que analistas de dados e
negócios possam tomar decisões.
Todos os componentes da plataforma são de código aberto. O projeto
Pentaho BI oferece uma solução que pode ser utilizada por desenvolvedores Java, os
quais podem utilizar os componentes do projeto para montar rapidamente soluções BI
sob medida. O Pentaho pode ser utilizado por empresas desenvolvedoras de software
para adicionarem as funcionalidades de BI em seus produtos. O projeto pretende,
ainda, permitir que usuários finais tenham acesso a soluções de BI com a qualidade
dos softwares comerciais tradicionais, porém com um custo bem mais acessível.
4.4 INSTALAÇÃO
A instalação pré-configurada (biserver-ce-5.0.1-stable), usada neste
trabalho, é uma instalação completa de servidor, projetada para avaliar as
características da plataforma de BI Pentaho. A suíte disponibiliza um servidor de
aplicação pré-configurado, bases de dados de aplicação pré-povoadas, dados de
amostra e exemplos plenamente funcionais. Há uma versão do PCI que inclui o Java
Runtime Environment (JRE) também.
O desempenho desta instalação depende de muitos fatores, mas ela deve
executar sem problemas em quase todas as plataformas e configurações.
38
O processo de instalação é bastante simples:
• Cria-se uma nova pasta no disco rígido, selecionando-se um nome e
localização, preferencialmente na raiz do disco;
• Assegura-se
que
o
diretório
contenha
espaço
suficiente
(aproximadamente 1GB);
• Utiliza-se uma ferramenta de descompactação para extrair na nova pasta
os arquivos copiados;
• Para executar o PCI usa-se o arquivo start-pentaho.bat e aguarda-se a
inicialização. Deve aparecer na tela a mensagem “[STDOUT] [pt_47]
Pentaho BI Platform server is ready” (Figura 11);
Figura 11 - Inicialização do Pentaho BI Plataform
• Abre-se o browser e informa-se o endereço http://localhost:8080;
• Seleciona-se o usuário Admin e senha Password (Figura 12);
39
Figura 12 - Login Pentaho
• Escolhe-se no botão Browse Files a opção Public, e após isso, Steel
Wheels, que contém alguns exemplos (Figura 13);
Figura 13 - Menu Solutions
• Deve-se escolher Dashboards, no qual há um exemplo disponível para
visualização (Figura 14).
40
Figura 14 - Visualização do exemplo disponível
41
5
CONCLUSÔES E TRABALHOS FUTUROS
As contribuições deste trabalho acadêmico consistem no estudo de uma
tecnologia existente para o auxílio às empresas que têm limitações no
desenvolvimento de aplicações para a tomada de decisão. Com a suíte de ferramentas
Pentaho, o desenvolvedor pode criar aplicações completas para Business Intelligence e
Big Data.
As contribuições de cunho social baseiam-se no fato de que este estudo
serve como base para a disseminação de tecnologias de software livre, tanto para
conhecimento e construção de um Data Warehouse, quanto para adquirir
conhecimento e criação da nova tecnologia de Big Data em pequenas empresas no
Brasil e para o domínio da mesma, além da redução no seu custo.
Diante deste cenário, foi descrito alguns conceitos sobre Data Warehouse,
também foi descrito sobre Big Data, e sobre todo o ecossistema a qual faz parte dentro
da novíssima Ciência das Redes, bem como a plataforma Pentaho, um software livre
capaz de coletar, consolidar e analisar informações referentes às práticas institucionais
que possam futuramente servir de base para uma melhor compreensão e um melhor
planejamento de qualquer empresa interessada em desenvolver um DW ou Big Data.
Os objetivos específicos propostos para o trabalho foram alcançados. Foi
apresentada a plataforma Pentaho BI, com a descrição de sua arquitetura e as
tecnologias que compõe esta suíte.
Como alternativas de trabalhos futuros, sugere-se aplicar os conhecimentos
aqui apresentados e aprofundar o conceito de Ciência das Redes, aplicarem em um
caso de empresa real, com o objetivo de validar as informações que podem ser obtidas
com o uso de um Data Warehouse e Big Data.
Para estudos mais avançados, a plataforma Pentaho BI também
disponibiliza ferramentas para a realização de processos de mineração dos dados (Data
Mining). O estudo destas ferramentas abre outras frentes para descoberta do
conhecimento em bancos de dados corporativos.
42
REFERÊNCIAS
BARBIERI, C. Business Intelligence: modelagem e tecnologia. Rio de Janeiro: Axcel
Books, 2001.
BORTOLINI, A. L. de. Um projeto de data warehouse. Disponível em:
<http://materdei.ceicom.com.br >. Acessado em: 15 dez. 2015.
HOKAMA, D. D. B. et al. A modelagem de dados no ambiente Data Warehouse.
2004. 121 f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de
Informação) – Faculdade de Computação e Informática, Universidade Presbiteriana
Mackenzie.
DARROW, BARB, Amazon Launches home-grown NoSQL database, Disponível
em: <http://gigaom.com/cloud/amazon-launches-home-grown-nosql-database>.
Acessado em: 20 dez. 2015.
DATAMIND TECHNOLOGY CENTER. Agent network technology. Disponível em:
<http://datamindcorp.com/paper_agetnetwork.html>. Acessado em: 02 dez. 2015.
HARRY, D. For now, Sparks looks like the future of big data. Disponível em:
<https://gigaom.com>. Acessado em: 20 dez. 2015.
HEINRICHS, J. H.; LIM, J. Integrated web-based data mining tolls with business
models for knowledge management. Decision Support Systems, v. 35, n. 1, p. 103112, 2003.
HOKAMA, D. D. B. et al. A modelagem de dados no ambiente Data Warehouse.
2004. 121 f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de
Informação) – Faculdade de Computação e Informática, Universidade Presbiteriana
Mackenzie.
INMON, W. H. Como Construir o Data Warehouse. Rio de Janeiro: Campus, 1997.
387 p.
KIMBALL, R. Data Warehouse Toolkit. São Paulo: Makron Books, 1997. 388 p.
MACDONALD, G. C.; RUBIK, J. R. Pesquisa e seleção de ferramentas livres e
baseadas em padrões de sistemas abertos para a elaboração de interfaces OLAP
sobre a web. 2007. 114 p. Trabalho de Conclusão de Curso (Bacharelado em Sistemas
de Informação) - Departamento de Informática e Estatística, Universidade Federal de
Santa Catarina, Florianópolis, 2007.
MACHADO, F. N. R. Tecnologia e projeto de Data Warehouse: uma visão
43
multidimensional. São Paulo: Érica, 2004. 318 p.
MICROSOFT. Microsoft Corporation. Disponível em: <http://www.microsoft.com>.
Acessado em: 01 dez. 2015.
SHIGUNOV, F. Uma Aplicação OLAP sobre a Web para Análise dos Dados do
Vestibular da UFSC e Diretrizes para a sua Integração com GIS. 2007. 88 f.
Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) Departamento de Informática e Estatística, Universidade Federal de Santa Catarina UFSC, Florianópolis.
TEMATEC. Por dentro da Pentaho Open BI Suite: Conceitos, Arquitetura e
Componentes. Disponível em: <http://br.groups.yahoo.com/group/pentahobr/>.
Acessado em: 05 dez. 2015.
TORRES, N. A. Competitividade empresarial com a tecnologia de informação.
São Paulo: Makron Books, 1995. 230 p.
ZUPPO, D. ; COSTA, L. S.; FERNANDES, S. Big Data: Estudo do Ambiente,
Desafios e Analise Estratégica para o Brasil. 2013. 56 f. Trabalho de Conclusão de
Curso (Pós-graduação em Engenharia de Produção) - COPPE, Rio de Janeiro.
44
BIBLIOGRAFIA COMPLEMENTAR
BALLARD, C.; HERREMAN, D. Data Modeling Techniques for Data
Warehousing. IBM, International Technical Support Organization, February, 1998.
BISPO, C. A. F. Uma Análise da Nova Geração de Sistemas de Apoio à Decisão.
1998. 174 f. Dissertação (Mestrado em Engenharia de Produção) - Departamento de
Engenharia da Produção, Universidade de São Paulo - USP, São Paulo.
GANTZ, D. R. J. Extracting Value from Chaos. Framingham, MA, 2011. Disponível
em: http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaosar.pdf. Acessado em: 20 dez. 2015.
FELBER, E. J. W. Proposta de uma ferramenta OLAP em um Data Mart
comercial: Uma aplicação prática na industria calçadista. 1997. 156 f. Trabalho de
Conclusão de Curso (Bacharelado em Ciência da Computação) – Instituto de Ciências
Exatas e Tecnológicas, Centro Universitário Feevale, Novo Hamburgo, 1997.
PENTAHO. Pentaho Open Source Business Intelligence. Disponível em:
<http://www.pentaho.com>. Acessado em: 12 dez. 2015.
Download