Laboratorio sobre Extracção Transformação e

Propaganda
Orientações sobre o laboratório de ETL.
Conteúdo
1. Introdução à ferramenta Pentaho.
2. Instalar e configurar o servidor da Suite de Business Intelligence Pentaho.
3. Kettle Spoon ETL - Transformação gráfica de um processo ETL de exemplo com a
ferramenta Spoon.
4. Schema Workbench. Exemplo de como criar un cubo .
Introdução à ferramenta Pentaho.
Pentaho é um software de código aberto para inteligência empresarial, desenvolvido em Java.
A solução cobre as àreas de ETL (Extraction, Transformation and Load), reporting, OLAP e
mineração de dados (data-mining). Desenvolvido desde 2004 pela Pentaho Corporation o
software foi considerado uma das melhores aplicações para inteligência empresarial em 2008
pela InfoWorld.
Instalar e configurar o servidor da Suite de Business Intelligence Pentaho.
Breve Entendimento:
Pentaho Administration Console (PAC): Configurador de banco de dados e permissões de
grupos e usuários.
Pentaho User Console (PUC): Interface gráfica e dinâmica de visualização do B.I, ou seja, é
onde o usuário terá acesso as suas informações com a visão desejada
1- Copia da pasta:
Após fazer o download da pasta disponibilizada, copie a pasta pentaho-training para um local
de sua preferência em sua máquina.
2- Instalação e configuração do Java:
Certifique-se que ten instalado o java. Se não.
Execute o arquivo dentro da pasta \pentaho-training\softwares-bi- opensource- training\javajdk\jdk-6u25-windows-i586.exe para instalar o java.
3- Certifique-se se as variáveis de ambiente do computador existem: Para verificar:
Botão direito em Meu computador -> Propriedades -> Configurações Avançadas -> Variáveis de
ambiente -> Variáveis do sistema -> Adicionar ou Alterar:
JAVA_HOME : Diretório do seu Java: No meu caso > C:\Program Files\Java\jdk1.7.0_45\
JRE_HOME : Diretório do seu JRE: No meu caso > C:\Program Files\Java\jdk1.7.0_45\JRE
Variável PATH -> Se não possuir a variável PATH, deve criar e adicionar o código do diretório do
Bin do seu Java, no meu caso: C:\Program Files\Java\jdk1.7.0_45\bin, e se acaso já existir,
deverá concatenar ao final da linha o diretório separado com ponto e vírgula. (Exemplo
imagem abaixo).
4- Criação da estrutura de pastas
4.1- Criar uma pasta chamada opt em C:.
4.2- Criar uma pasta chamada pentaho em C:\opt\
4.3- Criar uma pasta chamada biclient em C:\opt\pentaho\
5- Cópia e descompactação de arquivos para instalação
5.1- Instalação do Pentaho User Controller (PUC):
Copiar e descompactar (Utilizar a opção “Extrair Aqui”) o arquivo da pasta \pentahotraining\softwares-bi-opensource- training\sourceforge.net\pentaho\Business- IntelligenceServer\biserver-ce-4.8.0- stable.zip para a pasta C:\opt\pentaho\
5.2- Instalação do Pentaho Data Integration (PDI/KETTLE):
Copiar e descompactar (Utilizar a opção “Extrair Aqui”) o arquivo da pasta \pentahotraining\softwares-bi-opensource-training\sourceforge.net\pentaho\Data- Integration\pdi-ce4.4.0-stable.zip para a pasta C:\opt\pentaho\biclient
5.3- Instalação do Pentaho Schema Workbench – MONDRIAN (PSW):
Copiar e descompactar (Utilizar a opção “Extrair Aqui”) o arquivo \pentaho-training\softwaresbi-opensource-training\sourceforge.net\mondrian\psw-ce- 3.5.0.zip para a pasta
C:\opt\Pentaho\biclient
6- Configurações diversas
6.1 – No PSW – MONDRIAN há um momento que é necessário fazer a publicação do cubo
(pull) e para isto há uma senha que precisamos definir. Para definir esta senha altere o
seguinte arquivo: C:\opt\pentaho\biserver-ce\pentaho-solutions\system\publisher_config.xml
Dentro da tag colocar a nova senha <publisher-password></publisher-password>
6.2 – O PUC, funciona como padrão na porta 8080 (http://localhost:8080), porém esta porta é
bastante utilizada, então se acaso precisar mudar (recomendável), deve modificar dois
arquivos:
– C:\opt\pentaho\biserver-ce\tomcat\conf\server.xml
Alterar a porta em: <Connector URIEncoding=”UTF-8″ port=”8080″ protocol=”HTTP/1.1″
7- Inicialização das Ferramentas
7.1– Pentaho Administration Console (PAC)
Abrir o arquivo C:\opt\pentaho\biserver-ce\start-pentaho.bat
Abrir o arquivo C:\opt\pentaho\administration-console\start-pac.bat
Acessar localhost:8099 ou porta utilizada
Padrão: Login: admin / Senha: password
7.2– Pentaho User Controller (PUC)
Abrir o arquivo C:\opt\pentaho\biserver-ce\start-pentaho.bat
Abrir o arquivo C:\opt\pentaho\administration-console\start-pac.bat
Acessar localhost:8080 (ou porta definida nas configurações)
Padrão: Login: joe / Senha: password
7.3- Pentaho Data Integration (PDI) – KETTLE
Copiar o arquivo de conexão (mysql-connector-java-5.1.17.jar) MySQL para a pasta JDBC da
ferramenta para fazer possibilitar a conexão ao banco MySQL.
Abrir o arquivo C:\opt\pentaho\biclient\data-integration\spoon.bat
7.4- Pentaho Schema WorkBench (PSW) – MONDRIAN
Copiar o arquivo de conexão (mysql-connector-java-5.1.17.jar) MySQL para a pasta JDBC da
ferramenta para fazer possibilitar a conexão ao banco MySQL.
Abrir o arquivo C:\opt\pentaho\biclient\schema-workbench\workbench.bat
Download