Referências

Propaganda
Business Intelligence
Flávio Ceci
Créditos
Universidade do Sul de Santa Catarina | Campus UnisulVirtual | Educação Superior a Distância
Avenida dos Lagos, 41 – Cidade Universitária Pedra Branca | Palhoça – SC | 88137-900 | Fone/fax: (48) 3279-1242 e 3279-1271 | E-mail: [email protected] | Site: www.unisul.br/unisulvirtual
Reitor
Ailton Nazareno Soares
Vice-Reitor
Sebastião Salésio Heerdt
Chefe de Gabinete da Reitoria
Willian Corrêa Máximo
Pró-Reitor de Ensino e
Pró-Reitor de Pesquisa,
Pós-Graduação e Inovação
Mauri Luiz Heerdt
Pró-Reitora de Administração
Acadêmica
Miriam de Fátima Bora Rosa
Pró-Reitor de Desenvolvimento
e Inovação Institucional
Valter Alves Schmitz Neto
Diretora do Campus
Universitário de Tubarão
Milene Pacheco Kindermann
Diretor do Campus Universitário
da Grande Florianópolis
Hércules Nunes de Araújo
Secretária-Geral de Ensino
Solange Antunes de Souza
Diretora do Campus
Universitário UnisulVirtual
Jucimara Roesler
Equipe UnisulVirtual
Diretor Adjunto
Moacir Heerdt
Secretaria Executiva e Cerimonial
Jackson Schuelter Wiggers (Coord.)
Marcelo Fraiberg Machado
Tenille Catarina
Assessoria de Assuntos
Internacionais
Murilo Matos Mendonça
Assessoria de Relação com Poder
Público e Forças Armadas
Adenir Siqueira Viana
Walter Félix Cardoso Junior
Assessoria DAD - Disciplinas a
Distância
Patrícia da Silva Meneghel (Coord.)
Carlos Alberto Areias
Cláudia Berh V. da Silva
Conceição Aparecida Kindermann
Luiz Fernando Meneghel
Renata Souza de A. Subtil
Assessoria de Inovação e
Qualidade de EAD
Denia Falcão de Bittencourt (Coord.)
Andrea Ouriques Balbinot
Carmen Maria Cipriani Pandini
Assessoria de Tecnologia
Osmar de Oliveira Braz Júnior (Coord.)
Felipe Fernandes
Felipe Jacson de Freitas
Jefferson Amorin Oliveira
Phelipe Luiz Winter da Silva
Priscila da Silva
Rodrigo Battistotti Pimpão
Tamara Bruna Ferreira da Silva
Coordenação Cursos
Coordenadores de UNA
Diva Marília Flemming
Marciel Evangelista Catâneo
Roberto Iunskovski
Auxiliares de Coordenação
Ana Denise Goularte de Souza
Camile Martinelli Silveira
Fabiana Lange Patricio
Tânia Regina Goularte Waltemann
Coordenadores Graduação
Aloísio José Rodrigues
Ana Luísa Mülbert
Ana Paula R.Pacheco
Artur Beck Neto
Bernardino José da Silva
Charles Odair Cesconetto da Silva
Dilsa Mondardo
Diva Marília Flemming
Horácio Dutra Mello
Itamar Pedro Bevilaqua
Jairo Afonso Henkes
Janaína Baeta Neves
Jorge Alexandre Nogared Cardoso
José Carlos da Silva Junior
José Gabriel da Silva
José Humberto Dias de Toledo
Joseane Borges de Miranda
Luiz G. Buchmann Figueiredo
Marciel Evangelista Catâneo
Maria Cristina Schweitzer Veit
Maria da Graça Poyer
Mauro Faccioni Filho
Moacir Fogaça
Nélio Herzmann
Onei Tadeu Dutra
Patrícia Fontanella
Roberto Iunskovski
Rose Clér Estivalete Beche
Vice-Coordenadores Graduação
Adriana Santos Rammê
Bernardino José da Silva
Catia Melissa Silveira Rodrigues
Horácio Dutra Mello
Jardel Mendes Vieira
Joel Irineu Lohn
José Carlos Noronha de Oliveira
José Gabriel da Silva
José Humberto Dias de Toledo
Luciana Manfroi
Rogério Santos da Costa
Rosa Beatriz Madruga Pinheiro
Sergio Sell
Tatiana Lee Marques
Valnei Carlos Denardin
Sâmia Mônica Fortunato (Adjunta)
Coordenadores Pós-Graduação
Aloísio José Rodrigues
Anelise Leal Vieira Cubas
Bernardino José da Silva
Carmen Maria Cipriani Pandini
Daniela Ernani Monteiro Will
Giovani de Paula
Karla Leonora Dayse Nunes
Letícia Cristina Bizarro Barbosa
Luiz Otávio Botelho Lento
Roberto Iunskovski
Rodrigo Nunes Lunardelli
Rogério Santos da Costa
Thiago Coelho Soares
Vera Rejane Niedersberg Schuhmacher
Gerência Administração
Acadêmica
Angelita Marçal Flores (Gerente)
Fernanda Farias
Secretaria de Ensino a Distância
Samara Josten Flores (Secretária de Ensino)
Giane dos Passos (Secretária Acadêmica)
Adenir Soares Júnior
Alessandro Alves da Silva
Andréa Luci Mandira
Cristina Mara Schauffert
Djeime Sammer Bortolotti
Douglas Silveira
Evilym Melo Livramento
Fabiano Silva Michels
Fabricio Botelho Espíndola
Felipe Wronski Henrique
Gisele Terezinha Cardoso Ferreira
Indyanara Ramos
Janaina Conceição
Jorge Luiz Vilhar Malaquias
Juliana Broering Martins
Luana Borges da Silva
Luana Tarsila Hellmann
Luíza Koing Zumblick
Maria José Rossetti
Marilene de Fátima Capeleto
Patricia A. Pereira de Carvalho
Paulo Lisboa Cordeiro
Paulo Mauricio Silveira Bubalo
Rosângela Mara Siegel
Simone Torres de Oliveira
Vanessa Pereira Santos Metzker
Vanilda Liordina Heerdt
Gestão Documental
Lamuniê Souza (Coord.)
Clair Maria Cardoso
Daniel Lucas de Medeiros
Jaliza Thizon de Bona
Guilherme Henrique Koerich
Josiane Leal
Marília Locks Fernandes
Gerência Administrativa e
Financeira
Renato André Luz (Gerente)
Ana Luise Wehrle
Anderson Zandré Prudêncio
Daniel Contessa Lisboa
Naiara Jeremias da Rocha
Rafael Bourdot Back
Thais Helena Bonetti
Valmir Venício Inácio
Gerência de Ensino, Pesquisa e
Extensão
Janaína Baeta Neves (Gerente)
Aracelli Araldi
Elaboração de Projeto
Carolina Hoeller da Silva Boing
Vanderlei Brasil
Francielle Arruda Rampelotte
Reconhecimento de Curso
Maria de Fátima Martins
Extensão
Maria Cristina Veit (Coord.)
Pesquisa
Daniela E. M. Will (Coord. PUIP, PUIC, PIBIC)
Mauro Faccioni Filho (Coord. Nuvem)
Pós-Graduação
Anelise Leal Vieira Cubas (Coord.)
Biblioteca
Salete Cecília e Souza (Coord.)
Paula Sanhudo da Silva
Marília Ignacio de Espíndola
Renan Felipe Cascaes
Gestão Docente e Discente
Enzo de Oliveira Moreira (Coord.)
Capacitação e Assessoria ao
Docente
Alessandra de Oliveira (Assessoria)
Adriana Silveira
Alexandre Wagner da Rocha
Elaine Cristiane Surian (Capacitação)
Elizete De Marco
Fabiana Pereira
Iris de Souza Barros
Juliana Cardoso Esmeraldino
Maria Lina Moratelli Prado
Simone Zigunovas
Tutoria e Suporte
Anderson da Silveira (Núcleo Comunicação)
Claudia N. Nascimento (Núcleo Norte-
Nordeste)
Maria Eugênia F. Celeghin (Núcleo Pólos)
Andreza Talles Cascais
Daniela Cassol Peres
Débora Cristina Silveira
Ednéia Araujo Alberto (Núcleo Sudeste)
Francine Cardoso da Silva
Janaina Conceição (Núcleo Sul)
Joice de Castro Peres
Karla F. Wisniewski Desengrini
Kelin Buss
Liana Ferreira
Luiz Antônio Pires
Maria Aparecida Teixeira
Mayara de Oliveira Bastos
Michael Mattar
Patrícia de Souza Amorim
Poliana Simao
Schenon Souza Preto
Karine Augusta Zanoni
Marcia Luz de Oliveira
Mayara Pereira Rosa
Luciana Tomadão Borguetti
Gerência de Desenho e
Desenvolvimento de Materiais
Didáticos
Assuntos Jurídicos
Márcia Loch (Gerente)
Bruno Lucion Roso
Sheila Cristina Martins
Desenho Educacional
Marketing Estratégico
Cristina Klipp de Oliveira (Coord. Grad./DAD)
Roseli A. Rocha Moterle (Coord. Pós/Ext.)
Aline Cassol Daga
Aline Pimentel
Carmelita Schulze
Daniela Siqueira de Menezes
Delma Cristiane Morari
Eliete de Oliveira Costa
Eloísa Machado Seemann
Flavia Lumi Matuzawa
Geovania Japiassu Martins
Isabel Zoldan da Veiga Rambo
João Marcos de Souza Alves
Leandro Romanó Bamberg
Lygia Pereira
Lis Airê Fogolari
Luiz Henrique Milani Queriquelli
Marcelo Tavares de Souza Campos
Mariana Aparecida dos Santos
Marina Melhado Gomes da Silva
Marina Cabeda Egger Moellwald
Mirian Elizabet Hahmeyer Collares Elpo
Pâmella Rocha Flores da Silva
Rafael da Cunha Lara
Roberta de Fátima Martins
Roseli Aparecida Rocha Moterle
Sabrina Bleicher
Verônica Ribas Cúrcio
Rafael Bavaresco Bongiolo
Acessibilidade
Multimídia
Vanessa de Andrade Manoel (Coord.)
Letícia Regiane Da Silva Tobal
Mariella Gloria Rodrigues
Vanesa Montagna
Avaliação da aprendizagem
Portal e Comunicação
Catia Melissa Silveira Rodrigues
Andreia Drewes
Luiz Felipe Buchmann Figueiredo
Rafael Pessi
Gerência de Produção
Arthur Emmanuel F. Silveira (Gerente)
Francini Ferreira Dias
Design Visual
Pedro Paulo Alves Teixeira (Coord.)
Alberto Regis Elias
Alex Sandro Xavier
Anne Cristyne Pereira
Cristiano Neri Gonçalves Ribeiro
Daiana Ferreira Cassanego
Davi Pieper
Diogo Rafael da Silva
Edison Rodrigo Valim
Fernanda Fernandes
Frederico Trilha
Jordana Paula Schulka
Marcelo Neri da Silva
Nelson Rosa
Noemia Souza Mesquita
Oberdan Porto Leal Piantino
Sérgio Giron (Coord.)
Dandara Lemos Reynaldo
Cleber Magri
Fernando Gustav Soares Lima
Josué Lange
Claudia Gabriela Dreher
Jaqueline Cardozo Polla
Nágila Cristina Hinckel
Sabrina Paula Soares Scaranto
Thayanny Aparecida B. da Conceição
Conferência (e-OLA)
Gerência de Logística
Marcelo Bittencourt (Coord.)
Jeferson Cassiano A. da Costa (Gerente)
Logísitca de Materiais
Carlos Eduardo D. da Silva (Coord.)
Abraao do Nascimento Germano
Bruna Maciel
Fernando Sardão da Silva
Fylippy Margino dos Santos
Guilherme Lentz
Marlon Eliseu Pereira
Pablo Varela da Silveira
Rubens Amorim
Yslann David Melo Cordeiro
Avaliações Presenciais
Graciele M. Lindenmayr (Coord.)
Ana Paula de Andrade
Angelica Cristina Gollo
Cristilaine Medeiros
Daiana Cristina Bortolotti
Delano Pinheiro Gomes
Edson Martins Rosa Junior
Fernando Steimbach
Fernando Oliveira Santos
Lisdeise Nunes Felipe
Marcelo Ramos
Marcio Ventura
Osni Jose Seidler Junior
Thais Bortolotti
Gerência de Marketing
Eliza B. Dallanhol Locks (Gerente)
Relacionamento com o Mercado
Alvaro José Souto
Relacionamento com Polos
Presenciais
Alex Fabiano Wehrle (Coord.)
Jeferson Pandolfo
Carla Fabiana Feltrin Raimundo (Coord.)
Bruno Augusto Zunino
Gabriel Barbosa
Produção Industrial
Gerência Serviço de Atenção
Integral ao Acadêmico
Maria Isabel Aragon (Gerente)
Ana Paula Batista Detóni
André Luiz Portes
Carolina Dias Damasceno
Cleide Inácio Goulart Seeman
Denise Fernandes
Francielle Fernandes
Holdrin Milet Brandão
Jenniffer Camargo
Jessica da Silva Bruchado
Jonatas Collaço de Souza
Juliana Cardoso da Silva
Juliana Elen Tizian
Kamilla Rosa
Mariana Souza
Marilene Fátima Capeleto
Maurício dos Santos Augusto
Maycon de Sousa Candido
Monique Napoli Ribeiro
Priscilla Geovana Pagani
Sabrina Mari Kawano Gonçalves
Scheila Cristina Martins
Taize Muller
Tatiane Crestani Trentin
Universidade do Sul de Santa Catarina
Business Intelligence
Livro Digital
Palhoça
UnisulVirtual
2012
Copyright © UnisulVirtual 2012
Nenhuma parte desta publicação pode ser reproduzida por
qualquer meio sem a prévia autorização desta instituição.
Edição – Livro Digital
Professor Conteudista
Flávio Ceci
Coordenação de Curso
Vera Rejane Niedersberg Schuhmacher
Design Instrucional
Silvana Souza da Cruz Clasen
João Marcos de Souza Alves (2ª edição rev. e atual).
Projeto Gráfico e Capa
Equipe Design Visual
Diagramação
Daiana Ferreira Cassanego
Revisão
Diane Dal Mago
ISBN
978-85-7817-465-1
005.74
C38 Ceci, Flávio
Business intelligence : livro digital / Flávio Ceci ; design instrucional
Silvana Souza da Cruz Clasen ; João Marcos de Souza Alves. – Palhoça :
UnisulVirtual, 2012.
176 p. : il. ; 28 cm.
Inclui bibliografia.
ISBN 978-85-7817-465-1
1. Banco de dados. 2. Inteligência em negócios. 3. Tecnologia da
informação. 4. Sistema de informação gerencial. I. Alves, João Marcos de
Souza. II. Título.
Ficha catalográfica elaborada pela Biblioteca Universitária da Unisul
Flávio Ceci
Business Intelligence
Livro Digital
Designer instrucional
João Marcos de Souza Alves
2ª edição revista e atualizada
Palhoça
UnisulVirtual
2012
Sumário
5
Sumário
7
Apresentação
9
Palavras do Professor
11
Plano de estudo
15
Unidade 1
O poder da informação e do conhecimento nas organizações
45
Unidade 2
Colocando inteligência nos negócios
63
Unidade 3
Data Warehouse
95
Unidade 4
Descobrindo o conhecimento
131
Unidade 5
Processo OLAP
159 Para concluir os estudos
161
Minicurrículo
163 Respostas e comentários das atividades
de autoaprendizagem e colaborativas
169 Referências
Apresentação
Caro/a estudante,
O livro digital desta disciplina foi organizado didaticamente, de modo a oferecer a
você, em um único arquivo pdf, elementos essenciais para o desenvolvimento dos
seus estudos.
Constituem o livro digital:
•• Palavras do professor (texto de abertura);
•• Plano de estudo (com ementa, objetivos e conteúdo programático
da disciplina);
•• Objetivos, Introdução, Síntese e Saiba mais de cada unidade;
•• Leituras de autoria do professor conteudista;
•• Atividades de autoaprendizagem e gabaritos;
•• Enunciados das atividades colaborativas;
•• Para concluir estudos (texto de encerramento);
•• Minicurrículo do professor conteudista; e
•• Referências.
Lembramos, no entanto, que o livro digital não constitui a totalidade do material
didático da disciplina. Dessa forma, integram o conjunto de materiais de estudo:
webaulas, objetos multimídia, leituras complementares (selecionadas pelo
professor conteudista) e atividades de avaliação (obrigatórias e complementares),
que você acessa pelo Espaço UnisulVirtual de Aprendizagem.
Tais materiais didáticos foram construídos especialmente para este curso, levando
em consideração as necessidades da sua formação e aperfeiçoamento profissional.
Atenciosamente,
Equipe UnisulVirtual
Palavras do Professor
Bem-vindo caro aluno!
Na disciplina de Business Intelligence você terá a oportunidade de navegar por
vários conceitos das áreas de administração, sistemas de informação, banco de
dados, inteligência artificial e gestão de TI.
Inicialmente, são tratados os conceitos relacionados com dado, informação
e conhecimento, qual o papel de cada um desses itens e como eles podem
auxiliar na gestão de uma organização. Posteriormente, são vistos os conceitos
de sistema e depois, de maneira mais específica, sistemas de informação e,
especializando mais ainda, sistemas de apoio à decisão.
Percebe-se que as aplicações de business intelligence (BI) são, na verdade,
sistemas de apoio à decisão. Na unidade 2 são tratados com mais detalhes os
conceitos relacionados com BI, bem como suas características e usos.
A unidade 3 traz o tema Data Warehouse, que geralmente é utilizando como
repositório de dados para as aplicações de BI, mas também pode ser utilizado
em outros contextos organizacionais. Nesta unidade, também será estudada a
modelagem de dados dimensional e como ela pode trazer benefícios a sistemas
de apoio à decisão.
Na unidade 4 são abordadas as fases do BI, além de dar foco a algumas outras
áreas envolvidas, como por exemplo: descoberta de conhecimento e banco de
dados e descoberta de conhecimento em textos.
Por fim, são apresentados os conceitos relacionados com OLAP e como podem
ser consumidas as informações e os conhecimentos explicitados pela ferramenta
em questão.
Ótimos estudos!
Flávio Ceci
Plano de estudo
O plano de estudos visa a orientá-lo/a no desenvolvimento da disciplina. Possui
elementos que o/a ajudarão a conhecer o contexto da disciplina e a organizar o
seu tempo de estudos.
O processo de ensino e aprendizagem na UnisulVirtual leva em conta instrumentos que
se articulam e se complementam, portanto a construção de competências se dá sobre a
articulação de metodologias e por meio das diversas formas de ação/mediação.
São elementos desse processo:
•• o livro digital;
•• o Espaço UnisulVirtual de Aprendizagem (EVA);
•• as atividades de avaliação (a distância, presenciais e de autoaprendizagem);
•• o Sistema Tutorial.
Objetivo geral
As empresas devem tomar decisões em todos os níveis organizacionais e em
todas suas áreas de atuação. Ter informação precisa e de qualidade pode ser
a diferença entre tomar decisões certas ou não. Nesse sentido, a qualidade
da informação é um diferencial competitivo nas empresas. Apenas armazenar
dados sobre clientes, fornecedores, vendas, compras e colaboradores, não é o
suficiente. As organizações buscam a qualidade dos dados e sua transformação
em informações que gerem conhecimento dentro da empresa, apoiando o
processo de tomada de decisão. O objetivo da disciplina é trazer para o aluno
conhecimento sobre conceitos, arquitetura e componentes dos sistemas de
BI (Business Inteligence). Os sistemas de BI fornecem uma arquitetura com a
visão do analista de negócios, permitindo às organizações a transformação e a
extração dos dados coletados em seus sistemas de informação, em informação e
conhecimento, para auxílio ao processo decisório das organizações.
Ementa
Informação e decisão nas organizações. Dados, informação e conhecimento.
Sistemas de Informação nas organizações: sistemas transacionais e de apoio à
decisão. Arquitetura e componentes de uma solução de BI-Business Intelligence.
Data Warehouse: motivação, conceitos, definição e características.
Modelo Dimensional: fatos, dimensões, medidas e granularidade. Sistemas ETL:
extração limpeza, transformação e carga de um modelo dimensional. Área de
apresentação: características das técnicas analíticas (OLAP) como ferramentas de
apresentação e extração de informação.
Conteúdo programático/objetivos
A seguir, as unidades que compõem o livro digital desta disciplina e os seus
respectivos objetivos. Estes se referem aos resultados que você deverá alcançar
ao final de uma etapa de estudo. Os objetivos de cada unidade definem o
conjunto de conhecimentos que você deverá possuir para o desenvolvimento de
habilidades e competências necessárias a este nível de estudo.
Unidades de estudo: 5
Unidade 1 – O poder da informação e do conhecimento nas
organizações
Nesta unidade, é apresentada uma visão geral entre dado, informação e
conhecimento, quais as suas fronteiras e sua aplicabilidade. Após é visto o que são
sistemas de informação, qual a sua utilidade e como se pode classificá-los. Por fim,
é apresentada uma visão geral sobre os sistemas de apoio à decisão e como eles
podem agregar valor à camada gerencial das organizações.
Unidade 2 – Colocando inteligência nos negócios
Verifica-se que os sistemas de informação trazem muitos benefícios para uma
organização. Para a camada tomadora de decisão, a utilização de aplicações
de Business Intelligence tem sido cada vez mais comum. Nesta unidade, são
apresentados conceitos introdutórios sobre Business Intelligence e de que forma
eles auxiliam nas decisões estratégicas para uma organização.
Pós-graduação
Unidade 3 – Data Warehouse
Esta unidade é focada no estudo dos conceitos relacionados com os Data
Warehouse (DW), qual a sua participação numa aplicação de Business Intelligence
e como a modelagem de dados dimensional pode auxiliar na construção desse
tipo de repositório.
Unidade 4 – Fases do Business Intelligence
Na unidade 4, são apresentadas as fases do Business Intelligence, a diferença
do processo Knowledge Discovery in Database (KDD) e Knowledge Discovery
Text (KDT), e como esses processos podem auxiliar na etapa de tomada de decisão.
Unidade 5 – Processo OLAP
Na nossa unidade final é ilustrado o processo On-line Analytical Processing (OLAP),
que está focado no consumo das informações armazenadas e na apresentação
para os usuários do sistema de apoio à decisão.
Carga horária: 45 horas
Business Intelligence
Unidade 1
O poder da informação e do
conhecimento nas organizações
Objetivos de Aprendizagem
•• Compreender o papel da informação e do conhecimento como
facilitadores para a tomada de decisões e planejamento em organizações.
•• Entender em que âmbito a tecnologia contribui no processo de tomada
de decisões.
•• Diferenciar sistemas de informação dentro de um ambiente organizacional.
Introdução
Não é novidade que as organizações estão cada vez mais utilizando recursos
computacionais para auxiliar nas suas operações. Com o uso indiscriminado
dos computadores, gera‑se, diariamente, uma quantidade enorme de dados
estruturados (em banco de dados), semiestruturados (e‑mails, logs, entre outros)
e não estruturados (texto livre como, por exemplo: relatórios, manuais, artigos,
entre outros).
Esses dados, de maneira isolada, não trazem vantagens para o gerenciamento das
operações e tomada de decisão, mas servem como matéria‑prima para a geração
de informações. Os sistemas de informação vêm com esse propósito, entregar
informações organizacionais a partir dos dados armazenados.
Os sistemas de informação tradicionais são focados no apoio das operações de
uma organização, não trazendo vantagens diretas à camada tomadora de decisão,
tendo em vista essas carências, desenvolveu‑se um subtipo específico de sistemas
de informação, chamados de sistemas de apoio à decisão.
16
Dado, informação e conhecimento
Flávio Ceci
A cada dia mais e mais as pessoas estão produzindo dados de maneira involuntária,
seja efetuando compras, navegando pela internet, escutando músicas on‑line,
fazendo buscas em sites como Google, Yahoo e Bing, participando de redes sociais,
entre outras atividades. Esses dados de maneira bruta não revelam segredos,
apenas apresentam trajetórias e dados provenientes de operações, mas a partir
do seu processamento pode‑se chegar a valiosas informações.
Bill Tancer é um especialista em análise de dados do mundo virtual, em seu livro
Click, lançado no Brasil no ano de 2009 pela editora Globo, o autor apresenta sua
trajetória no mundo da análise de dados virtuais. A partir das consultas feitas em
sites de busca, Tancer demonstra como os dados gerados pelas buscas estão
diretamente relacionados com eventos atuais e como esses dados cruzados de
maneira correta podem apresentar tendências e indicadores.
Percebe‑se que o processamento do dado bruto gera a informação. Para
Fialho et al. (2006), dados são representações simbólicas para descrições de
atributos de qualquer nível. Segundo Pinheiro (2008), a camada de dados é
responsável pela existência dos sistemas transacionais, que tem como função
apoiar as operações da organização. Segundo Ceci (2010), há bastante tempo
as organizações utilizam seus dados operacionais para gerar informação que os
ajudem na etapa de tomada de decisão. Mas nunca se produziu tantos dados no
ambiente virtual como nos dias de hoje. O surgimento de uma série de dispositivos
que mantém cada vez mais as pessoas conectadas proporciona uma verdadeira
avalanche de novos dados por segundo.
Tendo esse cenário como atual, muitas empresas estão utilizando não apenas os
seus dados operacionais (dados provenientes de operações como, por exemplo,
uma venda ou compra de um determinado produto) e transacionais (dados em
nível de transação), mas também os disponíveis na web, como por exemplo,
textos publicados em microblogs, como o twitter, para identificar a opinião de
um grupo sobre um dos seus produtos ou serviços. Esses dados disponíveis na
web combinados com os internos da organização geram informações ainda mais
relevantes e estratégicas para a etapa da tomada de decisão.
Don Tapscott considerado por muitos como gênio das estratégias empresariais
em seu best‑seller Wikinomics, lançado em 2006, e escrito em parceria com seu
colega de trabalho Anthony D. Williams, fala sobre como a colaboração pode
auxiliar e muito as organizações. Nesse livro é apresentado um caso em que
uma organização tinha um problema que não conseguia encontrar uma solução
Pós-graduação
17
efetiva pelos seus engenheiros e pesquisadores, a alternativa encontrada foi abrir
os dados na internet e ofertar um prêmio para o pesquisador que conseguisse
resolvê‑lo, ou seja, processar o dado bruto, para gerar informação e conhecimento.
Segundo Fialho et al. (2006), informação é um conjunto de dados que são
processados corretamente e tornam‑se compreensíveis, ou seja, apresentem um
significado, criando padrões e acionando significados na mente dos indivíduos.
Percebe‑se que os dados estão relacionados diretamente com as operações de
uma organização ou de um indivíduo e estão armazenados na forma de bases
de dados transacionais. O processamento sobre eles gera as informações, como
por exemplo, no contexto de um sistema de controle de estoque, saber que
existe 10 unidades de um produto no depósito é um dado, agora, saber que se
a quantidade deste produto for inferior a 3 unidades, significa que está com o
estoque em baixa, é uma informação.
Segundo Fialho (2006), para que os dados se transformem em informação,
é necessário que as correlações entre os muitos fatos e suas implicações para
os indivíduos e para as organizações sejam evidenciados, ou seja, explicitados.
A Figura 1 ilustra a afirmação feita pelo autor:
Figura 1 - Transformando dados em informação
Fatos
Dados
X
Indivíduos
Processamento
X
Organização
Informação
Fonte: Fialho, 2006.
Vemos que a informação por si só não é apenas fato, instrução ou número de uma
tabela, informação é o significado expresso pelo ser humano, trazendo benefícios
à etapa de tomada de decisão (GOUVEIA; RANITO, 2004).
As análises dos dados nos levam até a informação, tecnologicamente, os sistemas
de informação fazem essa ponte, entregando para o usuário final informações
relevantes permitindo uma economia de tempo. O cenário a seguir apresenta uma
situação para ilustrar essas afirmações:
A UnisulVirtual é o campus da Universidade do Sul de Santa Catarina responsável por
todos os projetos e programas de ensino a distancia da UNISUL, contando com mais
de 12 mil alunos espalhados por todo o Brasil.
O poder da informação e do conhecimento nas organizações
18
Imagina‑se que todas as notas dos alunos estão armazenadas numa mesma tabela,
no banco de dados, como apresentado abaixo:
Tabela 1 - Tabela de relacionamento entre aluno e disciplina
codAluno
codDisciplina
prova1
prova2
prova3
Media
98413
2009412
10
9
9,5
9,5
87536
2007324
7
4
3
4,7
96784
2009413
6
8
7
7
...
...
...
...
...
...
Fonte: Elaboração do autor, 2012.
O campo codAluno equivale ao código de identificação do aluno numa tabela onde
são mantidos os dados relacionados com os alunos, como por exemplo, o seu nome,
seu telefone, nome dos seus pais, endereço, entre outras informações. O campo
codDisciplina representa o código identificador da disciplina numa tabela que
armazena as informações relacionadas com as disciplinas, outras informações
relevantes para essa tabela são: nome da disciplina, nome do curso que a contém,
qual semestre ela foi ministrada, entre outras informações.
Os campos prova1, prova2 e prova3 representam as três notas de provas feitas
pelos alunos da disciplina, o último campo representa a média aritmética das três
notas registradas.
Suponha‑se que a secretária do curso de Ciência da Computação gostaria de premiar
todos os alunos que possuem média superior a 9, se não existir um sistema de
informação, seria necessário que algum funcionário da secretaria identificasse quais
são as disciplinas que fazem parte do curso em questão e depois verificar todos os
registros da tabela aluno_disciplina que possuem o campo codDisciplina, equivalente
a um código de disciplina do curso e depois se a média apresentada é superior a 9.
Dessa maneira, o funcionário da secretaria está interagindo diretamente com os
dados da tabela. Agora, se a secretaria dispor de um sistema de informação que
possua um ambiente onde possa fazer cruzamento de informações e aplicar filtros,
facilmente será retornado um relatório com a informação solicitada.
Percebe‑se que a informação traz mais benefícios que os dados para a camada
tomadora de decisão de uma organização. Segundo Primak (2008), a informação
faz parte da base da construção do conhecimento. Para Fialho et al. (2006),
pode‑se definir conhecimento como um conjunto completo de informações,
dados e relações que auxiliam os indivíduos na tomada de decisão, à realização de
tarefas e a geração de novas informações e conhecimentos. Outra definição para
Pós-graduação
19
conhecimento, dada pelo autor é um conjunto de informações contextualizadas e
dotadas de semântica inerentes ao agente que o detém, e seu conteúdo semântico
se dará em função do conjunto de informações que o compõem, de suas ligações
com outras unidades de conhecimento e do processo de contextualização.
Para transformar informação em conhecimento não basta apenas a aplicação
de uma etapa de processamento (como no caso dos dados para a informação),
é necessário um processo de síntese por parte de quem está consumindo a
informação. Segundo Ghisi, Ceci e Sell (2011), a visualização de informação
participa diretamente do processo de aquisição (quando se acessa um
conhecimento já existente) e criação (que é permitido a partir da interpretação
das informações por parte do indivíduo). A Figura 2 apresenta essa transformação.
Figura 2 - Da informação ao conhecimento
Síntese
Processamento
Dados
Informação
Conhecimento
Fonte: Ghisi, Ceci e Sell, 2011.
Cada vez mais a informação e o conhecimento vêm desempenhando um papel
importante para as organizações. Atualmente, com a grande quantidade de
documentos digitais, e‑mails e dados em base de dados há uma fonte gigantesca
para a geração de informação e, posteriormente, para a descoberta e extração
de conhecimento.
As organizações que possuem atividades intensivas em conhecimento e que se
caracterizam por ter o conhecimento como fator de produção são chamadas
de organizações do conhecimento. Para Fialho (2006), pode‑se caracterizar
uma organização como do conhecimento quando ela é de base tecnológica
e de serviços que apresentam proporções ativas intangíveis, acima do seu
valor contábil. Segundo Ceci (2010), um problema bastante recorrente, nas
organizações ditas “organizações do conhecimento”, para trabalhar com o
conhecimento é como encontrá‑lo, recuperá‑lo, armazená‑lo e compartilhá‑lo
entre os seus membros.
A área da gestão do conhecimento nasce com a missão de auxiliar as organizações
a gerenciarem melhor o seu conhecimento, já que esse está, em grande maioria,
na cabeça dos funcionários. Cada baixa de funcionário é uma perda considerável
para o capital intelectual da organização, dessa forma, a gestão do conhecimento
O poder da informação e do conhecimento nas organizações
20
pensa em mecanismos para adquirir o conhecimento da cabeça dos funcionários
de modo que ele seja compartilhado e armazenado.
Práticas adotadas pela gestão do conhecimento vão da criação de comunidades
de prática, adoção de programas de lições aprendidas, estímulo aos funcionários
para a utilização de wikis internas a organização. Todas essas práticas são
diretamente aplicadas sobre os seus funcionários, mas sabe‑se que muito dos
conhecimentos da organização estão implícitos em documentos textuais não
estruturados. Para esses casos, a gestão do conhecimento conta com a área da
Engenharia do Conhecimento.
A área da Engenharia do Conhecimento nasceu como subárea da Inteligência
Artificial, que tinha como foco a criação de sistemas especialistas, esses sistemas
eram baseados em regras lógicas extraídas da cabeça de um especialista em
um determinado domínio. Essa era a característica da chamada engenharia do
conhecimento clássica, que adotava o “paradigma de transporte”, ou seja, que
estava focada em transpor o conhecimento da cabeça de um especialista para
compor um conjunto de regras que fazem parte de um sistema especialista de
um domínio (STUDER; BENJAMINS; FENSEL, 1998).
A engenharia do conhecimento clássica adota o paradigma de transporte e
apresenta alguns problemas:
•• quanto à escala: havia a reinvenção da roda em cada projeto;
•• quanto ao contexto: não tinha a visão do contexto onde o problema
estava inserido (tarefa modelada);
•• quanto à modelagem: o paradigma de transporte era moldado à
expectativa de funcionamento do aplicativo (regras em shell) e não
à natureza do contexto da tarefa intensiva em conhecimento;
•• quanto ao desenvolvimento: a prototipação rápida tornava o sistema
gerado de difícil manutenção.
Pós-graduação
21
Tendo em vista esses problemas, nasce a chamada Nova Engenharia do
Conhecimento, que faz uso do “paradigma de modelagem”. Esse nome é dado
pois essa abordagem está focada na modelagem do conhecimento, de modo que
o mesmo possa ser reaproveitado em outros sistemas baseados em conhecimento,
permitindo, assim, a sua socialização entre os membros da organização.
Para a explicitação do conhecimento existente em bases de dados e documentos
textuais não estruturados, a engenharia do conhecimento utiliza‑se de técnicas da
inteligência artificial, como as apresentadas a seguir:
•• Reconhecimento de entidades nomeadas;
•• Algoritmos de clusterização (agrupamentos);
•• Processamento de linguagem natural;
•• Raciocínio baseado em casos;
•• Algoritmos genéticos
•• Redes neurais artificiais.
Depois de extrair o conhecimento implícito nas bases de documentos e de dados
da organização, é necessário representá‑lo formalmente de maneira que ele possa
ser corretamente armazenado e reutilizado, para isso são utilizadas as ontologias.
As ontologias nasceram da área da filosofia onde eram conceituadas como uma
definição de mundo. Para a computação pode‑se definir como uma representação
formal de um conhecimento de domínio, de modo que tanto um indivíduo quanto
um computador podem interagir com o conhecimento modelado. Segundo Studer,
Benjamins e Fensel (1998), uma ontologia é uma especificação explícita e formal
de conceitos e relações que existem em um domínio.
Para Souza (2003), as ontologias são usadas como uma forma de representação
e integração do conhecimento pela sua capacidade de reuso e interoperabilidade.
Uma outra utilização que se pode levantar é o fato de serem empregadas como
uma linguagem comum entre agentes de softwares e humanos, permitindo, assim,
a socialização do conhecimento. A Figura 3 apresenta um exemplo de ontologia:
O poder da informação e do conhecimento nas organizações
22
Figura 3 - Exemplo de uma ontologia de domínio
Fonte: Ceci, 2010.
As ontologias utilizam conceitos similares aos do paradigma de desenvolvimento
de software orientado a objetos, sendo compostas por classes, instâncias, relações,
propriedades e domínio. Na Figura 3 apresenta‑se a representação de uma ontologia
bastante simples, onde são apresentadas cinco classes, por meio de quadrados
amarelos. Como se pode observar todas as classes Pessoa, Área_do_conhecimento,
Organização, Lugar e Outra são filhas de uma classe Thing (em português “coisa”),
ou seja, todas as cinco são “coisas” do domínio modelado.
Os quadrados em lilás são as instâncias das classes em questão, facilmente
podemos visualizar que Santa Catarina é uma lugar, verifica‑se que Administração
foi classificada com uma instância da ontologia, mas o método que a gerou não
conseguiu classificá‑la.
As ontologias são formas para representar conhecimento, de modo que os
indivíduos e os sistemas possam inferir sobre elas, sendo parte fundamental
dos sistemas baseados em conhecimento, ferramenta indispensável para as
organizações do conhecimento.
Pós-graduação
23
Referências
CECI, Flávio. Um modelo semiautomático para a construção e manutenção de ontologias
a partir de bases de documentos não estruturados. 2010. Dissertação (Mestrado em
Engenharia e Gestão do Conhecimento) – Universidade Federal de Santa Catarina,
Florianópolis, 2010. Disponível em: <http://btd.egc.ufsc.br/wp‑content/uploads/2011/04/
Fl%C3%A1vio_Ceci.pdf>. Acesso em: 10 de dez. 2011.
FIALHO, Francisco Antônio Pereira et al. Gestão do conhecimento e aprendizagem: as
estratégias competitivas da sociedade pós‑industrial. Florianópolis: Visualbooks, 2006.
GHISI, Fernando B.; CECI, Flávio; SELL, Denilson. Aspectos relacionados com a eficácia
do processo de aquisição de conhecimento a partir de apresentação de informações
numéricas: sumários textuais podem ser mais adequados que representações gráficas?
5º CIDI – Congresso Internacional de Design da Informação. Florianópolis, 2011.
GOUVEIA, Luís B.; RANITO, João. Sistemas de informação de apoio à gestão. Porto,
Portugal: Sociedade Portuguesa de Inovação, 2004.
PINHEIRO, Carlos André Reis. Inteligência analítica: mineração de dados e descoberta de
conhecimento. Rio de Janeiro: Ciência Moderna, 2008.
PRIMAK, Fábio Vinícius. Decisões com B.I. Rio de Janeiro: Editora Ciência Moderna, 2008.
STUDER, Rudi; BENJAMINS, V. Richard; FENSEL, Dieter. Knowledge engineering: principles
and methods. IEEE Transactions on Data and Knowledge Engineering, 1998.
TANCER, Bill. Click: O que milhões de pessoas estão fazendo on‑line e por que isso é
importante. Editora Globo S.A. São Paulo, 2009.
TAPSCOTT, Don; WILLIAMS, Anthony D. Wikinomics: Como a colaboração em massa pode
mudar o seu negócio. Editora Nova Fronteira, Rio de Janeiro, 2006.
O poder da informação e do conhecimento nas organizações
24
Sistemas de informação
Gláucio Adriano Fontana e Flávio Ceci
Na leitura anterior sobre dado, informação e conhecimento, foram apresentados
detalhes e conceitos sobre esses temas, bem como as suas principais diferenças.
Abordou‑se também como o uso de informações e conhecimento podem
auxiliar a camada tomadora de decisão de uma organização. Segundo Gouveia
e Ranito (2004), os sistemas de informação (SI) possuem diversas funções
relacionadas com a manipulação de dados e de informação, que são executadas
com base num conjunto de procedimentos manuais e automáticos, visando a
auxiliar na tomada de decisão.
Percebe‑se que os sistemas de informação são um meio para acessar as
informações de maneira mais efetiva, mas antes de apresentar mais conceitos
relacionados com SI, é importante entender o que é um sistema. Basicamente,
pode‑se definir sistema como um conjunto de componentes (e subsistemas) que
formam um todo, e que interagindo chegam a um objetivo comum (GOUVEIA;
RANITO, 2004). Um sistema possui algumas características, as quais, segundo
Gouveia e Ranito (2004), são:
•• Objetivo: é a proposta que justifica o sistema, esse pode ter mais de
um objetivo;
•• Componentes: são partes dos sistemas que funcionam juntas para
atender os objetivos;
•• Estrutura: relações entre componentes cuja função é a definição das
fronteiras (limite) do sistema e o meio que está envolvido;
•• Comportamento: é determinado pelos processos desenvolvidos para,
no sistema, alcançar os resultados esperados;
•• Ciclo de vida: ocorre em qualquer sistema e inclui alguns fenômenos:
evolução, desgaste, desadequação, envelhecimento, reparação,
substituição e morte do sistema.
Verificando as características de um sistema, facilmente entendemos o porquê
de chamarmos o fluxo dentro do aparelho digestivo de “sistema digestivo”,
podemos simplificar a ideia de um sistema como algo que possui: entrada,
processamento e saída, logo, as organizações são sistemas sociais.
Cruzando os conceitos de sistemas com elementos da teoria da complexidade,
Axelrod e Cohen (1999) apresentam o conceito de sistemas adaptativos
complexos (SAC), que podem ser conceituados como os que contêm
agentes (pessoas, entidades etc.) ou populações que procuram se adaptar por
meio da interação. Para Ceci (2010), as organizações podem ser facilmente
Pós-graduação
25
caracterizadas como sistemas adaptativos complexos, a Figura 1 apresenta um
exemplo desta afirmação:
Figura 1 - Organização vista como um sistema adaptativo complexo
Organização (Sistema adaptativo complexo)
Qualidade
Fabricação Qualidade Fabricação
Compras Compras
Compras
Tesoureiro
Tesoureiro
Gerenciamento
Qualidade
Recebimento
Remessa
Recepção
Empacotamento
Pessoal
Recebimento
Pessoal Remessa
Marketing
Marketing
Vendas
Vendas
Fonte: Ceci, 2010.
Percebe‑se que a organização como um todo é um sistema composto por uma
série de outros subsistemas que interagem, para cumprir as metas organizacionais
ou do seu setor.
Ainda caracterizando uma organização como um sistema, Gouveia e
Ranito (2004) constroem uma justificativa a partir de cada característica
anteriormente apresentada:
•• Objetivo: dependendo do nível de responsabilidade, é possível definir
objetivos táticos, estratégicos e operacionais;
•• Componentes: as organizações envolvem uma série de pessoas, essas
pessoas são agrupadas por função e atividade. Os departamentos da
empresa contribuem para a própria organização, e cada uma dessas
exige informações em diferentes níveis de responsabilidade;
•• Estrutura: é definida pela forma como a responsabilidade é distribuída
pelos indivíduos. Lembrando que as estruturas definem as fronteiras;
•• Comportamento: definido pelos processos organizacionais. Os processos
são sequências específicas de atividades para realizar os objetivos.
•• Ciclo de vida: a organização passa por várias fases ao longo da sua
vida. Exige uma revisão periódica dos objetivos para assegurar a
sua sobrevivência.
O poder da informação e do conhecimento nas organizações
26
Vendo a organização como um sistema, pode‑se afirmar que um sistema de
informação é um subsistema tecnológico, os sistemas de informação consistem
no conjunto de componentes inter‑relacionados, trabalhando juntos para coletar,
recuperar, processar, armazenar e distribuir informações com a finalidade de
facilitar o planejamento, o controle, a coordenação, a análise e o processo
decisório em empresas.
Os sistemas de informação têm evoluído tanto em importância para as organizações,
quanto em tecnologia. Os sistemas de arquivamento manual podem satisfazer
muitas necessidades para organizar e recuperar informações, mas por meio desses
torna‑se lenta e difícil a tarefa de recuperar grandes quantidades de informação,
bem como coletar e transmiti‑las de grandes distâncias. Os sistemas de informação
computadorizados, por sua vez, facilitam o acesso aos dados em um único local,
suportando rápidas e repetidas pesquisas de dados, permitindo também recuperar
informações de múltiplos locais quase sempre instantaneamente.
Com a crescente competitividade entre as organizações, a tecnologia da
informação ganha valor fundamental para as estratégias de administração.
As organizações que almejam diferenciais competitivos, para conquistar mercados
e obter vantagens, precisam conhecer as tendências, desejos e anseios desses
mercados, o que somente poderá ser realizado por meio de um eficiente sistema
de informação (LAUDON; LAUDON, 2001).
Decisões podem ser estruturadas quando possuem procedimentos bem definidos
e documentados; não estruturadas, quando há bastante subjetividade de
julgamento e avaliação; ou ainda semiestruturadas, quando híbridas em relação
aos tipos referidos. Dessa maneira, diferentes SI são necessários, a pensar
inclusive pelo ambiente dinâmico em que estão inseridos, leia‑se mercado que
exige respostas rápidas em função de suas necessidades e mudanças.
A interpretação, por meio dos dados, sobre o que realmente os clientes,
os concorrentes e outros atores do ambiente interno e externo estão
querendo dizer, mesmo que de forma indireta, auxilia os gestores a monitorar
o desempenho da empresa, possibilitando‑lhes adotar medidas efetivas para
melhorar seus produtos e processos, bem como utilizar informações sobre as
melhores práticas de outras empresas, estabelecendo, assim, um padrão de
desempenho de alto nível para essa empresa (GORDON; GORDON, 2006).
Mañas (1999) define o sistema de informação como o conjunto interdependente das
pessoas, das estruturas da organização, das tecnologias de informação (hardware
e software), dos procedimentos e métodos que deveriam permitir à empresa
dispor, no tempo desejado, das informações de que necessita (ou necessitará) para
seu funcionamento atual e para sua evolução. Percebe‑se a importância do item
Pós-graduação
27
pessoas, tanto como trabalhadores de informação e conhecimento como usuários
desses, abrangendo, portanto, além de tecnologias e um ambiente (organização), o
componente humano.
Os sistemas de informação influenciam diretamente o modo como os gestores
decidem, planejam e, em muitos casos, determinam como e quais produtos e
serviços são produzidos. Atualmente, podem ajudar as empresas a ampliar seu
alcance a mercados distantes, oferecer novos produtos e serviços, reformar
tarefas e fluxos de trabalho e até mesmo mudar profundamente a maneira de
conduzir negócios (LAUDON; LAUDON, 2001).
Esse é o principal papel para os sistemas de informação, ou seja, sua aplicação
em problemas que se relacionam à vantagem competitiva de uma empresa.
Eles têm importância estratégica, uma vez que se concentram em resolver
problemas relacionados tanto ao desenvolvimento da empresa, a médio e longo
prazo, quanto a sua sobrevivência. Tais problemas podem significar a criação ou
inovação em novos produtos e serviços, o estabelecimento de novas relações com
clientes e fornecedores, ou a descoberta de meios mais efetivos de administrar as
atividades da empresa. (BIO, 1996).
Segundo Gouveia e Ranito (2004), o objetivo de um sistema de informação é
orientar a tomada de decisão, o seu comportamento deve ser aferido pela forma
como cumpre os objetivos levantados e também a capacidade de fornecimento
de dados e informações de maneira adequada, levando em consideração o seu
formato, tempo e custo.
De maneira geral, os sistemas de informação têm como objetivo fornecer
informações a partir de dados brutos, de maneira rápida e eficiente para o usuário
que estiver se privilegiando do seu uso.
Os autores Gouveia e Ranito (2004) apresentam, em seu trabalho, as funções dos
sistemas de informação:
•• coleta de informação: garantir a entrada dos dados do sistema;
•• armazenamento da informação: assegurar o registro dos dados
necessários ao sistema;
•• processamento da informação: prover resposta às exigências de dados e
informação para suporte do sistema;
•• representação da informação: permitir uma percepção com qualidade
dos dados e informação disponível no sistema;
•• distribuição da informação: assegurar o fluxo de dados e de informações
no sistema.
O poder da informação e do conhecimento nas organizações
28
Para suportar o desenvolvimento de sistemas de informação, Almeida (1998)
apresenta uma metodologia para o seu planejamento que pode ser resumida
na Figura 2:
Figura 2 - Metodologia para Planejamento de SI
Visão Estratégica
Engenharia de Processos de Negócios
Engenharia da Informação
Dados Corporativos
Modularização
Priorização
Plano de Ação
Fonte: Almeida (1998).
Percebe‑se que o primeiro passo no planejamento de um sistema de informação está
centrado no levantamento da visão estratégica, a partir do estudo da organização, o
próximo passo é a criação da definição de todos os processos que são desenvolvidos
nos vários setores da organização, na Figura 2 essa etapa é representada pelo
quadrado “Engenharia de Processos de Negócios” (ALMEIDA, 1998).
Da mesma forma que na engenharia de software, inicialmente, faz‑se o
levantamento dos requisitos do sistema a partir das necessidades do cliente e do
usuário dos sistemas. No planejamento do sistema de informação não é diferente,
pode‑se perceber isso no fato dos dois processos iniciais (levantamento da visão
estratégica da organização e engenharia de processo de negócio) serem focados no
entendimento da organização, seus processos e necessidades. A partir dessas duas
etapas, são facilmente levantados os requisitos para o desenvolvimento do sistema
de informação que irá auxiliar o processo decisório da organização em questão.
O quadrado apresentado na Figura 2 e intitulado de Engenharia de Informação,
como o próprio nome sugere, é focado nas informações que serão consumidas e
geradas pelo SI. Essa etapa é dividia em 3 outras etapas, as quais são:
•• Dados corporativos: são relevantes para a organização, eles
representam a entrada principal para a geração da informação por
parte do SI. Esses dados e informações devem atender a todos os
processos levantados anteriormente;
Pós-graduação
29
•• Modularização: nessa fase é construída a estrutura informacional da
organização (ALMEIDA, 1998). É onde as fontes são organizadas;
•• Priorização: nesta última fase analisa‑se qual dos grupos de informações
levantados na fase anterior é mais prioritário, ou seja, os módulos de
informação são organizados por prioridade, para poder gerenciar as
fontes de uma maneira mais efetiva.
A última etapa é o “Plano de ação”, segundo Almeida (1998), esse plano é o
resultado do encadeamento das informações obtidas nas fases anteriores,
objetivando a apresentação das diretrizes e metas para o desenvolvimento do SI.
O uso dos sistemas de informação é muito importante para a organização, como já
foi visto nesta leitura, mas existem outros componentes que são tão importantes
quanto o próprio SI para o seu sucesso. A Figura 3 ilustra melhor esta afirmação:
Figura 3 - Composição de um sistema de informação
Ambiente externo
Gestão de
atividades
Pessoas
Sistema de
informação
Tecnologia
Fonte: Gouveia e Ranito (2004).
O recurso humano tem uma grande importância para os sistemas de informação,
seja tomadores de decisão, produtores de informação e construtores de
conhecimento, entre outros, pois são vistos como peças fundamentais para o SI.
Analisando a Figura 3, percebe‑se claramente que sem a combinação das pessoas,
com a tecnologia e a gestão das atividades, a organização não terá um sistema de
informação atuando efetivamente.
Conclui‑se que a informação é estratégica para a camada tomadora de decisão,
e que os sistemas de informação são um meio para se chegar até elas. Percebe‑se
que o uso de sistemas de informação de maneira só não é eficiente, é necessário
a participação de pessoas qualificadas e ter uma gestão das atividades que serão
apoiadas com a saída do SI.
O poder da informação e do conhecimento nas organizações
30
Referências
ALMEIDA, Adiel Teixeira de. Um modelo de decisão para a priorização no planejamento de
sistemas de informação. Prod., São Paulo, v. 8, n. 2, Dec. 1998. Available from <http://www.
scielo.br/scielo.php?script=sci_arttext&pid=S0103‑65131998000200003&lng=en&nrm=iso>.
Acessado em 15 Dez. 2011
AXELROD, R.; COHEN, M. D. Harnessing Complexity: Organizational Implications of a
Scientific Frontier. Free Press, New York, 1999.
BIO, Sérgio Rodrigues. Sistemas de informação: um enfoque gerencial. São Paulo: Atlas, 1996.
CECI, Flavio. O conhecimento nas organizações como um sistema adaptativo complexo. In:
ROVER, Aires J.; CARVALHO Marisa A.. (Org.). O sujeito do conhecimento na sociedade em
rede. 001 ed. Florianópolis: Editora: Fundação José Arthur Boiteux, 2010, v. 001, p. 207‑2010
GORDON, Steven R.; GORDON, Judith. Sistemas de informação: uma abordagem gerencial.
3. ed. Rio de Janeiro: LTC, 2006.
GOUVEIA, Luís B.; RANITO, João. Sistemas de informação de apoio à gestão. Porto,
Portugal: Sociedade Portuguesa de Inovação, 2004.
LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de informação gerenciais: administrando
a empresa digital. São Paulo: Prentice Hall, 2001.
MAÑAS, Antonio Vico. Administração de sistemas de informação. São Paulo: Érica, 1999.
Pós-graduação
31
Classificação dos sistemas de informação
Gláucio Adriano Fontana e Flávio Ceci
Os sistemas de informação nas empresas podem ser classificados de muitas maneiras,
representando diferentes possibilidades de uso. Uma classificação, apresentada
por Laudon e Laudon (2001) é feita por meio dos níveis hierárquicos, aos quais os
sistemas de informação dão suporte operacional, gerencial ou estratégico.
Os Sistemas de Nível Operacional são direcionados ao suporte das atividades
fins da empresa, acompanhando a rotina, indicando o nível das vendas, compras,
fluxo de caixa, emissão de notas fiscais. Esses sistemas estão ligados diretamente
às operações e ao dia a dia, e são denominados Sistemas de Informações
Transacionais (SIT), formando a base de informações para os Sistemas de
Informações Gerenciais (SIG) e Sistemas de Apoio à Decisão (SAD).
Os Sistemas de Nível Gerencial são direcionados ao controle e monitoramento das
atividades relacionadas ao nível operacional, indicando simulações de cenários
estruturados, sendo um sistema direcionado à média gerência, e podem ser
divididos em dois tipos de sistemas: os Sistemas de Informações Gerenciais (SIG),
que são destinados ao suporte de atividades, agregando dados internos e
apresentando resumos das transações operacionais, permitindo acompanhar o
andamento e comparar desempenhos e os Sistemas de Apoio à Decisão (SAD),
direcionados a apoiar a decisão em situações não rotineiras e semiestruturadas.
Os Sistemas de Nível Estratégico são direcionados para situações e decisões
não estruturadas, tais como: tendência, posicionamento da empresa, mudanças
no ambiente interno ou externo, e são classificados como Sistemas de Suporte
aos Executivos (SSE), com base na comunicação e utilização de informações
externas (LAUDON; LAUDON, 2001).
Os sistemas de informação estão presentes em vários níveis da organização,
a figura a seguir ilustra está afirmação:
O poder da informação e do conhecimento nas organizações
32
Figura 1 - SI em relação com a hierarquia organizacional
Apoio às
Estratégias para
Vantagem Competitiva
Apoio à Tomada de Decisão Empresarial
Apoio às Operações e aos Processos
Fonte: O’Brien, 2004 apud Oliveira; Carreira; Moreti, 2009.
Os sistemas transacionais ou de apoio à operação estão atuando diretamente
sobre a base da pirâmide, onde se tem como objetivo atuar junto à base de
dados operacional, automatizando tarefas. A camada de “Apoio à Tomada de
Decisão Empresarial” é coberta pelos sistemas de apoio à decisão, que procuram
prover ferramentas para auxiliar as decisões organizacionais. O nível mais alto da
pirâmide conta com o “Apoio às Estratégias para Vantagem Competitiva, nesse
caso, também se faz uso dos sistemas de apoio à decisão, mas esse não busca
reforçar as decisões operacionais, mas as estratégicas, ou seja, é centrado na
camada gerencial da organização. (OLIVEIRA; CARREIRA; MORETI, 2009).
Tipos de Sistemas de Informação
As organizações utilizam vários tipos de Sistemas de Informação porque esses
possuem funções diferentes, embora possam funcionar em conjunto, suportando
uns aos outros, isto é, fornecendo informações entre si. Os sistemas foram
classificados de acordo com seus objetivos e tipos de informações que manipulam
e podem ser classificados em mais de um tipo.
Segundo Oliveira, Carreira e Moreti (2009), a visualização dos tipos de sistemas
operacionais a partir de um organograma auxilia no seu entendimento:
Pós-graduação
33
Figura 2 - Tipos de Sistemas de Informações
Sistemas de
Informação
Apoio às
Operações
Sistemas de
Apoio às
Operações
Apoio à
Sistema de
Tomada de
Apoio Gerencial Decisão Gerencial
Sistema de
Processamento
de Transações
Sistemas de
Controle
de Processos
Sistemas de
Colaborativos
Sistemas de
Informação
Gerencial
Sistemas de
Apoio à
Decisão
Sistemas de
Informação
Executiva
Processamento
de Transações
Controle de
Processos
Industriais
Colaboração entre
Equipes e Grupos
de Trabalho
Relatórios
Padronizados
para os Gerentes
Apoio Interativo
à Decisão
Informação
Elaborada
Especificamente
para Executivos
Fonte: O’Brien, 2004 apud Oliveira; Carreira; Moreti, 2009.
Percebe‑se que a Figura 2 está dividindo os sistemas de informação pela sua
aplicação dentro da organização, no nível logo abaixo da caixa “Sistemas de
informação”, vê‑se a divisão por apoio às operações da organização ou apoio à
tomada de decisão gerencial.
Abaixo da caixa dos sistemas de apoio às operações estão os sistemas de
processamento de transação, de controle de processos e os colaborativos.
Eles atuam diretamente sobre os dados operacionais armazenados nos bancos de
dados da organização, entregam para os usuários dados resultantes de consultas
e informações para apoio operacional.
Os sistemas de apoio à decisão estão diretamente ligados com a camada gerencial
da organização, a que está ligada às atividades estratégicas. Esses sistemas atuam
sobre repositório de dados dimensionais (data warehouses) e bases de dados com
valores consolidados, a fim de facilitar a entrega de informações estratégicas para
apoio à decisão.
O poder da informação e do conhecimento nas organizações
34
Sistemas de Informação Transacionais
Os sistemas de informação transacionais são os mais simples e os mais comuns
nas organizações. Eles apoiam as funções operacionais da organização, aquelas
realizadas no dia a dia. Por isso, são facilmente identificados no nível operacional
da organização (fechamento de um pedido, matrícula de um aluno, emissão de
uma receita médica, dar baixa no estoque, emitir uma nota fiscal etc.).
Geralmente, são os primeiros a serem implantados, apesar de essa não ser
necessariamente uma regra. A razão é que são os mais fáceis e baratos de
serem implementados (ou adquiridos), além de darem origem aos sistemas mais
avançados (gerenciais e de apoio à decisão). As informações têm de ser reunidas
e armazenadas de alguma maneira!
Esses sistemas têm por objetivo processar dados, isto é, fazer cálculos, armazenar
e recuperar dados (consultas simples), ordenar e apresentar de forma simples
dados para os usuários. Seu benefício principal é a agilização nas rotinas e tarefas,
incluindo documentação rápida e eficiente, busca acelerada de informações
e cálculos rápidos e precisos. Outros benefícios podem ser conseguidos com
esse tipo de sistema, como, por exemplo, confiabilidade, redução de pessoal e
custos e melhor comunicação (interna entre setores ou externa com clientes
e fornecedores). Incluem‑se entre eles: sistemas de cadastro em geral (inclusão,
exclusão, alteração e consulta), como de clientes, produtos e fornecedores;
os sistemas de contabilidade (contas a pagar e a receber, balanços, fluxo de caixa,
etc.); sistemas de vendas e distribuição (pedidos, entregas), folha de pagamento,
controle de estoque.
Dois casos especiais de SI’s rotineiros, de acordo com Loh (2009), são:
•• os sistemas de gestão empresarial (ERP): responsáveis por administrar,
automatizar ou apoiar todos os processos de uma organização de
forma integrada;
•• os sistemas de automação comercial: que incluem apoio às vendas,
estoque e contabilidade, com uso de terminais ponto de venda (PDV) e
centrais automatizadas, como se vê em supermercados e lojas em geral.
No mercado, hoje, existem inúmeros pacotes de software prontos (já
implementados) para serem adquiridos, a preços bem acessíveis, o que pode ser
mais vantajoso do que desenvolver o software por conta própria ou com terceiros.
Pós-graduação
35
Sistemas de Informações Gerenciais e Sistemas de Informação
Executiva
Como o próprio nome diz, os SIG’s surgiram com o intuito de auxiliar gerentes em
suas funções. Com o passar do tempo, esse tipo de sistema acabou sendo usado
por qualquer funcionário que tome decisões.
Eles atuam como um espelho de um setor, dando uma ideia das atividades
sumarizadas de um departamento.
O objetivo de um SIG é fornecer informações para a tomada de decisões, ou
seja, são sistemas que fornecem relatórios. O usuário deve solicitar, de alguma
forma, (escolha por menus, uso de comandos etc.) a informação de que
necessita e o SIG procura tal informação em seus registros, apresentando‑a da
melhor maneira possível ao usuário. Essa maneira pode ser textual (relatórios
descritivos), por planilhas ou de modo gráfico. Esse último caso é o preferido
pelos administradores, pois oferece mais informações em menor espaço (“uma
figura vale por mil palavras”), por meio de gráficos.
É importante que o relatório tenha o nível de detalhe adequado ao usuário:
não pode ser muito detalhado ou extenso, de modo a facilitar o uso do gestor.
O resumo em abundância deve ser evitado para não correr riscos de omissão de
detalhes importantes para a tomada de decisão. Os SIG’s aparecem nos 3 níveis
da pirâmide administrativa (estratégico, tático e operacional), sempre que houver
alguma decisão sendo tomada (LOH, 2009).
Um caso especial de SIG são os EIS (Executive Information Systems), que
possibilitam diferentes visões dos dados de uma organização, por meio de
operações tipo zoom. Por exemplo, em uma empresa que fabrica produtos de
beleza, pode‑se ver a produção por filial ou por região ou então analisar em
detalhe o desempenho de cada gerente de produção (zoom in). Por outro lado,
pode‑se verificar a produção por produto específico ou por categorias de produto.
Os EIS, do ponto de vista segmentado:
•• Coleta: os dados são coletados de fontes internas e externas.
•• Processamento: programas que disponibilizam resumos, gráficos de
modo a transformar a mesa do executivo em um centro de controle.
Disponibilizam também meios de comunicação para comentar decisões
com outros executivos.
•• Armazenamento: os dados armazenados devem espelhar a situação
atual e as tendências.
O poder da informação e do conhecimento nas organizações
36
•• Distribuição: geram relatórios e gráficos que permitem ter o controle e
tomar decisões.
•• Feedback: permite obter relatórios que indicam desvios dos objetivos.
Sistemas de Apoio à Decisão
Um SAD recebe, como entrada, alternativas para solução de um problema e
devolve as consequências para cada alternativa. Assim, o administrador pode
avaliar qual é a melhor alternativa. O SAD não decide qual é a melhor decisão,
nem indica que alternativas existem.
A diferença para o SIG é que um SAD é interativo (o usuário pode entrar com
várias alternativas) e ainda avalia as alternativas por meio de técnicas de
what‑if (= e se eu fizer isso, o que acontecerá... é tipo de análise que testa
mudança das variáveis e suas consequências), tais como projeção e regressão.
Em Loh (2009) é dado um exemplo: qual o preço final de um produto? Para
responder a essa pergunta, podemos utilizar as seguintes fórmulas:
•• Lucro = receitas – total despesas
•• Receitas = quantidade vendida X preço final
•• Preço final = custo unitário X margem de lucro
•• Total de despesas = custo de produção + despesas gerais
•• Custo de produção = quantidade produzida X custo unitário
Percebe‑se que os sistemas de apoio à decisão são a resposta para os problemas
da falta de agilidade na tomada de decisão por parte da camada gerencial das
organizações. Esses sistemas cada vez mais estarão presentes nas empresas,
da mesma forma que os sistemas de informações transacionais fazem parte do
cotidiano de praticamente todos os segmentos.
Referências
LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de informação gerenciais: administrando
a empresa digital. São Paulo: Prentice Hall, 2001.
LOH, Stanley. Material das disciplinas de Sistemas de Informação e Data Mining.
Disponível em: atlas.ucpel.tche.br/~loh/. Acesso em: jul. 2009.
OLIVEIRA, André Luis B.; CARREIRA, Marcio Luis; MORETI, Thiago Moura. Aprimorando a
gestão de negócios com a utilização de tecnologias de informação. Revista de Ciências
Gerenciais. Vol XIII, Nº 17, 2009.
Pós-graduação
37
Sistemas de apoio à decisão
Flávio Ceci
Os sistemas de informação são, para as organizações, uma poderosa ferramenta
para a gestão das suas operações cotidianas, bem como para auxiliar a tomada
de decisão. Na leitura anterior, pode‑se verificar que os sistemas de informação
possuem vários tipos de classificação, talvez a mais natural seja pela sua atividade
foco. Tendo em vista essa classificação, tem‑se, inicialmente, dois principais grupos
de sistemas de informação, quais são:
•• Sistemas de apoio às operações: sistemas caracterizados por apoiar as
atividades operacionais da organização, ou seja, auxiliar os processos no
nível de transações, como por exemplo: controle de estoque, contas a
receber, cadastro de clientes, entre outros.
•• Sistemas de apoio gerencial: são sistemas focados no auxilio a atividades
estratégicas da organização, apoiando a camada tomadora de decisão.
Atualmente, muitas organizações, independente do seu tamanho (de pequeno,
médio ou grande porte), possuem sistemas de apoio as suas operações,
o motivo para tal é pela vasta quantidade de sistemas já desenvolvidos para os
inúmeros segmentos com preços acessíveis. Tento as operações e transações da
organização suportadas por sistemas de informação, passou‑se a buscar soluções
computacionais para apoiar as decisões de maneira estratégica.
Segundo Gouveia e Ranito (2004), as organizações atuais competem entre si para
entregar soluções aos clientes de maneira mais eficiente, de modo que o produto
e/ou serviço seja de maior qualidade e de baixo custo, informações que possam
auxiliar nessas soluções são tidas como estratégicas e de muito valor para a
tomada de decisão.
Até aqui se fala muito em tomada de decisão, mas o que são decisões?
Para Bidgole (1989) e Mittra (1996) apud Barbosa e Almeida (2002), pode‑se
classificar decisões da seguinte forma:
•• Decisão estruturada: possui procedimentos operacionais padrão, bem
definidos e muito bem projetados. Conta com sistemas de informação
simples, programáveis e baseado em lógica clássica, fatos e resultados
bem definidos, voltados para camada mais de base da organização.
•• Decisão semiestruturada: não possui procedimento bem definidos, mas
inclui aspectos de estruturação. Pode‑se contar em partes com o apoio
de sistemas de informação.
•• Decisão não estruturada: não possuem qualquer padrão de procedimento
operacional. Conta fortemente com a intuição, experiência do tomador de
decisão. São difíceis de formalizar, envolvem heurísticas, tentativas e erro.
O poder da informação e do conhecimento nas organizações
38
O processo de tomada de decisão teve um modelo desenvolvido por Simon (1960)
apud Cabral (2001), que é dividido em 3 fases iterativas e interativas:
•• reconhecimento: consiste no levantamento do problema ou
oportunidade de mudança;
•• desenho: consiste na verificação e na estruturação das decisões opcionais;
•• escolha: relaciona‑se com as avaliações e com a escolha da melhor alternativa.
Para ilustrar a interação entre as três fases do processo de tomada de decisão
Cabral (2001) apresenta a seguinte figura:
Figura 1 - Interação entre as fases da tomada de decisão
Reconhecimento
Desenho
Escolha
Fonte: Cabral, 2001.
Pela análise da figura acima, é facilmente percebido o motivo para a
caracterização das fases como iterativas e interativas, por exemplo, um
gestor percebe que determinado produto não está gerando lucros para a
organização (fase de reconhecimento), a partir dessa informação, ele levanta as
possíveis alternativas para o problema em questão (fase de desenho), o ponto
é que em algumas dessas alternativas pode‑se verificar que será gerado outro
problema ou oportunidade. Com isso, faz‑se necessário que voltemos para a etapa
de Reconhecimento, após levantar todas as possibilidades, o gestor pode tomar
uma decisão (fase de escolha). Se a decisão resolver o problema em questão,
finaliza‑se o processo de decisão, caso contrário, pode‑se voltar para a fase inicial.
Segundo Heinzle, Gauthier e Fialho (2010), a tomada de decisão pode‑se definir
como um processo que consiste em optar (escolher) uma, ou algumas, entre
várias alternativas para a realização de uma ação, levando em consideração os
possíveis reflexos presentes e futuros que a escolha pode gerar.
Como já foi apresentado anteriormente, os sistemas de apoio à decisão são os
sistemas de informação responsáveis a auxiliar os gestores das organizações na
etapa de tomada de decisão.
Pós-graduação
39
Os sistemas de apoio à decisão (SAD) começaram a surgir no final da década de 60,
mas somente em 1971 esse termo foi apresentado numa publicação de Gorry
e Scottmorton. Nos anos seguintes, o desenvolvimento deste tipo de sistema
tornou‑se muito comum, acarretando em evoluções muito significativas para a
área. Na década de 80, com a popularização do uso dos computadores devido
à significativa redução do preço do software e do hardware, as organizações
passaram a utilizar computadores para auxiliar no seu ambiente de trabalho,
dessa maneira, os gestores tinham condição de ter os seus sistemas de apoio à
decisão personalizados à realidade da sua empresa (CABRAL, 2001).
Segundo Barbosa e Almeida (2002), os sistemas de apoio à decisão têm como
objetivo dar suporte aos processos decisórios que apresentam problemas de
estruturação, além de apresentarem características tecnológicas estruturais e
de utilização específica. Os SAD visam a apoiar decisões semi e não estruturadas.
Para Heinzle, Gauthier e Fialho (2010), os SAD são sistemas computadorizados
que possibilitam comparar, analisar, sumular e apoiar a escolha de alternativas,
com base na criação de cenários que incluem um significativo número de variáveis
relacionadas ao domínio de um processo decisório.
Laudon (2001) chama os SAD como “sistemas de suporte a decisão”. Em seu
trabalho, ele apresenta algumas características que diferenciam esse tipo de
sistema dos demais tipos de sistemas de informação:
•• Disponibilizar para o usuário flexibilidade, e respostas rápidas;
•• Permitir iniciar e controlar os processos de entrada e saída;
•• Funcionar com pouco ou nenhum suporte de programadores;
•• Permitir apoio para as decisões e problemas para os quais as soluções
não podem ser identificadas previamente;
•• Utilizar‑se de análises sofisticadas e de ferramentas de modelagem.
Ainda sobre as características dos sistemas de apoio à decisão, Turban (1990) apud
Cabral (2001) apresentam outras características:
•• Incorporam modelos e dados;
•• São sistemas focados em auxiliar o gestor na tomada de decisão a
problemas semiestruturados e não estruturados;
•• Dão suporte à tomada de decisão, mas dependem da avaliação do gestor;
•• O objetivo é melhorar a qualidade das decisões e não a eficiência em que
as decisões são tomadas.
Os sistemas de apoio à decisão possuem uma arquitetura básica. Segundo
Heinzle (2010), a arquitetura é composta por três subsistemas:
O poder da informação e do conhecimento nas organizações
40
•• Subsistema de dados: é composto pelo gerenciador de dados, que tem
como responsabilidade a construção e gerência do banco de dados,
que possui dados relacionados com o domínio do problema. Nesse
subsistema estão contemplados sistemas de extração, transformação
e carga de dados. Também se pode utilizar de repositórios de dados ao
estilo Data Warehouse.
•• Subsistema de modelos: é composto pelo banco de modelos e seu
gerenciamento. Neste subsistema estão as estratégias analíticas
que atuam sobre os dados disponibilizados pelo subsistema de
dados. Também podem existir motores de inferência para auxiliar o
processamento dos dados, gerando informações e conhecimentos
valiosos para a etapa de tomada de decisão.
•• Subsistema de interface: como o próprio nome sugere, é responsável
pela interação entre o sistema e o usuário. Oferece, por meio de uma
interface gráfica, componentes para auxiliar a análise das informações
processadas no subsistema de modelo. Esse subsistema também pode
suportar processadores de linguagens naturais.
A figura 2 apresenta como os subsistemas se interagem na arquitetura de um SAD:
Figura 2 - Arquitetura de um SAD
Sistema de Apoio à Decisão
Dados Internos
e Externos
Modelos Internos
e Externos
Banco de
Dados
Banco de
Modelos
Gerenciador
de Dados
Gerenciador
de Modelos
Software
SAD
Interface
Usuário
Fonte: Sprague e Watson (1989) apud Heinzle (2010).
Pós-graduação
41
Como se pode observar na Figura 2, todas as requisições são feitas ao subsistema
de interface, que pode acessar diretamente o subsistema de dados para
apresentar o resultado de uma consulta, ou ainda aplicar um processo de análise
sobre os dados, a fim de gerar informações mais relevantes, que auxiliem no
processo decisório.
Atualmente, a implementação dessa arquitetura mais utilizada é a de Business
Intelligence (BI) que, segundo Fourlan e Gonçalves Filho (2005), é a evolução dos
sistemas de apoio à decisão.
A Figura 3 apresenta uma arquitetura de BI e como é o seu fluxo de carga dos
dados, a partir dos sistemas de informação da organização:
Figura 3 - Arquitetura de BI
Data Mining
ERP
Sistema de
Gestão da Empresa
Fonte de
dados
Operacionais
Data
Warehouse
Fonte de
dados
Operacionais
OLAP
Metadados
Metadados
Metadados
Business Intelligence
Fonte: Fourlan; Gonçalves Filho, 2005.
A arquitetura de BI traz alternativas para os três subsistemas apresentados na
arquitetura clássica dos sistemas de apoio à decisão.
No subsistema de dados são utilizados geralmente repositórios do tipo Data
Warehouse, esses, geralmente, utilizam‑se da modelagem dimensional. A partir
dos dados operacionais provenientes dos sistemas de informação da organização,
organiza‑os na forma de dimensões e fatos para auxiliar a etapa de analise.
Os subsistemas de modelo da arquitetura clássica de SAD são atendidos por
ferramentas de mineração de dados (Data mining), essas têm como função explicitar
as informações e conhecimentos implícitos nas bases de dados da organização.
O poder da informação e do conhecimento nas organizações
42
O último dos três subsistemas da arquitetura clássica de SAD, o subsistema de
interface, é representado na arquitetura de BI pelas ferramentas OLAP, que são
responsáveis pela apresentação e pelo cruzamento das informações, a fim de
apoiar o processo decisório.
Referências
BARBOSA, Gilka Rocha; ALMEIDA, Adiel Teixeira de. Sistemas de apoio à decisão sob o
enfoque de profissionais de TI e de decisores. XXII Encontro Nacional de Engenharia de
Produção. Curitiba, 2002.
CABRAL, Pedro da Costa Brito. Sistemas espaciais de apoio à decisão – O Sistema de
Apoio ao Licenciamento da Direção Regional do Ambiente do Alentejo. Dissertação para
obtenção do grau de Mestre em Sistemas de Informação Geográfica. Universidade Técnica
de Lisboa. Portugal, 2001.
FOURLAN, Marcos Roberto; GONÇALVES FILHO, Eduardo V. Uma proposta de aplicação de
Business Intelligence no chão‑de‑fábrica. Gestão e Produção. V.12, n.1, p. 55‑66, 2005.
GOUVEIA, Luís B.; RANITO, João. Sistemas de informação de apoio à gestão. Porto,
Portugal: Sociedade Portuguesa de Inovação, 2004.
HEINZLE, Roberto. Um modelo de engenharia de conhecimento para sistemas de apoio
à decisão com recursos para raciocínio abdutivo. Tese para obtenção do grau de Doutor
em Engenharia e Gestão do Conhecimento. Universidade Federal de Santa Catarina.
Florianópolis, 2010.
HEINZLE, Roberto; GAUTHIER, Fernando A. Ostuni; FIALHO, Francisco Antonio P.
Semântica nos sistemas de apoio à decisão: o estado da arte. Revista da Unifebe, v. 1,
p. Artigo 14, 2010.
LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de informação gerenciais: administrando
a empresa digital. São Paulo: Prentice Hall, 2001.
Pós-graduação
43
Atividades de Autoaprendizagem
1) Levando em consideração o conteúdo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:
a. ( ) As ontologias são estruturas formadas para representação de dados.
b. ( ) O processo de síntese é utilizado na transformação da informação para
o conhecimento.
c. ( ) O “paradigma de transporte” demonstrou, ao longo do tempo, sua
eficiência e é utilizado até hoje na Nova Engenharia do Conhecimento.
d. ( ) Os Sistemas de Informação possuem uma classificação muito bem definida.
e. ( ) A arquitetura clássica de um Sistema de Apoio à Decisão é composta por
três subsistemas: de dados, de modelo e de interface.
f. ( ) Pode‑se afirmar que Business Intelligence é uma evolução de sistemas de
apoio à decisão.
g. ( ) O subsistema de modelo da arquitetura clássica de SAD é equivalente ao
Data Warehouse da arquitetura de BI.
h. ( ) Uma organização pode ser vista como um sistema, desde que ela faça uso
de computadores.
Atividade colaborativa
Nesta unidade, você estudou uma série de conceitos relacionados com sistemas
de informação e de apoio à decisão. Responda à pergunta a seguir utilizando a
ferramenta Fórum, não se esqueça de comentar as respostas dos seus colegas.
O uso de dados disponíveis na Web (como por exemplo, em mídias sociais) pode
auxiliar os sistemas de apoio à decisão na entrega de uma informação mais
estratégica para a organização?
O poder da informação e do conhecimento nas organizações
44
Síntese
Nesta unidade foi apresentada uma visão geral entre dado, informação e
conhecimento, quais as suas fronteiras e sua aplicabilidade. Após isso, foi visto o
que são sistemas de informação, qual a sua utilidade e como se pode classificá‑los.
Por fim, foi apresentada uma visão geral sobre os sistemas de apoio à decisão e
como eles podem agregar valor à camada gerencial das organizações.
Saiba Mais
Artigos muito interessantes que valem a pena serem lidos para complementar o
estudo desta unidade.
HEINZLE, Roberto; GAUTHIER, Fernando A. Ostuni; FIALHO, Francisco Antonio
P. Semântica nos sistemas de apoio à decisão: o estado da arte. Revista da
Unifebe, v. 1, p. Artigo 14, 2010. Disponível em: <http://www.unifebe.edu.br/
revistadaunifebe/2010/artigo014.pdf>.
FOURLAN, Marcos Roberto; GONÇALVES FILHO, Eduardo V. Uma proposta de
aplicação de Business Intelligence no chão‑de‑fábrica. Gestão e Produção. V.12, n.1,
p. 55‑66, 2005. Disponível em: <http://www.scielo.br/pdf/%0D/gp/v12n1/a06v12n1.pdf>.
Pós-graduação
Unidade 2
Colocando inteligência nos negócios
Objetivos de Aprendizagem
•• Assimilar conceitos básicos de Business Intelligence;
•• Examinar a arquitetura básica de um sistema de BI e suas partes;
•• Identificar o BI em diferentes meios.
Introdução
As organizações estão inseridas num cenário que está em constante modificação
e mutação. Teorias baseadas na ideia da complexidade são aplicadas sobre o
modelo organizacional, para ter‑se um melhor entendimento e uma possível
previsão de modificação em curto prazo.
Esse contexto, combinado com a crescente quantidade de dados digitais gerados
de maneira desordenada e distribuída em vários setores da organização, gera
uma série de demandas para o departamento de TI, de modo que seja gerado
ferramental computacional para ajudar a camada gerencial no ganho de agilidade
na tomada de decisão.
As utilizações de estratégias de BI estão cada vez mais presentes nas organizações,
como suporte computacional para a camada tomadora de decisão, mas será que
o BI por si só resolve os problemas citados anteriormente? E qual o futuro do BI,
será que existem pesquisadores que estão pensando em sua evolução de modo a
sempre acompanhar as tendências do mercado? Este capítulo tem como objetivo
dissertar sobre essas perguntas.
46
O que é Business Intelligence?
Flávio Ceci
Nesta leitura, são apresentados mais detalhes sobre Business Intelligence (BI), os
seus pontos históricos, sua evolução, objetivos, entre outras informações relevantes.
As constantes mudanças nas relações econômicas afetam substancialmente a
administração das organizações, que são obrigadas a buscar meios para garantir sua
sobrevivência, melhorarem o desempenho empresarial e, com isso, promover seu
crescimento em mercados cada vez mais competitivos. Ao afetarem o ambiente
empresarial, essas mudanças fazem as organizações repensarem sua estrutura para
se adaptar às novas exigências do mercado (GORDON; GORDON, 2006).
Ainda conforme Gordon e Gordon (2006), a TI permite que as pessoas, grupos
e organizações façam a gestão de suas informações de maneira eficiente. A TI
possui a capacidade de atuar diretamente sobre a necessidade de uma melhora na
qualidade e disponibilidade de informações e conhecimento organizacionais, além
de oferecer oportunidades sem precedentes para melhoria dos processos internos
e dos serviços prestados ao consumidor final, deve‑se ao fato de que “Avanços
significativos na tecnologia de informação tornaram possível obter, gerir e usar
quantidades enormes de informação a um custo relativamente baixo” (GORDON;
GORDON, 2006, p.5).
Nesse contexto, entre os recursos tecnológicos, a Tecnologia da Informação (TI)
tem sido considerada como um fator importante para potencializar o
desenvolvimento dos processos produtivos e da gestão das organizações.
Aplicar inteligência a negócios não é sinônimo de TI, como vastamente confundido,
mas significa que a primeira não vive sem a segunda. É importante entender que
a TI prove ferramental para que a camada gerencial possa tomar as decisões.
Pode‑se fazer uma analogia com a relação que existe entre a engenharia do
conhecimento e a gestão do conhecimento. A engenharia do conhecimento é
responsável por gerar ferramental computacional e metodológico para apoiar os
processos da gestão do conhecimento.
Histórico
O termo Business Intelligence foi patenteado pela empresa Gartner, mas, na
prática, esse conceito já era aplicado muito antes do invento dos computadores,
pelos povos antigos. A sociedade do Oriente Médio antigo utilizava‑se dos
princípios básicos de BI quando cruzavam informações obtidas pela natureza
Pós-graduação
47
para auxiliar na tomada de decisão das aldeias. A análise do comportamento
das marés, o levantamento dos períodos chuvosos e de seca, a movimentação e
posicionamento dos astros era a forma de obter informações que serviam de base
para a tomada de decisões importantes para a comunidade (PRIMAK, 2010).
No contexto computacional, a partir da década de 70 os pacotes de softwares
analíticos começam a surgir no mercado, esses pacotes de dados trabalhavam na
gestão dos dados transacionais. Na década de 90, as planilhas eletrônicas, como
Lotus 1‑2‑3 e, posteriormente, o Excel, facilitaram ainda mais a análise de dados,
possibilitando a utilização de filtros e a construção de gráficos de maneira simples.
As planilhas eletrônicas fizeram tanto sucesso que são utilizadas até hoje pelas
empresas. O uso de consultas utilizando SQL possibilitou ainda o desenvolvimento
de sistemas baseados em modelos relacionais e, posteriormente, em modelos
dimensionais, dando suporte a arquitetura de BI (RASMUSSEN; GOLDY; SOLLI, 2002).
Figura 1 ‑ Evolução a partir de relatórios estáticos para business intelligence
Alto
Interação com o usuário
2002
1996
Aconselhar - Mineração de Dados
Análise - Processamento analítico online
1992
Investigação - Sistemas de Informação Executiva
1985
Baixo
Ação - BI
Agregação - Sistemas de Informação Gerencial
Relatórios
Baixo
Recursos analíticos
Alto
Fonte: Adaptado de Rasmussen, Goldy e Solli (2002).
A Figura 1 apresenta a evolução dos recursos analíticos em relação à possibilidade
de interação dos usuários na análise em questão. Analisando a figura acima, vê‑se
que os primeiros recursos analíticos apresentados são os relatórios.
Os relatórios são utilizados até hoje pelas organizações, o seu uso possibilita a
apresentação de dados e informações de maneira estática, é basicamente uma
“fotografia” de um cenário ou situação. A interação com o usuário é muito baixa,
permitindo apenas o consumo do seu conteúdo.
Colocando inteligência nos negócios
48
Entre a década de 80 e 90 surgem os recursos analíticos classificados como de
agregação (sistemas de informação gerencial) e de investigação (sistemas de
informações executivas), esses recursos permitem uma interação com o usuário
maior, é possível entrar com consultas, o que permitia uma melhor investigação
dos fatos nas informações retornadas pelos sistemas de informação.
É importante ressaltar que a partir da década de 90 surge a necessidade das
organizações serem capazes de fazer análises e planejamentos de modo a reagir
a mudanças dos negócios rapidamente. O motivo para tal é um mercado cada vez
mais competitivo e um consumidor cada vez mais exigente (SASSI, 2010).
A partir de meados da década de 90, percebe‑se mais duas características
dos recursos analíticos, o de análise (OLAP) e o de aconselhar (mineração de
dados). Nesse período, são inseridas “inteligências” nos sistemas de informação,
permitindo uma análise muito mais detalhada, de modo que as técnicas de
inteligência artificial utilizadas possam explicitar muitas informações estratégicas
para a camada tomadora de decisão.
Ainda a partir da década de 90, é inserida a característica de ação aos
recursos analíticos, provendo uma grande interação por parte dos usuários.
Essa característica é possibilitada pelos sistemas construídos em cima de uma
arquitetura de business intelligence.
Definição
Percebe‑se que as práticas de business intelligence representam uma das
abordagens mais modernas da evolução dos sistemas de apoio às decisões
tradicionais. Mas afinal, o que é business intelligence?
Segundo Côrtes (2002) apud Sell (2006), business intelligence é um conjunto
de conceitos e metodologias que visam a apoiar a tomada de decisões nos
negócios, a partir da transformação do dado em informação e da informação
em conhecimento.
Silva (2011, p.32), afirma que business intelligence:
consiste na transformação metódica e consciente dos dados
provenientes de quaisquer fontes de dados (estruturados e não
estruturados) em novas formas de proporcionar informação e
conhecimento dirigidos aos negócios e orientados aos resultados.
Pós-graduação
49
Pode‑se conceituar BI também como a utilização de várias fontes de
informação para firmar estratégias de competitividade nos negócios da
organização (NAPOLI, 2011).
Para Almeida et al. (1999) apud Sell (2006), BI objetiva usar os dados da
organização para apoiar decisões bem informadas, facilitando o acesso e a análise
de dados, assim, possibilita a descoberta de novas oportunidades.
As ferramentas provenientes da arquitetura de BI podem fornecer uma visão
sistêmica dos negócios da organização, ajudando na distribuição uniforme dos
dados entre os usuários, também se pode definir BI como um “guarda‑chuva”
conceitual, tendo em vista que tem como preocupação capturar dados,
informações e conhecimentos que permitam a organização agir com mais
eficiência em uma abordagem evolutiva de modelagem de dados, capaz de
promover a estruturação da informação em repositórios retrospectivos e
históricos (REGINATO; NASCIMENTO, 2007).
De acordo com Sharma e Gupta (2004) apud Sell (2006), implantações
bem‑sucedidas de soluções de BI proveem uma visão integrada do negócio,
estendem as capacidades analíticas dos usuários e impulsionam a formação de
expertise nas organizações.
O investimento em BI por parte das organizações é incentivado pela necessidade
de criação de um ambiente pró‑ativo para a tomada de decisão, com base nos seus
sistemas transacionais (SILVA, 2011).
Objetivos
O foco de soluções de BI é facilitar o entendimento do negócio das organizações,
fornecendo a todos os níveis das organizações informações relevantes sobre
suas operações internas e o ambiente externo, incluindo clientes e competidores,
parceiros e fornecedores (SELL, 2006). O ambiente externo inclui ainda variáveis
independentes que possam impactar no negócio, como tecnologia, leis e
economia mundial, entre outros (BROHMAN et al., 2000 apud SELL 2006).
Segundo Napoli (2011), as técnicas de BI objetivam definir regras e técnicas para
a formatação adequada dos dados, tendo em vista a sua transformação em
depósitos estruturados de informações, não levando em consideração a sua
origem. Para Reginato e Nascimento (2007), BI tem como objetivos transformar
grandes quantidades de dados em informações de qualidade, para a tomada
de decisão, de modo a possibilitar uma visão sistêmica do negócio e auxiliar na
distribuição uniforme dos dados entre os seus usuários.
Colocando inteligência nos negócios
50
Ao analisar os objetivos da aplicação de soluções de BI, fica claro como elas se
enquadram na arquitetura clássica de um sistema de apoio à decisão, percebe‑se
que muito dos objetivos são comuns. Como por exemplo, a preocupação
de tratamento dos dados e a transformação deles em informação ou a
disponibilização dessa informação focada no processo decisório pela camada
gerencial da organização.
As aplicações de BI podem auxiliar em vários segmentos das organizações,
segundo Xavier e Pereira (2009), essas aplicações podem auxiliar a análise de:
•• tendências de transformação do mercado;
•• alterações no comportamento de clientes e padrões de consumo;
•• preferências de clientes;
•• recursos das empresas;
•• condições de mercado.
Os autores ainda afirmam que sistemas de BI permitem que as organizações:
“coletem informações sobre as tendências do mercado e ofereçam produtos e
serviços inovadores, antecipando as transformações das exigências dos clientes”.
É importante ressaltar que as soluções de BI acompanham a necessidade da
organização, evoluindo conforme vão surgindo novos recursos, mídias e desafios.
Evolução
A evolução das soluções de BI está relacionada com a evolução do papel dos
sistemas de informação nas organizações. Inicialmente, nos anos 70 e até
meados dos anos 80, soluções de processamento e impressão de relatórios em
lote dominavam a cena do processo de apoio à decisão. Os usuários tinham,
então, que trabalhar sobre extensos relatórios para extrair elementos básicos de
informação. Com a proliferação dos terminais de acesso aos mainframes, o acesso
aos relatórios digitais foi disseminado, mas o acesso à informação era dificultado
devido à complexidade dos sistemas da época (SELL, 2006).
A segunda fase dos sistemas de apoio à decisão é marcada pelo surgimento do
Data Warehouse (DW), repositórios de dados integrados e preparados para o
apoio à decisão, que, em conjunto com a evolução das ferramentas analíticas,
ofereceu performance e poder analítico para o nível tático e executivo nas
organizações (INMON, 2002; KIMBALL et al., 1998).
Pós-graduação
51
A terceira fase corresponde ao surgimento do BI. Segundo Almeida et al. (1999)
apud Sell (2006), o foco do DW estava muito orientado à tecnologia de
consolidação dos dados. Ainda segundo os autores, as vantagens de projetos de
BI em relação aos de DW são:
•• soluções de BI não são orientadas unicamente à aplicação de tecnologia
de informação de última geração, mas também ao fornecimento de
soluções que integram pacotes verticais de aplicativos e metodologias
para diversos segmentos de negócio;
•• o foco das soluções de BI está no acesso e na distribuição de informação
para o apoio à decisão; e soluções de BI suportam o acesso a todos os
dados da organização, estruturados e não estruturados, e não somente
aos armazenados no DW existe um foco na independência.
O termo BI 2.0 vem sendo cada vez mais utilizados em notícias e artigos científicos,
ele se refere a uma próxima geração do BI que promete seguir a mesma linha da
web 2.0 e apostar nos dados colaborativos. Xavier e Pereira (2009) desenvolveram
o quadro a seguir, apresentando um comparativo entre BI 1.0 e BI 2.0:
Quadro 1 - Comparativo entre BI e BI 2.0
BI
BI 2.0
Consumo estático de relatórios.
Comunidades de usuários dinâmicas,
colaboração ativa e compartilhamento
imediato das informações.
Envio e apresentação de relatórios
estáticos para os usuários.
Fornecimento de informações dinâmicas
e interativas, com usuários elaborando
seus próprios relatórios ou assinando
as informações de que necessitam.
Função de alto custo e considerada
um luxo dentro da organização.
Soluções econômicas e rentáveis
disponibilizadas para a empresa como um todo.
BI para uns poucos usuários especializados.
BI para todos dentro da organização,
na medida em que for necessário.
Relatórios orientados para a impressão.
Aplicações de geração de relatórios
interativas e baseadas na Web.
Gráficos com barras estatísticas e
gráficos circulares segmentados.
Visualização de dados intuitiva,
dinâmica e interativa.
OLAP para análise.
OLAP junto a alternativas inovadoras,
menos complexas e de alto desempenho
e geração ad hoc de relatórios.
Instalação, upgrade e uso complexos
e de alto consumo de tempo.
Instalação, upgrades e uso simplificados.
Relatórios baseados no desktop
ou em HTML estáticos.
Relatórios integrados com eventos e
processos automatizados; relatórios
como serviços na Web (via XML).
Colocando inteligência nos negócios
52
BI
BI 2.0
Aplicações de geração de relatórios para
desktop, com Active‑X e smart client.
Aplicações baseadas na Web com
ambientes de usuários ricos e interfaces
de usuários altamente interativas.
Parâmetros de pesquisa predefinidos.
Pesquisas dinâmicas ou de estilo
livre e exploração de dados.
Dados estruturados.
Conjunto ampliado de tipos de dados
suportados, inclusive dados não
estruturados e serviços XML da Web,
assim como mixagem de seu conteúdo.
Fonte: Xavier e Pereira (2009).
Analisando o quadro desenvolvido por Xavier e Pereira (2009), percebe‑se
que muitos dos pontos levantados como característicos do chamado BI 2.0 já
foram atendidos pelo BI tradicional. Essa classificação não é “oficial”, é mais
uma terminologia adotada por alguns autores para caracterizar a utilização das
estratégias de BI ao longo dos anos e momentos.
Como características principais apresentadas no quadro podem‑se levantar:
•• Aumento da quantidade de usuário à aplicação de BI na organização (mais
setores a utilizam, tirando o foco somente da camada gerencial);
•• Aplicações mais simples e intuitivas, com melhora no tempo de resposta;
•• Combinação dos dados dos repositórios da organização com dados
disponíveis na Web.
Na visão de Pintas e Siqueira (2011), a maior deficiência das soluções tradicionais
de BI está na latência entre o acontecimento do evento e a tomada de decisão.
Segundo os autores em questão, o BI 2.0 tem como foco atacar essa latência.
Nesse contexto, os autores sugerem a adição de recursos semânticos para auxiliar
nessa tarefa.
A utilização de semântica para auxiliar as soluções de BI não é uma ideia muito
nova. Sell (2006) apresenta em seu trabalho “Uma arquitetura para business
intelligence baseada em tecnologias semânticas para suporte a aplicações
analíticas” uma série de informações sobre essa abordagem. O autor apresenta
alguns requisitos funcionais para possibilitar o Semantic Business Intelligence:
•• RF001 – Possibilitar a navegação sobre as fontes de dados a partir dos
conceitos do negócio e seus relacionamentos;
•• RF002 – Permitir a utilização às regras de negócio para apoiar o
processo analítico;
Pós-graduação
53
•• RF003 – Propiciar flexibilidade para modificações dos conceitos de regras
do negócio;
•• RF004 – Permitir a extensão às funcionalidades exploratórias a partir e
aplicações existentes na Web ou na organização;
•• RF005 – Permitir a composição de serviços para a extensão de
funcionalidades exploratórias;
•• RF006 – Suportar recomendação proativa de recursos aos usuários para
apoiar o processamento analítico.
Tendo os requisitos a mão, Sell (2006) apresenta a arquitetura de solução para
viabilizar o BI semântico:
Figura 2 - Arquitetura para Semantic Business Intelligence
OLAP
Relatórios
Portais
Clientes
Gerenciador
de Análises
Módulos Funcionais
Gerenciador
de Serviços
Gerenciador
de Ontologias
Infraestrutura WSS
Reasoner
Ontologia
do Domínio
Ontologia
de Serviços
Ontologia
BI
Data Warehouse
Mecanismos
de Inferência
Repositórios
de Ontologias
Fontes de Dados
Fonte: Sell (2006).
Um ponto muito importante apresentado na figura da arquitetura são as
ontologias, que possibilitam a representação de um conhecimento ou conceitos
de domínio, o que permite os recursos semânticos e viabiliza os requisitos
apresentados anteriormente. Segundo Napoli (2011), o repositório de ontologias
permite o mapeamento da semântica do negócio, dos dados da organização e dos
serviços necessários para o apoio ao processo decisório.
Colocando inteligência nos negócios
54
Outra contribuição importante desse modelo que não segue o clássico de BI é a
presença dos mecanismos de inferência, que possibilitam “raciocinar” sobre os
conceitos das ontologias e instâncias da base de conhecimento. Para Napoli (2011),
os mecanismos de inferência permitem a realização de processamento de regras
sobre ontologias, o autor também afirma que esse recurso possibilita a capacidade
de filtrar os dados reunidos na análise ou a expansão dos dados por meio da
definição das regras.
Existem trabalhos que utilizam o termo Business Intelligence 3.0 para arquiteturas
de BI que fazem uso de fontes de dados não estruturadas a partir de mídias sociais.
Essas informações são muito importantes para a organização e podem auxiliar
a inteligência competitiva, a análise de opinião sobre os produtos e serviços da
organização (LUNARDI, 2011).
De maneira geral, percebe‑se que algumas das práticas de BI já eram utilizadas
muito antes do invento do computador, e que até hoje essa abordagem é
muito utilizada e pesquisada pelas organizações e universidades. Percebe‑se
que as propostas de BI 2.0 e BI 3.0 são respostas a eventos que as organizações
vivem. A próxima leitura está focada na utilização e na descrição dos principais
componentes de uma arquitetura de Business Intelligence.
Referências
GORDON, Steven R.; GORDON, Judith. Sistemas de informação: uma abordagem gerencial.
3. ed. Rio de Janeiro: LTC, 2006.
INMON, W. H. Como construir o Data Warehouse. Rio de Janeiro: Campus, 1997. 388 p.
LUNARDI, Riccardo. Panoramic and main features of Business Analytics. Tese (Doutorado)
2011 ‑ Universita Degli Studi di Padova, Facolta di Ingegneria. Ingegneria Informatica,
Padova (Itália), 2011.
KIMBALL, Ralph. Data warehouse toolkit. São Paulo: Makron Books, 1998. 379 p.
NAPOLI, Marcio. Aplicação de ontologias para apoiar operações analíticas sobre fontes
estruturadas e não estruturadas. 2011. Dissertação (Mestrado) ‑ Universidade Federal de
Santa Catarina, Programa de Pós‑Graduação em Engenharia e Gestão do Conhecimento,
Florianópolis, 2011.
PINTAS, Juliano T.; SIQUEIRA, Sean W. M. O papel da semântica no Business Intelligence 2.0:
Um exemplo no contexto de um programa de pós‑graduação. VII Simpósio Brasileiro de
Sistemas de Informação. Salvador, 2011.
Pós-graduação
55
PRIMAK, Fábio Vinícius. Decisões com B.I. Rio de Janeiro: Editora Ciência Moderna, 2008.
RASMUSSEN, Nils; GOLDY, Paul S.; SOLLI, Per O. Financial Business Intelligence – Trends,
Technology, Software Selection, and Implementation. John Wiley and Sons, Inc., New
York, 2002.
REGINATO, Luciane; NASCIMENTO, Auster Moreira. Um estudo de caso envolvendo
business intelligence como instrumento de apoio à controladoria. Revista Contabilidade
& Finanças. São Paulo, p.69‑83, 2007.
SASSI, Renato Jose. Data Warehouse e Business Intelligence Operacional: Revistando a
Tecnologia e Analisando as Tendências do Armazém de Dados. XXX Encontro Nacional de
Engenharia de Produção. ENEGEP 2010. São Carlos, 2010.
SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias
semânticas para suporte a aplicações analíticas. 2006. Tese (Doutorado) ‑ Universidade
Federal de Santa Catarina, Centro Tecnológico. Programa de Pós‑Graduação em
Engenharia de Produção, Florianópolis, 2006.
SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para processamento
analítico baseado em tecnologias semânticas e em linguagem natural. 2011.
Dissertação (Mestrado) – Universidade Federal de Santa Catarina, Programa de
Pós‑Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011.
XAVIER, Fabrício S. V.; PEREIRA, Leonardo Bruno R. SQL dos Conceitos às Consultas
Complexas. Editora Ciência Moderna, Rio de Janeiro, 2009.
Colocando inteligência nos negócios
56
Arquitetura típica de BI
Flávio Ceci
Muitas das práticas utilizadas no BI já eram utilizadas pelos povos antigos para
auxiliar na sua prática na agricultura e pecuária. O termo em si ganhou mais
representação quando suportado por ferramental computacional. À medida
que novas tendências surgem, as arquiteturas de BI se moldam para atender os
novos desafios e de modo a utilizar os novos recursos da organização. É possível
perceber essa linha de evolução olhando o surgimento do conceito de “Semantic
Business Intelligence”, junto à popularização e ascensão da área de Web Semântica,
ou ainda, com o surgimento e a grande utilização das redes sociais surgem
trabalhos que alguns autores utilizam o termo business intelligence 3.0, como
sendo os que utilizam os dados desse tipo de mídia para auxiliar a análise e
tomada de decisão nas organizações. Também são utilizadas técnicas avançadas
de processamento de linguagem natural, além dos componentes da arquitetura
típica (clássica) de BI.
Essa leitura está mais focada na aplicação das soluções de BI, bem como na sua
arquitetura clássica. Dando continuidade aos nossos estudos, é apresentado
abaixo um quadro adaptado por Sell (2006), que exibe as características de
utilização das soluções de BI:
Quadro 1 - Características de utilização das soluções de BI
FOCO
AMBIENTE INTERNO
AMBIENTE EXTERNO
•• Segmentação, preferências e
comportamentos dos clientes.
•• Operações do negócio.
Objetivos
de análise
•• Cadeia de suprimentos.
•• Gestão de relacionamento
com os clientes.
•• Clientes e fornecedores.
•• Economia.
•• Aspectos regulatórios.
•• Concorrência:
-- segmentação;
-- líderes.
•• Perfil de compra.
Objetivos
Utilização
Eficiência.
Análise, refinamento
e reengenharia do
desempenho do mercado.
Posicionamento no mercado.
Modelagem e previsão do
comportamento do mercado.
Posicionamento no mercado.
Aprendizagem das tendências de consumo.
Identificação de riscos, tecnologias e regulação.
Fonte: Sell (2006). Adaptado.
Pós-graduação
57
As soluções de BI não são guiadas unicamente a aplicações de TIC (tecnologia
da informação) de última geração, mas também ao fornecimento de soluções
que integram recursos verticais de aplicativos e metodologias para diversas
áreas do negócio. Vale lembrar que o foco das soluções de BI está no acesso e na
distribuição de informações para auxiliar o apoio à decisão (SELL, 2006).
As arquiteturas tradicionais de BI utilizam vários elementos e técnicas para
transformação (processamento) de dados em informação (SILVA, 2011). De maneira
mais ampla, pode‑se dividir a arquitetura de BI em três principais componentes:
•• ETL (Extraction, Transformation and Loading), processo responsável por
extrair os dados das bases operacionais (transacionais) da organização,
efetuar transformações a fim de gerar informações válidas para a
análise e apoio ao processo decisório e, por último, armazená‑las em um
repositório que facilite o acesso às informações.
•• Repositório de dados analíticos: são representados pelos Data
Warehouses (DW), repositórios de dados que utilizam modelagens
(geralmente modelagem dimensional), as quais podem dispor os dados
de maneira mais natural para a análise e o processo de decisão.
•• O último componente é a camada de apresentação. Essa camada pode‑se
utilizar de uma série de técnicas e / ou ferramentas para auxiliar o
consumo e apresentação das informações armazenadas pelo DW.
A figura a seguir adaptada por Silva (2011) do trabalho de Hodge (2011)
representa a arquitetura tradicional de BI com os seus principais componentes
e técnicas utilizadas:
Colocando inteligência nos negócios
58
Figura 1 - Arquitetura tradicional de BI com os principais componentes
Fonte: Silva (2011).
A primeira camada é a chamada de “Sistemas Operacionais”, ou seja, são as
fontes de dados operacionais (transacionais) da organização, Nessa camada
estão todas as bases por setor: finanças, serviços. Suprimentos, RH, P&D,
Logística, clientes, vendas.
O processo de ETL recupera os dados dispersos pelas várias bases operacionais
das organizações e após o processamento os concentra na forma de informações
analíticas, no data warehouse da organização.
Os dados organizados no repositório podem ser consumidos pela camada de
apresentação que é representada pelas várias técnicas de ferramentas:
•• Relatórios;
•• OLAP;
•• Dashboards;
•• Alertas;
•• Scorecards.
É importante ressaltar que não existe solução de BI genérica, ou seja, cada
organização possui um cenário particular e mais importante ainda, perguntas
específicas que procuram respostas. O que temos em comum a todas as
organizações é a arquitetura geral tradicional de BI.
Pós-graduação
59
Iniciando um projeto de BI
A implantação de uma solução de BI em nível organizacional não é uma tarefa
fácil, nem tão pouco rápida! É necessário um bom planejamento e reservar uma
boa parcela de tempo para ter sucesso nesse processo. Segundo Primak (2008),
deve ficar claro que apesar desses projetos envolverem o uso de ferramentas e
soluções de Tecnologia da Informação (TI), é importante entender que BI é um
projeto de negócio aplicado para a empresa no contexto geral. O que o autor
quer dizer com a afirmação anterior é que o uso de uma solução de BI não é igual
ao uso de um sistema de informação comum, é necessário que a organização
esteja preparada para utilizar o sistema e saber como chegar às informações e aos
conhecimentos implícitos.
Para Primak (2008), existem dois tipos de planejamento que devem ser feitos para
a execução bem‑sucedida de um projeto de BI, que são:
•• Planejamento Estratégico Corporativo (PEC): explicitam as oportunidades,
os riscos, os pontos fortes e fracos da organização. Esse procedimento que
traça as principais metas e as estratégias para alcançá‑las.
•• Planejamento Estratégico da Informação (PEI): é de responsabilidade
da área de administração de dados e visa a identificar todos os sistemas
da organização, suas bases de dados, além da avaliação da qualidade
dos dados.
Partindo para o desenvolvimento e implantação da solução de BI, deve‑se,
inicialmente, ter uma visão sistêmica da organização, de modo que sejam
facilmente identificados quais tipos de pergunta deseja‑se responder utilizando
a solução de BI. Quando essas informações já tiverem sido levantadas, pode‑se
partir para a modelagem do repositório único dos dados e informações (DW).
Geralmente esses repositórios utilizam para a organização a modelagem
dimensional, que é constituída por tabelas de dimensões (filtros e informações
que serão cruzadas) e tabelas fato (possuem uma série de valores já processados
e distribuídos pelas dimensões em questão).
Após a construção do DW, é necessário criar rotinas para carga, para isso se
utilizam ferramentas ETL. Essas ferramentas devem ler os dados armazenados
nas várias bases operacionais da organização, processá‑los (de modo que os
agrupe de modo mais natural para a análise) e, posteriormente, carregá‑los nas
tabelas do DW.
Tendo os repositórios de dados e informações modelados e devidamente
carregados, deve‑se identificar quais técnicas de análises (mineração de
dados) podem ser aplicadas para a extração de informações implícitas e até
mesmo conhecimento.
Colocando inteligência nos negócios
60
Devem‑se combinar as técnicas de mineração de dados com o ferramental da
área de apresentação para auxiliar o consumo de informação e conhecimento
proveniente da solução de BI, de modo que seja o mais natural para a tomada
de decisão.
O que se deve levar em conta para a implementação de uma solução de BI numa
organização? Primak (2008) apresenta algumas questões que devem ser verificadas:
•• Questões de balanceamento de metas: quais são as metas para o curto,
médio e longo prazo?
•• Questões de base: quais são as competências da minha organização para
atingir a meta e o que eu devo procurar no mercado?
•• Investimentos e riscos: quanto vai custar o projeto de BI? Quanto e o que
eu espero de retorno?
•• Levantar os interessados: verificar quem, no contexto organizacional,
serão os beneficiados com a solução de BI;
•• Avaliação dos resultados: deve‑se sempre avaliar os resultados, em todas
as etapas, pois mudanças podem ser necessárias para um maior sucesso.
De modo geral, percebe‑se que as soluções de BI não são apenas tecnológicas,
é necessário que a organização esteja preparada para usufruir dos seus
recursos, bem como adotar atividades que utilizem tais recursos para um maior
aproveitamento da solução.
Os próximos capítulos apresentam mais detalhes sobre cada uma das camadas da
arquitetura de business intelligence tradicional.
Referências
HODGE, P. Business intelligence Architecture. Disponível em <http://sites.google.com/a/
paulhodge.com/www/architecture>. Acesso em 21 de Janeiro de 2012.
PRIMAK, Fábio Vinícius. Decisões com B.I. Rio de Janeiro: Editora Ciência Moderna, 2008.
SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias
semânticas para suporte a aplicações analíticas. 2006. Tese (Doutorado) ‑ Universidade
Federal de Santa Catarina, Centro Tecnológico. Programa de Pós‑Graduação em
Engenharia de Produção, Florianópolis, 2006.
SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para processamento
analítico baseado em tecnologias semânticas e em linguagem natural. 2011.
Dissertação (Mestrado) – Universidade Federal de Santa Catarina, Programa de
Pós‑Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011.
Pós-graduação
61
Atividades de Autoaprendizagem
1) Levando em consideração o conteúdo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:
a. ( ) As práticas de BI só foram possíveis com o advento dos computadores.
b. ( ) DW nada mais é do que um banco de dados que utiliza como modelagem
de dados a abordagem relacional.
c. ( ) ETL é o processo de mineração de dados previsto pela arquitetura de BI.
d. ( ) O planejamento estratégico corporativo e da informação são
planejamentos que devem ser feitos para um projeto de BI bem sucedido.
e. ( ) A chamada área de apresentação é onde as informações são organizadas
e centralizadas.
f. ( ) A ideia de adicionar recursos semânticos à arquitetura de BI é anterior aos
chamados BI 2.0 e BI 3.0.
Atividade colaborativa
Nesta unidade, você estudou uma série de conceitos relacionados com sistemas
de informação e sistemas de apoio à decisão. Responda à pergunta a seguir
utilizando a ferramenta Fórum, não se esqueça de comentar as respostas dos
seus colegas.
O uso de recursos semânticos permite uma séria de possibilidades para as
análises de informações disponíveis pelo BI, quais possibilidades são essas?
Como elas podem auxiliar na análise das informações?
Síntese
Nesta unidade, é estudado com mais detalhes a arquitetura de BI, qual a sua
origem, seus fatores históricos, quais são os seus principais objetivos, como
se deu a sua evolução, quais as suas tendências (BI 2.0, BI 3.0...). Também é
apresentado como iniciar um projeto de BI e quais são os principais componentes
de uma arquitetura de BI.
Colocando inteligência nos negócios
62
Saiba Mais
O artigo abaixo foi publicado em 2012 e traz uma visão geral sobre BI e como as
tecnologias semânticas podem dar suporte as suas análises, vale muito a pena
esta leitura:
SELL, Denilson; SILVA, Dhiogo, C.; GHISI, Fernando B.; NAPOLI, Marcio; TODESCO,
José L. Adding Semantics to Business Intelligence: Towards a Smarter Generation
of Analytical Tools. In. Business Intelligence: Solution for Business Development.
InTech, 2012.Disponível em: <http://www.intechopen.com/articles/show/title/
adding-semantics-to-business-intelligence-towards-a-smarter-generation-ofanalytical-tools>.
Pós-graduação
Unidade 3
Data Warehouse
Objetivos de Aprendizagem
•• Compreender a construção e o funcionamento dos Data Warehouses,
como suporte ao armazenamento das informações das organizações;
•• Identificar as principais características de um Data Warehouses;
•• Entender o que é modelagem dimensional.
Introdução
A crescente produção de dados pelos sistemas transacionais da organização,
de maneira distribuída pelos vários setores e ferramentas, acaba dificultando a
visualização e a análise dos dados pela camada gerencial.
Desse modo, é importante a utilização de repositórios de dados centralizados,
que facilitam o acesso aos dados e permitam que eles possam ser cruzados e
comparados. Além da disponibilização dos dados em um repositório, também é
necessário que esses repositórios possuam os dados organizados de maneira mais
natural para a análise, sendo, assim, mais eficiente.
Esta unidade é focada no estudo dos repositórios de dados do tipo Data
Warehouse (DW), sua arquitetura, como ele pode ser desenvolvido, quais as
etapas necessárias para a sua implantação e como é feita a integração e a carga
dos seus dados.
64
Componentes de um DW
Flávio Ceci e Gláucio Adriano Fontana
Com o aumento do uso dos sistemas de informações transacionais, cada vez mais
são armazenados dados em bases não centralizadas. O que funciona bem para o
controle operacional dos setores da organização apresenta um problema para a
camada gerencial, que atua transversalmente, pois não traz uma visão sistêmica
das operações organizacionais.
Além de não possuir uma visão integrada das operações da organização, esta
abordagem mantém todos os dados operacionais distribuídos entre vários
sistemas, o que dificulta a análise deles, além de não possuir uma garantia de que
estão corretos.
Os Data Warehouse (DW) têm como função atuar neste contexto. Segundo Teorey,
Lightstone e Nadeau (2007), um DW é um grande repositório de dados históricos
da organização, que podem ser integrados, a fim de apoiar o processo decisório.
Para Xavier e Pereira (2009), DW é uma grande base de dados que organiza e
armazena informações integradas a partir de bases de dados operacionais.
DW é um conjunto de dados orientado por assuntos, não volátil, variável com o
tempo e integrado, criado para dar suporte à decisão. Isto é, direcionar a visão
do negócio da empresa, de maneira não modificável, como nos bancos de dados
transacionais, pois neste ínterim dados passados são históricos, variáveis no
tempo, sincronizados e integrados, necessários ao pensamento estratégico e à
tomada de decisões (CIELO, 2008; INMON, 2001).
Em um exemplo simples e claro: A empresa X possui um cliente chamado João,
que é solteiro. João realizou diversas compras de cerveja e macarrão durante dois
anos. Então, ele se casou, agora, na base de dados (BD), João agora é casado.
E ele passou a comprar fraldas. Uma análise nesse BD dos produtos comprados
por um cliente iria nos informar que João é casado, compra cerveja, macarrão,
refrigerante e fraldas. O fato de ele ter mudado seu perfil de compra após o
casamento não seria registrado pelo banco de dados transacional, logo, seria
informação perdida, que poderia ser muito melhor aproveitada pela organização.
O DW permite ter uma base de dados integrada e histórica para análise dos dados,
isso pode e deve se tornar um diferencial competitivo para as empresas. Tendo
uma ferramenta desse porte na mão, o executivo pode decidir com muito mais
eficiência e eficácia. As decisões serão embasadas em fatos e não em intuições,
poderão ser descobertos novos mercados, novas oportunidades, novos produtos,
podem‑se criar relações melhores com clientes, por exemplo, conhecendo hábitos
mais a fundo e com mais detalhes do que se poderia imaginar.
Pós-graduação
65
A orientação por assunto, conforme Cielo (2008), nada mais é do que o
direcionamento que se dá da visão que será disponibilizada, do negócio da empresa.
Por exemplo: em uma empresa de Telecom, o principal assunto é o cliente, e esses
clientes podem ser residenciais, empresas, telefonia pública etc. Então, quando um
arquiteto de Warehouse for desenhar esse modelo, deve levar em consideração
essas premissas e dividir as visões de acordo com o que o decisor quer ver. Observe
que tudo girará em torno dos assuntos, seja qual for a visão que se quer ter, ou seja,
a visão financeira da empresa também girará em torno disso, seja a inadimplência,
o faturamento, a lucratividade etc. A Figura 1 ilustra está situação:
Figura 1 ‑ Exemplo de disposição de tabelas por assunto
Empresa
Cliente
Lucro
Telefonia Pública
Ano
Fonte: Elaboração do autor (2012).
Como se pode observar na Figura 1, as tabelas estão centradas num determinado
assunto, nesse caso, são os lucros da empresa de Telecom. Além do assunto central,
existem tabelas que trazem as dimensões que serão cruzadas para chegar a uma
informação, nesse caso, obrigatoriamente é consolidada e distribuída por ano.
A volatilidade refere‑se ao Warehouse não sofrer mumificações como nos sistemas
tradicionais, por exemplo: no sistema de faturamento de uma empresa, todos
os dias há inclusões e alterações de novos clientes, novos produtos e consumo.
Já no Warehouse, acontecem somente cargas de dados e consultas, ou seja,
falando tecnicamente, há somente selects e inserts, e não há updates. Existem
basicamente duas operações, a carga e a consulta, nada mais que isso (CIELO,
2008). A Figura 2 apresenta mais detalhes sobre esta característica:
Data Warehouse
66
Figura 2 ‑ Relacionamento de volatilidade entre bases operacionais e DW
Base Operacional
Inserção
Data Warehouse
Acesso
Alteração
Acesso
Acesso
Remoção
Inserção
Remoção
Carga
Acesso
Alteração
Registro por registro/
Manipulação de dados
Carga em massa/
acesso aos dados
Fonte: Adaptado de Inmon (2007), p.34.
A Figura 2 demonstra como as bases operacionais recebem requisições em
nível de operação, ou seja, cada nova venda ou baixa no estoque gera uma
nova requisição. As operações podem ser de inserção, alteração, remoção ou
acesso. Já os DW são carregados de tempos em tempos, armazenando dados já
consolidados, posteriormente só terão acesso a essas informações.
Variável com o tempo é uma característica ímpar no Warehouse. Ele sempre
retrata a situação que estamos analisando em um determinado ponto do tempo.
Cielo (2008, p.1) utiliza uma interessante analogia com fotografias:
pegue uma fotografia sua, quando recém nascido, depois, pegue
outra quando você tinha 5 anos, e compare. Com certeza muitas
modificações ocorreram, mas ela retrata exatamente a sua situação
naquele exato momento do tempo, e isso acontece da mesma
forma com o Data Warehouse. Nós guardamos fotografias dos
assuntos em determinados pontos do tempo, e com isso é possível
poder traçar uma análise histórica e comparativa entre os fatos.
A Figura 3 ilustra a situação da analogia da fotografia. A tabela azul representa
como os dados estão organizados numa base operacional, onde cada operação
de venda para um cliente gera uma linha inserida na tabela. Após o processo de
transformação representado pela seta vermelha, os dados estarão armazenados,
consolidados por dia na tabela do DW, representado pela tabela verde da Figura 3.
É importante destacar que a consolidação dos dados poderia ser feita sobre
outra unidade atômica de tempo que não seja dia. Poderia ser feita por mês ou
ano, caso tivesse muitas operações, seria por hora. Esse tipo de decisão deve ser
tomada pensando no tipo de análise que se pretende efetuar e da distribuição da
massa de dados.
Pós-graduação
67
Figura 3 ‑ Demonstrando a analogia da “fotografia” dos dados
Fonte: Elaboração dos autores (2012).
A integração talvez seja a parte mais importante desse processo, pois ela será
responsável por sincronizar os dados de todos os sistemas existentes na empresa
e colocá‑los no mesmo padrão.
Como sabemos, o Warehouse extrai dados de vários sistemas da empresa e,
em alguns casos, dados externos, como a cotação do dólar. Porém, geralmente
os dados não estão padronizados, devido aos problemas que citamos acima,
e é necessário integrar antes de carregarmos no DW.
Um exemplo clássico é o do sexo. Em um sistema, esse dado está guardado no
formato M para masculino e F para feminino, já no outro, o mesmo dado está
guardado como 0 para masculino e 1 para feminino. Isso geraria um grande problema
na hora da análise, porém, na fase de ETL (Extração, Transformação e Carga), isso
tudo vira uma coisa só, ou seja, todos os formatos são convertidos em um único
padrão, que é decidido com o usuário final e então carregado no Warehouse.
Data Warehouse
68
Figura 4 ‑ Exemplo da padronização das informações
Fonte: Elaboração dos autores (2012).
A Figura 4 representa como funciona a integração dos dados das tabelas azul,
vermelha e laranja, ou seja, registros em várias bases de dados distribuídos pelos
sistemas transacionais da organização. Nesse exemplo vê‑se que a informação
relacionada com o sexo é apresentada de três maneiras completamente
diferentes, no caso da tabela azul, está por extenso, na tabela vermelha é utilizado
M para masculino e F para feminino, já no caso da tabela laranja, o sexo masculino
é representado pelo número inteiro 0 e o feminino pelo 1. A tabela em verde
demonstra a integração dos dados, essa tabela representa uma dimensão “Sexo”
que possui um identificador padrão, ou seja, em todas as tabelas do DW que tiver
referência para sexo, será utilizado um identificador que, nesse caso, é M para
masculino e F para feminino.
Visão geral do DW
O uso dos Data Warehouse traz uma série de benefícios para a tomada de
decisão da camada gerencial da organização, os autores Teorey, Lightstone
e Nadeau (2007), desenvolveram uma tabela que compara os sistemas
transacionais (OLTP – on‑line transaction processing):
Pós-graduação
69
Quadro 1 – Comparativo entre OLTP e DW
OLTP
Data Warehouse
Orientado a transação (operação)
Orientado ao processo do negócio (a assuntos)
Milhares de usuários
Poucos usuários
(normalmente a camada gerencial)
Geralmente utiliza pouco espaço
(MB até vários GB)
Utiliza muito espaço
(de milhares de GB a vários TB)
Dados atuais
Dados históricos (fotografias)
Dados normalizados
(muitas tabelas, poucas colunas por tabela)
Dados não normalizados
(poucas tabelas com muitas colunas)
Atualização contínua
Atualizações em lote
(processo de carga de tempos em tempos)
Consultas de simples a complexas
Normalmente, consultas muito complexas.
Fonte: Teory, Lightstone e Nadeau (2007).
O Quadro 1 apresenta características muito importantes dos DWs. Primeiramente,
são apresentados como orientados a processo de negócio, ou seja, são projetados
pensando nos “assuntos” relacionados à organização que se deseja tratar. Pelo
fato do DW armazenar informações dispostas de modo a facilitar a análise, o seu
uso é focado na camada gerencial, que corresponde a uma pequena parcela de
funcionários da organização.
A ideia de ter um repositório de dados implica diretamente armazenar uma grande
quantidade de dados, dados esses que são armazenados de maneira história, ou
seja, consolidados por um período de tempo específico. Por esse motivo, a carga
do DW é feita em lote, e de tempos em tempos.
Como foi comentado anteriormente, os data warehouse são repositórios
integradores de informações relevantes à organização. Para facilitar o seu
consumo, pode‑se utilizar a ideia de data marts. Segundo Xavier e Pereira (2009),
data mart é um pequeno data warehouse que possibilita apoio à decisão de um
pequeno grupo de pessoas e assuntos.
Na visão de data mart de Kimball um data mart é um DW orientado por assunto
ou área organizacional, é uma versão reduzida de um DW que se concentra na
exigência de um departamento específico (TURBAN et al, 2009).
Data Warehouse
70
Requisitos de um Data Warehouse
Os autores Teorey, Lightstone e Nadeau (2007) elaboraram uma lista de requisitos
e princípios para um projeto de DW:
1. Possuem orientação por assunto, ou seja, áreas de interesses como, por
exemplo: vendas, gerenciamento de projetos, compras etc.
2. Devem ter a capacidade de integração, reunir os vários dados espalhados
pelas bases transacionais no DW;
3. Os dados são caracterizados como não voláteis e são carregados em lote.
Também deve‑se utilizar o recurso de limpeza de dados;
4. Os dados podem ter vários níveis de granularidades, isso quer dizer que
podem ser consolidados por várias dimensões diferentes, como por
exemplo, de tempo entre outras;
5. O DW deve ser suficientemente flexível para dar suporte rapidamente às
necessidades constantes de mudança;
6. Deve ter a capacidade de “reescrever a história”, ou seja, permitir análises
hipotéticas do tipo: “o que acontece se...”;
7. Deverá suportar uma interface de usuário para interagir com os dados
armazenados, no geral utiliza‑se SQL;
8. Os dados devem estar centralizados ou distribuídos fisicamente, e deverá
suportar uma visão lógica centralizada.
Muitos dos requisitos apresentados já haviam sido abordados nessa leitura, além
dos requisitos é importante identificar os principais componentes de um DW,
esses são apresentados a seguir.
Principais Componentes de um DW
Sabe‑se que os data warehouses são repositórios de dados, mas eles, por si só, não
trazem suporte às etapas de apoio à decisão. Para viabilizar um projeto de DW,
faz‑se necessária a presença de uma série de componentes. Turban et al (2009)
desenvolveram a seguinte figura para ilustrar esses componentes e suas interações:
Pós-graduação
71
Figura 5 ‑ Principais componentes de um DW
Aplicações
Aplicações
Personalizadas
Acesso
Replicação
Seleção
Legados
Extrair
Transformar
OLTP
Externos
Integrar
Manter
Preparação
Sistemas
operacionais/
dados
Relatórios de
metadados
Data
warehouse
empresarial
Data
Mart
Marketing
Data
Mart
Gestão
de Risco
Data
Mart
Banco de dados alvo
Engenharia
(HDB, MDDB)
A
P
I
S
M
i
d
d
l
e
w
a
r
e
Ferramentas
de produção
de relatórios
Ferramenta
de consulta
relacional
Visualização
de Informação
OLAP/ROLAP
Navegadores
Web
Mineração
de Dados
Fonte: Turban et al (2009), p. 61.
A partir da análise da Figura 5 são apresentados mais detalhes sobre os componentes:
•• Fontes de dados: são as várias bases de dados transacionais espalhadas pela
organização, que fazem parte dos sistemas de informações operacionais
como, por exemplo: OLTP, ERP (sistemas integrados de gestão);
•• Extração de dados: é o chamado processo de ETL, ou seja, o processo de
extração, transformação e carga dos dados no DW;
•• Área de estagiamento: é uma camada intermediária entre os dados
operacionais e a carga do DW, serve para o processo de limpeza dos
dados antes que eles ingressem no DW;
•• Metadados: são mantidos para que sejam acessados pela equipe
de TI e pelos usuários. Facilitam a recuperação e organização dos
dados armazenados;
•• Ferramentas de Middleware: permite o acesso ao DW de maneira mais
padronizada, como uma interface de acesso, para que outros serviços
possam interagir com as informações armazenadas.
Data Warehouse
72
É importante lembrar que há outros componentes participando, como por
exemplo, se a abordagem de BI que utiliza o DW em questão tiver recursos
semânticos, é muito provável que será necessário a presença de ferramentas de
processamento de linguagem natural, de anotação de conteúdo e até mesmo de
ontologias e bases de conhecimento.
Referências
ANGELONI, Maria Terezinha. Organizações do conhecimento: infraestrutura, pessoas e
tecnologias. São Paulo: Saraiva, 2008. 363 p.
BONOMO, Peeter. Construção de Data Warehouse (DW) e Data Mart (DM). Artigo online.
Disponível em <http://imasters.uol.com.br/artigo/11178> Acesso em: julho de 2009.
CIELO, Ivã. Data Warehouse como diferencial competitivo. Artigo on line. Disponível em
<http://www.always.com.br/site2005/internet_clip07.html> Acesso em: julho de 2008.
INMON, W. H.; TERDEMAN, R. H.; IMHOFF, Claudia. Data Warehousing: como transformar
informações em oportunidades de negócios. São Paulo: Berkeley, 2001. 266 p.
INMON, W. H.. Como construir o Data Warehouse. Rio de Janeiro: Campus, 1997. 388 p.
KIMBALL, Ralph. Data warehouse toolkit. São Paulo: Makron Books, 1998. 379 p.
TEOREY, Toby; LIGHTSTONE, Sam; NADEAU, Tom. Projeto e Modelagem de Bancos de
Dados. Elsevier, Rio de Janeiro, 2007.
TURBAN, Efraim et al. Business Intelligence – Um enfoque gerencial para a inteligência do
negócio. Editora Bookman, Porto Alegre, 2009.
XAVIER, Fabrício S. V.; PEREIRA, Leonardo Bruno R. SQL dos Conceitos às Consultas
Complexas. Editora Ciência Moderna, Rio de Janeiro, 2009.
Pós-graduação
73
Ciclo de vida de desenvolvimento
Flávio Ceci
Cada vez mais as organizações estão utilizando repositórios centrais de dados
e informação, com a intenção de facilitar a análise desses dados, melhorando
o seu consumo por soluções de BI. Os Data Warehouses (DW) são os maiores
representantes das soluções de repositórios de dados analíticos. Mas como se
deve desenvolver um DW? Existe alguma arquitetura ou metodologia para facilitar
a implementação desse tipo de projeto? Essa leitura tem como foco responder a
essas questões.
A implantação de um projeto de DW possui um ciclo de vida para o seu
desenvolvimento, ou seja, possui fases necessárias para a obtenção do sucesso.
Segundo Teorey, Lightstone e Nadeau (2007), o ciclo de vida se inicia com uma
conversa para determinar o plano de projeto e as necessidades do negócio.
Para facilitar o entendimento do ciclo, os autores desenvolveram a Figura 1 a
seguir, baseada no livro de Kimball e Ross (2002):
Figura 1 ‑ Ciclo de vida de um DW
Fonte: Teorey, Lightstone e Nadeau (2007), p. 157.
Data Warehouse
74
Inicialmente, é feito o planejamento prévio do projeto como o levantamento dos
recursos necessários, qual o perfil dos executores e envolvidos, custos estimados,
verba disponibilizada, entre outras atividades. O próximo passo é fazer um
levantamento das necessidades do negócio, essa etapa é muito importante, pois
aqui serão levantados os “assuntos” que o repositório tratará, bem como quais
perguntas se deseja responder.
Com o entendimento das necessidades, é necessário atualizar o planejamento do
projeto para contemplar as informações e requisitos levantados, essa interação
entre as duas primeiras atividades iniciais do ciclo são cíclicas, ou seja, pode‑se
passar pelas duas atividades várias vezes, na verdade, deve‑se passar por elas até
ter o plano completamente alinhado com as necessidades da organização.
Tendo as duas primeiras etapas concluídas, parte‑se para a execução que está
dividida em três frentes:
•• Arquitetural: essa frente inicialmente está focada no projeto técnico
da arquitetura do DW, como é sua estrutura, tanto de carga quanto de
consumo de informação e defini‑se a interface de acesso. O próximo
passo é a identificação de ferramental que possa auxiliar esses processos.
Essa leitura trará mais detalhes sobre esta frente;
•• Modelagem de dados: nesta frente é concebida a modelagem dos dados
a partir dos assuntos levantados na etapa de “definição das necessidades
de negócios”. Nesta frente também são levantadas as dimensões de
análise para o cruzamento das informações;
•• Analítica: para esta frente, levantam‑se quais abordagens analíticas são
mais indicadas para responder às questões levantadas anteriormente.
Após as três frentes concluídas, deve‑se partir para a implementação do DW
como um todo, ligando o novo repositório com os sistemas de carga e com as
ferramentas que consumirão as informações armazenadas. Ao longo do uso do
DW, pode‑se detectar mudanças nos requisitos, o que acarreta no retorno à etapa
de planejamento, o mesmo acontece caso encontre alguma possível manutenção.
Arquitetura
As implementações de Data Warehouse possuem algumas possíveis arquiteturas
para a sua implantação. Entende‑se como arquitetura de um DW, a estrutura física
dos componentes, como estão organizados e relacionados. Segundo Dill (2002),
uma arquitetura de DW é um conjunto de normas que possibilitam uma visão da
sua estrutura e auxilia no entendimento de como ocorre o fluxo dos dados ao
longo do processo.
Pós-graduação
75
A escolha da arquitetura do DW é uma decisão muito importante, ela é de cunho
gerencial e deve‑se levar em conta principalmente a infraestrutura atual existente,
ambiente de desenvolvimento, escopo de implementação, disponibilidade de
recursos financeiros e equipe para desenvolvimento (DILL, 2002. p.17).
Existem algumas arquiteturas que são clássicas, segundo Turban et al (2009), as
arquiteturas de duas e três camadas são bastante comuns, é possível ter até uma
única camada, onde cada camada pode ser:
•• O próprio DW que contém os dados;
•• Os softwares de aquisição e extração de dados;
•• Softwares clientes que são utilizados para consumir e apresentar as
informações solicitadas.
A Figura 2 apresenta uma visão das três camadas comentadas anteriormente e
como elas estão integradas:
Figura 2 ‑ Arquitetura clássica de DW em três camadas
Ferramentas ETL
Data Warehouse
Ferramentas analíticas
Fonte: Elaboração do autor (2012).
A única das camadas que é obrigada a existir é a central, representada pelo
próprio repositório o DW. A arquitetura de duas camadas conta, além do DW, com
a camada que contém as ferramentas ETL. O trabalho de Dill (2002) apresenta
mais detalhes sobre cada uma das camadas:
•• Ferramentas ETL: ou “população do warehouse”, tem como função
a coleta dos dados armazenados nas bases operacionais, efetuar seu
processamento e transformação e, por fim, a carga do DW. Nessa etapa,
está concentrado o maior volume de trabalho;
•• Data Warehouse: ou na visão de Dill (2002), “administração do
warehouse”, responsável pela manutenção dos metadados, que tem
como função fornecer informações sobre os relacionamentos dos dados
armazenados no DW;
•• Ferramentas analíticas: usuários acessam DW por meio de ferramentas
de análise e exploração de dados. Essas ferramentas produzem
informações para suporte à decisão.
Data Warehouse
76
Existem variações a partir da arquitetura genérica. Dill (2002) demonstra uma
possível extensão da arquitetura em três camadas. Basicamente nesta arquitetura
são adicionados data marts focados em setores específicos da organização.
A Figura 3 a ilustra com mais detalhes:
Figura 3 ‑ Arquitetura de três camadas estendida
Data
Warehouse
Corporativo
Fonte
Fonte
Fonte
Integração
de Dados
Data
Warehouse
Departamental
Data
Warehouse
Departamental
Transformação de Dados
Usuários
Fonte: Dill (2002), p. 19
A extensão da arquitetura apresentada na Figura 3 mostra a inserção de data
marts focados em setores da organização. Esse tipo de abordagem facilita a
organização e o consumo das informações.
Existem outras variantes possíveis de arquiteturas, algumas focadas na camada
das ferramentas de ETL, como apresentado por Oliveira (2002), em que para
cada base de dados operacional é desenvolvida uma ferramenta de ETL e entre
as ferramentas e o DW existe o chamado integrador. A Figura 4 apresenta essa
arquitetura com mais detalhes:
Pós-graduação
77
Figura 4 ‑ Arquitetura utilizando o conceito de integrado
Consultas
Data Warehouse
Integrador
Extrator
Extrator
BD
BD
Extrator
BD
Fonte: Adaptado de Oliveira (2002. p.48).
Existem outras possibilidades de arquiteturas para empreendimentos de data
warehouse. Turban et al (2009) elaboraram a tabela a seguir para apresentar essas
alternativas de arquiteturas ilustrando os seus prós e contras:
Tabela 1 ‑ Prós e contras para as arquiteturas de DW
Data marts
independentes
Prós
•• Fáceis de construir
organizacionalmente;
•• Fáceis de construir
tecnicamente.
•• Visualização da
empresa indisponível
•• Custos redundantes
com dados;
Contras
•• Altos custos com ETL;
•• Altos custos com
aplicações;
•• Altos custos
operacionais e
com DBA.
Deixar os dados
onde estão
•• Não há necessidade
de ETL;
•• Não há necessidade
de plataforma
separada.
Data marts
dependentes
•• Facilidade de
customização de
interfaces de usuários
e relatórios.
Dados centralizados
integrados com
acesso direto
•• Visualização da
empresa, consistência
de projeto e qualidade
dos dados;
•• Dados podem ser
reutilizados.
•• Viável apenas para
um volume pequeno;
•• Problemas com
metadados;
•• Problemas com
largura de banda
e complexidade
na unificação;
•• Carga de trabalho
normalmente
posta na estação
de trabalho.
•• Visualização da
empresa desafiadora;
•• Custo com dados
redundantes;
•• Altos custos
operacionais e
com DBA;
•• Exige liderança e
visão corporativa.
•• Latência de dados;
Fonte: Turban et al (2009).
Data Warehouse
78
Como se pode observar, o processo de integração de dados está presente em
quase todas as arquiteturas, isso ocorre, pois é por meio dessas ferramentas que
os DW são alimentados.
Integração de dados
O processo de integração de dados é uma dos mais importantes relacionados com
o ciclo de vida de um data warehouse, ele garante que os dados que alimentarão o
DW sejam de qualidade e representativos para os assuntos escolhidos.
Segundo Turban et al (2009), a integração de dados possui três grandes processos:
•• Acesso aos dados: a capacidade de acesso e extração de dados de
qualquer fonte;
•• Federação de dados: integração das visualizações de negócios em
diversos data stores;
•• Captura de alterações: baseado na identificação, captura e entrega das
alterações feitas nas fontes de dados da organização.
No processo de acesso aos dados é necessário, anteriormente, identificar todas as
bases de dados operacionais da organização que devem ser fontes para o DW. O
próximo passo é verificar os recursos tecnológicos, algumas perguntas podem ser
feitas para auxiliar:
•• Todas as bases são acessíveis pela mesma rede onde será abrigado o DW?
•• Se não está na mesma rede, o acesso é possível via requisição HTTP?
•• O uso de crawler auxiliaria neste processo?
Com o acesso a todas as fontes já mapeadas, é necessário qualificar quais
dados são relevantes, ou seja, quais consultas devem ser feitas para extrair os
dados desejados.
O próximo processo é organizar os dados coletados e verificar em quais
“assuntos” se encaixam melhor, nesse ponto, são montadas as instruções INSERTs
para o repositório DW.
O último processo (captura de alterações) é muito importante, pois é por meio
dele que são detectadas as atualizações nos dados organizacionais. Entende‑se
por alteração como:
alteração (Δ) = situação atual – situação armazenada.
Pós-graduação
79
Esse processo é mais complexo que apenas identificar as alterações nos dados.
Como já é sabido, a modelagem de dados utilizados pelos DWs os organizam
como “fotografias” de um período específico. Tendo em vista essas características,
deve‑se verificar todos os novos dados inseridos nas bases operacionais,
no intervalo de tempo escolhido para compor as “fotografias”. A seguir é
apresentado um exemplo:
Imagina‑se que a unidade mínima de tempo utilizada seja “um mês”, todos os
dados estariam agrupados por mês e distribuídos pelas dimensões. Caso os
gestores da organização tenham interesse apenas nos dados do mês “fechado”,
ou seja, do mês com todas as vendas e compras finalizadas, pode‑se configurar o
sistema de integração de dados para rodar a cada final de mês. Agora imagine se
os gestores dessa organização querem os dados agrupados por mês, mas no caso
do mês atual deseja‑se verificar as vendas até o momento, neste cenário o sistema
de integração de dados deve ser configurado para ter ciclos num intervalo menor
de tempo (por exemplo, a cada hora). Assim, as alterações que se devem levar
em conta seriam todas as operações feitas no período da primeira hora do mês
corrente, até o momento, inserir esses registros no repositório.
Segundo Turban et al (2009), faz parte dos objetivos de um data warehouse a
integração de dados de múltiplos sistemas. Para isso, existem várias tecnologias
que permitem a integração de dados e metadados:
•• Integração de aplicações corporativas (EAI): possibilita um meio para
transportar dados dos sistemas de origem para o data warehouse.
Seu foco é na integração das funcionalidades da aplicação, o que permite
a reutilização da aplicação e flexibilidade;
•• Integração de informações corporativa (EII): promete a entrega da
informação em tempo real, a partir de diversas fontes relacionais, web
services e fontes dimensionais. Extrai dados dos sistemas fontes para
atender ao pedido da informação;
•• Extração, transformação e carga (ETL): este processo é apresentado
com mais detalhes a seguir.
O processo de ETL é responsável pela carga das tabelas do DW. A Figura 5, a seguir,
elaborada por Turban et al (2009), ilustra este processo:
Data Warehouse
80
Figura 5 ‑ Processo ETL
Fonte de dados
temporários
Aplicação
pronta
Sistema
legado
Data
warehouse
Extrair
Transformar
Outras
aplicações
internas
Limpar
Carregar
Data mart
Fonte: Turban et al (2009), p.72.
Por ser um processo de integração de dados, as ferramentas ETL incorporam as
operações já mencionadas. O processo “Extrair” do processo de ETL é o mesmo
apresentado no processo de acesso aos dados.
O processo “transformar” aplica as regras de negócio levantadas em cima dos
requisitos baseados nos assuntos do DW, a fim de normalizar os dados que serão
armazenados no repositório. Segundo Napoli (2011), as transformações podem ser
complexas quando os dados são extraídos de um ambiente heterogêneo, o autor
apresenta alguns desses problemas:
•• Chaves primárias inconsistentes;
•• Inconsistências nos dados;
•• Dados inválidos (essa deficiência deve ser atacada pelo processo
de limpeza);
•• Sinônimos e homônimos (ou seja, dados redundantes não são fáceis
de reconhecer);
•• Lógica de processo embutido (valores identificadores do tipo 0 e 1,
que não são descritivos).
A etapa de “Limpar” os dados consiste em retirar os que não respeitam as regras
de negócio levantadas ou que estão incompletos.
O uso de bases de estagiamento para manter os dados pós‑extração e durante
os processos de transformação e limpeza é bastante comum. Por fim, os dados já
transformados e limpos são persistidos no repositório data warehouse.
Pós-graduação
81
Referências
DILL, Sérgio Luis. Uma metodologia para desenvolvimento de Data Warehouse e
Estudo de Caso. Dissertação submetida para obtenção do grau de Mestre em Ciência da
Computação. Universidade Federal de Santa Catarina, Florianópolis, 2002.
KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: The Complete Guide to
Dimensional Modeling. Wiley, 2002.
NAPOLI, Marcio. Aplicação de Ontologias para apoiar operações analíticas sobre fontes
estruturadas e não estruturadas. 2011. Dissertação (Mestrado) ‑ Universidade Federal de
Santa Catarina, Programa de Pós‑Graduação em Engenharia e Gestão do Conhecimento,
Florianópolis, 2011.
OLIVEIRA, Wilson J. Data Warehouse. Visual Books, Florianopolis, 2002.
TEOREY, Toby; LIGHTSTONE, Sam; NADEAU, Tom. Projeto e Modelagem de Bancos de
Dados. Elsevier, Rio de Janeiro, 2007.
TURBAN, Efraim et al. Business Intelligence – Um enfoque gerencial para a inteligência do
negócio. Editora Bookman, Porto Alegre, 2009.
Data Warehouse
82
Modelagem Dimensional
Flávio Ceci
Para um projeto de um repositório de dados analíticos, aqui representado pelos
Data Warehouse, é necessário, inicialmente, a definição de uma estratégia de
implementação e implantação.
Uma das fases iniciais do ciclo de vida de desenvolvimento de um DW é a
identificação das necessidades do negócio, bem como o seu entendimento. Essa
fase é muito importante, pois é por meio dela que são levantadas as perguntas a
que se deseja responder, com a análise dos dados e informações contidas no DW
e também como ele será organizado.
Após o entendimento das necessidades e do próprio contexto organizacional,
pode‑se atacar três frentes em paralelo: a arquitetura do DW, a sua modelagem
dimensional, como será a camada de análise dos dados e informações
armazenadas nele.
Esta leitura é focada no processo de modelagem dimensional. Segundo Sell (2006),
uma das primeiras fases de um projeto de um repositório é a identificação do
modelo de dados, para isso, é preciso verificar os dados necessários e que podem
ser obtidos junto aos sistemas transacionais.
Uma das principais diferenças entre os repositórios do tipo DW e das fontes
de dados transacionais é a forma como eles estão organizados, ou seja, qual a
modelagem de dados utilizada. Segundo Silva (2011), geralmente os dados de
bases relacionais encontram‑se em modelos que evitam redundância e possíveis
inconsistências geradas por meio de inserções ou atualizações, que são os modelos
entidade‑relacionamento. Esse modelo é eficiente para os sistemas transacionais,
mas não é propício às análise que envolvam grande volume de dados.
A modelagem dimensional apresenta‑se como alternativa ao modelo
entidade‑relacionamento para auxiliar a análise de grandes volumes de dados.
Segundo Sell (2006), esse modelo remete à ideia do cubo, contendo três ou mais
dimensões, onde cada uma representa um atributo diferente. Para Silva (2011),
o modelo dimensional, também conhecimento como esquema estrela, organiza os
dados de uma forma intuitiva, que é focado no alto desempenho das consultas e é
orientado à estratificação de informação.
A modelagem de um DW é chamada de Modelagem Dimensional, esse nome é dado
devido à forma com que as dados estão organizados. Como foi dito anteriormente,
um DW é orientado ao assunto, que é representado pelas tabelas fato.
Pós-graduação
83
Para Napoli (2011), na composição típica o modelo dimensional possui uma
grande entidade central (fato), que representa a evolução dos negócios do
dia a dia de uma organização, também apresenta um conjunto de entidades
menores (dimensões), arranjadas ao redor da entidade central e utilizadas de
maneira combinada, como variáveis de análise do fato.
Segundo Oliveira (2002), as tabelas fato contêm muitos registros de valores e
medidas relacionadas a vendas e transações de compras na empresa, em qua cada
medida dessa é tomada segundo a interseção de todas as dimensões. Segundo
Kimball e Ross (2002), quanto menor a granularidade de uma tabela fato, maior
será o nível de detalhamento armazenado.
A modelagem dimensional também é conhecida como modelo estrela, esse nome
é dado devido à tabela fato estar ao centro, ligada às dimensões nas pontas.
A Figura 1 ilustra essa analogia:
Figura 1 - Exemplo da modelagem em estrela
Fonte: Elaborado pelo autor, 2012.
As dimensões podem ser classificadas como resposta a quatro perguntas:
•• Quando?
•• Quem?
•• Onde?
•• O quê?
Data Warehouse
84
É nas dimensões que são armazenadas as informações complementares aos dados
cadastrados na tabela fato, e são utilizadas como variáveis de corte e para auxiliar
em filtros de ferramentas OLAP.
Segundo Oliveira (2002), as dimensões contêm descrições textuais das dimensões
do negócio, e elas geralmente são utilizadas como variáveis de corte ou filtros.
Para Napoli (2011), as dimensões podem ser formadas por um conjunto de
atributos, denominados hierarquias, que são utilizados como base para regras de
agrupamentos, quebras e filtros em consultas a uma tabela de fato.
Sabe‑se que o DW trabalha com dados consolidados por tempo, isso leva a crer
que os sistemas de controle de processos das empresas armazenam os dados
direto na base operacional (relacional).
Sell (2006) desenvolveu um quadro que faz o comparativo entre fatos, dimensões
e medidas:
Quadro 1: Tabela descritiva de fatos, medidas e dimensões
Escopo
FATOS
DIMENSÕES
MEDIDAS
Representam um item,
uma transação ou um
evento de negócio.
Determinam o contexto
de um assunto de
negócios, como por
exemplo, uma análise
da produtividade dos
grupos de pesquisa.
São os atributos
numéricos que
representam um fato
e são determinados
pela combinação
das dimensões que
participaram desse fato.
Objetivo
Refletem a evolução
dos negócios.
São os balizadores de
análise de dados.
Representam o
desempenho de
um indicador de
negócios relativo
às dimensões que
participam de um fato.
Tipo de dado
São representados por
conjuntos de valores
numéricos (medidas)
que variam ao
longo do tempo.
Normalmente não
possuem atributos
numéricos, pois são
somente descritivas
e classificatórias
dos elementos que
participam de um fato.
Podem possuir
uma hierarquia de
composição de seu valor.
Fonte: Sell (2006), p.31.
Segundo Datta e Thomas (1999) apud Napoli (2011), um cubo de dados é uma das
peças fundamentais na criação e construção de um banco de dados dimensional,
ele serve como uma unidade básica de entrada e saída para todos os operadores
definidos em um banco de dados, ele contém células as quais são valores ou
Pós-graduação
85
medidas que tomam como base um conjunto de dimensões. A Figura 2 apresenta
um exemplo de cubo multidimensional, cujo assunto é as vendas de uma loja.
Figura 2 ‑ Cubo multimensional de vendas de uma loja
Produto
40
253
10
541
36
103
698
457
66
269
399
620
87
30
20
10
1
2
3
Loja
Período 01/2003 02/2003 03/2003
Fonte: Campos (2005).
A fase frontal do cubo apresentado na Figura 2 representa o assunto venda,
ou seja, a tabela do tipo fato “vendas”, é possível perceber as dimensões
utilizadas para chegar no valores apresentados, foram combinadas as dimensões
produto x loja, ou seja, o cubo foi movido de maneira que foi apresentada a
quantidade de vendas de produtos por lojas.
Para facilitar o entendimento do processo de concepção de um modelo
dimensional é apresentado a seguir um estudo de caso.
Estudo de caso: Concepção de um modelo dimensional
O cenário escolhido para ilustrar esse estudo de caso é o de uma biblioteca
universitária. Essa biblioteca faz parte de uma das maiores universidades do
Brasil, ela conta com mais de 20 mil usuários e é conhecida nacionalmente pelo
seu vasto acervo.
Como a área de pesquisa dessa universidade não para de crescer, a reitoria
disponibilizou uma verba bastante significativa para a construção de um DW que
auxilie na tomada de decisão.
Data Warehouse
86
Como base de dados para a carga do DW, existe um sistema transacional que
gerencia as operações diárias dessa biblioteca. A Figura 3 apresenta a modelagem
relacional da base de dados utilizados por esse sistema:
Figura 3 ‑ Modelo relacional da biblioteca universitária
Fonte: Elaboração do autor, 2012.
O modelo apresentado acima serve como base para a carga do DW, o sistema
transacional que o utiliza gerencia as operações diárias da biblioteca, como
por exemplo:
•• Gerenciamento de usuários;
•• Gerenciamento do acervo;
•• Controle das multas referente a atrasos na devolução de livros.
Após o entendimento do cenário base, foi levantado, junto aos gestores da
biblioteca, quais necessidades eles possuem e quais perguntas eles gostariam
de obter respostas por meio da implantação do DW.
O que foi identificado junto aos gestores é que se deseja ganhar agilidade
na compra dos livros, para isso é necessário identificar quais títulos são mais
solicitados, para a compra de mais exemplares. Além desse ponto, deseja‑se
Pós-graduação
87
identificar quais assuntos são mais solicitados, distribuídos pelos meses do ano,
para facilitar a previsão na aquisição de novos títulos por assunto.
Como a universidade não para de crescer, é previsto que ela se expanda para as
cidades próximas, com isso, é importante saber se existem interesses em comum
entre os moradores da cidade em questão.
Como foi falado anteriormente, o DW deve auxiliar a compra de novos livros e na
distribuição deles entre as cidades, caso aconteça e expansão da universidade.
É sabido que a modelagem dimensional é centrada em “assuntos”, analisando o
modelo relacional e as informações dadas pelos gestores. Tanto a análise para
compra quanto a análise para a distribuição é centrada nos empréstimos feitos,
ou seja, esse é o assunto em questão que se deve trabalhar no DW.
Identificando o assunto, sabe‑se que, num modelo dimensional, ele é
representado por uma tabela fato, ou seja, os valores que são totalizados são
relacionados aos empréstimos feitos.
Como foi verificado que todas as decisões que se deseja tomar são relacionadas
aos valores dos empréstimos, não existe a necessidade de ter outras tabelas fato,
mas é importante lembrar que num modelo dimensional podem existir muitas
tabelas fato.
Após identificar os “assuntos” que o DW irá tratar, devem‑se levantar as
dimensões que são utilizadas para agrupar e cruzar as informações contidas no
DW, para isso, devemos responder a questões do tipo: “quem?”, “quando?”,
“o quê?” e “onde?”.
Iniciando pelo “quem?”, é fácil verificar que associado está diretamente
relacionado com a pergunta quem, mas em nenhum momento os gestores
fizeram perguntas do tipo: “quem são os associados que...”, dessa maneira
pode‑se dispensar essa dimensão.
A próxima pergunta é “quando?”, pois os gestores falaram que se deseja agrupar
valores por mês, então, essa será a unidade atômica de tempo, ou seja, tem‑se
uma dimensão que possui todos os meses no formato “mês/ano”, os quais
tiverem registros de empréstimo na base relacional.
Identificando o “quando?” pode‑se passar para as questões “o quê?”,
remetendo a: o que é emprestado? A resposta nos guia para a dimensão: Livro.
A dimensão livro ajuda a saber quais títulos não estão suprindo a necessidade e
devem ser comprados imediatamente. Outra informação que é importante ser
utilizada como dimensão e está relacionada com Livro é Assunto, ou seja, quais os
assuntos que estão sendo mais solicitados?
Data Warehouse
88
Por fim, é perguntado “onde?” e pode‑se chegar à resposta de cidade, que é um
dos requisitos apresentados na descrição das necessidades da camada gerencial.
Concluído isso, podem‑se levantar as seguintes dimensões: tempo, livro, assunto
e cidade. Para facilitar a visualização é apresentada a modelagem dimensional,
a partir das informações levantadas na Figura 4:
Figura 4 ‑ Modelagem dimensional para o DW da biblioteca
Fonte: Elaboração do autor, 2012.
Por meio do modelo apresentado são facilmente respondidos quais foram os
assuntos de livros mais requisitados por moradores de uma cidade no período de
um ano, apenas fazendo cruzamento das dimensões e totalizando os valores da
tabela fato_empréstimo.
O modelo responde às necessidades solicitadas pela gerência da biblioteca e
permite, de maneira mais intuitiva e rápida, o consumo das suas informações.
Abordagens para desenvolvimento de um DW
Para a modelagem e desenvolvimento do DW do estudo de caso apresentado
anteriormente, o autor segue alguns passos. Mas vale lembrar que existem várias
outras abordagens para o desenvolvimento de um DW. Sempre que se fala em
data warehouse, é difícil não se lembrar dos autores principais desse assunto:
Inmon e Kimball, cada um desses autores apresenta abordagens diferentes,
apresentadas a seguir. Inicialmente, é apresentanda a abordagem de Inmon, que
se pode entender como “de cima para baixo” ou em inglês top down. Segundo
Dill (2002), a abordagem de Inmon requer que o planejamento e o projeto sejam
Pós-graduação
89
efetuados no início do projeto, o que traz a necessidade de envolver pessoas de
todos os departamentos envolvidos na implementação do DW. Nessa abordagem,
a criação dos data marts são feitas a partir do DW já construído e não diretamente
dos dados operacionais.
Na abordagem de Kimball ou de “baixo para cima”, em inglês bottom up,
trabalha com a ideia de, primeiramente, construir os data marts por setor,
não necessitando da visão global do repositório, o que não necessita do
envolvimento de todos os setores na primeira fase de planejamento e projeto.
O DW é construído à medida que os data marts são feitos. Segundo Dill (2002),
os data marts são carregados a partir dos dados existentes nas bases operacionais,
e o DW vai tendo os data marts incorporados dentro dele.
No livro de Turban et al (2009), é apresentado um quadro com o comparativo das
duas abordagens, o mesmo pode ser observado no Quadro 2:
Quadro 2 - Comparativo da abordagem de Inmon e Kimball
Característica
Inmon
Kimball
Metodologia e
arquitetura
De cima para baixo
De baixo para cima
Abordagem geral
DW para toda a
empresa (atômico) “alimenta” os
bancos de dados departamentais
Os data marts modelam um único
processo de negócio, e chega‑se
à consistência da empresa por
meio de um barramento de dados
e do ajustar‑se às dimensões
Complexidade
do método
Bastante complexo
Bastante simples
Comparação com
metodologias
consagradas de
desenvolvimento
Derivado da metodologia espiral
Processo de quatro passos;
uma fase dos métodos de
sistema de gerenciamento de
banco de dados relacional.
Discussão do
projeto físico
Bastante detalhada
Bastante leve
Modelagem de dados
Orientada por assunto
Orientada por processo
Acessibilidade ao
usuário final
Baixa
Alta
Objetivo
Proporcionar uma solução
técnica sólida com base
em métodos e tecnologias
comprovadas de banco de dados
Proporcionar uma solução
que facilite aos usuários finais
fazer consultas diretas aos
dados e ainda obter tempos
razoáveis de resposta
Fonte: Turban et al (2009, p. 78).
Data Warehouse
90
Alguns autores afirmam que é possível trabalhar com uma abordagem mista,
que utiliza vantagens específicas de cada modelo para o seu cenário em
questão (DILL, 2002).
Evolução do DW
A ideia do uso dos repositórios do tipo DW está cada vez mais presente nas
organizações, por conta dessa demanda, é comum novos trabalhos sobre esse
tema, o que é muito bom, pois faz com que essa abordagem acompanhe a
evolução dos cenários que as emprega.
No livro de Inmon, Strauss e Neusjloss (2007), foi cunhado o termo DW 2.0, que
trata da chamada segunda geração dos data warehouse. Nessa nova abordagem,
o DW não se preocupa apenas em integrar dados de várias bases operacionais, mas
também integrar dados estruturados com dados não estruturados (texto livre).
O trabalho de Silva (2011, p. 36) apresenta mais detalhes sobre os DW 2.0:
a segunda geração do DW apresenta distintos setores conforme a
necessidade de acesso e a temporalidade da informação. Esses setores são:
Interactive, Integrated, Near line e Archival. Outra mudança importante é que
os metadados, tanto técnicos quanto de negócio, precisam de um ambiente
comum e uma estrutura local para cada componente das plataformas de BI.
Como pode ser observado, a evolução do DW para o DW 2.0 segue as mesmas
tendências previstas para a evolução da área de business intelligence, é sabido
que o chamado BI 2.0 e BI 3.0 considera também a análise dos dados não
estruturados, bem como o cruzamento das informações do repositório com os
provenientes da web.
Referências
CAMPOS, R. A. Qualidade de dados em Data Warehouse. TCC (Graduação em Bacharelado
em Sistemas de Informação). Centro de Ensino Superior de Juiz de Fora, Juiz de Fora, 2005.
INMON, W.; STRAUSS, D.; NEUSHLOSS, G. DW 2.0 The Architecture for the Next
Generation of Data Warehousing. 2007.
KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: The Complete Guide to
Dimensional Modeling. Wiley, 2002.
Pós-graduação
91
NAPOLI, Marcio. Aplicação de Ontologias para apoiar operações analíticas sobre fontes
estruturadas e não estruturadas. 2011. Dissertação (Mestrado) ‑ Universidade Federal de
Santa Catarina, Programa de Pós‑Graduação em Engenharia e Gestão do Conhecimento,
Florianópolis, 2011.
OLIVEIRA, Wilson J. Data Warehouse. Visual Books, Florianopolis, 2002.
SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias
semânticas para suporte a aplicações analíticas. 2006. Tese (Doutorado) ‑ Universidade
Federal de Santa Catarina, Centro Tecnológico. Programa de Pós‑Graduação em
Engenharia de Produção, Florianópolis, 2006.
SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para processamento
analítico baseado em tecnologias semânticas e em linguagem natural. 2011.
Dissertação (Mestrado) – Universidade Federal de Santa Catarina, Programa de
Pós‑Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011.
TURBAN, Efraim et al. Business Intelligence – Um enfoque gerencial para a inteligência do
negócio. Editora Bookman, Porto Alegre, 2009.
Data Warehouse
92
Atividades de Autoaprendizagem
1) Levando em consideração o conteúdo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:
a. ( ) A utilização dos repositórios do tipo DW estão cada vez mais presentes nas
empresas.
b. ( ) O processo de integração dos dados é algo bastante simples e rápido
de conceber.
c. ( ) Os dados nas tabelas fato são agrupados e consolidados de modo a facilitar
o consumo da informação.
d. ( ) Pode‑se fazer uma analogia das dimensões de um DW com filtros a serem
aplicados numa consulta.
e. ( ) As abordagens de DW estão em constante evolução, a prova disso é a
concepção do chamado DW 2.0.
f. ( ) As medidas de um DW é uma nomenclatura equivalente a tabelas fato.
Atividade colaborativa
Nesta unidade, você estudou uma série de conceitos relacionados com sistemas
de informação e sistemas de apoio à decisão. Responda à pergunta a seguir
utilizando a ferramenta Fórum, não se esqueça de comentar as respostas dos
seus colegas.
Nesta unidade, foi estudado sobre os repositórios data warehouse, também foi
visto que Inmon, considerado como um dos pais dessa abordagem já trabalha
com o conceito do DW2.0. Sendo assim, faça um paralelo dessa evolução com a
evolução do BI, BI 2.0 e BI 3.0.
Pós-graduação
93
Síntese
Nesta unidade, são estudados os componentes de um DW, bem como qual o
seu ciclo de vida de desenvolvimento, qual a sua importância para a tomada de
decisão, sua arquitetura básica, como se dá a integração e carga dos seus dados,
quais as suas possíveis abordagens e construções.
Saiba Mais
Bill Inmon apresenta um artigo para o site Information Management, falando
sobre as novas tendências dos Data Warehouse e mais detalhes sobre DW2.0;
é uma leitura bastante interessante, vale a pena:
http://www.information‑management.com/issues/20060401/1051111‑1.html
Data Warehouse
Unidade 4
Descobrindo o conhecimento
Objetivos de Aprendizagem
•• Compreender as fases do processo de descoberta de conhecimento
em volume de dados.
•• Conhecer técnicas de mineração existentes e aplicáveis em um sistema
de Business Intelligence.
••Julgar o uso de cada técnica levando em consideração o contexto
do problema.
Introdução
O conhecimento junto aos ativos intangíveis das organizações está cada vez
mais ganhando espaço como um dos bens mais valiosos para as chamadas
organizações do conhecimento. Os sistemas de apoio à decisão surgiram como
resposta à falta de sistemas focados em auxiliar a camada gerencial.
Com a evolução desses sistemas nascem as soluções de Business Intelligence, que
possuem repositório de dados unificados, pré‑processados e com uma organização
focada para facilitar a análise dos seus dados. Para conseguir chegar ao
conhecimento que está implícito nesses dados e nos repositórios de documentos,
devem‑se utilizar soluções baseadas em descoberta de conhecimento.
Esta unidade está focada nas estratégias de descoberta de conhecimento,
utilizando como fonte bancos de dados ou textos não estruturados, que sejam
relevantes para o domínio da organização.
96
Introdução à descoberta de conhecimento
Flávio Ceci
A utilização de repositórios centralizados de informação, como os Data Warehouse,
auxilia a organizar os dados espalhados pelas várias bases da organização e os
modela de modo a facilitar a análise.
Normalmente, o DW tem os seus dados modelados utilizando a modelagem
dimensional, que os organiza de maneira mais apropriada para a análise, tanto
humana quanto computacional. Desse modo, o acesso à informação fica muito
mais fácil e rápido. Cada vez mais as organizações estão dando atenção para as
suas informações e conhecimentos implícitos nas bases de dados e documentos.
Segundo Garcia, Varejão e Ferraz (2005), a informação e o conhecimento vêm
movimentando o desenvolvimento mundial, e cada vez mais são necessárias
pessoas especializadas e ferramentas para auxiliar na aquisição, representação,
manipulação, apresentação e armazenamento.
Com os dados organizados e armazenados no DW, o próximo passo para a
descoberta de conhecimento é aplicar métodos de análises estatísticas e de
inteligência artificial (IA), dessa maneira, novas relações e informações serão
descobertas (CARVALHO, 2005).
A descoberta de conhecimento é a etapa que visa a entregar conteúdo de
mais valor para os tomadores de decisão da organização. Tradicionalmente,
a descoberta de conhecimento é sensível aos tipos de dados que se utiliza como
fonte. Essas fontes podem armazená‑los não estruturados ou estruturados.
Entende‑se como dados estruturados aqueles que possuam uma estrutura que
facilite a sua organização, armazenamento e recuperação, pode‑se citar como
exemplo aqueles armazenados em bancos de dados, em arquivos XML, JSON,
entre outros.
Os dados não estruturados são armazenados geralmente em linguagem natural,
ou seja, estão em livros, manuais, revistas, blogs, nas redes sociais, entre outros.
A recuperação de informação para esse tipo de dado é muito mais complexa,
já que não existe um padrão pré‑definido que facilite a sua organização.
Tendo em vista os dois tipos de dados apresentados anteriormente existem
técnicas específicas para a análise de cada tipo. Para a análise de dado estruturada,
utiliza‑se o processo chamado de: descoberta de conhecimento em banco de
dados, em inglês: Knowledge Discovery in Database (KDD), para a análise dos
dados não estruturados utiliza‑se a técnica descoberta de conhecimento em
Pós-graduação
97
bases textuais, em inglês: Knowledge Discovery in Text (KDT), a Figura 1 mostra
graficamente as informações apresentadas nesse parágrafo:
Figura 1 - Tipos de descoberta de conhecimento
Descoberta de
conhecimento
KDT
KDD
Banco de
Dados
Documentos
não estruturados
Fonte: Elaboração do autor (2012).
A grande quantidade de dados existentes em bancos de dados ou via internet
tornou‑se um desafio para as pessoas cuja função é a tomada de decisão.
Os métodos tradicionais de transformação de dados em conhecimento dependem
da análise e da interpretação pessoal deles, o que é um processo lento, caro e
altamente subjetivo.
Nesse contexto, faz‑se necessária uma metodologia capaz de extrair informações
úteis para o suporte às decisões, estratégias de marketing e campanhas
promocionais, entre outras. A busca por essas informações é realizada
utilizando‑se sofisticadas técnicas na análise daqueles dados, a fim de encontrar
padrões e regularidades neles. A esse processo dá‑se o nome de Descoberta de
Conhecimento em Banco de Dados (REZENDE, 2005).
Descoberta de conhecimento e mineração de dados
Embora muitos autores usem o termo mineração de dados (data mining) como
sendo um passo particular do KDD, que consiste na aplicação de algoritmos
específicos para a extração de padrões a partir das bases de dados, neste texto,
o qual está baseado em diversos autores e em concordância com vários deles,
trataremos os termos KDD e mineração de dados como sinônimos.
Descobrindo o conhecimento
98
A Figura 2 apresenta a relação entre KDD e data mining:
Figura 2 - Relação entre KDD e DM
KDD
Data Mining
Fonte: Carvalho (2002).
As ferramentas de data mining podem prever futuras tendências e
comportamentos, permitindo às empresas um novo processo de tomada
de decisão, baseado, principalmente, no conhecimento acumulado e,
frequentemente, deixado de lado, contido em seus próprios bancos de dados.
Um dado é a estrutura fundamental sobre a qual um sistema de informação atua.
A informação pode ser vista como uma representação ordenada e enxuta dos
dados resultantes de uma consulta que permite a visualização e interpretação
deles. O conhecimento provém da interpretação das informações apresentadas
pelo sistema de banco de dados.
Existem muitas áreas que dão apoio ao processo de tomada de decisão, veja a
Figura 3:
Figura 3 - Áreas relacionadas com a descoberta do conhecimento
Sistema
Especialista
Aprendizado
de Máquina
Visualização
Estatística
Descoberta de
Conhecimento
Processamento de
Linguagem natural
Fonte: Adaptado de Adriaans e Zantinge (1996).
O processo de descoberta de conhecimento conta com a utilização de abordagens
estatísticas, aprendizagem de máquina, sistemas especialistas, processamento de
linguagem natural, entre outras. Outra etapa muito importante é como apresentar
e visualizar o conhecimento extraído a partir das informações.
Pós-graduação
99
Referências
ADRIAANS, P.; ZANTINGE, D. Data mining. Addison Wesley Longman, England, 1996.
CARVALHO, D. R. Um método híbrido árvore de decisão / algoritmo genético para data
mining, Tese Doutorado – PUCPR, Curitiba, 2002.
CARVALHO, Luís Alfredo V. Data Mining: A Mineração de Dados no Marketing, Medicina,
Economia, Engenharia e Administração. Editora Ciência Moderna. Rio de Janeiro, 2005.
GARCIA, Ana Cristina B.; VAREJÃO, Flávio M.; FERRAZ, Inhaúma N. Aquisição de
Conhecimento. In Sistemas Inteligentes: Fundamentos e Aplicações. Organização:
REZENDE, Solange O. Editora Manole, São Paulo, 2005.
REZENDE, Solange. Sistemas Inteligentes; Fundamentos e aplicações. São Paulo:
Ed. Manole, 2005.
Descobrindo o conhecimento
100
O processo de KDD
Flávio Ceci e Gláucio Adriano Fontana
As tecnologias para armazenamento de informação são tão comuns quanto
numerosas. Junta‑se a isso a vontade dos empreendedores de extrair o máximo
de vantagem de suas informações. Esses elementos tornam a mineração de dados
e a busca de conhecimento a partir de banco de dados uma área de conhecimento
em crescente expansão nos dias de hoje. Será rara, em um futuro próximo, uma
empresa ou organização que não invista nas tecnologias do conhecimento.
Segundo Navega (2002), talvez a definição mais importante de Data Mining
ou Mineração de Dados tenha sido elaborada por Fayyad et al. (1996) apud
Navega (2002), “[...] o processo não‑trivial de identificar, em dados, padrões
válidos, novos, potencialmente úteis e ultimamente compreensíveis”.
Navega (2002) expõe ainda que esse processo vale‑se de diversos algoritmos
(muitos deles desenvolvidos recentemente), que processam os dados e
encontram esses “padrões válidos, novos e valiosos”.
É preciso ressaltar um detalhe que costuma passar despercebido na literatura,
embora os algoritmos atuais sejam capazes de descobrir padrões “válidos e novos”,
ainda não temos uma solução eficaz para determinar padrões valiosos. Por essa
razão, o Data Mining ainda requer uma interação muito forte com analistas humanos,
que são, em última instância, os principais responsáveis pela determinação do valor
dos padrões encontrados. Além disso, a condução (direcionamento) da exploração
de dados é também tarefa fundamentalmente confiada a analistas humanos, um
aspecto que não pode ser desprezado em nenhum projeto que queira ser bem
sucedido. Data Mining é parte de um processo maior de conhecimento denominado
Knowledge Discovery in Database (KDD).
KDD consiste, fundamentalmente, na estruturação do banco de dados; na seleção,
preparação e pré‑processamento dos dados; na transformação, adequação e
redução da dimensionalidade dos dados; no processo de Data Mining; e nas
análises, assimilações, interpretações e uso do conhecimento extraído do banco
de dados, por meio do processo de Data Mining.
As tarefas de mineração de dados (ou processo de descoberta de conhecimento
em bancos de dados – KDD ‑ Knowledge Discovery in Database) auxiliam esse
processo de aquisição de conhecimento. Diversos algoritmos de mineração
existem e cada um possui uma particularidade e aplicação.
Pós-graduação
101
As tarefas concernentes ao processo de KDD incluem dificuldades com a extração,
preparação e validação dos dados extraídos e a alocação de recursos no cliente
e, frequentemente, são subestimadas durante o planejamento dos cronogramas
para a execução dos projetos. As atividades de obtenção e limpeza dos dados
geralmente consomem mais da metade do tempo dedicado ao trabalho.
Em se tratando de regras de classificação (uma das técnicas de mineração de
dados que se propõe a agrupar conjuntos de padrões semelhantes para análise),
a maioria das ferramentas de data mining se reporta a problemas de classificação
que atentam a encontrar regras que particionam dados em conjuntos disjuntos.
Aplicações incluem aprovação de crédito, determinação de perfil de clientes etc.
Por exemplo, se há um registro de vendas de produtos em um supermercado,
pode‑se particionar conjuntos de produtos como ‘altamente lucrativos’,
‘na média’ ou ‘não lucrativos’, baseando‑se no lucro da rede e no volume de
vendas. Isto é, se a tecnologia corrente em bancos de dados não puder acomodar
diretamente a história das vendas, não se poderá deduzir a evolução da
lucratividade de itens individuais.
Origem dos dados
Como o próprio nome sugere no processo KDD, a descoberta de conhecimento é
feita em cima do banco de dados da organização.
É recomendado que se utilize um repositório de dados como Data Warehouse (DW),
o qual os armazena de maneira centralizada e já pré‑processados, facilitando a
sua análise.
Caso a organização não disponha, pode‑se utilizar uma base operacional, mas o
resultado pode não ser tão efetivo. Outro problema que pode ocorrer, utilizando
como base uma base operacional, é a falta de agilidade na resposta.
Vale lembrar que todas as transformações, limpezas e agrupamentos feitos pelo
processo de ETL para o DW, não estão presente nas bases operacionais das
organizações, o que reflete numa quantidade de dados maior e não orientadas à
análise, e sim a processo, o que dificulta o trabalho das técnicas e das ferramentas
de mineração de dados, refletindo diretamente na performance da análise.
Descobrindo o conhecimento
102
Características dos dados
Sobre as características de dados, Romão (2002) afirma que elas, quando
incorporadas nos dados de análise, tais como número de registros, tipo dos dados,
e quantidade de erros, afetam diretamente a exatidão da aprendizagem, de
forma bastante significativa. Tendo em vista esse detalhe, pode‑se concluir que
comparada com os efeitos de algumas características dos dados, a escolha do
algoritmo de aprendizagem se torna menos importante.
Para se ter certeza do impacto, Romão (2002) diz que se deve considerar os
seguintes questionamentos:
•• Quais características dos dados afetam mais a mineração de dados?
•• Como estas características interagem entre si?
•• Os dados podem ser caracterizados de forma a melhorar a descoberta
de conceitos?
Percebe‑se que são necessárias etapas para preprocessar esses dados antes de
submetê‑los aos algoritmos de mineração de dados. A seguir, são apresentadas as
etapas do processo KDD.
Etapas do processo de KDD
Segundo Dias (2002), o termo processo remete ao entendimento que existem
vários passos envolvendo preparação de dados, procura por padrões, avaliação
de conhecimento e refinamento. Todos esses passos são interativos e iterativos,
ou seja, dependem da constante interferência de um técnico especialista e se
repetem de acordo com a necessidade:
1. Conhecimento do domínio da aplicação: inclui o conhecimento relevante
anterior e as metas da aplicação, ou seja, a identificação do problema.
Esse passo utiliza o domínio do especialista para identificar problemas
importantes e os itens necessários para resolvê‑los. Entretanto,
é importante que essa etapa seja realizada em conjunto com um
engenheiro de conhecimento.
2. Criação de um banco de dados alvo: definir o local de armazenamento e
selecionar um conjunto de dados ou dar ênfase para um subconjunto de
dados nos quais o “descobrimento” será realizado.
Pós-graduação
103
3. Pré‑processamento: inclui operações básicas, como remover ruídos
ou subcamadas, se necessário, coletando informação para modelar,
decidindo estratégias para manusear (tratar) campos, onde se nota
facilmente que não influenciam na solução das perguntas que se deseja
responder. É a fase mais trabalhosa e frequentemente a mais demorada
de todo o processo.
4. Transformação de dados e projeção: consiste em encontrar formas
práticas para representação dos dados, dependendo da meta do
processo e o uso de redução de dimensões e métodos de transformação
para diminuir o número efetivo de variáveis que deve ser levado em
consideração; ou encontrar representações invariáveis para os dados.
5. Mineração de dados (Data Mining): A fase que muitas vezes dá nome
ao processo de KDD inclui a decisão do propósito do modelo derivado
do algoritmo de mineração. Além dessa decisão, é necessário selecionar
métodos para serem usados na procura por padrões nos dados, bem
como decidir quais modelos e parâmetros podem ser apropriados,
determinando um método de mineração particular a ser aplicado.
Referem‑se a dados que provavelmente contenham erros de digitação
ou valores absurdos.
6. Interpretação: inclui a interpretação dos padrões descobertos e o possível
retorno a algum passo anterior, além de uma possível visualização dos
padrões extraídos, removendo aqueles redundantes ou irrelevantes e
traduzindo os úteis em termos compreendidos pelos usuários.
7. Utilização do conhecimento obtido: inclui a necessidade de incorporar
este conhecimento para a melhora de performance do sistema, adotando
ações baseadas no conhecimento, ou simplesmente documentando e
reportando esse conhecimento para grupos interessados.
Descobrindo o conhecimento
104
Figura 1 - Fases do processo KDD
Fonte: Imasters, 2012.
A Figura 1 apresenta a interação e o fluxo entre as sete etapas apresentadas do
processo KDD; vale lembrar que alguns autores podem considerar mais ou menos
etapas. A Figura 2 apresenta os processos KDD na visão de Romão (2002):
Figura 2 - Processo KDD na visão de Romão (2002)
Dados
Dados
Integração
Pré Processamento
Mineração dos Dados
Pós Processamento
Conhecimento
Fonte: Romão (2002).
Pós-graduação
105
Analisando a Figura 2, o autor parte do processo de integração dos dados das
bases e/ou uso de repositórios, parte‑se para o processo de pré‑processamento
que contempla a seleção de atributos e transformações sobre os dados; aplicação
de métodos (algoritmos) de mineração de dados para extrair os padrões deles;
por fim, é avaliado o resultado da etapa de mineração de dados para identificar os
padrões considerados como conhecimento.
A seguir são apresentados os tipos de usuários envolvidos no processo de KDD.
Classe de usuários envolvidos no processo KDD
O processo KDD possui alguns perfis de usuários que são auxiliares e participam
do processo KDD. Segundo Oliveira (2000), as classes de usuários envolvidos são:
•• Especialista do Domínio: é o responsável por deter o entendimento do
domínio da aplicação. Durante a etapa de análise de dados, o especialista
é sensível a qual área está sendo analisada, como por exemplo, se o
contexto analisado for o de vendas o especialista pode ser o diretor
de marketing;
•• Analista: é responsável pela execução do processo KDD. Deve possuir
amplo conhecimento das etapas que fazem parte desse processo.
Ele pode ser o analista de sistemas, estatístico ou administrador de
banco de dados da organização;
•• Usuário final: é frequentemente aquele que utiliza o conhecimento
extraído no processo de KDD para auxiliá‑lo em um processo de tomada
de decisão.
A interação entre as classes de usuário é bastante importante para o processo
como um todo. Segundo Oliveira (2000), durante a realização do processo KDD,
a interação e comunicação entre o analista, especialista do domínio e usuário
final é muito importante uma vez que o sucesso da extração de conhecimento
depende da comunicação entre eles.
Descobrindo o conhecimento
106
Pesquisas sobre KDD atuais
O uso do KDD é uma prática bastante utilizada e atual, tendo em vista isso, as
pesquisas nessa área continuam constantes. No trabalho de Dias (2002) foram
identificados alguns desafios para a área:
•• Grandes conjuntos de dados e alta dimensionalidade;
•• Interação com o usuário e conhecimento anterior adquirido;
•• Dados perdidos;
•• Gerenciamento de mudança de variáveis e conhecimento;
•• Interação;
•• Multimídia e dados orientados a objetos.
O trabalho do autor apresentado anteriormente foi desenvolvido há, pelo menos,
10 anos, e muitos desses desafios não foram solucionados ainda. Pode‑se encarar
também como o “futuro” ou o presente das pesquisas relacionadas com KDD a
utilização de conteúdo semântico na cruzada de informação dimensional.
Referências
DIAS, Cristiano Araujo. Descoberta de Conhecimento em Banco de Dados para Apoio à
Tomada de Decisão. Especialização em Informática Empresarial. Unesp. Guaratinguetá, 2002.
NAVEGA, Sergio. Princípios do DataMining. Cenadem 2002, Anais do Infoimagem, 2002.
Disponível em: <http://www.intelliwise.com/reports/i2002.htm>. Acesso em: março de 2012.
OLIVEIRA, Robson Butaca Taborelli de. O Processo de Extração de Conhecimento de
Base de Dados Apoiado por Agentes de Software. (Dissertação) Ciência da Computação.
Universidade de São Paulo. São Carlos, 2000.
ROMÃO, Wesley. Descoberta de Conhecimento Relevante em Banco de Dados sobre
Ciência e Tecnologia. (Tese) Programa de Pós‑Graduação em Engenharia de Produção.
Universidade Federal de Santa Catarina. Florianópolis, 2002.
Pós-graduação
107
Técnicas de Mineração de Dados
Flávio Ceci e Gláucio Adriano Fontana
A evolução da computação permitiu a automatização de uma série de processos
organizacionais, bem como a comunicação interna e externa. No entanto,
junto a essa evolução nasce a explosão na quantidade de dados produzidos.
Segundo Witten e Frank (2000), um dos grandes problemas atuais é a produção
desordenada de dados a partir das operações de um indivíduo ou organização.
Essa grande quantidade faz emergir a necessidade de discos de armazenamento
maiores, e esse processo nunca para, ou seja, sempre será necessário comprar um
novo disco rígido maior.
Junto ao armazenamento, surge a necessidade de recuperação, de maneira rápida
e eficiente, o que faz as organizações se preocupar em como organizar esses
dados. É sabido que por trás dos dados brutos se esconde uma grande quantidade
de informações e conhecimento valiosos para a tomada de decisão.
O uso das técnicas de mineração de dados (em inglês Data Mining) com a criação
de repositórios de dados organizacionais representam processos imprescindíveis
para a descoberta de conhecimento. Para Rezende (2003), o uso de técnicas
de mineração de dados se dá pela combinação de uma série de algoritmos que
definem um paradigma de extração de conhecimento, é importante destacar que
para uma mesma técnica pode‑se utilizar mais de um algoritmo.
Processos da mineração de dados
Para que as técnicas de mineração de dados obtenham sucesso na sua análise
e atuem na resolução dos problemas, é necessário que sejam efetuados alguns
processos. A Figura 1 foi retirada do trabalho de Quoniam et al (2001), que
apresenta todos os seus processos.
Descobrindo o conhecimento
108
Figura 1 - Processos para a mineração de dados
Base de
Dados Bruta
Visualiza
2ª Etapa de Seleção
dos Dados
Limpa
1ª Etapa
Problema que será
objeto de estudo
Base de Dados
de Trabalho
3ª Etapa de
Preparação dos Dados
Data Mining
Análise dos
resultados
Assimilação do
Conhecimento
4ª Etapa de
Análise dos dados
Fonte: Quoniam et al (2001).
Inicialmente, é identificado qual (quais) problemas se deseja resolver utilizando as
técnicas de mineração de dados. Além disso, pode‑se partir para o levantamento
das perguntas que se deseja responder com a sua utilização.
A segunda etapa do processo é a seleção e organização dos dados que serão
utilizados como base para a análise. Essas duas etapas iniciais são comuns no
processo de implementação de um data warehouse e podem ser reaproveitadas.
A terceira etapa está focada na preparação dos dados, é o pré‑processamento.
Agora eles são organizados de modo a serem melhor analisados pelos
algoritmos utilizados.
Na quarta e última etapa é feita a análise propriamente dita e aplicado o
algoritmo para a mineração de dados, a fim de explicitar novas informações e
conhecimentos de domínio da organização.
A utilização das técnicas de mineração de dados não estão limitadas ao domínio
da computação, muitas outras áreas também a utilizam, na próxima seção são
apresentadas essas áreas com mais detalhes.
Pós-graduação
109
Segmentos para o uso de mineração de dados
Muitas são as áreas e segmentos que fazem uso das técnicas de mineração de
dados, segundo Carvalho (2005), muitos são os exemplos do seu uso. A seguir são
apresentados alguns desses exemplos, levantados do livro desse autor:
•• Aplicações do governo: o governo americano utiliza mineração de dados
há bastante tempo para identificação de padrões de transferências de
fundos internacionais, que se parecem com a manipulação do dinheiro
pelo narcotráfico;
•• Supermercados: algumas redes de supermercados utilizam‑se de
técnicas de mineração de dados para oferecerem ofertas a seus clientes
de maneira personalizada, a partir dos dados anteriores de suas compras;
•• Na medicina: o uso de mineração de dados para auxiliar na detecção de
doenças a partir de sintomas e do histórico de saúde do paciente.
Segundo Martinhago (2005), não existe uma só técnica que pode ser aplicada
a fim de solucionar um problema ou fazer uma análise, mas existem técnicas
que são mais eficientes para resolver melhor alguns problemas, por esse motivo
deve‑se conhecer bem as técnicas de mineração de dados, seus algoritmos e suas
possíveis aplicações.
Muitas são as técnicas utilizadas de mineração de dados para os mais variados fins,
as mais utilizadas são:
•• Classificação de dados (data classification): consiste no processo
de encontrar propriedades comuns e um determinado conjunto de
objetos de um banco de dados e classificá‑los em diferentes classes,
de acordo com um modelo de classificação. Para construir um modelo
de classificação, um banco de dados de exemplo é definido como o
conjunto de treinamento, onde cada tupla, que se pode definir com
uma linha de uma tabela do banco de dados, consiste em um conjunto
de múltiplos atributos comuns das tuplas de um grande banco de
dados e, adicionalmente, cada tupla contém um rótulo marcado com
a identificação de uma classe conhecida associada a ela. O objetivo da
classificação de dados é primeiro analisar o conjunto de treinamento e
desenvolver uma apurada descrição ou modelo para futuros testes, com
os dados de um grande banco de dados. Os passos básicos são: definição
de um conjunto de exemplos conhecidos (treinamento); treinamento
sobre esse conjunto; gerar regras de classificação ou descrição.
Descobrindo o conhecimento
110
•• Clusterização: instintivamente, as pessoas visualizam os dados
segmentados em grupos discretos, como, por exemplo, tipos de
plantas ou animais. Na criação desses grupos discretos pode‑se
notar a similaridade dos objetos em cada grupo. Enquanto a análise
de grupos é frequentemente feita de modo manual em pequenos
conjuntos de dados, para grandes conjuntos, um processo automático
de clusterização (dataclustering), por meio da tecnologia de mineração
de dados é mais eficiente. Em adição, os cenários existentes são
muito similares, tornando‑os competitivos, requerendo a utilização de
algoritmos complexos, que determinem a segmentação mais apropriada.
Nesse método de mineração, considerado do tipo “divisão e conquista”,
o algoritmo deve criar as classes por meio da produção de partições do
banco de dados em conjuntos de duplas. Essa partição é feita de modo
que duplas com valores de atributos semelhantes, ou seja, propriedades
de interesse comuns sejam reunidas dentro de uma mesma classe.
•• Estimativa: estimar algum índice é determinar seu valor mais provável
diante de dados de outros índices semelhantes sobre os quais se
têm conhecimento. Suponha que se deseja saber o gasto de famílias
cariocas com lazer e que para isso existam índices de gastos de famílias
paulistanas com lazer em função da faixa etária e padrão sociocultural.
Não sabemos exatamente quanto as famílias cariocas gastam com lazer,
mas podemos estimar, baseados nos dados das famílias paulistanas.
Certamente, essa estimativa pode nos levar a erros, uma vez que
Rio de Janeiro e São Paulo são cidades com geografias diferentes e
oferecem diferentes opções de lazer a seus frequentadores. A arte de
estimar é exatamente esta: determinar da melhor forma possível um
valor, baseando‑se em outros valores de situações idênticas, mas nunca
exatamente iguais.
•• Previsão: resume‑se na avaliação do valor futuro de algum índice,
baseando‑se em dados de comportamento passado a esse índice.
A previsão pode incluir tarefas como: se o índice da bolsa de valores X
irá subir ou descer amanhã, quanto o valor da bolsa irá variar, qual será
a população de uma cidade Y daqui a dez anos, entre outras. O único
meio de verificarmos se uma previsão foi bem feita é aguardar o
acontecimento do fato e conferir se ela se verificou ou não.
•• Regras de associação: determinam que fatos ocorrem simultaneamente
com probabilidade razoável de co‑ocorrência, ou que itens em uma
massa de dados estão presentes juntos (correlação). Vendas casadas ou
a análise de um carrinho de supermercado para ver quais itens os clientes
compram conjuntamente, são exemplos desta técnica. Uma regra de
associação é definida como: “Se X então Y” ou “X ÞY”, onde X e Y são
Pós-graduação
111
conjuntos de itens e X Ç Y = Æ. Diz‑se que X é o antecedente da regra,
enquanto que Y é o consequente dela. Um algoritmo baseado em
regras de associação consiste em descobrir esse tipo de regra entre os
dados preparados para a garimpagem. Medidas estatísticas revelam a
frequência de uma regra no universo dos dados garimpados.
Para clarificar o entendimento de como funcionariam técnicas de mineração de
dados aplicadas sobre uma massa de dados, seja ela proveniente de informações
de um DW, de um banco de dados transacional ou da Web (webmining), são
demonstrados dois exemplos de regras de associação e de clusterização,
mostrando como se pode descobrir nova informação e assumi‑la como regra,
isto é, conhecimento.
Utilizando Regras de Associação para venda casada
Pense em uma cadeia de lojas de farmácias. Deseja‑se saber quais produtos
desencadeiam a compra de outros.
Por exemplo, ao encontrar a seguinte associação {mercúrio, gaze, esparadrapo}
Þ {algodão} (0,78), significando que 78% dos clientes que compram mercúrio, gaze,
esparadrapo também compram algodão, o gerente de uma farmácia pode veicular
campanhas publicitárias utilizando esses produtos, dispô‑los em lugares próximos
na prateleira, entender o porquê de uma possível queda nas vendas de alguns dos
produtos, entre outras conclusões. Muitos algoritmos foram desenvolvidos com
o objetivo de descobrir regras de associação. Desses, o mais utilizado é o Apriori,
sendo que os demais ou são extensões deste ou o utilizam (AGRAWAL, 1995 apud
CARVALHO, 2000).
O algoritmo Apriori realiza a garimpagem em dois passos: geração e poda.
No primeiro, é feita uma varredura sobre o arquivo, a fim de gerar todos os
conjuntos de combinações de valores de colunas que aparecem no arquivo.
No segundo, são considerados apenas aqueles conjuntos que aparecem no
arquivo com uma frequência não menor que um valor mínimo pré‑fixado, são
os chamados grandes conjuntos. A medida da frequência de um conjunto X de
valores é chamada de suporte, assim definido:
Suporte (X) =
Nº de registros que contêm os elementos do conjunto X
Nº total de registros do arquivo
Descobrindo o conhecimento
112
E o fator de confiança da regra é dado por:
Confiança (R) =
Nº de registros com X e Y
Nº de registros com X
Na tabela seguinte, exemplificando um espaço amostral de dez registros,
considera‑se 1 para produto comprado por cada cliente.
Tabela 1 ‑ Transações de vendas a clientes
Transação
Gaze
Esparadrapo
Mercúrio
1
1
1
0
2
1
1
0
3
1
1
1
4
1
1
1
5
1
1
1
6
1
1
1
7
1
0
1
8
1
1
1
9
0
1
1
10
1
1
1
Fonte: Carvalho (2000).
E considerando‑se um grau de confiança mínimo de 0,80, os cálculos denotaram
as seguintes relações válidas (com grau de confiança superior ao mínimo):
Tabela 2 ‑ Regras com confiança maior que o mínimo
Regra
{Gaze}=Esparadrapo
0,88
{Esparadrapo}=Gaze
0,88
{Gaze}=Mercúrio
0,77
{Mercúrio}=Gaze
0,87
{Esparadrapo}=Mercúrio
0,77
{Mercúrio}= Esparadrapo
0,87
{Gaze, Esparadrapo}=Mercúrio
0,75
{Gaze, Mercúrio}= Esparadrapo
0,85
{Esparadrapo, Mercúrio}=Gaze
0,85
Fonte: Carvalho (2000).
Pós-graduação
Fator de confiança
113
Quem leva mercúrio também leva gaze? Vale comentar aqui que essa relação nem
sempre é comutativa. Veja as linhas 3 e 4 da tabela. Ela contém valores diferentes
e regras inválidas e válidas, respectivamente, simplesmente modificando a ordem
dos produtos, como precedente e consequente. Como você pode notar, pode‑se
confiar que quem leva mercúrio, leva gaze (87% dos clientes), mas está abaixo do
limiar afirmar que quem leva gaze, leva mercúrio. O precedente normalmente será
o carro‑chefe das vendas, ele chamará o cliente para dentro do estabelecimento e
o fará consumir mais.
Criando classes – Clusterizando
Fazer grupos e procurar características em comum entre vários itens e aproximar
os semelhantes é o que se chama Clusterizar. Essa técnica, muitas vezes, é uma
das primeiras etapas dentro de um processo de Data Mining, já que identifica
grupos de registros correlatos.
Um cluster é um agrupamento de itens que são similares a outros dentro do
mesmo agrupamento e diferentes em outros agrupamentos (HAN; KAMBER, 2006
apud ARAGÃO, 2008). Podemos, então, definir a análise de cluster, ou clusterização,
como um processo que permite agrupar itens, de forma a maximizar a similaridade
dentro da mesma classe e a minimizar a similaridade entre as classes.
Para medir a similaridade entre itens, a análise de cluster se baseia na proximidade
entre os valores de seus atributos. Mapeando cada atributo em uma coordenada
unidimensional, itens compostos por “m” atributos podem ser representados
como pontos em um espaço euclidiano m‑dimensional.
A distância euclidiana entre dois pontos p = (p1, p2,…, pm) e q = (q1, q2,…, qm) é
definida como:
dist ( p, q) =
m
( pi
i=1
qi )
2
O exemplo abaixo, apresentado por Aragão (2008), considera o conjunto e a
renda representando pessoas, conforme a Tabela 3. A partir dos valores dos
atributos desses itens, podemos formar o gráfico bidimensional apresentado
na Figura 2, em que cada ponto representa um item (ou pessoa). Os círculos
representam os clusters ou agrupamentos mais próximos, como um algoritmo
de clusterização faria.
Descobrindo o conhecimento
114
Tabela 3 - Valores dos atributos
Idade
Renda
5
0,00
27
3.000,00
42
5.000,00
29
3.500,00
18
500,00
22
1.000,00
31
3.200,00
39
4.600,00
20
800,00
10
0,00
6
0,00
46
4.500,00
40
1.500,00
42
1.000,00
39
1.200,00
Fonte: Aragão (2008)
Para usar esses clusters como classes, precisamos antes identificá‑los e nomeá‑los
adequadamente. Por exemplo:
C1: “Crianças”. Nesses clusters temos apenas crianças, que não podem trabalhar,
portanto, sua renda é nula.
C2: “Jovens Iniciando a Carreira”. Nesses clusters temos pessoas com idade
próxima à mínima para poder trabalhar. Mas, como provavelmente não possuem
formação superior nem experiência, têm uma renda relativamente baixa.
C3: “Profissionais com Curso Superior”. Nesses clusters temos pessoas que
já têm experiência e pelo patamar salarial provavelmente também possuem
formação superior.
C4: “Altos Executivos”. Nesses clusters temos pessoas de certa idade que, para
ter uma renda tão alta em tal faixa etária, provavelmente fazem parte de alto
escalão gerencial.
C5: “Profissionais sem Curso Superior”. Nesses clusters temos pessoas de
certa idade que, por terem uma renda relativamente baixa, provavelmente não
possuem curso superior.
Pós-graduação
115
Figura 2 - Gráfico bidimensional
6.000
C4
Renda
5.000
4.000
C3
3.000
2.000
C2
1.000
C5
C1
0
0
10
20
30
40
50
Idade
Fonte: Aragão (2008).
A identificação e nomeação acima são apenas aproximadas e ilustrativas,
contribuindo para o entendimento didático, e já possuem interpretação mais
em cima.
Após a identificação e nomeação dos clusters (ou classes), podemos associar a cada
item sua respectiva classe, de acordo com o resultado da clusterização, usando
esses dados como exemplos de treinamento para um algoritmo de classificação.
Pensar em agrupar pode ser muito útil se quisermos, por exemplo, conhecer
diferenças entre hábitos de consumo de diferentes clientes em uma loja que
vende diferentes produtos. Sazonalidade de compras, qual produto determinado
cliente leva e quem mais compra este produto, e onde vivem esses clientes com
gostos e comportamentos semelhantes. Talvez seja interessante abrir uma filial
próxima a eles, não? Criando classes, estamos prospectando negócios.
Conclusão
O uso das técnicas de mineração de dados para apoiar o processo de tomada de
decisão pela camada gerencial, possibilitaa descoberta de conhecimento a partir
dos seus repositórios de dados.
Essa descoberta de conhecimento se dá a partir da aplicação de técnicas baseadas
em estatísticas e na inteligência artificial para encontrar padrões e informações
implícitas nos dados armazenados nos repositórios das organizações.
A mineração de dados é utilizada hoje em vários segmentos de mercado, como
por exemplo: área médica, geologia, economia, marketing, administração,
engenharias, entre outras áreas.
Descobrindo o conhecimento
116
Referências
AGRAWAL, R.; SRIKANT, R. Mining Sequential Patterns. Proceedings of Eleventh
International Conf on Data Engineering. 1995.
ARAGÃO, Pedro O. Um estudo sobre conceitos e técnicas de mineração de dados. 2008.
Monografia (Graduação em Tecnologia)‑Faculdade de Tecnologia de São Paulo, São Paulo,
2008.
BERGER, Gideon et al. Discovering Unexpected Patterns in Temporal Data using Temporal
Logic; Temporal Databases ‑ Research and Practice. Heidelberg: Ed Springer‑Verlag, 1998.
CARVALHO, Luís Alfredo V. Data Mining: A Mineração de Dados no Marketing, Medicina,
Economia, Engenharia e Administração. Editora Ciência Moderna. Rio de Janeiro, 2005.
CARVALHO, Juliano et al. Utilização de técnicas de datamining para reconhecimento de
caracteres manuscritos. Universidade Federal da Paraíba, 2000.
FAYYAD, Usama M; PIATESTSKY‑SHAPIRO, Gregory; SMYTH, Padhraic; UTHURUSAMY,
Ramasamy.Advance. Knowledge Discovery and Data Mining. 1996.
LOH, Stanley. Material das disciplinas de Sistemas de Informação e Data Mining.
Disponível em: atlas.ucpel.tche.br/~loh/. Acesso em: jul. 2009.
MARTINHAGO, Sérgio. Descoberta de Conhecimento sobre o Processo Seletivo da
UFPR. (Dissertação) Mestrado em Métodos Numéricos em Engenharia. Universidade
Federal do Paraná, Curitiba, 2005.
NAVEGA, Sergio. Princípios do DataMining. Cenadem 2002, Anais do Infoimagem, 2002.
QUONIAM, Luc; et al. Inteligência obtida pela aplicação de data mining em base de teses
francesas sobre o Brasil. Ciência da Informação, v. 30, n.2, p, 20‑28. Brasília, 2001.
REZENDE, Solange. Sistemas Inteligentes – Fundamentos e aplicações. São Paulo: Ed.
Manole, 2003.
WITTEN, Ian H.; FRANK, Eibe. Data Mining – Practical Machine Learning Tools and
Techniques with Java Implementations. Morgan Kaufmann Publishers. 2000.
Pós-graduação
117
O processo KDT
Flávio Ceci
O processo de descoberta de conhecimento traz uma série de benefícios para a
camada de decisão. Esse processo de conhecimento em banco de dados (KDD) é o
mais conhecido e utilizado pelas organizações.
O fato é que muito dos conhecimentos organizacionaisl estão disponíveis
nos mais variados meios e já formados. Grande parte está disponível como
documento textual não estruturado, por exemplo, em relatórios, e‑mails, manuais,
notas de compra e venda. (CECI et al, 2010). Tendo em vista essa afirmação, é
apresentado o Processo de Descoberta de Conhecimento em Texto (ou em inglês
KDT – Knowledge Discovery in Text).
Segundo Feldman e Hirsh (1997), o processo de extração de conhecimento em
texto é não trivial de informações implícitas nos documentos organizacionais, que
trazem muito valor para a tomada de decisão. Por “não trivial” Bovo (2011) explica
que isso envolve alguma busca ou inferência, de modo que não é apenas uma
computação direta de valores pré‑definidos, os padrões encontrados devem ser
válidos perante os novos dados, com algum grau de certeza.
O processo KDT é bastante similar ao processo KDD, é basicamente o processo de
extração de padrões relevantes e não triviais a partir de bases de dados semi ou
não estruturadas. Também utiliza técnicas da mineração de dados, mas nesse caso
usam‑se técnicas de processamento de linguagem natural para extrair conceitos
de texto e mais uma vez análises estatísticas, mas para recuperar padrões e
técnicas de visualização, permitindo análises interativas (GONÇALVES, 2006).
Segundo Turban (2009), Text Mining é a aplicação do Data Mining sobre textos
não estruturados.
A Figura 1 apresenta as etapas mais comuns de um processo de descoberta de
conhecimento em banco de dados.
Figura 1 - Etapas do processo KDD
Interpretação/Avaliação
Mineração de Dados
Transformação
Pré-processamento
Conhecimento
Seleção
Base de
Dados
Data set
Dado
Dado
Transformado
Pré-processado
Padrões
Fonte: Gonçalves (2006).
Descobrindo o conhecimento
118
Após verificar se as etapas do processo KDD na Figura 1, a seção a seguir apresenta
as etapas do processo de Descoberta de Conhecimento em Texto, de modo que se
pode ter uma visão comparativa entre os dois processos.
Etapas do processo de Descoberta de Conhecimento
em Texto
Como já foi afirmado anteriormente, o processo KDT se assemelha e muito ao
processo KDD. A Figura 2 apresenta as etapas desse processo.
Figura 2 - Etapas do processo KDT
Interpretação/Avaliação
Mineração de Textos
Extração de
Informação
Pré-processamento
Conhecimento
Padrões
Texto
Data set
Dado
Pré-processado
Fonte: Gonçalves (2006).
Para explicar melhor o processo KDT Ceci et al (2010) p. 3676, apresenta o
seguinte parágrafo:
Dados os objetivos que se deseja alcançar com o processo, o primeiro passo
é eleger o conjunto de textos que será utilizado. A partir desse conjunto
de documentos, inicia‑se o processo de pré‑processamento dos dados.
O propósito do pré‑processamento é eliminação de ruídos, termos não
relevantes (stop‑words), redução das palavras aos seus radicais (stemming),
correções ortográficas e outros aspectos morfológicos e também sintáticos
que as expressões textuais possuem. Após o pré‑processamento, a etapa
de transformação do texto é iniciada. Nessa etapa, ocorre a normalização
do texto e sua transformação e representação no formato de vetor,
tabela, matrizes, etc. As próximas etapas são a seleção e a projeção dos
dados, em que há uma redução da dimensionalidade do modelo criado
no passo anterior, e a escolha das palavras relevantes. Os textos têm
a característica de possuírem alta dimensionalidade, visto que cada
palavra pode ser uma dimensão do vetor ou matriz. Portanto, reduzir a
dimensionalidade é importante para que o resultado seja encontrado
com maior eficiência e desempenho. Dado o modelo estabelecido,
as técnicas de KDT podem ser usadas no passo seguinte, com a escolha
do algoritmo. Conforme o objetivo do problema, existem muitos métodos
de descoberta de padrões em textos, com aprendizado supervisionado
e não supervisionado, analogamente aos métodos de descoberta em
banco de dados. Por fim, o último passo do processo KDT constitui a
interpretação dos resultados obtidos e a obtenção do conhecimento.
Pós-graduação
119
A etapa de mineração de texto apresentada na Figura 2 utiliza‑se de técnicas de
agrupamento, classificação, sumarização de documentos, regras de associação e
análise de ligações. Podem ser utilizadas também técnicas da mineração de dados
tradicional, fazendo as devidas modificações. Gonçalves (2006) apresenta uma
tabela demonstrando as principais funções, algoritmos e exemplos de aplicações
disponíveis na mineração de dados tradicional.
Tabela 1 - Funções e algoritmos da mineração de dados
Funções
Algoritmos
Aplicações
Associação
Estatística, teoria dos conjuntos.
Análise de mercado.
Classificação
Árvores de decisão, redes
neurais, algoritmos genéticos.
Controle de qualidade,
avaliação de riscos.
Agrupamento
Redes neurais, estatística.
Segmentação de mercado.
Modelagem
Regressão linear e não
linear, redes neurais.
Ranking de clientes, controle de
processos, modelo de preços.
Previsão de séries
temporais
Estatística, redes neurais.
Previsão de vendas,
controle de inventário.
Padrões sequenciais
Estatística, teoria dos conjuntos.
Análise de mercado
sobre o tempo.
Fonte: Gonçalves (2006).
Segundo Gonçalves (2006), a escolha de uma ou outra técnica apresentada na
tabela 1 depende essencialmente do negócio, da aplicação e da quantidade e
qualidade dos dados em questão.
Uso de mineração de texto
A mineração de texto pode ser utilizada para auxiliar a organização em várias
situações, Turban (2009) apresenta algumas:
•• Encontrar o conteúdo implícito dos documentos, adicionando
relações adicionais;
•• Relacionar documentos que possuam conteúdos similares;
•• Descobrir entidades que possam fazer sentido no modelo relacional;
•• Recuperar documentos completos a partir de buscas.
Para viabilizar as situações apresentadas acima é necessário que os documentos não
estruturados sejam antes de qualquer coisa convertidos para uma estrutura que seja
fácil de processar, pode‑se fazer uma analogia da conversão dos dados presentes
Descobrindo o conhecimento
120
nas bases operacionais de uma organização para os repositórios do tipo data
warehouse, com o intuído de facilitar a análise na mineração de dados tradicional.
Os dados contidos nos documentos da organização são transformados para
os chamados índices textuais, que são apresentados com mais detalhes na
próxima seção.
Indexação
O processo de indexação é fundamental para a mineração de texto, pois organiza
os dados presentes no texto de uma forma que seja facilmente recuperado. Por
conta disso, a indexação é uma das tarefas mais importantes para a recuperação
de informação (CECI, 2010).
Segundo Ebecken, Lopes e Costa (2003), a indexação tem como função permitir
que se efetue uma busca em texto sem a necessidade de varrer o documento
inteiro, similarmente ao que acontece com o processo “homônimo” utilizado
convencionalmente em bancos de dados. Os autores classificam a indexação em
quatro tipos distintos, a saber:
•• indexação de texto completo;
•• indexação temática;
•• indexação semântica latente;
•• indexação por tags.
A indexação para Wives (2002) consiste na identificação de características
para um dado documento, o que proporciona a construção de uma estrutura
chamada índice. O objetivo do índice é selecionar os documentos de maior
relevância, filtrando‑os entre os irrelevantes. Essa estruturação descrita aqui
pode ser realizada de forma manual – normalmente utilizada pela área de
biblioteconomia – ou por um processo automatizado, relacionado com a área de
computação, à qual esse trabalho está intrinsecamente ligado.
Segundo Igarashi (2005), o índice possui uma estrutura composta dos seguintes
termos:
•• DocCnt: identifica em quantos documentos o termo está contido;
•• FreqCnt: identifica a frequência total do termo em relação a todos
os documentos;
•• Freq: número de vezes em que o termo se encontra no documento;
•• Posição termo: identifica a posição do termo no documento.
Pós-graduação
121
Uma das técnicas mais utilizadas é a baseada em índice invertido, de acordo com
Baeza‑Yates e Ribeiro‑Neto (1999 apud AIRES, 2005). A Técnica de Arquivo (ou
Índice) Invertido trabalha com uma lista de palavras‑chave ordenadas, onde cada
palavra está ligada ao documento que a possui. Esse documento é associado
a uma lista invertida de palavras‑chave, que passa a ser ordenada por ordem
alfabética. Essas palavras‑chave possuem um peso. Após o processamento, a lista
fica dividida em dois arquivos, um de vocabulário e outro de endereçamento.
A Figura 3 apresenta um exemplo de um índice invertido:
Figura 3 - Exemplo de índice invertido
Apontadores
Dicionário
Term
Doc #
Freq
Term
N docs
Tot freq
Doc #
Freq
a
2
1
a
1
1
1
1
aid
1
1
aid
1
1
1
1
all
1
1
all
1
1
and
1
1
2
1
come
1
1
1
1
the
2
1
their
2
1
Fonte. Elaboração do autor.
Após a indexação dos documentos são aplicados algoritmos de inteligência
artificial para extrair os padrões e possibilitar as análises, de modo a explicitar as
informações latentes do corpus de documentos.
O processo de indexação faz parte da etapa marcada como “Extração de
informação”, apresentada na Figura 2. Na próxima seção são mencionados alguns
tratamentos que podem ser utilizados na etapa de “extração de informação”
e “pré‑processamento”.
Pré‑processamento
Esta etapa não possui um único algoritmo ou técnica disponível, na verdade,
existem algumas operações que podem ser feitas dependendo diretamente do
contexto e da análise pretendida.
Quando a semântica não é importante, ou seja, não será feita nenhuma
análise baseada em processamento de linguagem natural, como por exemplo,
uma aplicação focada em busca completa a documentos textuais (recuperação de
informação), utiliza‑se:
Descobrindo o conhecimento
122
•• Stemmer: os algoritmos de stemming tratam isoladamente todas
as palavras do texto, sempre tentando trabalhar com a sua possível
palavra‑raiz. Eles não se apegam ao contexto da palavra, pois os ganhos
obtidos em precisão não justificam a grande quantidade de erros
decorridos de uma análise de sentido equivocado (AIRES, 2005).
•• Retirada de stopwords: as palavras consideradas como stopwords
contidas em um documento trazem consigo duas influências para os SRI.
A primeira delas é o fato de influenciarem no grau de frequência das
palavras do documento, pois elas ocorrem várias vezes; já a segunda,
é o processamento desnecessário proveniente dessas palavras que não
auxiliam na busca do usuário (KORFHAGE, 1997).
Essas técnicas também podem ser utilizadas na etapa de extração de
informação antes da indexação dos documentos, na base do foco da aplicação,
ou seja, a busca.
Na etapa de pré‑processamento também utilizam‑se métodos estatísticos para
levantar mais informações para auxiliar a mineração e análise das informações
contidas nos documentos, como por exemplo:
•• Calculo de coocorrência: esse tipo de cálculo pode levantar informações
sobre quantas vezes duas palavras aparecem próximas em uma frase;
•• Calculo de correlação: identificação de relação direta ou indireta de dois
elementos, a partir da análise dos textos;
•• Agrupamento: montar grupos de documentos agrupados pelo
seu conteúdo.
Todas as técnicas apresentadas nessa seção têm como foco levantar informações
e preparar os dados para facilitar a descoberta de conhecimento a partir dos
documentos da organização. Na próxima seção são apresentados alguns
exemplos de técnicas de mineração para descoberta de conhecimento.
Mineração de texto
Como já foi afirmado anteriormente, as técnicas de mineração de texto são
baseadas em métodos estatísticos e algoritmos da área de inteligência artificial.
Nessa etapa, que é de fato descoberto novos conceitos e relacionamentos.
Pode‑se reparar que não existe uma única forma para trabalhar com mineração
de dados e texto, esse tipo de solução é diretamente dependente do contexto do
problema que se deseja resolver, ou do tipo de informação que pretende extrair.
Pós-graduação
123
Para exemplificar uma situação vamos imaginar que uma organização pretende
desenvolver um mapa de conhecimento baseado nos principais termos que a
representam, para isso pode‑se obter tais termos a partir da frequência que eles
ocorrem nos documentos relevantes para o contexto organizacional. Alguns
problemas que são encontrados inicialmente.
Problema 1: quantidade de documentos para serem analisados. Como já foi
apresentado, o processo de indexação minimiza esse problema, mantendo todo o
conteúdo dos documentos estruturados, de modo que seja fácil recuperar tanto
os documentos quanto a análise do seu conteúdo.
Problema 2: identificação do limite (fronteiras) das palavras. Ou seja, como
identificar uma palavra composta, por exemplo, com”Unisul Virtual”, no meio de
um texto que nada mais é que um conjunto de palavras?
Para resolver esse problema, pode‑se utilizar uma técnica chamada de
Reconhecimento de Entidades Nomeadas (NER – Named Entity Recognition).
Essa técnica tem como objetivo encontrar as “fronteiras” de um termo no texto
e se disponível uma base de conhecimento, também classificar este termo, como
por exemplo, pode‑se reconhecer o termo “Unisul Virtual” e apresentá‑lo como
uma organização.
Problema 3: como relacionar os termos encontrados para formar o mapa? Para isso
pode‑se utilizar a técnica apresentada anteriormente, ou seja, o cálculo de
co‑ocorrência, que irá pegar os termos reconhecidos pela técnica de NER, voltar
no índice gerado e identificar as relações dos termos.
É importante destacar que as técnicas utilizadas podem compor etapas
diferentes em situações diferentes, como por exemplo, a utilização da técnica de
reconhecimento de entidades na etapa de pré‑processamento para já levantar esses
termos anteriormente e utilizá‑los para anotar os documentos semanticamente.
Para ilustrar a última etapa do processo KDT “Interpretação/avaliação”,
é apresentado o estudo de caso do trabalho de Ceci et al (2010).
Descobrindo o conhecimento
124
Interpretação / avaliação do conhecimento
O estudo de caso apresentado no artigo “Towards a Semi‑Automatic Approach
for Ontology Maintenance”, de Ceci et al (2010), traz o resumo do currículo lattes
de quatro pesquisadores. Os autores os utilizaram como dados de entrada para
a descoberta de conhecimento em bases textuais. A Plataforma Lattes é a base
de dados de currículos, instituições e grupos de pesquisa das áreas de Ciência e
Tecnologia, mantidos pelo CNPq.
Pelo fato do tamanho do texto não ser muito grande, não foi necessário construir
um índice textual, fazendo o levantamento dos termos em memória e numa
estrutura própria do modelo proposto pelos autores. O texto a seguir foi o
utilizado na pesquisa:
“Flávio Ceci concluiu a graduação em Ciência da Computação pela Universidade
do Sul de Santa Catarina em 2007. Flávio é mestrando do curso de Engenharia e
Gestão do Conhecimento pela Universidade Federal de Santa Catarina. Atualmente,
é Desenvolvedor do Instituto Stela. Possui 6 softwares e outro item de produção
técnica. Entre 2004 e 2007 participou de 4 projetos de pesquisa. Atualmente,
participa de 3 projetos de pesquisa. Flávio atua na área de Ciência da Computação,
com ênfase em Sistemas de Informação, atuando, principalmente, nos seguintes
temas: reconhecimento de entidades; técnicas de inteligência artificial aplicada à
engenharia do conhecimento; população de ontologias; descoberta de conhecimento
em bases textuais e recuperação de informação. Em suas atividades profissionais
interagiu com 13 colaboradores, em coautorias de trabalhos científicos.
Alexandre Leopoldo Gonçalves possui Bachareladol em Ciências da Computação
pela Fundação Universidade Regional de Blumenau (1997), mestrado em Engenharia
de Produção pela Universidade Federal de Santa Catarina (2000) e doutorado
em Engenharia de Produção pela Universidade Federal de Santa Catarina (2006).
Atualmente, é colaborador e líder da Unidade de Produto do Instituto Stela.
Alexandre tem experiência na área de Ciência da Computação, com ênfase em
Engenharia do Conhecimento, atuando, principalmente, nos seguintes temas:
extração e recuperação de informação, mineração de textos e extração e engenharia
do conhecimento. Possui trabalhos publicados em periódicos especializados e em
eventos nacionais e internacionais, em diversos países, assim como softwares com
e sem registro. Desde 2001 participa tanto na atuação quanto na coordenação de
projetos de pesquisa no Brasil e no exterior.
Pós-graduação
125
Denilson Sell concluiu o doutorado em Engenharia de Produção pela Universidade
Federal de Santa Catarina, em 2007. Atualmente, é Professor da Universidade
Federal de Santa Catarina, Analista de Sistemas do Instituto Stela e Professor
da Universidade do Estado de Santa Catarina. Publicou 1 artigo em periódico
especializado e 16 trabalhos em anais de eventos. Possui 16 softwares , sendo
1 com registro e outros 11 itens de produção técnica. Participou de 3 eventos no
exterior e 6 no Brasil. Denilson co‑orientou 5 dissertações de mestrado, além de ter
orientado 2 trabalhos de conclusão de curso nas áreas de Ciência da Computação e
Administração. Recebeu 2 prêmios e/ou homenagens. Entre 1997 e 2005 participou de
11 projetos de pesquisa. Atualmente, participa de 5 projetos de pesquisa, sendo que
coordena 2 deles. Atua na área de Ciência da Computação, com ênfase em Sistemas
de Informação. Em suas atividades profissionais interagiu com 55 colaboradores,
em coautorias de trabalhos científicos.
Dhiogo Cardoso da Silva possui graduação em Bacharelado em Sistemas de
Informação pela Universidade Federal de Santa Catarina (2007). No momento,
é mestrando de Engenharia do Conhecimento da Universidade Federal de Santa
Catarina. Atualmente Dhiogo é colaborador do Instituto Stela. Dhiogo tem
experiência na área de Ciência da Computação, com ênfase em Sistemas de
Informação, atuando, principalmente, nos seguintes temas: Business Intelligence,
Web Semântica, Data Warehousing e Text Mining”.
Os autores submeteram o texto apresentado a uma técnica de reconhecimento
de entidades nomeadas que utilizava como base de conhecimento alguns termos
retirados das palavras‑chaves dos currículos, bem como uma lista de áreas de
conhecimento e instituições.
A partir dos termos reconhecidos, foi aplicado um cálculo de correlação que
identificou as ligações e o peso delas entre os termos em questão. Por fim, o
resultado foi apresentado na forma de uma árvore hiperbólica para facilitar a
análise das informações descobertas.
A Figura 4 apresenta uma dessas árvores hiperbólicas geradas a partir do estudo
de caso:
Descobrindo o conhecimento
126
Figura 4 - Árvore hiperbólica que representa a relação entre as entidades
reconhecidas
Fonte: Ceci et al (2010).
Na Figura 4 é facilmente identificada uma série de termos que representam o
contexto dos resumes, instituições como: “universidade federal de santa catarina”
e “universidade do estado de santa catarina” estão presentes.
Também são apresentados alguns termos que a aplicação identificou como
importantes, mas não conseguiu classificá‑los, como por exemplo: “mineração de
texto” e “engenharia do conhecimento”.
Agora a descoberta mais significativa que está disponível para a análise
do especialista é a relação indireta entre os pesquisadores “alexandre” e
“denilson”, em nenhum momento no currículo deles é apresentada uma relação
direta entre os dois, mas por meio da análise da figura é fácil verificar que os
dois pesquisadores estão ligados pelas áreas de conhecimento: “ciência da
computação” (curso de graduação dos dois) e “engenharia de producão” (que foi
o programa de pós‑graduação que ambos fizeram o mestrado e doutorado).
Os dois pesquisadores também estão relacionados pelas organizações:
“Universidade Federal de Santa Catarina” (os dois fizeram a pós‑graduação nesta
instituição) e pelo “instituto stela” (instituto de pesquisa que ambos trabalhavam
na época da pesquisa).
Pode‑se verificar todo o poder do uso da descoberta de conhecimento em texto
para as organizações, tanto essa abordagem quanto a mineração de dados
representa uma importante evolução para os sistemas de apoio à decisão, passando
a não lidar apenas com dados e informações, mas também com conhecimento.
Pós-graduação
127
Referências
AIRES, Rachel Virgínia Xavier. Uso de marcadores estilísticos para a busca na Web em
português. 2005. 202 f. Tese (Doutorado) Programa de Pós Graduação em Ciências da
Computação e Matemática Computacional – Instituto de Ciências e Matemáticas e de
Computação‑ICMC, Universidade de São Paulo‑USP, São Carlos (SP).
BOVO, Alessandro Botelho. Um modelo de descoberta de conhecimento inerente à
evolução temporal dos relacionamentos entre elementos textuais. 2011. 127 (Doutorado).
Programa de Pós‑Graduação em Engenharia e Gestão do Conhecimento, UFSC,
Florianópolis (SC).
CECI, Flavio. Um modelo semiautomático para a construção e manutenção de ontologias
a partir de bases de documentos não estruturados. 2010. 131 (Mestrado). Programa de
Pós‑Graduação em Engenharia e Gestão do Conhecimento, UFSC, Florianópolis (SC).
CECI, Flavio; SILVA, Dhiogo C.; SELL, Denilson; GONÇALVES, Alexandre L. Towards a
Semi‑Automatic Approach for Ontology Maintenance. 7 CONTECSI ‑ International
Conference on Information Systems and Technology Management. USP, São Paulo, 2010.
EBECKEN, Nelson F. F.; LOPES, Maria Celia S.; COSTA, Myrian C. A. Mineração de texto.
In: REZENDE, Solange O. (Coord.). Sistemas inteligentes: fundamentos e aplicações. São
Paulo: Manole, 2005.
FELDMAN, R.; HIRSH, H. Exploiting Background information in Knowledge discovery
from text. Journal of Intelligent Information System, 1997.
GONÇALVES, A. L. Um modelo de descoberta de conhecimento baseado na correlação de
elementos textuais e expansão vetorial aplicado à engenharia e gestão do conhecimento.
2006. 196 (Doutorado). Programa de Pós‑Graduação em Engenharia de Produção, UFSC,
Florianópolis (SC).
IGARASHI, Wagner. Construção automática de vocabulários temáticos e
cálculo de aderência curricular: uma aplicação aos fundos setoriais. 2005. 95 f.
Dissertação (Mestrado) – Programa de Pós‑Graduação em Engenharia de Produção e
Sistemas, Universidade Federal de Santa Catarina, Florianópolis (SC).
KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer
Publishing, 1997.
TURBAN, Efraim et al. Business Intelligence – Um enfoque gerencial para a inteligência do
negócio. Editora Bookman, Porto Alegre, 2009.
WIVES, Leandro Krug. Tecnologia de descoberta de conhecimento em textos aplicados à
inteligência competitiva. Monografia apresentada ao Exame de Qualificação do Programa
de Pós‑Graduação em Computação, Universidade Federal do Rio Grande do Sul, Porto
Alegre, 2002.
Descobrindo o conhecimento
128
Atividades de Autoaprendizagem
1) Levando em consideração o conteúdo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:
a. ( ) A mineração de dados é responsável pela modelagem do conhecimento
da organização.
b. ( ) As técnicas utilizadas no processo KDD são completamente diferentes das
utilizada no processo KDT.
c. ( ) Reconhecimento de entidades nomeadas pode ser utilizada para facilitar o
processo KDT.
d. ( ) Os Data Warehouse são uma alternativa ao processo KDD, não tendo
nenhuma relação.
e. ( ) A mineração de dados e texto é viável pela utilização de algoritmos, com
base estatística e de inteligência artificial.
f. ( ) Os processos KDT e KDD utilizam como fonte soluções do tipo DW.
Atividade colaborativa
Nesta unidade, foram estudados conceitos de descoberta de conhecimento em
bases de dados e em texto, sabendo que muito do conhecimento organizacional
está disponível em documentos não estruturados. Responda à pergunta a seguir
utilizando a ferramenta Fórum, não se esqueça de comentar as respostas dos
seus colegas.
As redes sociais são hoje um dos principais canais de comunicação das
organizações com o seu cliente final. Dessa forma, é possível utilizar a descoberta
de conhecimento em texto a fim de extrair informações para contribuir com a
base de conhecimento da organização e auxiliar no processo decisório?
Pós-graduação
129
Síntese
Nesta unidade, são estudados os processos de descoberta de conhecimento,
tanto utilizando como base repositórios DW quanto por meio da análise dos
seus documentos.
O processo KDT funciona igual ao processo KDD, são conjuntos de técnicas para
se obter conhecimento de uma determinada base de dados. O KDD utiliza bases
já estruturadas para descobrir informações e o KDT usa textos, normalmente em
Linguagem Natural, também para descobrir informações. No caso, os métodos mais
utilizados são a Extração de informação e o Processamento de Linguagem Natural.
Saiba Mais
Déborah Oliveira, da Computerworld, apresenta um artigo com o seguinte título:
“Data mining começa a conquistar espaço na estratégia empresarial”, leitura
bastante recomendada:
http://cio.uol.com.br/gestao/2012/03/19/data-mining-comeca-a-conquistar-espaco-naestrategia-empresarial/
Descobrindo o conhecimento
Unidade 5
Processo OLAP
Objetivos de Aprendizagem
•• Identificar o processo OLAP, bem como as suas características.
•• Examinar as funcionalidades exploratórias do processamento OLAP.
•• Entender qual a sua participação numa arquitetura de BI.
Introdução
As soluções de Business Intelligence são compostas por uma série de componentes
tecnológicos que possibilitam um ambiente propício à tomada de decisão. Essas
soluções podem combinar os componentes para cada situação, para a camada de
apresentação dos dados e das informações utilizam‑se as soluções OLAP.
As soluções OLAP apresentam uma alternativa para a publicação dos dados
e informações vindas dos modelos dimensionais. A apresentação dessas
informações pode ser de maneira tabular ou gráfica, tanto dos dados históricos
armazenados nos repositórios data warehouse, bem como os dados reais para
auxiliar o processo decisório.
132
O que é processo OLAP?
Flávio Ceci
Uma arquitetura de Business Intelligence é composta por vários componentes,
que podem ser combinados para se obter a melhor solução ao problema em
questão da organização.
Após finalizar a concepção dos repositórios de dados, o próximo passo é
identificar qual a melhor abordagem para consumir os dados e apresentar as
informações e conhecimentos descobertos.
Normalmente, pode‑se utilizar duas abordagens diferentes para a etapa de consumo
e processamento, transformando os dados em informações e conhecimento para,
posteriormente, o seu processamento. Veja quais são as abordagens:
•• Mineração de dados: técnicas e ferramentas com base estatística ou
de inteligência artificial, as quais possuem como função explicitar os
conhecimentos implícitos, seja nos repositórios ou nos seus documentos.
•• Sistemas OLAP: sigla para a expressão processamento analítico
on‑line (em inglês, On line Analytical Processing). Esses sistemas
se referem a uma grande quantidade de atividades normalmente
executadas por usuários finais no ambiente on‑line. Inclui como suas
atividades a geração e a resposta de consultas, solicitações de relatórios
e gráficos ad hoc e a execução deles (TURBAN et al, 2009).
Pode‑se verificar que as soluções de visualização de informação e conhecimento
podem utilizar as práticas da mineração de dados, bem como as dos sistemas
OLAP, mas qual a relação entre essas duas abordagens?
A distinção entre OLAP e mineração de dados vai além das distinções entre dados
de resumo e detalhes. As funções ou algoritmos normalmente encontrados
em ferramentas OLAP são funções de modelagem descritiva, no caso da
mineração de dados, são funções de descoberta de padrão e modelagem
explicativa (THOMSEN, 2002).
Thomsen (2002) apresenta os algoritmos utilizados pelos sistemas OLAP e pelos
baseados em mineração de dados:
Funções e algoritmos utilizados pelos sistemas OLAP:
•• agregação;
•• alocações;
•• razões;
Pós-graduação
133
•• produtos;
•• entre outros.
Funções e algoritmos utilizados na mineração de dados:
•• regressões;
•• redes neurais;
•• árvores de decisão;
•• clustering.
Sobre o conceito de OLAP, Gouveia et al (2011) afirmam que é uma solução
desenvolvida para a recuperação das informações‑chave, com o intuito de
proporcionar facilidade e flexibilidade para a análise de dados da organização
como um todo, permitindo uma melhor tomada de decisão pela camada gerencial.
Para Vinci e Narciso (2006), a multidimensionalidade é uma característica que faz
parte desse conceito, isso quer dizer que se pode ver uma análise em diferentes
graus de detalhamento, chegando até no nível atômico, que foi modelado o
repositório de origem dos dados.
Segundo Thomsen (2002), pode‑se falar em conceitos de OLAP (múltiplas
dimensões hierárquicas que podem ser utilizadas em várias escalas), linguagens
OLAP (Data Definition Language – DDL, Data Manipulation Language – DML,
Data Representation Language – DRL e seus analisadores e compiladores), camadas
de produto OLAP (geralmente residem sobre os bancos de dados relacionais e
geram SQL como saída) e produtos OLAP completos.
Tipos de arquiteturas OLAP
Existem várias abordagens para os processos OLAP. Turban et al (2009) apresentam
a descrição dos principais deles:
•• MOLAP: ou OLAP multidimensional é implementado por um banco
de dados multidimensional especializado, os dados são organizados
em estruturas de cubos em que os usuários podem girá‑lo de modo a
visualizar várias “fases” dos dados. Pode‑se caracterizar como possuindo
consultas rápidas devido às informações já terem sido consolidadas.
•• ROLAP: utiliza como base um banco de dados com modelo relacional.
Cria visões multidimensionais dinâmicas, mas pelo fato de não serem
pré‑processadas utilizam‑se de consultas complexas e com tempo de
resposta bastante significativo;
•• WOLAP: também conhecido com Web OLAP, refere‑se aos dados OLAP
acessíveis de um navegador web.
Processo OLAP
134
Segundo Gouveia et al (2011), as soluções do tipo OLAP surgiram na década de
60 e continuam evoluindo até os dias de hoje. No seu trabalho, são apresentadas
duas outras arquiteturas:
•• HOLAP: (Hybrid On line Analysis Processing) surgiu na década de 90 e utiliza
como base os dois conceitos de ROLAP e MOLAP, é caracterizado por unir
o alto desempenho da arquitetura MOLAP com a alta escalabilidade da
arquitetura ROLAP, é bastante utilizada até os dias de hoje.
•• DOLAP: (Desktop On line Analysis Processing) é reconhecida pela sua
capacidade de diminuir o tráfego na rede, isso ocorre pelo fato de todo o
processamento de dados do cubo multidimensional ser feito na própria
máquina, tirando, assim, o processamento pesado do lado do servidor.
Os autores Gouveia et al (2011) ainda completam sobre as arquiteturas, que mesmo
com o surgimento de todas as arquiteturas mencionadas a principal característica
que está presente em todas as abordagens é o cubo multidimensional, capaz de
filtrar os dados por diversas formas e modos customizados pelo usuário. A Figura 1
apresenta uma representação para o cubo multidimensional.
Figura 1 - Cubo multidimensional
Fonte: Gouveia et al (2011).
Para entender os conceitos por trás do cubo multidimensional, pode‑se fazer uma
analogia com o brinquedo “cubo mágico ou cubo de Rubik)”. Nesse brinquedo, a
pessoa deve mover as fases do cubo e chegar até a situação em que todas as fases
fiquem com a mesma cor. A Figura 2 apresenta este brinquedo.
Pós-graduação
135
Figura 2 - Cubo de Rubik
Fonte: Ciência Hoje, 2010.
Da mesma forma que quem manipula o brinquedo movendo uma das fases
tem uma nova visão sobre o mesmo brinquedo, no cubo dimensional, ao mover
uma das dimensões do cubo gera‑se uma nova visão sobre os mesmos dados
do repositório. Essa interação entre as dimensões possibilita uma análise muito
maior e chega a informações antes não conhecidas. Cada dimensão que o cubo
possui pode ser uma tabela de dimensão de um modelo dimensional como o
apresentado na Figura 3.
Figura 3 - Representação de um modelo dimensional
Fonte: Elaboração do autor (2012).
Com o modelo dimensional fica bastante fácil relacionar as dimensões com as
fases do cubo, mas não precisaria necessariamente ser uma base modelada
nesta abordagem, poderia se ter uma base relacional normal, que mesmo assim
teríamos um cubo multidimensional, a diferença é que se teria um processamento
a mais para organizar e consolidar as informações antes de apresentar em forma
de cubo (ROLAP).
Processo OLAP
136
Requisitos de uma solução OLAP
Para se ter um solução OLAP, Thomsen (2002) pensou numa série de requisitos
que são apresentados a seguir, a fim de se ter uma solução eficiente:
•• Utilização de uma estrutura dimensional para garantir uma alta
performance e análise dos dados;
•• Especificação eficaz de dimensões e cálculos: agregar dos valores e
permitir a utilização de ferramentas analíticas sobre esses valores. Essas
análises devem ser compostas por fórmulas que devem ser utilizadas
para: agregar, alocar, comparar, analisar, explicar e deduzir;
•• Flexibilização: possibilitar as visualizações das informações de várias
maneiras, sejam elas gráficas, matrizes ou diagramas. O usuário pode
selecionar como a informação é mapeada para o formato de visualização;
•• Separação de estrutura e representação: permite que os modos de
exibição sejam reorganizados por um usuário final sem a necessidade
de modificação dos dados. A falta de separação entre estrutura e
representação é um problema enfrentado pelas planilhas eletrônicas.
O trabalho de Castro, Gonçalves e Cazarini (2004) apresenta outros requisitos
físicos para uma solução OLAP, como:
•• Acesso rápido à informação: mesmo com o recurso de aumento de
nível de detalhes em consultas (drill‑down), são necessárias grandes
quantidades de dados e um cálculo desses. Espera‑se que mesmo com
esse recurso, o tempo não possa exceder 5 segundos;
•• Não é necessário possuir suporte a multiusuários, mas esse requisito esta
cada vez mais presente entre as organizações que adotam esta tecnologia.
Segundo Anzanello (2002), além dos requisitos já preestabelecidos, os usuários
possuem requisitos particulares que devem ser atendidos no projeto OLAP, como
por exemplo, a necessidade de integração de dados de plataformas diferentes,
questões de conectividade, entre outras.
Os requisitos aqui apresentados estão diretamente ligados a questões
arquiteturais e da solução OLAP como um todo. A seguir são apresentados os
requisitos de uma ferramenta OLAP.
Pós-graduação
137
Requisitos de uma ferramenta OLAP
Muitas são as ferramentas disponíveis no mercado para soluções OLAP, no
trabalho de Anzanello (2002), foram levantados alguns requisitos comuns a essas
ferramentas, a seguir são apresentados:
•• Consultas ad‑hoc: geradas pelo usuário final, conforme a sua necessidade
de relacionar e cruzar informações de uma forma não prevista
anteriormente, mas que facilite a descoberta do que procuram;
•• Slice and Dice: permite a alteração da perspectiva de visão, possibilitando
a modificação da posição de uma informação, trocas de linha por coluna,
de maneira a tornar mais fácil a análise por parte do usuário e girar o
cubo sempre que necessário;
•• Drill down/up: permite explorar em diferentes níveis de detalhes da
informação. Com drill down pode‑se visualizar as informações de maneira
resumida, até a forma mais detalhada, como por exemplo, ver as
informações agrupadas por ano, mês, semana, dia até chegar no nível de
operação (caso essa seja a unidade atômica de agrupamento).
Os requisitos apresentados anteriormente são muito importantes para garantir a
efetividade das ferramentas OLAP.
Concluindo
De maneira geral, pode‑se verificar que as soluções OLAP possuem uma grande
importância para a tomada de decisão, elas podem ser utilizadas de maneira
isolada numa arquitetura de Business Intelligence, ou combinadas com técnicas de
mineração de dados e texto.
As ferramentas OLAP geram relatórios analíticos em tempo de execução, ou
seja, a partir do cruzamento de informações podem‑se gerar vários relatórios
dinâmicos, permitindo uma visualização mais detalhada ou mais resumida, a partir
das interações com o cubo multidimensional resultante.
Processo OLAP
138
Referências
ANZANELLO, C. A. OLAP Conceitos e Utilização. Universidade Federal do Rio Grande do
Sul (UFRGS), 2002.
CASTRO, Sergio A.; GONÇALVES, Pablo R.; CAZARINI, Edson W. O uso do OLAP na
estratégia de vendas em uma indústria de calçados alavancando a gestão de cadeia de
suprimentos. XXIV Encontro Nacional de Engenharia de Produção, Florianópolis, 2004.
GOUVEIA, Henrique C. et al. Aplicação da ferramenta OLAP em diferentes módulos de
um sistema ERP melhorando a tomada de decisão. Revista Eletrônica de Sistemas de
Informação e Gestão Tecnológica. Vol. 01, n. 01, 2011.
THOMSEN, Erik. OLAP Solutions: building multidimensional information systems. 2nd Edition.
John Wiley & Sons, Inc, 2002.
TURBAN, Efraim et al. Business Intelligence – Um enfoque gerencial para a inteligência do
negócio. Editora Bookman, Porto Alegre, 2009.
VINCI, Wilson L.; NARCISO, Marcelo G. Integração Access‑Excel para produzir um sistema
de apoio à decisão que simula um Data Warehouse e OLAP. XIII SIMPEP, Simpósio de
Engenharia de Produção, Bauru, 2006.
Pós-graduação
139
Características do processamento OLAP
Flávio Ceci
As soluções de Business Intelligence tem ganhado cada vez mais espaço entre as
organizações, o motivo para tal é a falta de ferramentas eficientes e focadas na
tomada de decisão.
Uma solução de Business Intelligence (BI) é composta por uma série de
componentes e etapas que possuem arquiteturas e ferramentas particulares,
basicamente uma solução de BI é composta por um repositório unificado de
dados, geralmente na forma de um Data Warehouse (DW); para consumir esse
dados, transformando em informação e possibilitando uma melhor análise, dessa
forma, são utilizadas as ferramentas do tipo OLAP (On Line Analytical Processing).
Segundo Xavier e Pereira (2009), OLAP é uma abordagem para fornecimento
de respostas rápidas para consultas analíticas de fonte multidimensional.
Para Oliveira (2002), o processo OLAP é focado na transformação de dados em
informação, a fim de dar suporte ao processo de tomada de decisão de uma
maneira amigável e flexível ao usuário em um tempo hábil, utilizando um conjunto
de tecnologias para acesso e análise ad‑hoc de dados.
O processo OLAP se diferencia do processo de transações on‑line (OLTP), segundo
Turban (2009), explica que o OLTP é focado em processamento de transações
repetitivas em grande quantidade e de manipulação simples, diferente do OLAP,
que envolve uma análise de muitos itens de dados em relacionamentos complexos,
buscando padrões, tendências e exceções, ou seja, é focado no suporte a decisão.
No trabalho de Anzanello (2012), é apresentada uma tabela comparativa entre os
requisitos funcionais e de desempenho entre aplicações OLAP e OLTP:
Tabela 1 - Comparação entre aplicações OLAP e OLTP
Características
OLTP
OLAP
Operação Típica
Atualização
Análise
Telas
Imutável
Definida pelo usuário
Nível de Dados
Atomizado
Altamente Sumarizado
Idade dos Dados
Presente
Histórico, atual e projetado
Recuperação
Poucos registros
Muitos registros
Orientação
Registro
Arrays
Modelagem
Processo
Assunto
Fonte: Anzanello (2012).
Processo OLAP
140
Uma informação bastante importante apresentada nessa tabela, é na
modelagem adotada entre os dois tipos de aplicação. No caso de aplicações
OLTP, a modelagem é focada nos processos, ou seja, cada operação gerenciada
pela aplicação gera pelo menos uma nova linha na base de dados referente
à operação. No caso das aplicações OLAP, a modelagem é focada no assunto
em questão, possuindo os dados muitas vezes agrupados e já pré‑processados.
Essa abordagem é adotada, pois é mais indicada para a análise dos dados,
transformando‑os em informações.
Podem‑se utilizar soluções OLAP para vários segmentos de organizações, segundo
Xavier e Pereira (2009), o uso das soluções OLAP geralmente relaciona‑se aos
seguintes seguimentos:
•• Geração de relatórios empresariais para vendas;
•• Marketing;
•• Geração de relatórios de gerenciamento;
•• Gerenciamento de processos de negocio em inglês, Business Process
Management (BPM);
•• Planejamento orçamentário;
•• Projeções.
Percebe‑se que as soluções OLAP são muito utilizadas quando se deseja fazer
análise sobre dados organizados de maneira dimensional. Segundo Vinci e
Narciso (2006), a análise multidimensional representa uma das maiores utilidades
da tecnologia OLAP, permitindo ver determinados cubos de dados de diferentes
ângulos e faces, e de vários níveis de agregação.
Entende‑se como cubo de dados o resultado proveniente de uma consulta num
modelo dimensional por uma ferramenta OLAP. A Figura 1 foi desenvolvida por
Silve e Saias (2011) e representa exatamente este cubo:
Pós-graduação
141
Figura 1 - Representação gráfica de um cubo de dados
Indicador 1 = (Atributo 1, Valor 5;
Atributo 2,Valor 4;
Atributo 3, Valor 3)
Atributo 1
(1ª dimensão)
5
4
Atributo 3
(3ª dimensão)
3
2
2
1
3
1
1
2
3
4
Atributo 2
(2ª dimensão)
Fonte: Silva e Saias (2011).
Nessa Figura 1 verificam‑se as várias dimensões resultantes de uma mesma
consulta e como se organiza a visualização desse cubo de várias maneiras e a
granularidade dos dados em questão.
Segundo Turban (2009), os cubos de dados possibilitam obter informação para
suporte à decisão de maneira eficiente, eles são utilizados para representar
dados em conjunto com alguma medida de interesse, podendo ser bidimensional,
tridimensional ou com apenas uma dimensão. É justamente pela análise de cubo
que permite os usuários realizarem consultas por meio da busca de uma série de
visualizações de relatórios.
Muitas das características das soluções OLAP estão diretamente ligadas à
utilização dos cubos de dados e uso da multidimensionalidade. O trabalho
desenvolvido por Vinci e Narciso (2006) apresenta as principais características
dessas soluções:
•• Slice and dice: possibilita a análise de informações de diversos ângulos,
permitindo que o usuário faça muitas combinações, chegando a outras
visões e visualizando informações de outras formas;
•• Consultas ad‑hoc: permite que o usuário gere consultas nunca antes
utilizadas em tempo de execução da aplicação, permitindo responder
os questionamentos que deseja, com visões de informações ainda não
exploradas, além da utilização de métodos que auxiliem a encontrar o
que procuram;
•• Drill Down‑UP: torna possível a interação do usuário com vários níveis de
agrupamento, ou seja, subir e descer dentro de uma hierarquia.
Processo OLAP
142
No livro escrito por Oliveira (2002), é apresentada mais uma característica, a de
geração de consultas mais amigáveis, de modo que seja feita de maneira simples,
amigável e transparente, fazendo com que o usuário final tenha um conhecimento
mínimo em informática para chegar até as informações desejadas.
Todas as características apresentadas no trabalho de Vinci e Narciso (2006) são
apresentadas no trabalho de Sell (2006) como funcionalidades exploratórias.
Além das funcionalidades já mencionadas, Sell (2006) apresenta mais algumas:
•• Drill Across: permite alterar o nível de análise dentro da dimensão em
questão, pulando um nível intermediário, caso necessário, por exemplo;
a análise é alterada diretamente de ano para mês, sem precisar passar
por semestre;
•• Drill Through: permite que o usuário passe de uma informação contida
em uma dimensão para outra;
•• Drill Out: é um detalhamento de uma determinada informação contida
em uma base externa, por exemplo, é verificar a quantidade de vendas
em uma semana; caso se deseja saber as informações detalhadas da
venda em questão, pode‑se acessar uma base operacional que abriga
tal informação;
•• Sort: permite a ordenação das informações, que, nesse caso, não precisa
ser necessariamente numérica;
•• Ranking: possibilita o agrupamento de resultados numéricos por ordem
de tamanho;
•• Paging: paginação do resultado das consultas;
•• Filtering: apresentação de consultas com restrições sobre atributos
ou fatos;
•• Alerts: permite que seja enviado um sinal caso uma situação definida
anteriormente aconteça;
•• Break: permite separar o resultado de uma análise por grupos de
informação, possibilitando assim a subtotalização de valores para
cada grupo.
O autor comenta que nem todas as implementações apresentadas na lista anterior
são comuns a todas as soluções OLAP.
Sobre as características principais do processamento OLAP, o autor Sell (2006)
baseou‑se nos trabalhos de Codd (1995), Donald (1997) e Thomsen (2002), de modo
que o resultado da sua pesquisa apresenta 12 características, originalmente
levantadas por Codd (1995), agrupadas pela sua natureza, que, segundo o
Sell (2006) e Thomsen (2002), torna mais fácil o entendimento das mesmas.
Pós-graduação
143
Primeiramente, são apresentadas as características marcadas como básicas, que,
segundo Sell (2006), baseando‑se no trabalho de Thonsen (2002) são:
Tabela 2 - Características básicas do OLAP
Característica
Descrição
Manipulação de dados intuitiva
Possibilitar a ação direta sobre as células e os recursos
dos gráficos.
Acessibilidade
Disponibiliza uma visão lógica única dos dados da empresa
Arquitetura Cliente/Servidor
Permite que a ferramenta OLAP rode em um cliente,
acesse dados e faça operações em um servidor.
Transparência
Permite inserir as funcionalidades OLAP dentro do
contexto de uma aplicação do domínio do usuário final.
Suporte para multiusuários
Possibilitar operações simultâneas de leitura e escrita.
Fonte: Sell (2006).
O segundo grupo de características é chamado de características de relato. Segundo
Sell (2006), que se baseou no trabalho de Thomsen (2002), são as seguintes:
Tabela 3 - Características de relato
Característica
Descrição
Relato flexível
Apresentar dimensões de um cubo por meio de
diferentes combinações de linhas, colunas e páginas.
Desempenho coerente do relato
Preservar o desempenho da apresentação à medida
que o volume de dados e dimensões aumente.
Tratamento dinâmico
de matriz esparsa
A organização física dos dados deve ser sensível à mudança
das características dos dados ao longo do tempo.
Fonte: Sell (2006).
O terceiro e último grupo de características apresentadas por Sell (2006) é
chamado de características dimensionais e são apresentadas na tabela a seguir:
Tabela 4 - Características dimensionais
Característica
Descrição
Visão conceitual
multidimensional
A visão conceitual do usuário analista deve possibilitar
a análise do negócio sobre diferentes perspectivas.
Dimensionalidade genérica
Cada dimensão deve ser equivalente tanto em sua estrutura
quando nas capacidades exploratórias aplicáveis.
Dimensões e níveis de
agregação limitados
A estrutura criada no servido deverá possibilitar a criação
de tantas dimensões e cubos quanto necessário para se
analisar o negócio.
Operações irrestritas de
dimensão cruzada
Permitir cálculos e manipulação de dados por meio
de qualquer quantidade de dimensões e relacionamento
de dados.
Fonte: Sell (2006)
Processo OLAP
144
A Tabela 2 apresenta características básicas e compartilhadas por todas as
ferramentas OLAP. Na Tabela 3 são apresentadas características relacionadas à
operação de geração de relatórios pelas ferramentas OLAP. As características
apresentadas na Tabela 4 são centradas nas operações diretamente ligadas ao DW
ou modelo dimensional.
Referências
ANZANELLO, Cynthia A. OLAP Conceitos e Utilização. Instituto de Informática – Universidade
Federal do Rio Grande do Sul. Porto Alegre. Disponível em: <http://bit.ly/I0WoEb>. Acessado
em: 10 de abril de 2012.
CODD, E. F.; CODD, S. B.; SALLEY, C. T. Providing OLAP (on‑line analytical processing) to
user‑analysts: An IT mandate. 1995.
DONALD, B. High performance Oracle Data Warehousing. USA: The Coriolis Group, 1997.
OLIVEIRA, Wilson J. Data Warehouse. Visual Books, Florianopolis, 2002.
SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias
semânticas para suporte a aplicações analíticas. 2006. Tese (Doutorado) – Universidade
Federal de Santa Catarina, Centro Tecnológico. Programa de Pós‑Graduação em
Engenharia de Produção, Florianópolis, 2006.
SILVA, João; SAIAS, José. OLAP em âmbito hospitalar: transformação de dados de
enfermagem para análise multidimensional. JIUE 2011, 2th Jornada de Informática da
Universidade de Évora, Portugal, 2011.
THOMSEN, Erik. OLAP Solutions: building multidimensional information systems. 2nd Edition.
John Wiley & Sons, Inc, 2002.
TURBAN, Efraim et al. Business Intelligence – Um enfoque gerencial para a inteligência do
negócio. Editora Bookman, Porto Alegre, 2009.
VINCI, Wilson L.; NARCISO, Marcelo G. Integração Access‑Excel para produzir um sistema
de apoio à decisão que simula um Data Warehouse e OLAP. XIII SIMPEP, Simpósio de
Engenharia de Produção, Bauru, 2006.
XAVIER, Fabrício S. V.; PEREIRA, Leonardo Bruno R. SQL dos Conceitos às Consultas
Complexas. Editora Ciência Moderna, Rio de Janeiro, 2009.
Pós-graduação
145
Desenvolvendo um projeto OLAP
Flávio Ceci
O uso das soluções OLAP combinadas a estratégias de Business Intelligence (BI)
são abordagens bastante requisitadas atualmente, tanto essas soluções como
as baseadas em técnicas de descoberta de conhecimento estão na extremidade
do usuário final. Sua função é processar os dados para gerar informações e
transformá‑las em conhecimento, de modo a apoiar o processo decisório da
camada gerencial da organização.
Da mesma forma que existem processos para o desenvolvimento de uma
solução de BI, ou para a modelagem e implantação de um repositório Data
Warehouse (DW), ou ainda para a definição de um cenário utilizando técnicas
de descoberta de conhecimento, também existem etapas para o projeto e
implementação de modelos OLAP.
Nesta leitura, são apresentadas as etapas práticas para o projeto e implantação de
uma solução OLAP, guiando para o sucesso desse projeto, a partir do livro escrito
por Thomsen (2002).
Etapas práticas para o projeto e a implementação de
modelos OLAP na visão de Thomsen (2002)
Um dos livros mais conceituados e utilizados como referência base para as áreas
relacionadas com OLAP é o livro de Erik Thomsen. Segundo um dos maiores
nomes da área W.H. Inmono, descreve da seguinte maneira: “O livro de Erik
Thomsem se aprofunda onde outros livros não se aprofundaram. Em termos
de inteireza, legibilidade e fusão de teoria e prática, recomendo este livro, com
certeza.” (THONSEN, 2002, p. 4).
Esta seção não deve ser encarada como uma metodologia, mas sim como um
guia que explica as etapas práticas associadas ao projeto e implementação da
solução OLAP, ou ainda como o próprio autor explica essas orientações: “Elas
foram escritas para o projetista e o implementador do modelo OLAP“ (THONSEN,
2002, p.302).
Inicialmente, deve‑se identificar os pontos do cenário atual onde se deseja
desenvolver e implantar a solução OLAP, como por exemplo, se já foi investido
anteriormente no desenvolvimento de um DW e agora gostaria de trabalhar com
as informações contidas nele, se a fonte de dados está em uma planilha eletrônica,
ou se não existe nada desenvolvido ainda.
Processo OLAP
146
Dos cenários apresentados acima, o mais complicado é o para iniciar a concepção
de uma solução OLAP a partir do zero, ou seja, sem nenhum dos outros
componentes de uma arquitetura ou solução de BI já criado.
O autor sugere que para identificar o ponto de partida, deve‑se procurar o ponto
em que o projetista se sinta mais à vontade e confiante sobre o que é feito ou que
precisa ser feito e trabalhar a partir disso. Por exemplo, caso ele tenha domínio
sobre os dados em questão, mas não tem certeza sobre todas as finalidades para
as quais os usuários finais irão utilizá‑los, nesse caso, pode‑se adotar um sequência
de passos de “baixo para cima”, ou seja, dos dados para a função.
De maneira geral, Thomsen (2002) afirma que para a concepção de um projeto
OLAP deve‑se cumprir as seguintes etapas:
•• Entender o fluxo de dados atual e ideal;
•• Definir cubos;
•• Definir dimensões, membros e vínculos;
•• Definir nível e/ou hierarquias de dimensão;
•• Definir agregação e outras formas.
Conhecendo o cenário atual
É importante lembrar que antes mesmo de iniciar de fato o projeto do modelo ou
qualquer tarefa de implantação, é necessário entender o problema e a situação
atual, Thomsen (2002, p.304) faz a seguinte afirmação:
Não importa as ferramentas específicas que estão sendo usada, você precisa
descobrir a respeito dos esquemas dos usuários e de quaisquer esquemas
relevantes aos dados de origem. Você também precisa entender as regras
comerciais relevantes, como as regras sobre limites de desempenho,
acesso aos dados ou a distribuição de informações baseada em evento.
As regras poderiam estar codificadas ou nas mentes do pessoal chave.
A interação do projetista com a equipe de usuários finais da aplicação OLAP é
fundamental para o sucesso do projeto, para isso, pode‑se elaborar algumas
perguntas para auxiliar no entendimento da situação atual.
Pós-graduação
147
Thomsen (2002) elaborou um questionário para se chegar até o levantamento da
situação real:
1) Com que frequência quais tipos de usuários usam o sistema?
a.Quantos usuários existem para cada tipo (classe de usuários do sistema)?
b.Que tipo de diálogo cada tipo de usuário tem com o sistema?
c.Quantos dados cada tipo de usuário examina durante uma sessão típica?
d.Quantos dados atravessam a rede em resposta às consultas típicas para
cada tipo de usuário?
e.Quais são as características de informação normalmente navegadas por
cada usuário?
f. Quais tipos de ferramentas do usuário final estão sendo usadas para
navegar e analisar os dados?
g.Quantas visões distintas são necessárias por tipo de usuário final?
2) Em geral, quantos dados dão entrada no sistema?
3) Quantas origens de dados distintas existem?
a.Para cada origem, qual é o seu esquema?
b.Quantos dados existem?
c. Em que velocidade os vínculos são atualizados?
d.Que aspecto de integração e refinamento forma envolvidos nos dados
de origem?
4) Que cálculos ocasionais normalmente são realizados no servidor?
5) Que cálculos são pré‑realizados no servidor?
6) Que cálculos normalmente são realizados no cliente?
7) Que máquinas, quais sistemas operacionais e configurações de redes são usados?
A partir das respostas dadas às perguntas apresentadas anteriormente, o projetista
deveria estar apto para preencher o chamado diagrama de origem e uso. Segundo
Thomsen (2002), este diagrama representa o que é importante para origens e
usuários que utilizarão a solução em questão. A Figura 1 apresenta um exemplo
desse diagrama.
Processo OLAP
148
Figura 1 - Diagrama de origens e uso
Origens
Usuários
2 origens
2 usuários (tipos)
01 = Dados de vendas
M204
MVS
IBM
U1 = analista de marketing
Excel
Windows 95
Compaq 586
02 = dados de Marketing
Oracle 7.3
Unix
Dell
1 milhão de linhas
32 colunas
Númerico
Diário
Dados OLAP
100.000 linhas
128 colunas
Númerico
Semanal
30 relatórios diários
200 relatórios semanais
100.000 navegações semanais
25 relatórios diários
25 relatórios diários
500 relatórios semanais
100.000 navegações semanais
25 relatórios diários
U2 = Gerente regional
Forest & Trees
Approach
NT
Fonte: Thomsen (2002).
Após entender a situação real e atual, levantam‑se algumas perguntas sobre
possíveis problemas que os usuários estão experimentando. Esses problemas
podem ser de natureza física ou lógica.
Informações sobre restrições também são bastante importantes para o projeto,
essas restrições podem ser:
•• o tipo de máquina;
•• o sistema operacional em questão;
•• a topologia de rede;
•• a dependência de softwares de terceiros;
•• o número de usuários do sistema;
•• o tamanho do conjunto de dados;
•• os tipos de dados válidos;
•• entre outros.
Da mesma forma que praticamente todas as metodologias de desenvolvimento
de software são guiadas por requisitos de usuário, nesse caso não é
diferente, deve‑se levantar a documentação dos requisitos dos usuários finais.
Esses requisitos também podem ser provenientes dos sistemas transacionais
da organização. Esse tipo de informação pode ajudar e muito no trabalho de
identificação das fontes de dados e até mesmo para saber que tipo de informação
poderá ser gerada, ou ainda quais perguntas podem ser respondidas.
Pós-graduação
149
Projeto da solução
O primeiro passo para a definição do projeto da solução é a definição do modelo
lógico, essa definição nada mais é que a concepção do modelo multidimensional.
Para o desenvolvimento desse modelo pode‑se utilizar de qualquer metodologia já
conhecida para esta etapa.
Tento em vista a utilização de uma metodologia para auxiliar a criação do
modelo multidimensional, o autor chama a atenção para alguns pontos que são
apresentados abaixo:
•• Cubos e dimensões;
•• Refinar a quantidade de dimensões;
•• Verificar as dimensões que mudam com o tempo;
•• Quais vínculos devem existir no modelo?
•• Hierarquias da dimensão;
•• Hierarquias múltiplas;
•• Membros da dimensão;
•• O contexto da decisão;
•• Fórmulas.
Os pontos apresentados anteriormente têm como função auxiliar o projetista
na validação e conclusão do modelo multidimensional necessário para a
ferramenta OLAP. Após finalizar o projeto de solução, deve‑se investir tempo no
levantamento de informações sobre as agregações e análises mais complexas.
Agregações e análises mais complexas
O autor afirma que existem várias formas de se iniciar um projeto OLAP e que
na maioria dos casos é deixado para o final questões mais complexas, pois,
dependendo da situação, nem é necessário se preocupar com isso.
No geral, é necessário levar em consideração pelo menos as questões relacionadas
às agregações básicas. Tendo em vista esse fato, o autor apresenta questões de
descrições derivadas, que aparecem em ambientes multidimensionais e podem
atrapalhar o processo analítico.
Processo OLAP
150
Dados de entrada intermediária: esse caso gira em torno de análises que têm
dependência com dados de entrada vindos de outras fontes (dados operacionais),
mas caso não esteja preparad, pode gerar análises com erros para o usuário.
É percebido que não existe uma metodologia formada para o desenvolvimento
de uma solução OLAP, mas sim uma sequência de passos para auxiliar o
desenvolvimento do seu projeto e implantação. A solução OLAP tem dependência
direta do modelo dimensional, por esse motivo, deve‑se dar um foco especial
nesse modelo.
Referências
THOMSEN, Erik. OLAP Solutions: building multidimensional information systems.
2nd Edition. John Wiley & Sons, Inc, 2002.
Pós-graduação
151
Exemplo de uma solução OLAP
Flávio Ceci
As ferramentas OLAP têm como função apresentar um caminho mais amigável
para que o seu usuário final navegue pelas informações mantidas nos seus
repositórios de dados e informações.
Essas ferramentas geralmente possuem um ambiente em que se pode configurar
o tipo de consulta desejada, de modo que graficamente o usuário pode combinar
uma série de dimensões na forma de linhas e colunas, além de aplicar filtros e
paginadores.
Para facilitar a visualização, a Figura a seguir foi retirada de um dos ambientes
do Diretório de Conhecimento da Vigilância Sanitária (http://dcvisa.anvisa.gov.br),
esse e os demais exemplos serão tirados desse portal.
Figura 1 - Painel para elaboração das consultas OLAP
Fonte: Anvisa, 2012.
Processo OLAP
152
No caso do ambiente apresentado na Figura 1, pode‑se utilizar recursos do tipo
drag‑and‑drop para arrastar as dimensões que se deseja alocar como linha ou
como coluna. A Figura 2 apresenta esse recurso com mais detalhes:
Figura 2 ‑ Recurso drag and drop da ferramenta OLAP
Fonte: Anvisa, 2012.
Esse tipo de ambiente traz uma série de benefícios, já que é bastante intuitivo e
permite que o seu usuário final não precise ser um especialista em computação,
bastando apenas ter um conhecimento médio em informática e, principalmente,
conhecer o domínio em questão.
Pode‑se facilmente cruzar as dimensões funcionário com estado e chegar à
seguinte situação:
Figura 3 - Tabela de funcionários por estado
Fonte: Anvisa, 2012.
Esse mesmo resultado apresentado pela ferramenta pode ser facilmente
convertido em um gráfico, possibilitando visualizar mais dados, como apresentado
na Figura 4:
Pós-graduação
153
Figura 4 - Selecionando a opção de visualização a partir de gráfico
Fonte: Anvisa, 2012.
A Figura 5 apresenta a configuração demonstrada na Figura 4, possibilitando a
visualização do mesmo resultado de maneira gráfica.
Figura 5 - Representação gráfica para os dados apresentados na planilha resultante
Fonte: Anvisa, 2012.
Processo OLAP
154
A representação gráfica permite eventos de clique, possibilitando que o usuário
chegue até a informação grão, a qual, muitas vezes, pode estar na forma de um
dado na base operacional.
Esse recurso também pode estar presente na visualização de forma tabelar,
de modo que ao clicar no valor totalizado de uma célula, pode‑se ver o detalhe até
chegar no grão, como ocorre com o caso da representação gráfica.
Outro recurso bastante interessante de uma ferramenta OLAP é a criação
de dashbords, em que o usuário pode manter alguns gráficos resultantes de
consultas (cruzamento entre dimensões),sendo atualizadas em tempo real.
A Figura 6 apresenta um exemplo de um dashbord criado a partir de três consultas:
Figura 6 - Dashbord do usuário
Fonte: Anvisa, 2012.
O dashbord ilustrado na Figura 6 apresenta a visão de um usuário do sistema
em que foram construídas três projeções. O resultado foi publicado na forma
gráfica, cada gráfico segue o conceito de widget, em que é possível verificar as
informações na forma tabular, ver um widget em tela cheia.
Pós-graduação
155
O conceito de dashbord permite que o usuário tenha um painel no qual se pode
acompanhar a evolução dos dados para apoiar a decisão gerencial da organização.
Por exemplo, pode‑se demonstrar o gráfico “Produção por ano”, onde é projetada
a quantidade de produção distribuída por ano e, também são apresentadas duas
linhas em que demostra a situação ideal e a de risco.
As soluções OLAP são hoje uma das soluções gráficas mais utilizadas e efetivas
para apresentar os dados e informações contidos nos modelos dimensionais.
Vale lembrar que as soluções OLAP apresentam os dados históricos e para
acompanhamento em tempo real da situação da organização. A combinação
dessas soluções com as técnicas de descoberta de conhecimento possibilitam
a construção de previsões a partir dos dados passados, tanto para descobrir
informações implícitas quanto para montar simulações para a previsão de
situações futuras.
Referências
ANVISA. Diretório de Conhecimento da vigilância Sanitária. Disponível em:
http://dcvisa.anvisa.gov.br. Acesso em: 16 jul. 2012.
THOMSEN, Erik. OLAP Solutions: building multidimensional information systems.
2nd Edition. John Wiley & Sons, Inc, 2002.
Processo OLAP
156
Atividades de Autoaprendizagem
1) Levando em consideração o conteúdo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:
a. ( ) Para o desenvolvimento de soluções OLAP, existem várias metodologias
que se podem seguir para obter sucesso no mesmo.
b. ( ) MOLAP, HOLAP, DOLAP são tipos de arquiteturas OLAP.
c. ( ) Pode‑se fazer uma analogia das soluções OLAP com o brinquedo cubo mágico.
d. ( ) OLAP e OLTP são siglas para o mesmo tipo de processo.
e. ( ) A mineração de dados é uma técnica utilizada para compor a base de dados
consumida pelas ferramentas OLAP.
f. ( ) ROLAP é um tipo de arquitetura OLAP que utiliza como base um banco de
dados com modelo relacional.
Atividade colaborativa
Nesta unidade, você estudou sobre as soluções OLAP. Responda à pergunta a
seguir utilizando a ferramenta Fórum, não se esqueça de comentar as respostas
dos seus colegas.
As ferramentas OLAP apresentam uma forma amigável de navegar entre as
dimensões modeladas na base de dados, essa forma é geralmente tabelar (por
meio de tabelas), você acha que existem outras formas de navegação? Se sim,
fale sobre elas e apresente quais as suas vantagens e desvantagens.
Pós-graduação
157
Síntese
Nesta unidade, são estudadas as soluções OLAP, os seus conceitos, como são
montadas, quais as suas dependências tecnológicas e exemplos.
As soluções OLAP são baseadas na disposição das informações disponíveis nos
modelos dimensionais, essas soluções têm como função auxiliar no consumo e
explicitação dos dados e informações, de modo a apoiar a tomada de decisão,
também é possível acompanhar os dados em tempo real, a fim de acompanhar os
dados de entrada para apoiar o processo decisório de maneira mais ágil.
Saiba Mais
A professora Cynthia Aurora Anzanello, da Universidade Federal do Rio Grande do
Sul, escreveu um ótimo artigo falando sobre OLAP e suas utilizações, vale a pena
ler este material:
http://www.fag.edu.br/professores/limanzke/Administra%E7%E3o%20de%20
Sistemas%20de%20Informa%E7%E3o/OLAP.pdf
Processo OLAP
Para concluir os estudos
Chegamos ao final deste livro sobre Business Inteligence, onde passamos pelas
principais áreas que estão relacionadas com essa proposta. Inicialmente, foi
abordada uma revisão sobre o conceito de dado, informação e conhecimento,
chegando aos sistemas de informação. Nesse tópico verificou‑se que não existe
uma classificação única, mas que iríamos nos concentrar no tipo de sistemas de
informação chamado de sistemas de apoio à decisão.
Os conceitos relacionados a Business Inteligence (BI) nasceram muito antes da
era da computação, mas nesse contexto as ferramentas de BI são representadas
como evolução dos sistemas de apoio á decisão. Dentro dessa abordagem,
utilizam‑se, normalmente, repositórios de dados e informação para apoiar os
processos analíticos. Costumeiramente, utiliza‑se a modelagem dimensional para
esse tipo de proposta.
Os Data Warehouse (DW) são responsáveis pelo armazenamento centralizado
dos dados e informações, de maneira dimensional e pré‑processada, garantindo
uma qualidade muito maior na sua fonte de informação. Para isso, utilizam‑se
ferramentas ETL, as quais têm como função a coleta de dados das bases
operacionais, proveniente dos sistemas de informação transacionais da
organização. A partir dessa coleta, é feita a transformação e limpeza dos dados e
posteriormente a carga no repositório do tipo DW.
Para consumir e apresentar esses dados e informações contidos nos repositórios
pode‑se utilizar algumas abordagens. Quando se deseja descobrir conhecimento
implícito nos repositórios, pode‑se utilizar de técnicas de mineração de dados,
as quais podem auxiliar no reconhecimento de padrões e gerar indicativos para
acontecimentos futuros.
Quando se deseja visualizar os dados e informações históricos, podendo cruzar
várias dimensões, de modo a chegar em novas informações, utilizam‑se as
soluções OLAP, que, além de navegação pelos dados históricos, podem fazer um
acompanhamento em tempo real das operações da organização.
160
Pode‑se verificar que cada vez mais os dados não estruturados estão fazendo
parte das soluções de BI, o motivo para tal é que muito do conhecimento
organizacional está implícito nas bases de documentos. O cruzamento e
carga dessas informações é cada vez mais comum nos repositórios e bases de
conhecimento, além dos dados não estruturados provenientes dos documentos
da organização. Também, cada vez mais estão utilizando como base os dados
publicados em mídias sociais, que representam um canal direto do cliente com as
organizações, podendo auxiliar e muito no processo de tomada de decisão.
Pós-graduação
Minicurrículo
Flávio Ceci É graduado em Ciência da Computação pela Universidade
do Sul de Santa Catarina (Unisul‑2007), é Mestre em Engenharia do
Conhecimento pela Universidade Federal de Santa Catarina (UFSC‑2010)
e, atualmente, é doutorando em Engenharia do Conhecimento,
também pela Universidade Federal de Santa Catarina.
Trabalha com desenvolvimento de softwares desde 2005 e na concepção
de sistemas de apoio à decisão, desde 2007, no Instituto Stela.
Suas áreas de pesquisa incluem: Recuperação de informação,
Business Intelligence, Extração de conhecimento, Processamento
de linguagem natural e Análise de sentimentos.
Respostas e comentários das atividades
de autoaprendizagem e colaborativas
Unidade 1
Atividades de Autoaprendizagem
1) Gabarito: F – V – F – F – V – V – F – F
a. ( F ) As ontologias são estruturas formais para a representação de dados.
Comentário: As ontologias são estruturas formais para a representação
de conhecimento.
c. ( F ) O “paradigma de transporte” demonstrou, ao longo do tempo, sua
eficiência e é utilizado até hoje na Nova Engenharia do Conhecimento.
Comentário: A nova engenharia do conhecimento é baseada no paradigma de
modelagem, devido à falta de sucesso do paradigma de transporte na concepção dos
sistemas de apoio à decisão.
d. ( F ) Os Sistemas de Informação possuem uma classificação muito bem definida.
Comentário: Essa afirmação não está correta, até hoje os pesquisadores dessa
área ainda não chegaram em um consenso sobre a classificação dos sistemas
de informação.
g. ( F ) O subsistema de modelo da arquitetura clássica de SAD é equivalente ao
Data Warehouse da arquitetura de BI.
Comentário: os Data Warehouse são equivalentes ao subsistema de dados e não de
modelo da arquitetura clássica de um SAD.
h. ( F ) Uma organização pode ser vista como um sistema, desde que ela faça uso
de computadores.
Comentário: Um sistema é qualquer ambiente que seja composto de três processos
básicos: Entrada, processamento e saída. Exemplo: sistema digestivo.
164
Atividade colaborativa
O uso de dados disponíveis na Web (como por exemplo, em mídias sociais) pode
auxiliar os sistemas de apoio à decisão na entrega de uma informação mais
estratégica para a organização?
Comentário: Atualmente, as mídias sociais representam um canal direto entre as
organizações e seus clientes, nelas podem‑se encontrar informações sobre um
produto, serviço e atendimento. Cada vez mais as organizações estão utilizando essas
informações para montar campanhas de marketing, e até cruzar essas informações
com as internas, para auxiliar na tomada de decisão.
Unidade 2
Atividades de Autoaprendizagem:
1) Gabarito: F – F – F – V – F ‑ V
a. ( F ) As práticas de BI só foram possíveis com o advento dos computadores.
Comentário: É apresentado durante a unidade 2 que as técnicas de BI não possuem
dependência com sistemas computacionais, que até mesmo em tempos remotos já
existiam técnicas de BI inseridas nas suas atividades produtivas, como por exemplo,
a sociedade egípcia.
b. ( F ) DW nada mais é do que um banco de dados que utiliza como modelagem
de dados a abordagem relacional.
Comentário: Um DW utiliza como modelagem para os seus dados a modelagem
dimensional, que é mais indicada para análise de dados.
c. ( F ) ETL é o processo de mineração de dados previsto pela arquitetura de BI.
Comentário: O processo de ETL é responsável pela coleta dos dados das bases
operacionais, processamento, transformação e carga desses dados no DW.
e. ( F ) A chamada área de apresentação é onde as informações são organizadas
e centralizadas.
Comentário: Essas características são dos repositórios DW.
Pós-graduação
165
Atividade colaborativa
O uso de recursos semânticos permite uma séria de possibilidades para as análises
de informações disponíveis pelo BI, quais possibilidades são essas? Como elas
podem auxiliar na análise das informações?
Comentário: O uso de recursos semânticos está cada vez mais presente na web
(web semântica) e dentro das organizações. Os artifícios semânticos podem estar
presentes tanto no processamento das informações, podendo classificá‑las levando
em consideração o contexto do dado em questão, bem como na apresentação das
informações, sabendo qual a melhor maneira de apresentá‑la.
Unidade 3
Atividades de Autoaprendizagem:
1) Gabarito: V – F – V – V – V ‑ F
b. ( F ) O processo de integração dos dados é algo bastante simples e rápido
de conceber.
Comentário: Sabe‑se que o processo de integração de dados é um dos mais custosos
e demorados.
f. ( F ) As medidas de um DW é uma nomenclatura equivalente a tabelas fato.
Comentário: As medidas representam os valores totalizados, que são colunas de uma
tabela fato.
Atividade colaborativa
Nesta unidade, foram estudados os repositórios data warehouse, também foi
visto que Inmon, considerado como um dos pais dessa abordagem, já trabalha
com o conceito do DW2.0. Dessa forma, faça um paralelo dessa evolução com a
evolução do BI, BI 2.0 e BI 3.0.
Comentário: O chamado DW 2.0 é baseado na utilização de fontes não estruturadas,
junto à modelagem dimensional. No caso do chamado BI2.0 e BI3.0 é também é
previsto que seja utilizado conteúdo não estruturado, utilizando‑se de recursos de
processamento de linguagem natural e web semântica, o não só conteúdo interno
para apoiar a tomada de decisão, mas também conteúdo disponível na internet.
Business Intelligence
166
Unidade 4
Atividades de Autoaprendizagem:
1) Gabarito: F – F – V – F – V ‑ F
a. ( F ) A mineração de dados é responsável pela modelagem do conhecimento
da organização.
Comentário: A mineração de dados é baseada em técnicas estatísticas e apoiadas
por algoritmos da inteligência artificial, que têm como função analisar e apoiar a
descoberta de conhecimento.
b. ( F ) As técnicas utilizadas no processo KDD são completamente diferentes das
utiliz11,5ada no processo KDT.
Comentário: O processo KDD e KDT compartilha de várias técnicas, diferenciando
mais da etapa de processamento dos dados e informações de entrada (dado
estruturado ou não estruturado).
d. ( F ) Os Data Warehouse são uma alternativa ao processo KDD não tendo
nenhuma relação.
Comentário: Os Data Warehouse são responsáveis por armazenar os dados
estruturados que serão consumidos pelo processo KDD.
f. ( F ) Os processos KDT e KDD utilizam como fonte soluções do tipo DW.
Comentário: O processo KDT utiliza como base textos e dados não estruturados,
diferente do processo KDD, que utiliza como base dados estruturados geralmente
provenientes de um DW.
Atividade colaborativa
Nesta unidade, foram estudados conceitos de descoberta de conhecimento em
bases de dados e em texto, sabendo que muito do conhecimento organizacional
está disponível em documentos não estruturados. Responda à pergunta a seguir
utilizando a ferramenta Fórum, não se esqueça de comentar as respostas de
seus colegas.
Pós-graduação
167
As redes sociais são hoje um dos principais canais de comunicação das organizações
com o seu cliente final, é possível utilizar descoberta de conhecimento em
texto para extrair informações para contribuir para a base de conhecimento da
organização e auxilia no processo decisório?
Comentário: A resposta é sim, as redes sociais são hoje um dos principais canais
de comunicação entre pessoas e até mesmo entre organizações e seus clientes.
Por meio desses canais, é possível identificar opiniões e até mesmo cruzar essas
informações para auxiliar na predição de tendências, de forma a atuar diretamente
na tomada de decisão.
Unidade 5
Atividades de Autoaprendizagem:
1) Gabarito: F – V – V – F – F ‑ V
a. ( F ) Para o desenvolvimento de soluções OLAP, existem várias metodologias
que se podem seguir para obter sucesso no mesmo.
Comentário: Existem recomendações para a construção de soluções OLAP, mas
nenhuma metodologia é consolidada ou definida.
d. ( F ) OLAP e OLTP são siglas para o mesmo tipo de processo.
Comentário: Não são todos os processo diferentes, no caso do processo OLAP, os
dados em questão são analíticos.
e. ( F ) A mineração de dados é uma técnica utilizada para compor a base de dados
consumida pelas ferramentas OLAP.
Comentário: A mineração de dados pode ser utilizada combinando com as soluções
OLAP, mas ambos atuam no consumo dos dados e informações para apresentar
informações e conhecimentos para o usuário da solução.
Atividade colaborativa
Nesta unidade, você estudou sobre as soluções OLAP. Responda à pergunta a
seguir utilizando a ferramenta Fórum, não se esqueça de comentar as respostas
dos seus colegas.
Business Intelligence
168
As ferramentas OLAP apresentam uma forma amigável de navegar entre as
dimensões modeladas na base de dados. Essa forma é geralmente tabelar (por
meio de tabelas), você acha que existem outras formas de navegação? Se sim,
fale sobre elas e apresente quais as suas vantagens e desvantagens.
Comentário: A grande vantagem das ferramentas OLAP é a facilidade na navegação
entre as informações e no entendimento dos resultados. No entanto, existem outras
maneiras para fazer esse tipo de navegação.
Uma solução bastante interessante é a baseada em “perguntas e respostas”, onde
o usuário pode fazer uma pergunta em linguagem natural e a aplicação retorna uma
face do cubo dimensional. Uma grande vantagem é que não existe aprendizado para
saber como interagir com a ferramenta, já que a interface com a aplicação é uma
pergunta escrita, por outro lado, o usuário pode não saber o que perguntar e não
chegará a encontrar as informações implícitas.
Pós-graduação
Referências
ADRIAANS, P.; ZANTINGE, D. Data mining. Addison Wesley Longman, England, 1996.
AGRAWAL, R.; SRIKANT, R. Mining sequential patterns. Proceedings of Eleventh
International Conf on Data Engineering. 1995.
AIRES, Rachel Virgínia Xavier. Uso de marcadores estilísticos para a busca na Web em
português. 2005. 202 f. Tese (Doutorado) Programa de Pós Graduação em Ciências
da Computação e Matemática Computacional – Instituto de Ciências e Matemáticas e
de Computação-ICMC, Universidade de São Paulo-USP, São Carlos (SP).
ALMEIDA, Adiel Teixeira de. Um modelo de decisão para a priorização no
planejamento de sistemas de informação. Prod., São Paulo, v. 8, n. 2, Dec. 1998.
Available from <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010365131998000200003&lng=en&nrm=iso>. Acessado em 15 Dez. 2011
ANGELONI, Maria Terezinha. Organizações do conhecimento: infraestrutura,
pessoas e tecnologias. São Paulo: Saraiva, 2008. 363 p.
ANZANELLO, C. A. OLAP: conceitos e utilização. Universidade Federal do Rio
Grande do Sul (UFRGS), 2002.
ARAGÃO, Pedro O. Um estudo sobre conceitos e técnicas de mineração de dados.
2008. Monografia (Graduação em Tecnologia)-Faculdade de Tecnologia de São
Paulo, São Paulo, 2008.
AXELROD, R.; COHEN, M. D. Harnessing complexity: organizational implications
of a scientific frontier, Free Press, New York, 1999.
BARBOSA, Gilka Rocha; ALMEIDA, Adiel Teixeira de. Sistemas de Apoio à Decisão
sob o enfoque de Profissionais de TI e de Decisores. XXII Encontro Nacional de
Engenharia de Produção. Curitiba, 2002.
BERGER, Gideon et al. Discovering unexpected patterns in temporal data
using temporal logic; Temporal Databases - Research and Practice. Heidelberg:
Ed Springer-Verlag, 1998.
170
BIO, Sérgio Rodrigues. Sistemas de informação: um enfoque gerencial. São Paulo:
Atlas, 1996.
BONOMO, Peeter. Construção de Data Warehouse (DW) e Data Mart (DM).
Artigo online. Disponível em <http://imasters.uol.com.br/artigo/11178> Acesso em:
julho de 2009.
BOVO, Alessandro Botelho. Um modelo de descoberta de conhecimento
inerente à evolução temporal dos relacionamentos entre elementos textuais.
2011. 127 (Doutorado). Programa de Pós-Graduação em Engenharia e Gestão do
Conhecimento, UFSC, Florianópolis (SC).
CABRAL, Pedro da Costa Brito. Sistemas espaciais de apoio à decisão – O Sistema
de Apoio ao Licenciamento da Direção Regional do Ambiente do Alentejo.
Dissertação para obtenção do grau de Mestre em Sistemas de Informação
Geográfica. Universidade Técnica de Lisboa. Portugal, 2001.
CAMPOS, R. A. Qualidade de dados em Data Warehouse. TCC (Graduação em
Bacharelado em Sistemas de Informação). Centro de Ensino Superior de Juiz de
Fora, Juiz de Fora, 2005.
CARVALHO, D. R. Um método híbrido árvore de decisão / algoritmo genético para
data mining, Tese Doutorado – PUCPR, Curitiba, 2002.
CARVALHO, Luís Alfredo V. Data mining: a mineração de dados no marketing,
medicina, economia, engenharia e administração. Editora Ciência Moderna. Rio de
Janeiro, 2005.
CARVALHO, Juliano et al. Utilização de técnicas de datamining para
reconhecimento de caracteres manuscritos. Universidade Federal da Paraíba, 2000.
CASTRO, Sergio A.; GONÇALVES, Pablo R.; CAZARINI, Edson W. O uso do OLAP
na estratégia de vendas em uma indústria de calçados alavancando a gestão
de cadeia de suprimentos. XXIV Encontro Nacional de Engenharia de Produção,
Florianópolis, 2004.
CECI, Flavio. O conhecimento nas organizações como um sistema adaptativo
complexo. In: ROVER, Aires J.; CARVALHO Marisa A.. (Org.). O sujeito do
conhecimento na sociedade em rede. 001 ed. Florianópolis: Editora: Fundação
José Arthur Boiteux, 2010, v. 001, p. 207-2010
Pós-graduação
171
CECI, Flavio. Um modelo semiautomático para a construção e manutenção de
ontologias a partir de bases de documentos não estruturados. 2010. Dissertação
(Mestrado em Engenharia e Gestão do Conhecimento) – Universidade Federal
de Santa Catarina, Florianópolis, 2010. Disponível em: <http://btd.egc.ufsc.br/wpcontent/uploads/2011/04/Fl%C3%A1vio_Ceci.pdf>. Acesso em: 10 de dez. 2011.
CECI, Flavio; SILVA, Dhiogo C.; SELL, Denilson; GONÇALVES, Alexandre L. Towards
a semiautomatic approach for ontology maintenance. 7 CONTECSI - International
Conference on Information Systems and Technology Management. USP, São
Paulo, 2010.
CIELO, Ivã. Data Warehouse como diferencial competitivo. Artigo on line.
Disponível em <http://www.always.com.br/site2005/internet_clip07.html>. Acesso
em: julho de 2008.
CODD, E. F.; CODD, S. B.; SALLEY, C. T. Providing OLAP (on-line analytical
processing) to user-analysts: An IT mandate. 1995.
DIAS, Cristiano Araujo. Descoberta de conhecimento em banco de dados para
apoio à tomada de decisão. Especialização em Informática Empresarial. Unesp.
Guaratinguetá , 2002.
DILL, Sérgio Luis. Uma metodologia para desenvolvimento de Data Warehouse
e Estudo de Caso. Dissertação submetida para obtenção do grau de Mestre em
Ciência da Computação. Universidade Federal de Santa Catarina, Florianópolis, 2002.
DONALD, B. High performance oracle data warehousing. USA: The Coriolis
Group, 1997.
EBECKEN, Nelson F. F.; LOPES, Maria Celia S.; COSTA, Myrian C. A. Mineração de
texto. In: REZENDE, Solange O. (Coord.). Sistemas inteligentes: fundamentos e
aplicações. São Paulo: Manole, 2005.
FAYYAD, Usama M; PIATESTSKY-SHAPIRO, Gregory; SMYTH, Padhraic;
UTHURUSAMY, Ramasamy. Advance: knowledge discovery and data mining. 1996.
FELDMAN, R.; HIRSH, H. Exploiting background information in knowledge
discovery from text. Journal of Intelligent Information System, 1997.
FIALHO, Francisco Antônio Pereira et al. Gestão do conhecimento e
aprendizagem: as estratégias competitivas da sociedade pós-industrial.
Florianópolis: Visualbooks, 2006.
Business Intelligence
172
FOURLAN, Marcos Roberto; GONÇALVES FILHO, Eduardo V. Uma proposta de
aplicação de Business Intelligence no chão-de-fábrica. Gestão e Produção. V.12,
n.1, p. 55-66, 2005.
GARCIA, Ana Cristina B.; VAREJÃO, Flávio M.; FERRAZ, Inhaúma N. Aquisição de
Conhecimento. In: Sistemas inteligentes: fundamentos e aplicações. Organização:
REZENDE, Solange O. Editora Manole, São Paulo, 2005.
GHISI, Fernando B.; CECI, Flávio; SELL, Denilson. Aspectos relacionados com a
eficácia do processo de aquisição de conhecimento a partir de apresentação
de informações numéricas: sumários textuais podem ser mais adequados
que representações gráficas? 5º CIDI – Congresso Internacional de Design da
Informação. Florianópolis, 2011.
GONÇALVES, A. L. Um modelo de descoberta de conhecimento baseado na
correlação de elementos textuais e expansão vetorial aplicado à engenharia e
gestão do conhecimento. 2006. 196 (Doutorado). Programa de Pós-Graduação em
Engenharia de Produção, UFSC, Florianópolis (SC).
GORDON, Steven R.; GORDON, Judith. Sistemas de informação: uma abordagem
gerencial. 3. ed. Rio de Janeiro: LTC, 2006.
GOUVEIA, Luís B.; RANITO, João. Sistemas de informação de apoio à gestão.
Porto, Portugal: Sociedade Portuguesa de Inovação, 2004.
GOUVEIA, Henrique C. et al. Aplicação da ferramenta OLAP em diferentes
módulos de um sistema ERP melhorando a tomada de decisão. Revista Eletrônica
de Sistemas de Informação e Gestão Tecnológica. Vol. 01, n. 01, 2011.
HEINZLE, Roberto. Um modelo de engenharia de conhecimento para sistemas de
apoio à decisão, com recursos para raciocínio abdutivo. Tese para obtenção do
grau de Doutor em Engenharia e Gestão do Conhecimento. Universidade Federal
de Santa Catarina. Florianópolis, 2010.
HEINZLE, Roberto; GAUTHIER, Fernando A. Ostuni; FIALHO, Francisco Antonio P.
Semântica nos sistemas de apoio à decisão: O Estado da Arte. Revista da Unifebe,
v. 1, p. Artigo 14, 2010.
HODGE, P. Business intelligence Architecture. Disponível em <https://sites.google.
com/a/paulhodge.com/www/architecture>. Acesso em 21 de Janeiro de 2012.
Pós-graduação
173
IGARASHI, Wagner. Construção automática de vocabulários temáticos e
cálculo de aderência curricular: uma aplicação aos fundos setoriais. 2005.
95 f. Dissertação (Mestrado) – Programa de Pós-Graduação em Engenharia de
Produção e Sistemas, Universidade Federal de Santa Catarina, Florianópolis (SC).
INMON, W. H. Como construir o data warehouse. Rio de Janeiro: Campus, 1997.
388 p.
INMON, W. H.; TERDEMAN, R. H.; IMHOFF, Claudia. Data warehousing: como
transformar informações em oportunidades de negócios. São Paulo: Berkeley,
2001. 266 p.
INMON, W.; STRAUSS, D.; NEUSHLOSS, G. DW 2.0 The architecture for the next
generation of data warehousing. 2007.
LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de Informação Gerenciais:
administrando a empresa digital. São Paulo: Prentice Hall, 2001.
LOH, Stanley. Material das disciplinas de Sistemas de Informação e Data Mining.
Disponível em <atlas.ucpel.tche.br/~loh/>. Acesso em: julho de 2009.
LUNARDI, Riccardo. Panoramic and main features of Business Analytics. Tese
(Doutorado) 2011 - Universita Degli Studi di Padova, Facolta di Ingegneria.
Ingegneria Informatica, Padova (Itália), 2011.
KIMBALL, Ralph. Data warehouse toolkit. São Paulo: Makron Books, 1998. 379 p.
KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit: the Complete guide
to dimensional modeling. Wiley, 2002.
KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley
Computer Publishing, 1997.
MARTINHAGO, Sérgio. Descoberta de conhecimento sobre o processo seletivo
da UFPR. (Dissertação) Mestrado em Métodos Numéricos em Engenharia.
Universidade Federal do Paraná, Curitiba, 2005.
MAÑAS, Antonio Vico. Administração de sistemas de informação. São Paulo:
Érica, 1999.
NAPOLI, Marcio. Aplicação de ontologias para apoiar operações
analíticas sobre fontes estruturadas e não estruturadas. 2011. Dissertação
(Mestrado) – Universidade Federal de Santa Catarina, Programa de
Pós‑Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011.
Business Intelligence
174
NAVEGA, Sergio. Princípios do data mining. Cenadem 2002, Anais do Infoimagem,
2002. Disponível em: <http://www.intelliwise.com/reports/i2002.htm>. Acesso em:
março de 2012.
OLIVEIRA, Robson Butaca Taborelli de. O processo de extração de conhecimento
de base de dados apoiado por agentes de software. (Dissertação) Ciência da
Computação. Universidade de São Paulo. São Carlos, 2000.
OLIVEIRA, André Luis B.; CARREIRA, Marcio Luis; MORETI, Thiago Moura.
Aprimorando a gestão de negócios com a utilização de Tecnologias de
Informação. Revista de Ciências Gerenciais. Vol XIII, Nº 17, 2009.
OLIVEIRA, Wilson J. Data Warehouse. Visual Books, Florianopolis, 2002.
PINHEIRO, Carlos André Reis. Inteligência analítica: mineração de dados e
descoberta de conhecimento. Rio de Janeiro: Ciência Moderna, 2008.
PINTAS, Juliano T.; SIQUEIRA, Sean W. M. O papel da semântica no Business
Intelligence 2.0: um exemplo no contexto de um programa de pós-graduação. VII
Simpósio Brasileiro de Sistemas de Informação. Salvador, 2011.
PRIMAK, Fábio Vinícius. Decisões com B.I. Rio de Janeiro: Editora Ciência
Moderna, 2008.
QUONIAM, Luc; et al. Inteligência obtida pela aplicação de data mining em base
de teses francesas sobre o Brasil. Ciência da Informação, v. 30, n.2, p, 20-28.
Brasília, 2001.
RASMUSSEN, Nils; GOLDY, Paul S.; SOLLI, Per O. Financial Business
Intelligence – Trends, Technology, Software Selection, and Implementation.
John Wiley and Sons, Inc., New York, 2002.
REGINATO, Luciane; NASCIMENTO, Auster Moreira. Um estudo de caso
envolvendo business intelligence como instrumento de apoio à controladoria.
Revista Contabilidade & Finanças. São Paulo, p.69-83, 2007.
REZENDE, Solange. Sistemas inteligentes: fundamentos e aplicações. São Paulo:
Ed. Manole, 2005.
ROMÃO, Wesley. Descoberta de conhecimento relevante em banco de dados
sobre ciência e tecnologia. (Tese) Programa de Pós-Graduação em Engenharia de
Produção. Universidade Federal de Santa Catarina. Florianópolis, 2002.
Pós-graduação
175
SASSI, Renato Jose. Data warehouse e business intelligence operacional:
revisando a tecnologia e analisando as tendências do armazém de dados. XXX
Encontro Nacional de Engenharia de Produção. ENEGEP 2010. São Carlos, 2010.
SELL, Denilson. Uma arquitetura para business intelligence baseada em
tecnologias semânticas para suporte a aplicações analíticas. 2006. Tese
(Doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico.
Programa de Pós-Graduação em Engenharia de Produção, Florianópolis, 2006.
SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para
processamento analítico baseado em tecnologias semânticas e em linguagem
natural. 2011. Dissertação (Mestrado) – Universidade Federal de Santa Catarina,
Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento,
Florianópolis, 2011.
SILVA, João; SAIAS, José. OLAP em âmbito hospitalar: transformação de dados de
enfermagem para análise multidimensional. JIUE 2011, 2th Jornada de Informática
da Universidade de Évora, Portugal, 2011.
STUDER, Rudi; BENJAMINS, V. Richard; FENSEL, Dieter. Knowledge engineering:
principles and methods. IEEE Transactions on Data and Knowledge Engineering, 1998.
TANCER, Bill. Click: o que milhões de pessoas estão fazendo on-line e por que isso
é importante. Editora Globo S.A., São Paulo, 2009.
TAPSCOTT, Don; WILLIAMS, Anthony D. Wikinomics: como a colaboração em
massa pode mudar o seu negócio. Editora Nova Fronteira, Rio de Janeiro, 2006.
TEOREY, Toby; LIGHTSTONE, Sam; NADEAU, Tom. Projeto e modelagem de bancos
de dados. Elsevier, Rio de Janeiro, 2007.
THOMSEN, Erik. OLAP Solutions: building multidimensional information systems.
2nd Edition. John Wiley & Sons, Inc, 2002.
TURBAN, Efraim et al. Business Intelligence – um enfoque gerencial para a
inteligência do negócio. Editora Bookman, Porto Alegre, 2009.
VINCI, Wilson L.; NARCISO, Marcelo G. Integração access-excel para produzir um
sistema de apoio à decisão que simula um data warehouse e OLAP. XIII SIMPEP,
Simpósio de Engenharia de Produção, Bauru, 2006.
XAVIER, Fabrício S. V.; PEREIRA, Leonardo Bruno R. SQL dos conceitos às
consultas complexas. Editora Ciência Moderna, Rio de Janeiro, 2009.
Business Intelligence
176
WITTEN, Ian H.; FRANK, Eibe. Data mining – practical machine learning tools and
techniques with Java implementations. Morgan Kaufmann Publishers. 2000.
WIVES, Leandro Krug. Tecnologia de descoberta de conhecimento em textos
aplicados à inteligência competitiva. Monografia apresentada ao Exame de
Qualificação do Programa de Pós-Graduação em Computação, Universidade
Federal do Rio Grande do Sul, Porto Alegre, 2002.
Pós-graduação
Download