Business Intelligence Flávio Ceci Créditos Universidade do Sul de Santa Catarina | Campus UnisulVirtual | Educação Superior a Distância Avenida dos Lagos, 41 – Cidade Universitária Pedra Branca | Palhoça – SC | 88137-900 | Fone/fax: (48) 3279-1242 e 3279-1271 | E-mail: [email protected] | Site: www.unisul.br/unisulvirtual Reitor Ailton Nazareno Soares Vice-Reitor Sebastião Salésio Heerdt Chefe de Gabinete da Reitoria Willian Corrêa Máximo Pró-Reitor de Ensino e Pró-Reitor de Pesquisa, Pós-Graduação e Inovação Mauri Luiz Heerdt Pró-Reitora de Administração Acadêmica Miriam de Fátima Bora Rosa Pró-Reitor de Desenvolvimento e Inovação Institucional Valter Alves Schmitz Neto Diretora do Campus Universitário de Tubarão Milene Pacheco Kindermann Diretor do Campus Universitário da Grande Florianópolis Hércules Nunes de Araújo Secretária-Geral de Ensino Solange Antunes de Souza Diretora do Campus Universitário UnisulVirtual Jucimara Roesler Equipe UnisulVirtual Diretor Adjunto Moacir Heerdt Secretaria Executiva e Cerimonial Jackson Schuelter Wiggers (Coord.) Marcelo Fraiberg Machado Tenille Catarina Assessoria de Assuntos Internacionais Murilo Matos Mendonça Assessoria de Relação com Poder Público e Forças Armadas Adenir Siqueira Viana Walter Félix Cardoso Junior Assessoria DAD - Disciplinas a Distância Patrícia da Silva Meneghel (Coord.) Carlos Alberto Areias Cláudia Berh V. da Silva Conceição Aparecida Kindermann Luiz Fernando Meneghel Renata Souza de A. Subtil Assessoria de Inovação e Qualidade de EAD Denia Falcão de Bittencourt (Coord.) Andrea Ouriques Balbinot Carmen Maria Cipriani Pandini Assessoria de Tecnologia Osmar de Oliveira Braz Júnior (Coord.) Felipe Fernandes Felipe Jacson de Freitas Jefferson Amorin Oliveira Phelipe Luiz Winter da Silva Priscila da Silva Rodrigo Battistotti Pimpão Tamara Bruna Ferreira da Silva Coordenação Cursos Coordenadores de UNA Diva Marília Flemming Marciel Evangelista Catâneo Roberto Iunskovski Auxiliares de Coordenação Ana Denise Goularte de Souza Camile Martinelli Silveira Fabiana Lange Patricio Tânia Regina Goularte Waltemann Coordenadores Graduação Aloísio José Rodrigues Ana Luísa Mülbert Ana Paula R.Pacheco Artur Beck Neto Bernardino José da Silva Charles Odair Cesconetto da Silva Dilsa Mondardo Diva Marília Flemming Horácio Dutra Mello Itamar Pedro Bevilaqua Jairo Afonso Henkes Janaína Baeta Neves Jorge Alexandre Nogared Cardoso José Carlos da Silva Junior José Gabriel da Silva José Humberto Dias de Toledo Joseane Borges de Miranda Luiz G. Buchmann Figueiredo Marciel Evangelista Catâneo Maria Cristina Schweitzer Veit Maria da Graça Poyer Mauro Faccioni Filho Moacir Fogaça Nélio Herzmann Onei Tadeu Dutra Patrícia Fontanella Roberto Iunskovski Rose Clér Estivalete Beche Vice-Coordenadores Graduação Adriana Santos Rammê Bernardino José da Silva Catia Melissa Silveira Rodrigues Horácio Dutra Mello Jardel Mendes Vieira Joel Irineu Lohn José Carlos Noronha de Oliveira José Gabriel da Silva José Humberto Dias de Toledo Luciana Manfroi Rogério Santos da Costa Rosa Beatriz Madruga Pinheiro Sergio Sell Tatiana Lee Marques Valnei Carlos Denardin Sâmia Mônica Fortunato (Adjunta) Coordenadores Pós-Graduação Aloísio José Rodrigues Anelise Leal Vieira Cubas Bernardino José da Silva Carmen Maria Cipriani Pandini Daniela Ernani Monteiro Will Giovani de Paula Karla Leonora Dayse Nunes Letícia Cristina Bizarro Barbosa Luiz Otávio Botelho Lento Roberto Iunskovski Rodrigo Nunes Lunardelli Rogério Santos da Costa Thiago Coelho Soares Vera Rejane Niedersberg Schuhmacher Gerência Administração Acadêmica Angelita Marçal Flores (Gerente) Fernanda Farias Secretaria de Ensino a Distância Samara Josten Flores (Secretária de Ensino) Giane dos Passos (Secretária Acadêmica) Adenir Soares Júnior Alessandro Alves da Silva Andréa Luci Mandira Cristina Mara Schauffert Djeime Sammer Bortolotti Douglas Silveira Evilym Melo Livramento Fabiano Silva Michels Fabricio Botelho Espíndola Felipe Wronski Henrique Gisele Terezinha Cardoso Ferreira Indyanara Ramos Janaina Conceição Jorge Luiz Vilhar Malaquias Juliana Broering Martins Luana Borges da Silva Luana Tarsila Hellmann Luíza Koing Zumblick Maria José Rossetti Marilene de Fátima Capeleto Patricia A. Pereira de Carvalho Paulo Lisboa Cordeiro Paulo Mauricio Silveira Bubalo Rosângela Mara Siegel Simone Torres de Oliveira Vanessa Pereira Santos Metzker Vanilda Liordina Heerdt Gestão Documental Lamuniê Souza (Coord.) Clair Maria Cardoso Daniel Lucas de Medeiros Jaliza Thizon de Bona Guilherme Henrique Koerich Josiane Leal Marília Locks Fernandes Gerência Administrativa e Financeira Renato André Luz (Gerente) Ana Luise Wehrle Anderson Zandré Prudêncio Daniel Contessa Lisboa Naiara Jeremias da Rocha Rafael Bourdot Back Thais Helena Bonetti Valmir Venício Inácio Gerência de Ensino, Pesquisa e Extensão Janaína Baeta Neves (Gerente) Aracelli Araldi Elaboração de Projeto Carolina Hoeller da Silva Boing Vanderlei Brasil Francielle Arruda Rampelotte Reconhecimento de Curso Maria de Fátima Martins Extensão Maria Cristina Veit (Coord.) Pesquisa Daniela E. M. Will (Coord. PUIP, PUIC, PIBIC) Mauro Faccioni Filho (Coord. Nuvem) Pós-Graduação Anelise Leal Vieira Cubas (Coord.) Biblioteca Salete Cecília e Souza (Coord.) Paula Sanhudo da Silva Marília Ignacio de Espíndola Renan Felipe Cascaes Gestão Docente e Discente Enzo de Oliveira Moreira (Coord.) Capacitação e Assessoria ao Docente Alessandra de Oliveira (Assessoria) Adriana Silveira Alexandre Wagner da Rocha Elaine Cristiane Surian (Capacitação) Elizete De Marco Fabiana Pereira Iris de Souza Barros Juliana Cardoso Esmeraldino Maria Lina Moratelli Prado Simone Zigunovas Tutoria e Suporte Anderson da Silveira (Núcleo Comunicação) Claudia N. Nascimento (Núcleo Norte- Nordeste) Maria Eugênia F. Celeghin (Núcleo Pólos) Andreza Talles Cascais Daniela Cassol Peres Débora Cristina Silveira Ednéia Araujo Alberto (Núcleo Sudeste) Francine Cardoso da Silva Janaina Conceição (Núcleo Sul) Joice de Castro Peres Karla F. Wisniewski Desengrini Kelin Buss Liana Ferreira Luiz Antônio Pires Maria Aparecida Teixeira Mayara de Oliveira Bastos Michael Mattar Patrícia de Souza Amorim Poliana Simao Schenon Souza Preto Karine Augusta Zanoni Marcia Luz de Oliveira Mayara Pereira Rosa Luciana Tomadão Borguetti Gerência de Desenho e Desenvolvimento de Materiais Didáticos Assuntos Jurídicos Márcia Loch (Gerente) Bruno Lucion Roso Sheila Cristina Martins Desenho Educacional Marketing Estratégico Cristina Klipp de Oliveira (Coord. Grad./DAD) Roseli A. Rocha Moterle (Coord. Pós/Ext.) Aline Cassol Daga Aline Pimentel Carmelita Schulze Daniela Siqueira de Menezes Delma Cristiane Morari Eliete de Oliveira Costa Eloísa Machado Seemann Flavia Lumi Matuzawa Geovania Japiassu Martins Isabel Zoldan da Veiga Rambo João Marcos de Souza Alves Leandro Romanó Bamberg Lygia Pereira Lis Airê Fogolari Luiz Henrique Milani Queriquelli Marcelo Tavares de Souza Campos Mariana Aparecida dos Santos Marina Melhado Gomes da Silva Marina Cabeda Egger Moellwald Mirian Elizabet Hahmeyer Collares Elpo Pâmella Rocha Flores da Silva Rafael da Cunha Lara Roberta de Fátima Martins Roseli Aparecida Rocha Moterle Sabrina Bleicher Verônica Ribas Cúrcio Rafael Bavaresco Bongiolo Acessibilidade Multimídia Vanessa de Andrade Manoel (Coord.) Letícia Regiane Da Silva Tobal Mariella Gloria Rodrigues Vanesa Montagna Avaliação da aprendizagem Portal e Comunicação Catia Melissa Silveira Rodrigues Andreia Drewes Luiz Felipe Buchmann Figueiredo Rafael Pessi Gerência de Produção Arthur Emmanuel F. Silveira (Gerente) Francini Ferreira Dias Design Visual Pedro Paulo Alves Teixeira (Coord.) Alberto Regis Elias Alex Sandro Xavier Anne Cristyne Pereira Cristiano Neri Gonçalves Ribeiro Daiana Ferreira Cassanego Davi Pieper Diogo Rafael da Silva Edison Rodrigo Valim Fernanda Fernandes Frederico Trilha Jordana Paula Schulka Marcelo Neri da Silva Nelson Rosa Noemia Souza Mesquita Oberdan Porto Leal Piantino Sérgio Giron (Coord.) Dandara Lemos Reynaldo Cleber Magri Fernando Gustav Soares Lima Josué Lange Claudia Gabriela Dreher Jaqueline Cardozo Polla Nágila Cristina Hinckel Sabrina Paula Soares Scaranto Thayanny Aparecida B. da Conceição Conferência (e-OLA) Gerência de Logística Marcelo Bittencourt (Coord.) Jeferson Cassiano A. da Costa (Gerente) Logísitca de Materiais Carlos Eduardo D. da Silva (Coord.) Abraao do Nascimento Germano Bruna Maciel Fernando Sardão da Silva Fylippy Margino dos Santos Guilherme Lentz Marlon Eliseu Pereira Pablo Varela da Silveira Rubens Amorim Yslann David Melo Cordeiro Avaliações Presenciais Graciele M. Lindenmayr (Coord.) Ana Paula de Andrade Angelica Cristina Gollo Cristilaine Medeiros Daiana Cristina Bortolotti Delano Pinheiro Gomes Edson Martins Rosa Junior Fernando Steimbach Fernando Oliveira Santos Lisdeise Nunes Felipe Marcelo Ramos Marcio Ventura Osni Jose Seidler Junior Thais Bortolotti Gerência de Marketing Eliza B. Dallanhol Locks (Gerente) Relacionamento com o Mercado Alvaro José Souto Relacionamento com Polos Presenciais Alex Fabiano Wehrle (Coord.) Jeferson Pandolfo Carla Fabiana Feltrin Raimundo (Coord.) Bruno Augusto Zunino Gabriel Barbosa Produção Industrial Gerência Serviço de Atenção Integral ao Acadêmico Maria Isabel Aragon (Gerente) Ana Paula Batista Detóni André Luiz Portes Carolina Dias Damasceno Cleide Inácio Goulart Seeman Denise Fernandes Francielle Fernandes Holdrin Milet Brandão Jenniffer Camargo Jessica da Silva Bruchado Jonatas Collaço de Souza Juliana Cardoso da Silva Juliana Elen Tizian Kamilla Rosa Mariana Souza Marilene Fátima Capeleto Maurício dos Santos Augusto Maycon de Sousa Candido Monique Napoli Ribeiro Priscilla Geovana Pagani Sabrina Mari Kawano Gonçalves Scheila Cristina Martins Taize Muller Tatiane Crestani Trentin Universidade do Sul de Santa Catarina Business Intelligence Livro Digital Palhoça UnisulVirtual 2012 Copyright © UnisulVirtual 2012 Nenhuma parte desta publicação pode ser reproduzida por qualquer meio sem a prévia autorização desta instituição. Edição – Livro Digital Professor Conteudista Flávio Ceci Coordenação de Curso Vera Rejane Niedersberg Schuhmacher Design Instrucional Silvana Souza da Cruz Clasen João Marcos de Souza Alves (2ª edição rev. e atual). Projeto Gráfico e Capa Equipe Design Visual Diagramação Daiana Ferreira Cassanego Revisão Diane Dal Mago ISBN 978-85-7817-465-1 005.74 C38 Ceci, Flávio Business intelligence : livro digital / Flávio Ceci ; design instrucional Silvana Souza da Cruz Clasen ; João Marcos de Souza Alves. – Palhoça : UnisulVirtual, 2012. 176 p. : il. ; 28 cm. Inclui bibliografia. ISBN 978-85-7817-465-1 1. Banco de dados. 2. Inteligência em negócios. 3. Tecnologia da informação. 4. Sistema de informação gerencial. I. Alves, João Marcos de Souza. II. Título. Ficha catalográfica elaborada pela Biblioteca Universitária da Unisul Flávio Ceci Business Intelligence Livro Digital Designer instrucional João Marcos de Souza Alves 2ª edição revista e atualizada Palhoça UnisulVirtual 2012 Sumário 5 Sumário 7 Apresentação 9 Palavras do Professor 11 Plano de estudo 15 Unidade 1 O poder da informação e do conhecimento nas organizações 45 Unidade 2 Colocando inteligência nos negócios 63 Unidade 3 Data Warehouse 95 Unidade 4 Descobrindo o conhecimento 131 Unidade 5 Processo OLAP 159 Para concluir os estudos 161 Minicurrículo 163 Respostas e comentários das atividades de autoaprendizagem e colaborativas 169 Referências Apresentação Caro/a estudante, O livro digital desta disciplina foi organizado didaticamente, de modo a oferecer a você, em um único arquivo pdf, elementos essenciais para o desenvolvimento dos seus estudos. Constituem o livro digital: •• Palavras do professor (texto de abertura); •• Plano de estudo (com ementa, objetivos e conteúdo programático da disciplina); •• Objetivos, Introdução, Síntese e Saiba mais de cada unidade; •• Leituras de autoria do professor conteudista; •• Atividades de autoaprendizagem e gabaritos; •• Enunciados das atividades colaborativas; •• Para concluir estudos (texto de encerramento); •• Minicurrículo do professor conteudista; e •• Referências. Lembramos, no entanto, que o livro digital não constitui a totalidade do material didático da disciplina. Dessa forma, integram o conjunto de materiais de estudo: webaulas, objetos multimídia, leituras complementares (selecionadas pelo professor conteudista) e atividades de avaliação (obrigatórias e complementares), que você acessa pelo Espaço UnisulVirtual de Aprendizagem. Tais materiais didáticos foram construídos especialmente para este curso, levando em consideração as necessidades da sua formação e aperfeiçoamento profissional. Atenciosamente, Equipe UnisulVirtual Palavras do Professor Bem-vindo caro aluno! Na disciplina de Business Intelligence você terá a oportunidade de navegar por vários conceitos das áreas de administração, sistemas de informação, banco de dados, inteligência artificial e gestão de TI. Inicialmente, são tratados os conceitos relacionados com dado, informação e conhecimento, qual o papel de cada um desses itens e como eles podem auxiliar na gestão de uma organização. Posteriormente, são vistos os conceitos de sistema e depois, de maneira mais específica, sistemas de informação e, especializando mais ainda, sistemas de apoio à decisão. Percebe-se que as aplicações de business intelligence (BI) são, na verdade, sistemas de apoio à decisão. Na unidade 2 são tratados com mais detalhes os conceitos relacionados com BI, bem como suas características e usos. A unidade 3 traz o tema Data Warehouse, que geralmente é utilizando como repositório de dados para as aplicações de BI, mas também pode ser utilizado em outros contextos organizacionais. Nesta unidade, também será estudada a modelagem de dados dimensional e como ela pode trazer benefícios a sistemas de apoio à decisão. Na unidade 4 são abordadas as fases do BI, além de dar foco a algumas outras áreas envolvidas, como por exemplo: descoberta de conhecimento e banco de dados e descoberta de conhecimento em textos. Por fim, são apresentados os conceitos relacionados com OLAP e como podem ser consumidas as informações e os conhecimentos explicitados pela ferramenta em questão. Ótimos estudos! Flávio Ceci Plano de estudo O plano de estudos visa a orientá-lo/a no desenvolvimento da disciplina. Possui elementos que o/a ajudarão a conhecer o contexto da disciplina e a organizar o seu tempo de estudos. O processo de ensino e aprendizagem na UnisulVirtual leva em conta instrumentos que se articulam e se complementam, portanto a construção de competências se dá sobre a articulação de metodologias e por meio das diversas formas de ação/mediação. São elementos desse processo: •• o livro digital; •• o Espaço UnisulVirtual de Aprendizagem (EVA); •• as atividades de avaliação (a distância, presenciais e de autoaprendizagem); •• o Sistema Tutorial. Objetivo geral As empresas devem tomar decisões em todos os níveis organizacionais e em todas suas áreas de atuação. Ter informação precisa e de qualidade pode ser a diferença entre tomar decisões certas ou não. Nesse sentido, a qualidade da informação é um diferencial competitivo nas empresas. Apenas armazenar dados sobre clientes, fornecedores, vendas, compras e colaboradores, não é o suficiente. As organizações buscam a qualidade dos dados e sua transformação em informações que gerem conhecimento dentro da empresa, apoiando o processo de tomada de decisão. O objetivo da disciplina é trazer para o aluno conhecimento sobre conceitos, arquitetura e componentes dos sistemas de BI (Business Inteligence). Os sistemas de BI fornecem uma arquitetura com a visão do analista de negócios, permitindo às organizações a transformação e a extração dos dados coletados em seus sistemas de informação, em informação e conhecimento, para auxílio ao processo decisório das organizações. Ementa Informação e decisão nas organizações. Dados, informação e conhecimento. Sistemas de Informação nas organizações: sistemas transacionais e de apoio à decisão. Arquitetura e componentes de uma solução de BI-Business Intelligence. Data Warehouse: motivação, conceitos, definição e características. Modelo Dimensional: fatos, dimensões, medidas e granularidade. Sistemas ETL: extração limpeza, transformação e carga de um modelo dimensional. Área de apresentação: características das técnicas analíticas (OLAP) como ferramentas de apresentação e extração de informação. Conteúdo programático/objetivos A seguir, as unidades que compõem o livro digital desta disciplina e os seus respectivos objetivos. Estes se referem aos resultados que você deverá alcançar ao final de uma etapa de estudo. Os objetivos de cada unidade definem o conjunto de conhecimentos que você deverá possuir para o desenvolvimento de habilidades e competências necessárias a este nível de estudo. Unidades de estudo: 5 Unidade 1 – O poder da informação e do conhecimento nas organizações Nesta unidade, é apresentada uma visão geral entre dado, informação e conhecimento, quais as suas fronteiras e sua aplicabilidade. Após é visto o que são sistemas de informação, qual a sua utilidade e como se pode classificá-los. Por fim, é apresentada uma visão geral sobre os sistemas de apoio à decisão e como eles podem agregar valor à camada gerencial das organizações. Unidade 2 – Colocando inteligência nos negócios Verifica-se que os sistemas de informação trazem muitos benefícios para uma organização. Para a camada tomadora de decisão, a utilização de aplicações de Business Intelligence tem sido cada vez mais comum. Nesta unidade, são apresentados conceitos introdutórios sobre Business Intelligence e de que forma eles auxiliam nas decisões estratégicas para uma organização. Pós-graduação Unidade 3 – Data Warehouse Esta unidade é focada no estudo dos conceitos relacionados com os Data Warehouse (DW), qual a sua participação numa aplicação de Business Intelligence e como a modelagem de dados dimensional pode auxiliar na construção desse tipo de repositório. Unidade 4 – Fases do Business Intelligence Na unidade 4, são apresentadas as fases do Business Intelligence, a diferença do processo Knowledge Discovery in Database (KDD) e Knowledge Discovery Text (KDT), e como esses processos podem auxiliar na etapa de tomada de decisão. Unidade 5 – Processo OLAP Na nossa unidade final é ilustrado o processo On-line Analytical Processing (OLAP), que está focado no consumo das informações armazenadas e na apresentação para os usuários do sistema de apoio à decisão. Carga horária: 45 horas Business Intelligence Unidade 1 O poder da informação e do conhecimento nas organizações Objetivos de Aprendizagem •• Compreender o papel da informação e do conhecimento como facilitadores para a tomada de decisões e planejamento em organizações. •• Entender em que âmbito a tecnologia contribui no processo de tomada de decisões. •• Diferenciar sistemas de informação dentro de um ambiente organizacional. Introdução Não é novidade que as organizações estão cada vez mais utilizando recursos computacionais para auxiliar nas suas operações. Com o uso indiscriminado dos computadores, gera‑se, diariamente, uma quantidade enorme de dados estruturados (em banco de dados), semiestruturados (e‑mails, logs, entre outros) e não estruturados (texto livre como, por exemplo: relatórios, manuais, artigos, entre outros). Esses dados, de maneira isolada, não trazem vantagens para o gerenciamento das operações e tomada de decisão, mas servem como matéria‑prima para a geração de informações. Os sistemas de informação vêm com esse propósito, entregar informações organizacionais a partir dos dados armazenados. Os sistemas de informação tradicionais são focados no apoio das operações de uma organização, não trazendo vantagens diretas à camada tomadora de decisão, tendo em vista essas carências, desenvolveu‑se um subtipo específico de sistemas de informação, chamados de sistemas de apoio à decisão. 16 Dado, informação e conhecimento Flávio Ceci A cada dia mais e mais as pessoas estão produzindo dados de maneira involuntária, seja efetuando compras, navegando pela internet, escutando músicas on‑line, fazendo buscas em sites como Google, Yahoo e Bing, participando de redes sociais, entre outras atividades. Esses dados de maneira bruta não revelam segredos, apenas apresentam trajetórias e dados provenientes de operações, mas a partir do seu processamento pode‑se chegar a valiosas informações. Bill Tancer é um especialista em análise de dados do mundo virtual, em seu livro Click, lançado no Brasil no ano de 2009 pela editora Globo, o autor apresenta sua trajetória no mundo da análise de dados virtuais. A partir das consultas feitas em sites de busca, Tancer demonstra como os dados gerados pelas buscas estão diretamente relacionados com eventos atuais e como esses dados cruzados de maneira correta podem apresentar tendências e indicadores. Percebe‑se que o processamento do dado bruto gera a informação. Para Fialho et al. (2006), dados são representações simbólicas para descrições de atributos de qualquer nível. Segundo Pinheiro (2008), a camada de dados é responsável pela existência dos sistemas transacionais, que tem como função apoiar as operações da organização. Segundo Ceci (2010), há bastante tempo as organizações utilizam seus dados operacionais para gerar informação que os ajudem na etapa de tomada de decisão. Mas nunca se produziu tantos dados no ambiente virtual como nos dias de hoje. O surgimento de uma série de dispositivos que mantém cada vez mais as pessoas conectadas proporciona uma verdadeira avalanche de novos dados por segundo. Tendo esse cenário como atual, muitas empresas estão utilizando não apenas os seus dados operacionais (dados provenientes de operações como, por exemplo, uma venda ou compra de um determinado produto) e transacionais (dados em nível de transação), mas também os disponíveis na web, como por exemplo, textos publicados em microblogs, como o twitter, para identificar a opinião de um grupo sobre um dos seus produtos ou serviços. Esses dados disponíveis na web combinados com os internos da organização geram informações ainda mais relevantes e estratégicas para a etapa da tomada de decisão. Don Tapscott considerado por muitos como gênio das estratégias empresariais em seu best‑seller Wikinomics, lançado em 2006, e escrito em parceria com seu colega de trabalho Anthony D. Williams, fala sobre como a colaboração pode auxiliar e muito as organizações. Nesse livro é apresentado um caso em que uma organização tinha um problema que não conseguia encontrar uma solução Pós-graduação 17 efetiva pelos seus engenheiros e pesquisadores, a alternativa encontrada foi abrir os dados na internet e ofertar um prêmio para o pesquisador que conseguisse resolvê‑lo, ou seja, processar o dado bruto, para gerar informação e conhecimento. Segundo Fialho et al. (2006), informação é um conjunto de dados que são processados corretamente e tornam‑se compreensíveis, ou seja, apresentem um significado, criando padrões e acionando significados na mente dos indivíduos. Percebe‑se que os dados estão relacionados diretamente com as operações de uma organização ou de um indivíduo e estão armazenados na forma de bases de dados transacionais. O processamento sobre eles gera as informações, como por exemplo, no contexto de um sistema de controle de estoque, saber que existe 10 unidades de um produto no depósito é um dado, agora, saber que se a quantidade deste produto for inferior a 3 unidades, significa que está com o estoque em baixa, é uma informação. Segundo Fialho (2006), para que os dados se transformem em informação, é necessário que as correlações entre os muitos fatos e suas implicações para os indivíduos e para as organizações sejam evidenciados, ou seja, explicitados. A Figura 1 ilustra a afirmação feita pelo autor: Figura 1 - Transformando dados em informação Fatos Dados X Indivíduos Processamento X Organização Informação Fonte: Fialho, 2006. Vemos que a informação por si só não é apenas fato, instrução ou número de uma tabela, informação é o significado expresso pelo ser humano, trazendo benefícios à etapa de tomada de decisão (GOUVEIA; RANITO, 2004). As análises dos dados nos levam até a informação, tecnologicamente, os sistemas de informação fazem essa ponte, entregando para o usuário final informações relevantes permitindo uma economia de tempo. O cenário a seguir apresenta uma situação para ilustrar essas afirmações: A UnisulVirtual é o campus da Universidade do Sul de Santa Catarina responsável por todos os projetos e programas de ensino a distancia da UNISUL, contando com mais de 12 mil alunos espalhados por todo o Brasil. O poder da informação e do conhecimento nas organizações 18 Imagina‑se que todas as notas dos alunos estão armazenadas numa mesma tabela, no banco de dados, como apresentado abaixo: Tabela 1 - Tabela de relacionamento entre aluno e disciplina codAluno codDisciplina prova1 prova2 prova3 Media 98413 2009412 10 9 9,5 9,5 87536 2007324 7 4 3 4,7 96784 2009413 6 8 7 7 ... ... ... ... ... ... Fonte: Elaboração do autor, 2012. O campo codAluno equivale ao código de identificação do aluno numa tabela onde são mantidos os dados relacionados com os alunos, como por exemplo, o seu nome, seu telefone, nome dos seus pais, endereço, entre outras informações. O campo codDisciplina representa o código identificador da disciplina numa tabela que armazena as informações relacionadas com as disciplinas, outras informações relevantes para essa tabela são: nome da disciplina, nome do curso que a contém, qual semestre ela foi ministrada, entre outras informações. Os campos prova1, prova2 e prova3 representam as três notas de provas feitas pelos alunos da disciplina, o último campo representa a média aritmética das três notas registradas. Suponha‑se que a secretária do curso de Ciência da Computação gostaria de premiar todos os alunos que possuem média superior a 9, se não existir um sistema de informação, seria necessário que algum funcionário da secretaria identificasse quais são as disciplinas que fazem parte do curso em questão e depois verificar todos os registros da tabela aluno_disciplina que possuem o campo codDisciplina, equivalente a um código de disciplina do curso e depois se a média apresentada é superior a 9. Dessa maneira, o funcionário da secretaria está interagindo diretamente com os dados da tabela. Agora, se a secretaria dispor de um sistema de informação que possua um ambiente onde possa fazer cruzamento de informações e aplicar filtros, facilmente será retornado um relatório com a informação solicitada. Percebe‑se que a informação traz mais benefícios que os dados para a camada tomadora de decisão de uma organização. Segundo Primak (2008), a informação faz parte da base da construção do conhecimento. Para Fialho et al. (2006), pode‑se definir conhecimento como um conjunto completo de informações, dados e relações que auxiliam os indivíduos na tomada de decisão, à realização de tarefas e a geração de novas informações e conhecimentos. Outra definição para Pós-graduação 19 conhecimento, dada pelo autor é um conjunto de informações contextualizadas e dotadas de semântica inerentes ao agente que o detém, e seu conteúdo semântico se dará em função do conjunto de informações que o compõem, de suas ligações com outras unidades de conhecimento e do processo de contextualização. Para transformar informação em conhecimento não basta apenas a aplicação de uma etapa de processamento (como no caso dos dados para a informação), é necessário um processo de síntese por parte de quem está consumindo a informação. Segundo Ghisi, Ceci e Sell (2011), a visualização de informação participa diretamente do processo de aquisição (quando se acessa um conhecimento já existente) e criação (que é permitido a partir da interpretação das informações por parte do indivíduo). A Figura 2 apresenta essa transformação. Figura 2 - Da informação ao conhecimento Síntese Processamento Dados Informação Conhecimento Fonte: Ghisi, Ceci e Sell, 2011. Cada vez mais a informação e o conhecimento vêm desempenhando um papel importante para as organizações. Atualmente, com a grande quantidade de documentos digitais, e‑mails e dados em base de dados há uma fonte gigantesca para a geração de informação e, posteriormente, para a descoberta e extração de conhecimento. As organizações que possuem atividades intensivas em conhecimento e que se caracterizam por ter o conhecimento como fator de produção são chamadas de organizações do conhecimento. Para Fialho (2006), pode‑se caracterizar uma organização como do conhecimento quando ela é de base tecnológica e de serviços que apresentam proporções ativas intangíveis, acima do seu valor contábil. Segundo Ceci (2010), um problema bastante recorrente, nas organizações ditas “organizações do conhecimento”, para trabalhar com o conhecimento é como encontrá‑lo, recuperá‑lo, armazená‑lo e compartilhá‑lo entre os seus membros. A área da gestão do conhecimento nasce com a missão de auxiliar as organizações a gerenciarem melhor o seu conhecimento, já que esse está, em grande maioria, na cabeça dos funcionários. Cada baixa de funcionário é uma perda considerável para o capital intelectual da organização, dessa forma, a gestão do conhecimento O poder da informação e do conhecimento nas organizações 20 pensa em mecanismos para adquirir o conhecimento da cabeça dos funcionários de modo que ele seja compartilhado e armazenado. Práticas adotadas pela gestão do conhecimento vão da criação de comunidades de prática, adoção de programas de lições aprendidas, estímulo aos funcionários para a utilização de wikis internas a organização. Todas essas práticas são diretamente aplicadas sobre os seus funcionários, mas sabe‑se que muito dos conhecimentos da organização estão implícitos em documentos textuais não estruturados. Para esses casos, a gestão do conhecimento conta com a área da Engenharia do Conhecimento. A área da Engenharia do Conhecimento nasceu como subárea da Inteligência Artificial, que tinha como foco a criação de sistemas especialistas, esses sistemas eram baseados em regras lógicas extraídas da cabeça de um especialista em um determinado domínio. Essa era a característica da chamada engenharia do conhecimento clássica, que adotava o “paradigma de transporte”, ou seja, que estava focada em transpor o conhecimento da cabeça de um especialista para compor um conjunto de regras que fazem parte de um sistema especialista de um domínio (STUDER; BENJAMINS; FENSEL, 1998). A engenharia do conhecimento clássica adota o paradigma de transporte e apresenta alguns problemas: •• quanto à escala: havia a reinvenção da roda em cada projeto; •• quanto ao contexto: não tinha a visão do contexto onde o problema estava inserido (tarefa modelada); •• quanto à modelagem: o paradigma de transporte era moldado à expectativa de funcionamento do aplicativo (regras em shell) e não à natureza do contexto da tarefa intensiva em conhecimento; •• quanto ao desenvolvimento: a prototipação rápida tornava o sistema gerado de difícil manutenção. Pós-graduação 21 Tendo em vista esses problemas, nasce a chamada Nova Engenharia do Conhecimento, que faz uso do “paradigma de modelagem”. Esse nome é dado pois essa abordagem está focada na modelagem do conhecimento, de modo que o mesmo possa ser reaproveitado em outros sistemas baseados em conhecimento, permitindo, assim, a sua socialização entre os membros da organização. Para a explicitação do conhecimento existente em bases de dados e documentos textuais não estruturados, a engenharia do conhecimento utiliza‑se de técnicas da inteligência artificial, como as apresentadas a seguir: •• Reconhecimento de entidades nomeadas; •• Algoritmos de clusterização (agrupamentos); •• Processamento de linguagem natural; •• Raciocínio baseado em casos; •• Algoritmos genéticos •• Redes neurais artificiais. Depois de extrair o conhecimento implícito nas bases de documentos e de dados da organização, é necessário representá‑lo formalmente de maneira que ele possa ser corretamente armazenado e reutilizado, para isso são utilizadas as ontologias. As ontologias nasceram da área da filosofia onde eram conceituadas como uma definição de mundo. Para a computação pode‑se definir como uma representação formal de um conhecimento de domínio, de modo que tanto um indivíduo quanto um computador podem interagir com o conhecimento modelado. Segundo Studer, Benjamins e Fensel (1998), uma ontologia é uma especificação explícita e formal de conceitos e relações que existem em um domínio. Para Souza (2003), as ontologias são usadas como uma forma de representação e integração do conhecimento pela sua capacidade de reuso e interoperabilidade. Uma outra utilização que se pode levantar é o fato de serem empregadas como uma linguagem comum entre agentes de softwares e humanos, permitindo, assim, a socialização do conhecimento. A Figura 3 apresenta um exemplo de ontologia: O poder da informação e do conhecimento nas organizações 22 Figura 3 - Exemplo de uma ontologia de domínio Fonte: Ceci, 2010. As ontologias utilizam conceitos similares aos do paradigma de desenvolvimento de software orientado a objetos, sendo compostas por classes, instâncias, relações, propriedades e domínio. Na Figura 3 apresenta‑se a representação de uma ontologia bastante simples, onde são apresentadas cinco classes, por meio de quadrados amarelos. Como se pode observar todas as classes Pessoa, Área_do_conhecimento, Organização, Lugar e Outra são filhas de uma classe Thing (em português “coisa”), ou seja, todas as cinco são “coisas” do domínio modelado. Os quadrados em lilás são as instâncias das classes em questão, facilmente podemos visualizar que Santa Catarina é uma lugar, verifica‑se que Administração foi classificada com uma instância da ontologia, mas o método que a gerou não conseguiu classificá‑la. As ontologias são formas para representar conhecimento, de modo que os indivíduos e os sistemas possam inferir sobre elas, sendo parte fundamental dos sistemas baseados em conhecimento, ferramenta indispensável para as organizações do conhecimento. Pós-graduação 23 Referências CECI, Flávio. Um modelo semiautomático para a construção e manutenção de ontologias a partir de bases de documentos não estruturados. 2010. Dissertação (Mestrado em Engenharia e Gestão do Conhecimento) – Universidade Federal de Santa Catarina, Florianópolis, 2010. Disponível em: <http://btd.egc.ufsc.br/wp‑content/uploads/2011/04/ Fl%C3%A1vio_Ceci.pdf>. Acesso em: 10 de dez. 2011. FIALHO, Francisco Antônio Pereira et al. Gestão do conhecimento e aprendizagem: as estratégias competitivas da sociedade pós‑industrial. Florianópolis: Visualbooks, 2006. GHISI, Fernando B.; CECI, Flávio; SELL, Denilson. Aspectos relacionados com a eficácia do processo de aquisição de conhecimento a partir de apresentação de informações numéricas: sumários textuais podem ser mais adequados que representações gráficas? 5º CIDI – Congresso Internacional de Design da Informação. Florianópolis, 2011. GOUVEIA, Luís B.; RANITO, João. Sistemas de informação de apoio à gestão. Porto, Portugal: Sociedade Portuguesa de Inovação, 2004. PINHEIRO, Carlos André Reis. Inteligência analítica: mineração de dados e descoberta de conhecimento. Rio de Janeiro: Ciência Moderna, 2008. PRIMAK, Fábio Vinícius. Decisões com B.I. Rio de Janeiro: Editora Ciência Moderna, 2008. STUDER, Rudi; BENJAMINS, V. Richard; FENSEL, Dieter. Knowledge engineering: principles and methods. IEEE Transactions on Data and Knowledge Engineering, 1998. TANCER, Bill. Click: O que milhões de pessoas estão fazendo on‑line e por que isso é importante. Editora Globo S.A. São Paulo, 2009. TAPSCOTT, Don; WILLIAMS, Anthony D. Wikinomics: Como a colaboração em massa pode mudar o seu negócio. Editora Nova Fronteira, Rio de Janeiro, 2006. O poder da informação e do conhecimento nas organizações 24 Sistemas de informação Gláucio Adriano Fontana e Flávio Ceci Na leitura anterior sobre dado, informação e conhecimento, foram apresentados detalhes e conceitos sobre esses temas, bem como as suas principais diferenças. Abordou‑se também como o uso de informações e conhecimento podem auxiliar a camada tomadora de decisão de uma organização. Segundo Gouveia e Ranito (2004), os sistemas de informação (SI) possuem diversas funções relacionadas com a manipulação de dados e de informação, que são executadas com base num conjunto de procedimentos manuais e automáticos, visando a auxiliar na tomada de decisão. Percebe‑se que os sistemas de informação são um meio para acessar as informações de maneira mais efetiva, mas antes de apresentar mais conceitos relacionados com SI, é importante entender o que é um sistema. Basicamente, pode‑se definir sistema como um conjunto de componentes (e subsistemas) que formam um todo, e que interagindo chegam a um objetivo comum (GOUVEIA; RANITO, 2004). Um sistema possui algumas características, as quais, segundo Gouveia e Ranito (2004), são: •• Objetivo: é a proposta que justifica o sistema, esse pode ter mais de um objetivo; •• Componentes: são partes dos sistemas que funcionam juntas para atender os objetivos; •• Estrutura: relações entre componentes cuja função é a definição das fronteiras (limite) do sistema e o meio que está envolvido; •• Comportamento: é determinado pelos processos desenvolvidos para, no sistema, alcançar os resultados esperados; •• Ciclo de vida: ocorre em qualquer sistema e inclui alguns fenômenos: evolução, desgaste, desadequação, envelhecimento, reparação, substituição e morte do sistema. Verificando as características de um sistema, facilmente entendemos o porquê de chamarmos o fluxo dentro do aparelho digestivo de “sistema digestivo”, podemos simplificar a ideia de um sistema como algo que possui: entrada, processamento e saída, logo, as organizações são sistemas sociais. Cruzando os conceitos de sistemas com elementos da teoria da complexidade, Axelrod e Cohen (1999) apresentam o conceito de sistemas adaptativos complexos (SAC), que podem ser conceituados como os que contêm agentes (pessoas, entidades etc.) ou populações que procuram se adaptar por meio da interação. Para Ceci (2010), as organizações podem ser facilmente Pós-graduação 25 caracterizadas como sistemas adaptativos complexos, a Figura 1 apresenta um exemplo desta afirmação: Figura 1 - Organização vista como um sistema adaptativo complexo Organização (Sistema adaptativo complexo) Qualidade Fabricação Qualidade Fabricação Compras Compras Compras Tesoureiro Tesoureiro Gerenciamento Qualidade Recebimento Remessa Recepção Empacotamento Pessoal Recebimento Pessoal Remessa Marketing Marketing Vendas Vendas Fonte: Ceci, 2010. Percebe‑se que a organização como um todo é um sistema composto por uma série de outros subsistemas que interagem, para cumprir as metas organizacionais ou do seu setor. Ainda caracterizando uma organização como um sistema, Gouveia e Ranito (2004) constroem uma justificativa a partir de cada característica anteriormente apresentada: •• Objetivo: dependendo do nível de responsabilidade, é possível definir objetivos táticos, estratégicos e operacionais; •• Componentes: as organizações envolvem uma série de pessoas, essas pessoas são agrupadas por função e atividade. Os departamentos da empresa contribuem para a própria organização, e cada uma dessas exige informações em diferentes níveis de responsabilidade; •• Estrutura: é definida pela forma como a responsabilidade é distribuída pelos indivíduos. Lembrando que as estruturas definem as fronteiras; •• Comportamento: definido pelos processos organizacionais. Os processos são sequências específicas de atividades para realizar os objetivos. •• Ciclo de vida: a organização passa por várias fases ao longo da sua vida. Exige uma revisão periódica dos objetivos para assegurar a sua sobrevivência. O poder da informação e do conhecimento nas organizações 26 Vendo a organização como um sistema, pode‑se afirmar que um sistema de informação é um subsistema tecnológico, os sistemas de informação consistem no conjunto de componentes inter‑relacionados, trabalhando juntos para coletar, recuperar, processar, armazenar e distribuir informações com a finalidade de facilitar o planejamento, o controle, a coordenação, a análise e o processo decisório em empresas. Os sistemas de informação têm evoluído tanto em importância para as organizações, quanto em tecnologia. Os sistemas de arquivamento manual podem satisfazer muitas necessidades para organizar e recuperar informações, mas por meio desses torna‑se lenta e difícil a tarefa de recuperar grandes quantidades de informação, bem como coletar e transmiti‑las de grandes distâncias. Os sistemas de informação computadorizados, por sua vez, facilitam o acesso aos dados em um único local, suportando rápidas e repetidas pesquisas de dados, permitindo também recuperar informações de múltiplos locais quase sempre instantaneamente. Com a crescente competitividade entre as organizações, a tecnologia da informação ganha valor fundamental para as estratégias de administração. As organizações que almejam diferenciais competitivos, para conquistar mercados e obter vantagens, precisam conhecer as tendências, desejos e anseios desses mercados, o que somente poderá ser realizado por meio de um eficiente sistema de informação (LAUDON; LAUDON, 2001). Decisões podem ser estruturadas quando possuem procedimentos bem definidos e documentados; não estruturadas, quando há bastante subjetividade de julgamento e avaliação; ou ainda semiestruturadas, quando híbridas em relação aos tipos referidos. Dessa maneira, diferentes SI são necessários, a pensar inclusive pelo ambiente dinâmico em que estão inseridos, leia‑se mercado que exige respostas rápidas em função de suas necessidades e mudanças. A interpretação, por meio dos dados, sobre o que realmente os clientes, os concorrentes e outros atores do ambiente interno e externo estão querendo dizer, mesmo que de forma indireta, auxilia os gestores a monitorar o desempenho da empresa, possibilitando‑lhes adotar medidas efetivas para melhorar seus produtos e processos, bem como utilizar informações sobre as melhores práticas de outras empresas, estabelecendo, assim, um padrão de desempenho de alto nível para essa empresa (GORDON; GORDON, 2006). Mañas (1999) define o sistema de informação como o conjunto interdependente das pessoas, das estruturas da organização, das tecnologias de informação (hardware e software), dos procedimentos e métodos que deveriam permitir à empresa dispor, no tempo desejado, das informações de que necessita (ou necessitará) para seu funcionamento atual e para sua evolução. Percebe‑se a importância do item Pós-graduação 27 pessoas, tanto como trabalhadores de informação e conhecimento como usuários desses, abrangendo, portanto, além de tecnologias e um ambiente (organização), o componente humano. Os sistemas de informação influenciam diretamente o modo como os gestores decidem, planejam e, em muitos casos, determinam como e quais produtos e serviços são produzidos. Atualmente, podem ajudar as empresas a ampliar seu alcance a mercados distantes, oferecer novos produtos e serviços, reformar tarefas e fluxos de trabalho e até mesmo mudar profundamente a maneira de conduzir negócios (LAUDON; LAUDON, 2001). Esse é o principal papel para os sistemas de informação, ou seja, sua aplicação em problemas que se relacionam à vantagem competitiva de uma empresa. Eles têm importância estratégica, uma vez que se concentram em resolver problemas relacionados tanto ao desenvolvimento da empresa, a médio e longo prazo, quanto a sua sobrevivência. Tais problemas podem significar a criação ou inovação em novos produtos e serviços, o estabelecimento de novas relações com clientes e fornecedores, ou a descoberta de meios mais efetivos de administrar as atividades da empresa. (BIO, 1996). Segundo Gouveia e Ranito (2004), o objetivo de um sistema de informação é orientar a tomada de decisão, o seu comportamento deve ser aferido pela forma como cumpre os objetivos levantados e também a capacidade de fornecimento de dados e informações de maneira adequada, levando em consideração o seu formato, tempo e custo. De maneira geral, os sistemas de informação têm como objetivo fornecer informações a partir de dados brutos, de maneira rápida e eficiente para o usuário que estiver se privilegiando do seu uso. Os autores Gouveia e Ranito (2004) apresentam, em seu trabalho, as funções dos sistemas de informação: •• coleta de informação: garantir a entrada dos dados do sistema; •• armazenamento da informação: assegurar o registro dos dados necessários ao sistema; •• processamento da informação: prover resposta às exigências de dados e informação para suporte do sistema; •• representação da informação: permitir uma percepção com qualidade dos dados e informação disponível no sistema; •• distribuição da informação: assegurar o fluxo de dados e de informações no sistema. O poder da informação e do conhecimento nas organizações 28 Para suportar o desenvolvimento de sistemas de informação, Almeida (1998) apresenta uma metodologia para o seu planejamento que pode ser resumida na Figura 2: Figura 2 - Metodologia para Planejamento de SI Visão Estratégica Engenharia de Processos de Negócios Engenharia da Informação Dados Corporativos Modularização Priorização Plano de Ação Fonte: Almeida (1998). Percebe‑se que o primeiro passo no planejamento de um sistema de informação está centrado no levantamento da visão estratégica, a partir do estudo da organização, o próximo passo é a criação da definição de todos os processos que são desenvolvidos nos vários setores da organização, na Figura 2 essa etapa é representada pelo quadrado “Engenharia de Processos de Negócios” (ALMEIDA, 1998). Da mesma forma que na engenharia de software, inicialmente, faz‑se o levantamento dos requisitos do sistema a partir das necessidades do cliente e do usuário dos sistemas. No planejamento do sistema de informação não é diferente, pode‑se perceber isso no fato dos dois processos iniciais (levantamento da visão estratégica da organização e engenharia de processo de negócio) serem focados no entendimento da organização, seus processos e necessidades. A partir dessas duas etapas, são facilmente levantados os requisitos para o desenvolvimento do sistema de informação que irá auxiliar o processo decisório da organização em questão. O quadrado apresentado na Figura 2 e intitulado de Engenharia de Informação, como o próprio nome sugere, é focado nas informações que serão consumidas e geradas pelo SI. Essa etapa é dividia em 3 outras etapas, as quais são: •• Dados corporativos: são relevantes para a organização, eles representam a entrada principal para a geração da informação por parte do SI. Esses dados e informações devem atender a todos os processos levantados anteriormente; Pós-graduação 29 •• Modularização: nessa fase é construída a estrutura informacional da organização (ALMEIDA, 1998). É onde as fontes são organizadas; •• Priorização: nesta última fase analisa‑se qual dos grupos de informações levantados na fase anterior é mais prioritário, ou seja, os módulos de informação são organizados por prioridade, para poder gerenciar as fontes de uma maneira mais efetiva. A última etapa é o “Plano de ação”, segundo Almeida (1998), esse plano é o resultado do encadeamento das informações obtidas nas fases anteriores, objetivando a apresentação das diretrizes e metas para o desenvolvimento do SI. O uso dos sistemas de informação é muito importante para a organização, como já foi visto nesta leitura, mas existem outros componentes que são tão importantes quanto o próprio SI para o seu sucesso. A Figura 3 ilustra melhor esta afirmação: Figura 3 - Composição de um sistema de informação Ambiente externo Gestão de atividades Pessoas Sistema de informação Tecnologia Fonte: Gouveia e Ranito (2004). O recurso humano tem uma grande importância para os sistemas de informação, seja tomadores de decisão, produtores de informação e construtores de conhecimento, entre outros, pois são vistos como peças fundamentais para o SI. Analisando a Figura 3, percebe‑se claramente que sem a combinação das pessoas, com a tecnologia e a gestão das atividades, a organização não terá um sistema de informação atuando efetivamente. Conclui‑se que a informação é estratégica para a camada tomadora de decisão, e que os sistemas de informação são um meio para se chegar até elas. Percebe‑se que o uso de sistemas de informação de maneira só não é eficiente, é necessário a participação de pessoas qualificadas e ter uma gestão das atividades que serão apoiadas com a saída do SI. O poder da informação e do conhecimento nas organizações 30 Referências ALMEIDA, Adiel Teixeira de. Um modelo de decisão para a priorização no planejamento de sistemas de informação. Prod., São Paulo, v. 8, n. 2, Dec. 1998. Available from <http://www. scielo.br/scielo.php?script=sci_arttext&pid=S0103‑65131998000200003&lng=en&nrm=iso>. Acessado em 15 Dez. 2011 AXELROD, R.; COHEN, M. D. Harnessing Complexity: Organizational Implications of a Scientific Frontier. Free Press, New York, 1999. BIO, Sérgio Rodrigues. Sistemas de informação: um enfoque gerencial. São Paulo: Atlas, 1996. CECI, Flavio. O conhecimento nas organizações como um sistema adaptativo complexo. In: ROVER, Aires J.; CARVALHO Marisa A.. (Org.). O sujeito do conhecimento na sociedade em rede. 001 ed. Florianópolis: Editora: Fundação José Arthur Boiteux, 2010, v. 001, p. 207‑2010 GORDON, Steven R.; GORDON, Judith. Sistemas de informação: uma abordagem gerencial. 3. ed. Rio de Janeiro: LTC, 2006. GOUVEIA, Luís B.; RANITO, João. Sistemas de informação de apoio à gestão. Porto, Portugal: Sociedade Portuguesa de Inovação, 2004. LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de informação gerenciais: administrando a empresa digital. São Paulo: Prentice Hall, 2001. MAÑAS, Antonio Vico. Administração de sistemas de informação. São Paulo: Érica, 1999. Pós-graduação 31 Classificação dos sistemas de informação Gláucio Adriano Fontana e Flávio Ceci Os sistemas de informação nas empresas podem ser classificados de muitas maneiras, representando diferentes possibilidades de uso. Uma classificação, apresentada por Laudon e Laudon (2001) é feita por meio dos níveis hierárquicos, aos quais os sistemas de informação dão suporte operacional, gerencial ou estratégico. Os Sistemas de Nível Operacional são direcionados ao suporte das atividades fins da empresa, acompanhando a rotina, indicando o nível das vendas, compras, fluxo de caixa, emissão de notas fiscais. Esses sistemas estão ligados diretamente às operações e ao dia a dia, e são denominados Sistemas de Informações Transacionais (SIT), formando a base de informações para os Sistemas de Informações Gerenciais (SIG) e Sistemas de Apoio à Decisão (SAD). Os Sistemas de Nível Gerencial são direcionados ao controle e monitoramento das atividades relacionadas ao nível operacional, indicando simulações de cenários estruturados, sendo um sistema direcionado à média gerência, e podem ser divididos em dois tipos de sistemas: os Sistemas de Informações Gerenciais (SIG), que são destinados ao suporte de atividades, agregando dados internos e apresentando resumos das transações operacionais, permitindo acompanhar o andamento e comparar desempenhos e os Sistemas de Apoio à Decisão (SAD), direcionados a apoiar a decisão em situações não rotineiras e semiestruturadas. Os Sistemas de Nível Estratégico são direcionados para situações e decisões não estruturadas, tais como: tendência, posicionamento da empresa, mudanças no ambiente interno ou externo, e são classificados como Sistemas de Suporte aos Executivos (SSE), com base na comunicação e utilização de informações externas (LAUDON; LAUDON, 2001). Os sistemas de informação estão presentes em vários níveis da organização, a figura a seguir ilustra está afirmação: O poder da informação e do conhecimento nas organizações 32 Figura 1 - SI em relação com a hierarquia organizacional Apoio às Estratégias para Vantagem Competitiva Apoio à Tomada de Decisão Empresarial Apoio às Operações e aos Processos Fonte: O’Brien, 2004 apud Oliveira; Carreira; Moreti, 2009. Os sistemas transacionais ou de apoio à operação estão atuando diretamente sobre a base da pirâmide, onde se tem como objetivo atuar junto à base de dados operacional, automatizando tarefas. A camada de “Apoio à Tomada de Decisão Empresarial” é coberta pelos sistemas de apoio à decisão, que procuram prover ferramentas para auxiliar as decisões organizacionais. O nível mais alto da pirâmide conta com o “Apoio às Estratégias para Vantagem Competitiva, nesse caso, também se faz uso dos sistemas de apoio à decisão, mas esse não busca reforçar as decisões operacionais, mas as estratégicas, ou seja, é centrado na camada gerencial da organização. (OLIVEIRA; CARREIRA; MORETI, 2009). Tipos de Sistemas de Informação As organizações utilizam vários tipos de Sistemas de Informação porque esses possuem funções diferentes, embora possam funcionar em conjunto, suportando uns aos outros, isto é, fornecendo informações entre si. Os sistemas foram classificados de acordo com seus objetivos e tipos de informações que manipulam e podem ser classificados em mais de um tipo. Segundo Oliveira, Carreira e Moreti (2009), a visualização dos tipos de sistemas operacionais a partir de um organograma auxilia no seu entendimento: Pós-graduação 33 Figura 2 - Tipos de Sistemas de Informações Sistemas de Informação Apoio às Operações Sistemas de Apoio às Operações Apoio à Sistema de Tomada de Apoio Gerencial Decisão Gerencial Sistema de Processamento de Transações Sistemas de Controle de Processos Sistemas de Colaborativos Sistemas de Informação Gerencial Sistemas de Apoio à Decisão Sistemas de Informação Executiva Processamento de Transações Controle de Processos Industriais Colaboração entre Equipes e Grupos de Trabalho Relatórios Padronizados para os Gerentes Apoio Interativo à Decisão Informação Elaborada Especificamente para Executivos Fonte: O’Brien, 2004 apud Oliveira; Carreira; Moreti, 2009. Percebe‑se que a Figura 2 está dividindo os sistemas de informação pela sua aplicação dentro da organização, no nível logo abaixo da caixa “Sistemas de informação”, vê‑se a divisão por apoio às operações da organização ou apoio à tomada de decisão gerencial. Abaixo da caixa dos sistemas de apoio às operações estão os sistemas de processamento de transação, de controle de processos e os colaborativos. Eles atuam diretamente sobre os dados operacionais armazenados nos bancos de dados da organização, entregam para os usuários dados resultantes de consultas e informações para apoio operacional. Os sistemas de apoio à decisão estão diretamente ligados com a camada gerencial da organização, a que está ligada às atividades estratégicas. Esses sistemas atuam sobre repositório de dados dimensionais (data warehouses) e bases de dados com valores consolidados, a fim de facilitar a entrega de informações estratégicas para apoio à decisão. O poder da informação e do conhecimento nas organizações 34 Sistemas de Informação Transacionais Os sistemas de informação transacionais são os mais simples e os mais comuns nas organizações. Eles apoiam as funções operacionais da organização, aquelas realizadas no dia a dia. Por isso, são facilmente identificados no nível operacional da organização (fechamento de um pedido, matrícula de um aluno, emissão de uma receita médica, dar baixa no estoque, emitir uma nota fiscal etc.). Geralmente, são os primeiros a serem implantados, apesar de essa não ser necessariamente uma regra. A razão é que são os mais fáceis e baratos de serem implementados (ou adquiridos), além de darem origem aos sistemas mais avançados (gerenciais e de apoio à decisão). As informações têm de ser reunidas e armazenadas de alguma maneira! Esses sistemas têm por objetivo processar dados, isto é, fazer cálculos, armazenar e recuperar dados (consultas simples), ordenar e apresentar de forma simples dados para os usuários. Seu benefício principal é a agilização nas rotinas e tarefas, incluindo documentação rápida e eficiente, busca acelerada de informações e cálculos rápidos e precisos. Outros benefícios podem ser conseguidos com esse tipo de sistema, como, por exemplo, confiabilidade, redução de pessoal e custos e melhor comunicação (interna entre setores ou externa com clientes e fornecedores). Incluem‑se entre eles: sistemas de cadastro em geral (inclusão, exclusão, alteração e consulta), como de clientes, produtos e fornecedores; os sistemas de contabilidade (contas a pagar e a receber, balanços, fluxo de caixa, etc.); sistemas de vendas e distribuição (pedidos, entregas), folha de pagamento, controle de estoque. Dois casos especiais de SI’s rotineiros, de acordo com Loh (2009), são: •• os sistemas de gestão empresarial (ERP): responsáveis por administrar, automatizar ou apoiar todos os processos de uma organização de forma integrada; •• os sistemas de automação comercial: que incluem apoio às vendas, estoque e contabilidade, com uso de terminais ponto de venda (PDV) e centrais automatizadas, como se vê em supermercados e lojas em geral. No mercado, hoje, existem inúmeros pacotes de software prontos (já implementados) para serem adquiridos, a preços bem acessíveis, o que pode ser mais vantajoso do que desenvolver o software por conta própria ou com terceiros. Pós-graduação 35 Sistemas de Informações Gerenciais e Sistemas de Informação Executiva Como o próprio nome diz, os SIG’s surgiram com o intuito de auxiliar gerentes em suas funções. Com o passar do tempo, esse tipo de sistema acabou sendo usado por qualquer funcionário que tome decisões. Eles atuam como um espelho de um setor, dando uma ideia das atividades sumarizadas de um departamento. O objetivo de um SIG é fornecer informações para a tomada de decisões, ou seja, são sistemas que fornecem relatórios. O usuário deve solicitar, de alguma forma, (escolha por menus, uso de comandos etc.) a informação de que necessita e o SIG procura tal informação em seus registros, apresentando‑a da melhor maneira possível ao usuário. Essa maneira pode ser textual (relatórios descritivos), por planilhas ou de modo gráfico. Esse último caso é o preferido pelos administradores, pois oferece mais informações em menor espaço (“uma figura vale por mil palavras”), por meio de gráficos. É importante que o relatório tenha o nível de detalhe adequado ao usuário: não pode ser muito detalhado ou extenso, de modo a facilitar o uso do gestor. O resumo em abundância deve ser evitado para não correr riscos de omissão de detalhes importantes para a tomada de decisão. Os SIG’s aparecem nos 3 níveis da pirâmide administrativa (estratégico, tático e operacional), sempre que houver alguma decisão sendo tomada (LOH, 2009). Um caso especial de SIG são os EIS (Executive Information Systems), que possibilitam diferentes visões dos dados de uma organização, por meio de operações tipo zoom. Por exemplo, em uma empresa que fabrica produtos de beleza, pode‑se ver a produção por filial ou por região ou então analisar em detalhe o desempenho de cada gerente de produção (zoom in). Por outro lado, pode‑se verificar a produção por produto específico ou por categorias de produto. Os EIS, do ponto de vista segmentado: •• Coleta: os dados são coletados de fontes internas e externas. •• Processamento: programas que disponibilizam resumos, gráficos de modo a transformar a mesa do executivo em um centro de controle. Disponibilizam também meios de comunicação para comentar decisões com outros executivos. •• Armazenamento: os dados armazenados devem espelhar a situação atual e as tendências. O poder da informação e do conhecimento nas organizações 36 •• Distribuição: geram relatórios e gráficos que permitem ter o controle e tomar decisões. •• Feedback: permite obter relatórios que indicam desvios dos objetivos. Sistemas de Apoio à Decisão Um SAD recebe, como entrada, alternativas para solução de um problema e devolve as consequências para cada alternativa. Assim, o administrador pode avaliar qual é a melhor alternativa. O SAD não decide qual é a melhor decisão, nem indica que alternativas existem. A diferença para o SIG é que um SAD é interativo (o usuário pode entrar com várias alternativas) e ainda avalia as alternativas por meio de técnicas de what‑if (= e se eu fizer isso, o que acontecerá... é tipo de análise que testa mudança das variáveis e suas consequências), tais como projeção e regressão. Em Loh (2009) é dado um exemplo: qual o preço final de um produto? Para responder a essa pergunta, podemos utilizar as seguintes fórmulas: •• Lucro = receitas – total despesas •• Receitas = quantidade vendida X preço final •• Preço final = custo unitário X margem de lucro •• Total de despesas = custo de produção + despesas gerais •• Custo de produção = quantidade produzida X custo unitário Percebe‑se que os sistemas de apoio à decisão são a resposta para os problemas da falta de agilidade na tomada de decisão por parte da camada gerencial das organizações. Esses sistemas cada vez mais estarão presentes nas empresas, da mesma forma que os sistemas de informações transacionais fazem parte do cotidiano de praticamente todos os segmentos. Referências LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de informação gerenciais: administrando a empresa digital. São Paulo: Prentice Hall, 2001. LOH, Stanley. Material das disciplinas de Sistemas de Informação e Data Mining. Disponível em: atlas.ucpel.tche.br/~loh/. Acesso em: jul. 2009. OLIVEIRA, André Luis B.; CARREIRA, Marcio Luis; MORETI, Thiago Moura. Aprimorando a gestão de negócios com a utilização de tecnologias de informação. Revista de Ciências Gerenciais. Vol XIII, Nº 17, 2009. Pós-graduação 37 Sistemas de apoio à decisão Flávio Ceci Os sistemas de informação são, para as organizações, uma poderosa ferramenta para a gestão das suas operações cotidianas, bem como para auxiliar a tomada de decisão. Na leitura anterior, pode‑se verificar que os sistemas de informação possuem vários tipos de classificação, talvez a mais natural seja pela sua atividade foco. Tendo em vista essa classificação, tem‑se, inicialmente, dois principais grupos de sistemas de informação, quais são: •• Sistemas de apoio às operações: sistemas caracterizados por apoiar as atividades operacionais da organização, ou seja, auxiliar os processos no nível de transações, como por exemplo: controle de estoque, contas a receber, cadastro de clientes, entre outros. •• Sistemas de apoio gerencial: são sistemas focados no auxilio a atividades estratégicas da organização, apoiando a camada tomadora de decisão. Atualmente, muitas organizações, independente do seu tamanho (de pequeno, médio ou grande porte), possuem sistemas de apoio as suas operações, o motivo para tal é pela vasta quantidade de sistemas já desenvolvidos para os inúmeros segmentos com preços acessíveis. Tento as operações e transações da organização suportadas por sistemas de informação, passou‑se a buscar soluções computacionais para apoiar as decisões de maneira estratégica. Segundo Gouveia e Ranito (2004), as organizações atuais competem entre si para entregar soluções aos clientes de maneira mais eficiente, de modo que o produto e/ou serviço seja de maior qualidade e de baixo custo, informações que possam auxiliar nessas soluções são tidas como estratégicas e de muito valor para a tomada de decisão. Até aqui se fala muito em tomada de decisão, mas o que são decisões? Para Bidgole (1989) e Mittra (1996) apud Barbosa e Almeida (2002), pode‑se classificar decisões da seguinte forma: •• Decisão estruturada: possui procedimentos operacionais padrão, bem definidos e muito bem projetados. Conta com sistemas de informação simples, programáveis e baseado em lógica clássica, fatos e resultados bem definidos, voltados para camada mais de base da organização. •• Decisão semiestruturada: não possui procedimento bem definidos, mas inclui aspectos de estruturação. Pode‑se contar em partes com o apoio de sistemas de informação. •• Decisão não estruturada: não possuem qualquer padrão de procedimento operacional. Conta fortemente com a intuição, experiência do tomador de decisão. São difíceis de formalizar, envolvem heurísticas, tentativas e erro. O poder da informação e do conhecimento nas organizações 38 O processo de tomada de decisão teve um modelo desenvolvido por Simon (1960) apud Cabral (2001), que é dividido em 3 fases iterativas e interativas: •• reconhecimento: consiste no levantamento do problema ou oportunidade de mudança; •• desenho: consiste na verificação e na estruturação das decisões opcionais; •• escolha: relaciona‑se com as avaliações e com a escolha da melhor alternativa. Para ilustrar a interação entre as três fases do processo de tomada de decisão Cabral (2001) apresenta a seguinte figura: Figura 1 - Interação entre as fases da tomada de decisão Reconhecimento Desenho Escolha Fonte: Cabral, 2001. Pela análise da figura acima, é facilmente percebido o motivo para a caracterização das fases como iterativas e interativas, por exemplo, um gestor percebe que determinado produto não está gerando lucros para a organização (fase de reconhecimento), a partir dessa informação, ele levanta as possíveis alternativas para o problema em questão (fase de desenho), o ponto é que em algumas dessas alternativas pode‑se verificar que será gerado outro problema ou oportunidade. Com isso, faz‑se necessário que voltemos para a etapa de Reconhecimento, após levantar todas as possibilidades, o gestor pode tomar uma decisão (fase de escolha). Se a decisão resolver o problema em questão, finaliza‑se o processo de decisão, caso contrário, pode‑se voltar para a fase inicial. Segundo Heinzle, Gauthier e Fialho (2010), a tomada de decisão pode‑se definir como um processo que consiste em optar (escolher) uma, ou algumas, entre várias alternativas para a realização de uma ação, levando em consideração os possíveis reflexos presentes e futuros que a escolha pode gerar. Como já foi apresentado anteriormente, os sistemas de apoio à decisão são os sistemas de informação responsáveis a auxiliar os gestores das organizações na etapa de tomada de decisão. Pós-graduação 39 Os sistemas de apoio à decisão (SAD) começaram a surgir no final da década de 60, mas somente em 1971 esse termo foi apresentado numa publicação de Gorry e Scottmorton. Nos anos seguintes, o desenvolvimento deste tipo de sistema tornou‑se muito comum, acarretando em evoluções muito significativas para a área. Na década de 80, com a popularização do uso dos computadores devido à significativa redução do preço do software e do hardware, as organizações passaram a utilizar computadores para auxiliar no seu ambiente de trabalho, dessa maneira, os gestores tinham condição de ter os seus sistemas de apoio à decisão personalizados à realidade da sua empresa (CABRAL, 2001). Segundo Barbosa e Almeida (2002), os sistemas de apoio à decisão têm como objetivo dar suporte aos processos decisórios que apresentam problemas de estruturação, além de apresentarem características tecnológicas estruturais e de utilização específica. Os SAD visam a apoiar decisões semi e não estruturadas. Para Heinzle, Gauthier e Fialho (2010), os SAD são sistemas computadorizados que possibilitam comparar, analisar, sumular e apoiar a escolha de alternativas, com base na criação de cenários que incluem um significativo número de variáveis relacionadas ao domínio de um processo decisório. Laudon (2001) chama os SAD como “sistemas de suporte a decisão”. Em seu trabalho, ele apresenta algumas características que diferenciam esse tipo de sistema dos demais tipos de sistemas de informação: •• Disponibilizar para o usuário flexibilidade, e respostas rápidas; •• Permitir iniciar e controlar os processos de entrada e saída; •• Funcionar com pouco ou nenhum suporte de programadores; •• Permitir apoio para as decisões e problemas para os quais as soluções não podem ser identificadas previamente; •• Utilizar‑se de análises sofisticadas e de ferramentas de modelagem. Ainda sobre as características dos sistemas de apoio à decisão, Turban (1990) apud Cabral (2001) apresentam outras características: •• Incorporam modelos e dados; •• São sistemas focados em auxiliar o gestor na tomada de decisão a problemas semiestruturados e não estruturados; •• Dão suporte à tomada de decisão, mas dependem da avaliação do gestor; •• O objetivo é melhorar a qualidade das decisões e não a eficiência em que as decisões são tomadas. Os sistemas de apoio à decisão possuem uma arquitetura básica. Segundo Heinzle (2010), a arquitetura é composta por três subsistemas: O poder da informação e do conhecimento nas organizações 40 •• Subsistema de dados: é composto pelo gerenciador de dados, que tem como responsabilidade a construção e gerência do banco de dados, que possui dados relacionados com o domínio do problema. Nesse subsistema estão contemplados sistemas de extração, transformação e carga de dados. Também se pode utilizar de repositórios de dados ao estilo Data Warehouse. •• Subsistema de modelos: é composto pelo banco de modelos e seu gerenciamento. Neste subsistema estão as estratégias analíticas que atuam sobre os dados disponibilizados pelo subsistema de dados. Também podem existir motores de inferência para auxiliar o processamento dos dados, gerando informações e conhecimentos valiosos para a etapa de tomada de decisão. •• Subsistema de interface: como o próprio nome sugere, é responsável pela interação entre o sistema e o usuário. Oferece, por meio de uma interface gráfica, componentes para auxiliar a análise das informações processadas no subsistema de modelo. Esse subsistema também pode suportar processadores de linguagens naturais. A figura 2 apresenta como os subsistemas se interagem na arquitetura de um SAD: Figura 2 - Arquitetura de um SAD Sistema de Apoio à Decisão Dados Internos e Externos Modelos Internos e Externos Banco de Dados Banco de Modelos Gerenciador de Dados Gerenciador de Modelos Software SAD Interface Usuário Fonte: Sprague e Watson (1989) apud Heinzle (2010). Pós-graduação 41 Como se pode observar na Figura 2, todas as requisições são feitas ao subsistema de interface, que pode acessar diretamente o subsistema de dados para apresentar o resultado de uma consulta, ou ainda aplicar um processo de análise sobre os dados, a fim de gerar informações mais relevantes, que auxiliem no processo decisório. Atualmente, a implementação dessa arquitetura mais utilizada é a de Business Intelligence (BI) que, segundo Fourlan e Gonçalves Filho (2005), é a evolução dos sistemas de apoio à decisão. A Figura 3 apresenta uma arquitetura de BI e como é o seu fluxo de carga dos dados, a partir dos sistemas de informação da organização: Figura 3 - Arquitetura de BI Data Mining ERP Sistema de Gestão da Empresa Fonte de dados Operacionais Data Warehouse Fonte de dados Operacionais OLAP Metadados Metadados Metadados Business Intelligence Fonte: Fourlan; Gonçalves Filho, 2005. A arquitetura de BI traz alternativas para os três subsistemas apresentados na arquitetura clássica dos sistemas de apoio à decisão. No subsistema de dados são utilizados geralmente repositórios do tipo Data Warehouse, esses, geralmente, utilizam‑se da modelagem dimensional. A partir dos dados operacionais provenientes dos sistemas de informação da organização, organiza‑os na forma de dimensões e fatos para auxiliar a etapa de analise. Os subsistemas de modelo da arquitetura clássica de SAD são atendidos por ferramentas de mineração de dados (Data mining), essas têm como função explicitar as informações e conhecimentos implícitos nas bases de dados da organização. O poder da informação e do conhecimento nas organizações 42 O último dos três subsistemas da arquitetura clássica de SAD, o subsistema de interface, é representado na arquitetura de BI pelas ferramentas OLAP, que são responsáveis pela apresentação e pelo cruzamento das informações, a fim de apoiar o processo decisório. Referências BARBOSA, Gilka Rocha; ALMEIDA, Adiel Teixeira de. Sistemas de apoio à decisão sob o enfoque de profissionais de TI e de decisores. XXII Encontro Nacional de Engenharia de Produção. Curitiba, 2002. CABRAL, Pedro da Costa Brito. Sistemas espaciais de apoio à decisão – O Sistema de Apoio ao Licenciamento da Direção Regional do Ambiente do Alentejo. Dissertação para obtenção do grau de Mestre em Sistemas de Informação Geográfica. Universidade Técnica de Lisboa. Portugal, 2001. FOURLAN, Marcos Roberto; GONÇALVES FILHO, Eduardo V. Uma proposta de aplicação de Business Intelligence no chão‑de‑fábrica. Gestão e Produção. V.12, n.1, p. 55‑66, 2005. GOUVEIA, Luís B.; RANITO, João. Sistemas de informação de apoio à gestão. Porto, Portugal: Sociedade Portuguesa de Inovação, 2004. HEINZLE, Roberto. Um modelo de engenharia de conhecimento para sistemas de apoio à decisão com recursos para raciocínio abdutivo. Tese para obtenção do grau de Doutor em Engenharia e Gestão do Conhecimento. Universidade Federal de Santa Catarina. Florianópolis, 2010. HEINZLE, Roberto; GAUTHIER, Fernando A. Ostuni; FIALHO, Francisco Antonio P. Semântica nos sistemas de apoio à decisão: o estado da arte. Revista da Unifebe, v. 1, p. Artigo 14, 2010. LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de informação gerenciais: administrando a empresa digital. São Paulo: Prentice Hall, 2001. Pós-graduação 43 Atividades de Autoaprendizagem 1) Levando em consideração o conteúdo apresentado nesta unidade, assinale as alternativas verdadeiras com V e as falsas com F: a. ( ) As ontologias são estruturas formadas para representação de dados. b. ( ) O processo de síntese é utilizado na transformação da informação para o conhecimento. c. ( ) O “paradigma de transporte” demonstrou, ao longo do tempo, sua eficiência e é utilizado até hoje na Nova Engenharia do Conhecimento. d. ( ) Os Sistemas de Informação possuem uma classificação muito bem definida. e. ( ) A arquitetura clássica de um Sistema de Apoio à Decisão é composta por três subsistemas: de dados, de modelo e de interface. f. ( ) Pode‑se afirmar que Business Intelligence é uma evolução de sistemas de apoio à decisão. g. ( ) O subsistema de modelo da arquitetura clássica de SAD é equivalente ao Data Warehouse da arquitetura de BI. h. ( ) Uma organização pode ser vista como um sistema, desde que ela faça uso de computadores. Atividade colaborativa Nesta unidade, você estudou uma série de conceitos relacionados com sistemas de informação e de apoio à decisão. Responda à pergunta a seguir utilizando a ferramenta Fórum, não se esqueça de comentar as respostas dos seus colegas. O uso de dados disponíveis na Web (como por exemplo, em mídias sociais) pode auxiliar os sistemas de apoio à decisão na entrega de uma informação mais estratégica para a organização? O poder da informação e do conhecimento nas organizações 44 Síntese Nesta unidade foi apresentada uma visão geral entre dado, informação e conhecimento, quais as suas fronteiras e sua aplicabilidade. Após isso, foi visto o que são sistemas de informação, qual a sua utilidade e como se pode classificá‑los. Por fim, foi apresentada uma visão geral sobre os sistemas de apoio à decisão e como eles podem agregar valor à camada gerencial das organizações. Saiba Mais Artigos muito interessantes que valem a pena serem lidos para complementar o estudo desta unidade. HEINZLE, Roberto; GAUTHIER, Fernando A. Ostuni; FIALHO, Francisco Antonio P. Semântica nos sistemas de apoio à decisão: o estado da arte. Revista da Unifebe, v. 1, p. Artigo 14, 2010. Disponível em: <http://www.unifebe.edu.br/ revistadaunifebe/2010/artigo014.pdf>. FOURLAN, Marcos Roberto; GONÇALVES FILHO, Eduardo V. Uma proposta de aplicação de Business Intelligence no chão‑de‑fábrica. Gestão e Produção. V.12, n.1, p. 55‑66, 2005. Disponível em: <http://www.scielo.br/pdf/%0D/gp/v12n1/a06v12n1.pdf>. Pós-graduação Unidade 2 Colocando inteligência nos negócios Objetivos de Aprendizagem •• Assimilar conceitos básicos de Business Intelligence; •• Examinar a arquitetura básica de um sistema de BI e suas partes; •• Identificar o BI em diferentes meios. Introdução As organizações estão inseridas num cenário que está em constante modificação e mutação. Teorias baseadas na ideia da complexidade são aplicadas sobre o modelo organizacional, para ter‑se um melhor entendimento e uma possível previsão de modificação em curto prazo. Esse contexto, combinado com a crescente quantidade de dados digitais gerados de maneira desordenada e distribuída em vários setores da organização, gera uma série de demandas para o departamento de TI, de modo que seja gerado ferramental computacional para ajudar a camada gerencial no ganho de agilidade na tomada de decisão. As utilizações de estratégias de BI estão cada vez mais presentes nas organizações, como suporte computacional para a camada tomadora de decisão, mas será que o BI por si só resolve os problemas citados anteriormente? E qual o futuro do BI, será que existem pesquisadores que estão pensando em sua evolução de modo a sempre acompanhar as tendências do mercado? Este capítulo tem como objetivo dissertar sobre essas perguntas. 46 O que é Business Intelligence? Flávio Ceci Nesta leitura, são apresentados mais detalhes sobre Business Intelligence (BI), os seus pontos históricos, sua evolução, objetivos, entre outras informações relevantes. As constantes mudanças nas relações econômicas afetam substancialmente a administração das organizações, que são obrigadas a buscar meios para garantir sua sobrevivência, melhorarem o desempenho empresarial e, com isso, promover seu crescimento em mercados cada vez mais competitivos. Ao afetarem o ambiente empresarial, essas mudanças fazem as organizações repensarem sua estrutura para se adaptar às novas exigências do mercado (GORDON; GORDON, 2006). Ainda conforme Gordon e Gordon (2006), a TI permite que as pessoas, grupos e organizações façam a gestão de suas informações de maneira eficiente. A TI possui a capacidade de atuar diretamente sobre a necessidade de uma melhora na qualidade e disponibilidade de informações e conhecimento organizacionais, além de oferecer oportunidades sem precedentes para melhoria dos processos internos e dos serviços prestados ao consumidor final, deve‑se ao fato de que “Avanços significativos na tecnologia de informação tornaram possível obter, gerir e usar quantidades enormes de informação a um custo relativamente baixo” (GORDON; GORDON, 2006, p.5). Nesse contexto, entre os recursos tecnológicos, a Tecnologia da Informação (TI) tem sido considerada como um fator importante para potencializar o desenvolvimento dos processos produtivos e da gestão das organizações. Aplicar inteligência a negócios não é sinônimo de TI, como vastamente confundido, mas significa que a primeira não vive sem a segunda. É importante entender que a TI prove ferramental para que a camada gerencial possa tomar as decisões. Pode‑se fazer uma analogia com a relação que existe entre a engenharia do conhecimento e a gestão do conhecimento. A engenharia do conhecimento é responsável por gerar ferramental computacional e metodológico para apoiar os processos da gestão do conhecimento. Histórico O termo Business Intelligence foi patenteado pela empresa Gartner, mas, na prática, esse conceito já era aplicado muito antes do invento dos computadores, pelos povos antigos. A sociedade do Oriente Médio antigo utilizava‑se dos princípios básicos de BI quando cruzavam informações obtidas pela natureza Pós-graduação 47 para auxiliar na tomada de decisão das aldeias. A análise do comportamento das marés, o levantamento dos períodos chuvosos e de seca, a movimentação e posicionamento dos astros era a forma de obter informações que serviam de base para a tomada de decisões importantes para a comunidade (PRIMAK, 2010). No contexto computacional, a partir da década de 70 os pacotes de softwares analíticos começam a surgir no mercado, esses pacotes de dados trabalhavam na gestão dos dados transacionais. Na década de 90, as planilhas eletrônicas, como Lotus 1‑2‑3 e, posteriormente, o Excel, facilitaram ainda mais a análise de dados, possibilitando a utilização de filtros e a construção de gráficos de maneira simples. As planilhas eletrônicas fizeram tanto sucesso que são utilizadas até hoje pelas empresas. O uso de consultas utilizando SQL possibilitou ainda o desenvolvimento de sistemas baseados em modelos relacionais e, posteriormente, em modelos dimensionais, dando suporte a arquitetura de BI (RASMUSSEN; GOLDY; SOLLI, 2002). Figura 1 ‑ Evolução a partir de relatórios estáticos para business intelligence Alto Interação com o usuário 2002 1996 Aconselhar - Mineração de Dados Análise - Processamento analítico online 1992 Investigação - Sistemas de Informação Executiva 1985 Baixo Ação - BI Agregação - Sistemas de Informação Gerencial Relatórios Baixo Recursos analíticos Alto Fonte: Adaptado de Rasmussen, Goldy e Solli (2002). A Figura 1 apresenta a evolução dos recursos analíticos em relação à possibilidade de interação dos usuários na análise em questão. Analisando a figura acima, vê‑se que os primeiros recursos analíticos apresentados são os relatórios. Os relatórios são utilizados até hoje pelas organizações, o seu uso possibilita a apresentação de dados e informações de maneira estática, é basicamente uma “fotografia” de um cenário ou situação. A interação com o usuário é muito baixa, permitindo apenas o consumo do seu conteúdo. Colocando inteligência nos negócios 48 Entre a década de 80 e 90 surgem os recursos analíticos classificados como de agregação (sistemas de informação gerencial) e de investigação (sistemas de informações executivas), esses recursos permitem uma interação com o usuário maior, é possível entrar com consultas, o que permitia uma melhor investigação dos fatos nas informações retornadas pelos sistemas de informação. É importante ressaltar que a partir da década de 90 surge a necessidade das organizações serem capazes de fazer análises e planejamentos de modo a reagir a mudanças dos negócios rapidamente. O motivo para tal é um mercado cada vez mais competitivo e um consumidor cada vez mais exigente (SASSI, 2010). A partir de meados da década de 90, percebe‑se mais duas características dos recursos analíticos, o de análise (OLAP) e o de aconselhar (mineração de dados). Nesse período, são inseridas “inteligências” nos sistemas de informação, permitindo uma análise muito mais detalhada, de modo que as técnicas de inteligência artificial utilizadas possam explicitar muitas informações estratégicas para a camada tomadora de decisão. Ainda a partir da década de 90, é inserida a característica de ação aos recursos analíticos, provendo uma grande interação por parte dos usuários. Essa característica é possibilitada pelos sistemas construídos em cima de uma arquitetura de business intelligence. Definição Percebe‑se que as práticas de business intelligence representam uma das abordagens mais modernas da evolução dos sistemas de apoio às decisões tradicionais. Mas afinal, o que é business intelligence? Segundo Côrtes (2002) apud Sell (2006), business intelligence é um conjunto de conceitos e metodologias que visam a apoiar a tomada de decisões nos negócios, a partir da transformação do dado em informação e da informação em conhecimento. Silva (2011, p.32), afirma que business intelligence: consiste na transformação metódica e consciente dos dados provenientes de quaisquer fontes de dados (estruturados e não estruturados) em novas formas de proporcionar informação e conhecimento dirigidos aos negócios e orientados aos resultados. Pós-graduação 49 Pode‑se conceituar BI também como a utilização de várias fontes de informação para firmar estratégias de competitividade nos negócios da organização (NAPOLI, 2011). Para Almeida et al. (1999) apud Sell (2006), BI objetiva usar os dados da organização para apoiar decisões bem informadas, facilitando o acesso e a análise de dados, assim, possibilita a descoberta de novas oportunidades. As ferramentas provenientes da arquitetura de BI podem fornecer uma visão sistêmica dos negócios da organização, ajudando na distribuição uniforme dos dados entre os usuários, também se pode definir BI como um “guarda‑chuva” conceitual, tendo em vista que tem como preocupação capturar dados, informações e conhecimentos que permitam a organização agir com mais eficiência em uma abordagem evolutiva de modelagem de dados, capaz de promover a estruturação da informação em repositórios retrospectivos e históricos (REGINATO; NASCIMENTO, 2007). De acordo com Sharma e Gupta (2004) apud Sell (2006), implantações bem‑sucedidas de soluções de BI proveem uma visão integrada do negócio, estendem as capacidades analíticas dos usuários e impulsionam a formação de expertise nas organizações. O investimento em BI por parte das organizações é incentivado pela necessidade de criação de um ambiente pró‑ativo para a tomada de decisão, com base nos seus sistemas transacionais (SILVA, 2011). Objetivos O foco de soluções de BI é facilitar o entendimento do negócio das organizações, fornecendo a todos os níveis das organizações informações relevantes sobre suas operações internas e o ambiente externo, incluindo clientes e competidores, parceiros e fornecedores (SELL, 2006). O ambiente externo inclui ainda variáveis independentes que possam impactar no negócio, como tecnologia, leis e economia mundial, entre outros (BROHMAN et al., 2000 apud SELL 2006). Segundo Napoli (2011), as técnicas de BI objetivam definir regras e técnicas para a formatação adequada dos dados, tendo em vista a sua transformação em depósitos estruturados de informações, não levando em consideração a sua origem. Para Reginato e Nascimento (2007), BI tem como objetivos transformar grandes quantidades de dados em informações de qualidade, para a tomada de decisão, de modo a possibilitar uma visão sistêmica do negócio e auxiliar na distribuição uniforme dos dados entre os seus usuários. Colocando inteligência nos negócios 50 Ao analisar os objetivos da aplicação de soluções de BI, fica claro como elas se enquadram na arquitetura clássica de um sistema de apoio à decisão, percebe‑se que muito dos objetivos são comuns. Como por exemplo, a preocupação de tratamento dos dados e a transformação deles em informação ou a disponibilização dessa informação focada no processo decisório pela camada gerencial da organização. As aplicações de BI podem auxiliar em vários segmentos das organizações, segundo Xavier e Pereira (2009), essas aplicações podem auxiliar a análise de: •• tendências de transformação do mercado; •• alterações no comportamento de clientes e padrões de consumo; •• preferências de clientes; •• recursos das empresas; •• condições de mercado. Os autores ainda afirmam que sistemas de BI permitem que as organizações: “coletem informações sobre as tendências do mercado e ofereçam produtos e serviços inovadores, antecipando as transformações das exigências dos clientes”. É importante ressaltar que as soluções de BI acompanham a necessidade da organização, evoluindo conforme vão surgindo novos recursos, mídias e desafios. Evolução A evolução das soluções de BI está relacionada com a evolução do papel dos sistemas de informação nas organizações. Inicialmente, nos anos 70 e até meados dos anos 80, soluções de processamento e impressão de relatórios em lote dominavam a cena do processo de apoio à decisão. Os usuários tinham, então, que trabalhar sobre extensos relatórios para extrair elementos básicos de informação. Com a proliferação dos terminais de acesso aos mainframes, o acesso aos relatórios digitais foi disseminado, mas o acesso à informação era dificultado devido à complexidade dos sistemas da época (SELL, 2006). A segunda fase dos sistemas de apoio à decisão é marcada pelo surgimento do Data Warehouse (DW), repositórios de dados integrados e preparados para o apoio à decisão, que, em conjunto com a evolução das ferramentas analíticas, ofereceu performance e poder analítico para o nível tático e executivo nas organizações (INMON, 2002; KIMBALL et al., 1998). Pós-graduação 51 A terceira fase corresponde ao surgimento do BI. Segundo Almeida et al. (1999) apud Sell (2006), o foco do DW estava muito orientado à tecnologia de consolidação dos dados. Ainda segundo os autores, as vantagens de projetos de BI em relação aos de DW são: •• soluções de BI não são orientadas unicamente à aplicação de tecnologia de informação de última geração, mas também ao fornecimento de soluções que integram pacotes verticais de aplicativos e metodologias para diversos segmentos de negócio; •• o foco das soluções de BI está no acesso e na distribuição de informação para o apoio à decisão; e soluções de BI suportam o acesso a todos os dados da organização, estruturados e não estruturados, e não somente aos armazenados no DW existe um foco na independência. O termo BI 2.0 vem sendo cada vez mais utilizados em notícias e artigos científicos, ele se refere a uma próxima geração do BI que promete seguir a mesma linha da web 2.0 e apostar nos dados colaborativos. Xavier e Pereira (2009) desenvolveram o quadro a seguir, apresentando um comparativo entre BI 1.0 e BI 2.0: Quadro 1 - Comparativo entre BI e BI 2.0 BI BI 2.0 Consumo estático de relatórios. Comunidades de usuários dinâmicas, colaboração ativa e compartilhamento imediato das informações. Envio e apresentação de relatórios estáticos para os usuários. Fornecimento de informações dinâmicas e interativas, com usuários elaborando seus próprios relatórios ou assinando as informações de que necessitam. Função de alto custo e considerada um luxo dentro da organização. Soluções econômicas e rentáveis disponibilizadas para a empresa como um todo. BI para uns poucos usuários especializados. BI para todos dentro da organização, na medida em que for necessário. Relatórios orientados para a impressão. Aplicações de geração de relatórios interativas e baseadas na Web. Gráficos com barras estatísticas e gráficos circulares segmentados. Visualização de dados intuitiva, dinâmica e interativa. OLAP para análise. OLAP junto a alternativas inovadoras, menos complexas e de alto desempenho e geração ad hoc de relatórios. Instalação, upgrade e uso complexos e de alto consumo de tempo. Instalação, upgrades e uso simplificados. Relatórios baseados no desktop ou em HTML estáticos. Relatórios integrados com eventos e processos automatizados; relatórios como serviços na Web (via XML). Colocando inteligência nos negócios 52 BI BI 2.0 Aplicações de geração de relatórios para desktop, com Active‑X e smart client. Aplicações baseadas na Web com ambientes de usuários ricos e interfaces de usuários altamente interativas. Parâmetros de pesquisa predefinidos. Pesquisas dinâmicas ou de estilo livre e exploração de dados. Dados estruturados. Conjunto ampliado de tipos de dados suportados, inclusive dados não estruturados e serviços XML da Web, assim como mixagem de seu conteúdo. Fonte: Xavier e Pereira (2009). Analisando o quadro desenvolvido por Xavier e Pereira (2009), percebe‑se que muitos dos pontos levantados como característicos do chamado BI 2.0 já foram atendidos pelo BI tradicional. Essa classificação não é “oficial”, é mais uma terminologia adotada por alguns autores para caracterizar a utilização das estratégias de BI ao longo dos anos e momentos. Como características principais apresentadas no quadro podem‑se levantar: •• Aumento da quantidade de usuário à aplicação de BI na organização (mais setores a utilizam, tirando o foco somente da camada gerencial); •• Aplicações mais simples e intuitivas, com melhora no tempo de resposta; •• Combinação dos dados dos repositórios da organização com dados disponíveis na Web. Na visão de Pintas e Siqueira (2011), a maior deficiência das soluções tradicionais de BI está na latência entre o acontecimento do evento e a tomada de decisão. Segundo os autores em questão, o BI 2.0 tem como foco atacar essa latência. Nesse contexto, os autores sugerem a adição de recursos semânticos para auxiliar nessa tarefa. A utilização de semântica para auxiliar as soluções de BI não é uma ideia muito nova. Sell (2006) apresenta em seu trabalho “Uma arquitetura para business intelligence baseada em tecnologias semânticas para suporte a aplicações analíticas” uma série de informações sobre essa abordagem. O autor apresenta alguns requisitos funcionais para possibilitar o Semantic Business Intelligence: •• RF001 – Possibilitar a navegação sobre as fontes de dados a partir dos conceitos do negócio e seus relacionamentos; •• RF002 – Permitir a utilização às regras de negócio para apoiar o processo analítico; Pós-graduação 53 •• RF003 – Propiciar flexibilidade para modificações dos conceitos de regras do negócio; •• RF004 – Permitir a extensão às funcionalidades exploratórias a partir e aplicações existentes na Web ou na organização; •• RF005 – Permitir a composição de serviços para a extensão de funcionalidades exploratórias; •• RF006 – Suportar recomendação proativa de recursos aos usuários para apoiar o processamento analítico. Tendo os requisitos a mão, Sell (2006) apresenta a arquitetura de solução para viabilizar o BI semântico: Figura 2 - Arquitetura para Semantic Business Intelligence OLAP Relatórios Portais Clientes Gerenciador de Análises Módulos Funcionais Gerenciador de Serviços Gerenciador de Ontologias Infraestrutura WSS Reasoner Ontologia do Domínio Ontologia de Serviços Ontologia BI Data Warehouse Mecanismos de Inferência Repositórios de Ontologias Fontes de Dados Fonte: Sell (2006). Um ponto muito importante apresentado na figura da arquitetura são as ontologias, que possibilitam a representação de um conhecimento ou conceitos de domínio, o que permite os recursos semânticos e viabiliza os requisitos apresentados anteriormente. Segundo Napoli (2011), o repositório de ontologias permite o mapeamento da semântica do negócio, dos dados da organização e dos serviços necessários para o apoio ao processo decisório. Colocando inteligência nos negócios 54 Outra contribuição importante desse modelo que não segue o clássico de BI é a presença dos mecanismos de inferência, que possibilitam “raciocinar” sobre os conceitos das ontologias e instâncias da base de conhecimento. Para Napoli (2011), os mecanismos de inferência permitem a realização de processamento de regras sobre ontologias, o autor também afirma que esse recurso possibilita a capacidade de filtrar os dados reunidos na análise ou a expansão dos dados por meio da definição das regras. Existem trabalhos que utilizam o termo Business Intelligence 3.0 para arquiteturas de BI que fazem uso de fontes de dados não estruturadas a partir de mídias sociais. Essas informações são muito importantes para a organização e podem auxiliar a inteligência competitiva, a análise de opinião sobre os produtos e serviços da organização (LUNARDI, 2011). De maneira geral, percebe‑se que algumas das práticas de BI já eram utilizadas muito antes do invento do computador, e que até hoje essa abordagem é muito utilizada e pesquisada pelas organizações e universidades. Percebe‑se que as propostas de BI 2.0 e BI 3.0 são respostas a eventos que as organizações vivem. A próxima leitura está focada na utilização e na descrição dos principais componentes de uma arquitetura de Business Intelligence. Referências GORDON, Steven R.; GORDON, Judith. Sistemas de informação: uma abordagem gerencial. 3. ed. Rio de Janeiro: LTC, 2006. INMON, W. H. Como construir o Data Warehouse. Rio de Janeiro: Campus, 1997. 388 p. LUNARDI, Riccardo. Panoramic and main features of Business Analytics. Tese (Doutorado) 2011 ‑ Universita Degli Studi di Padova, Facolta di Ingegneria. Ingegneria Informatica, Padova (Itália), 2011. KIMBALL, Ralph. Data warehouse toolkit. São Paulo: Makron Books, 1998. 379 p. NAPOLI, Marcio. Aplicação de ontologias para apoiar operações analíticas sobre fontes estruturadas e não estruturadas. 2011. Dissertação (Mestrado) ‑ Universidade Federal de Santa Catarina, Programa de Pós‑Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011. PINTAS, Juliano T.; SIQUEIRA, Sean W. M. O papel da semântica no Business Intelligence 2.0: Um exemplo no contexto de um programa de pós‑graduação. VII Simpósio Brasileiro de Sistemas de Informação. Salvador, 2011. Pós-graduação 55 PRIMAK, Fábio Vinícius. Decisões com B.I. Rio de Janeiro: Editora Ciência Moderna, 2008. RASMUSSEN, Nils; GOLDY, Paul S.; SOLLI, Per O. Financial Business Intelligence – Trends, Technology, Software Selection, and Implementation. John Wiley and Sons, Inc., New York, 2002. REGINATO, Luciane; NASCIMENTO, Auster Moreira. Um estudo de caso envolvendo business intelligence como instrumento de apoio à controladoria. Revista Contabilidade & Finanças. São Paulo, p.69‑83, 2007. SASSI, Renato Jose. Data Warehouse e Business Intelligence Operacional: Revistando a Tecnologia e Analisando as Tendências do Armazém de Dados. XXX Encontro Nacional de Engenharia de Produção. ENEGEP 2010. São Carlos, 2010. SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias semânticas para suporte a aplicações analíticas. 2006. Tese (Doutorado) ‑ Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós‑Graduação em Engenharia de Produção, Florianópolis, 2006. SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para processamento analítico baseado em tecnologias semânticas e em linguagem natural. 2011. Dissertação (Mestrado) – Universidade Federal de Santa Catarina, Programa de Pós‑Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011. XAVIER, Fabrício S. V.; PEREIRA, Leonardo Bruno R. SQL dos Conceitos às Consultas Complexas. Editora Ciência Moderna, Rio de Janeiro, 2009. Colocando inteligência nos negócios 56 Arquitetura típica de BI Flávio Ceci Muitas das práticas utilizadas no BI já eram utilizadas pelos povos antigos para auxiliar na sua prática na agricultura e pecuária. O termo em si ganhou mais representação quando suportado por ferramental computacional. À medida que novas tendências surgem, as arquiteturas de BI se moldam para atender os novos desafios e de modo a utilizar os novos recursos da organização. É possível perceber essa linha de evolução olhando o surgimento do conceito de “Semantic Business Intelligence”, junto à popularização e ascensão da área de Web Semântica, ou ainda, com o surgimento e a grande utilização das redes sociais surgem trabalhos que alguns autores utilizam o termo business intelligence 3.0, como sendo os que utilizam os dados desse tipo de mídia para auxiliar a análise e tomada de decisão nas organizações. Também são utilizadas técnicas avançadas de processamento de linguagem natural, além dos componentes da arquitetura típica (clássica) de BI. Essa leitura está mais focada na aplicação das soluções de BI, bem como na sua arquitetura clássica. Dando continuidade aos nossos estudos, é apresentado abaixo um quadro adaptado por Sell (2006), que exibe as características de utilização das soluções de BI: Quadro 1 - Características de utilização das soluções de BI FOCO AMBIENTE INTERNO AMBIENTE EXTERNO •• Segmentação, preferências e comportamentos dos clientes. •• Operações do negócio. Objetivos de análise •• Cadeia de suprimentos. •• Gestão de relacionamento com os clientes. •• Clientes e fornecedores. •• Economia. •• Aspectos regulatórios. •• Concorrência: -- segmentação; -- líderes. •• Perfil de compra. Objetivos Utilização Eficiência. Análise, refinamento e reengenharia do desempenho do mercado. Posicionamento no mercado. Modelagem e previsão do comportamento do mercado. Posicionamento no mercado. Aprendizagem das tendências de consumo. Identificação de riscos, tecnologias e regulação. Fonte: Sell (2006). Adaptado. Pós-graduação 57 As soluções de BI não são guiadas unicamente a aplicações de TIC (tecnologia da informação) de última geração, mas também ao fornecimento de soluções que integram recursos verticais de aplicativos e metodologias para diversas áreas do negócio. Vale lembrar que o foco das soluções de BI está no acesso e na distribuição de informações para auxiliar o apoio à decisão (SELL, 2006). As arquiteturas tradicionais de BI utilizam vários elementos e técnicas para transformação (processamento) de dados em informação (SILVA, 2011). De maneira mais ampla, pode‑se dividir a arquitetura de BI em três principais componentes: •• ETL (Extraction, Transformation and Loading), processo responsável por extrair os dados das bases operacionais (transacionais) da organização, efetuar transformações a fim de gerar informações válidas para a análise e apoio ao processo decisório e, por último, armazená‑las em um repositório que facilite o acesso às informações. •• Repositório de dados analíticos: são representados pelos Data Warehouses (DW), repositórios de dados que utilizam modelagens (geralmente modelagem dimensional), as quais podem dispor os dados de maneira mais natural para a análise e o processo de decisão. •• O último componente é a camada de apresentação. Essa camada pode‑se utilizar de uma série de técnicas e / ou ferramentas para auxiliar o consumo e apresentação das informações armazenadas pelo DW. A figura a seguir adaptada por Silva (2011) do trabalho de Hodge (2011) representa a arquitetura tradicional de BI com os seus principais componentes e técnicas utilizadas: Colocando inteligência nos negócios 58 Figura 1 - Arquitetura tradicional de BI com os principais componentes Fonte: Silva (2011). A primeira camada é a chamada de “Sistemas Operacionais”, ou seja, são as fontes de dados operacionais (transacionais) da organização, Nessa camada estão todas as bases por setor: finanças, serviços. Suprimentos, RH, P&D, Logística, clientes, vendas. O processo de ETL recupera os dados dispersos pelas várias bases operacionais das organizações e após o processamento os concentra na forma de informações analíticas, no data warehouse da organização. Os dados organizados no repositório podem ser consumidos pela camada de apresentação que é representada pelas várias técnicas de ferramentas: •• Relatórios; •• OLAP; •• Dashboards; •• Alertas; •• Scorecards. É importante ressaltar que não existe solução de BI genérica, ou seja, cada organização possui um cenário particular e mais importante ainda, perguntas específicas que procuram respostas. O que temos em comum a todas as organizações é a arquitetura geral tradicional de BI. Pós-graduação 59 Iniciando um projeto de BI A implantação de uma solução de BI em nível organizacional não é uma tarefa fácil, nem tão pouco rápida! É necessário um bom planejamento e reservar uma boa parcela de tempo para ter sucesso nesse processo. Segundo Primak (2008), deve ficar claro que apesar desses projetos envolverem o uso de ferramentas e soluções de Tecnologia da Informação (TI), é importante entender que BI é um projeto de negócio aplicado para a empresa no contexto geral. O que o autor quer dizer com a afirmação anterior é que o uso de uma solução de BI não é igual ao uso de um sistema de informação comum, é necessário que a organização esteja preparada para utilizar o sistema e saber como chegar às informações e aos conhecimentos implícitos. Para Primak (2008), existem dois tipos de planejamento que devem ser feitos para a execução bem‑sucedida de um projeto de BI, que são: •• Planejamento Estratégico Corporativo (PEC): explicitam as oportunidades, os riscos, os pontos fortes e fracos da organização. Esse procedimento que traça as principais metas e as estratégias para alcançá‑las. •• Planejamento Estratégico da Informação (PEI): é de responsabilidade da área de administração de dados e visa a identificar todos os sistemas da organização, suas bases de dados, além da avaliação da qualidade dos dados. Partindo para o desenvolvimento e implantação da solução de BI, deve‑se, inicialmente, ter uma visão sistêmica da organização, de modo que sejam facilmente identificados quais tipos de pergunta deseja‑se responder utilizando a solução de BI. Quando essas informações já tiverem sido levantadas, pode‑se partir para a modelagem do repositório único dos dados e informações (DW). Geralmente esses repositórios utilizam para a organização a modelagem dimensional, que é constituída por tabelas de dimensões (filtros e informações que serão cruzadas) e tabelas fato (possuem uma série de valores já processados e distribuídos pelas dimensões em questão). Após a construção do DW, é necessário criar rotinas para carga, para isso se utilizam ferramentas ETL. Essas ferramentas devem ler os dados armazenados nas várias bases operacionais da organização, processá‑los (de modo que os agrupe de modo mais natural para a análise) e, posteriormente, carregá‑los nas tabelas do DW. Tendo os repositórios de dados e informações modelados e devidamente carregados, deve‑se identificar quais técnicas de análises (mineração de dados) podem ser aplicadas para a extração de informações implícitas e até mesmo conhecimento. Colocando inteligência nos negócios 60 Devem‑se combinar as técnicas de mineração de dados com o ferramental da área de apresentação para auxiliar o consumo de informação e conhecimento proveniente da solução de BI, de modo que seja o mais natural para a tomada de decisão. O que se deve levar em conta para a implementação de uma solução de BI numa organização? Primak (2008) apresenta algumas questões que devem ser verificadas: •• Questões de balanceamento de metas: quais são as metas para o curto, médio e longo prazo? •• Questões de base: quais são as competências da minha organização para atingir a meta e o que eu devo procurar no mercado? •• Investimentos e riscos: quanto vai custar o projeto de BI? Quanto e o que eu espero de retorno? •• Levantar os interessados: verificar quem, no contexto organizacional, serão os beneficiados com a solução de BI; •• Avaliação dos resultados: deve‑se sempre avaliar os resultados, em todas as etapas, pois mudanças podem ser necessárias para um maior sucesso. De modo geral, percebe‑se que as soluções de BI não são apenas tecnológicas, é necessário que a organização esteja preparada para usufruir dos seus recursos, bem como adotar atividades que utilizem tais recursos para um maior aproveitamento da solução. Os próximos capítulos apresentam mais detalhes sobre cada uma das camadas da arquitetura de business intelligence tradicional. Referências HODGE, P. Business intelligence Architecture. Disponível em <http://sites.google.com/a/ paulhodge.com/www/architecture>. Acesso em 21 de Janeiro de 2012. PRIMAK, Fábio Vinícius. Decisões com B.I. Rio de Janeiro: Editora Ciência Moderna, 2008. SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias semânticas para suporte a aplicações analíticas. 2006. Tese (Doutorado) ‑ Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós‑Graduação em Engenharia de Produção, Florianópolis, 2006. SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para processamento analítico baseado em tecnologias semânticas e em linguagem natural. 2011. Dissertação (Mestrado) – Universidade Federal de Santa Catarina, Programa de Pós‑Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011. Pós-graduação 61 Atividades de Autoaprendizagem 1) Levando em consideração o conteúdo apresentado nesta unidade, assinale as alternativas verdadeiras com V e as falsas com F: a. ( ) As práticas de BI só foram possíveis com o advento dos computadores. b. ( ) DW nada mais é do que um banco de dados que utiliza como modelagem de dados a abordagem relacional. c. ( ) ETL é o processo de mineração de dados previsto pela arquitetura de BI. d. ( ) O planejamento estratégico corporativo e da informação são planejamentos que devem ser feitos para um projeto de BI bem sucedido. e. ( ) A chamada área de apresentação é onde as informações são organizadas e centralizadas. f. ( ) A ideia de adicionar recursos semânticos à arquitetura de BI é anterior aos chamados BI 2.0 e BI 3.0. Atividade colaborativa Nesta unidade, você estudou uma série de conceitos relacionados com sistemas de informação e sistemas de apoio à decisão. Responda à pergunta a seguir utilizando a ferramenta Fórum, não se esqueça de comentar as respostas dos seus colegas. O uso de recursos semânticos permite uma séria de possibilidades para as análises de informações disponíveis pelo BI, quais possibilidades são essas? Como elas podem auxiliar na análise das informações? Síntese Nesta unidade, é estudado com mais detalhes a arquitetura de BI, qual a sua origem, seus fatores históricos, quais são os seus principais objetivos, como se deu a sua evolução, quais as suas tendências (BI 2.0, BI 3.0...). Também é apresentado como iniciar um projeto de BI e quais são os principais componentes de uma arquitetura de BI. Colocando inteligência nos negócios 62 Saiba Mais O artigo abaixo foi publicado em 2012 e traz uma visão geral sobre BI e como as tecnologias semânticas podem dar suporte as suas análises, vale muito a pena esta leitura: SELL, Denilson; SILVA, Dhiogo, C.; GHISI, Fernando B.; NAPOLI, Marcio; TODESCO, José L. Adding Semantics to Business Intelligence: Towards a Smarter Generation of Analytical Tools. In. Business Intelligence: Solution for Business Development. InTech, 2012.Disponível em: <http://www.intechopen.com/articles/show/title/ adding-semantics-to-business-intelligence-towards-a-smarter-generation-ofanalytical-tools>. Pós-graduação Unidade 3 Data Warehouse Objetivos de Aprendizagem •• Compreender a construção e o funcionamento dos Data Warehouses, como suporte ao armazenamento das informações das organizações; •• Identificar as principais características de um Data Warehouses; •• Entender o que é modelagem dimensional. Introdução A crescente produção de dados pelos sistemas transacionais da organização, de maneira distribuída pelos vários setores e ferramentas, acaba dificultando a visualização e a análise dos dados pela camada gerencial. Desse modo, é importante a utilização de repositórios de dados centralizados, que facilitam o acesso aos dados e permitam que eles possam ser cruzados e comparados. Além da disponibilização dos dados em um repositório, também é necessário que esses repositórios possuam os dados organizados de maneira mais natural para a análise, sendo, assim, mais eficiente. Esta unidade é focada no estudo dos repositórios de dados do tipo Data Warehouse (DW), sua arquitetura, como ele pode ser desenvolvido, quais as etapas necessárias para a sua implantação e como é feita a integração e a carga dos seus dados. 64 Componentes de um DW Flávio Ceci e Gláucio Adriano Fontana Com o aumento do uso dos sistemas de informações transacionais, cada vez mais são armazenados dados em bases não centralizadas. O que funciona bem para o controle operacional dos setores da organização apresenta um problema para a camada gerencial, que atua transversalmente, pois não traz uma visão sistêmica das operações organizacionais. Além de não possuir uma visão integrada das operações da organização, esta abordagem mantém todos os dados operacionais distribuídos entre vários sistemas, o que dificulta a análise deles, além de não possuir uma garantia de que estão corretos. Os Data Warehouse (DW) têm como função atuar neste contexto. Segundo Teorey, Lightstone e Nadeau (2007), um DW é um grande repositório de dados históricos da organização, que podem ser integrados, a fim de apoiar o processo decisório. Para Xavier e Pereira (2009), DW é uma grande base de dados que organiza e armazena informações integradas a partir de bases de dados operacionais. DW é um conjunto de dados orientado por assuntos, não volátil, variável com o tempo e integrado, criado para dar suporte à decisão. Isto é, direcionar a visão do negócio da empresa, de maneira não modificável, como nos bancos de dados transacionais, pois neste ínterim dados passados são históricos, variáveis no tempo, sincronizados e integrados, necessários ao pensamento estratégico e à tomada de decisões (CIELO, 2008; INMON, 2001). Em um exemplo simples e claro: A empresa X possui um cliente chamado João, que é solteiro. João realizou diversas compras de cerveja e macarrão durante dois anos. Então, ele se casou, agora, na base de dados (BD), João agora é casado. E ele passou a comprar fraldas. Uma análise nesse BD dos produtos comprados por um cliente iria nos informar que João é casado, compra cerveja, macarrão, refrigerante e fraldas. O fato de ele ter mudado seu perfil de compra após o casamento não seria registrado pelo banco de dados transacional, logo, seria informação perdida, que poderia ser muito melhor aproveitada pela organização. O DW permite ter uma base de dados integrada e histórica para análise dos dados, isso pode e deve se tornar um diferencial competitivo para as empresas. Tendo uma ferramenta desse porte na mão, o executivo pode decidir com muito mais eficiência e eficácia. As decisões serão embasadas em fatos e não em intuições, poderão ser descobertos novos mercados, novas oportunidades, novos produtos, podem‑se criar relações melhores com clientes, por exemplo, conhecendo hábitos mais a fundo e com mais detalhes do que se poderia imaginar. Pós-graduação 65 A orientação por assunto, conforme Cielo (2008), nada mais é do que o direcionamento que se dá da visão que será disponibilizada, do negócio da empresa. Por exemplo: em uma empresa de Telecom, o principal assunto é o cliente, e esses clientes podem ser residenciais, empresas, telefonia pública etc. Então, quando um arquiteto de Warehouse for desenhar esse modelo, deve levar em consideração essas premissas e dividir as visões de acordo com o que o decisor quer ver. Observe que tudo girará em torno dos assuntos, seja qual for a visão que se quer ter, ou seja, a visão financeira da empresa também girará em torno disso, seja a inadimplência, o faturamento, a lucratividade etc. A Figura 1 ilustra está situação: Figura 1 ‑ Exemplo de disposição de tabelas por assunto Empresa Cliente Lucro Telefonia Pública Ano Fonte: Elaboração do autor (2012). Como se pode observar na Figura 1, as tabelas estão centradas num determinado assunto, nesse caso, são os lucros da empresa de Telecom. Além do assunto central, existem tabelas que trazem as dimensões que serão cruzadas para chegar a uma informação, nesse caso, obrigatoriamente é consolidada e distribuída por ano. A volatilidade refere‑se ao Warehouse não sofrer mumificações como nos sistemas tradicionais, por exemplo: no sistema de faturamento de uma empresa, todos os dias há inclusões e alterações de novos clientes, novos produtos e consumo. Já no Warehouse, acontecem somente cargas de dados e consultas, ou seja, falando tecnicamente, há somente selects e inserts, e não há updates. Existem basicamente duas operações, a carga e a consulta, nada mais que isso (CIELO, 2008). A Figura 2 apresenta mais detalhes sobre esta característica: Data Warehouse 66 Figura 2 ‑ Relacionamento de volatilidade entre bases operacionais e DW Base Operacional Inserção Data Warehouse Acesso Alteração Acesso Acesso Remoção Inserção Remoção Carga Acesso Alteração Registro por registro/ Manipulação de dados Carga em massa/ acesso aos dados Fonte: Adaptado de Inmon (2007), p.34. A Figura 2 demonstra como as bases operacionais recebem requisições em nível de operação, ou seja, cada nova venda ou baixa no estoque gera uma nova requisição. As operações podem ser de inserção, alteração, remoção ou acesso. Já os DW são carregados de tempos em tempos, armazenando dados já consolidados, posteriormente só terão acesso a essas informações. Variável com o tempo é uma característica ímpar no Warehouse. Ele sempre retrata a situação que estamos analisando em um determinado ponto do tempo. Cielo (2008, p.1) utiliza uma interessante analogia com fotografias: pegue uma fotografia sua, quando recém nascido, depois, pegue outra quando você tinha 5 anos, e compare. Com certeza muitas modificações ocorreram, mas ela retrata exatamente a sua situação naquele exato momento do tempo, e isso acontece da mesma forma com o Data Warehouse. Nós guardamos fotografias dos assuntos em determinados pontos do tempo, e com isso é possível poder traçar uma análise histórica e comparativa entre os fatos. A Figura 3 ilustra a situação da analogia da fotografia. A tabela azul representa como os dados estão organizados numa base operacional, onde cada operação de venda para um cliente gera uma linha inserida na tabela. Após o processo de transformação representado pela seta vermelha, os dados estarão armazenados, consolidados por dia na tabela do DW, representado pela tabela verde da Figura 3. É importante destacar que a consolidação dos dados poderia ser feita sobre outra unidade atômica de tempo que não seja dia. Poderia ser feita por mês ou ano, caso tivesse muitas operações, seria por hora. Esse tipo de decisão deve ser tomada pensando no tipo de análise que se pretende efetuar e da distribuição da massa de dados. Pós-graduação 67 Figura 3 ‑ Demonstrando a analogia da “fotografia” dos dados Fonte: Elaboração dos autores (2012). A integração talvez seja a parte mais importante desse processo, pois ela será responsável por sincronizar os dados de todos os sistemas existentes na empresa e colocá‑los no mesmo padrão. Como sabemos, o Warehouse extrai dados de vários sistemas da empresa e, em alguns casos, dados externos, como a cotação do dólar. Porém, geralmente os dados não estão padronizados, devido aos problemas que citamos acima, e é necessário integrar antes de carregarmos no DW. Um exemplo clássico é o do sexo. Em um sistema, esse dado está guardado no formato M para masculino e F para feminino, já no outro, o mesmo dado está guardado como 0 para masculino e 1 para feminino. Isso geraria um grande problema na hora da análise, porém, na fase de ETL (Extração, Transformação e Carga), isso tudo vira uma coisa só, ou seja, todos os formatos são convertidos em um único padrão, que é decidido com o usuário final e então carregado no Warehouse. Data Warehouse 68 Figura 4 ‑ Exemplo da padronização das informações Fonte: Elaboração dos autores (2012). A Figura 4 representa como funciona a integração dos dados das tabelas azul, vermelha e laranja, ou seja, registros em várias bases de dados distribuídos pelos sistemas transacionais da organização. Nesse exemplo vê‑se que a informação relacionada com o sexo é apresentada de três maneiras completamente diferentes, no caso da tabela azul, está por extenso, na tabela vermelha é utilizado M para masculino e F para feminino, já no caso da tabela laranja, o sexo masculino é representado pelo número inteiro 0 e o feminino pelo 1. A tabela em verde demonstra a integração dos dados, essa tabela representa uma dimensão “Sexo” que possui um identificador padrão, ou seja, em todas as tabelas do DW que tiver referência para sexo, será utilizado um identificador que, nesse caso, é M para masculino e F para feminino. Visão geral do DW O uso dos Data Warehouse traz uma série de benefícios para a tomada de decisão da camada gerencial da organização, os autores Teorey, Lightstone e Nadeau (2007), desenvolveram uma tabela que compara os sistemas transacionais (OLTP – on‑line transaction processing): Pós-graduação 69 Quadro 1 – Comparativo entre OLTP e DW OLTP Data Warehouse Orientado a transação (operação) Orientado ao processo do negócio (a assuntos) Milhares de usuários Poucos usuários (normalmente a camada gerencial) Geralmente utiliza pouco espaço (MB até vários GB) Utiliza muito espaço (de milhares de GB a vários TB) Dados atuais Dados históricos (fotografias) Dados normalizados (muitas tabelas, poucas colunas por tabela) Dados não normalizados (poucas tabelas com muitas colunas) Atualização contínua Atualizações em lote (processo de carga de tempos em tempos) Consultas de simples a complexas Normalmente, consultas muito complexas. Fonte: Teory, Lightstone e Nadeau (2007). O Quadro 1 apresenta características muito importantes dos DWs. Primeiramente, são apresentados como orientados a processo de negócio, ou seja, são projetados pensando nos “assuntos” relacionados à organização que se deseja tratar. Pelo fato do DW armazenar informações dispostas de modo a facilitar a análise, o seu uso é focado na camada gerencial, que corresponde a uma pequena parcela de funcionários da organização. A ideia de ter um repositório de dados implica diretamente armazenar uma grande quantidade de dados, dados esses que são armazenados de maneira história, ou seja, consolidados por um período de tempo específico. Por esse motivo, a carga do DW é feita em lote, e de tempos em tempos. Como foi comentado anteriormente, os data warehouse são repositórios integradores de informações relevantes à organização. Para facilitar o seu consumo, pode‑se utilizar a ideia de data marts. Segundo Xavier e Pereira (2009), data mart é um pequeno data warehouse que possibilita apoio à decisão de um pequeno grupo de pessoas e assuntos. Na visão de data mart de Kimball um data mart é um DW orientado por assunto ou área organizacional, é uma versão reduzida de um DW que se concentra na exigência de um departamento específico (TURBAN et al, 2009). Data Warehouse 70 Requisitos de um Data Warehouse Os autores Teorey, Lightstone e Nadeau (2007) elaboraram uma lista de requisitos e princípios para um projeto de DW: 1. Possuem orientação por assunto, ou seja, áreas de interesses como, por exemplo: vendas, gerenciamento de projetos, compras etc. 2. Devem ter a capacidade de integração, reunir os vários dados espalhados pelas bases transacionais no DW; 3. Os dados são caracterizados como não voláteis e são carregados em lote. Também deve‑se utilizar o recurso de limpeza de dados; 4. Os dados podem ter vários níveis de granularidades, isso quer dizer que podem ser consolidados por várias dimensões diferentes, como por exemplo, de tempo entre outras; 5. O DW deve ser suficientemente flexível para dar suporte rapidamente às necessidades constantes de mudança; 6. Deve ter a capacidade de “reescrever a história”, ou seja, permitir análises hipotéticas do tipo: “o que acontece se...”; 7. Deverá suportar uma interface de usuário para interagir com os dados armazenados, no geral utiliza‑se SQL; 8. Os dados devem estar centralizados ou distribuídos fisicamente, e deverá suportar uma visão lógica centralizada. Muitos dos requisitos apresentados já haviam sido abordados nessa leitura, além dos requisitos é importante identificar os principais componentes de um DW, esses são apresentados a seguir. Principais Componentes de um DW Sabe‑se que os data warehouses são repositórios de dados, mas eles, por si só, não trazem suporte às etapas de apoio à decisão. Para viabilizar um projeto de DW, faz‑se necessária a presença de uma série de componentes. Turban et al (2009) desenvolveram a seguinte figura para ilustrar esses componentes e suas interações: Pós-graduação 71 Figura 5 ‑ Principais componentes de um DW Aplicações Aplicações Personalizadas Acesso Replicação Seleção Legados Extrair Transformar OLTP Externos Integrar Manter Preparação Sistemas operacionais/ dados Relatórios de metadados Data warehouse empresarial Data Mart Marketing Data Mart Gestão de Risco Data Mart Banco de dados alvo Engenharia (HDB, MDDB) A P I S M i d d l e w a r e Ferramentas de produção de relatórios Ferramenta de consulta relacional Visualização de Informação OLAP/ROLAP Navegadores Web Mineração de Dados Fonte: Turban et al (2009), p. 61. A partir da análise da Figura 5 são apresentados mais detalhes sobre os componentes: •• Fontes de dados: são as várias bases de dados transacionais espalhadas pela organização, que fazem parte dos sistemas de informações operacionais como, por exemplo: OLTP, ERP (sistemas integrados de gestão); •• Extração de dados: é o chamado processo de ETL, ou seja, o processo de extração, transformação e carga dos dados no DW; •• Área de estagiamento: é uma camada intermediária entre os dados operacionais e a carga do DW, serve para o processo de limpeza dos dados antes que eles ingressem no DW; •• Metadados: são mantidos para que sejam acessados pela equipe de TI e pelos usuários. Facilitam a recuperação e organização dos dados armazenados; •• Ferramentas de Middleware: permite o acesso ao DW de maneira mais padronizada, como uma interface de acesso, para que outros serviços possam interagir com as informações armazenadas. Data Warehouse 72 É importante lembrar que há outros componentes participando, como por exemplo, se a abordagem de BI que utiliza o DW em questão tiver recursos semânticos, é muito provável que será necessário a presença de ferramentas de processamento de linguagem natural, de anotação de conteúdo e até mesmo de ontologias e bases de conhecimento. Referências ANGELONI, Maria Terezinha. Organizações do conhecimento: infraestrutura, pessoas e tecnologias. São Paulo: Saraiva, 2008. 363 p. BONOMO, Peeter. Construção de Data Warehouse (DW) e Data Mart (DM). Artigo online. Disponível em <http://imasters.uol.com.br/artigo/11178> Acesso em: julho de 2009. CIELO, Ivã. Data Warehouse como diferencial competitivo. Artigo on line. Disponível em <http://www.always.com.br/site2005/internet_clip07.html> Acesso em: julho de 2008. INMON, W. H.; TERDEMAN, R. H.; IMHOFF, Claudia. Data Warehousing: como transformar informações em oportunidades de negócios. São Paulo: Berkeley, 2001. 266 p. INMON, W. H.. Como construir o Data Warehouse. Rio de Janeiro: Campus, 1997. 388 p. KIMBALL, Ralph. Data warehouse toolkit. São Paulo: Makron Books, 1998. 379 p. TEOREY, Toby; LIGHTSTONE, Sam; NADEAU, Tom. Projeto e Modelagem de Bancos de Dados. Elsevier, Rio de Janeiro, 2007. TURBAN, Efraim et al. Business Intelligence – Um enfoque gerencial para a inteligência do negócio. Editora Bookman, Porto Alegre, 2009. XAVIER, Fabrício S. V.; PEREIRA, Leonardo Bruno R. SQL dos Conceitos às Consultas Complexas. Editora Ciência Moderna, Rio de Janeiro, 2009. Pós-graduação 73 Ciclo de vida de desenvolvimento Flávio Ceci Cada vez mais as organizações estão utilizando repositórios centrais de dados e informação, com a intenção de facilitar a análise desses dados, melhorando o seu consumo por soluções de BI. Os Data Warehouses (DW) são os maiores representantes das soluções de repositórios de dados analíticos. Mas como se deve desenvolver um DW? Existe alguma arquitetura ou metodologia para facilitar a implementação desse tipo de projeto? Essa leitura tem como foco responder a essas questões. A implantação de um projeto de DW possui um ciclo de vida para o seu desenvolvimento, ou seja, possui fases necessárias para a obtenção do sucesso. Segundo Teorey, Lightstone e Nadeau (2007), o ciclo de vida se inicia com uma conversa para determinar o plano de projeto e as necessidades do negócio. Para facilitar o entendimento do ciclo, os autores desenvolveram a Figura 1 a seguir, baseada no livro de Kimball e Ross (2002): Figura 1 ‑ Ciclo de vida de um DW Fonte: Teorey, Lightstone e Nadeau (2007), p. 157. Data Warehouse 74 Inicialmente, é feito o planejamento prévio do projeto como o levantamento dos recursos necessários, qual o perfil dos executores e envolvidos, custos estimados, verba disponibilizada, entre outras atividades. O próximo passo é fazer um levantamento das necessidades do negócio, essa etapa é muito importante, pois aqui serão levantados os “assuntos” que o repositório tratará, bem como quais perguntas se deseja responder. Com o entendimento das necessidades, é necessário atualizar o planejamento do projeto para contemplar as informações e requisitos levantados, essa interação entre as duas primeiras atividades iniciais do ciclo são cíclicas, ou seja, pode‑se passar pelas duas atividades várias vezes, na verdade, deve‑se passar por elas até ter o plano completamente alinhado com as necessidades da organização. Tendo as duas primeiras etapas concluídas, parte‑se para a execução que está dividida em três frentes: •• Arquitetural: essa frente inicialmente está focada no projeto técnico da arquitetura do DW, como é sua estrutura, tanto de carga quanto de consumo de informação e defini‑se a interface de acesso. O próximo passo é a identificação de ferramental que possa auxiliar esses processos. Essa leitura trará mais detalhes sobre esta frente; •• Modelagem de dados: nesta frente é concebida a modelagem dos dados a partir dos assuntos levantados na etapa de “definição das necessidades de negócios”. Nesta frente também são levantadas as dimensões de análise para o cruzamento das informações; •• Analítica: para esta frente, levantam‑se quais abordagens analíticas são mais indicadas para responder às questões levantadas anteriormente. Após as três frentes concluídas, deve‑se partir para a implementação do DW como um todo, ligando o novo repositório com os sistemas de carga e com as ferramentas que consumirão as informações armazenadas. Ao longo do uso do DW, pode‑se detectar mudanças nos requisitos, o que acarreta no retorno à etapa de planejamento, o mesmo acontece caso encontre alguma possível manutenção. Arquitetura As implementações de Data Warehouse possuem algumas possíveis arquiteturas para a sua implantação. Entende‑se como arquitetura de um DW, a estrutura física dos componentes, como estão organizados e relacionados. Segundo Dill (2002), uma arquitetura de DW é um conjunto de normas que possibilitam uma visão da sua estrutura e auxilia no entendimento de como ocorre o fluxo dos dados ao longo do processo. Pós-graduação 75 A escolha da arquitetura do DW é uma decisão muito importante, ela é de cunho gerencial e deve‑se levar em conta principalmente a infraestrutura atual existente, ambiente de desenvolvimento, escopo de implementação, disponibilidade de recursos financeiros e equipe para desenvolvimento (DILL, 2002. p.17). Existem algumas arquiteturas que são clássicas, segundo Turban et al (2009), as arquiteturas de duas e três camadas são bastante comuns, é possível ter até uma única camada, onde cada camada pode ser: •• O próprio DW que contém os dados; •• Os softwares de aquisição e extração de dados; •• Softwares clientes que são utilizados para consumir e apresentar as informações solicitadas. A Figura 2 apresenta uma visão das três camadas comentadas anteriormente e como elas estão integradas: Figura 2 ‑ Arquitetura clássica de DW em três camadas Ferramentas ETL Data Warehouse Ferramentas analíticas Fonte: Elaboração do autor (2012). A única das camadas que é obrigada a existir é a central, representada pelo próprio repositório o DW. A arquitetura de duas camadas conta, além do DW, com a camada que contém as ferramentas ETL. O trabalho de Dill (2002) apresenta mais detalhes sobre cada uma das camadas: •• Ferramentas ETL: ou “população do warehouse”, tem como função a coleta dos dados armazenados nas bases operacionais, efetuar seu processamento e transformação e, por fim, a carga do DW. Nessa etapa, está concentrado o maior volume de trabalho; •• Data Warehouse: ou na visão de Dill (2002), “administração do warehouse”, responsável pela manutenção dos metadados, que tem como função fornecer informações sobre os relacionamentos dos dados armazenados no DW; •• Ferramentas analíticas: usuários acessam DW por meio de ferramentas de análise e exploração de dados. Essas ferramentas produzem informações para suporte à decisão. Data Warehouse 76 Existem variações a partir da arquitetura genérica. Dill (2002) demonstra uma possível extensão da arquitetura em três camadas. Basicamente nesta arquitetura são adicionados data marts focados em setores específicos da organização. A Figura 3 a ilustra com mais detalhes: Figura 3 ‑ Arquitetura de três camadas estendida Data Warehouse Corporativo Fonte Fonte Fonte Integração de Dados Data Warehouse Departamental Data Warehouse Departamental Transformação de Dados Usuários Fonte: Dill (2002), p. 19 A extensão da arquitetura apresentada na Figura 3 mostra a inserção de data marts focados em setores da organização. Esse tipo de abordagem facilita a organização e o consumo das informações. Existem outras variantes possíveis de arquiteturas, algumas focadas na camada das ferramentas de ETL, como apresentado por Oliveira (2002), em que para cada base de dados operacional é desenvolvida uma ferramenta de ETL e entre as ferramentas e o DW existe o chamado integrador. A Figura 4 apresenta essa arquitetura com mais detalhes: Pós-graduação 77 Figura 4 ‑ Arquitetura utilizando o conceito de integrado Consultas Data Warehouse Integrador Extrator Extrator BD BD Extrator BD Fonte: Adaptado de Oliveira (2002. p.48). Existem outras possibilidades de arquiteturas para empreendimentos de data warehouse. Turban et al (2009) elaboraram a tabela a seguir para apresentar essas alternativas de arquiteturas ilustrando os seus prós e contras: Tabela 1 ‑ Prós e contras para as arquiteturas de DW Data marts independentes Prós •• Fáceis de construir organizacionalmente; •• Fáceis de construir tecnicamente. •• Visualização da empresa indisponível •• Custos redundantes com dados; Contras •• Altos custos com ETL; •• Altos custos com aplicações; •• Altos custos operacionais e com DBA. Deixar os dados onde estão •• Não há necessidade de ETL; •• Não há necessidade de plataforma separada. Data marts dependentes •• Facilidade de customização de interfaces de usuários e relatórios. Dados centralizados integrados com acesso direto •• Visualização da empresa, consistência de projeto e qualidade dos dados; •• Dados podem ser reutilizados. •• Viável apenas para um volume pequeno; •• Problemas com metadados; •• Problemas com largura de banda e complexidade na unificação; •• Carga de trabalho normalmente posta na estação de trabalho. •• Visualização da empresa desafiadora; •• Custo com dados redundantes; •• Altos custos operacionais e com DBA; •• Exige liderança e visão corporativa. •• Latência de dados; Fonte: Turban et al (2009). Data Warehouse 78 Como se pode observar, o processo de integração de dados está presente em quase todas as arquiteturas, isso ocorre, pois é por meio dessas ferramentas que os DW são alimentados. Integração de dados O processo de integração de dados é uma dos mais importantes relacionados com o ciclo de vida de um data warehouse, ele garante que os dados que alimentarão o DW sejam de qualidade e representativos para os assuntos escolhidos. Segundo Turban et al (2009), a integração de dados possui três grandes processos: •• Acesso aos dados: a capacidade de acesso e extração de dados de qualquer fonte; •• Federação de dados: integração das visualizações de negócios em diversos data stores; •• Captura de alterações: baseado na identificação, captura e entrega das alterações feitas nas fontes de dados da organização. No processo de acesso aos dados é necessário, anteriormente, identificar todas as bases de dados operacionais da organização que devem ser fontes para o DW. O próximo passo é verificar os recursos tecnológicos, algumas perguntas podem ser feitas para auxiliar: •• Todas as bases são acessíveis pela mesma rede onde será abrigado o DW? •• Se não está na mesma rede, o acesso é possível via requisição HTTP? •• O uso de crawler auxiliaria neste processo? Com o acesso a todas as fontes já mapeadas, é necessário qualificar quais dados são relevantes, ou seja, quais consultas devem ser feitas para extrair os dados desejados. O próximo processo é organizar os dados coletados e verificar em quais “assuntos” se encaixam melhor, nesse ponto, são montadas as instruções INSERTs para o repositório DW. O último processo (captura de alterações) é muito importante, pois é por meio dele que são detectadas as atualizações nos dados organizacionais. Entende‑se por alteração como: alteração (Δ) = situação atual – situação armazenada. Pós-graduação 79 Esse processo é mais complexo que apenas identificar as alterações nos dados. Como já é sabido, a modelagem de dados utilizados pelos DWs os organizam como “fotografias” de um período específico. Tendo em vista essas características, deve‑se verificar todos os novos dados inseridos nas bases operacionais, no intervalo de tempo escolhido para compor as “fotografias”. A seguir é apresentado um exemplo: Imagina‑se que a unidade mínima de tempo utilizada seja “um mês”, todos os dados estariam agrupados por mês e distribuídos pelas dimensões. Caso os gestores da organização tenham interesse apenas nos dados do mês “fechado”, ou seja, do mês com todas as vendas e compras finalizadas, pode‑se configurar o sistema de integração de dados para rodar a cada final de mês. Agora imagine se os gestores dessa organização querem os dados agrupados por mês, mas no caso do mês atual deseja‑se verificar as vendas até o momento, neste cenário o sistema de integração de dados deve ser configurado para ter ciclos num intervalo menor de tempo (por exemplo, a cada hora). Assim, as alterações que se devem levar em conta seriam todas as operações feitas no período da primeira hora do mês corrente, até o momento, inserir esses registros no repositório. Segundo Turban et al (2009), faz parte dos objetivos de um data warehouse a integração de dados de múltiplos sistemas. Para isso, existem várias tecnologias que permitem a integração de dados e metadados: •• Integração de aplicações corporativas (EAI): possibilita um meio para transportar dados dos sistemas de origem para o data warehouse. Seu foco é na integração das funcionalidades da aplicação, o que permite a reutilização da aplicação e flexibilidade; •• Integração de informações corporativa (EII): promete a entrega da informação em tempo real, a partir de diversas fontes relacionais, web services e fontes dimensionais. Extrai dados dos sistemas fontes para atender ao pedido da informação; •• Extração, transformação e carga (ETL): este processo é apresentado com mais detalhes a seguir. O processo de ETL é responsável pela carga das tabelas do DW. A Figura 5, a seguir, elaborada por Turban et al (2009), ilustra este processo: Data Warehouse 80 Figura 5 ‑ Processo ETL Fonte de dados temporários Aplicação pronta Sistema legado Data warehouse Extrair Transformar Outras aplicações internas Limpar Carregar Data mart Fonte: Turban et al (2009), p.72. Por ser um processo de integração de dados, as ferramentas ETL incorporam as operações já mencionadas. O processo “Extrair” do processo de ETL é o mesmo apresentado no processo de acesso aos dados. O processo “transformar” aplica as regras de negócio levantadas em cima dos requisitos baseados nos assuntos do DW, a fim de normalizar os dados que serão armazenados no repositório. Segundo Napoli (2011), as transformações podem ser complexas quando os dados são extraídos de um ambiente heterogêneo, o autor apresenta alguns desses problemas: •• Chaves primárias inconsistentes; •• Inconsistências nos dados; •• Dados inválidos (essa deficiência deve ser atacada pelo processo de limpeza); •• Sinônimos e homônimos (ou seja, dados redundantes não são fáceis de reconhecer); •• Lógica de processo embutido (valores identificadores do tipo 0 e 1, que não são descritivos). A etapa de “Limpar” os dados consiste em retirar os que não respeitam as regras de negócio levantadas ou que estão incompletos. O uso de bases de estagiamento para manter os dados pós‑extração e durante os processos de transformação e limpeza é bastante comum. Por fim, os dados já transformados e limpos são persistidos no repositório data warehouse. Pós-graduação 81 Referências DILL, Sérgio Luis. Uma metodologia para desenvolvimento de Data Warehouse e Estudo de Caso. Dissertação submetida para obtenção do grau de Mestre em Ciência da Computação. Universidade Federal de Santa Catarina, Florianópolis, 2002. KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. Wiley, 2002. NAPOLI, Marcio. Aplicação de Ontologias para apoiar operações analíticas sobre fontes estruturadas e não estruturadas. 2011. Dissertação (Mestrado) ‑ Universidade Federal de Santa Catarina, Programa de Pós‑Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011. OLIVEIRA, Wilson J. Data Warehouse. Visual Books, Florianopolis, 2002. TEOREY, Toby; LIGHTSTONE, Sam; NADEAU, Tom. Projeto e Modelagem de Bancos de Dados. Elsevier, Rio de Janeiro, 2007. TURBAN, Efraim et al. Business Intelligence – Um enfoque gerencial para a inteligência do negócio. Editora Bookman, Porto Alegre, 2009. Data Warehouse 82 Modelagem Dimensional Flávio Ceci Para um projeto de um repositório de dados analíticos, aqui representado pelos Data Warehouse, é necessário, inicialmente, a definição de uma estratégia de implementação e implantação. Uma das fases iniciais do ciclo de vida de desenvolvimento de um DW é a identificação das necessidades do negócio, bem como o seu entendimento. Essa fase é muito importante, pois é por meio dela que são levantadas as perguntas a que se deseja responder, com a análise dos dados e informações contidas no DW e também como ele será organizado. Após o entendimento das necessidades e do próprio contexto organizacional, pode‑se atacar três frentes em paralelo: a arquitetura do DW, a sua modelagem dimensional, como será a camada de análise dos dados e informações armazenadas nele. Esta leitura é focada no processo de modelagem dimensional. Segundo Sell (2006), uma das primeiras fases de um projeto de um repositório é a identificação do modelo de dados, para isso, é preciso verificar os dados necessários e que podem ser obtidos junto aos sistemas transacionais. Uma das principais diferenças entre os repositórios do tipo DW e das fontes de dados transacionais é a forma como eles estão organizados, ou seja, qual a modelagem de dados utilizada. Segundo Silva (2011), geralmente os dados de bases relacionais encontram‑se em modelos que evitam redundância e possíveis inconsistências geradas por meio de inserções ou atualizações, que são os modelos entidade‑relacionamento. Esse modelo é eficiente para os sistemas transacionais, mas não é propício às análise que envolvam grande volume de dados. A modelagem dimensional apresenta‑se como alternativa ao modelo entidade‑relacionamento para auxiliar a análise de grandes volumes de dados. Segundo Sell (2006), esse modelo remete à ideia do cubo, contendo três ou mais dimensões, onde cada uma representa um atributo diferente. Para Silva (2011), o modelo dimensional, também conhecimento como esquema estrela, organiza os dados de uma forma intuitiva, que é focado no alto desempenho das consultas e é orientado à estratificação de informação. A modelagem de um DW é chamada de Modelagem Dimensional, esse nome é dado devido à forma com que as dados estão organizados. Como foi dito anteriormente, um DW é orientado ao assunto, que é representado pelas tabelas fato. Pós-graduação 83 Para Napoli (2011), na composição típica o modelo dimensional possui uma grande entidade central (fato), que representa a evolução dos negócios do dia a dia de uma organização, também apresenta um conjunto de entidades menores (dimensões), arranjadas ao redor da entidade central e utilizadas de maneira combinada, como variáveis de análise do fato. Segundo Oliveira (2002), as tabelas fato contêm muitos registros de valores e medidas relacionadas a vendas e transações de compras na empresa, em qua cada medida dessa é tomada segundo a interseção de todas as dimensões. Segundo Kimball e Ross (2002), quanto menor a granularidade de uma tabela fato, maior será o nível de detalhamento armazenado. A modelagem dimensional também é conhecida como modelo estrela, esse nome é dado devido à tabela fato estar ao centro, ligada às dimensões nas pontas. A Figura 1 ilustra essa analogia: Figura 1 - Exemplo da modelagem em estrela Fonte: Elaborado pelo autor, 2012. As dimensões podem ser classificadas como resposta a quatro perguntas: •• Quando? •• Quem? •• Onde? •• O quê? Data Warehouse 84 É nas dimensões que são armazenadas as informações complementares aos dados cadastrados na tabela fato, e são utilizadas como variáveis de corte e para auxiliar em filtros de ferramentas OLAP. Segundo Oliveira (2002), as dimensões contêm descrições textuais das dimensões do negócio, e elas geralmente são utilizadas como variáveis de corte ou filtros. Para Napoli (2011), as dimensões podem ser formadas por um conjunto de atributos, denominados hierarquias, que são utilizados como base para regras de agrupamentos, quebras e filtros em consultas a uma tabela de fato. Sabe‑se que o DW trabalha com dados consolidados por tempo, isso leva a crer que os sistemas de controle de processos das empresas armazenam os dados direto na base operacional (relacional). Sell (2006) desenvolveu um quadro que faz o comparativo entre fatos, dimensões e medidas: Quadro 1: Tabela descritiva de fatos, medidas e dimensões Escopo FATOS DIMENSÕES MEDIDAS Representam um item, uma transação ou um evento de negócio. Determinam o contexto de um assunto de negócios, como por exemplo, uma análise da produtividade dos grupos de pesquisa. São os atributos numéricos que representam um fato e são determinados pela combinação das dimensões que participaram desse fato. Objetivo Refletem a evolução dos negócios. São os balizadores de análise de dados. Representam o desempenho de um indicador de negócios relativo às dimensões que participam de um fato. Tipo de dado São representados por conjuntos de valores numéricos (medidas) que variam ao longo do tempo. Normalmente não possuem atributos numéricos, pois são somente descritivas e classificatórias dos elementos que participam de um fato. Podem possuir uma hierarquia de composição de seu valor. Fonte: Sell (2006), p.31. Segundo Datta e Thomas (1999) apud Napoli (2011), um cubo de dados é uma das peças fundamentais na criação e construção de um banco de dados dimensional, ele serve como uma unidade básica de entrada e saída para todos os operadores definidos em um banco de dados, ele contém células as quais são valores ou Pós-graduação 85 medidas que tomam como base um conjunto de dimensões. A Figura 2 apresenta um exemplo de cubo multidimensional, cujo assunto é as vendas de uma loja. Figura 2 ‑ Cubo multimensional de vendas de uma loja Produto 40 253 10 541 36 103 698 457 66 269 399 620 87 30 20 10 1 2 3 Loja Período 01/2003 02/2003 03/2003 Fonte: Campos (2005). A fase frontal do cubo apresentado na Figura 2 representa o assunto venda, ou seja, a tabela do tipo fato “vendas”, é possível perceber as dimensões utilizadas para chegar no valores apresentados, foram combinadas as dimensões produto x loja, ou seja, o cubo foi movido de maneira que foi apresentada a quantidade de vendas de produtos por lojas. Para facilitar o entendimento do processo de concepção de um modelo dimensional é apresentado a seguir um estudo de caso. Estudo de caso: Concepção de um modelo dimensional O cenário escolhido para ilustrar esse estudo de caso é o de uma biblioteca universitária. Essa biblioteca faz parte de uma das maiores universidades do Brasil, ela conta com mais de 20 mil usuários e é conhecida nacionalmente pelo seu vasto acervo. Como a área de pesquisa dessa universidade não para de crescer, a reitoria disponibilizou uma verba bastante significativa para a construção de um DW que auxilie na tomada de decisão. Data Warehouse 86 Como base de dados para a carga do DW, existe um sistema transacional que gerencia as operações diárias dessa biblioteca. A Figura 3 apresenta a modelagem relacional da base de dados utilizados por esse sistema: Figura 3 ‑ Modelo relacional da biblioteca universitária Fonte: Elaboração do autor, 2012. O modelo apresentado acima serve como base para a carga do DW, o sistema transacional que o utiliza gerencia as operações diárias da biblioteca, como por exemplo: •• Gerenciamento de usuários; •• Gerenciamento do acervo; •• Controle das multas referente a atrasos na devolução de livros. Após o entendimento do cenário base, foi levantado, junto aos gestores da biblioteca, quais necessidades eles possuem e quais perguntas eles gostariam de obter respostas por meio da implantação do DW. O que foi identificado junto aos gestores é que se deseja ganhar agilidade na compra dos livros, para isso é necessário identificar quais títulos são mais solicitados, para a compra de mais exemplares. Além desse ponto, deseja‑se Pós-graduação 87 identificar quais assuntos são mais solicitados, distribuídos pelos meses do ano, para facilitar a previsão na aquisição de novos títulos por assunto. Como a universidade não para de crescer, é previsto que ela se expanda para as cidades próximas, com isso, é importante saber se existem interesses em comum entre os moradores da cidade em questão. Como foi falado anteriormente, o DW deve auxiliar a compra de novos livros e na distribuição deles entre as cidades, caso aconteça e expansão da universidade. É sabido que a modelagem dimensional é centrada em “assuntos”, analisando o modelo relacional e as informações dadas pelos gestores. Tanto a análise para compra quanto a análise para a distribuição é centrada nos empréstimos feitos, ou seja, esse é o assunto em questão que se deve trabalhar no DW. Identificando o assunto, sabe‑se que, num modelo dimensional, ele é representado por uma tabela fato, ou seja, os valores que são totalizados são relacionados aos empréstimos feitos. Como foi verificado que todas as decisões que se deseja tomar são relacionadas aos valores dos empréstimos, não existe a necessidade de ter outras tabelas fato, mas é importante lembrar que num modelo dimensional podem existir muitas tabelas fato. Após identificar os “assuntos” que o DW irá tratar, devem‑se levantar as dimensões que são utilizadas para agrupar e cruzar as informações contidas no DW, para isso, devemos responder a questões do tipo: “quem?”, “quando?”, “o quê?” e “onde?”. Iniciando pelo “quem?”, é fácil verificar que associado está diretamente relacionado com a pergunta quem, mas em nenhum momento os gestores fizeram perguntas do tipo: “quem são os associados que...”, dessa maneira pode‑se dispensar essa dimensão. A próxima pergunta é “quando?”, pois os gestores falaram que se deseja agrupar valores por mês, então, essa será a unidade atômica de tempo, ou seja, tem‑se uma dimensão que possui todos os meses no formato “mês/ano”, os quais tiverem registros de empréstimo na base relacional. Identificando o “quando?” pode‑se passar para as questões “o quê?”, remetendo a: o que é emprestado? A resposta nos guia para a dimensão: Livro. A dimensão livro ajuda a saber quais títulos não estão suprindo a necessidade e devem ser comprados imediatamente. Outra informação que é importante ser utilizada como dimensão e está relacionada com Livro é Assunto, ou seja, quais os assuntos que estão sendo mais solicitados? Data Warehouse 88 Por fim, é perguntado “onde?” e pode‑se chegar à resposta de cidade, que é um dos requisitos apresentados na descrição das necessidades da camada gerencial. Concluído isso, podem‑se levantar as seguintes dimensões: tempo, livro, assunto e cidade. Para facilitar a visualização é apresentada a modelagem dimensional, a partir das informações levantadas na Figura 4: Figura 4 ‑ Modelagem dimensional para o DW da biblioteca Fonte: Elaboração do autor, 2012. Por meio do modelo apresentado são facilmente respondidos quais foram os assuntos de livros mais requisitados por moradores de uma cidade no período de um ano, apenas fazendo cruzamento das dimensões e totalizando os valores da tabela fato_empréstimo. O modelo responde às necessidades solicitadas pela gerência da biblioteca e permite, de maneira mais intuitiva e rápida, o consumo das suas informações. Abordagens para desenvolvimento de um DW Para a modelagem e desenvolvimento do DW do estudo de caso apresentado anteriormente, o autor segue alguns passos. Mas vale lembrar que existem várias outras abordagens para o desenvolvimento de um DW. Sempre que se fala em data warehouse, é difícil não se lembrar dos autores principais desse assunto: Inmon e Kimball, cada um desses autores apresenta abordagens diferentes, apresentadas a seguir. Inicialmente, é apresentanda a abordagem de Inmon, que se pode entender como “de cima para baixo” ou em inglês top down. Segundo Dill (2002), a abordagem de Inmon requer que o planejamento e o projeto sejam Pós-graduação 89 efetuados no início do projeto, o que traz a necessidade de envolver pessoas de todos os departamentos envolvidos na implementação do DW. Nessa abordagem, a criação dos data marts são feitas a partir do DW já construído e não diretamente dos dados operacionais. Na abordagem de Kimball ou de “baixo para cima”, em inglês bottom up, trabalha com a ideia de, primeiramente, construir os data marts por setor, não necessitando da visão global do repositório, o que não necessita do envolvimento de todos os setores na primeira fase de planejamento e projeto. O DW é construído à medida que os data marts são feitos. Segundo Dill (2002), os data marts são carregados a partir dos dados existentes nas bases operacionais, e o DW vai tendo os data marts incorporados dentro dele. No livro de Turban et al (2009), é apresentado um quadro com o comparativo das duas abordagens, o mesmo pode ser observado no Quadro 2: Quadro 2 - Comparativo da abordagem de Inmon e Kimball Característica Inmon Kimball Metodologia e arquitetura De cima para baixo De baixo para cima Abordagem geral DW para toda a empresa (atômico) “alimenta” os bancos de dados departamentais Os data marts modelam um único processo de negócio, e chega‑se à consistência da empresa por meio de um barramento de dados e do ajustar‑se às dimensões Complexidade do método Bastante complexo Bastante simples Comparação com metodologias consagradas de desenvolvimento Derivado da metodologia espiral Processo de quatro passos; uma fase dos métodos de sistema de gerenciamento de banco de dados relacional. Discussão do projeto físico Bastante detalhada Bastante leve Modelagem de dados Orientada por assunto Orientada por processo Acessibilidade ao usuário final Baixa Alta Objetivo Proporcionar uma solução técnica sólida com base em métodos e tecnologias comprovadas de banco de dados Proporcionar uma solução que facilite aos usuários finais fazer consultas diretas aos dados e ainda obter tempos razoáveis de resposta Fonte: Turban et al (2009, p. 78). Data Warehouse 90 Alguns autores afirmam que é possível trabalhar com uma abordagem mista, que utiliza vantagens específicas de cada modelo para o seu cenário em questão (DILL, 2002). Evolução do DW A ideia do uso dos repositórios do tipo DW está cada vez mais presente nas organizações, por conta dessa demanda, é comum novos trabalhos sobre esse tema, o que é muito bom, pois faz com que essa abordagem acompanhe a evolução dos cenários que as emprega. No livro de Inmon, Strauss e Neusjloss (2007), foi cunhado o termo DW 2.0, que trata da chamada segunda geração dos data warehouse. Nessa nova abordagem, o DW não se preocupa apenas em integrar dados de várias bases operacionais, mas também integrar dados estruturados com dados não estruturados (texto livre). O trabalho de Silva (2011, p. 36) apresenta mais detalhes sobre os DW 2.0: a segunda geração do DW apresenta distintos setores conforme a necessidade de acesso e a temporalidade da informação. Esses setores são: Interactive, Integrated, Near line e Archival. Outra mudança importante é que os metadados, tanto técnicos quanto de negócio, precisam de um ambiente comum e uma estrutura local para cada componente das plataformas de BI. Como pode ser observado, a evolução do DW para o DW 2.0 segue as mesmas tendências previstas para a evolução da área de business intelligence, é sabido que o chamado BI 2.0 e BI 3.0 considera também a análise dos dados não estruturados, bem como o cruzamento das informações do repositório com os provenientes da web. Referências CAMPOS, R. A. Qualidade de dados em Data Warehouse. TCC (Graduação em Bacharelado em Sistemas de Informação). Centro de Ensino Superior de Juiz de Fora, Juiz de Fora, 2005. INMON, W.; STRAUSS, D.; NEUSHLOSS, G. DW 2.0 The Architecture for the Next Generation of Data Warehousing. 2007. KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. Wiley, 2002. Pós-graduação 91 NAPOLI, Marcio. Aplicação de Ontologias para apoiar operações analíticas sobre fontes estruturadas e não estruturadas. 2011. Dissertação (Mestrado) ‑ Universidade Federal de Santa Catarina, Programa de Pós‑Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011. OLIVEIRA, Wilson J. Data Warehouse. Visual Books, Florianopolis, 2002. SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias semânticas para suporte a aplicações analíticas. 2006. Tese (Doutorado) ‑ Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós‑Graduação em Engenharia de Produção, Florianópolis, 2006. SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para processamento analítico baseado em tecnologias semânticas e em linguagem natural. 2011. Dissertação (Mestrado) – Universidade Federal de Santa Catarina, Programa de Pós‑Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011. TURBAN, Efraim et al. Business Intelligence – Um enfoque gerencial para a inteligência do negócio. Editora Bookman, Porto Alegre, 2009. Data Warehouse 92 Atividades de Autoaprendizagem 1) Levando em consideração o conteúdo apresentado nesta unidade, assinale as alternativas verdadeiras com V e as falsas com F: a. ( ) A utilização dos repositórios do tipo DW estão cada vez mais presentes nas empresas. b. ( ) O processo de integração dos dados é algo bastante simples e rápido de conceber. c. ( ) Os dados nas tabelas fato são agrupados e consolidados de modo a facilitar o consumo da informação. d. ( ) Pode‑se fazer uma analogia das dimensões de um DW com filtros a serem aplicados numa consulta. e. ( ) As abordagens de DW estão em constante evolução, a prova disso é a concepção do chamado DW 2.0. f. ( ) As medidas de um DW é uma nomenclatura equivalente a tabelas fato. Atividade colaborativa Nesta unidade, você estudou uma série de conceitos relacionados com sistemas de informação e sistemas de apoio à decisão. Responda à pergunta a seguir utilizando a ferramenta Fórum, não se esqueça de comentar as respostas dos seus colegas. Nesta unidade, foi estudado sobre os repositórios data warehouse, também foi visto que Inmon, considerado como um dos pais dessa abordagem já trabalha com o conceito do DW2.0. Sendo assim, faça um paralelo dessa evolução com a evolução do BI, BI 2.0 e BI 3.0. Pós-graduação 93 Síntese Nesta unidade, são estudados os componentes de um DW, bem como qual o seu ciclo de vida de desenvolvimento, qual a sua importância para a tomada de decisão, sua arquitetura básica, como se dá a integração e carga dos seus dados, quais as suas possíveis abordagens e construções. Saiba Mais Bill Inmon apresenta um artigo para o site Information Management, falando sobre as novas tendências dos Data Warehouse e mais detalhes sobre DW2.0; é uma leitura bastante interessante, vale a pena: http://www.information‑management.com/issues/20060401/1051111‑1.html Data Warehouse Unidade 4 Descobrindo o conhecimento Objetivos de Aprendizagem •• Compreender as fases do processo de descoberta de conhecimento em volume de dados. •• Conhecer técnicas de mineração existentes e aplicáveis em um sistema de Business Intelligence. ••Julgar o uso de cada técnica levando em consideração o contexto do problema. Introdução O conhecimento junto aos ativos intangíveis das organizações está cada vez mais ganhando espaço como um dos bens mais valiosos para as chamadas organizações do conhecimento. Os sistemas de apoio à decisão surgiram como resposta à falta de sistemas focados em auxiliar a camada gerencial. Com a evolução desses sistemas nascem as soluções de Business Intelligence, que possuem repositório de dados unificados, pré‑processados e com uma organização focada para facilitar a análise dos seus dados. Para conseguir chegar ao conhecimento que está implícito nesses dados e nos repositórios de documentos, devem‑se utilizar soluções baseadas em descoberta de conhecimento. Esta unidade está focada nas estratégias de descoberta de conhecimento, utilizando como fonte bancos de dados ou textos não estruturados, que sejam relevantes para o domínio da organização. 96 Introdução à descoberta de conhecimento Flávio Ceci A utilização de repositórios centralizados de informação, como os Data Warehouse, auxilia a organizar os dados espalhados pelas várias bases da organização e os modela de modo a facilitar a análise. Normalmente, o DW tem os seus dados modelados utilizando a modelagem dimensional, que os organiza de maneira mais apropriada para a análise, tanto humana quanto computacional. Desse modo, o acesso à informação fica muito mais fácil e rápido. Cada vez mais as organizações estão dando atenção para as suas informações e conhecimentos implícitos nas bases de dados e documentos. Segundo Garcia, Varejão e Ferraz (2005), a informação e o conhecimento vêm movimentando o desenvolvimento mundial, e cada vez mais são necessárias pessoas especializadas e ferramentas para auxiliar na aquisição, representação, manipulação, apresentação e armazenamento. Com os dados organizados e armazenados no DW, o próximo passo para a descoberta de conhecimento é aplicar métodos de análises estatísticas e de inteligência artificial (IA), dessa maneira, novas relações e informações serão descobertas (CARVALHO, 2005). A descoberta de conhecimento é a etapa que visa a entregar conteúdo de mais valor para os tomadores de decisão da organização. Tradicionalmente, a descoberta de conhecimento é sensível aos tipos de dados que se utiliza como fonte. Essas fontes podem armazená‑los não estruturados ou estruturados. Entende‑se como dados estruturados aqueles que possuam uma estrutura que facilite a sua organização, armazenamento e recuperação, pode‑se citar como exemplo aqueles armazenados em bancos de dados, em arquivos XML, JSON, entre outros. Os dados não estruturados são armazenados geralmente em linguagem natural, ou seja, estão em livros, manuais, revistas, blogs, nas redes sociais, entre outros. A recuperação de informação para esse tipo de dado é muito mais complexa, já que não existe um padrão pré‑definido que facilite a sua organização. Tendo em vista os dois tipos de dados apresentados anteriormente existem técnicas específicas para a análise de cada tipo. Para a análise de dado estruturada, utiliza‑se o processo chamado de: descoberta de conhecimento em banco de dados, em inglês: Knowledge Discovery in Database (KDD), para a análise dos dados não estruturados utiliza‑se a técnica descoberta de conhecimento em Pós-graduação 97 bases textuais, em inglês: Knowledge Discovery in Text (KDT), a Figura 1 mostra graficamente as informações apresentadas nesse parágrafo: Figura 1 - Tipos de descoberta de conhecimento Descoberta de conhecimento KDT KDD Banco de Dados Documentos não estruturados Fonte: Elaboração do autor (2012). A grande quantidade de dados existentes em bancos de dados ou via internet tornou‑se um desafio para as pessoas cuja função é a tomada de decisão. Os métodos tradicionais de transformação de dados em conhecimento dependem da análise e da interpretação pessoal deles, o que é um processo lento, caro e altamente subjetivo. Nesse contexto, faz‑se necessária uma metodologia capaz de extrair informações úteis para o suporte às decisões, estratégias de marketing e campanhas promocionais, entre outras. A busca por essas informações é realizada utilizando‑se sofisticadas técnicas na análise daqueles dados, a fim de encontrar padrões e regularidades neles. A esse processo dá‑se o nome de Descoberta de Conhecimento em Banco de Dados (REZENDE, 2005). Descoberta de conhecimento e mineração de dados Embora muitos autores usem o termo mineração de dados (data mining) como sendo um passo particular do KDD, que consiste na aplicação de algoritmos específicos para a extração de padrões a partir das bases de dados, neste texto, o qual está baseado em diversos autores e em concordância com vários deles, trataremos os termos KDD e mineração de dados como sinônimos. Descobrindo o conhecimento 98 A Figura 2 apresenta a relação entre KDD e data mining: Figura 2 - Relação entre KDD e DM KDD Data Mining Fonte: Carvalho (2002). As ferramentas de data mining podem prever futuras tendências e comportamentos, permitindo às empresas um novo processo de tomada de decisão, baseado, principalmente, no conhecimento acumulado e, frequentemente, deixado de lado, contido em seus próprios bancos de dados. Um dado é a estrutura fundamental sobre a qual um sistema de informação atua. A informação pode ser vista como uma representação ordenada e enxuta dos dados resultantes de uma consulta que permite a visualização e interpretação deles. O conhecimento provém da interpretação das informações apresentadas pelo sistema de banco de dados. Existem muitas áreas que dão apoio ao processo de tomada de decisão, veja a Figura 3: Figura 3 - Áreas relacionadas com a descoberta do conhecimento Sistema Especialista Aprendizado de Máquina Visualização Estatística Descoberta de Conhecimento Processamento de Linguagem natural Fonte: Adaptado de Adriaans e Zantinge (1996). O processo de descoberta de conhecimento conta com a utilização de abordagens estatísticas, aprendizagem de máquina, sistemas especialistas, processamento de linguagem natural, entre outras. Outra etapa muito importante é como apresentar e visualizar o conhecimento extraído a partir das informações. Pós-graduação 99 Referências ADRIAANS, P.; ZANTINGE, D. Data mining. Addison Wesley Longman, England, 1996. CARVALHO, D. R. Um método híbrido árvore de decisão / algoritmo genético para data mining, Tese Doutorado – PUCPR, Curitiba, 2002. CARVALHO, Luís Alfredo V. Data Mining: A Mineração de Dados no Marketing, Medicina, Economia, Engenharia e Administração. Editora Ciência Moderna. Rio de Janeiro, 2005. GARCIA, Ana Cristina B.; VAREJÃO, Flávio M.; FERRAZ, Inhaúma N. Aquisição de Conhecimento. In Sistemas Inteligentes: Fundamentos e Aplicações. Organização: REZENDE, Solange O. Editora Manole, São Paulo, 2005. REZENDE, Solange. Sistemas Inteligentes; Fundamentos e aplicações. São Paulo: Ed. Manole, 2005. Descobrindo o conhecimento 100 O processo de KDD Flávio Ceci e Gláucio Adriano Fontana As tecnologias para armazenamento de informação são tão comuns quanto numerosas. Junta‑se a isso a vontade dos empreendedores de extrair o máximo de vantagem de suas informações. Esses elementos tornam a mineração de dados e a busca de conhecimento a partir de banco de dados uma área de conhecimento em crescente expansão nos dias de hoje. Será rara, em um futuro próximo, uma empresa ou organização que não invista nas tecnologias do conhecimento. Segundo Navega (2002), talvez a definição mais importante de Data Mining ou Mineração de Dados tenha sido elaborada por Fayyad et al. (1996) apud Navega (2002), “[...] o processo não‑trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis”. Navega (2002) expõe ainda que esse processo vale‑se de diversos algoritmos (muitos deles desenvolvidos recentemente), que processam os dados e encontram esses “padrões válidos, novos e valiosos”. É preciso ressaltar um detalhe que costuma passar despercebido na literatura, embora os algoritmos atuais sejam capazes de descobrir padrões “válidos e novos”, ainda não temos uma solução eficaz para determinar padrões valiosos. Por essa razão, o Data Mining ainda requer uma interação muito forte com analistas humanos, que são, em última instância, os principais responsáveis pela determinação do valor dos padrões encontrados. Além disso, a condução (direcionamento) da exploração de dados é também tarefa fundamentalmente confiada a analistas humanos, um aspecto que não pode ser desprezado em nenhum projeto que queira ser bem sucedido. Data Mining é parte de um processo maior de conhecimento denominado Knowledge Discovery in Database (KDD). KDD consiste, fundamentalmente, na estruturação do banco de dados; na seleção, preparação e pré‑processamento dos dados; na transformação, adequação e redução da dimensionalidade dos dados; no processo de Data Mining; e nas análises, assimilações, interpretações e uso do conhecimento extraído do banco de dados, por meio do processo de Data Mining. As tarefas de mineração de dados (ou processo de descoberta de conhecimento em bancos de dados – KDD ‑ Knowledge Discovery in Database) auxiliam esse processo de aquisição de conhecimento. Diversos algoritmos de mineração existem e cada um possui uma particularidade e aplicação. Pós-graduação 101 As tarefas concernentes ao processo de KDD incluem dificuldades com a extração, preparação e validação dos dados extraídos e a alocação de recursos no cliente e, frequentemente, são subestimadas durante o planejamento dos cronogramas para a execução dos projetos. As atividades de obtenção e limpeza dos dados geralmente consomem mais da metade do tempo dedicado ao trabalho. Em se tratando de regras de classificação (uma das técnicas de mineração de dados que se propõe a agrupar conjuntos de padrões semelhantes para análise), a maioria das ferramentas de data mining se reporta a problemas de classificação que atentam a encontrar regras que particionam dados em conjuntos disjuntos. Aplicações incluem aprovação de crédito, determinação de perfil de clientes etc. Por exemplo, se há um registro de vendas de produtos em um supermercado, pode‑se particionar conjuntos de produtos como ‘altamente lucrativos’, ‘na média’ ou ‘não lucrativos’, baseando‑se no lucro da rede e no volume de vendas. Isto é, se a tecnologia corrente em bancos de dados não puder acomodar diretamente a história das vendas, não se poderá deduzir a evolução da lucratividade de itens individuais. Origem dos dados Como o próprio nome sugere no processo KDD, a descoberta de conhecimento é feita em cima do banco de dados da organização. É recomendado que se utilize um repositório de dados como Data Warehouse (DW), o qual os armazena de maneira centralizada e já pré‑processados, facilitando a sua análise. Caso a organização não disponha, pode‑se utilizar uma base operacional, mas o resultado pode não ser tão efetivo. Outro problema que pode ocorrer, utilizando como base uma base operacional, é a falta de agilidade na resposta. Vale lembrar que todas as transformações, limpezas e agrupamentos feitos pelo processo de ETL para o DW, não estão presente nas bases operacionais das organizações, o que reflete numa quantidade de dados maior e não orientadas à análise, e sim a processo, o que dificulta o trabalho das técnicas e das ferramentas de mineração de dados, refletindo diretamente na performance da análise. Descobrindo o conhecimento 102 Características dos dados Sobre as características de dados, Romão (2002) afirma que elas, quando incorporadas nos dados de análise, tais como número de registros, tipo dos dados, e quantidade de erros, afetam diretamente a exatidão da aprendizagem, de forma bastante significativa. Tendo em vista esse detalhe, pode‑se concluir que comparada com os efeitos de algumas características dos dados, a escolha do algoritmo de aprendizagem se torna menos importante. Para se ter certeza do impacto, Romão (2002) diz que se deve considerar os seguintes questionamentos: •• Quais características dos dados afetam mais a mineração de dados? •• Como estas características interagem entre si? •• Os dados podem ser caracterizados de forma a melhorar a descoberta de conceitos? Percebe‑se que são necessárias etapas para preprocessar esses dados antes de submetê‑los aos algoritmos de mineração de dados. A seguir, são apresentadas as etapas do processo KDD. Etapas do processo de KDD Segundo Dias (2002), o termo processo remete ao entendimento que existem vários passos envolvendo preparação de dados, procura por padrões, avaliação de conhecimento e refinamento. Todos esses passos são interativos e iterativos, ou seja, dependem da constante interferência de um técnico especialista e se repetem de acordo com a necessidade: 1. Conhecimento do domínio da aplicação: inclui o conhecimento relevante anterior e as metas da aplicação, ou seja, a identificação do problema. Esse passo utiliza o domínio do especialista para identificar problemas importantes e os itens necessários para resolvê‑los. Entretanto, é importante que essa etapa seja realizada em conjunto com um engenheiro de conhecimento. 2. Criação de um banco de dados alvo: definir o local de armazenamento e selecionar um conjunto de dados ou dar ênfase para um subconjunto de dados nos quais o “descobrimento” será realizado. Pós-graduação 103 3. Pré‑processamento: inclui operações básicas, como remover ruídos ou subcamadas, se necessário, coletando informação para modelar, decidindo estratégias para manusear (tratar) campos, onde se nota facilmente que não influenciam na solução das perguntas que se deseja responder. É a fase mais trabalhosa e frequentemente a mais demorada de todo o processo. 4. Transformação de dados e projeção: consiste em encontrar formas práticas para representação dos dados, dependendo da meta do processo e o uso de redução de dimensões e métodos de transformação para diminuir o número efetivo de variáveis que deve ser levado em consideração; ou encontrar representações invariáveis para os dados. 5. Mineração de dados (Data Mining): A fase que muitas vezes dá nome ao processo de KDD inclui a decisão do propósito do modelo derivado do algoritmo de mineração. Além dessa decisão, é necessário selecionar métodos para serem usados na procura por padrões nos dados, bem como decidir quais modelos e parâmetros podem ser apropriados, determinando um método de mineração particular a ser aplicado. Referem‑se a dados que provavelmente contenham erros de digitação ou valores absurdos. 6. Interpretação: inclui a interpretação dos padrões descobertos e o possível retorno a algum passo anterior, além de uma possível visualização dos padrões extraídos, removendo aqueles redundantes ou irrelevantes e traduzindo os úteis em termos compreendidos pelos usuários. 7. Utilização do conhecimento obtido: inclui a necessidade de incorporar este conhecimento para a melhora de performance do sistema, adotando ações baseadas no conhecimento, ou simplesmente documentando e reportando esse conhecimento para grupos interessados. Descobrindo o conhecimento 104 Figura 1 - Fases do processo KDD Fonte: Imasters, 2012. A Figura 1 apresenta a interação e o fluxo entre as sete etapas apresentadas do processo KDD; vale lembrar que alguns autores podem considerar mais ou menos etapas. A Figura 2 apresenta os processos KDD na visão de Romão (2002): Figura 2 - Processo KDD na visão de Romão (2002) Dados Dados Integração Pré Processamento Mineração dos Dados Pós Processamento Conhecimento Fonte: Romão (2002). Pós-graduação 105 Analisando a Figura 2, o autor parte do processo de integração dos dados das bases e/ou uso de repositórios, parte‑se para o processo de pré‑processamento que contempla a seleção de atributos e transformações sobre os dados; aplicação de métodos (algoritmos) de mineração de dados para extrair os padrões deles; por fim, é avaliado o resultado da etapa de mineração de dados para identificar os padrões considerados como conhecimento. A seguir são apresentados os tipos de usuários envolvidos no processo de KDD. Classe de usuários envolvidos no processo KDD O processo KDD possui alguns perfis de usuários que são auxiliares e participam do processo KDD. Segundo Oliveira (2000), as classes de usuários envolvidos são: •• Especialista do Domínio: é o responsável por deter o entendimento do domínio da aplicação. Durante a etapa de análise de dados, o especialista é sensível a qual área está sendo analisada, como por exemplo, se o contexto analisado for o de vendas o especialista pode ser o diretor de marketing; •• Analista: é responsável pela execução do processo KDD. Deve possuir amplo conhecimento das etapas que fazem parte desse processo. Ele pode ser o analista de sistemas, estatístico ou administrador de banco de dados da organização; •• Usuário final: é frequentemente aquele que utiliza o conhecimento extraído no processo de KDD para auxiliá‑lo em um processo de tomada de decisão. A interação entre as classes de usuário é bastante importante para o processo como um todo. Segundo Oliveira (2000), durante a realização do processo KDD, a interação e comunicação entre o analista, especialista do domínio e usuário final é muito importante uma vez que o sucesso da extração de conhecimento depende da comunicação entre eles. Descobrindo o conhecimento 106 Pesquisas sobre KDD atuais O uso do KDD é uma prática bastante utilizada e atual, tendo em vista isso, as pesquisas nessa área continuam constantes. No trabalho de Dias (2002) foram identificados alguns desafios para a área: •• Grandes conjuntos de dados e alta dimensionalidade; •• Interação com o usuário e conhecimento anterior adquirido; •• Dados perdidos; •• Gerenciamento de mudança de variáveis e conhecimento; •• Interação; •• Multimídia e dados orientados a objetos. O trabalho do autor apresentado anteriormente foi desenvolvido há, pelo menos, 10 anos, e muitos desses desafios não foram solucionados ainda. Pode‑se encarar também como o “futuro” ou o presente das pesquisas relacionadas com KDD a utilização de conteúdo semântico na cruzada de informação dimensional. Referências DIAS, Cristiano Araujo. Descoberta de Conhecimento em Banco de Dados para Apoio à Tomada de Decisão. Especialização em Informática Empresarial. Unesp. Guaratinguetá, 2002. NAVEGA, Sergio. Princípios do DataMining. Cenadem 2002, Anais do Infoimagem, 2002. Disponível em: <http://www.intelliwise.com/reports/i2002.htm>. Acesso em: março de 2012. OLIVEIRA, Robson Butaca Taborelli de. O Processo de Extração de Conhecimento de Base de Dados Apoiado por Agentes de Software. (Dissertação) Ciência da Computação. Universidade de São Paulo. São Carlos, 2000. ROMÃO, Wesley. Descoberta de Conhecimento Relevante em Banco de Dados sobre Ciência e Tecnologia. (Tese) Programa de Pós‑Graduação em Engenharia de Produção. Universidade Federal de Santa Catarina. Florianópolis, 2002. Pós-graduação 107 Técnicas de Mineração de Dados Flávio Ceci e Gláucio Adriano Fontana A evolução da computação permitiu a automatização de uma série de processos organizacionais, bem como a comunicação interna e externa. No entanto, junto a essa evolução nasce a explosão na quantidade de dados produzidos. Segundo Witten e Frank (2000), um dos grandes problemas atuais é a produção desordenada de dados a partir das operações de um indivíduo ou organização. Essa grande quantidade faz emergir a necessidade de discos de armazenamento maiores, e esse processo nunca para, ou seja, sempre será necessário comprar um novo disco rígido maior. Junto ao armazenamento, surge a necessidade de recuperação, de maneira rápida e eficiente, o que faz as organizações se preocupar em como organizar esses dados. É sabido que por trás dos dados brutos se esconde uma grande quantidade de informações e conhecimento valiosos para a tomada de decisão. O uso das técnicas de mineração de dados (em inglês Data Mining) com a criação de repositórios de dados organizacionais representam processos imprescindíveis para a descoberta de conhecimento. Para Rezende (2003), o uso de técnicas de mineração de dados se dá pela combinação de uma série de algoritmos que definem um paradigma de extração de conhecimento, é importante destacar que para uma mesma técnica pode‑se utilizar mais de um algoritmo. Processos da mineração de dados Para que as técnicas de mineração de dados obtenham sucesso na sua análise e atuem na resolução dos problemas, é necessário que sejam efetuados alguns processos. A Figura 1 foi retirada do trabalho de Quoniam et al (2001), que apresenta todos os seus processos. Descobrindo o conhecimento 108 Figura 1 - Processos para a mineração de dados Base de Dados Bruta Visualiza 2ª Etapa de Seleção dos Dados Limpa 1ª Etapa Problema que será objeto de estudo Base de Dados de Trabalho 3ª Etapa de Preparação dos Dados Data Mining Análise dos resultados Assimilação do Conhecimento 4ª Etapa de Análise dos dados Fonte: Quoniam et al (2001). Inicialmente, é identificado qual (quais) problemas se deseja resolver utilizando as técnicas de mineração de dados. Além disso, pode‑se partir para o levantamento das perguntas que se deseja responder com a sua utilização. A segunda etapa do processo é a seleção e organização dos dados que serão utilizados como base para a análise. Essas duas etapas iniciais são comuns no processo de implementação de um data warehouse e podem ser reaproveitadas. A terceira etapa está focada na preparação dos dados, é o pré‑processamento. Agora eles são organizados de modo a serem melhor analisados pelos algoritmos utilizados. Na quarta e última etapa é feita a análise propriamente dita e aplicado o algoritmo para a mineração de dados, a fim de explicitar novas informações e conhecimentos de domínio da organização. A utilização das técnicas de mineração de dados não estão limitadas ao domínio da computação, muitas outras áreas também a utilizam, na próxima seção são apresentadas essas áreas com mais detalhes. Pós-graduação 109 Segmentos para o uso de mineração de dados Muitas são as áreas e segmentos que fazem uso das técnicas de mineração de dados, segundo Carvalho (2005), muitos são os exemplos do seu uso. A seguir são apresentados alguns desses exemplos, levantados do livro desse autor: •• Aplicações do governo: o governo americano utiliza mineração de dados há bastante tempo para identificação de padrões de transferências de fundos internacionais, que se parecem com a manipulação do dinheiro pelo narcotráfico; •• Supermercados: algumas redes de supermercados utilizam‑se de técnicas de mineração de dados para oferecerem ofertas a seus clientes de maneira personalizada, a partir dos dados anteriores de suas compras; •• Na medicina: o uso de mineração de dados para auxiliar na detecção de doenças a partir de sintomas e do histórico de saúde do paciente. Segundo Martinhago (2005), não existe uma só técnica que pode ser aplicada a fim de solucionar um problema ou fazer uma análise, mas existem técnicas que são mais eficientes para resolver melhor alguns problemas, por esse motivo deve‑se conhecer bem as técnicas de mineração de dados, seus algoritmos e suas possíveis aplicações. Muitas são as técnicas utilizadas de mineração de dados para os mais variados fins, as mais utilizadas são: •• Classificação de dados (data classification): consiste no processo de encontrar propriedades comuns e um determinado conjunto de objetos de um banco de dados e classificá‑los em diferentes classes, de acordo com um modelo de classificação. Para construir um modelo de classificação, um banco de dados de exemplo é definido como o conjunto de treinamento, onde cada tupla, que se pode definir com uma linha de uma tabela do banco de dados, consiste em um conjunto de múltiplos atributos comuns das tuplas de um grande banco de dados e, adicionalmente, cada tupla contém um rótulo marcado com a identificação de uma classe conhecida associada a ela. O objetivo da classificação de dados é primeiro analisar o conjunto de treinamento e desenvolver uma apurada descrição ou modelo para futuros testes, com os dados de um grande banco de dados. Os passos básicos são: definição de um conjunto de exemplos conhecidos (treinamento); treinamento sobre esse conjunto; gerar regras de classificação ou descrição. Descobrindo o conhecimento 110 •• Clusterização: instintivamente, as pessoas visualizam os dados segmentados em grupos discretos, como, por exemplo, tipos de plantas ou animais. Na criação desses grupos discretos pode‑se notar a similaridade dos objetos em cada grupo. Enquanto a análise de grupos é frequentemente feita de modo manual em pequenos conjuntos de dados, para grandes conjuntos, um processo automático de clusterização (dataclustering), por meio da tecnologia de mineração de dados é mais eficiente. Em adição, os cenários existentes são muito similares, tornando‑os competitivos, requerendo a utilização de algoritmos complexos, que determinem a segmentação mais apropriada. Nesse método de mineração, considerado do tipo “divisão e conquista”, o algoritmo deve criar as classes por meio da produção de partições do banco de dados em conjuntos de duplas. Essa partição é feita de modo que duplas com valores de atributos semelhantes, ou seja, propriedades de interesse comuns sejam reunidas dentro de uma mesma classe. •• Estimativa: estimar algum índice é determinar seu valor mais provável diante de dados de outros índices semelhantes sobre os quais se têm conhecimento. Suponha que se deseja saber o gasto de famílias cariocas com lazer e que para isso existam índices de gastos de famílias paulistanas com lazer em função da faixa etária e padrão sociocultural. Não sabemos exatamente quanto as famílias cariocas gastam com lazer, mas podemos estimar, baseados nos dados das famílias paulistanas. Certamente, essa estimativa pode nos levar a erros, uma vez que Rio de Janeiro e São Paulo são cidades com geografias diferentes e oferecem diferentes opções de lazer a seus frequentadores. A arte de estimar é exatamente esta: determinar da melhor forma possível um valor, baseando‑se em outros valores de situações idênticas, mas nunca exatamente iguais. •• Previsão: resume‑se na avaliação do valor futuro de algum índice, baseando‑se em dados de comportamento passado a esse índice. A previsão pode incluir tarefas como: se o índice da bolsa de valores X irá subir ou descer amanhã, quanto o valor da bolsa irá variar, qual será a população de uma cidade Y daqui a dez anos, entre outras. O único meio de verificarmos se uma previsão foi bem feita é aguardar o acontecimento do fato e conferir se ela se verificou ou não. •• Regras de associação: determinam que fatos ocorrem simultaneamente com probabilidade razoável de co‑ocorrência, ou que itens em uma massa de dados estão presentes juntos (correlação). Vendas casadas ou a análise de um carrinho de supermercado para ver quais itens os clientes compram conjuntamente, são exemplos desta técnica. Uma regra de associação é definida como: “Se X então Y” ou “X ÞY”, onde X e Y são Pós-graduação 111 conjuntos de itens e X Ç Y = Æ. Diz‑se que X é o antecedente da regra, enquanto que Y é o consequente dela. Um algoritmo baseado em regras de associação consiste em descobrir esse tipo de regra entre os dados preparados para a garimpagem. Medidas estatísticas revelam a frequência de uma regra no universo dos dados garimpados. Para clarificar o entendimento de como funcionariam técnicas de mineração de dados aplicadas sobre uma massa de dados, seja ela proveniente de informações de um DW, de um banco de dados transacional ou da Web (webmining), são demonstrados dois exemplos de regras de associação e de clusterização, mostrando como se pode descobrir nova informação e assumi‑la como regra, isto é, conhecimento. Utilizando Regras de Associação para venda casada Pense em uma cadeia de lojas de farmácias. Deseja‑se saber quais produtos desencadeiam a compra de outros. Por exemplo, ao encontrar a seguinte associação {mercúrio, gaze, esparadrapo} Þ {algodão} (0,78), significando que 78% dos clientes que compram mercúrio, gaze, esparadrapo também compram algodão, o gerente de uma farmácia pode veicular campanhas publicitárias utilizando esses produtos, dispô‑los em lugares próximos na prateleira, entender o porquê de uma possível queda nas vendas de alguns dos produtos, entre outras conclusões. Muitos algoritmos foram desenvolvidos com o objetivo de descobrir regras de associação. Desses, o mais utilizado é o Apriori, sendo que os demais ou são extensões deste ou o utilizam (AGRAWAL, 1995 apud CARVALHO, 2000). O algoritmo Apriori realiza a garimpagem em dois passos: geração e poda. No primeiro, é feita uma varredura sobre o arquivo, a fim de gerar todos os conjuntos de combinações de valores de colunas que aparecem no arquivo. No segundo, são considerados apenas aqueles conjuntos que aparecem no arquivo com uma frequência não menor que um valor mínimo pré‑fixado, são os chamados grandes conjuntos. A medida da frequência de um conjunto X de valores é chamada de suporte, assim definido: Suporte (X) = Nº de registros que contêm os elementos do conjunto X Nº total de registros do arquivo Descobrindo o conhecimento 112 E o fator de confiança da regra é dado por: Confiança (R) = Nº de registros com X e Y Nº de registros com X Na tabela seguinte, exemplificando um espaço amostral de dez registros, considera‑se 1 para produto comprado por cada cliente. Tabela 1 ‑ Transações de vendas a clientes Transação Gaze Esparadrapo Mercúrio 1 1 1 0 2 1 1 0 3 1 1 1 4 1 1 1 5 1 1 1 6 1 1 1 7 1 0 1 8 1 1 1 9 0 1 1 10 1 1 1 Fonte: Carvalho (2000). E considerando‑se um grau de confiança mínimo de 0,80, os cálculos denotaram as seguintes relações válidas (com grau de confiança superior ao mínimo): Tabela 2 ‑ Regras com confiança maior que o mínimo Regra {Gaze}=Esparadrapo 0,88 {Esparadrapo}=Gaze 0,88 {Gaze}=Mercúrio 0,77 {Mercúrio}=Gaze 0,87 {Esparadrapo}=Mercúrio 0,77 {Mercúrio}= Esparadrapo 0,87 {Gaze, Esparadrapo}=Mercúrio 0,75 {Gaze, Mercúrio}= Esparadrapo 0,85 {Esparadrapo, Mercúrio}=Gaze 0,85 Fonte: Carvalho (2000). Pós-graduação Fator de confiança 113 Quem leva mercúrio também leva gaze? Vale comentar aqui que essa relação nem sempre é comutativa. Veja as linhas 3 e 4 da tabela. Ela contém valores diferentes e regras inválidas e válidas, respectivamente, simplesmente modificando a ordem dos produtos, como precedente e consequente. Como você pode notar, pode‑se confiar que quem leva mercúrio, leva gaze (87% dos clientes), mas está abaixo do limiar afirmar que quem leva gaze, leva mercúrio. O precedente normalmente será o carro‑chefe das vendas, ele chamará o cliente para dentro do estabelecimento e o fará consumir mais. Criando classes – Clusterizando Fazer grupos e procurar características em comum entre vários itens e aproximar os semelhantes é o que se chama Clusterizar. Essa técnica, muitas vezes, é uma das primeiras etapas dentro de um processo de Data Mining, já que identifica grupos de registros correlatos. Um cluster é um agrupamento de itens que são similares a outros dentro do mesmo agrupamento e diferentes em outros agrupamentos (HAN; KAMBER, 2006 apud ARAGÃO, 2008). Podemos, então, definir a análise de cluster, ou clusterização, como um processo que permite agrupar itens, de forma a maximizar a similaridade dentro da mesma classe e a minimizar a similaridade entre as classes. Para medir a similaridade entre itens, a análise de cluster se baseia na proximidade entre os valores de seus atributos. Mapeando cada atributo em uma coordenada unidimensional, itens compostos por “m” atributos podem ser representados como pontos em um espaço euclidiano m‑dimensional. A distância euclidiana entre dois pontos p = (p1, p2,…, pm) e q = (q1, q2,…, qm) é definida como: dist ( p, q) = m ( pi i=1 qi ) 2 O exemplo abaixo, apresentado por Aragão (2008), considera o conjunto e a renda representando pessoas, conforme a Tabela 3. A partir dos valores dos atributos desses itens, podemos formar o gráfico bidimensional apresentado na Figura 2, em que cada ponto representa um item (ou pessoa). Os círculos representam os clusters ou agrupamentos mais próximos, como um algoritmo de clusterização faria. Descobrindo o conhecimento 114 Tabela 3 - Valores dos atributos Idade Renda 5 0,00 27 3.000,00 42 5.000,00 29 3.500,00 18 500,00 22 1.000,00 31 3.200,00 39 4.600,00 20 800,00 10 0,00 6 0,00 46 4.500,00 40 1.500,00 42 1.000,00 39 1.200,00 Fonte: Aragão (2008) Para usar esses clusters como classes, precisamos antes identificá‑los e nomeá‑los adequadamente. Por exemplo: C1: “Crianças”. Nesses clusters temos apenas crianças, que não podem trabalhar, portanto, sua renda é nula. C2: “Jovens Iniciando a Carreira”. Nesses clusters temos pessoas com idade próxima à mínima para poder trabalhar. Mas, como provavelmente não possuem formação superior nem experiência, têm uma renda relativamente baixa. C3: “Profissionais com Curso Superior”. Nesses clusters temos pessoas que já têm experiência e pelo patamar salarial provavelmente também possuem formação superior. C4: “Altos Executivos”. Nesses clusters temos pessoas de certa idade que, para ter uma renda tão alta em tal faixa etária, provavelmente fazem parte de alto escalão gerencial. C5: “Profissionais sem Curso Superior”. Nesses clusters temos pessoas de certa idade que, por terem uma renda relativamente baixa, provavelmente não possuem curso superior. Pós-graduação 115 Figura 2 - Gráfico bidimensional 6.000 C4 Renda 5.000 4.000 C3 3.000 2.000 C2 1.000 C5 C1 0 0 10 20 30 40 50 Idade Fonte: Aragão (2008). A identificação e nomeação acima são apenas aproximadas e ilustrativas, contribuindo para o entendimento didático, e já possuem interpretação mais em cima. Após a identificação e nomeação dos clusters (ou classes), podemos associar a cada item sua respectiva classe, de acordo com o resultado da clusterização, usando esses dados como exemplos de treinamento para um algoritmo de classificação. Pensar em agrupar pode ser muito útil se quisermos, por exemplo, conhecer diferenças entre hábitos de consumo de diferentes clientes em uma loja que vende diferentes produtos. Sazonalidade de compras, qual produto determinado cliente leva e quem mais compra este produto, e onde vivem esses clientes com gostos e comportamentos semelhantes. Talvez seja interessante abrir uma filial próxima a eles, não? Criando classes, estamos prospectando negócios. Conclusão O uso das técnicas de mineração de dados para apoiar o processo de tomada de decisão pela camada gerencial, possibilitaa descoberta de conhecimento a partir dos seus repositórios de dados. Essa descoberta de conhecimento se dá a partir da aplicação de técnicas baseadas em estatísticas e na inteligência artificial para encontrar padrões e informações implícitas nos dados armazenados nos repositórios das organizações. A mineração de dados é utilizada hoje em vários segmentos de mercado, como por exemplo: área médica, geologia, economia, marketing, administração, engenharias, entre outras áreas. Descobrindo o conhecimento 116 Referências AGRAWAL, R.; SRIKANT, R. Mining Sequential Patterns. Proceedings of Eleventh International Conf on Data Engineering. 1995. ARAGÃO, Pedro O. Um estudo sobre conceitos e técnicas de mineração de dados. 2008. Monografia (Graduação em Tecnologia)‑Faculdade de Tecnologia de São Paulo, São Paulo, 2008. BERGER, Gideon et al. Discovering Unexpected Patterns in Temporal Data using Temporal Logic; Temporal Databases ‑ Research and Practice. Heidelberg: Ed Springer‑Verlag, 1998. CARVALHO, Luís Alfredo V. Data Mining: A Mineração de Dados no Marketing, Medicina, Economia, Engenharia e Administração. Editora Ciência Moderna. Rio de Janeiro, 2005. CARVALHO, Juliano et al. Utilização de técnicas de datamining para reconhecimento de caracteres manuscritos. Universidade Federal da Paraíba, 2000. FAYYAD, Usama M; PIATESTSKY‑SHAPIRO, Gregory; SMYTH, Padhraic; UTHURUSAMY, Ramasamy.Advance. Knowledge Discovery and Data Mining. 1996. LOH, Stanley. Material das disciplinas de Sistemas de Informação e Data Mining. Disponível em: atlas.ucpel.tche.br/~loh/. Acesso em: jul. 2009. MARTINHAGO, Sérgio. Descoberta de Conhecimento sobre o Processo Seletivo da UFPR. (Dissertação) Mestrado em Métodos Numéricos em Engenharia. Universidade Federal do Paraná, Curitiba, 2005. NAVEGA, Sergio. Princípios do DataMining. Cenadem 2002, Anais do Infoimagem, 2002. QUONIAM, Luc; et al. Inteligência obtida pela aplicação de data mining em base de teses francesas sobre o Brasil. Ciência da Informação, v. 30, n.2, p, 20‑28. Brasília, 2001. REZENDE, Solange. Sistemas Inteligentes – Fundamentos e aplicações. São Paulo: Ed. Manole, 2003. WITTEN, Ian H.; FRANK, Eibe. Data Mining – Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann Publishers. 2000. Pós-graduação 117 O processo KDT Flávio Ceci O processo de descoberta de conhecimento traz uma série de benefícios para a camada de decisão. Esse processo de conhecimento em banco de dados (KDD) é o mais conhecido e utilizado pelas organizações. O fato é que muito dos conhecimentos organizacionaisl estão disponíveis nos mais variados meios e já formados. Grande parte está disponível como documento textual não estruturado, por exemplo, em relatórios, e‑mails, manuais, notas de compra e venda. (CECI et al, 2010). Tendo em vista essa afirmação, é apresentado o Processo de Descoberta de Conhecimento em Texto (ou em inglês KDT – Knowledge Discovery in Text). Segundo Feldman e Hirsh (1997), o processo de extração de conhecimento em texto é não trivial de informações implícitas nos documentos organizacionais, que trazem muito valor para a tomada de decisão. Por “não trivial” Bovo (2011) explica que isso envolve alguma busca ou inferência, de modo que não é apenas uma computação direta de valores pré‑definidos, os padrões encontrados devem ser válidos perante os novos dados, com algum grau de certeza. O processo KDT é bastante similar ao processo KDD, é basicamente o processo de extração de padrões relevantes e não triviais a partir de bases de dados semi ou não estruturadas. Também utiliza técnicas da mineração de dados, mas nesse caso usam‑se técnicas de processamento de linguagem natural para extrair conceitos de texto e mais uma vez análises estatísticas, mas para recuperar padrões e técnicas de visualização, permitindo análises interativas (GONÇALVES, 2006). Segundo Turban (2009), Text Mining é a aplicação do Data Mining sobre textos não estruturados. A Figura 1 apresenta as etapas mais comuns de um processo de descoberta de conhecimento em banco de dados. Figura 1 - Etapas do processo KDD Interpretação/Avaliação Mineração de Dados Transformação Pré-processamento Conhecimento Seleção Base de Dados Data set Dado Dado Transformado Pré-processado Padrões Fonte: Gonçalves (2006). Descobrindo o conhecimento 118 Após verificar se as etapas do processo KDD na Figura 1, a seção a seguir apresenta as etapas do processo de Descoberta de Conhecimento em Texto, de modo que se pode ter uma visão comparativa entre os dois processos. Etapas do processo de Descoberta de Conhecimento em Texto Como já foi afirmado anteriormente, o processo KDT se assemelha e muito ao processo KDD. A Figura 2 apresenta as etapas desse processo. Figura 2 - Etapas do processo KDT Interpretação/Avaliação Mineração de Textos Extração de Informação Pré-processamento Conhecimento Padrões Texto Data set Dado Pré-processado Fonte: Gonçalves (2006). Para explicar melhor o processo KDT Ceci et al (2010) p. 3676, apresenta o seguinte parágrafo: Dados os objetivos que se deseja alcançar com o processo, o primeiro passo é eleger o conjunto de textos que será utilizado. A partir desse conjunto de documentos, inicia‑se o processo de pré‑processamento dos dados. O propósito do pré‑processamento é eliminação de ruídos, termos não relevantes (stop‑words), redução das palavras aos seus radicais (stemming), correções ortográficas e outros aspectos morfológicos e também sintáticos que as expressões textuais possuem. Após o pré‑processamento, a etapa de transformação do texto é iniciada. Nessa etapa, ocorre a normalização do texto e sua transformação e representação no formato de vetor, tabela, matrizes, etc. As próximas etapas são a seleção e a projeção dos dados, em que há uma redução da dimensionalidade do modelo criado no passo anterior, e a escolha das palavras relevantes. Os textos têm a característica de possuírem alta dimensionalidade, visto que cada palavra pode ser uma dimensão do vetor ou matriz. Portanto, reduzir a dimensionalidade é importante para que o resultado seja encontrado com maior eficiência e desempenho. Dado o modelo estabelecido, as técnicas de KDT podem ser usadas no passo seguinte, com a escolha do algoritmo. Conforme o objetivo do problema, existem muitos métodos de descoberta de padrões em textos, com aprendizado supervisionado e não supervisionado, analogamente aos métodos de descoberta em banco de dados. Por fim, o último passo do processo KDT constitui a interpretação dos resultados obtidos e a obtenção do conhecimento. Pós-graduação 119 A etapa de mineração de texto apresentada na Figura 2 utiliza‑se de técnicas de agrupamento, classificação, sumarização de documentos, regras de associação e análise de ligações. Podem ser utilizadas também técnicas da mineração de dados tradicional, fazendo as devidas modificações. Gonçalves (2006) apresenta uma tabela demonstrando as principais funções, algoritmos e exemplos de aplicações disponíveis na mineração de dados tradicional. Tabela 1 - Funções e algoritmos da mineração de dados Funções Algoritmos Aplicações Associação Estatística, teoria dos conjuntos. Análise de mercado. Classificação Árvores de decisão, redes neurais, algoritmos genéticos. Controle de qualidade, avaliação de riscos. Agrupamento Redes neurais, estatística. Segmentação de mercado. Modelagem Regressão linear e não linear, redes neurais. Ranking de clientes, controle de processos, modelo de preços. Previsão de séries temporais Estatística, redes neurais. Previsão de vendas, controle de inventário. Padrões sequenciais Estatística, teoria dos conjuntos. Análise de mercado sobre o tempo. Fonte: Gonçalves (2006). Segundo Gonçalves (2006), a escolha de uma ou outra técnica apresentada na tabela 1 depende essencialmente do negócio, da aplicação e da quantidade e qualidade dos dados em questão. Uso de mineração de texto A mineração de texto pode ser utilizada para auxiliar a organização em várias situações, Turban (2009) apresenta algumas: •• Encontrar o conteúdo implícito dos documentos, adicionando relações adicionais; •• Relacionar documentos que possuam conteúdos similares; •• Descobrir entidades que possam fazer sentido no modelo relacional; •• Recuperar documentos completos a partir de buscas. Para viabilizar as situações apresentadas acima é necessário que os documentos não estruturados sejam antes de qualquer coisa convertidos para uma estrutura que seja fácil de processar, pode‑se fazer uma analogia da conversão dos dados presentes Descobrindo o conhecimento 120 nas bases operacionais de uma organização para os repositórios do tipo data warehouse, com o intuído de facilitar a análise na mineração de dados tradicional. Os dados contidos nos documentos da organização são transformados para os chamados índices textuais, que são apresentados com mais detalhes na próxima seção. Indexação O processo de indexação é fundamental para a mineração de texto, pois organiza os dados presentes no texto de uma forma que seja facilmente recuperado. Por conta disso, a indexação é uma das tarefas mais importantes para a recuperação de informação (CECI, 2010). Segundo Ebecken, Lopes e Costa (2003), a indexação tem como função permitir que se efetue uma busca em texto sem a necessidade de varrer o documento inteiro, similarmente ao que acontece com o processo “homônimo” utilizado convencionalmente em bancos de dados. Os autores classificam a indexação em quatro tipos distintos, a saber: •• indexação de texto completo; •• indexação temática; •• indexação semântica latente; •• indexação por tags. A indexação para Wives (2002) consiste na identificação de características para um dado documento, o que proporciona a construção de uma estrutura chamada índice. O objetivo do índice é selecionar os documentos de maior relevância, filtrando‑os entre os irrelevantes. Essa estruturação descrita aqui pode ser realizada de forma manual – normalmente utilizada pela área de biblioteconomia – ou por um processo automatizado, relacionado com a área de computação, à qual esse trabalho está intrinsecamente ligado. Segundo Igarashi (2005), o índice possui uma estrutura composta dos seguintes termos: •• DocCnt: identifica em quantos documentos o termo está contido; •• FreqCnt: identifica a frequência total do termo em relação a todos os documentos; •• Freq: número de vezes em que o termo se encontra no documento; •• Posição termo: identifica a posição do termo no documento. Pós-graduação 121 Uma das técnicas mais utilizadas é a baseada em índice invertido, de acordo com Baeza‑Yates e Ribeiro‑Neto (1999 apud AIRES, 2005). A Técnica de Arquivo (ou Índice) Invertido trabalha com uma lista de palavras‑chave ordenadas, onde cada palavra está ligada ao documento que a possui. Esse documento é associado a uma lista invertida de palavras‑chave, que passa a ser ordenada por ordem alfabética. Essas palavras‑chave possuem um peso. Após o processamento, a lista fica dividida em dois arquivos, um de vocabulário e outro de endereçamento. A Figura 3 apresenta um exemplo de um índice invertido: Figura 3 - Exemplo de índice invertido Apontadores Dicionário Term Doc # Freq Term N docs Tot freq Doc # Freq a 2 1 a 1 1 1 1 aid 1 1 aid 1 1 1 1 all 1 1 all 1 1 and 1 1 2 1 come 1 1 1 1 the 2 1 their 2 1 Fonte. Elaboração do autor. Após a indexação dos documentos são aplicados algoritmos de inteligência artificial para extrair os padrões e possibilitar as análises, de modo a explicitar as informações latentes do corpus de documentos. O processo de indexação faz parte da etapa marcada como “Extração de informação”, apresentada na Figura 2. Na próxima seção são mencionados alguns tratamentos que podem ser utilizados na etapa de “extração de informação” e “pré‑processamento”. Pré‑processamento Esta etapa não possui um único algoritmo ou técnica disponível, na verdade, existem algumas operações que podem ser feitas dependendo diretamente do contexto e da análise pretendida. Quando a semântica não é importante, ou seja, não será feita nenhuma análise baseada em processamento de linguagem natural, como por exemplo, uma aplicação focada em busca completa a documentos textuais (recuperação de informação), utiliza‑se: Descobrindo o conhecimento 122 •• Stemmer: os algoritmos de stemming tratam isoladamente todas as palavras do texto, sempre tentando trabalhar com a sua possível palavra‑raiz. Eles não se apegam ao contexto da palavra, pois os ganhos obtidos em precisão não justificam a grande quantidade de erros decorridos de uma análise de sentido equivocado (AIRES, 2005). •• Retirada de stopwords: as palavras consideradas como stopwords contidas em um documento trazem consigo duas influências para os SRI. A primeira delas é o fato de influenciarem no grau de frequência das palavras do documento, pois elas ocorrem várias vezes; já a segunda, é o processamento desnecessário proveniente dessas palavras que não auxiliam na busca do usuário (KORFHAGE, 1997). Essas técnicas também podem ser utilizadas na etapa de extração de informação antes da indexação dos documentos, na base do foco da aplicação, ou seja, a busca. Na etapa de pré‑processamento também utilizam‑se métodos estatísticos para levantar mais informações para auxiliar a mineração e análise das informações contidas nos documentos, como por exemplo: •• Calculo de coocorrência: esse tipo de cálculo pode levantar informações sobre quantas vezes duas palavras aparecem próximas em uma frase; •• Calculo de correlação: identificação de relação direta ou indireta de dois elementos, a partir da análise dos textos; •• Agrupamento: montar grupos de documentos agrupados pelo seu conteúdo. Todas as técnicas apresentadas nessa seção têm como foco levantar informações e preparar os dados para facilitar a descoberta de conhecimento a partir dos documentos da organização. Na próxima seção são apresentados alguns exemplos de técnicas de mineração para descoberta de conhecimento. Mineração de texto Como já foi afirmado anteriormente, as técnicas de mineração de texto são baseadas em métodos estatísticos e algoritmos da área de inteligência artificial. Nessa etapa, que é de fato descoberto novos conceitos e relacionamentos. Pode‑se reparar que não existe uma única forma para trabalhar com mineração de dados e texto, esse tipo de solução é diretamente dependente do contexto do problema que se deseja resolver, ou do tipo de informação que pretende extrair. Pós-graduação 123 Para exemplificar uma situação vamos imaginar que uma organização pretende desenvolver um mapa de conhecimento baseado nos principais termos que a representam, para isso pode‑se obter tais termos a partir da frequência que eles ocorrem nos documentos relevantes para o contexto organizacional. Alguns problemas que são encontrados inicialmente. Problema 1: quantidade de documentos para serem analisados. Como já foi apresentado, o processo de indexação minimiza esse problema, mantendo todo o conteúdo dos documentos estruturados, de modo que seja fácil recuperar tanto os documentos quanto a análise do seu conteúdo. Problema 2: identificação do limite (fronteiras) das palavras. Ou seja, como identificar uma palavra composta, por exemplo, com”Unisul Virtual”, no meio de um texto que nada mais é que um conjunto de palavras? Para resolver esse problema, pode‑se utilizar uma técnica chamada de Reconhecimento de Entidades Nomeadas (NER – Named Entity Recognition). Essa técnica tem como objetivo encontrar as “fronteiras” de um termo no texto e se disponível uma base de conhecimento, também classificar este termo, como por exemplo, pode‑se reconhecer o termo “Unisul Virtual” e apresentá‑lo como uma organização. Problema 3: como relacionar os termos encontrados para formar o mapa? Para isso pode‑se utilizar a técnica apresentada anteriormente, ou seja, o cálculo de co‑ocorrência, que irá pegar os termos reconhecidos pela técnica de NER, voltar no índice gerado e identificar as relações dos termos. É importante destacar que as técnicas utilizadas podem compor etapas diferentes em situações diferentes, como por exemplo, a utilização da técnica de reconhecimento de entidades na etapa de pré‑processamento para já levantar esses termos anteriormente e utilizá‑los para anotar os documentos semanticamente. Para ilustrar a última etapa do processo KDT “Interpretação/avaliação”, é apresentado o estudo de caso do trabalho de Ceci et al (2010). Descobrindo o conhecimento 124 Interpretação / avaliação do conhecimento O estudo de caso apresentado no artigo “Towards a Semi‑Automatic Approach for Ontology Maintenance”, de Ceci et al (2010), traz o resumo do currículo lattes de quatro pesquisadores. Os autores os utilizaram como dados de entrada para a descoberta de conhecimento em bases textuais. A Plataforma Lattes é a base de dados de currículos, instituições e grupos de pesquisa das áreas de Ciência e Tecnologia, mantidos pelo CNPq. Pelo fato do tamanho do texto não ser muito grande, não foi necessário construir um índice textual, fazendo o levantamento dos termos em memória e numa estrutura própria do modelo proposto pelos autores. O texto a seguir foi o utilizado na pesquisa: “Flávio Ceci concluiu a graduação em Ciência da Computação pela Universidade do Sul de Santa Catarina em 2007. Flávio é mestrando do curso de Engenharia e Gestão do Conhecimento pela Universidade Federal de Santa Catarina. Atualmente, é Desenvolvedor do Instituto Stela. Possui 6 softwares e outro item de produção técnica. Entre 2004 e 2007 participou de 4 projetos de pesquisa. Atualmente, participa de 3 projetos de pesquisa. Flávio atua na área de Ciência da Computação, com ênfase em Sistemas de Informação, atuando, principalmente, nos seguintes temas: reconhecimento de entidades; técnicas de inteligência artificial aplicada à engenharia do conhecimento; população de ontologias; descoberta de conhecimento em bases textuais e recuperação de informação. Em suas atividades profissionais interagiu com 13 colaboradores, em coautorias de trabalhos científicos. Alexandre Leopoldo Gonçalves possui Bachareladol em Ciências da Computação pela Fundação Universidade Regional de Blumenau (1997), mestrado em Engenharia de Produção pela Universidade Federal de Santa Catarina (2000) e doutorado em Engenharia de Produção pela Universidade Federal de Santa Catarina (2006). Atualmente, é colaborador e líder da Unidade de Produto do Instituto Stela. Alexandre tem experiência na área de Ciência da Computação, com ênfase em Engenharia do Conhecimento, atuando, principalmente, nos seguintes temas: extração e recuperação de informação, mineração de textos e extração e engenharia do conhecimento. Possui trabalhos publicados em periódicos especializados e em eventos nacionais e internacionais, em diversos países, assim como softwares com e sem registro. Desde 2001 participa tanto na atuação quanto na coordenação de projetos de pesquisa no Brasil e no exterior. Pós-graduação 125 Denilson Sell concluiu o doutorado em Engenharia de Produção pela Universidade Federal de Santa Catarina, em 2007. Atualmente, é Professor da Universidade Federal de Santa Catarina, Analista de Sistemas do Instituto Stela e Professor da Universidade do Estado de Santa Catarina. Publicou 1 artigo em periódico especializado e 16 trabalhos em anais de eventos. Possui 16 softwares , sendo 1 com registro e outros 11 itens de produção técnica. Participou de 3 eventos no exterior e 6 no Brasil. Denilson co‑orientou 5 dissertações de mestrado, além de ter orientado 2 trabalhos de conclusão de curso nas áreas de Ciência da Computação e Administração. Recebeu 2 prêmios e/ou homenagens. Entre 1997 e 2005 participou de 11 projetos de pesquisa. Atualmente, participa de 5 projetos de pesquisa, sendo que coordena 2 deles. Atua na área de Ciência da Computação, com ênfase em Sistemas de Informação. Em suas atividades profissionais interagiu com 55 colaboradores, em coautorias de trabalhos científicos. Dhiogo Cardoso da Silva possui graduação em Bacharelado em Sistemas de Informação pela Universidade Federal de Santa Catarina (2007). No momento, é mestrando de Engenharia do Conhecimento da Universidade Federal de Santa Catarina. Atualmente Dhiogo é colaborador do Instituto Stela. Dhiogo tem experiência na área de Ciência da Computação, com ênfase em Sistemas de Informação, atuando, principalmente, nos seguintes temas: Business Intelligence, Web Semântica, Data Warehousing e Text Mining”. Os autores submeteram o texto apresentado a uma técnica de reconhecimento de entidades nomeadas que utilizava como base de conhecimento alguns termos retirados das palavras‑chaves dos currículos, bem como uma lista de áreas de conhecimento e instituições. A partir dos termos reconhecidos, foi aplicado um cálculo de correlação que identificou as ligações e o peso delas entre os termos em questão. Por fim, o resultado foi apresentado na forma de uma árvore hiperbólica para facilitar a análise das informações descobertas. A Figura 4 apresenta uma dessas árvores hiperbólicas geradas a partir do estudo de caso: Descobrindo o conhecimento 126 Figura 4 - Árvore hiperbólica que representa a relação entre as entidades reconhecidas Fonte: Ceci et al (2010). Na Figura 4 é facilmente identificada uma série de termos que representam o contexto dos resumes, instituições como: “universidade federal de santa catarina” e “universidade do estado de santa catarina” estão presentes. Também são apresentados alguns termos que a aplicação identificou como importantes, mas não conseguiu classificá‑los, como por exemplo: “mineração de texto” e “engenharia do conhecimento”. Agora a descoberta mais significativa que está disponível para a análise do especialista é a relação indireta entre os pesquisadores “alexandre” e “denilson”, em nenhum momento no currículo deles é apresentada uma relação direta entre os dois, mas por meio da análise da figura é fácil verificar que os dois pesquisadores estão ligados pelas áreas de conhecimento: “ciência da computação” (curso de graduação dos dois) e “engenharia de producão” (que foi o programa de pós‑graduação que ambos fizeram o mestrado e doutorado). Os dois pesquisadores também estão relacionados pelas organizações: “Universidade Federal de Santa Catarina” (os dois fizeram a pós‑graduação nesta instituição) e pelo “instituto stela” (instituto de pesquisa que ambos trabalhavam na época da pesquisa). Pode‑se verificar todo o poder do uso da descoberta de conhecimento em texto para as organizações, tanto essa abordagem quanto a mineração de dados representa uma importante evolução para os sistemas de apoio à decisão, passando a não lidar apenas com dados e informações, mas também com conhecimento. Pós-graduação 127 Referências AIRES, Rachel Virgínia Xavier. Uso de marcadores estilísticos para a busca na Web em português. 2005. 202 f. Tese (Doutorado) Programa de Pós Graduação em Ciências da Computação e Matemática Computacional – Instituto de Ciências e Matemáticas e de Computação‑ICMC, Universidade de São Paulo‑USP, São Carlos (SP). BOVO, Alessandro Botelho. Um modelo de descoberta de conhecimento inerente à evolução temporal dos relacionamentos entre elementos textuais. 2011. 127 (Doutorado). Programa de Pós‑Graduação em Engenharia e Gestão do Conhecimento, UFSC, Florianópolis (SC). CECI, Flavio. Um modelo semiautomático para a construção e manutenção de ontologias a partir de bases de documentos não estruturados. 2010. 131 (Mestrado). Programa de Pós‑Graduação em Engenharia e Gestão do Conhecimento, UFSC, Florianópolis (SC). CECI, Flavio; SILVA, Dhiogo C.; SELL, Denilson; GONÇALVES, Alexandre L. Towards a Semi‑Automatic Approach for Ontology Maintenance. 7 CONTECSI ‑ International Conference on Information Systems and Technology Management. USP, São Paulo, 2010. EBECKEN, Nelson F. F.; LOPES, Maria Celia S.; COSTA, Myrian C. A. Mineração de texto. In: REZENDE, Solange O. (Coord.). Sistemas inteligentes: fundamentos e aplicações. São Paulo: Manole, 2005. FELDMAN, R.; HIRSH, H. Exploiting Background information in Knowledge discovery from text. Journal of Intelligent Information System, 1997. GONÇALVES, A. L. Um modelo de descoberta de conhecimento baseado na correlação de elementos textuais e expansão vetorial aplicado à engenharia e gestão do conhecimento. 2006. 196 (Doutorado). Programa de Pós‑Graduação em Engenharia de Produção, UFSC, Florianópolis (SC). IGARASHI, Wagner. Construção automática de vocabulários temáticos e cálculo de aderência curricular: uma aplicação aos fundos setoriais. 2005. 95 f. Dissertação (Mestrado) – Programa de Pós‑Graduação em Engenharia de Produção e Sistemas, Universidade Federal de Santa Catarina, Florianópolis (SC). KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997. TURBAN, Efraim et al. Business Intelligence – Um enfoque gerencial para a inteligência do negócio. Editora Bookman, Porto Alegre, 2009. WIVES, Leandro Krug. Tecnologia de descoberta de conhecimento em textos aplicados à inteligência competitiva. Monografia apresentada ao Exame de Qualificação do Programa de Pós‑Graduação em Computação, Universidade Federal do Rio Grande do Sul, Porto Alegre, 2002. Descobrindo o conhecimento 128 Atividades de Autoaprendizagem 1) Levando em consideração o conteúdo apresentado nesta unidade, assinale as alternativas verdadeiras com V e as falsas com F: a. ( ) A mineração de dados é responsável pela modelagem do conhecimento da organização. b. ( ) As técnicas utilizadas no processo KDD são completamente diferentes das utilizada no processo KDT. c. ( ) Reconhecimento de entidades nomeadas pode ser utilizada para facilitar o processo KDT. d. ( ) Os Data Warehouse são uma alternativa ao processo KDD, não tendo nenhuma relação. e. ( ) A mineração de dados e texto é viável pela utilização de algoritmos, com base estatística e de inteligência artificial. f. ( ) Os processos KDT e KDD utilizam como fonte soluções do tipo DW. Atividade colaborativa Nesta unidade, foram estudados conceitos de descoberta de conhecimento em bases de dados e em texto, sabendo que muito do conhecimento organizacional está disponível em documentos não estruturados. Responda à pergunta a seguir utilizando a ferramenta Fórum, não se esqueça de comentar as respostas dos seus colegas. As redes sociais são hoje um dos principais canais de comunicação das organizações com o seu cliente final. Dessa forma, é possível utilizar a descoberta de conhecimento em texto a fim de extrair informações para contribuir com a base de conhecimento da organização e auxiliar no processo decisório? Pós-graduação 129 Síntese Nesta unidade, são estudados os processos de descoberta de conhecimento, tanto utilizando como base repositórios DW quanto por meio da análise dos seus documentos. O processo KDT funciona igual ao processo KDD, são conjuntos de técnicas para se obter conhecimento de uma determinada base de dados. O KDD utiliza bases já estruturadas para descobrir informações e o KDT usa textos, normalmente em Linguagem Natural, também para descobrir informações. No caso, os métodos mais utilizados são a Extração de informação e o Processamento de Linguagem Natural. Saiba Mais Déborah Oliveira, da Computerworld, apresenta um artigo com o seguinte título: “Data mining começa a conquistar espaço na estratégia empresarial”, leitura bastante recomendada: http://cio.uol.com.br/gestao/2012/03/19/data-mining-comeca-a-conquistar-espaco-naestrategia-empresarial/ Descobrindo o conhecimento Unidade 5 Processo OLAP Objetivos de Aprendizagem •• Identificar o processo OLAP, bem como as suas características. •• Examinar as funcionalidades exploratórias do processamento OLAP. •• Entender qual a sua participação numa arquitetura de BI. Introdução As soluções de Business Intelligence são compostas por uma série de componentes tecnológicos que possibilitam um ambiente propício à tomada de decisão. Essas soluções podem combinar os componentes para cada situação, para a camada de apresentação dos dados e das informações utilizam‑se as soluções OLAP. As soluções OLAP apresentam uma alternativa para a publicação dos dados e informações vindas dos modelos dimensionais. A apresentação dessas informações pode ser de maneira tabular ou gráfica, tanto dos dados históricos armazenados nos repositórios data warehouse, bem como os dados reais para auxiliar o processo decisório. 132 O que é processo OLAP? Flávio Ceci Uma arquitetura de Business Intelligence é composta por vários componentes, que podem ser combinados para se obter a melhor solução ao problema em questão da organização. Após finalizar a concepção dos repositórios de dados, o próximo passo é identificar qual a melhor abordagem para consumir os dados e apresentar as informações e conhecimentos descobertos. Normalmente, pode‑se utilizar duas abordagens diferentes para a etapa de consumo e processamento, transformando os dados em informações e conhecimento para, posteriormente, o seu processamento. Veja quais são as abordagens: •• Mineração de dados: técnicas e ferramentas com base estatística ou de inteligência artificial, as quais possuem como função explicitar os conhecimentos implícitos, seja nos repositórios ou nos seus documentos. •• Sistemas OLAP: sigla para a expressão processamento analítico on‑line (em inglês, On line Analytical Processing). Esses sistemas se referem a uma grande quantidade de atividades normalmente executadas por usuários finais no ambiente on‑line. Inclui como suas atividades a geração e a resposta de consultas, solicitações de relatórios e gráficos ad hoc e a execução deles (TURBAN et al, 2009). Pode‑se verificar que as soluções de visualização de informação e conhecimento podem utilizar as práticas da mineração de dados, bem como as dos sistemas OLAP, mas qual a relação entre essas duas abordagens? A distinção entre OLAP e mineração de dados vai além das distinções entre dados de resumo e detalhes. As funções ou algoritmos normalmente encontrados em ferramentas OLAP são funções de modelagem descritiva, no caso da mineração de dados, são funções de descoberta de padrão e modelagem explicativa (THOMSEN, 2002). Thomsen (2002) apresenta os algoritmos utilizados pelos sistemas OLAP e pelos baseados em mineração de dados: Funções e algoritmos utilizados pelos sistemas OLAP: •• agregação; •• alocações; •• razões; Pós-graduação 133 •• produtos; •• entre outros. Funções e algoritmos utilizados na mineração de dados: •• regressões; •• redes neurais; •• árvores de decisão; •• clustering. Sobre o conceito de OLAP, Gouveia et al (2011) afirmam que é uma solução desenvolvida para a recuperação das informações‑chave, com o intuito de proporcionar facilidade e flexibilidade para a análise de dados da organização como um todo, permitindo uma melhor tomada de decisão pela camada gerencial. Para Vinci e Narciso (2006), a multidimensionalidade é uma característica que faz parte desse conceito, isso quer dizer que se pode ver uma análise em diferentes graus de detalhamento, chegando até no nível atômico, que foi modelado o repositório de origem dos dados. Segundo Thomsen (2002), pode‑se falar em conceitos de OLAP (múltiplas dimensões hierárquicas que podem ser utilizadas em várias escalas), linguagens OLAP (Data Definition Language – DDL, Data Manipulation Language – DML, Data Representation Language – DRL e seus analisadores e compiladores), camadas de produto OLAP (geralmente residem sobre os bancos de dados relacionais e geram SQL como saída) e produtos OLAP completos. Tipos de arquiteturas OLAP Existem várias abordagens para os processos OLAP. Turban et al (2009) apresentam a descrição dos principais deles: •• MOLAP: ou OLAP multidimensional é implementado por um banco de dados multidimensional especializado, os dados são organizados em estruturas de cubos em que os usuários podem girá‑lo de modo a visualizar várias “fases” dos dados. Pode‑se caracterizar como possuindo consultas rápidas devido às informações já terem sido consolidadas. •• ROLAP: utiliza como base um banco de dados com modelo relacional. Cria visões multidimensionais dinâmicas, mas pelo fato de não serem pré‑processadas utilizam‑se de consultas complexas e com tempo de resposta bastante significativo; •• WOLAP: também conhecido com Web OLAP, refere‑se aos dados OLAP acessíveis de um navegador web. Processo OLAP 134 Segundo Gouveia et al (2011), as soluções do tipo OLAP surgiram na década de 60 e continuam evoluindo até os dias de hoje. No seu trabalho, são apresentadas duas outras arquiteturas: •• HOLAP: (Hybrid On line Analysis Processing) surgiu na década de 90 e utiliza como base os dois conceitos de ROLAP e MOLAP, é caracterizado por unir o alto desempenho da arquitetura MOLAP com a alta escalabilidade da arquitetura ROLAP, é bastante utilizada até os dias de hoje. •• DOLAP: (Desktop On line Analysis Processing) é reconhecida pela sua capacidade de diminuir o tráfego na rede, isso ocorre pelo fato de todo o processamento de dados do cubo multidimensional ser feito na própria máquina, tirando, assim, o processamento pesado do lado do servidor. Os autores Gouveia et al (2011) ainda completam sobre as arquiteturas, que mesmo com o surgimento de todas as arquiteturas mencionadas a principal característica que está presente em todas as abordagens é o cubo multidimensional, capaz de filtrar os dados por diversas formas e modos customizados pelo usuário. A Figura 1 apresenta uma representação para o cubo multidimensional. Figura 1 - Cubo multidimensional Fonte: Gouveia et al (2011). Para entender os conceitos por trás do cubo multidimensional, pode‑se fazer uma analogia com o brinquedo “cubo mágico ou cubo de Rubik)”. Nesse brinquedo, a pessoa deve mover as fases do cubo e chegar até a situação em que todas as fases fiquem com a mesma cor. A Figura 2 apresenta este brinquedo. Pós-graduação 135 Figura 2 - Cubo de Rubik Fonte: Ciência Hoje, 2010. Da mesma forma que quem manipula o brinquedo movendo uma das fases tem uma nova visão sobre o mesmo brinquedo, no cubo dimensional, ao mover uma das dimensões do cubo gera‑se uma nova visão sobre os mesmos dados do repositório. Essa interação entre as dimensões possibilita uma análise muito maior e chega a informações antes não conhecidas. Cada dimensão que o cubo possui pode ser uma tabela de dimensão de um modelo dimensional como o apresentado na Figura 3. Figura 3 - Representação de um modelo dimensional Fonte: Elaboração do autor (2012). Com o modelo dimensional fica bastante fácil relacionar as dimensões com as fases do cubo, mas não precisaria necessariamente ser uma base modelada nesta abordagem, poderia se ter uma base relacional normal, que mesmo assim teríamos um cubo multidimensional, a diferença é que se teria um processamento a mais para organizar e consolidar as informações antes de apresentar em forma de cubo (ROLAP). Processo OLAP 136 Requisitos de uma solução OLAP Para se ter um solução OLAP, Thomsen (2002) pensou numa série de requisitos que são apresentados a seguir, a fim de se ter uma solução eficiente: •• Utilização de uma estrutura dimensional para garantir uma alta performance e análise dos dados; •• Especificação eficaz de dimensões e cálculos: agregar dos valores e permitir a utilização de ferramentas analíticas sobre esses valores. Essas análises devem ser compostas por fórmulas que devem ser utilizadas para: agregar, alocar, comparar, analisar, explicar e deduzir; •• Flexibilização: possibilitar as visualizações das informações de várias maneiras, sejam elas gráficas, matrizes ou diagramas. O usuário pode selecionar como a informação é mapeada para o formato de visualização; •• Separação de estrutura e representação: permite que os modos de exibição sejam reorganizados por um usuário final sem a necessidade de modificação dos dados. A falta de separação entre estrutura e representação é um problema enfrentado pelas planilhas eletrônicas. O trabalho de Castro, Gonçalves e Cazarini (2004) apresenta outros requisitos físicos para uma solução OLAP, como: •• Acesso rápido à informação: mesmo com o recurso de aumento de nível de detalhes em consultas (drill‑down), são necessárias grandes quantidades de dados e um cálculo desses. Espera‑se que mesmo com esse recurso, o tempo não possa exceder 5 segundos; •• Não é necessário possuir suporte a multiusuários, mas esse requisito esta cada vez mais presente entre as organizações que adotam esta tecnologia. Segundo Anzanello (2002), além dos requisitos já preestabelecidos, os usuários possuem requisitos particulares que devem ser atendidos no projeto OLAP, como por exemplo, a necessidade de integração de dados de plataformas diferentes, questões de conectividade, entre outras. Os requisitos aqui apresentados estão diretamente ligados a questões arquiteturais e da solução OLAP como um todo. A seguir são apresentados os requisitos de uma ferramenta OLAP. Pós-graduação 137 Requisitos de uma ferramenta OLAP Muitas são as ferramentas disponíveis no mercado para soluções OLAP, no trabalho de Anzanello (2002), foram levantados alguns requisitos comuns a essas ferramentas, a seguir são apresentados: •• Consultas ad‑hoc: geradas pelo usuário final, conforme a sua necessidade de relacionar e cruzar informações de uma forma não prevista anteriormente, mas que facilite a descoberta do que procuram; •• Slice and Dice: permite a alteração da perspectiva de visão, possibilitando a modificação da posição de uma informação, trocas de linha por coluna, de maneira a tornar mais fácil a análise por parte do usuário e girar o cubo sempre que necessário; •• Drill down/up: permite explorar em diferentes níveis de detalhes da informação. Com drill down pode‑se visualizar as informações de maneira resumida, até a forma mais detalhada, como por exemplo, ver as informações agrupadas por ano, mês, semana, dia até chegar no nível de operação (caso essa seja a unidade atômica de agrupamento). Os requisitos apresentados anteriormente são muito importantes para garantir a efetividade das ferramentas OLAP. Concluindo De maneira geral, pode‑se verificar que as soluções OLAP possuem uma grande importância para a tomada de decisão, elas podem ser utilizadas de maneira isolada numa arquitetura de Business Intelligence, ou combinadas com técnicas de mineração de dados e texto. As ferramentas OLAP geram relatórios analíticos em tempo de execução, ou seja, a partir do cruzamento de informações podem‑se gerar vários relatórios dinâmicos, permitindo uma visualização mais detalhada ou mais resumida, a partir das interações com o cubo multidimensional resultante. Processo OLAP 138 Referências ANZANELLO, C. A. OLAP Conceitos e Utilização. Universidade Federal do Rio Grande do Sul (UFRGS), 2002. CASTRO, Sergio A.; GONÇALVES, Pablo R.; CAZARINI, Edson W. O uso do OLAP na estratégia de vendas em uma indústria de calçados alavancando a gestão de cadeia de suprimentos. XXIV Encontro Nacional de Engenharia de Produção, Florianópolis, 2004. GOUVEIA, Henrique C. et al. Aplicação da ferramenta OLAP em diferentes módulos de um sistema ERP melhorando a tomada de decisão. Revista Eletrônica de Sistemas de Informação e Gestão Tecnológica. Vol. 01, n. 01, 2011. THOMSEN, Erik. OLAP Solutions: building multidimensional information systems. 2nd Edition. John Wiley & Sons, Inc, 2002. TURBAN, Efraim et al. Business Intelligence – Um enfoque gerencial para a inteligência do negócio. Editora Bookman, Porto Alegre, 2009. VINCI, Wilson L.; NARCISO, Marcelo G. Integração Access‑Excel para produzir um sistema de apoio à decisão que simula um Data Warehouse e OLAP. XIII SIMPEP, Simpósio de Engenharia de Produção, Bauru, 2006. Pós-graduação 139 Características do processamento OLAP Flávio Ceci As soluções de Business Intelligence tem ganhado cada vez mais espaço entre as organizações, o motivo para tal é a falta de ferramentas eficientes e focadas na tomada de decisão. Uma solução de Business Intelligence (BI) é composta por uma série de componentes e etapas que possuem arquiteturas e ferramentas particulares, basicamente uma solução de BI é composta por um repositório unificado de dados, geralmente na forma de um Data Warehouse (DW); para consumir esse dados, transformando em informação e possibilitando uma melhor análise, dessa forma, são utilizadas as ferramentas do tipo OLAP (On Line Analytical Processing). Segundo Xavier e Pereira (2009), OLAP é uma abordagem para fornecimento de respostas rápidas para consultas analíticas de fonte multidimensional. Para Oliveira (2002), o processo OLAP é focado na transformação de dados em informação, a fim de dar suporte ao processo de tomada de decisão de uma maneira amigável e flexível ao usuário em um tempo hábil, utilizando um conjunto de tecnologias para acesso e análise ad‑hoc de dados. O processo OLAP se diferencia do processo de transações on‑line (OLTP), segundo Turban (2009), explica que o OLTP é focado em processamento de transações repetitivas em grande quantidade e de manipulação simples, diferente do OLAP, que envolve uma análise de muitos itens de dados em relacionamentos complexos, buscando padrões, tendências e exceções, ou seja, é focado no suporte a decisão. No trabalho de Anzanello (2012), é apresentada uma tabela comparativa entre os requisitos funcionais e de desempenho entre aplicações OLAP e OLTP: Tabela 1 - Comparação entre aplicações OLAP e OLTP Características OLTP OLAP Operação Típica Atualização Análise Telas Imutável Definida pelo usuário Nível de Dados Atomizado Altamente Sumarizado Idade dos Dados Presente Histórico, atual e projetado Recuperação Poucos registros Muitos registros Orientação Registro Arrays Modelagem Processo Assunto Fonte: Anzanello (2012). Processo OLAP 140 Uma informação bastante importante apresentada nessa tabela, é na modelagem adotada entre os dois tipos de aplicação. No caso de aplicações OLTP, a modelagem é focada nos processos, ou seja, cada operação gerenciada pela aplicação gera pelo menos uma nova linha na base de dados referente à operação. No caso das aplicações OLAP, a modelagem é focada no assunto em questão, possuindo os dados muitas vezes agrupados e já pré‑processados. Essa abordagem é adotada, pois é mais indicada para a análise dos dados, transformando‑os em informações. Podem‑se utilizar soluções OLAP para vários segmentos de organizações, segundo Xavier e Pereira (2009), o uso das soluções OLAP geralmente relaciona‑se aos seguintes seguimentos: •• Geração de relatórios empresariais para vendas; •• Marketing; •• Geração de relatórios de gerenciamento; •• Gerenciamento de processos de negocio em inglês, Business Process Management (BPM); •• Planejamento orçamentário; •• Projeções. Percebe‑se que as soluções OLAP são muito utilizadas quando se deseja fazer análise sobre dados organizados de maneira dimensional. Segundo Vinci e Narciso (2006), a análise multidimensional representa uma das maiores utilidades da tecnologia OLAP, permitindo ver determinados cubos de dados de diferentes ângulos e faces, e de vários níveis de agregação. Entende‑se como cubo de dados o resultado proveniente de uma consulta num modelo dimensional por uma ferramenta OLAP. A Figura 1 foi desenvolvida por Silve e Saias (2011) e representa exatamente este cubo: Pós-graduação 141 Figura 1 - Representação gráfica de um cubo de dados Indicador 1 = (Atributo 1, Valor 5; Atributo 2,Valor 4; Atributo 3, Valor 3) Atributo 1 (1ª dimensão) 5 4 Atributo 3 (3ª dimensão) 3 2 2 1 3 1 1 2 3 4 Atributo 2 (2ª dimensão) Fonte: Silva e Saias (2011). Nessa Figura 1 verificam‑se as várias dimensões resultantes de uma mesma consulta e como se organiza a visualização desse cubo de várias maneiras e a granularidade dos dados em questão. Segundo Turban (2009), os cubos de dados possibilitam obter informação para suporte à decisão de maneira eficiente, eles são utilizados para representar dados em conjunto com alguma medida de interesse, podendo ser bidimensional, tridimensional ou com apenas uma dimensão. É justamente pela análise de cubo que permite os usuários realizarem consultas por meio da busca de uma série de visualizações de relatórios. Muitas das características das soluções OLAP estão diretamente ligadas à utilização dos cubos de dados e uso da multidimensionalidade. O trabalho desenvolvido por Vinci e Narciso (2006) apresenta as principais características dessas soluções: •• Slice and dice: possibilita a análise de informações de diversos ângulos, permitindo que o usuário faça muitas combinações, chegando a outras visões e visualizando informações de outras formas; •• Consultas ad‑hoc: permite que o usuário gere consultas nunca antes utilizadas em tempo de execução da aplicação, permitindo responder os questionamentos que deseja, com visões de informações ainda não exploradas, além da utilização de métodos que auxiliem a encontrar o que procuram; •• Drill Down‑UP: torna possível a interação do usuário com vários níveis de agrupamento, ou seja, subir e descer dentro de uma hierarquia. Processo OLAP 142 No livro escrito por Oliveira (2002), é apresentada mais uma característica, a de geração de consultas mais amigáveis, de modo que seja feita de maneira simples, amigável e transparente, fazendo com que o usuário final tenha um conhecimento mínimo em informática para chegar até as informações desejadas. Todas as características apresentadas no trabalho de Vinci e Narciso (2006) são apresentadas no trabalho de Sell (2006) como funcionalidades exploratórias. Além das funcionalidades já mencionadas, Sell (2006) apresenta mais algumas: •• Drill Across: permite alterar o nível de análise dentro da dimensão em questão, pulando um nível intermediário, caso necessário, por exemplo; a análise é alterada diretamente de ano para mês, sem precisar passar por semestre; •• Drill Through: permite que o usuário passe de uma informação contida em uma dimensão para outra; •• Drill Out: é um detalhamento de uma determinada informação contida em uma base externa, por exemplo, é verificar a quantidade de vendas em uma semana; caso se deseja saber as informações detalhadas da venda em questão, pode‑se acessar uma base operacional que abriga tal informação; •• Sort: permite a ordenação das informações, que, nesse caso, não precisa ser necessariamente numérica; •• Ranking: possibilita o agrupamento de resultados numéricos por ordem de tamanho; •• Paging: paginação do resultado das consultas; •• Filtering: apresentação de consultas com restrições sobre atributos ou fatos; •• Alerts: permite que seja enviado um sinal caso uma situação definida anteriormente aconteça; •• Break: permite separar o resultado de uma análise por grupos de informação, possibilitando assim a subtotalização de valores para cada grupo. O autor comenta que nem todas as implementações apresentadas na lista anterior são comuns a todas as soluções OLAP. Sobre as características principais do processamento OLAP, o autor Sell (2006) baseou‑se nos trabalhos de Codd (1995), Donald (1997) e Thomsen (2002), de modo que o resultado da sua pesquisa apresenta 12 características, originalmente levantadas por Codd (1995), agrupadas pela sua natureza, que, segundo o Sell (2006) e Thomsen (2002), torna mais fácil o entendimento das mesmas. Pós-graduação 143 Primeiramente, são apresentadas as características marcadas como básicas, que, segundo Sell (2006), baseando‑se no trabalho de Thonsen (2002) são: Tabela 2 - Características básicas do OLAP Característica Descrição Manipulação de dados intuitiva Possibilitar a ação direta sobre as células e os recursos dos gráficos. Acessibilidade Disponibiliza uma visão lógica única dos dados da empresa Arquitetura Cliente/Servidor Permite que a ferramenta OLAP rode em um cliente, acesse dados e faça operações em um servidor. Transparência Permite inserir as funcionalidades OLAP dentro do contexto de uma aplicação do domínio do usuário final. Suporte para multiusuários Possibilitar operações simultâneas de leitura e escrita. Fonte: Sell (2006). O segundo grupo de características é chamado de características de relato. Segundo Sell (2006), que se baseou no trabalho de Thomsen (2002), são as seguintes: Tabela 3 - Características de relato Característica Descrição Relato flexível Apresentar dimensões de um cubo por meio de diferentes combinações de linhas, colunas e páginas. Desempenho coerente do relato Preservar o desempenho da apresentação à medida que o volume de dados e dimensões aumente. Tratamento dinâmico de matriz esparsa A organização física dos dados deve ser sensível à mudança das características dos dados ao longo do tempo. Fonte: Sell (2006). O terceiro e último grupo de características apresentadas por Sell (2006) é chamado de características dimensionais e são apresentadas na tabela a seguir: Tabela 4 - Características dimensionais Característica Descrição Visão conceitual multidimensional A visão conceitual do usuário analista deve possibilitar a análise do negócio sobre diferentes perspectivas. Dimensionalidade genérica Cada dimensão deve ser equivalente tanto em sua estrutura quando nas capacidades exploratórias aplicáveis. Dimensões e níveis de agregação limitados A estrutura criada no servido deverá possibilitar a criação de tantas dimensões e cubos quanto necessário para se analisar o negócio. Operações irrestritas de dimensão cruzada Permitir cálculos e manipulação de dados por meio de qualquer quantidade de dimensões e relacionamento de dados. Fonte: Sell (2006) Processo OLAP 144 A Tabela 2 apresenta características básicas e compartilhadas por todas as ferramentas OLAP. Na Tabela 3 são apresentadas características relacionadas à operação de geração de relatórios pelas ferramentas OLAP. As características apresentadas na Tabela 4 são centradas nas operações diretamente ligadas ao DW ou modelo dimensional. Referências ANZANELLO, Cynthia A. OLAP Conceitos e Utilização. Instituto de Informática – Universidade Federal do Rio Grande do Sul. Porto Alegre. Disponível em: <http://bit.ly/I0WoEb>. Acessado em: 10 de abril de 2012. CODD, E. F.; CODD, S. B.; SALLEY, C. T. Providing OLAP (on‑line analytical processing) to user‑analysts: An IT mandate. 1995. DONALD, B. High performance Oracle Data Warehousing. USA: The Coriolis Group, 1997. OLIVEIRA, Wilson J. Data Warehouse. Visual Books, Florianopolis, 2002. SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias semânticas para suporte a aplicações analíticas. 2006. Tese (Doutorado) – Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós‑Graduação em Engenharia de Produção, Florianópolis, 2006. SILVA, João; SAIAS, José. OLAP em âmbito hospitalar: transformação de dados de enfermagem para análise multidimensional. JIUE 2011, 2th Jornada de Informática da Universidade de Évora, Portugal, 2011. THOMSEN, Erik. OLAP Solutions: building multidimensional information systems. 2nd Edition. John Wiley & Sons, Inc, 2002. TURBAN, Efraim et al. Business Intelligence – Um enfoque gerencial para a inteligência do negócio. Editora Bookman, Porto Alegre, 2009. VINCI, Wilson L.; NARCISO, Marcelo G. Integração Access‑Excel para produzir um sistema de apoio à decisão que simula um Data Warehouse e OLAP. XIII SIMPEP, Simpósio de Engenharia de Produção, Bauru, 2006. XAVIER, Fabrício S. V.; PEREIRA, Leonardo Bruno R. SQL dos Conceitos às Consultas Complexas. Editora Ciência Moderna, Rio de Janeiro, 2009. Pós-graduação 145 Desenvolvendo um projeto OLAP Flávio Ceci O uso das soluções OLAP combinadas a estratégias de Business Intelligence (BI) são abordagens bastante requisitadas atualmente, tanto essas soluções como as baseadas em técnicas de descoberta de conhecimento estão na extremidade do usuário final. Sua função é processar os dados para gerar informações e transformá‑las em conhecimento, de modo a apoiar o processo decisório da camada gerencial da organização. Da mesma forma que existem processos para o desenvolvimento de uma solução de BI, ou para a modelagem e implantação de um repositório Data Warehouse (DW), ou ainda para a definição de um cenário utilizando técnicas de descoberta de conhecimento, também existem etapas para o projeto e implementação de modelos OLAP. Nesta leitura, são apresentadas as etapas práticas para o projeto e implantação de uma solução OLAP, guiando para o sucesso desse projeto, a partir do livro escrito por Thomsen (2002). Etapas práticas para o projeto e a implementação de modelos OLAP na visão de Thomsen (2002) Um dos livros mais conceituados e utilizados como referência base para as áreas relacionadas com OLAP é o livro de Erik Thomsen. Segundo um dos maiores nomes da área W.H. Inmono, descreve da seguinte maneira: “O livro de Erik Thomsem se aprofunda onde outros livros não se aprofundaram. Em termos de inteireza, legibilidade e fusão de teoria e prática, recomendo este livro, com certeza.” (THONSEN, 2002, p. 4). Esta seção não deve ser encarada como uma metodologia, mas sim como um guia que explica as etapas práticas associadas ao projeto e implementação da solução OLAP, ou ainda como o próprio autor explica essas orientações: “Elas foram escritas para o projetista e o implementador do modelo OLAP“ (THONSEN, 2002, p.302). Inicialmente, deve‑se identificar os pontos do cenário atual onde se deseja desenvolver e implantar a solução OLAP, como por exemplo, se já foi investido anteriormente no desenvolvimento de um DW e agora gostaria de trabalhar com as informações contidas nele, se a fonte de dados está em uma planilha eletrônica, ou se não existe nada desenvolvido ainda. Processo OLAP 146 Dos cenários apresentados acima, o mais complicado é o para iniciar a concepção de uma solução OLAP a partir do zero, ou seja, sem nenhum dos outros componentes de uma arquitetura ou solução de BI já criado. O autor sugere que para identificar o ponto de partida, deve‑se procurar o ponto em que o projetista se sinta mais à vontade e confiante sobre o que é feito ou que precisa ser feito e trabalhar a partir disso. Por exemplo, caso ele tenha domínio sobre os dados em questão, mas não tem certeza sobre todas as finalidades para as quais os usuários finais irão utilizá‑los, nesse caso, pode‑se adotar um sequência de passos de “baixo para cima”, ou seja, dos dados para a função. De maneira geral, Thomsen (2002) afirma que para a concepção de um projeto OLAP deve‑se cumprir as seguintes etapas: •• Entender o fluxo de dados atual e ideal; •• Definir cubos; •• Definir dimensões, membros e vínculos; •• Definir nível e/ou hierarquias de dimensão; •• Definir agregação e outras formas. Conhecendo o cenário atual É importante lembrar que antes mesmo de iniciar de fato o projeto do modelo ou qualquer tarefa de implantação, é necessário entender o problema e a situação atual, Thomsen (2002, p.304) faz a seguinte afirmação: Não importa as ferramentas específicas que estão sendo usada, você precisa descobrir a respeito dos esquemas dos usuários e de quaisquer esquemas relevantes aos dados de origem. Você também precisa entender as regras comerciais relevantes, como as regras sobre limites de desempenho, acesso aos dados ou a distribuição de informações baseada em evento. As regras poderiam estar codificadas ou nas mentes do pessoal chave. A interação do projetista com a equipe de usuários finais da aplicação OLAP é fundamental para o sucesso do projeto, para isso, pode‑se elaborar algumas perguntas para auxiliar no entendimento da situação atual. Pós-graduação 147 Thomsen (2002) elaborou um questionário para se chegar até o levantamento da situação real: 1) Com que frequência quais tipos de usuários usam o sistema? a.Quantos usuários existem para cada tipo (classe de usuários do sistema)? b.Que tipo de diálogo cada tipo de usuário tem com o sistema? c.Quantos dados cada tipo de usuário examina durante uma sessão típica? d.Quantos dados atravessam a rede em resposta às consultas típicas para cada tipo de usuário? e.Quais são as características de informação normalmente navegadas por cada usuário? f. Quais tipos de ferramentas do usuário final estão sendo usadas para navegar e analisar os dados? g.Quantas visões distintas são necessárias por tipo de usuário final? 2) Em geral, quantos dados dão entrada no sistema? 3) Quantas origens de dados distintas existem? a.Para cada origem, qual é o seu esquema? b.Quantos dados existem? c. Em que velocidade os vínculos são atualizados? d.Que aspecto de integração e refinamento forma envolvidos nos dados de origem? 4) Que cálculos ocasionais normalmente são realizados no servidor? 5) Que cálculos são pré‑realizados no servidor? 6) Que cálculos normalmente são realizados no cliente? 7) Que máquinas, quais sistemas operacionais e configurações de redes são usados? A partir das respostas dadas às perguntas apresentadas anteriormente, o projetista deveria estar apto para preencher o chamado diagrama de origem e uso. Segundo Thomsen (2002), este diagrama representa o que é importante para origens e usuários que utilizarão a solução em questão. A Figura 1 apresenta um exemplo desse diagrama. Processo OLAP 148 Figura 1 - Diagrama de origens e uso Origens Usuários 2 origens 2 usuários (tipos) 01 = Dados de vendas M204 MVS IBM U1 = analista de marketing Excel Windows 95 Compaq 586 02 = dados de Marketing Oracle 7.3 Unix Dell 1 milhão de linhas 32 colunas Númerico Diário Dados OLAP 100.000 linhas 128 colunas Númerico Semanal 30 relatórios diários 200 relatórios semanais 100.000 navegações semanais 25 relatórios diários 25 relatórios diários 500 relatórios semanais 100.000 navegações semanais 25 relatórios diários U2 = Gerente regional Forest & Trees Approach NT Fonte: Thomsen (2002). Após entender a situação real e atual, levantam‑se algumas perguntas sobre possíveis problemas que os usuários estão experimentando. Esses problemas podem ser de natureza física ou lógica. Informações sobre restrições também são bastante importantes para o projeto, essas restrições podem ser: •• o tipo de máquina; •• o sistema operacional em questão; •• a topologia de rede; •• a dependência de softwares de terceiros; •• o número de usuários do sistema; •• o tamanho do conjunto de dados; •• os tipos de dados válidos; •• entre outros. Da mesma forma que praticamente todas as metodologias de desenvolvimento de software são guiadas por requisitos de usuário, nesse caso não é diferente, deve‑se levantar a documentação dos requisitos dos usuários finais. Esses requisitos também podem ser provenientes dos sistemas transacionais da organização. Esse tipo de informação pode ajudar e muito no trabalho de identificação das fontes de dados e até mesmo para saber que tipo de informação poderá ser gerada, ou ainda quais perguntas podem ser respondidas. Pós-graduação 149 Projeto da solução O primeiro passo para a definição do projeto da solução é a definição do modelo lógico, essa definição nada mais é que a concepção do modelo multidimensional. Para o desenvolvimento desse modelo pode‑se utilizar de qualquer metodologia já conhecida para esta etapa. Tento em vista a utilização de uma metodologia para auxiliar a criação do modelo multidimensional, o autor chama a atenção para alguns pontos que são apresentados abaixo: •• Cubos e dimensões; •• Refinar a quantidade de dimensões; •• Verificar as dimensões que mudam com o tempo; •• Quais vínculos devem existir no modelo? •• Hierarquias da dimensão; •• Hierarquias múltiplas; •• Membros da dimensão; •• O contexto da decisão; •• Fórmulas. Os pontos apresentados anteriormente têm como função auxiliar o projetista na validação e conclusão do modelo multidimensional necessário para a ferramenta OLAP. Após finalizar o projeto de solução, deve‑se investir tempo no levantamento de informações sobre as agregações e análises mais complexas. Agregações e análises mais complexas O autor afirma que existem várias formas de se iniciar um projeto OLAP e que na maioria dos casos é deixado para o final questões mais complexas, pois, dependendo da situação, nem é necessário se preocupar com isso. No geral, é necessário levar em consideração pelo menos as questões relacionadas às agregações básicas. Tendo em vista esse fato, o autor apresenta questões de descrições derivadas, que aparecem em ambientes multidimensionais e podem atrapalhar o processo analítico. Processo OLAP 150 Dados de entrada intermediária: esse caso gira em torno de análises que têm dependência com dados de entrada vindos de outras fontes (dados operacionais), mas caso não esteja preparad, pode gerar análises com erros para o usuário. É percebido que não existe uma metodologia formada para o desenvolvimento de uma solução OLAP, mas sim uma sequência de passos para auxiliar o desenvolvimento do seu projeto e implantação. A solução OLAP tem dependência direta do modelo dimensional, por esse motivo, deve‑se dar um foco especial nesse modelo. Referências THOMSEN, Erik. OLAP Solutions: building multidimensional information systems. 2nd Edition. John Wiley & Sons, Inc, 2002. Pós-graduação 151 Exemplo de uma solução OLAP Flávio Ceci As ferramentas OLAP têm como função apresentar um caminho mais amigável para que o seu usuário final navegue pelas informações mantidas nos seus repositórios de dados e informações. Essas ferramentas geralmente possuem um ambiente em que se pode configurar o tipo de consulta desejada, de modo que graficamente o usuário pode combinar uma série de dimensões na forma de linhas e colunas, além de aplicar filtros e paginadores. Para facilitar a visualização, a Figura a seguir foi retirada de um dos ambientes do Diretório de Conhecimento da Vigilância Sanitária (http://dcvisa.anvisa.gov.br), esse e os demais exemplos serão tirados desse portal. Figura 1 - Painel para elaboração das consultas OLAP Fonte: Anvisa, 2012. Processo OLAP 152 No caso do ambiente apresentado na Figura 1, pode‑se utilizar recursos do tipo drag‑and‑drop para arrastar as dimensões que se deseja alocar como linha ou como coluna. A Figura 2 apresenta esse recurso com mais detalhes: Figura 2 ‑ Recurso drag and drop da ferramenta OLAP Fonte: Anvisa, 2012. Esse tipo de ambiente traz uma série de benefícios, já que é bastante intuitivo e permite que o seu usuário final não precise ser um especialista em computação, bastando apenas ter um conhecimento médio em informática e, principalmente, conhecer o domínio em questão. Pode‑se facilmente cruzar as dimensões funcionário com estado e chegar à seguinte situação: Figura 3 - Tabela de funcionários por estado Fonte: Anvisa, 2012. Esse mesmo resultado apresentado pela ferramenta pode ser facilmente convertido em um gráfico, possibilitando visualizar mais dados, como apresentado na Figura 4: Pós-graduação 153 Figura 4 - Selecionando a opção de visualização a partir de gráfico Fonte: Anvisa, 2012. A Figura 5 apresenta a configuração demonstrada na Figura 4, possibilitando a visualização do mesmo resultado de maneira gráfica. Figura 5 - Representação gráfica para os dados apresentados na planilha resultante Fonte: Anvisa, 2012. Processo OLAP 154 A representação gráfica permite eventos de clique, possibilitando que o usuário chegue até a informação grão, a qual, muitas vezes, pode estar na forma de um dado na base operacional. Esse recurso também pode estar presente na visualização de forma tabelar, de modo que ao clicar no valor totalizado de uma célula, pode‑se ver o detalhe até chegar no grão, como ocorre com o caso da representação gráfica. Outro recurso bastante interessante de uma ferramenta OLAP é a criação de dashbords, em que o usuário pode manter alguns gráficos resultantes de consultas (cruzamento entre dimensões),sendo atualizadas em tempo real. A Figura 6 apresenta um exemplo de um dashbord criado a partir de três consultas: Figura 6 - Dashbord do usuário Fonte: Anvisa, 2012. O dashbord ilustrado na Figura 6 apresenta a visão de um usuário do sistema em que foram construídas três projeções. O resultado foi publicado na forma gráfica, cada gráfico segue o conceito de widget, em que é possível verificar as informações na forma tabular, ver um widget em tela cheia. Pós-graduação 155 O conceito de dashbord permite que o usuário tenha um painel no qual se pode acompanhar a evolução dos dados para apoiar a decisão gerencial da organização. Por exemplo, pode‑se demonstrar o gráfico “Produção por ano”, onde é projetada a quantidade de produção distribuída por ano e, também são apresentadas duas linhas em que demostra a situação ideal e a de risco. As soluções OLAP são hoje uma das soluções gráficas mais utilizadas e efetivas para apresentar os dados e informações contidos nos modelos dimensionais. Vale lembrar que as soluções OLAP apresentam os dados históricos e para acompanhamento em tempo real da situação da organização. A combinação dessas soluções com as técnicas de descoberta de conhecimento possibilitam a construção de previsões a partir dos dados passados, tanto para descobrir informações implícitas quanto para montar simulações para a previsão de situações futuras. Referências ANVISA. Diretório de Conhecimento da vigilância Sanitária. Disponível em: http://dcvisa.anvisa.gov.br. Acesso em: 16 jul. 2012. THOMSEN, Erik. OLAP Solutions: building multidimensional information systems. 2nd Edition. John Wiley & Sons, Inc, 2002. Processo OLAP 156 Atividades de Autoaprendizagem 1) Levando em consideração o conteúdo apresentado nesta unidade, assinale as alternativas verdadeiras com V e as falsas com F: a. ( ) Para o desenvolvimento de soluções OLAP, existem várias metodologias que se podem seguir para obter sucesso no mesmo. b. ( ) MOLAP, HOLAP, DOLAP são tipos de arquiteturas OLAP. c. ( ) Pode‑se fazer uma analogia das soluções OLAP com o brinquedo cubo mágico. d. ( ) OLAP e OLTP são siglas para o mesmo tipo de processo. e. ( ) A mineração de dados é uma técnica utilizada para compor a base de dados consumida pelas ferramentas OLAP. f. ( ) ROLAP é um tipo de arquitetura OLAP que utiliza como base um banco de dados com modelo relacional. Atividade colaborativa Nesta unidade, você estudou sobre as soluções OLAP. Responda à pergunta a seguir utilizando a ferramenta Fórum, não se esqueça de comentar as respostas dos seus colegas. As ferramentas OLAP apresentam uma forma amigável de navegar entre as dimensões modeladas na base de dados, essa forma é geralmente tabelar (por meio de tabelas), você acha que existem outras formas de navegação? Se sim, fale sobre elas e apresente quais as suas vantagens e desvantagens. Pós-graduação 157 Síntese Nesta unidade, são estudadas as soluções OLAP, os seus conceitos, como são montadas, quais as suas dependências tecnológicas e exemplos. As soluções OLAP são baseadas na disposição das informações disponíveis nos modelos dimensionais, essas soluções têm como função auxiliar no consumo e explicitação dos dados e informações, de modo a apoiar a tomada de decisão, também é possível acompanhar os dados em tempo real, a fim de acompanhar os dados de entrada para apoiar o processo decisório de maneira mais ágil. Saiba Mais A professora Cynthia Aurora Anzanello, da Universidade Federal do Rio Grande do Sul, escreveu um ótimo artigo falando sobre OLAP e suas utilizações, vale a pena ler este material: http://www.fag.edu.br/professores/limanzke/Administra%E7%E3o%20de%20 Sistemas%20de%20Informa%E7%E3o/OLAP.pdf Processo OLAP Para concluir os estudos Chegamos ao final deste livro sobre Business Inteligence, onde passamos pelas principais áreas que estão relacionadas com essa proposta. Inicialmente, foi abordada uma revisão sobre o conceito de dado, informação e conhecimento, chegando aos sistemas de informação. Nesse tópico verificou‑se que não existe uma classificação única, mas que iríamos nos concentrar no tipo de sistemas de informação chamado de sistemas de apoio à decisão. Os conceitos relacionados a Business Inteligence (BI) nasceram muito antes da era da computação, mas nesse contexto as ferramentas de BI são representadas como evolução dos sistemas de apoio á decisão. Dentro dessa abordagem, utilizam‑se, normalmente, repositórios de dados e informação para apoiar os processos analíticos. Costumeiramente, utiliza‑se a modelagem dimensional para esse tipo de proposta. Os Data Warehouse (DW) são responsáveis pelo armazenamento centralizado dos dados e informações, de maneira dimensional e pré‑processada, garantindo uma qualidade muito maior na sua fonte de informação. Para isso, utilizam‑se ferramentas ETL, as quais têm como função a coleta de dados das bases operacionais, proveniente dos sistemas de informação transacionais da organização. A partir dessa coleta, é feita a transformação e limpeza dos dados e posteriormente a carga no repositório do tipo DW. Para consumir e apresentar esses dados e informações contidos nos repositórios pode‑se utilizar algumas abordagens. Quando se deseja descobrir conhecimento implícito nos repositórios, pode‑se utilizar de técnicas de mineração de dados, as quais podem auxiliar no reconhecimento de padrões e gerar indicativos para acontecimentos futuros. Quando se deseja visualizar os dados e informações históricos, podendo cruzar várias dimensões, de modo a chegar em novas informações, utilizam‑se as soluções OLAP, que, além de navegação pelos dados históricos, podem fazer um acompanhamento em tempo real das operações da organização. 160 Pode‑se verificar que cada vez mais os dados não estruturados estão fazendo parte das soluções de BI, o motivo para tal é que muito do conhecimento organizacional está implícito nas bases de documentos. O cruzamento e carga dessas informações é cada vez mais comum nos repositórios e bases de conhecimento, além dos dados não estruturados provenientes dos documentos da organização. Também, cada vez mais estão utilizando como base os dados publicados em mídias sociais, que representam um canal direto do cliente com as organizações, podendo auxiliar e muito no processo de tomada de decisão. Pós-graduação Minicurrículo Flávio Ceci É graduado em Ciência da Computação pela Universidade do Sul de Santa Catarina (Unisul‑2007), é Mestre em Engenharia do Conhecimento pela Universidade Federal de Santa Catarina (UFSC‑2010) e, atualmente, é doutorando em Engenharia do Conhecimento, também pela Universidade Federal de Santa Catarina. Trabalha com desenvolvimento de softwares desde 2005 e na concepção de sistemas de apoio à decisão, desde 2007, no Instituto Stela. Suas áreas de pesquisa incluem: Recuperação de informação, Business Intelligence, Extração de conhecimento, Processamento de linguagem natural e Análise de sentimentos. Respostas e comentários das atividades de autoaprendizagem e colaborativas Unidade 1 Atividades de Autoaprendizagem 1) Gabarito: F – V – F – F – V – V – F – F a. ( F ) As ontologias são estruturas formais para a representação de dados. Comentário: As ontologias são estruturas formais para a representação de conhecimento. c. ( F ) O “paradigma de transporte” demonstrou, ao longo do tempo, sua eficiência e é utilizado até hoje na Nova Engenharia do Conhecimento. Comentário: A nova engenharia do conhecimento é baseada no paradigma de modelagem, devido à falta de sucesso do paradigma de transporte na concepção dos sistemas de apoio à decisão. d. ( F ) Os Sistemas de Informação possuem uma classificação muito bem definida. Comentário: Essa afirmação não está correta, até hoje os pesquisadores dessa área ainda não chegaram em um consenso sobre a classificação dos sistemas de informação. g. ( F ) O subsistema de modelo da arquitetura clássica de SAD é equivalente ao Data Warehouse da arquitetura de BI. Comentário: os Data Warehouse são equivalentes ao subsistema de dados e não de modelo da arquitetura clássica de um SAD. h. ( F ) Uma organização pode ser vista como um sistema, desde que ela faça uso de computadores. Comentário: Um sistema é qualquer ambiente que seja composto de três processos básicos: Entrada, processamento e saída. Exemplo: sistema digestivo. 164 Atividade colaborativa O uso de dados disponíveis na Web (como por exemplo, em mídias sociais) pode auxiliar os sistemas de apoio à decisão na entrega de uma informação mais estratégica para a organização? Comentário: Atualmente, as mídias sociais representam um canal direto entre as organizações e seus clientes, nelas podem‑se encontrar informações sobre um produto, serviço e atendimento. Cada vez mais as organizações estão utilizando essas informações para montar campanhas de marketing, e até cruzar essas informações com as internas, para auxiliar na tomada de decisão. Unidade 2 Atividades de Autoaprendizagem: 1) Gabarito: F – F – F – V – F ‑ V a. ( F ) As práticas de BI só foram possíveis com o advento dos computadores. Comentário: É apresentado durante a unidade 2 que as técnicas de BI não possuem dependência com sistemas computacionais, que até mesmo em tempos remotos já existiam técnicas de BI inseridas nas suas atividades produtivas, como por exemplo, a sociedade egípcia. b. ( F ) DW nada mais é do que um banco de dados que utiliza como modelagem de dados a abordagem relacional. Comentário: Um DW utiliza como modelagem para os seus dados a modelagem dimensional, que é mais indicada para análise de dados. c. ( F ) ETL é o processo de mineração de dados previsto pela arquitetura de BI. Comentário: O processo de ETL é responsável pela coleta dos dados das bases operacionais, processamento, transformação e carga desses dados no DW. e. ( F ) A chamada área de apresentação é onde as informações são organizadas e centralizadas. Comentário: Essas características são dos repositórios DW. Pós-graduação 165 Atividade colaborativa O uso de recursos semânticos permite uma séria de possibilidades para as análises de informações disponíveis pelo BI, quais possibilidades são essas? Como elas podem auxiliar na análise das informações? Comentário: O uso de recursos semânticos está cada vez mais presente na web (web semântica) e dentro das organizações. Os artifícios semânticos podem estar presentes tanto no processamento das informações, podendo classificá‑las levando em consideração o contexto do dado em questão, bem como na apresentação das informações, sabendo qual a melhor maneira de apresentá‑la. Unidade 3 Atividades de Autoaprendizagem: 1) Gabarito: V – F – V – V – V ‑ F b. ( F ) O processo de integração dos dados é algo bastante simples e rápido de conceber. Comentário: Sabe‑se que o processo de integração de dados é um dos mais custosos e demorados. f. ( F ) As medidas de um DW é uma nomenclatura equivalente a tabelas fato. Comentário: As medidas representam os valores totalizados, que são colunas de uma tabela fato. Atividade colaborativa Nesta unidade, foram estudados os repositórios data warehouse, também foi visto que Inmon, considerado como um dos pais dessa abordagem, já trabalha com o conceito do DW2.0. Dessa forma, faça um paralelo dessa evolução com a evolução do BI, BI 2.0 e BI 3.0. Comentário: O chamado DW 2.0 é baseado na utilização de fontes não estruturadas, junto à modelagem dimensional. No caso do chamado BI2.0 e BI3.0 é também é previsto que seja utilizado conteúdo não estruturado, utilizando‑se de recursos de processamento de linguagem natural e web semântica, o não só conteúdo interno para apoiar a tomada de decisão, mas também conteúdo disponível na internet. Business Intelligence 166 Unidade 4 Atividades de Autoaprendizagem: 1) Gabarito: F – F – V – F – V ‑ F a. ( F ) A mineração de dados é responsável pela modelagem do conhecimento da organização. Comentário: A mineração de dados é baseada em técnicas estatísticas e apoiadas por algoritmos da inteligência artificial, que têm como função analisar e apoiar a descoberta de conhecimento. b. ( F ) As técnicas utilizadas no processo KDD são completamente diferentes das utiliz11,5ada no processo KDT. Comentário: O processo KDD e KDT compartilha de várias técnicas, diferenciando mais da etapa de processamento dos dados e informações de entrada (dado estruturado ou não estruturado). d. ( F ) Os Data Warehouse são uma alternativa ao processo KDD não tendo nenhuma relação. Comentário: Os Data Warehouse são responsáveis por armazenar os dados estruturados que serão consumidos pelo processo KDD. f. ( F ) Os processos KDT e KDD utilizam como fonte soluções do tipo DW. Comentário: O processo KDT utiliza como base textos e dados não estruturados, diferente do processo KDD, que utiliza como base dados estruturados geralmente provenientes de um DW. Atividade colaborativa Nesta unidade, foram estudados conceitos de descoberta de conhecimento em bases de dados e em texto, sabendo que muito do conhecimento organizacional está disponível em documentos não estruturados. Responda à pergunta a seguir utilizando a ferramenta Fórum, não se esqueça de comentar as respostas de seus colegas. Pós-graduação 167 As redes sociais são hoje um dos principais canais de comunicação das organizações com o seu cliente final, é possível utilizar descoberta de conhecimento em texto para extrair informações para contribuir para a base de conhecimento da organização e auxilia no processo decisório? Comentário: A resposta é sim, as redes sociais são hoje um dos principais canais de comunicação entre pessoas e até mesmo entre organizações e seus clientes. Por meio desses canais, é possível identificar opiniões e até mesmo cruzar essas informações para auxiliar na predição de tendências, de forma a atuar diretamente na tomada de decisão. Unidade 5 Atividades de Autoaprendizagem: 1) Gabarito: F – V – V – F – F ‑ V a. ( F ) Para o desenvolvimento de soluções OLAP, existem várias metodologias que se podem seguir para obter sucesso no mesmo. Comentário: Existem recomendações para a construção de soluções OLAP, mas nenhuma metodologia é consolidada ou definida. d. ( F ) OLAP e OLTP são siglas para o mesmo tipo de processo. Comentário: Não são todos os processo diferentes, no caso do processo OLAP, os dados em questão são analíticos. e. ( F ) A mineração de dados é uma técnica utilizada para compor a base de dados consumida pelas ferramentas OLAP. Comentário: A mineração de dados pode ser utilizada combinando com as soluções OLAP, mas ambos atuam no consumo dos dados e informações para apresentar informações e conhecimentos para o usuário da solução. Atividade colaborativa Nesta unidade, você estudou sobre as soluções OLAP. Responda à pergunta a seguir utilizando a ferramenta Fórum, não se esqueça de comentar as respostas dos seus colegas. Business Intelligence 168 As ferramentas OLAP apresentam uma forma amigável de navegar entre as dimensões modeladas na base de dados. Essa forma é geralmente tabelar (por meio de tabelas), você acha que existem outras formas de navegação? Se sim, fale sobre elas e apresente quais as suas vantagens e desvantagens. Comentário: A grande vantagem das ferramentas OLAP é a facilidade na navegação entre as informações e no entendimento dos resultados. No entanto, existem outras maneiras para fazer esse tipo de navegação. Uma solução bastante interessante é a baseada em “perguntas e respostas”, onde o usuário pode fazer uma pergunta em linguagem natural e a aplicação retorna uma face do cubo dimensional. Uma grande vantagem é que não existe aprendizado para saber como interagir com a ferramenta, já que a interface com a aplicação é uma pergunta escrita, por outro lado, o usuário pode não saber o que perguntar e não chegará a encontrar as informações implícitas. Pós-graduação Referências ADRIAANS, P.; ZANTINGE, D. Data mining. Addison Wesley Longman, England, 1996. AGRAWAL, R.; SRIKANT, R. Mining sequential patterns. Proceedings of Eleventh International Conf on Data Engineering. 1995. AIRES, Rachel Virgínia Xavier. Uso de marcadores estilísticos para a busca na Web em português. 2005. 202 f. Tese (Doutorado) Programa de Pós Graduação em Ciências da Computação e Matemática Computacional – Instituto de Ciências e Matemáticas e de Computação-ICMC, Universidade de São Paulo-USP, São Carlos (SP). ALMEIDA, Adiel Teixeira de. Um modelo de decisão para a priorização no planejamento de sistemas de informação. Prod., São Paulo, v. 8, n. 2, Dec. 1998. Available from <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010365131998000200003&lng=en&nrm=iso>. Acessado em 15 Dez. 2011 ANGELONI, Maria Terezinha. Organizações do conhecimento: infraestrutura, pessoas e tecnologias. São Paulo: Saraiva, 2008. 363 p. ANZANELLO, C. A. OLAP: conceitos e utilização. Universidade Federal do Rio Grande do Sul (UFRGS), 2002. ARAGÃO, Pedro O. Um estudo sobre conceitos e técnicas de mineração de dados. 2008. Monografia (Graduação em Tecnologia)-Faculdade de Tecnologia de São Paulo, São Paulo, 2008. AXELROD, R.; COHEN, M. D. Harnessing complexity: organizational implications of a scientific frontier, Free Press, New York, 1999. BARBOSA, Gilka Rocha; ALMEIDA, Adiel Teixeira de. Sistemas de Apoio à Decisão sob o enfoque de Profissionais de TI e de Decisores. XXII Encontro Nacional de Engenharia de Produção. Curitiba, 2002. BERGER, Gideon et al. Discovering unexpected patterns in temporal data using temporal logic; Temporal Databases - Research and Practice. Heidelberg: Ed Springer-Verlag, 1998. 170 BIO, Sérgio Rodrigues. Sistemas de informação: um enfoque gerencial. São Paulo: Atlas, 1996. BONOMO, Peeter. Construção de Data Warehouse (DW) e Data Mart (DM). Artigo online. Disponível em <http://imasters.uol.com.br/artigo/11178> Acesso em: julho de 2009. BOVO, Alessandro Botelho. Um modelo de descoberta de conhecimento inerente à evolução temporal dos relacionamentos entre elementos textuais. 2011. 127 (Doutorado). Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, UFSC, Florianópolis (SC). CABRAL, Pedro da Costa Brito. Sistemas espaciais de apoio à decisão – O Sistema de Apoio ao Licenciamento da Direção Regional do Ambiente do Alentejo. Dissertação para obtenção do grau de Mestre em Sistemas de Informação Geográfica. Universidade Técnica de Lisboa. Portugal, 2001. CAMPOS, R. A. Qualidade de dados em Data Warehouse. TCC (Graduação em Bacharelado em Sistemas de Informação). Centro de Ensino Superior de Juiz de Fora, Juiz de Fora, 2005. CARVALHO, D. R. Um método híbrido árvore de decisão / algoritmo genético para data mining, Tese Doutorado – PUCPR, Curitiba, 2002. CARVALHO, Luís Alfredo V. Data mining: a mineração de dados no marketing, medicina, economia, engenharia e administração. Editora Ciência Moderna. Rio de Janeiro, 2005. CARVALHO, Juliano et al. Utilização de técnicas de datamining para reconhecimento de caracteres manuscritos. Universidade Federal da Paraíba, 2000. CASTRO, Sergio A.; GONÇALVES, Pablo R.; CAZARINI, Edson W. O uso do OLAP na estratégia de vendas em uma indústria de calçados alavancando a gestão de cadeia de suprimentos. XXIV Encontro Nacional de Engenharia de Produção, Florianópolis, 2004. CECI, Flavio. O conhecimento nas organizações como um sistema adaptativo complexo. In: ROVER, Aires J.; CARVALHO Marisa A.. (Org.). O sujeito do conhecimento na sociedade em rede. 001 ed. Florianópolis: Editora: Fundação José Arthur Boiteux, 2010, v. 001, p. 207-2010 Pós-graduação 171 CECI, Flavio. Um modelo semiautomático para a construção e manutenção de ontologias a partir de bases de documentos não estruturados. 2010. Dissertação (Mestrado em Engenharia e Gestão do Conhecimento) – Universidade Federal de Santa Catarina, Florianópolis, 2010. Disponível em: <http://btd.egc.ufsc.br/wpcontent/uploads/2011/04/Fl%C3%A1vio_Ceci.pdf>. Acesso em: 10 de dez. 2011. CECI, Flavio; SILVA, Dhiogo C.; SELL, Denilson; GONÇALVES, Alexandre L. Towards a semiautomatic approach for ontology maintenance. 7 CONTECSI - International Conference on Information Systems and Technology Management. USP, São Paulo, 2010. CIELO, Ivã. Data Warehouse como diferencial competitivo. Artigo on line. Disponível em <http://www.always.com.br/site2005/internet_clip07.html>. Acesso em: julho de 2008. CODD, E. F.; CODD, S. B.; SALLEY, C. T. Providing OLAP (on-line analytical processing) to user-analysts: An IT mandate. 1995. DIAS, Cristiano Araujo. Descoberta de conhecimento em banco de dados para apoio à tomada de decisão. Especialização em Informática Empresarial. Unesp. Guaratinguetá , 2002. DILL, Sérgio Luis. Uma metodologia para desenvolvimento de Data Warehouse e Estudo de Caso. Dissertação submetida para obtenção do grau de Mestre em Ciência da Computação. Universidade Federal de Santa Catarina, Florianópolis, 2002. DONALD, B. High performance oracle data warehousing. USA: The Coriolis Group, 1997. EBECKEN, Nelson F. F.; LOPES, Maria Celia S.; COSTA, Myrian C. A. Mineração de texto. In: REZENDE, Solange O. (Coord.). Sistemas inteligentes: fundamentos e aplicações. São Paulo: Manole, 2005. FAYYAD, Usama M; PIATESTSKY-SHAPIRO, Gregory; SMYTH, Padhraic; UTHURUSAMY, Ramasamy. Advance: knowledge discovery and data mining. 1996. FELDMAN, R.; HIRSH, H. Exploiting background information in knowledge discovery from text. Journal of Intelligent Information System, 1997. FIALHO, Francisco Antônio Pereira et al. Gestão do conhecimento e aprendizagem: as estratégias competitivas da sociedade pós-industrial. Florianópolis: Visualbooks, 2006. Business Intelligence 172 FOURLAN, Marcos Roberto; GONÇALVES FILHO, Eduardo V. Uma proposta de aplicação de Business Intelligence no chão-de-fábrica. Gestão e Produção. V.12, n.1, p. 55-66, 2005. GARCIA, Ana Cristina B.; VAREJÃO, Flávio M.; FERRAZ, Inhaúma N. Aquisição de Conhecimento. In: Sistemas inteligentes: fundamentos e aplicações. Organização: REZENDE, Solange O. Editora Manole, São Paulo, 2005. GHISI, Fernando B.; CECI, Flávio; SELL, Denilson. Aspectos relacionados com a eficácia do processo de aquisição de conhecimento a partir de apresentação de informações numéricas: sumários textuais podem ser mais adequados que representações gráficas? 5º CIDI – Congresso Internacional de Design da Informação. Florianópolis, 2011. GONÇALVES, A. L. Um modelo de descoberta de conhecimento baseado na correlação de elementos textuais e expansão vetorial aplicado à engenharia e gestão do conhecimento. 2006. 196 (Doutorado). Programa de Pós-Graduação em Engenharia de Produção, UFSC, Florianópolis (SC). GORDON, Steven R.; GORDON, Judith. Sistemas de informação: uma abordagem gerencial. 3. ed. Rio de Janeiro: LTC, 2006. GOUVEIA, Luís B.; RANITO, João. Sistemas de informação de apoio à gestão. Porto, Portugal: Sociedade Portuguesa de Inovação, 2004. GOUVEIA, Henrique C. et al. Aplicação da ferramenta OLAP em diferentes módulos de um sistema ERP melhorando a tomada de decisão. Revista Eletrônica de Sistemas de Informação e Gestão Tecnológica. Vol. 01, n. 01, 2011. HEINZLE, Roberto. Um modelo de engenharia de conhecimento para sistemas de apoio à decisão, com recursos para raciocínio abdutivo. Tese para obtenção do grau de Doutor em Engenharia e Gestão do Conhecimento. Universidade Federal de Santa Catarina. Florianópolis, 2010. HEINZLE, Roberto; GAUTHIER, Fernando A. Ostuni; FIALHO, Francisco Antonio P. Semântica nos sistemas de apoio à decisão: O Estado da Arte. Revista da Unifebe, v. 1, p. Artigo 14, 2010. HODGE, P. Business intelligence Architecture. Disponível em <https://sites.google. com/a/paulhodge.com/www/architecture>. Acesso em 21 de Janeiro de 2012. Pós-graduação 173 IGARASHI, Wagner. Construção automática de vocabulários temáticos e cálculo de aderência curricular: uma aplicação aos fundos setoriais. 2005. 95 f. Dissertação (Mestrado) – Programa de Pós-Graduação em Engenharia de Produção e Sistemas, Universidade Federal de Santa Catarina, Florianópolis (SC). INMON, W. H. Como construir o data warehouse. Rio de Janeiro: Campus, 1997. 388 p. INMON, W. H.; TERDEMAN, R. H.; IMHOFF, Claudia. Data warehousing: como transformar informações em oportunidades de negócios. São Paulo: Berkeley, 2001. 266 p. INMON, W.; STRAUSS, D.; NEUSHLOSS, G. DW 2.0 The architecture for the next generation of data warehousing. 2007. LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de Informação Gerenciais: administrando a empresa digital. São Paulo: Prentice Hall, 2001. LOH, Stanley. Material das disciplinas de Sistemas de Informação e Data Mining. Disponível em <atlas.ucpel.tche.br/~loh/>. Acesso em: julho de 2009. LUNARDI, Riccardo. Panoramic and main features of Business Analytics. Tese (Doutorado) 2011 - Universita Degli Studi di Padova, Facolta di Ingegneria. Ingegneria Informatica, Padova (Itália), 2011. KIMBALL, Ralph. Data warehouse toolkit. São Paulo: Makron Books, 1998. 379 p. KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit: the Complete guide to dimensional modeling. Wiley, 2002. KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997. MARTINHAGO, Sérgio. Descoberta de conhecimento sobre o processo seletivo da UFPR. (Dissertação) Mestrado em Métodos Numéricos em Engenharia. Universidade Federal do Paraná, Curitiba, 2005. MAÑAS, Antonio Vico. Administração de sistemas de informação. São Paulo: Érica, 1999. NAPOLI, Marcio. Aplicação de ontologias para apoiar operações analíticas sobre fontes estruturadas e não estruturadas. 2011. Dissertação (Mestrado) – Universidade Federal de Santa Catarina, Programa de Pós‑Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011. Business Intelligence 174 NAVEGA, Sergio. Princípios do data mining. Cenadem 2002, Anais do Infoimagem, 2002. Disponível em: <http://www.intelliwise.com/reports/i2002.htm>. Acesso em: março de 2012. OLIVEIRA, Robson Butaca Taborelli de. O processo de extração de conhecimento de base de dados apoiado por agentes de software. (Dissertação) Ciência da Computação. Universidade de São Paulo. São Carlos, 2000. OLIVEIRA, André Luis B.; CARREIRA, Marcio Luis; MORETI, Thiago Moura. Aprimorando a gestão de negócios com a utilização de Tecnologias de Informação. Revista de Ciências Gerenciais. Vol XIII, Nº 17, 2009. OLIVEIRA, Wilson J. Data Warehouse. Visual Books, Florianopolis, 2002. PINHEIRO, Carlos André Reis. Inteligência analítica: mineração de dados e descoberta de conhecimento. Rio de Janeiro: Ciência Moderna, 2008. PINTAS, Juliano T.; SIQUEIRA, Sean W. M. O papel da semântica no Business Intelligence 2.0: um exemplo no contexto de um programa de pós-graduação. VII Simpósio Brasileiro de Sistemas de Informação. Salvador, 2011. PRIMAK, Fábio Vinícius. Decisões com B.I. Rio de Janeiro: Editora Ciência Moderna, 2008. QUONIAM, Luc; et al. Inteligência obtida pela aplicação de data mining em base de teses francesas sobre o Brasil. Ciência da Informação, v. 30, n.2, p, 20-28. Brasília, 2001. RASMUSSEN, Nils; GOLDY, Paul S.; SOLLI, Per O. Financial Business Intelligence – Trends, Technology, Software Selection, and Implementation. John Wiley and Sons, Inc., New York, 2002. REGINATO, Luciane; NASCIMENTO, Auster Moreira. Um estudo de caso envolvendo business intelligence como instrumento de apoio à controladoria. Revista Contabilidade & Finanças. São Paulo, p.69-83, 2007. REZENDE, Solange. Sistemas inteligentes: fundamentos e aplicações. São Paulo: Ed. Manole, 2005. ROMÃO, Wesley. Descoberta de conhecimento relevante em banco de dados sobre ciência e tecnologia. (Tese) Programa de Pós-Graduação em Engenharia de Produção. Universidade Federal de Santa Catarina. Florianópolis, 2002. Pós-graduação 175 SASSI, Renato Jose. Data warehouse e business intelligence operacional: revisando a tecnologia e analisando as tendências do armazém de dados. XXX Encontro Nacional de Engenharia de Produção. ENEGEP 2010. São Carlos, 2010. SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias semânticas para suporte a aplicações analíticas. 2006. Tese (Doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia de Produção, Florianópolis, 2006. SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para processamento analítico baseado em tecnologias semânticas e em linguagem natural. 2011. Dissertação (Mestrado) – Universidade Federal de Santa Catarina, Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011. SILVA, João; SAIAS, José. OLAP em âmbito hospitalar: transformação de dados de enfermagem para análise multidimensional. JIUE 2011, 2th Jornada de Informática da Universidade de Évora, Portugal, 2011. STUDER, Rudi; BENJAMINS, V. Richard; FENSEL, Dieter. Knowledge engineering: principles and methods. IEEE Transactions on Data and Knowledge Engineering, 1998. TANCER, Bill. Click: o que milhões de pessoas estão fazendo on-line e por que isso é importante. Editora Globo S.A., São Paulo, 2009. TAPSCOTT, Don; WILLIAMS, Anthony D. Wikinomics: como a colaboração em massa pode mudar o seu negócio. Editora Nova Fronteira, Rio de Janeiro, 2006. TEOREY, Toby; LIGHTSTONE, Sam; NADEAU, Tom. Projeto e modelagem de bancos de dados. Elsevier, Rio de Janeiro, 2007. THOMSEN, Erik. OLAP Solutions: building multidimensional information systems. 2nd Edition. John Wiley & Sons, Inc, 2002. TURBAN, Efraim et al. Business Intelligence – um enfoque gerencial para a inteligência do negócio. Editora Bookman, Porto Alegre, 2009. VINCI, Wilson L.; NARCISO, Marcelo G. Integração access-excel para produzir um sistema de apoio à decisão que simula um data warehouse e OLAP. XIII SIMPEP, Simpósio de Engenharia de Produção, Bauru, 2006. XAVIER, Fabrício S. V.; PEREIRA, Leonardo Bruno R. SQL dos conceitos às consultas complexas. Editora Ciência Moderna, Rio de Janeiro, 2009. Business Intelligence 176 WITTEN, Ian H.; FRANK, Eibe. Data mining – practical machine learning tools and techniques with Java implementations. Morgan Kaufmann Publishers. 2000. WIVES, Leandro Krug. Tecnologia de descoberta de conhecimento em textos aplicados à inteligência competitiva. Monografia apresentada ao Exame de Qualificação do Programa de Pós-Graduação em Computação, Universidade Federal do Rio Grande do Sul, Porto Alegre, 2002. Pós-graduação