Mestrado em Ciências da Computação - UEM Tópicos Avançados em Sistemas de Informação I Orientação Prof. Dra. Maria Madalena Dias Data Webhouse “Precisamos ter em mente que a Web é maior e mais importante que o Data Warehouse. A web está alterando nossos valores culturais básicos, e o warehouse precisa apressar-se para ficar alinhado com esses novos valores”. [Kimbal, pag.192] Alunos: Aleksandro Montanha José Luiz de Souza Gomes Késsia Rita da Costa Marchi [email protected] [email protected] [email protected] WEBHOUSE OU WEBSERVER • Um Webhouse, tem a função de armazenar as informações provenientes da web, “sequência de clicks”, por este motivo deve possuir grande capacidade de armazenamento. • Um servidor Web, deve ser capaz de dar resposta imediata a várias solicitações de usuários da internet. Este tipo de servidor é projetado para dar vazão à informação instantaneamente. Interação Cliente/Servidor Web 1 Clique no link Páginas HTML Perfil de usuário Imagens 2 Sua-pagina.html 3 Banner-ad.com . Ler os .. . Imagem cookies Anúncio de Banner 4 Anúncios Link oculto Arquivos de cookie 5 Seu-site.com Banner-ad.com .... .... Profiler.com .... Profiler.com . Ler os .. . Detalhe cookies demográfico Fonte: KIMBALL. Data Webhouse: construindo o Data Warehouse para a Web. p.85. Arquitetura Webhouse Visitante com navegador ISP do visitante Servidor da Web público Logs de seqüência de cliques Servidor de diretório Firewall privado Cache de resposta automática seguro Respostas do computador Servidor de transações Comerciais e Aplicativos Públicos (Extrai, Transforma, Carrega) A WEB Upload e download de respostas automáticas Servidor de Aplicativos de Data Webhouse Documento, Imagem, Servidor de Conjunto de Servidores de Data Webhouse Mídia Mecanismos relacionais De DBMS e OLAP (distribuídos e duplicados) Fonte: KIMBALL. Data Webhouse: construindo o Data Warehouse para a Web. p.30. Data Webhouse • Evolução da Web possibilitou: • Fornecimento de informações, produtos e serviços; • Canal de desenvolvimento de relacionamento pessoal; • Warehouse e a Internet • Trazer a Web para o Warehouse • Levar o Warehouse para a Web Web para o Data warehouse • Trazer comportamentos para o Warehouse; • Interação de usuários com a Web – seqüência de cliques. • Mesmo em estado bruto, a seqüência de cliques tem potencial de fornecer dados inusitados, entretanto é importante prepará-los para atingir o objetivo. • O Data Warehouse é um ambiente ideal para armazenar. Seqüência de Cliques • Série cronológica das ações executadas pelo internauta. • Pode originar-se de um ou vários servidores web. • Ações podem ser agrupadas. • Resulta em uma fonte de dados que pode ser armazenada em diversos tipos de arquivos de log. Seqüência de Cliques • Avaliações a serem feitas • • • • Sincronização de dados. Anonimato da sessão. Identidade falsa. Identificação do usuário. • Diversas máquinas (usuário itinerante) • Compartilhar máquinas (família / trabalho) Análise Comportamental • Ponto de entrada. • Informações importante para o marketing e projeto. • Um link de entrada produz um log denominado referrer. • Permanência • Tempo real em que o usuário permanece na página • Consultas • Conhecer os argumentos de pesquisas que o usuário digita em um formulário Web. Análise Comportamental • Navegação intra-site • Maneira como o usuário navega pode fornecer padrões de medida. • Ponto de Saída • Identificar quando o usuário saiu do site. Requisitos de personalização • Customização • O visitante configura suas preferências de visualização. • Personalização • Fornecer conteúdo sob medida para um visitante resultantes das técnicas de monitoramento disponíveis. • • • • Reconhecimento de re-visitas Filtragem colaborativa ativa Eventos de calendário e de estilo de vida Localização demográfica Projetando o data webhouse • A questão da análise é imprescindível para o sucesso do projeto de webhouse. • Antes de iniciar o trabalho de busca de informações provenientes de seqüência dos cliques de clientes no ambiente web, faz-se necessária a entrevista com executivos e ou pessoas responsáveis por departamentos, para estabelecer os critérios que irão guiar qualquer tipo de mineração bem como a forma que será obtido o conhecimento sobre assuntos de interesse da empresa. Projetando o data webhouse • Podemos ter conteúdos distribuídos em vários Data Mart e em vários servidores. • Garantir a sincronização em centésimo de milésimo de segundos para obter o resultado adequado. • Utilizar ferramentas técnicas para a sincronização de tempo. Projetando o data webhouse • Etapas para alcançar a sincronização • Reduzir a flutuação de cada relógio individual em relação ao tempo padrão. • Sincronizar todos os relógios em um único sistema mestre. • Sincronizar todos os sistemas a este sistema mestre. Projetando o data webhouse • Ferramentas Técnicas para sincronização de tempo • Software comerciais ou shareware. • Fonte de informações de sincronização de software • Internet Network Time Protocol (NTP) • Dependem de receptores • http://www.eecis.udel.edu/~mills/ntp/html/index.html • Obter pela própria internet • Não é recomendado devido ao tempo de LAG. • GPS – Global Positioning System • Capacidade de sincronizar em até um microssegundo Projetando o data webhouse • Diferenças de fuso horário e horário de verão • Estabelecer um nível corporativo para o tempo de relógio • UTC – Universal Time Coordinated (GMT – Greenwich Mean Time) Projetando o data webhouse • Criar rotulação que permitam que os eventos das páginas sejam classificados e codificados. • Os índices de conteúdo para HTML estático deve ser mantido em tabela separada fazendo referencia cruzada em URLs específicos. • Para HTML dinâmico, os índices de conteúdo de página devem derivar diretamente do aplicativo fornecedor de conteúdo. • Criar índices de conteúdo através de uma tabela de código. Projetando o data webhouse • Utilizar servidores de cookies. • Criar um repositório de dados pessoais. Projetando o data webhouse Fonte: KIMBALL. Data Webhouse: construindo o Data Warehouse para a Web. p.176. Por que trazer DW para Web? • O DW contém os ativos de dados da empresa que precisam ser publicados em formato reconhecível comum; • Todos os clientes, parceiros de negócio e funcionários já estão na Web; • A web é um ótimo lugar para encontrar informações. • A web possui conteúdo interessante. • É necessário apenas o Browser. • É de fácil utilização. • A Web é personalização em massa. Projetando a interface do Webhouse • Como os usuários já estão acostumados com a Web, eles criaram algumas expectativas: • Que haja disponibilidade 24 x 7. • Que seja um portal de informações corporativas. • Que haja possibilidade de comunicar-se com alguém da empresa; • Que a informação seja dinâmica e atualizada até o último minuto; • Que seja possível a personalização da página, como se estivesse dialogando com o site. Projetando a interface do Webhouse • 1.ª Revolução em projetos de interface - Anos 70: • • • • a interface gráfica: janelas, mouse e ícones. Objetivo: tornar o computador útil Conceito WYSIWIG Baseada na utilização da tela para o reconhecimento de comandos ao invés de lembrá-los, e apontar em vez de digitar. • 2.ª Revolução - Final da década de 90: • acesso à www, onde o hipertexto possibilitou uma vasta interconexão das informações de texto, imagens gráficas e outras mídias • Objetivo: fazer com que a web seja útil. • Conceito: IWIN (I want it now – quero isso agora) • Baseada na coleta de informações, no reconhecimento de escolhas esperadas por alguém e na obtenção dos resultados instantaneamente Projetando a interface do Webhouse • O feedback da interface com o usuário da web é pessoal e imediato; • A utilização do Webhouse por funcionários, parceiros de negócio e clientes não é nada mais do que outro processo que deve atender às necessidades dos usuários do site da Web. • Num Data Webhouse, precisamos analisar a seqüência de cliques, tentar decidir o que os clientes estão fazendo e se conseguiram o que queriam, se deu certo ou não. Isto apontará para algum aspecto da interface. Projetando a interface do Webhouse • Algumas diretrizes que ajudarão a tornar a experiência do usuário com a interface do Webhouse mais agradável. • Fazer as páginas HTML serem desenhadas rapidamente, prédeclarando os tamanhos das imagens nas tags apropriadas; • Armazenar os dados em cache; • Aumentar a largura de banda do servidor da Web; • Utilizar SGBD apropriado; • Explorar o processamento paralelo; • A navegação do site deve seguir convenções da web; • Utilizar uma pesquisa de cliente para saber o que os usuários estão esperando; • Evitar conteúdo que exija uma configuração sofisticada do navegador; • Simplificar a interface de relatórios; • Fornecer status da geração de relatórios; • Fornecer suporte adequado; • Remover gracejos gráficos, imagens ou textos que piscam, todo texto em negrito e o uso de pontos de exclamação; Explorando os dados a partir do Webhouse • A exploração de dados é um conjunto de técnicas de análise poderosas para dar sentido a conjuntos de dados muito grandes. • Não existe abordagem completa, o que existe é uma combinação de técnicas; • Cada ferramenta pode ser visualizada como um cliente do Data Warehouse. • O Webhouse é que fornece esse conjunto de dados para exploração. Raízes da exploração de dados • Década de 60: • Análise estatística • Final da década de 80: • Lógica Fuzzy; • Pensamento heurístico; • Redes neurais Auge da AI • Final da década de 90: • Tomamos o melhor de cada técnica Atividades da exploração de dados • Agrupamento. • Ex.: selecionar um grande número de clientes não diferenciados e ver se formam grupos naturais; • Classificação. • Ex.: examinar um cliente candidato e atribuí-lo a um grupo. Envolve uma decisão; • Estimativa e previsão. • Ex.: Resultam em medida numérica. Estimativa procura descobrir dados baseados em um perfil de grupo. Previsão procura determinar um resultado que ocorrerá no futuro. • Agrupamento por afinidade: Tipo especial de agrupamento que identifica eventos ou transações que ocorrem simultaneamente. • Ex.: análise da cesta de compra. Preparação dos dados para exploração Pode envolver, entre outras tarefas: • Transformação de dados de legado. Por exemplo, de EBCDIC para ASCII ou Unicode; • Exclusão de campos indesejáveis; • Códigos de interpretação em textos; • Combinação de dados de múltiplas fontes; • Interpretação dos valores dos dados de legado Resultados da exploração de dados Em muitos casos, a exploração de dados produz resultados interessantes, que por si só, são bancos de dados. Neste caso, o Webhouse se torna um bom lugar para armazenar e disponibilizar esses resultados. Ferramenta para publicar o DW na Web • Microsoft Commerce Server 2002 • Permite a publicação do DW na WEB • Permite a obtenção de dados da WEB, através da seqüência de cliques, para o DW Fonte: Modelagem de um Data Webhouse voltado a Produção e Comercialização ANÁLISE • Webhouse Motivação para os negócios via Web. Envolvimento da Gerência. Cultura Analítica de Suporte onde exista tradição em trabalhar com análise de informações para tomada de decisões Existência de dados reais para servir como base em um data webhouse AUDITORIA • Webhouse IMPLAN TAÇÃO Auditoria de consistência de dados Entrevistas finais IMPLANTAÇÃO • Webhouse IMPLEMENTAÇÃO Lidar com o inesperado Novas solicitações de usuários podem surgir durante o processo de implementação Estabelecer lista de espera para possíveis mudanças de estratégias ou formas de extração de Informações solicitadas por usuários finais, em etapas consideradas criticas. CUIDADOS TÉCNICOS • Webhouse IMPLAN TAÇÃO Cuidados com o lançamento do Sistema Configurações completas de hardware e software Conectividade do Banco de Dados e da Rede Definição de papéis de segurança para todos os usuários finais Teste e ensaio de procedimentos Treinamento SEGURANÇA • Webhouse Dinamismo Processo contínuo Autenticação Conexão Segura Definição de Papéis de Usuários Acesso Permissivo através de Papéis ! à Prateleira . A INTERNACIONALIZAÇÃO •Webhouse Um dos maiores problemas encontrados com a utilização de DW para web é a internacionalização, mesmo sendo formas diferentes de expressar a mesma coisa, a questão geográfica e cultural tornam necessário a adoção de muitas alternativas para interpretar uma Informação. • • • • • • • • • Alfabetos estrangeiros Nomes Endereços Números Números de Telefone Moedas Hora do dia Calendários Tratamento de Caracteres não suportados A INTERNACIONALIZAÇÃO •Webhouse •DIFERENTES TIPOS DE ALFABETOS E ESCRITAS Alfabeto Arménio Escrita Chinesa Escrita Árabe Alfabeto Tibetano * http://www.imultimedia.pt/museuvirtpress/port/alfa.html A INTERNACIONALIZAÇÃO •Webhouse • UNICODE Vários problemas internacionais referentes a exibição e impressão na web, estão associadas a representação de caracteres no formato ASCII (American Standart Code of Information) . Esta representação é uma codificação de 8 bits que possui no máximo 255 caracteres, somente 100 destes, possuem interpretação padrão, o que é suficiente para a lingua inglesa, mas não dão suporte para milhares de caracteres de escrita diferentes do Inglês. Unicode consortium, um organismo internacional de arquitetos de sistema definiu um padrão para representar caracteres e alfabetos em quase todas as linguas e culturas mundiais. Este padrao possui codificação de 16 bits, de no máximo 65.535 caracteres e estabelece uma solução de escrita mundial. * http://www.unicode.org A INTERNACIONALIZAÇÃO •Webhouse • Pesquisa de Feriados CADA PAÍS TEM UMA LISTA EXCLUSIVA DE FERIADOS, QUE PODEM NÃO OCORRER NO MESMO DIA EM ANOS SUCESSIVOS • Sincronização de vários fusos horários e formatos de tempo A questão do tempo é fator importantíssimo para transações comerciais e podem ser obtidas de forma absoluta ou relativas a 00:00 hrs de cada fuso horário. Date_key (FK) GMT_Date_Key(Fk) Product_key(FK) Customer_Key(FK) Call_center(FK) Promotion_Key(FK) Time_of_day GMT_Time_of_day Dolar_sold ..... Comparação de televendas através de vários horários exige duas dimensões de data e dois horários de fatos do dia * http://www.holidayfestival.com A INTERNACIONALIZAÇÃO •Webhouse • Suporte para diversos calendários e formato de datas internacionais Existe uma grande dificuldade em monitorar feriados e estações indefinidas em países diferentes, quando se trata de transações multidimensionais envolvendo vários países. Por este motivo um modelo recomendado para calendários contém entradas genéricas independente de um país em particular. Subdimensão de detalhe do calendário nacional Data_key(PK) País(PK) Feriado Feriado_religioso Feriado_civil .... Dimensão do tempo Tabela de Fatos Data_key(PK) Data_extenso dia_da_semana Num_dia_mes Num_dia_semana Num_semana Mes Num_Mes .... Qualquer tabela De fatos contendo Data_key como Uma chave estrangeira.... A INTERNACIONALIZAÇÃO •Webhouse • Coletar Receita em várias Moedas Negócios Multinacionais frequentemente efetuam transações e constantemente podem ser representadas em várias moedas, para isto faz-se necessário estabelecer métodos de conversão. Tabela de Fatos de Vendas Multinacionais Date_key(FK) Product_key(FK) Store_key(FK) Reporting_country_key(FK) Customer_Key(FK) Promotion_key(FK) Quantitiy_sold Local_currency_tendered US_dolar_equivalent_tendered Tabela de fatos de conversão de moedas diária Date_key(FK) Buyng_country_key(FK) Selling_country_key(FK) Conversion_rate A INTERNACIONALIZAÇÃO •Webhouse Nomes e Endereços Certamente um dos maiores problemas para o DW para Webhouse internacional, são as diferentes formas nas quais se apresentam os nomes e os endereços. Sádor Csilla Nemzetkozi Kiadó Kft Rákóczi, u. 73 72626 PÉCS PROFISSIONAIS • Webhouse PROFISSIONAIS DE WEBHOUSE Em qualquer projeto, existe a necessidade de delegar funções e atribuições a indivíduos que compõem a equipe de estudo, implantação e manutenção. Em um projeto Webhouse, surgem novos nomes, que estabelecem um novo nicho de trabalho onde se locam diversas habilidades destinadas a desempenhar tarefas especificas de um modelo webhouse. PROFISSIONAIS • Webhouse PROFISSIONAIS DE WEBHOUSE FRENTE Patrocinador do negócio Patrocinador de IT Condutor do negócio PROFISSIONAIS • Webhouse PROFISSIONAIS DE WEBHOUSE TREINAMENTO Gerente Geral de Projeto Líder de Projeto do Negócio PROFISSIONAIS • Webhouse PROFISSIONAIS DE WEBHOUSE BASE Analista do Negócio Modelador de Dados Administrador de Banco de Dados Administrador de Sistemas do Site da Web Projetista de Sistemas de Pré-consolidação de Dados Desenvolvedor de Aplicativos de Usuário Final Desenvolvedor de CRM PROFISSIONAIS • Webhouse PROFISSIONAIS DE WEBHOUSE BASE Analista de Comportamento do Cliente Professor de WebHouse Webmaster Gerente de Conteúdo Gerente de Segurança do Webhouse Especialista em Descrição de Página de Site da Web Arquiteto de Rede e Segurança PROFISSIONAIS • Webhouse PROFISSIONAIS DE WEBHOUSE BASE Especialista de Suporte Técnico Programador da Pré-consolidação de Dados (data staging) Especialista em extração de logs da Web Administrador de Dados Especialista de Suporte do Sistema de Produção Gerente de Garantia de Qualidade Coordenador (gatekeeper) de garantia de qualidade Modelo • Sistema resultante de “seqüência de cliques”. www.marchi.com.br/cpanel Bibliografia • KIMBALL, Ralph, MERZ, Richard, Data Webhouse: construindo o Data Warehouse para a Web. Rio de Janeiro: Editora Campus, 2000. • PERNAS, Ana M R. “Modelagem de um Data Webhouse voltado a Produção e Comercialização de sementes ”, 2003. Monografia (Curso de Ciência da Computação) – UNIVERSIDADE FEDERAL DE PELOTAS. Disponível por WWW em http://www.ufpel.edu.br/prg/sisbi/bibct/acervo/info/200 3/mono_ana_pernas.pdf/. (acesso em 08/11/2005).