Data Webhouse - Profa. Késsia Marchi

Propaganda
Mestrado em Ciências da Computação - UEM
Tópicos Avançados em Sistemas de Informação I
Orientação Prof. Dra. Maria Madalena Dias
Data Webhouse
“Precisamos ter em mente que a Web é maior e mais importante que o Data
Warehouse. A web está alterando nossos valores culturais básicos, e o
warehouse precisa apressar-se para ficar alinhado com esses novos valores”.
[Kimbal, pag.192]
Alunos:
Aleksandro Montanha
José Luiz de Souza Gomes
Késsia Rita da Costa Marchi
[email protected]
[email protected]
[email protected]
WEBHOUSE OU WEBSERVER
• Um Webhouse, tem a função de armazenar as
informações provenientes da web, “sequência
de clicks”, por este motivo deve possuir grande
capacidade de armazenamento.
• Um servidor Web, deve ser capaz de dar
resposta imediata a várias solicitações de
usuários da internet. Este tipo de servidor é
projetado para dar vazão à informação
instantaneamente.
Interação Cliente/Servidor Web
1
Clique
no link
Páginas HTML Perfil de
usuário
Imagens
2
Sua-pagina.html
3
Banner-ad.com
.
Ler os .. .
Imagem
cookies
Anúncio de Banner
4
Anúncios
Link oculto
Arquivos de cookie
5
Seu-site.com
Banner-ad.com
....
....
Profiler.com
....
Profiler.com
.
Ler os .. . Detalhe
cookies demográfico
Fonte: KIMBALL. Data Webhouse: construindo o Data Warehouse para a Web. p.85.
Arquitetura Webhouse
Visitante com
navegador
ISP do visitante
Servidor da
Web público
Logs de
seqüência
de cliques
Servidor
de diretório
Firewall privado
Cache de resposta
automática
seguro
Respostas do
computador
Servidor de transações
Comerciais e
Aplicativos Públicos
(Extrai, Transforma, Carrega)
A WEB
Upload e download
de respostas automáticas
Servidor de
Aplicativos de
Data
Webhouse
Documento,
Imagem,
Servidor de
Conjunto de Servidores de Data Webhouse Mídia
Mecanismos
relacionais
De DBMS e OLAP
(distribuídos e duplicados)
Fonte: KIMBALL. Data Webhouse: construindo o Data Warehouse para a Web. p.30.
Data Webhouse
• Evolução da Web possibilitou:
• Fornecimento de informações, produtos e serviços;
• Canal de desenvolvimento de relacionamento
pessoal;
• Warehouse e a Internet
• Trazer a Web para o Warehouse
• Levar o Warehouse para a Web
Web para o Data warehouse
• Trazer comportamentos para o Warehouse;
• Interação de usuários com a Web – seqüência de
cliques.
• Mesmo em estado bruto, a seqüência de cliques
tem potencial de fornecer dados inusitados,
entretanto é importante prepará-los para atingir o
objetivo.
• O Data Warehouse é um ambiente ideal para
armazenar.
Seqüência de Cliques
• Série cronológica das ações executadas pelo
internauta.
• Pode originar-se de um ou vários servidores
web.
• Ações podem ser agrupadas.
• Resulta em uma fonte de dados que pode ser
armazenada em diversos tipos de arquivos de
log.
Seqüência de Cliques
• Avaliações a serem feitas
•
•
•
•
Sincronização de dados.
Anonimato da sessão.
Identidade falsa.
Identificação do usuário.
• Diversas máquinas (usuário itinerante)
• Compartilhar máquinas (família / trabalho)
Análise Comportamental
• Ponto de entrada.
• Informações importante para o marketing e projeto.
• Um link de entrada produz um log denominado
referrer.
• Permanência
• Tempo real em que o usuário permanece na página
• Consultas
• Conhecer os argumentos de pesquisas que o
usuário digita em um formulário Web.
Análise Comportamental
• Navegação intra-site
• Maneira como o usuário navega pode fornecer
padrões de medida.
• Ponto de Saída
• Identificar quando o usuário saiu do site.
Requisitos de personalização
• Customização
• O visitante configura suas preferências de
visualização.
• Personalização
• Fornecer conteúdo sob medida para um visitante
resultantes das técnicas de monitoramento
disponíveis.
•
•
•
•
Reconhecimento de re-visitas
Filtragem colaborativa ativa
Eventos de calendário e de estilo de vida
Localização demográfica
Projetando o data webhouse
• A questão da análise é imprescindível para o
sucesso do projeto de webhouse.
• Antes de iniciar o trabalho de busca de
informações provenientes de seqüência dos
cliques de clientes no ambiente web, faz-se
necessária a entrevista com executivos e ou
pessoas responsáveis por departamentos, para
estabelecer os critérios que irão guiar qualquer
tipo de mineração bem como a forma que será
obtido o conhecimento sobre assuntos de
interesse da empresa.
Projetando o data webhouse
• Podemos ter conteúdos distribuídos em vários
Data Mart e em vários servidores.
• Garantir a sincronização em centésimo de
milésimo de segundos para obter o resultado
adequado.
• Utilizar ferramentas técnicas para a
sincronização de tempo.
Projetando o data webhouse
• Etapas para alcançar a sincronização
• Reduzir a flutuação de cada relógio individual em
relação ao tempo padrão.
• Sincronizar todos os relógios em um único sistema
mestre.
• Sincronizar todos os sistemas a este sistema
mestre.
Projetando o data webhouse
• Ferramentas Técnicas para sincronização de
tempo
• Software comerciais ou shareware.
• Fonte de informações de sincronização de software
• Internet Network Time Protocol (NTP)
• Dependem de receptores
• http://www.eecis.udel.edu/~mills/ntp/html/index.html
• Obter pela própria internet
• Não é recomendado devido ao tempo de LAG.
• GPS – Global Positioning System
• Capacidade de sincronizar em até um microssegundo
Projetando o data webhouse
• Diferenças de fuso horário e horário de verão
• Estabelecer um nível corporativo para o tempo de
relógio
• UTC – Universal Time Coordinated (GMT –
Greenwich Mean Time)
Projetando o data webhouse
• Criar rotulação que permitam que os eventos
das páginas sejam classificados e codificados.
• Os índices de conteúdo para HTML estático
deve ser mantido em tabela separada fazendo
referencia cruzada em URLs específicos.
• Para HTML dinâmico, os índices de conteúdo
de página devem derivar diretamente do
aplicativo fornecedor de conteúdo.
• Criar índices de conteúdo através de uma
tabela de código.
Projetando o data webhouse
• Utilizar servidores de cookies.
• Criar um repositório de dados pessoais.
Projetando o data webhouse
Fonte: KIMBALL. Data Webhouse: construindo o Data Warehouse para a Web. p.176.
Por que trazer DW para Web?
• O DW contém os ativos de dados da empresa
que precisam ser publicados em formato
reconhecível comum;
• Todos os clientes, parceiros de negócio e
funcionários já estão na Web;
• A web é um ótimo lugar para encontrar
informações.
• A web possui conteúdo interessante.
• É necessário apenas o Browser.
• É de fácil utilização.
• A Web é personalização em massa.
Projetando a interface do Webhouse
• Como os usuários já estão acostumados com a
Web, eles criaram algumas expectativas:
• Que haja disponibilidade 24 x 7.
• Que seja um portal de informações corporativas.
• Que haja possibilidade de comunicar-se com
alguém da empresa;
• Que a informação seja dinâmica e atualizada até o
último minuto;
• Que seja possível a personalização da página,
como se estivesse dialogando com o site.
Projetando a interface do Webhouse
• 1.ª Revolução em projetos de interface - Anos 70:
•
•
•
•
a interface gráfica: janelas, mouse e ícones.
Objetivo: tornar o computador útil
Conceito WYSIWIG
Baseada na utilização da tela para o reconhecimento de
comandos ao invés de lembrá-los, e apontar em vez de digitar.
• 2.ª Revolução - Final da década de 90:
• acesso à www, onde o hipertexto possibilitou uma vasta
interconexão das informações de texto, imagens gráficas e
outras mídias
• Objetivo: fazer com que a web seja útil.
• Conceito: IWIN (I want it now – quero isso agora)
• Baseada na coleta de informações, no reconhecimento de
escolhas esperadas por alguém e na obtenção dos resultados
instantaneamente
Projetando a interface do Webhouse
• O feedback da interface com o usuário da web
é pessoal e imediato;
• A utilização do Webhouse por funcionários,
parceiros de negócio e clientes não é nada
mais do que outro processo que deve atender
às necessidades dos usuários do site da Web.
• Num Data Webhouse, precisamos analisar a
seqüência de cliques, tentar decidir o que os
clientes estão fazendo e se conseguiram o que
queriam, se deu certo ou não. Isto apontará
para algum aspecto da interface.
Projetando a interface do Webhouse
• Algumas diretrizes que ajudarão a tornar a experiência do
usuário com a interface do Webhouse mais agradável.
• Fazer as páginas HTML serem desenhadas rapidamente, prédeclarando os tamanhos das imagens nas tags apropriadas;
• Armazenar os dados em cache;
• Aumentar a largura de banda do servidor da Web;
• Utilizar SGBD apropriado;
• Explorar o processamento paralelo;
• A navegação do site deve seguir convenções da web;
• Utilizar uma pesquisa de cliente para saber o que os usuários estão
esperando;
• Evitar conteúdo que exija uma configuração sofisticada do navegador;
• Simplificar a interface de relatórios;
• Fornecer status da geração de relatórios;
• Fornecer suporte adequado;
• Remover gracejos gráficos, imagens ou textos que piscam, todo texto
em negrito e o uso de pontos de exclamação;
Explorando os dados a partir do Webhouse
• A exploração de dados é um conjunto de
técnicas de análise poderosas para dar sentido
a conjuntos de dados muito grandes.
• Não existe abordagem completa, o que existe é
uma combinação de técnicas;
• Cada ferramenta pode ser visualizada como
um cliente do Data Warehouse.
• O Webhouse é que fornece esse conjunto de
dados para exploração.
Raízes da exploração de dados
• Década de 60:
• Análise estatística
• Final da década de 80:
• Lógica Fuzzy;
• Pensamento heurístico;
• Redes neurais
Auge da AI
• Final da década de 90:
• Tomamos o melhor de cada técnica
Atividades da exploração de dados
• Agrupamento.
• Ex.: selecionar um grande número de clientes não
diferenciados e ver se formam grupos naturais;
• Classificação.
• Ex.: examinar um cliente candidato e atribuí-lo a um grupo.
Envolve uma decisão;
• Estimativa e previsão.
• Ex.: Resultam em medida numérica. Estimativa procura
descobrir dados baseados em um perfil de grupo. Previsão
procura determinar um resultado que ocorrerá no futuro.
• Agrupamento por afinidade: Tipo especial de
agrupamento que identifica eventos ou transações
que ocorrem simultaneamente.
• Ex.: análise da cesta de compra.
Preparação dos dados para exploração
Pode envolver, entre outras tarefas:
• Transformação de dados de legado. Por exemplo,
de EBCDIC para ASCII ou Unicode;
• Exclusão de campos indesejáveis;
• Códigos de interpretação em textos;
• Combinação de dados de múltiplas fontes;
• Interpretação dos valores dos dados de legado
Resultados da exploração de dados
Em muitos casos, a exploração de dados
produz resultados interessantes, que por si só,
são bancos de dados.
Neste caso, o Webhouse se torna um bom
lugar para armazenar e disponibilizar esses
resultados.
Ferramenta para publicar o DW na Web
• Microsoft Commerce Server 2002
• Permite a publicação do DW na WEB
• Permite a obtenção de dados da WEB, através da
seqüência de cliques, para o DW
Fonte: Modelagem de um Data Webhouse voltado a Produção e Comercialização
ANÁLISE
• Webhouse
Motivação para os negócios via Web.
Envolvimento da Gerência.
Cultura Analítica de Suporte onde exista tradição em trabalhar com
análise de informações para tomada de decisões
Existência de dados reais para servir como base em um data webhouse
AUDITORIA
• Webhouse
IMPLAN TAÇÃO
Auditoria de consistência de dados
Entrevistas finais
IMPLANTAÇÃO
• Webhouse
IMPLEMENTAÇÃO
Lidar com o inesperado
Novas solicitações de usuários podem surgir durante o processo de implementação
Estabelecer lista de espera para possíveis mudanças de estratégias ou formas de
extração de Informações solicitadas por usuários finais, em etapas consideradas
criticas.
CUIDADOS TÉCNICOS
• Webhouse
IMPLAN TAÇÃO
Cuidados com o lançamento do Sistema
Configurações completas de hardware e software
Conectividade do Banco de Dados e da Rede
Definição de papéis de segurança para todos os usuários finais
Teste e ensaio de procedimentos
Treinamento
SEGURANÇA
• Webhouse
Dinamismo
Processo contínuo
Autenticação
Conexão Segura
Definição de Papéis de Usuários
Acesso Permissivo através de Papéis
! à Prateleira .
A INTERNACIONALIZAÇÃO
•Webhouse
Um dos maiores problemas encontrados com a utilização de DW
para web é a internacionalização, mesmo sendo formas diferentes de
expressar a mesma coisa, a questão geográfica e cultural tornam
necessário a adoção de muitas alternativas para interpretar uma
Informação.
•
•
•
•
•
•
•
•
•
Alfabetos estrangeiros
Nomes
Endereços
Números
Números de Telefone
Moedas
Hora do dia
Calendários
Tratamento de Caracteres não suportados
A INTERNACIONALIZAÇÃO
•Webhouse
•DIFERENTES TIPOS DE ALFABETOS E ESCRITAS
Alfabeto Arménio
Escrita Chinesa
Escrita Árabe
Alfabeto Tibetano
* http://www.imultimedia.pt/museuvirtpress/port/alfa.html
A INTERNACIONALIZAÇÃO
•Webhouse
• UNICODE
Vários problemas internacionais referentes a exibição e impressão na web, estão associadas a representação de
caracteres no formato ASCII (American Standart Code of Information) . Esta representação é uma codificação de 8
bits que possui no máximo 255 caracteres, somente 100 destes, possuem interpretação padrão, o que é suficiente
para a lingua inglesa, mas não dão suporte para milhares de caracteres de escrita diferentes do Inglês.
Unicode consortium, um organismo internacional de arquitetos de sistema definiu um padrão para representar
caracteres e alfabetos em quase todas as linguas e culturas mundiais. Este padrao possui codificação de 16 bits, de
no máximo 65.535 caracteres e estabelece uma solução de escrita mundial.
* http://www.unicode.org
A INTERNACIONALIZAÇÃO
•Webhouse
•
Pesquisa de Feriados
CADA PAÍS TEM UMA LISTA EXCLUSIVA DE FERIADOS, QUE PODEM NÃO OCORRER NO MESMO
DIA EM ANOS SUCESSIVOS
•
Sincronização de vários fusos horários e formatos de tempo
A questão do tempo é fator importantíssimo para transações comerciais e podem ser obtidas de
forma absoluta ou relativas a 00:00 hrs de cada fuso horário.
Date_key (FK)
GMT_Date_Key(Fk)
Product_key(FK)
Customer_Key(FK)
Call_center(FK)
Promotion_Key(FK)
Time_of_day
GMT_Time_of_day
Dolar_sold
.....
Comparação de televendas através de
vários horários exige duas dimensões de
data e dois horários de fatos do dia
* http://www.holidayfestival.com
A INTERNACIONALIZAÇÃO
•Webhouse
•
Suporte para diversos calendários e formato de datas internacionais
Existe uma grande dificuldade em monitorar feriados e estações indefinidas em países
diferentes, quando se trata de transações multidimensionais envolvendo vários países.
Por este motivo um modelo recomendado para calendários contém entradas genéricas
independente de um país em particular.
Subdimensão de
detalhe do calendário
nacional
Data_key(PK)
País(PK)
Feriado
Feriado_religioso
Feriado_civil
....
Dimensão do tempo
Tabela de Fatos
Data_key(PK)
Data_extenso
dia_da_semana
Num_dia_mes
Num_dia_semana
Num_semana
Mes
Num_Mes
....
Qualquer tabela
De fatos contendo
Data_key como
Uma chave estrangeira....
A INTERNACIONALIZAÇÃO
•Webhouse
•
Coletar Receita em várias Moedas
Negócios Multinacionais frequentemente efetuam transações e constantemente podem ser
representadas em várias moedas, para isto faz-se necessário estabelecer métodos de
conversão.
Tabela de Fatos de Vendas Multinacionais
Date_key(FK)
Product_key(FK)
Store_key(FK)
Reporting_country_key(FK)
Customer_Key(FK)
Promotion_key(FK)
Quantitiy_sold
Local_currency_tendered
US_dolar_equivalent_tendered
Tabela de fatos de conversão de moedas diária
Date_key(FK)
Buyng_country_key(FK)
Selling_country_key(FK)
Conversion_rate
A INTERNACIONALIZAÇÃO
•Webhouse
Nomes e Endereços
Certamente um dos maiores problemas para o DW para Webhouse internacional, são as
diferentes formas nas quais se apresentam os nomes e os endereços.
Sádor Csilla
Nemzetkozi Kiadó Kft
Rákóczi, u. 73
72626 PÉCS
PROFISSIONAIS
• Webhouse
PROFISSIONAIS DE WEBHOUSE
Em qualquer projeto, existe a necessidade de delegar funções e
atribuições a indivíduos que compõem a equipe de estudo, implantação e
manutenção.
Em um projeto Webhouse, surgem novos nomes, que estabelecem um novo
nicho de trabalho onde se locam diversas habilidades destinadas a
desempenhar tarefas especificas de um modelo webhouse.
PROFISSIONAIS
• Webhouse
PROFISSIONAIS DE WEBHOUSE
FRENTE
Patrocinador do negócio
Patrocinador de IT
Condutor do negócio
PROFISSIONAIS
• Webhouse
PROFISSIONAIS DE WEBHOUSE
TREINAMENTO
Gerente Geral de Projeto
Líder de Projeto do Negócio
PROFISSIONAIS
• Webhouse
PROFISSIONAIS DE WEBHOUSE
BASE
Analista do Negócio
Modelador de Dados
Administrador de Banco de Dados
Administrador de Sistemas do Site da Web
Projetista de Sistemas de Pré-consolidação de Dados
Desenvolvedor de Aplicativos de Usuário Final
Desenvolvedor de CRM
PROFISSIONAIS
• Webhouse
PROFISSIONAIS DE WEBHOUSE
BASE
Analista de Comportamento do Cliente
Professor de WebHouse
Webmaster
Gerente de Conteúdo
Gerente de Segurança do Webhouse
Especialista em Descrição de Página de Site da Web
Arquiteto de Rede e Segurança
PROFISSIONAIS
• Webhouse
PROFISSIONAIS DE WEBHOUSE
BASE
Especialista de Suporte Técnico
Programador da Pré-consolidação de Dados (data staging)
Especialista em extração de logs da Web
Administrador de Dados
Especialista de Suporte do Sistema de Produção
Gerente de Garantia de Qualidade
Coordenador (gatekeeper) de garantia de qualidade
Modelo
• Sistema resultante de “seqüência de cliques”.
www.marchi.com.br/cpanel
Bibliografia
• KIMBALL, Ralph, MERZ, Richard, Data Webhouse:
construindo o Data Warehouse para a Web. Rio de
Janeiro: Editora Campus, 2000.
• PERNAS, Ana M R. “Modelagem de um Data
Webhouse voltado a Produção e Comercialização
de sementes ”, 2003. Monografia (Curso de Ciência
da Computação) – UNIVERSIDADE FEDERAL DE
PELOTAS. Disponível por WWW em
http://www.ufpel.edu.br/prg/sisbi/bibct/acervo/info/200
3/mono_ana_pernas.pdf/. (acesso em 08/11/2005).
Download