slides da apresentação

Um Ambiente para Mineração de
Utilização Web
José Roberto de Freitas Boullosa
Introdução
Apresentação
 Motivação
 Estrutura do trabalho

– Mineração de dados
– Mineração de utilização da Web
– Ambiente proposto
– Conclusões
Mineração de dados
Mineração de dados
(data mining)
x
Descoberta do conhecimento
(knowledge discovery)
Piatestky-Shapiro:
Workshop in Knowledge Discovery in Databases
Detroit 1989
Mineração de dados
“Estilos”
de mineração de dados
– Descoberta de conhecimento
• Bottom-up
• Indução
– Testes de hipóteses
• Top-down
• Dedução
Mineração de dados

Descoberta de conhecimento (Fayyad et al.)
1.
2.
3.
4.
5.
Definição dos domínios
Criação do conjunto de dados, seleção de fontes
Pré-processamento
Transformação dos dados
MINERAÇÃO DE DADOS
–
Técnicas e algoritmos
6. Análise e interpretação dos resultados
Mineração de dados
Modelos para mineração de dados

–
–
–
–
Preditivos
Classificação
Agrupamento
Séries temporais
Mineração de dados

Métodos de mineração de dados
– Geração de regras de associação
•
•
Banco de dados de transações
“Market-basket analysis”
– Análise de seqüências
•
•
Teoria dos grafos
Padrões seqüenciais
Mineração de dados

Métodos de mineração de dados
–
Classificação
•
•
–
Conhecimento apriorístico sobre classes
Perfis de itens com atributos em comum
Agrupamento (clustering)
•
•
•
•
Sem conhecimento prévio sobre classes
Dados similares
Métricas para “distância”
Clusters
Mineração de dados

Métodos de mineração de dados
– Árvores de Decisão
•
•
•
•
Indução de regras
CART (Classification and Regression Tree)
CHAID (chi-squared automatic induction)
Algoritmos principais: ID3, C4.5
Mineração de dados

Métodos de mineração de dados
–
MBR (Memory-based reasoning)
–
–
Redes neurais
–
–
–
Predição de novos itens a partir de itens já
conhecidos
Modelos simuladores das conexões neuronais
Dificuldades: sensibilidade, entendimento dos
modelos gerados
GA - Algoritmos genéticos
–
–
–
Mecanismos da genética e seleção natural
• Seleção, cross-over, mutação
Gerações sucessivas de soluções
Soluções “sobreviventes”
Mineração de dados
Data Warehousing

–
Conjunto de dados integrados, não-voláteis,
orientados por assunto e variáveis no tempo,
utilizados primordialmente como ponto de
apoio a decisões gerenciais. (INMON)
Mineração de dados

Data Warehousing
–
Modelo multidimensional
•
•
Vantagens em relação ao MER
Cubo
–
–
•
Operações de manipulação
–
•
Fatos
n Dimensões
• Atributos
• Hierarquias
Slice & dice, roll-up, drill-down
Esquemas
–
–
Estrela (Star schema)
Flocos de neve (snow flakes)
Mineração de dados

OLAP
On-line Analytical Processing
x
On-line Transaction Processing
–
–
Cubos
Categorias
•
•
•
MOLAP (OLAP Multidimensional)
ROLAP (OLAP Relacional)
HOLAP (OLAP Híbrido)
Mineração de dados da Web
Aplicação das técnicas de mineração de dados para a
extração de dados da Web

Termos úteis
•
•
•
•
•
Visita / acesso (page view)
Clickstream
Sessão de usuário
Episódio
URL (Universal Resource Locator)
esquema://host:porta/path/querystring
•
•
•
•
URI (Universal Resource Identifier)
Referidor (referrer)
Cookie
Programas CGI (Common Gateway Interface)
Mineração de dados da Web

Modelos de navegação
– WWW (World Wide Web)
•
Ecologia de Informações dinâmica
(Catledge & Pitkow)
– Sistema hipermídia aberto
– Colaborativo
– Altamente dinâmico
Mineração de dados da Web

Modelos de navegação
– WWW
•
Estratégias de utilização
– Busca
• Orientação quanto ao objetivo
– Navegação
• Similaridade entre itens
– Navegação serendípica (serendipitious
browsing)
• Aleatoriedade
Mineração de dados da Web

Modelos de navegação
– Etapas da busca de informações na
Web (Levene & Loizou)
1.
2.
3.
4.
Especificação da consulta
Recuperação da informação
Navegação
Modificação da consulta
Nielsen (1990):
“Perdido no hiperespaço” (lost in hyperspace)
Mineração de dados da Web

Modelos de navegação
– Objetivos no projeto de um site
Busca
x
Navegação
•
Análise dos padrões de navegação
– Mineração de utilização
Mineração de dados da Web

Modelos de navegação
– Revisitação de páginas
•
Taxa de recorrência R
– Probabilidade de que uma página já tenha sido
acessada na mesma sessão
– Tauscher & Greenberg : R = 61%, D.P. 9%
•
Navegação Web: Sistema recorrente
Mineração de dados da Web

Modelos de navegação
–
Razões para revisitação
•
•
•
•
•
–
Páginas mudam
Explorar com mais detalhes
Páginas especiais (busca, etc.)
Edição de páginas
Páginas são caminho de navegação
Razões para acessar novas páginas
•
•
•
•
Mudanças nas necessidades de informações
Exploração de novos sites
Recomendação de amigos
Encontrar nova página interessante ao navegar
Mineração de dados da Web

Modelos de navegação
–
Padrões de navegação (Tauscher &
Greenberg)
•
•
•
•
•
•
•
Visitas iniciais a grupo de páginas
Revisitas a páginas
Visitas a páginas em edição
Visitas a páginas criadas por aplicações
Hub-and-spoke
Navegação dirigida
Navegação de profundidade
Mineração de dados da Web

Modelos de navegação
–
Modelos estocásticos (Borges, Levene, Loizou)
•
•
•
•
•
•
Estrutura do site: grafo direcionado
Nós = páginas
Arestas = links entre páginas
Conjunto de trilhas do grafo: Visão Web
Cada página representa um estado
Cada link tem uma probabilidade associada
–
–
•
Freqüência de utilização do link
Peso relativo dos links para os usuários
Cadeia de Markov
Mineração de dados da Web

Modelos de navegação
–
Modelos estocásticos (Huberman et al.)
•
Comportamento do usuário
–
–
•
Maximizar utilidade ou valor das páginas
Reduzir custo ou esforço de navegação
Lei de Zipf (Levene e Borges)
–
–
–
–
P = Probabilidade de trilha de comprimento t ser
percorrida
• P = t –3/2
Usuários preferem trilhas curtas
Número de trilhas curtas exponencialmente maior que o
de trilhas longas
Razão = Valor agregado / esforço despendido
• Maior para as trilhas curtas
Mineração de dados da Web
Tipo
Carac. Físicas
Carac. Uso
Cabeçalho
Links de entrada partem de várias
páginas
Raiz do site
Início das sessões
Conteúdo
Muitos textos e gráficos em relação
a links
Tempo médio de visita longo
Navegação
Poucos textos e gráficos em
relação a links
Tempo médio de visitação
curto
Não é Ref.P.Máxima
Look-up
Poucos links de entrada
Poucos links de saída
Conteúdo reduzido
Tempo médio de visitação
curto
É Ref.P.Máxima
Pessoal
Sem características comuns
Baixa freqüência de visitação
Mineração de dados da Web

Modelos de navegação
– Classificação das páginas
•
Manual
– Uma-a-uma
– Meta-dados HTML, XML (RDF)
•
Automática
– Algoritmos
Mineração de dados da Web

Tipos de mineração de dados da Web
– Zaïane
•
•
•
Mineração de conteúdo (Web content mining)
Mineração de estrutura (Web structure
mining)
Mineração de utilização (Web usage mining)
– Cooley et al.
•
•
Mineração de conteúdo (Web content mining)
Mineração de utilização (Web usage mining)
Mineração de dados da Web
Problemas da mineração de dados da
Web

–
–
–
–
–
Necessidade de filtragem dos dados
Integração das fontes de dados
Identificação de usuários
Identificação de sessões
Identificação de transações
Mineração de dados da Web

Mineração de conteúdo da Web
–
Agentes (Cooley)
•
Agentes de busca inteligente
–
–
–
•
Domínios e perfis
ParaSite, ShopBot…
Crawlers, spiders, robots…
Personalizados e baseados em filtragem/categorização
–
–
–
Preferências dos usuários, perfis
WebWatcher, Letizia…
Relacionam-se também com a mineração de utilização
Mineração de dados da Web

Mineração de conteúdo da Web
– Abordagens baseadas em bancos de
dados
•
Estruturar a Web
– Meta-dados
– Multicamadas
•
•
Mecanismos de consulta
UnQL, W3QL…
Mineração de utilização da Web

Objetivos de um site
– Acesso às páginas “importantes”
– Exibição de links relevantes
– Evitar desorientação
Mineração de utilização da Web

A estrutura do site reflete:
– Comportamento esperado dos visitantes
– Expectativas do projetista quanto ao
comportamento

O site deveria refletir TAMBÉM:
– Comportamento real dos visitantes
Mineração de utilização da Web

Solução:
–
Analisar os padrões de utilização do site
•
Fontes:
–
–
–
–
Logs dos servidores Web
Estruturas dos sites (Pirolli)
Logs gerados por agentes e outros programas
Mineração de utilização da Web
•
•
•
Chen et al. (1996)
Mannila & Toivonen (1996)
Yan et al. (1996)
Mineração de utilização da Web

Aspectos complementares:
– Analisar sistematicamente o
comportamento dos usuários
– Servir como apoio para a tomada de
decisões sobre o que deve ser
modificado no site
Mineração de utilização da Web

Classificação (Cooley)
– Descoberta de padrões gerais
•
Tendências de uso genéricas
– Descoberta de padrões customizados
•
•
Tendências de uso de determinado visitante
Adaptação do site ao visitante
– Sites adaptativos: Perkowitz & Etzione, Maedche
Mineração de utilização da Web

Aplicações das informações obtidas
–
–
–
–
–
–
Utilização em campanhas promocionais
Análise de estratégias de marketing
Reestruturação e adaptação automática do site
Gerenciamento mais efetivo das comunicações
de um grupo de trabalho e da infraestrutura
organizacional
Distribuição de propaganda para usuários
específicos
Venda de espaços de publicidade
Mineração de utilização da Web
Produtos comerciais

–
–
–
–
–
Webtrends, NetTracker, NetGenesis
Analog
Análises estatísticas
Estrutura proprietárias
Deficientes em relação a análises mais
profundas
Mineração de utilização da Web

Tipos de ferramentas para mineração
de utilização (Cooley)
– Descoberta de padrões
•
WebMiner, Joshi & Krishnapuram, …
– Análise de padrões
•
WebViz, WebLogMiner…
– * Mistas
•
WebMiner, WebSift
Mineração de utilização da Web

Etapas da mineração de dados
(Cooley et al.)
– Preparação de dados
– Descoberta de padrões
– Análise e visualização de padrões
Mineração de utilização da Web

Preparação de dados
– Fontes de dados
•
•
•
•
Logs de servidores Web
Agentes autônomos
Outras interfaces
Páginas dinâmicas, scripts, programas CGI
Mineração de utilização da Web

Preparação de dados
– Logs de servidores Web
•
•
•
Itens irrelevantes
Ausência de identificação de usuários e
sessões
Falta do registro de muitos acessos
– Páginas em cache
Mineração de utilização da Web
Preparação de dados: etapas

–
–
–
–
Filtragem dos dados
Identificação dos usuários
Identificação das sessões
Identificação das transações
Mineração de utilização da Web

Filtragem de dados
– Formatos de logs
•
•
Common Log Format
Extended Log Format
– Arquivos indesejados
Mineração de utilização da Web
Identificação de usuários

–
Cache (local e de servidor)
•
–
Cache busting
Proxy servers
•
•
Cookies
Registro explícito
–
•
Privacidade
Heurísticas de identificação
–
–
–
Mudanças nas entradas do log
Tempo entre acessos
Topologia do site
Mineração de utilização da Web

Identificação de sessões
– Uso de time-out de controle
•
•
Entre acessos
Para a duração total da sessão
– Preenchimento de “vazios” da sessão
•
•
Uso da topologia do site
Tempo médio de acesso
Mineração de utilização da Web

Identificação de transações
– Transação: unidade semântica
– Tipos
•
Transações de navegação
– Caminhos comuns até uma página
•
Transações de conteúdo
– Relacionamentos entre páginas de conteúdo
– Implicações
•
Regra A->B analisada a partir de transações
de diferentes tipos
Mineração de utilização da Web

Identificação de transações
– Abordagens
•
•
Divisão em transações menores
Agrupamento em transações maiores
– Seqüência de passos
•
Primeiro passo : divisão
Mineração de utilização da Web
Identificação de transações

–
–
–
–
–
L : Conjunto de entradas de log
l.ip : IP do cliente
l.uid : Identificador do usuário
l.URL : URL da página acessada
I.tempo : momento do acesso
t = < ipt, uidt, {(lt1.URL, lt1.tempo), ...ltm.URL, ltm.tempo)} >
onde, para 1  k  m:
ltkL, ltk.ip=ipt, ltk.uid=uidt
Mineração de utilização da Web

Identificação de transações
– Métodos
•
Duração da referência
– Divisão das transações
•
Referências posteriores máximas (Chen et al.)
– Divisão das transações
•
Janelas de tempo
– Não utiliza o modelo de páginas de conteúdo e
navegação
– Agrupamento ou divisão das transações
Mineração de utilização da Web

Identificação de transações
– Método de referências posteriores
máximas
•
•
•
•
Referências reversas (backward references)
Referências posteriores (forward references)
Maximal forward references
Algoritmo MF (maximal forward)
– Seqüências longas de referências
– Algoritmo FS (full-scan)
– Algoritmo SS (selective-scan)
Mineração de utilização da Web

Identificação de transações
– Análise dos métodos
•
Duração de referência
– Encontra regras que os outros não encontram
•
Referências posteriores
– Ruim para achar transações de conteúdo em sites
com alto grau de conectividade
– Muitas transações de navegação
•
Janelas de tempo
– Pode ser usado juntamente com os outros métodos
Mineração de utilização da Web

Descoberta de padrões
– Análises estatísticas
•
•
•
•
•
•
Caráter geral
Hits por página
Páginas mais acessadas
Páginas mais usadas como partida ou saída
Tempo médio por página
Comum nos pacotes comerciais
Mineração de utilização da Web

Descoberta de padrões
– Análise dos caminhos percorridos
•
Grafos direcionados
– Nós
• Páginas
– Arestas
• Links
• Similaridades entre páginas
• Número de usuários que percorreram o link
•
•
Caminhos mais freqüentes
Seqüências longas de referências
Mineração de utilização da Web

Descoberta de padrões
– Regras de associação
•
Aplicadas a BDs de transações, onde cada
transação é um conjunto de itens
– Item = página acessada
– Transação = conjunto de páginas acessadas
Mineração de utilização da Web

Descoberta de padrões
– Regras de associação
•
•
A→B
Na Web, A pode ser:
– Página individual
– Seqüência não ordenada de páginas
– Seqüência ordenada de páginas
Mineração de utilização da Web

Descoberta de padrões
– Regras de associação
•
Confiança
– Percentual entre as transações que contêm todos
os itens de uma regra e as transações que contêm
os antecedentes da regra
•
Suporte
– Percentual das transações que contêm o padrão
Mineração de utilização da Web

Descoberta de padrões
– Padrões seqüenciais
•
•
•
Percentual de usuários que acessaram X e
depois Y num determinado intervalo
Intervalos em que certas páginas foram mais
acessadas
Características em comum dos visitantes de
uma página num determinado período
Mineração de utilização da Web

Descoberta de padrões
– Padrões seqüenciais
•
•
Mineradores convencionais procuram os
padrões mais freqüentes
Muitas vezes, são buscados padrões raros,
mas “interessantes”
– Zaki et al.: remoção das seqüências não
interessantes
– Spiliopoulou et al.: WUM
Mineração de utilização da Web

Descoberta de padrões
–
Classificação e agrupamento
•
•
Reunião de páginas semelhantes
Detecção de seqüências semelhantes
–
•
Comparação com perfis de usuários
• Informações demográficas
Su et al.: RDBC (Recursive density based clustering)
–
Agrupamento de páginas com base na freqüência de sua
utilização, não no conteúdo
Mineração de utilização da Web

Descoberta de padrões
– Cooley et al.
•
Filtro de sites
–
–
–
–
•
Diminuição do tempo de processamento
Redução do número de regras inúteis
Diminuição das medidas de suporte e confiança
Maior número de padrões úteis
Ignorar regras triviais
– Ex.: regra que apenas confirme um link direto entre
as páginas
Mineração de utilização da Web

Análise dos padrões
–
Ferramentas
•
•
•
–
Programas estatísticos
Gráficos
Linguagens de consulta
Kato et al.
•
•
•
•
Ferramenta de análise de padrões
Relevância entre páginas e conectividade dos links
Co-ocorrência de acessos entre páginas diferentes
Mostra ao administrador as páginas que não são úteis
Mineração de utilização da Web

Análise dos padrões
–
WebViz (Pitkow & Bharat)
•
•
–
Webminer
•
–
Web paths
Visualização de trechos dos grafos
Linguagem de consulta
Linguagem MINT (WUM)
•
Especificação de critérios de consulta
–
–
–
–
Conteúdo
Estatística
Estrutura
Interestingness
Mineração de utilização da Web

Análise dos padrões
– Data warehousing e OLAP
•
Zaïane
– OLAP
•
Kimball
– “Data webhousing”
Mineração de utilização da Web

Trabalhos relacionados
– Webminer (Mobasher, Cooley et al)
•
•
•
Arquitetura genérica de mineração de
utilização
Definição das fases da mineração
Linguagem de consulta
Mineração de utilização da Web

Trabalhos relacionados
– WebSIFT (Web Site Information Filter)
•
Hipóteses
– É possível inferir, a partir do ECLF, as páginas não
registradas no log
– Tipo de utilização de uma página pode ser inferido
a partir do tempo gasto na mesma
– Dados do ECLF são suficientes para identificar com
precisáo as sessões
Mineração de utilização da Web

Trabalhos relacionados
–
Mannilla & Toivonen (1996)
•
–
Yan et al. (1996)
•
•
–
Logs dão visão exata da utilização
Agrupamento de usuários
Links mostrados de acordo com as páginas mais
visitadas pelo grupo do usuário
Amir et al.
•
•
Agregação dos dados em seqüências de itens
Combinam seqüências com prefixos iguais
Mineração de utilização da Web

Trabalhos relacionados
– SiteHelper (1997)
•
Recomenda páginas a partir da análise do
log
– PageGather (Perkowitz & Etzione, 1998)
•
•
•
Agrupamento de páginas visitadas juntas
Não leva em conta o caminho que conduz à
página
Propuseram sites adptativos
Mineração de utilização da Web

Trabalhos relacionados
– WebLogMiner - Zaïane et al, 1998
•
•
•
Técnicas de OLAP e mineração de dados
Ferramenta DBMINER (IBM)
Arquitetura com 4 etapas
–
–
–
–
Pré-processamento
Construção de cubo
Técnicas OLAP no cubo
Mineração de dados
Mineração de utilização da Web

Trabalhos relacionados
– FootPrints (Wexelblat & Maes, 1999)
•
Caminhos freqüentes são armazenados para
serem usados por futuros visitantes
– Schechter et al. (1998)
•
•
•
Path profiles
Geração dinâmica do conteúdo acessado
Ignoram problemas causados pelo cache
Mineração de utilização da Web

Trabalhos relacionados
–
WUM (Spiliopoulou, 1999)
•
•
•
•
Mineração de seqüências eficiente
Transações agrupadas em trilhas
Tráfego = quantidade de transações que acessaram
uma trilha
Árvore agregada de trilhas (log agregado)
–
–
–
•
Prefixos iguais
Suporte: quantidade de usuários que chegaram ao nó
Redução do espaço de armazenamento
Consultas em MINT
–
–
Descritores, máscaras
Padrão de navegação – generalização da árvore
Mineração de utilização da Web

Trabalhos relacionados
–
Gaul et al. (2000)
•
–
Ao invés de seqüências generalizadas a partir de
descritores, encontram TODAS as subseqüências
Borges & Levene (1998)
•
•
Modelos estocásticos
HPG – hypertext probabilistic grammar
–
–
–
–
Gramática regular
Símbolos não-terminais – páginas
Regras de produção – links
Cálculo da entropia
• Alta – elevado grau de incerteza da navegação
• Baixa – alto conhecimento sobre o comportamento
do usuário
Mineração de utilização da Web

Trabalhos relacionados
– Larsen et al. (2000)
•
•
Visão estocástica
Algoritmo GGM (generalizable gaussian
mixture)
– Generalização dos padrões de navegação para se
obter aprendizado supervisionado a partir de um
modelo de distribuição gaussiano
– Segmentação do comportamento dos usuários
– Segmentação das páginas
Mineração de utilização da Web

Trabalhos relacionados
–
Joshi & Krishnapuram (2000)
•
•
–
Agrupamento fuzzy para a identificação de sessões
Algoritmos: FCMdd, FCTMdd)
Tveit (2000)
•
•
•
Programação lógica indutiva – PROGOL
Regras de primeira ordem que representam as sessões
Melhoria da qualidade e desempenho do site
Mineração de utilização da Web

Trabalhos relacionados
– Andersen et al. (2000)
•
•
•
•
Projeto comercial em empresa dinamarquesa
Análise de eficácia de banners
Killer sessions
Data warehousing
– Fatos: subsessões
Mineração de utilização da Web

Trabalhos relacionados
– Nanopoulos & Manolopoulos (2001)
•
•
Busca de conjuntos de seqüências, como em
Gaul
Consideram a estrutura do site
– Anderson et al. (2001)
•
Sistemas de personalização
– Proteus, MinPath
•
Dispositivos móveis, PDAs, celulares, pagers
Mineração de utilização da Web

Trabalhos relacionados
– Nanopoulos & Manolopoulos (2001)
•
•
Busca de conjuntos de seqüências, como em
Gaul
Consideram a estrutura do site
– Anderson et al. (2001)
•
Sistemas de personalização
– Proteus, MinPath
•
Dispositivos móveis, PDAs, celulares, pagers
Mineração de utilização da Web

Trabalhos relacionados
– XML
•
LOGML (Punin et al., 2001)
– Site como um grafo Web
– XGMML
Mineração de utilização da Web

Segurança e privacidade
–
–
–
–
–
Registro das ações dos usuários enquanto estes
navegam
Necessidades de informação x direito à
privacidade
UE : Directive on Data Protection
Processos contra empresas on-line
Normas auto-impostas pelas empresas
•
•
Limites para a coleta de dados
Pedido de autorização dos usuários
MineraWeb

Dificuldades dos sistemas existentes
– Proprietários
– Fechados
– Pouco espaço para configuração,
ampliação
– Limitados a um determinado experimento
ou análise
MineraWeb

Proposta
•
•
•
•
•
•
•
Ambiente modularizável, aberto e expansível
Aberto a novos métodos de leitura, filtragem,
pré-processamento
Dados em um SGBD relacional
Qualquer linguagem de programação
Algoritmos modificáveis e configuráveis
Agregação de ferramentas de terceiros
Apoio à construção de sites adaptativos
MineraWeb

Mineraweb
–
Administrador de sites
•
•
•
–
Definir dados a serem analisados
Fazer análises
Utilizar análises para projetar, incrementar o site
Pesquisador de mineração de utilização
•
•
Desenvolver novos métodos de mineração e análise
Testar e comparar métodos existentes
MineraWeb
MineraWeb

Fases da mineração
1.
2.
3.
4.
Integração e preparação de dados
Descoberta de padrões
Análise dos padrões
Aplicação dos padrões
MineraWeb
1.
Integração e preparação de dados
–
–
–
–
–
–
–
–
Logs de servidores Web
Agentes
Filtragem
Transformação
Armazenamento em SGBDR
Identificação de usuários
Identificação de sessões
Identificação de transações
MineraWeb
2. Descoberta de padrões
–
–
–
Algoritmos de busca
MineraWebCenter
Ferramentas de terceiros
3. Análise de padrões
–
–
MineraWebCenter
Ferramentas de terceiros
4. Aplicação dos padrões
–
Adaptação de páginas e sites
MineraWeb

MineraData
–
–
–
–
Base de dados
Espinha dorsal do ambiente
Integração de fontes de dados
Modelo lógico
•
–
ERWIn 3.52
Modelo físico do protótipo
•
•
SQL Server 2000
* Oracle 8i
MineraWeb
TRANSACOES
CODTRANSACAO
POSSUEM
CODCLIENTE (FK)
ENTRADAS_TRANSACOES
CODTRANSACAO (FK)
CODPAGINA (FK)
PAGINAS
CODPAGINA
SÃO VISITADAS
ORDEMENTRADA
REALIZAM
ARMAZENAM
CODSITE (FK)
URIPAGINA
NOMEPAGINA
TAMANHO
TIPOPAGINA
EXTENSAO
Referenciam
CODCLIENTE_SOFTWARE (FK)
CODDOMINIO_PARTE (FK)
CODDOMINIO (FK)
NOMECLIENTE
IPCLIENTE
VISITAS
CODVISITA
ACESSAM
EXECUTAM
USUARIOS
CODUSUARIO
CODUSUARIO (FK)
CODCLIENTE (FK)
INICIOSESSAO
FINALSESSAO
DURACAOSESSAO
CODDOMINIO_PARTE (FK)
NOMESITE
URLSITE
São acessadas
CLIENTES
CODCLIENTE
SESSOES
CODSESSAO
SITES
CODSITE
EXECUTAM
CODUSUARIO_IDENT (FK)
NOMEUSUARIO
COOKIE
ACESSAM
ACESSAM
CODUSUARIO (FK)
CODCLIENTE_SOFTWARE (FK)
CODSERVER_SOFTWARE (FK)
CODSERVIDOR (FK)
CODSITE (FK)
CODCLIENTE (FK)
CODPAGINA_REFERRER (FK)
CODPAGINA (FK)
CODSESSAO (FK)
HORAVISITA
DURACAOVISITA
METODO
PROTOCOLO
STATUS_PROTOCOLO
STATUS_SO
URI_QUERY
PORTA_SERVIDOR
COOKIE
AGENTE
ORDEMSESSAO
SÃO VISITADOS
MineraWeb
MineraWeb

MineraWebCenter
– Módulo principal
– Borland C++ Builder 4
– Configuração do ambiente
– Carga, pré-processamento dos dados
– Geração de arquivos customizados e
dados de teste
MineraWeb

MineraWebCenter
– Carga dos dados
• Formatos dos logs
– Filtragem
• Regras de filtragem
– @METODO IN (“GET”, “POST”)
– @EXTENSAO NOT IN (“GIF”, “JPG”, “BMP )
MineraWeb

MineraWebCenter
– Campos lidos
•
•
•
•
•
•
•
•
•
•
•
IP Cliente, Usuario
Servidor, IP Servidor, Porta
Método
URI, URI Query
Status protocolo, Status SO
Bytes enviados e recebidos
Duração acesso
Versão protocolo
Host
Agente, cookie
Referido
MineraWeb

MineraWebCenter
– Stored procedures
• INSERE_ENTRADA
• EXTRAI_ENTRADA
MineraWeb

MineraWebCenter
– Identificação de sessões
• Janelas de tempo – default de 25 min
• Stored procedure
– IDENTIFICA_SESSOES_TEMPO
– Identificação de transações
• Transações de conteúdo
• Limite de tempo
• Stored procedure
– IDENTIFICA_TRANSACOES_TEMPO
MineraWeb

MineraWebCenter
– Classificação de páginas
• Tipos de páginas
– Navegação
– Conteúdo
– Tempos médios de referência
• Classificação manual
• Classificação automática
– Stored procedure
• CLASSIFICA_PAGINAS
MineraWeb

MineraWebCenter
– Busca de padrões
• Regras de associação
• Parâmetros
– Suporte
– Confiança
• Stored Procedure
– IDENTIFICA_REGRAS_1
MineraWeb

MineraWebCenter
– Análise de padrões
• Ferramentas de terceiros
• Cubos OLAP
– MS Analysis Services
– VISITAS
• Domínios
• Clientes
• Páginas
MineraWeb

MineraCrawler
– Extração da estrutura de um site
– Delphi 5
– Nível de profundidade
– Breadth-first
MineraWeb
REGRAS_ANT
REGRAS
POSSUEM
CODREGRA
CODSITE (FK)
SUPORTE
CONFIANCA
CODREGRA (FK)
CODPAGINA (FK)
PARTICIPAM DE
ORDEM
POSSUEM
REGRAS_POST
PARTICIPAM DE
CODREGRA (FK)
CODPAGINA (FK)
PAGINAS
CODPAGINA
TRANSACOES
CODTRANSACAO
PERTENCEM A
POSSUEM
CODSITE (FK)
CODCLIENTE (FK)
ENTRADAS_TRANSACOES
CODTRANSACAO (FK)
CODPAGINA (FK)
ORDEMENTRADA
SÃO VISITADAS
CODSITE (FK)
URIPAGINA
NOMEPAGINA
TAMANHO
TIPOPAGINA
EXTENSAO
PERTENCEM A
SITES
CODSITE
CODDOMINIO_PARTE (FK)
NOMESITE
URLSITE
ARMAZENAM
MineraWeb
MineraWeb

MineraRedirect
–
–
–
–
–
–
–
Delphi 5
Biblioteca HTTP
Agente de apoio à navegação
Enquadramento das páginas
Redirecionamento dos links
Cadastro de perfis do usuário
Log das ações
• Tipos de páginas registradas
MineraWeb

MineraRedirect
– Implementação
•
•
•
•
•
ISAPI
CGI
MS IIS (Information Services)
Windows 2000
Testes do redirecionamento
MineraWeb

MineraRedirect
– Dificuldades
• Frames dentro de frames
– Scripts
• Páginas já redirecionadas
MineraWeb
SERVIDORES
CODSERVIDOR
DOMINIOS_PARTES
CODDOMINIO_PARTE
PERTENCEM A
NOME
COD_PAI (FK)
CODDOMINIO_PARTE (FK)
CODSERVER_SOFTWARE (FK)
CODSITE (FK)
NOMESERVIDOR
IPSERVIDOR
PORTA
UTILIZAM
SERVER_SOFTWARES
CODSERVER_SOFTWARE
NOMESERVER_SOFTWARE
VERSAO
SÃO UTILIZADOS
FAZEM PARTE DE
Disponibilizam
USUARIOS_IDENT
CODUSUARIO_IDENT
PERTENCEM A
ACESSAM
CLIENTES
CODCLIENTE
CODCLIENTE_SOFTWARE (FK)
CODDOMINIO_PARTE (FK)
CODDOMINIO (FK)
NOMECLIENTE
IPCLIENTE
UTILIZAM
CLIENTE_SOFTWARES
CODCLIENTE_SOFTWARE
NOMESOFTWARE_CLIENTE
VERSAO
SÃO UTILIZADOS
VISITAS
CODVISITA
CODUSUARIO (FK)
CODCLIENTE_SOFTWARE (FK)
CODSERVER_SOFTWARE (FK)
CODSERVIDOR (FK)
CODSITE (FK)
CODCLIENTE (FK)
CODPAGINA_REFERRER (FK)
CODPAGINA (FK)
CODSESSAO (FK)
HORAVISITA
DURACAOVISITA
METODO
PROTOCOLO
STATUS_PROTOCOLO
STATUS_SO
URI_QUERY
PORTA_SERVIDOR
COOKIE
AGENTE
ORDEMSESSAO
CODNIVELESCOLAR (FK)
CODPROFISSAO (FK)
CODPAIS (FK)
NOMEUSUARIO_IDENT
ENDERECO
CIDADE
ESTADO
DATANASCIMENTO
SEXO
TRABALHAM EM
PROFISSOES
CODPROFISSAO
NOME
SÃO ESCOLARIZADOS
SÃO IDENTIFICADOS
ACESSAM USUARIOS
CODUSUARIO
CODUSUARIO_IDENT (FK)
NOMEUSUARIO
COOKIE
NIVEIS_ESCOLARIDADE
CODNIVELESCOLAR
NOME
MineraWeb

Adaptação de páginas
– Banco de dados
– Páginas ASP
– Páginas “reservas””
– Navegação serendípica
MineraWeb

Conclusões
– Definição de ambiente
• Administrador de sites
• Pesquisador em mineração
• Integração de várias propostas
–
–
–
–
–
SGBD
Técnicas de visualização
Crawler
Incorporação de novas características
Adaptação de páginas
MineraWeb

Conclusões
– Direcionamentos
•
•
•
•
•
•
Filtragem
Descoberta de padrões
Eficiência dos métodos
Logs distribuídos
XML
E-commerce : “Killer domain”