Data Mining - Documento sem título

Propaganda
“Conhecimento
é o melhor
investimento
que podemos
fazer....”
Einstein
Administração
e Sistemas de
Informação
Mauricio Abreu MSc
[email protected]
Data, Text e Web Mining
Agenda Geral
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Tecnologias:
 Data Warehouse, Data Mart,
Metadado e ODS;
 Data / Text / Web Mining;
 BPM;
 Portal Corporativo.
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento


Introdução
Tecnologias:
Agenda
 Data Mining
 Text Mining
 Web Mining
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Introdução
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Realidade Mundial
@
Fatores de Produção
da Economia
TRABALHO
Introdução
CONHECIMENTO
© Mauricio Abreu
CAPITAL
TERRA
Conhecimento:
55% da riqueza
mundial
(OCDE: 2000)
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Realidade Mundial
Item
Pessoas
Base de poder
Principal tarefa
gerencial
Informação
Introdução
Produção
Fluxo de informação
Forma básica de
receita
Fluxo de produção
Relacionamento com
o cliente
Conhecimento
© Mauricio Abreu
Visão Industrial
Visão do Conhecimento
Geradores de custo ou
recursos
Relativo a hierarquia
organizacional
Supervisão dos subordinados
Geradores de Receita
Instrumento do controle e
poder
Processamento de recursos
físicos para criar bens
tangíveis
Via hierarquia organizacional
Ferramenta para o recurso
da comunicação
Conversão do
conhecimento em bens
intangíveis
Via redes de colaboração
Relativo ao conhecimento
Apoio aos colegas
Tangível (capital)
Intangível (aprendizado,
novas idéias, P&D)
Regido pelas máquinas
Regido pelas idéias
(sequêncial)
(caótico)
Unilateral pelos mercados
Interativo pelas redes
pessoais
Uma ferramenta ou um recurso Foco empresarial
entre outros
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Conhecimento: o principal fator de
produção do sec. XXI
“Palm top”: tem mais memória que toda a
capacidade de memória existente em 1961!
Introdução
Computadores: 8.000 x mais baratos que há
30 anos
© Mauricio Abreu
Se o Mercedes classe A tivesse a mesma
evolução:
• custaria U$ 2
• andaria na velocidade do som
• 800 km com 1l de gasolina
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Conhecimento: o principal fator de
produção do sec. XXI
Sigatoga amarela x banana pioneira
• Mesmo sabor
Introdução
• 20% maior
• frutos 3 meses antes
© Mauricio Abreu
1 hectare produz 70% mais
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Conhecimento: o principal fator de
produção do sec. XXI
Introdução
Na década de 40 a Boeing projetou o
bombardeiro B-17 com menos de 100
engenheiros; na década de 90 o projeto do Boeing
777 envolveu 5.600 profissionais de nível
superior espalhados em 8 localidades.
EMBRAER: Custo da concepção >>> produção
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Um novo valor: o conteúdo
Introdução
{Produtos com conteúdo}
Relógio de pulso da Philips com
pequenas câmeras e pequenos
alto-falantes acoplados que
colocará as pessoas em contato
via satélite.
© Mauricio Abreu
{Serviços com produtos
agregados}
Moderno cartão postal através
do qual o usuário pode capturar
imagens congeladas, vídeos ou
sons (Philips).
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Nova Indústria?
Equipamentos
de rede e
multimídia
Conteúdo
•
•
Introdução
•
© Mauricio Abreu
Informática
•
•
•
TV a cabo e
multimídia
online
• Bancos de dados
Filmes / Imagens
Música
Propaganda
Multimídia
Interativa
TeleCom
•Redes
Computadores
Software
Interfaces
•
•
•
de:
TV a cabo
Telefonia
Satélites
Jogos
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Surge uma organização diferente!
Introdução
@
© Mauricio Abreu
$
$ @
$
@
@
$
$
@
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Principais características da
Sociedade do Conhecimento
 Famílias cada vez menores, muitas pessoas solteiras

Introdução





morando sozinhas, núcleos de 1 a 3 pessoas;
Surge o trabalhador do conhecimento;
O computador e a Internet representam esta nova
economia;
A indústria de serviços e de entretenimento ganha
força;
Alguns produtos começam a ser distribuídos online;
As fronteiras organizacionais encontram-se cada vez
mais tênues;
Surge o comércio eletrônico.
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Quem é o trabalhador
do conhecimento?
Trabalhador
Tradicional
Trabalhador do
Conhecimento
principal
tarefa
fazer
pensar
principais
habilidades
físicas
mentais
processo de
trabalho
linear
não-linear
resultado do
trabalho
produto
informação
conhecimento
utilizado
aplicado
criado
Introdução
Características
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Brasil na Sociedade do Conhecimento
Introdução
• Biotecnologia
• Software
• Aeroespacial
• Petróleo / Energia
• Cultural /
Entretenimento
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Pontos relevantes para
a Vantagem Competitiva
Introdução
Percentual de Consenso
Criar/Manter relacionamento com o Cliente
Transformar informação em conhecimento
Flexibilidade
Velocidade nas ações de negócio
Habilidade de inovação
Crescimento da qualidade continuamente
Posicionamento dos custos
Investimento em RH
Relacionamento com os fornecedores
0
0.8
Fonte: Mercer Marketplace 2000 Survey
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Realidade Mundial
O pessoal de TECNOLOGIA acredita que:
A
informação é facilmente armazenada nos
computadores na forma de dados;
Introdução
 Criar
banco de dados em computadores é o único
modo de administrar a complexidade da
informação;
A
informação deve ser comum a toda a empresa;
 As
© Mauricio Abreu
mudanças tecnológicas irão aperfeiçoar o
ambiente de informações.
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Realidade Mundial
Em vez de se concentrarem na tecnologia, os ambientes de
informação devem ser basear na maneira como as pessoas criam,
distribuem, compreendem e usam a informação e o
conhecimento, acreditando que:
A informação não é facilmente armazenada e não é somente
constituída de dados;
Introdução

Quanto mais complexa a arquitetura de informações, menor
será sua utilidade;

A informação e o conhecimento podem ter vários significados
em uma organização;

A tecnologia é apenas um dos componentes do ambiente de
informações.

© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Realidade Mundial
Introdução
Caso 1
Um fabricante de satélite necessitava de um
planejamento mais preciso para suas células de trabalho,
de modo a cumprir um novo prazo de produção, bem mais
curto. Acreditando que a tecnologia podia resolver o
problema ele desenvolveu um complexo e caro ambiente
de informações. Entretanto os administradores das
células continuavam fornecendo dados inexatos à
respeito do prazo de conclusão das tarefas. Por fim,
descobriu-se que o responsável pelo problema era o fator
humano: os profissionais que revelassem atraso no
trabalho seriam punidos mais tarde.
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Introdução
Caso 2
Realidade Mundial
Uma empresa farmacêutica queria aperfeiçoar a
troca de informações entre seus departamentos de
pesquisa e de desenvolvimento. Contrataram um
consultor para criar uma arquitetura que incluísse banco
de dados e programas centralizados, porém o trabalho
acabou não funcionando, uma vez que os pesquisadores e
o pessoal do setor de desenvolvimento não chegaram a
um acordo quanto as aplicações que deveriam ser
utilizadas para circular os resultados das pesquisas.
Decidiram que a melhor maneira de trocar informações
entre projetos de pesquisa era criar equipes de
desenvolvimento, cada uma com seu especialista
informacional.
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Fases de Conversão
Introdução
Brainstorming
Observação
Prática
Interação
SOCIALIZAÇÃO
EXTERNALIZAÇÃO
INTERNALIZAÇÃO
COMBINAÇÃO
Incorporação
Verbalização
Diagramação
© Mauricio Abreu
Dedução
Metáfora
Analogia
Sistematização
Classificação
Ensino Fonte: Nonaka & Takeuchi
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Fases de Conversão
Introdução
SOCIALIZAÇÃO
Cultura:
Liderança
Educação
Treinamento
INTERNALIZAÇÃO
EXTERNALIZAÇÃO
Tecnologia:
Ferramentas
Treinamento
COMBINAÇÃO
Fonte: Nonaka & Takeuchi
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Fases de Conversão
Apropiação
Extensão
Introdução
Consciência
© Mauricio Abreu
Assimilação
Articulação
Interiorização
Aprendizagem Implícita
Fonte: Baumard
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Tecnologias
Data Mining
Text Mining
Web Mining
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Data Mining
(Mineração de Dados)
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Mineração de Dados
Data Mining
(Data Mining)
• Mineração de Dados é um processo analítico
concebido para explorar conjuntos de dados,
de grandes dimensões, na detecção de padrões
consistentes e/ou relações sistemáticas entre
as variáveis, bem como validar os resultados e
aplicando os padrões detectados em novos
conjuntos de dados.
• É uma poderosa ferramenta para análise de
informação, da qual se espera revelar
estruturas de conhecimento que podem
direcionar as decisões.
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Data Mining
Diferentes Visões do
Conhecimento Escondido
© Mauricio Abreu
Dados Rasos (descobertos com SQL)
Dados Multi-Dimensionais (descobertos com OLAP)
Dados Escondidos (descobertos com DCBD)
Dados Profundos (descobertos somente com pistas)
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
DCBD x Data Mining
Mineração de dados é um passo do processo
de DCBD que produz um conjunto de padrões
sob um custo computacional aceitável;
Data Mining

DCBD utiliza algoritmos de mineração de
dados para extrair padrões classificados como
“conhecimento”. Incorpora também tarefas
como
escolha
do
algoritmo
adequado,
processamento, amostragem de dados e
interpretação de resultados.

© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Etapas do Processo DCBD
Interpretação /
Avaliação
CONHECIMENTO
Mineração
dos Dados
Data Mining
Transformação
Pre-processamento
PADRÕES DESCOBERTOS
DADOS TRANSFORMADOS
Seleção
DADOS PRÉ-PROCESSADOS
DADO
© Mauricio Abreu
BD INTERMEDIÁRIO
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Descoberta de Regras de Associação
Data Mining
Cada registro corresponde a uma transação de um cliente, com itens
assumindo valores binários (sim/não), indicando se o cliente comprou
ou não o respectivo item.
© Mauricio Abreu
num
1
2
3
4
5
6
7
8
9
10
leite
não
sim
não
sim
não
não
não
não
não
não
café
sim
não
sim
sim
não
não
não
não
não
não
cerveja
não
sim
não
não
sim
não
não
não
não
não
pão
sim
sim
sim
sim
não
não
sim
não
não
não
manteiga
sim
sim
sim
sim
não
sim
não
não
não
não
arroz
não
não
não
não
não
não
não
não
sim
sim
feijão
não
não
não
não
não
não
não
sim
sim
não
(FREITAS & LAVINGTON 98)
SE (café) ENTÃO (pão)
SE (café) ENTÃO (manteiga)
SE (pão) ENTÃO (manteiga)
SE (manteiga) ENTÃO (pão)
SE (café E pão) ENTÃO (manteiga)
SE (café E manteiga) ENTÃO (manteiga)
SE (café) ENTÃO (manteiga E manteiga)
sup=0.3
sup=0.3
sup=0.4
sup=0.4
sup=0.3
sup=0.3
sup=0.3
conf.=1
conf.=1
conf.=0.8
conf.=0.8
conf.=1
conf.=1
conf.=1
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Data Mining
Classificação
Nome
Idade
Renda
Profissão
Classe
Daniel
≤ 30
Média
Estudante
Sim
João
31..50
Média-Alta
Professor
Sim
Carlos
31..50
Média-Alta
Médico
Sim
Maria
31..50
Baixa
Vendedora
Não
Paulo
≤ 30
Baixa
Porteiro
Não
Otavio
> 60
Média-Alta
Aposentado
Não
Se Idade ≤ 30 e Renda é Baixa
então Não compra Eletrônico
© Mauricio Abreu
Se Idade = 31-50 e Prof é Médico
então compra Eletrônico
IDADE
≤ 30
31-50
>60
51-60
PROFISSÃO
RENDA
Não
B
A
M
Sim
Med
Prof
Eng
Vend
M-A
Sim
Não
Sim
Sim
Sim
Sim
Não
Sim
Árvore de Decisão
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Agrupamento (Cluster Analisys)
Esta técnica agrupa informações homogêneas de grupos
heterogêneos entre os demais e aponta o item que melhor
representa cada grupo, permitindo, desta forma, que
consigamos perceber a característica de cada grupo.

Data Mining



BD com n amostras
K = número de clusters
desejado (parâmetro)
K≤n
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Clusterização versus Classificação

Classificação
– Aprendizado Supervisionado
Data Mining
 Amostras de treinamento são classificadas
 Número de Classes é conhecido
© Mauricio Abreu
– Aprendizado por Exemplo

Clusterização
– Aprendizado Não Supervisionado
– Aprendizado por Observação
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Áreas de Aplicação
Vendas:
• Identificar padrões de comportamento dos consumidores;
• Encontrar características dos consumidores de acordo com a região demográficas;
• Prever quais consumidores serão atingidos nas campanhas de marketing;
• Campanhas de marketing direto (mailing campaigns);
• Identificar consumidores “leais”.
Finanças:
Data Mining
• Detectar padrões de fraudes no uso dos cartões de crédito;
• Identificar os consumidores que estão tendendo a mudar a companhia do cartão de
crédito.
Seguros e Planos de Saúde:
• Determinar quais procedimentos médicos são requisitados ao mesmo tempo;
• Prever quais consumidores comprarão novas apólices;
• Identificar comportamentos fraudulentos.
Medicina:
• Caracterizar o comportamento dos pacientes para prever novas consultas;
• Identificar terapias de sucessos para diferentes tratamentos.
Transporte:
• Determinar a distribuição dos horários entre os vários caminhos;
• Analisar padrões de sobrecarga.
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Exemplo - 2

Bank of America
Data Mining
– Selecionou entre seus 36 milhões de clientes
© Mauricio Abreu
• Aqueles com menor risco de dar calotes;
• Tinham filhos com idades entre 18 e 21 anos;
• Resultado: em três anos o banco lucrou 30
milhões de dólares com a carteira de
empréstimos.
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Data Mining
Resumo

Mineração de dados é um processo que permite compreender o comportamento
dos dados;

O processo de mineração analisa os dados usando técnicas de aprendizagem para
encontrar padrões e regularidades nestes conjuntos de dados;

É um problema multi-disciplinar, envolvendo Inteligência Artificial, Estatística,
Computação Gráfica, Banco de Dados, etc;

Pode ser aplicado em diversas áreas.

Site interessantes:

Portal de sobre data/text/web mining: www.kdnuggets.com

Busca baseada em clusterização: clusty.com

Software Livre:
© Mauricio Abreu
•
WEKA: www.cs.waikato.ac.nz/ml/weka
•
CLUTO / gCLUTO: http://www-users.cs.umn.edu/~karypis/cluto/
•
CBA / IAS: www.comp.nus.edu.sg/~dm2/p_download.html
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Text Mining
(Mineração de Textos)
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Text Mining
Definição
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Aplicações
 Marketing:
Descoberta de grupos
distintos de potenciais compradores
de acordo com os perfis textuais
preenchidos por pessoas.
Ex: encarte de revista
Text Mining
 Negócio:
Identificação de
competidores através da análise das
páginas web.
 Busca
de emprego: Identificação
de parâmetros nas pesquisas de
emprego.
Ex.:
www.monster.com
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Conhecimento Corporativo




Text Mining

© Mauricio Abreu





E-mail
Apólices de Seguro
Artigos de Jornal
Páginas Web
Patentes
Artigos Científicos
Cartas de Clientes
Contratos
Transcriçõs de telefonemas
Documentos Técnicos
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Métodos

Recuperação de Informação
– Indexação e recuperação de documentos textuais

Extração de Informação
Text Mining
– Extração de conhecimentos a partir de documentos textuais
© Mauricio Abreu

Agrupamento de texto (Clustering)
– Geração de coleções de documentos textuais similares

Web Mining
– Indexação e recuperação de documentos textuais e
extração de conhecimentos a partir de documentos textuais
usando a Web
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Recuperação de Informação
textuais
 Necessidade de pesquisa
baseada em texto
Text Mining
 Documentos
Pesquisa
Ex.: Lua / Imagem
Documentos
fonte
Sistema
RI
Documento
• Encontra:
© Mauricio Abreu
•
Um conjunto de documentos
(ordenados) relevantes para
atender a pesquisa
Documentos
Ordenados
Documento
Documento
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Extração de Informação

É dado:
– A fonte de documentos textuais
– Um grupo limitado para busca
baseada em texto
Pesquisa 1
(ex.: título emprego)
Documentos
fonte
Sistema de
Extração
Text Mining
Pesquisa 2
(ex.: salário)

Encontra:
– Sentenças com informação relevante
– Extrai a informação relevante e ignora as
informações irrelevantes
– Conecta a informação relevante e executa a
saída da mesma em um formato pré-definido
© Mauricio Abreu
Combinando
o resultado
da Pesquisa
Info Relevante 1
Documentos
Ordenados
Info Relevante 2
Info Relevante 3
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Text Mining
Extração de Informação
Notícia
 Salvadoran President-elect Alfredo Cristiania condemned the
terrorist killing of Attorney General Roberto Garcia Alvarado and
accused the Farabundo Marti Natinal Liberation Front (FMLN) of
the crime. … Garcia Alvarado, 56, was killed when a bomb placed
by urban guerillas on his vehicle exploded as it came to a halt at an
intersection in downtown San Salvador. … According to the police
and Garcia Alvarado’s driver, who escaped unscathed, the
attorney general was traveling with two bodyguards. One of them
was injured.

Data do Incidente: 19 Abr 1989
Tipo do Incidente: Atentado à bomba
Perpetrador: “guerilhas urbanas”
Nome do alvo humano: “Roberto Garcia Alvarado”

...



© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Extração de Informação
foodscience.com-Job2
JobTitle: Ice Cream Guru
Employer: foodscience.com
JobCategory: Travel/Hospitality
JobFunction: Food Services
Text Mining
JobLocation: Upper Midwest
© Mauricio Abreu
Contact Phone: 800-488-2611
DateExtracted: January 8, 2001
Source: www.foodscience.com/jobs_midwest.html
OtherCompanyJobs: foodscience.com-Job1
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Agrupamento de Texto
É
dado:
Documentos
fonte
– Documentos textuais
– Medida de similiraridade
• Ex.: quantas palavras são
comuns nestes documentos
Text Mining
Medida de
similaridade
Sistema de
Agrupamento
Doc
• Encontra:
© Mauricio Abreu
•
Vários agrupamentos de
documentos relevantes
Doc
Doc
Doc
Doc
Doc
Do
Doc
Docc
Doc
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Desafios do Text Mining

Grande número de dimensões possíveis para
pesquisa e análise:
– Todas as possíveis tipos de palavras e frases em uma
língua
Text Mining

© Mauricio Abreu
Complexidade dos relacionamentos entre os
diversos conceitos encontrados em um texto:
– “AOL se funde com a Time-Warner”
– “Time-Warner é comprada pela AOL”

Ambigüidade e sensibilidade ao contexto
– automóvel = carro = veículo = Toyota
– Apple (a empresa) ou apple (a fruta)
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Text Mining: Exemplos

Ex 1: Suporte à decisão em CRM
Text Mining
- O que os clientes normalmente reclamam?
- Qual é a tendência do número de clientes satisfeitos
em Curitiba?

Ex 2: Gestão do conhecimento
– Procura por pessoas e competências.

© Mauricio Abreu
Ex 3: Personalização no e-Bussiness
- Sugestão de produtos mais ajustados ao perfil de
interesse do cliente (baseado na informação de
personalidade de compra).
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Web Mining
(Mineração de Páginas Web)
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Visão Geral
Web Mining

World Wide Web
– O enorme crescimento do número de fontes de
informação disponíveis na Web tornou imperativo o uso
de ferramentas automatizadas para a busca, extração,
filtragem e avaliação de recursos e informações;
– Com a transformação da Web no principal meio para a
realização do comércio eletrônico, é fundamental para as
empresas, que investem milhões em tecnologias internet
e intranet, rastrear e analisar os padrões de acesso dos
usuários.
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Visão Geral
Uma combinação natural...
Web Mining
Data/Text
Mining
Web Content
Mining


Web Mining
World Wide
Web
Web Usage
Mining
As duas áreas têm o mesmo desafio: extração de informação relevante
à partir de um volume enorme de dados;
A natureza semi-estruturada ou não estruturada, distribuída,
heterogênea e dinâmica dos dados na Web é o principal complicador.
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Visão Geral

Web Content Mining
Web Mining
– Ferramentas tradicionais de busca e indexação como Alta
Vista, Lycos, WebCrawler e outros não conseguem, de um
modo geral, prover informação estrutural e nem categorizar,
filtrar e interpretar documentos
– O problema tem sido atacado de duas formas:
© Mauricio Abreu
• ferramentas mais inteligentes para a recuperação de
informação: agentes inteligentes ou rôbos;
• extensão de técnicas de banco de dados e data mining visando
a obtenção de um nível mais alto de organização dos dados
semi-estruturados disponíveis na Web.
– Abordagens baseadas em agentes inteligentes
• Agentes de busca
• Agentes para filtragem/categorização de informação
• Agentes personalizados
– Abordagens baseadas em banco de dados
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Visão Geral

Web Usage Mining
Web Mining
– Estratégias e técnicas para análise de mercado têm sito
revisitadas dentro do novo contexto da Web;
– Volumes enormes de dados são gerados e coletados
automaticamente pelos servidores Web;
– A análise destes dados pode trazer diversos benefícios:
© Mauricio Abreu
• Estabelecimento de estratégias de marketing;
• Determinação da eficácia de campanhas promocionais;
• Descoberta de padrões de comportamento de navegação
no web site;
• Melhor estruturação do Web site;
• Melhor gerenciamento da infra-estrutura.
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Visão Geral
Que dado na Web está sendo minerado?
Web Mining




Conteúdo – dados a partir dos documentos Web – textos
e gráficos;
Estrutura – dados a partir da estrutura Web – HTML ou
tags XML;
Uso – dados a partir do log do Site Web – endereço IP,
data e tempo de acesso, navegação no site web
(clickstream);
Perfil de usuário – dados específicos do usuário –
registro e perfil do cliente.
© Mauricio Abreu
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
Visão Geral
Spider
Web Mining
Web
© Mauricio Abreu
Documentos
fonte
Pesquisa
1. Doc1
2. Doc2
3. Doc3
.
.
Sistema
RI / EI
Documentos
ordenados
[email protected]
[email protected]
Administração em Sistemas de Informação
Soluções na Era do Conhecimento
© Mauricio Abreu
[email protected]
[email protected]
Download