iat002 - Data mining

Propaganda
INTELIGÊNCIA ARTIFICIAL
Data Mining (DM) :alguns conceitos
(Revista Byte – Outubro/1995 –págs. 96-110)
• Há ouro em seus dados, mas você não consegue vê-lo.
Pode ser uma percepção tão simples (e tão lucrativa)
quanto se dar conta de que compradores de comida para
bebês são também compradores de fraldas.
• A mineração de dados (data mining) deixa que o poder dos
computadores faça o trabalho de joeirar as imensas
quantidades de dados armazenados. Uma busca incansável
e persistente pode encontrar a minúscula pepita de ouro em
uma montanha de entulho de dados.
1
Imagine agentes inteligentes à solta sobre dados de
pesquisas médicas ou informações sobre partículas
subatômicas. Os computadores podem revelar novos
tratamentos para doenças ou novas visões sobre a
natureza do universo.
INTELIGÊNCIA ARTIFICIAL
Data Mining (DM) :alguns conceitos
(Revista Byte – Outubro/1995 –págs. 96-110)
• Está tudo ali. A descoberta, o fato, aquela peça de quebracabeça que derrubará a concorrência, impulsionando sua
companhia para o topo.
• Está tudo ali, em seu banco de dados. Mas você não
consegue ver.
A quantidade de informações armazenadas em banco de
dados está explodindo. De zilhões de transações em
pontos de venda e compras com cartão de crédito a
imagens pixel-a-pixel de galáxias.
Os bancos de dados são medidos em gigabytes e
terabytes.
No ambiente comercial ferozmente competitivo de hoje,
as companhias precisam transformar rapidamente
terabytes de dados brutos em visões significativas que
guiem o marketing, investimentos e estratégias de
gerenciamento.
2
Obs.: 1 terabyte ≈ 2 milhões de livros. Imagine um
analista de negócios “varrer” 1 terabyte de dados para
detectar tendências (padrões) importantes ao negócio da
organização.
INTELIGÊNCIA ARTIFICIAL
Data Mining (DM) :alguns conceitos
(Revista Byte – Outubro/1995 –págs. 96-110)
• Exemplo (em 1995) : WalMart – rede com
aproximadamente 2.000 lojas de varejo – armazena
diariamente 20 milhões de transações de pontos de venda
em um sistema massivamente paralelo com 483
processadores administrando um banco de dados
centralizado. → Detalhe: a alta administração da empresa
quer conhecer as tendências (padrões) da movimentação
nos mínimos detalhes.
• Data Mining (DM) ou descoberta por conhecimento é o
processo auxiliado por computador de “escavar” e analisar
enormes conjuntos de dados e então extrair significado das
“pepitas” de dados (ou seja, conhecer as tendências/padrões
do negócio em questão).
3
INTELIGÊNCIA ARTIFICIAL
Data Mining (DM) :alguns conceitos
(Revista Byte – Outubro/1995 –págs. 96-110)
• Esquema conceitual da mineração de dados (data mining)
Fontes de dados: banco de dados, notícias, etc.
Pré-processamento dos dados: coleta, “limpeza”
Procurar padrões
Exame dos dados pelo analista de negócio.
Relatório das descobertas
Tomada de decisão
• Em particular, as ferramentas de DM procuram padrões nos
dados. Uma variedade de ferramentas computacionais – tais
como redes neurais, sistemas baseados em regras, sistemas
baseados em casos, aprendizado de máquina (machine
learning) e técnicas estatísticas diversas – sozinhas ou em
combinações pode ser aplicada a um problema.
4
INTELIGÊNCIA ARTIFICIAL
Data Mining (DM) :alguns conceitos
(Revista Byte – Outubro/1995 –págs. 96-110)
• (Byte – Outubro/1995): Lembra-se da visão de Bill Gates
de “informação na ponta dos dedos”? A verdade é que a
maioria de nós está atolada em informações até o pescoço;
provavelmente recebemos mais informação em uma
semana do que poderíamos processar em várias vidas.
• Um desafio para DM é desenvolver agentes inteligentes
capazes de priorizar e/ou filtrar os dados que nos
bombardeiam diariamente.
• Barry Mason, um dos cabeças do IBM Consulting Group, define
DM como “ferramentas de descoberta que tomam grandes
quantidades de dados detalhados a nível de transação e aplicam
técnicas matemáticas sobre eles, ‘descobrindo’ visões sobre o
comportamento do consumidor”.
5
INTELIGÊNCIA ARTIFICIAL
Data Mining (DM) :alguns exemplos
(Revista Byte – Outubro/1995 –págs. 96-110)
6
INTELIGÊNCIA ARTIFICIAL
Data Mining (DM) :alguns exemplos
(Revista Byte – Outubro/1995 –págs. 96-110)
7
INTELIGÊNCIA ARTIFICIAL
Data Mining (DM) :alguns exemplos
(Revista Byte – Outubro/1995 –págs. 96-110)
8
INTELIGÊNCIA ARTIFICIAL
Data Mining (DM) :alguns exemplos
(Revista Byte – Outubro/1995 –págs. 96-110)
9
INTELIGÊNCIA ARTIFICIAL
Data Mining and Knowledge Discovery in Databases (KDD)
(Communications of the ACM – November 1996/Vol. 39 No 11)
• Raw data is rarely of direct benefit. Its true value is
predicated on the ability to extract information useful for
decision support or exploration and understanding the
phenomena governing the data source.
• Traditionally, analysis was strictly a manual proccess.
However such an approach rapdily breaks down as the
quantity of data grows and the number of dimensons
(variables) increases.
• The amount of data is growing so fast that manual analysis
(even if possible) simply cannot keep pace.
• The problem of automating data analysis has grown steadly
under the label knowledge discovery in databases (KDD)
and data mining. The first KDD workshop was held in
1989.
10
INTELIGÊNCIA ARTIFICIAL
Data Mining and Knowledge Discovery in Databases (KDD)
(Communications of the ACM – November 1996/Vol. 39 No 11)
• Databases are increasing in size in two ways:
The number N of records, or objects, in the database
The number d of fields, or attributes per object.
• Databases containing on the order of N = 109 objects are
increasingly common in, for example, the astronomical
sciences. The number d of fields can easily be on the order
of 102 or even 103 in medical diagnosis aplications.
11
INTELIGÊNCIA ARTIFICIAL
Data Mining and Knowledge Discovery in Databases (KDD)
(Communications of the ACM – November 1996/Vol. 39 No 11)
• The problem of knowledge extraction from large databases
involves many steps, ranging from data manipulation and
retrival to fundamental mathematical and statistical
inference, search and reasoning.
• Although the problem of extracting knowledge from data
(or observations) is not new, automation in the context of
large databases opens up many new unsolved problemms.
• Finding useful patterns in data is known by different
names:
Data mining
Knowledge extraction
Information discovery
Information harvesting
Data archeology
Data pattern processing
• “Here we use the term KDD to refer to the overall process
of discovering useful knowledge from data. Data mining is
a particular step in this process.”
12
INTELIGÊNCIA ARTIFICIAL
Data Mining and Knowledge Discovery in Databases (KDD)
(Communications of the ACM – November 1996/Vol. 39 No 11)
• KDD process – main steps
Data preparation
Data selection
Data cleaning
Incorporation of appropriate prior knowledge
Data mining
Interpretation of the results
• KDD has evolved, and continues to evolve, from the
intersection of research in such fields as
13
Databases
Machine learning
Pattern recognition
Statistics
Artifial intelligence
Reasoning with uncertainty
Knowledge acquisition for expert systems
Data visualization
Machine discovery
Information retrieval
High-performance computing
INTELIGÊNCIA ARTIFICIAL
Data Mining and Knowledge Discovery in Databases (KDD)
(Communications of the ACM – November 1996/Vol. 39 No 11)
• KDD and databases
“Database theories and tools provide the necessary
infraestructure to store, access, and manipulate data.”
“Data warehousing, a recently popularized term, refres
to the current business trend of collecting and cleaning
transactional data to make them available for online
analysis and decision support.”
“A popular approach for analysis of data warehouses
is called on line analytical processing (OLAP).
OLAP tools focus on providing multidimensional data
analysis, which is superior to SQL in computing
summaries and breakdowns along many dimensions.”
• KDD places a special emphasis on finding understandable
patterns that can be interpreted as useful or interesting
knowledge. (...) Fields concerned with inferring models
from data – including statistical pattern recognition, applied
statistics, machine learning and neural netwaorks – were
the impetus for much early KDD work.
14
INTELIGÊNCIA ARTIFICIAL
Data Mining and Knowledge Discovery in Databases (KDD)
(Communications of the ACM – November 1996/Vol. 39 No 11)
• KDD and data mining
“Data mining is a step in the KDD process consisting of
na enumeration of patterns (or models) over the data,
subject to some acceptable computational-efficiency
limitations.”
“Data mining involves fitting models to or determining
patterns from observed data. The fitted models play the
role of inferred knowledge. Deciding to whether or not
the models reflect useful knowledge is a part of the
overall interactive KDD process for which subjective
human judgment is usually required.”
The more common model functions in current data
mining practice include:
15
Classification
Regression
Clustering
Summarization
Dependency modeling
Link analysis
Sequence analysis
INTELIGÊNCIA ARTIFICIAL
Data Mining and Knowledge Discovery in Databases (KDD)
(Communications of the ACM – November 1996/Vol. 39 No 11)
16
INTELIGÊNCIA ARTIFICIAL
Descoberta de Conhecimento e Mineração de Dados
ICA – Laboratório de Inteligência Computacional Aplicada
Departamento de Engenharia Elétrica - PUC-RJ
Marco Aurélio/Marley Velasco/Carlos Henrique Lopes - Ago/1999
• Durante os últimos anos tem se verificado um crescimento
substancial da quantidade de dados armazenados em meios
magnéticos.
• Estes dados, produzidos e armazenados em larga escala são
inviáveis de serem lidos ou analisados por especialistas através de
métodos manuais tradicionais, tais como planilhas de cálculo e
relatórios informativos operacionais, onde o especialista testa sua
hipótese contra a base de dados.
• Argumenta-se que a necessidade de sistemas para dar suporte a
decisão tem se desenvolvido ao longo dos anos cada vez mais
dentro de uma granularidade de informações mais refinada:
Nos anos 60, as exigências e necessidades estavam a nível de
mercado
Nos anos 70, ao nível de nichos, grupos de interesse
Nos anos 80, ao nível de segmentos de mercado
Nos anos 90, ao nível de cliente.
• O nível de cliente, naturalmente requer o uso de mais dados para
se extrair conhecimento.
17
INTELIGÊNCIA ARTIFICIAL
Descoberta de Conhecimento e Mineração de Dados
ICA – Laboratório de Inteligência Computacional Aplicada
Departamento de Engenharia Elétrica - PUC-RJ
Marco Aurélio/Marley Velasco/Carlos Henrique Lopes - Ago/1999
• A exploração do valor dos dados (armazenados no bancos de
dados) como fonte geradora de informação depende de técnicas
tais como regras de associação, classificação e clusterização entre
outras.
• processo capaz de descobrir este conhecimento em banco de
dados chama-se KDD (Knowledge Discovery in Databases). O
processo KDD foi proposto em 1989 para referir-se às etapas que
produzem conhecimento a partir dos dados.
• Uma das etapas mais importantes no processo KDD refere-se à
mineração dos dados onde os dados são efetivamente
transformados em informações.
• Diversas áreas relacionadas à descoberta de conhecimento fazem
parte do processo global de KDD tais como aprnedizado de
máquina (machine learning), inteligência computacional,
estatística e visualização dos dados.
• Técnicas tais como redes neurais artificiais, algoritmos genéticos,
lógica fuzzy e métodos estatísticos diversos são utilizados no
processo de KDD.
18
INTELIGÊNCIA ARTIFICIAL
Descoberta de Conhecimento e Mineração de Dados
ICA – Laboratório de Inteligência Computacional Aplicada
Departamento de Engenharia Elétrica - PUC-RJ
Marco Aurélio/Marley Velasco/Carlos Henrique Lopes - Ago/1999
• Visão sistemática do processo KDD
• A mineração de dados (data mining) é a mais importante etapa no
processo KDD. Caracteriza-se pele existência do algoritmo que
diante da tarefa especificada será capaz de extrair eficientemente
conhecimento implícito e útil de um banco de dados.
19
INTELIGÊNCIA ARTIFICIAL
Descoberta de Conhecimento e Mineração de Dados
ICA – Laboratório de Inteligência Computacional Aplicada
Departamento de Engenharia Elétrica - PUC-RJ
Marco Aurélio/Marley Velasco/Carlos Henrique Lopes - Ago/1999
• Visão da taxonomia da fase de mineração de dados
20
INTELIGÊNCIA ARTIFICIAL
Descoberta de Conhecimento - Uma Síntese
21
Download