Mineração de Dados - Sylvio Barbon Junior

Propaganda
Mineração de Dados
aplicada à Gestão de Negócios
Aula 1
Introdução - Mineração de Dados
Prof. Dr. Sylvio Barbon Junior
[email protected]
Mineração de Dados
aplicada à Gestão de Negócios
Sumário
1) Mineração de Dados
1)
2)
3)
4)
5)
2)
3)
4)
5)
Atividades Relacionadas;
Desafios;
Exemplos de aplicativos;
Últimos assuntos;
Projeto de Mineração de Dados;
Mineração de Texto
Classificação
Visualização de Dados
Exercício.
Mineração de Dados
aplicada à Gestão de Negócios
1) Mineração de Dados
Visualização do Modelo
Avaliação do Modelo
Construção de Modelo
Transformação dos Dados
Preparação de Dados
Seleção e Amostragem
Fornecimento dos Dados
DATA
MINING
Knowledge Discovery in Databases
Data Mining pode ser definido de diversas maneiras em várias áreas, a definição
mais tradicional para o meio acadêmico é “The non-trivial extraction of
implicit, previosly unknown, and potentially useful information from data”
(Frawley, 1991).
Knowledge Discovery in Databases
Mineração de Dados
aplicada à Gestão de Negócios
1) Mineração de Dados
Motivação:
1) Aumentar a capacidade de processamento e armazenamento;
2) Inviabilidade de análise manual dos dados
Mineração de Dados
aplicada à Gestão de Negócios
1) Mineração de Dados
Maiores atividades da Mineração de Dados:
1) Análise exploratória de Dados;
2) Modelagem descritiva dos dados:
a) Determinação das distribuições das informações;
b) Modelagem da relação entre os dados;
c) Particionamento das informações em grupos.
3) Modelagem Preditiva:
a) Classificação;
b) Regressão;
4) Descoberta de Padrões e Regras;
5) Recuperação de conteúdo;
Mineração de Dados
aplicada à Gestão de Negócios
1) Mineração de Dados
Quadro comparativo:
Coleção de
Dados
Acesso aos
Dados
Data
Warehousing e
Ferramenta de
Sup. a Decisão
Questão de Gerencial
“Qual foi meu lucro
ano passado?”
“Quais foram minhas
vendas em Londrina
em Março”
“Quais foram as
vendas em Londrina
comparadas com
Curitiba?”
“Qual a minha
expectativa de venda
em Curitiba mês que
vem?”
Questão Tecnológica
Discos de
armazenamento
Banco de dados
relacionais e SQL
Banco de dados
Multidimensionais
Algoritmos
avançados e bases
maciças
Característica
Entrega resumos e
documentos
estáticos
Entrega documentos
dinâmicos
Entrega documentos
dinâmicos em
múltiplos níveis
Prospecção proativa
de entrega de
informação
Data Mining
Mineração de Dados
aplicada à Gestão de Negócios
1) Mineração de Dados
Os maiores desafios da Mineração de Dados:
Uso de dados de banco de dados transacionais para a
mineração
Redução de Dados
Transformação de Dados
Limpeza dos Dados
“Sparsity” dos Dados
Lidar com dados raros
Mineração de Dados
aplicada à Gestão de Negócios
1) Mineração de Dados
Exemplos de Aplicações em Mineração de Dados:
1) Previsão de vendas;
2) Gerenciamento de estoques e armazenamento;
3) Descobertas científicas;
4) Jogos;
5) Esportes;
6) Gestão de Relacionamento com o Consumidor;
7) Aquisição de Consumidores;
Mineração de Dados
aplicada à Gestão de Negócios
1) Mineração de Dados
Assuntos ultimamente tratados pela Mineração de Dados:
1) Mineração em diferentes tipos de base (documentos, planilhas, BDR);
2) Mineração interativa com diferentes níveis de abstração;
3) Incorporação de informação de background;
4) Linguagem de consulta para Data Mining;
5) Apresentação e visualização de resultados de Data Mining;
6) Tratamento de ruído e bases incompletas;
7) Avaliação de Padrões – “interestingness”;
8) Algoritmos eficientes e escaláveis para mineração de dados;
9) Manipulação de dados complexos;
Mineração de Dados
aplicada à Gestão de Negócios
1) Mineração de Dados
Projeto de Mineração de Dados:
Mineração de Dados
aplicada à Gestão de Negócios
1) Mineração de Dados
Projeto de Mineração de Dados (Compreender os Dados):
Aquisição dos Dados
Acesso aos Dados
Integração dos Dados
Coleção Inicial dos Dados
Descrição dos Dados
Variáveis
Estatísticas Descritivas
Relatórios com a descrição dos dados
Qualidade na Avaliação dos Dados
Valores perdidos
Outliers e Qualidade dos Dados
Mineração de Dados
aplicada à Gestão de Negócios
1) Mineração de Dados
Projeto de Mineração de Dados (Compreender os Dados):
Data Transformation
Como expressar as variáves dos dados?
Data Imputation
Como lidar com informações que estão faltando?
Data Weighting
Todos os casos devem ser tratados da mesma forma?
Data Filtering
Como tratar outliers e dados inexperados?
Data Abstraction
Como lidar com informações temporais (séries temporais)?
Data Reduction
Como reduzir a base para os primeiros experimentos:
1) Eliminar Registros? (Amostragem de Dados)
2) Diminuir a Dimensão? (Redução de Dimensionalidade)
3) Modificar Valores? (Discretização dos Dados)
Data Derivation
Posso criar novas variáveis?
Mineração de Dados
aplicada à Gestão de Negócios
2) Mineração de Texto
É a pesquisa por informação em documentos virtualmente não estruturados.
Segundo McKnight é o processo de descoberta de algo novo, preciosamente
desconhecido, potencialmente útil originário de documentos de negócios,
comentários de clientes, páginas de internet e aquivos xml.
Assim, a Mineração de Texto pode ser aplicada em muitas aplicações e campos,
incluindo:
1. Marketing;
2. Segurança Nacional e das corporações;
3. Medicas e biomédicas;
4. Legais e casos que envolvam a lei;
5. Finanças corporativas;
6. Relações Públicas.
Mineração de Dados
aplicada à Gestão de Negócios
2) Mineração de Texto
Softwares comerciais e abertos para Text Mining:
1) SAS-Text Mining;
2) SPSS-Text Mining e Text Analysis para questionários;
3) STATISTICA Text Miner;
4) GATE – Natural Languagem Open Source;
5) RapidMiner;
6) R-Language programming text mining;
7) Practical – text mining com Perl;
8) ODM – Oracle Data Mining;
9) Megaputer´s Text Analyst;
Mineração de Dados
aplicada à Gestão de Negócios
2) Mineração de Texto
Estudo de Caso – Redes Sociais:
1) As “Social Medias” tem dominado a Internet, modificando o comportamento e
a maneira de comunicação das pessoas.
2) Facebook alcançou um bilhão de usuários;
3) Twitter conta com duzentos milhões de usuários;
4) As análises nas redes sociais proporcionam:
a) Reconhecimento de pessoas importantes/influentes;
b) Subgrupos e usuários conectados;
c) Como rumores sobre doenças, eventos e catástrofes se espalham.
d) O impacto de produtos e assuntos;
e) Avaliação de problemas para assistência a clientes;
f) Identificação e compreensão da opinião da população sobre diversos
temas.
Mineração de Dados
aplicada à Gestão de Negócios
2) Mineração de Texto
Estudo de Caso – Redes Sociais:
- Indexação Tradicional:
-
-
TF-IDF (Term Frequency–Inverse Document Frequency)
LSI (Latent Smantic Indexing)
Predição de Link:
-
“Recomendação de Amizade”
Considera os vértices desconectados entre pares de nós (arestas) por meio de pontuação:
m
ln( )
u
w=
ln(2)
-
Sendo w a pontuação (peso), m a probabilidade de um nó representar a mesma pessoa, u é
a chance de um atributo em comum.
Mineração de Dados
aplicada à Gestão de Negócios
2) Mineração de Texto
Estudo de Caso – Redes Sociais:
- Predição de Link:
-
-
O calculo é feito no momento do inicio da sessão do usuário;
Para muitas bases tal calculo pode ser muito caro;
Diversas formas de predição de sugestão são estudados para minimizar a árvore de
possibilidades;
O usuário quando submete que não é amigo de “tal pessoa” auxilia exponencialmente o
algoritmo;
Combinando diversas características e outros atributos, é possível ter um mecanismo
eficiente de sugestão de amigos.
Contas duplicadas:
-
Sistemas de vendas como eBay e Amazon são utilizados como ferramentas de vendas;
Uma forma de garantir uma boa compra e a qualidade dos serviços prestados é avaliar a
reputação do vendedor.
Muitos usuários com reputação baixa criando outras contas.
O desafio é encontrar contas duplicadas de vendedores;
Para tal, faz-se o uso da mineração de dados para reconhecer tais perfis.
Mineração de Dados
aplicada à Gestão de Negócios
3) Classificação
-
Classificação é a operação de separar diversas entidades em classes;
-
As classes podem ser funções matemáticas, regras de negócios ou limites de
problemas;
-
Quando a classificação é baseada em características definidas e se conhecem
alguns exemplos, chama-se esta classificação de supervisionada.
-
Quando não se conhece exemplos da classe que está sendo avaliada, chamase de não supervisionada.
-
Uma abordagem tradicional de redes não supervisionadas é o clustering.
Mineração de Dados
aplicada à Gestão de Negócios
3) Classificação
Exemplos de Métodos de Classificação
1) Árvores de Decisão (Decision Trees)
2) CHAID (Chi-squared Automatic Interaction Detection)
3) Random Forests e Boosted Trees
4) Regressão Logística
5) Redes Neurais Artificiais
6) K-nearest neighbor
7) Naïve Baysesian classifier.
Mineração de Dados
aplicada à Gestão de Negócios
4) Visualização de Dados
Entre os vários mecanismos de visualização dos dados, o Grafo é popularmente
utilizado e agrega diversas avaliações.
-
Os dados podem ser tratados como nós (nodes), ligações (edges ou links) e
apresentam diversas medidas.
-
Em um grafo, podemos tratar o resultado como sendo um conjunto de
vértices e arestas que podem formar árvores e florestas.
-
As arestas (ligações) podem ser rotuladas e terem pesos (grafos ponderados),
que são utilizados para encontrar caminhos e descrever soluções com baixo
custo ou alto lucro.
Mineração de Dados
aplicada à Gestão de Negócios
4) Visualização de Dados
- Bacon Number:
- Grafo não direcionado;
- As ligações são criadas
em participações em filmes
e eventos;
- Por exemplo, Elvis Presley
tem o “Bacon Number” igual a 2.
Mineração de Dados
aplicada à Gestão de Negócios
4) Visualização de Dados
Mineração de Dados
aplicada à Gestão de Negócios
4) Visualização de Dados
aresta
vértice
vértice
Relação de
adjacência simétrica
aresta
Grafo Direcionado (dirigido)
Grafo não Direcionado
Mineração de Dados
aplicada à Gestão de Negócios
4) Visualização de Dados
Vértice de grau 0
Vértice de grau 1
Grau 3
7
Grafo isolado
ou não conectado
Grau 2
Grafo conectado
Mineração de Dados
aplicada à Gestão de Negócios
4) Visualização de Dados
Grafos G
Grafos G’, que é subgrafo
de G
Mineração de Dados
aplicada à Gestão de Negócios
4) Visualização de Dados
Representação de Grafos (redes):
1) Lista de Adjacência
Mineração de Dados
aplicada à Gestão de Negócios
4) Visualização de Dados
Representação de Grafos (redes):
2) Matriz de Adjacência
Mineração de Dados
aplicada à Gestão de Negócios
4) Visualização de Dados
Estruturas Básicas e Propriedades
- Clique: Grupo de vértices de qualquer tamanho cujos nós estão totalmente
conectados;
- Cluster: São como os Cliques, mas nem todos os nós estão conectados e é
observável a ligação entre outros agrupamentos densos.
Clique
3 Clusters
Mineração de Dados
aplicada à Gestão de Negócios
4) Visualização de Dados
Estruturas Básicas e Propriedades
- Redes Egocêntricas
Mineração de Dados
aplicada à Gestão de Negócios
5) Exercício
1) Crie uma lista com 20 amigos do Facebook, será uma
lista de adjacência que descreva as conexões. Visualize
as conexões no Gephi e responda as seguintes
questões:
a) Qual o amigo com o maior grau?
b) Qual amigo é o mais centralizado?
c) Foi possível detectar clusters óbvios?
d) Algum nó pode ser considerado um outlier?
Download