Mineração de Dados - Sylvio Barbon Junior

Propaganda
Tópicos Especiais:
INTELIGÊNCIA DE NEGÓCIOS II
Mineração de Dados
Sylvio Barbon Junior
[email protected]
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 1
Sumário
I
Etapa I
I
I
I
I
I
I
I
Inteligência de Negócios
Visão Geral sobre Mineração de Dados
Input: Conceitos, Instâncias e Atributos
Etapas vinculadas à Mineração de Dados
Estudo de Caso 1: Segurança em Redes Sociais Digitais
Output: Representação do Conhecimento
Etapa II
I
I
I
I
Algoritmos Básicos
Weka: Framework para Machine Learning
Avaliando os Resultados
Estudo de Caso 2: Produção de Uvas
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 2
Inteligência de Negócios
BI - Business Intelligence
I
Definição: Processo de coleta, organização, análise, compartilhamento,
monitoramento de informação que oferecem suporte a gestão de negócios.
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 3
Inteligência de Negócios
Comparação de Terminologia
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 4
Visão Geral sobre Mineração de Dados
Data Mining - Mineração de Dados
I
Volume de dados no qual temos acesso e geramos;
I
Redução dos custos de equipamentos de armazenamento;
I
Fácil disponibilidade e compartilhamento dos dados;
I
“As the volume of data increases, inexorably, the proportion of it that people
understand decreases alarmingly";
I
Distanciamento entre: compreensão e geração de dados;
I
Um objetivo mais direto da Mineração de Dados é solucionar problemas
analisando dados passados, presentes em um conjunto de dados (dataset);
I
Definição de Mineração de Dados: É o processo de descoberta de padrões
em dados. Este processo precisa ser automático ou semi-automático. Os
padrões reconhecidos precisam ser significativos e agregar vantagens.
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 5
Visão Geral sobre Mineração de Dados
Machine Learning - Aprendizado de Máquina
I
O que é aprendizado?
I
I
I
I
I
Adquirir conhecimento por meio de estudos;
Tornar-se consciente por meio da informação ou observação;
Persistir na memória;
Informar-se sobre algo;
Receber instruções;
I
Convertendo para computação: Conhecimento e Desempenho;
I
Definição de Aprendizado de Máquina: É uma sub-área da Inteligência
Artificial focada no desenvolvimento de algoritmos que podem aprender,
melhorar, reconhecer e predizer novas informações baseando-se em dados.
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 6
Visão Geral sobre Mineração de Dados
Exemplos de Áreas de Aplicação
I
Web Mining:
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 7
Visão Geral sobre Mineração de Dados
Exemplos de Áreas de Aplicação
I
Apoio a Decisão Estratégica:
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 8
Exemplos de Áreas de Aplicação
I
Varredura de Imagens:
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 9
Visão Geral sobre Mineração de Dados
Exemplos de Áreas de Aplicação
I
Previsão de Consumo Energético:
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 10
Visão Geral sobre Mineração de Dados
Exemplos de Áreas de Aplicação
I
Diagnóstico por Imagem:
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 11
Input: Conceitos, Instâncias e Atributos
Conceitos
I
Conceito: Aquilo que se está tentando encontrar [Classe, Grupo, Rótulo];
I
Inteligibilidade: Capacidade de ser compreendido e discutido;
I
Operacional: Capacidade de ser aplicado a exemplos atuais;
I
Instância: É um indivíduo, um exemplo independente do conceito a ser
aprendido [Elemento, Exemplo, Amostra];
I
Atributos: São os valores que qualificam os aspectos de uma Instância
[Descritor, Característica, Valor];
I
Instâncias Multi-rótulos: Quando uma instância pertence a múltiplas
classes [ multilabeled instances];
I
Modelo: É a descrição da solução aprendida
I
Aprendizado Supervisionado: É o nome dado as técnicas de aprendizado
baseados em exemplos rotulados, utilizados na fase de treinamento dos
modelos.
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 12
Input: Conceitos, Instâncias e Atributos
Tipos de Atributos
I
I
I
I
Atributos Nominais: “Relacionado a nomes”, podem ser símbolos ou
palavras que relacionam-se as dimensões nos elementos. Exemplo:
“marrom”, “vermelho”, “casado”, “divorciado”.
Atributos Binários: São atributos que variam entre duas possibilidades.
Normalmente são relacionados a presença ou ausência de uma categoria.
Exemplo: “fumante” e “masculino”. Podem ser simétricos quando os valores
tem o mesmo peso ou assimétricos quando os valores são de importâncias
diversas. Exemplos: gênero (simétrico) e HIV (assimétrico).
Atributos ordinais: Estão relacionados a ordem ou ranking de algo. Podem
ser obtidos pela discretização de informações numéricas. Este atributo, assim
como nominal e binário são qualitativos (que descrevem algo). Exemplo:
tamanho como pequeno (1), médio (2) e grande (3).
Atributos numéricos: É um atributo quantitativo, que mede quantidade de
algo e é representado por valores inteiros ou reais. Exemplo: temperatura,
altura, pressão, velocidade etc. Devido a sua escala, pode-se computar
tendências estatisticamente.
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 13
Input: Conceitos, Instâncias e Atributos
Tipos de Atributos
I
Dados esparsos: Quando muitos atributos de uma instância são “0". A
representação destes dados se torna impraticável. Soluções identificação de
atributos não zero normalmente são aplicadas. Exemplo:
I {0, X , 0, 0, 0, 0, Y , 0, 0, 0, “ClasseA”}
I {1X , 6Y , 10“ClasseA”}
I
Valores desconhecidos: São valores corrompidos ou que não estão
presentes no dataset. Medidas como atribuição pela média ou eliminação da
instância, são práticas para lidar com esse tipo de problema.
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 14
Input: Conceitos, Instâncias e Atributos
Padrão ARFF
I
ARFF: Attribute-Relation File Format é um dos padrões para a criação dos
datasets para Mineração de Dados. É um arquivo de texto ASCII que
descreve um dataset, seus atributos e instâncias. Exemplo:
@RELATION iris
@ATTRIBUTE sepallength NUMERIC
@ATTRIBUTE sepalwidth NUMERIC
@ATTRIBUTE petallength NUMERIC
@ATTRIBUTE petalwidth NUMERIC
@ATTRIBUTE class Iris-setosa,Iris-versicolor,Iris-virginica
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 15
Etapas vinculadas à Mineração de Dados
KDD
I
Sistemas de Descoberta de Conhecimento: A Mineração de Dados é o
kernel de um sistema Knowledge Discovery System KDD
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 16
Etapas vinculadas à Mineração de Dados
KDD
1. Seleção: Tem como objetivo agrupar, filtrar e obter os dados que serão
minerados.
2. Pré-processamento: Tem o objetivo de melhorar a qualidade dos dados, isto
é aumentar a Acurácia, Completitude, Consistência, Sequência, Credibilidade
e Interpretabilidade.
I
I
I
I
Data Cleaning (limpeza) [Valores ausentes, ruído]
Data Integration (integração) [Redundância, Conflitos e Correlação]
Data Reduction (redução) [Redução de Dimensão, Redução de Amostras]
Data Discretization (discretização) [Binning, Histograma, Árvore]
3. Transformação: Tem com objetivo agregar atributos, normalizar valores,
construir e suavizar valores para contribuir na mineração dos dados.
4. ** Mineração de Dados **
5. Interpretação, Avaliação e Visualização: Contempla mecanismos que
facilitam a exposição e validação do conhecimento obtido.
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 17
Etapas vinculadas à Mineração de Dados
Projeto de Mineração de Dados
I
Modelo generalizado de projeto de Mineração de Dados.
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 18
Estudo de Caso:
Segurança em Redes Sociais Digitais
I
Área de Mineração de Texto (mineração em base de dados textuais).
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 19
Estudo de Caso:
Segurança em Redes Sociais Digitais
I
IGAWA, R. A. Mineração de Texto e Wavelets na Classificação de Contas em
Redes Sociais Digitais. 71 p. Qualificação de Mestrado (Mestrado em Ciência
da Computação) – Universidade Estadual de Londrina, Londrina–PR, 2015.
I
Resumo:Para auxiliar a descoberta de fraudes em RSDs, este trabalho
propõe a classificação de contas baseada na TDW para detectar a
disseminação de conteúdo textual de bots.
O principal objetivo da classificação é distinguir os padrões de classes em:
humanos, cyborgs ou bots. A abordagem proposta analisa a distribuição de
termos chaves enquanto mantêm custo computacional adequado para RSDs.
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 20
Estudo de Caso:
Segurança em Redes Sociais Digitais
I
Dataset: Base de Tweets (mensagens do Twitter) relacionados a Copa do
Mundo de 2014.
I
Classes: Humano, Cyborg, Bot e Humano, Não Humano
I
Atributos: Descritores textuais (Comprimento do Corpus, Lexicon e
Coeficientes TDW)
I
Pré-processamento: Discretização com novo padrão de pesagem LBCA
(inovação)
I
Classificador: Random Forests (Ensemble de árvores) e Multilayer
Perceptron (ANN)
I
Resultado: 94% para HCB e 100% para HnH.
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 21
Estudo de Caso:
Segurança em Redes Sociais Digitais
I
Modelo proposto:
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 22
Estudo de Caso:
Segurança em Redes Sociais Digitais
I
Resultados:
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 23
Output: Representação do Conhecimento
Introdução
I
Quando se obtém o conhecimento, representá-lo pode ser uma tarefa
complicada.
I
Qual a diferença entre o gato e o cachorro? Crie um modelo!
I
Antes de se estudar o modelo de classificação, é necessário entender quais
são as saídas possíveis do processo de classificação.
Cada problema pode ser representado de uma maneira, assim como a
solução ou modelo para solucionar:
I
I
I
I
I
I
I
Tabelas;
Modelos Lineares;
Árvores
Regras;
Baseada em Instância;
Aglomerado (cluters)
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 24
Output: Representação do Conhecimento
Tabelas
I
Simples e mais rudimentar representação de conhecimento;
I
Exibição condensada de informações;
I
Tem como principal obstáculo decidir quais atributos afetam a decisão final;
I
É um elemento importante na descrição dos dados, porém para a descrição
de um modelo ou conhecimento adquirido não é tão adequado;
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 25
Output: Representação do Conhecimento
Modelos Lineares
I
I
I
I
I
Para a Estatísticas os modelos lineares são chamados de regressão.
São fáceis de se visualizar em duas dimensões;
A “reta"representa o melhor ajuste para as dimensões relacionadas;
O modelo pode ser descrito por uma equação de reta. Exemplo:
desempenho = 37,06 + 2,47 cache;
Pode ser utilizado para a representação de classificação binária (2 classes)
de problemas. A linha é o limite (boundary ) entre cada classe.
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 26
Output: Representação do Conhecimento
Árvores
I
I
I
I
I
Abordagem "divisão e conquista"são melhor representados por árvores;
Os nós da árvore de decisão são definidos pelos atributos;
As folhas definem a classificação esperada;
A classificação é obtida percorrendo todos os nós até a folha que descreve a
classe;
Cada nó deve oferecer dois ou mais "caminhos"para seguir.
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 27
Output: Representação do Conhecimento
Regras
I
É semelhante à árvore de decisão;
I
Tem nas extremidades do modelo a classe. É dividada em condições
antecedentes e consequentes (ou conclusão);
I
Diferente das árvores não são "comparações"são formulações ou expressões
lógias.
I
Apresentam soluções mais aprimoradas, complexas e otimizadas do que as
árvores.
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 28
Output: Representação do Conhecimento
Baseado em Instância - Instance-Based
I
I
I
É a técnica mais lenta (custosa computacionalmente);
As instâncias são avaliadas uma a uma;
Técnicas de distância e vizinhança são utilizadas (K-nearest-neighbor KNN)
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 29
Output: Representação do Conhecimento
Agrupamento - Clustering
I
I
I
É uma das abordagens mais utilizadas;
A saída é um diagrama (dendograma) que representa a quantidade
diversificada de grupos;
Esta abordagem pode ser usada em pareceria com outras como Árvores e
Regras para verificar um caminho inicial (K-means).
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 30
Referências
I
Imagens:
I
I
I
I
I
I
I
I
I
https : //datacleansingservices.files.wordpress.com/2013/04/web − mining −
services.jpg
https : //quadconsultancy.files.wordpress.com/2010/09/financial − planning −
decision − support − executive1.jpg
http : //www.sensum − project.eu /documents/17293/0/rs20tool.jpg?t =
1403610969811
https :
//www.otexts.org /sites/default /files/styles/large/public /elec3.jpg?itok =
AEp1hRlF
http :
//www.simplifiqueocancer .com.br /wp − content /uploads/2015/06/exame1.jpg
http : //www.zentut.com/wp − content /uploads/2012/10/kdprocess.png
http : //free − stock − illustration.com/business + intelligence + data
http : //scikit − learn.org /0.11/i mages/plotc lassification1 1.png
Código Fonte ARFF: http : //www.cs.waikato.ac.nz /ml /weka/arff .html
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 31
Referências
I
Livros:
I
I
I
Konar, A. “Computational Intelligence: Principles, Techniques and Applications”
(2005)
Jensen, R. Shen, Q. “Computational Intelligence and Feature Selection” (2008)
Witten, Ian H., and Eibe Frank. "Data Mining: Practical machine learning tools
and techniques". Morgan Kaufmann (2011)
26 de junho de 2015 | DC-UEL | Sylvio Barbon Jr | 32
Download