Paralelização de Tarefas de Mineração de Dados Utilizando

Propaganda
Paralelização de Tarefas de
Mineração de Dados
Utilizando Workflows Científicos
Carlos Barbosa
Daniel de Oliveira
Eduardo Ogasawara
Marta Mattoso
1
Sumário
l  Processo
de mineração de dados para
séries temporais (ST)
l  Utilização de workflows científicos para
mineração de dados
l  Paralelização do processo de mineração
l  Resultados experimentais
l  Trabalhos relacionados
l  Conclusões
2
Processo de mineração de ST
Análise estatística
Resultado de predição
Pré-processamento
Agregação da adequação dos modelos
Remoção de outlier
<<sweep>>
ajuste do modelo de previsão
3
Análise estatística
heterocedasticidade
4.50
4.00
3.50
3.00
2.50
2.00
1.50
1.00
0.50
Não-estacionariedade
01/2009
01/2008
01/2007
01/2006
01/2005
01/2004
01/2003
01/2002
01/2001
01/2000
01/1999
0.00
US$
Estacionariedade: Teste de raiz unitário ou Teste Dickey-Fuller
4
Pré-processamento
l 
l 
Formas de coleta
l  Global
l  Sliding windows
Transformações
l 
l 
l 
l 
Remoção de tendência
Diferenciação
Log/Return
Normalização adaptativa*
5
Remoção de outliers
Técnicas lineares e por distribuição
35
30
25
20
15
10
Outliers
5
Outliers
1.20
1.18
1.16
1.14
1.12
1.10
1.08
1.06
1.04
1.02
1.00
0.98
0.96
0.94
0.92
0.90
0.88
0.86
0.84
0.82
0.80
0
6
Modelo de previsão
• 
Técnicas mais usadas:
• 
• 
• 
Regressões lineares
Outras técnicas lineares:
• 
Auto regressão (Box-Jekins)
• 
Vetores Auto-Regressivos
Técnicas não-lineares:
• 
Máquinas de vetores de suporte (SVM)
• 
Redes Neurais (RN)*
7
Processo de Mineração
l 
Muitas alternativas ...
l 
Como foi resolvida a
estacionariedade?
Qual foi o método usado?
Quais foram os parâmetros
usados?
Onde estão os dados,
arquivos e programas que
deram o melhor resultado?
Qual foi mesmo o critério
usado para identificar a
melhor configuração?
l 
l 
l 
l 
8
Uso de Workflows Científicos
l  Representa
o fluxo de atividades como uma
tentativa de solução para o experimento
SGWfC
Workflow científico
executável
9
Características dos
Workflows Científicos
• 
Documentação do processo
• 
Apoio à proveniência
• 
Exploração de parâmetros
• 
Comparação visual
• 
Gerência de configuração
• 
Primitivas para manipulação de dados
10
Workflow científico para previsão
via redes neurais
Atividade
distribuída
no cluster
11
Tipos de paralelização
Dados
Data Input
Parameter
Sweeper
Data
Fragmenter
I1
…
Activity/
Wf
…
O1
…
Parâmetros
Parameters
In
Activity/
Wf
On
Parameters
Pt1
…
Ptn
Activity/
Wf
…
Activity/
Wf
O1
…
On
Data
Analyzer
Data
Analyzer
Data Output
Data Output
Data Input
12
Dificuldades para paralelização
• 
• 
• 
• 
• 
• 
Necessidade de aumento de desempenho de
execução de atividades de um workflow
Execução das atividades usando
processamento de alto desempenho (PAD)
SGWfC perde o controle da execução e
desconhece estratégia de paralelismo
Controle limitado da execução remota
Proveniência limitada das atividades paralelas
Exemplo: Workflow de treinamento das redes
neurais
13
Uso do Hydra + VisTrails
• 
• 
• 
• 
• 
• 
• 
Middleware para distribuição de atividades
Conjunto de componentes para um workflow
científico
Atividades podem ser paralelizadas
O controle da execução fica com o SGWfC
SGWfC conhece a estratégia de paralelismo
Captura da proveniência das atividades
paralelas
Aumento de desempenho do workflow
OGASAWARA et al., 2009 - Exploring Many Task Computing in Scientific
Workflows. In: ACM/IEEE SC09 - Workshop on Many-Task Computing on
Grids and Supercomputers, 2009.
14
Resultados experimentais
(velocidade)
1000.0
464.9
Execution time (min)
239.9
237.4
100.0
125.5
123.3
63.8
61.7
35.3
33.1
12.1
18.0
10.0
1.0
20.2
1
Hydra MTC
8
16
32
64
Number of Cores
Total Workflow Time (MTC + Overhead)
9.7
8.2
5.9
128
15
Resultados de proveniência
Number of activities (parameters explored)
512
Upload Transfer Time
1.2 min
Wait time for scheduler
0.3 min
Execution Time in HPC (16 nodes with 8 cores)
8.15 min
Download Transfer Time
0.8 min
Total Execution Time
8.2 min
Speedup
Number of errors
56.2
0
16
Resultados experimentais
(previsão trivial)
2.50
Zona de treinamento
Zona de
Previsão
2.00
1.50
1.00
0.50
0.00
0
20
40
60
80
100
120
-0.50
cos(t)+1
LR
AR
NN
NNS
NNA
17
Resultados experimentais
(previsão do PIB agrícola)
180
Zona de treinamento
160
140
120
100
80
60
40
20
PIB Agrícola
Regressão Linear
Auto Regressão
2007 T4
2005 T4
2003 T4
2001 T4
1999 T4
1997 T4
1995 T4
1993 T4
1991 T4
1989 T4
1987 T4
1985 T4
1983 T4
1981 T4
0
Redes Neurais
18
Trabalhos relacionados
• 
• 
Weka – Knowledge Flow
• 
Representa um fluxo de dados
• 
Falta apoio a variações do experimento, a
controles e a proveniência
• 
Falta paralelismo
Tamanduá
• 
Projeto nacional para apoio a gestão
governamental
• 
Tem paralelismo
• 
Falta apoio a variações do experimento, a
controles e a proveniência
19
Conclusões
l 
l 
l 
Viabilidade do uso de workflows científicos para
obter paralelização
Bom desempenho alcançado com pouco
overhead do framework para paralelização
Outras vantagens
l  Apoio na documentação / registro dos
resultados obtidos
l  Facilidade na exploração
l  Facilidade na reprodução
20
Trabalhos Futuros
l  Generalizar
o mecanismo de agregação
para ser utilizado em outros processos de
mineração de dados
l  Avaliar cenários de mineração de dados
através de fragmentação de dados
l  Avaliar o processo para os problemas de
classificação
21
Paralelização de Tarefas de Mineração de Dados
Utilizando Workflows Científicos
Obrigado!
Eduardo Ogasawara
[email protected]
Visite nosso sítio
http://gexp.nacad.ufrj.br
22
Download