Paralelização de Tarefas de Mineração de Dados Utilizando Workflows Científicos Carlos Barbosa Daniel de Oliveira Eduardo Ogasawara Marta Mattoso 1 Sumário l Processo de mineração de dados para séries temporais (ST) l Utilização de workflows científicos para mineração de dados l Paralelização do processo de mineração l Resultados experimentais l Trabalhos relacionados l Conclusões 2 Processo de mineração de ST Análise estatística Resultado de predição Pré-processamento Agregação da adequação dos modelos Remoção de outlier <<sweep>> ajuste do modelo de previsão 3 Análise estatística heterocedasticidade 4.50 4.00 3.50 3.00 2.50 2.00 1.50 1.00 0.50 Não-estacionariedade 01/2009 01/2008 01/2007 01/2006 01/2005 01/2004 01/2003 01/2002 01/2001 01/2000 01/1999 0.00 US$ Estacionariedade: Teste de raiz unitário ou Teste Dickey-Fuller 4 Pré-processamento l l Formas de coleta l Global l Sliding windows Transformações l l l l Remoção de tendência Diferenciação Log/Return Normalização adaptativa* 5 Remoção de outliers Técnicas lineares e por distribuição 35 30 25 20 15 10 Outliers 5 Outliers 1.20 1.18 1.16 1.14 1.12 1.10 1.08 1.06 1.04 1.02 1.00 0.98 0.96 0.94 0.92 0.90 0.88 0.86 0.84 0.82 0.80 0 6 Modelo de previsão • Técnicas mais usadas: • • • Regressões lineares Outras técnicas lineares: • Auto regressão (Box-Jekins) • Vetores Auto-Regressivos Técnicas não-lineares: • Máquinas de vetores de suporte (SVM) • Redes Neurais (RN)* 7 Processo de Mineração l Muitas alternativas ... l Como foi resolvida a estacionariedade? Qual foi o método usado? Quais foram os parâmetros usados? Onde estão os dados, arquivos e programas que deram o melhor resultado? Qual foi mesmo o critério usado para identificar a melhor configuração? l l l l 8 Uso de Workflows Científicos l Representa o fluxo de atividades como uma tentativa de solução para o experimento SGWfC Workflow científico executável 9 Características dos Workflows Científicos • Documentação do processo • Apoio à proveniência • Exploração de parâmetros • Comparação visual • Gerência de configuração • Primitivas para manipulação de dados 10 Workflow científico para previsão via redes neurais Atividade distribuída no cluster 11 Tipos de paralelização Dados Data Input Parameter Sweeper Data Fragmenter I1 … Activity/ Wf … O1 … Parâmetros Parameters In Activity/ Wf On Parameters Pt1 … Ptn Activity/ Wf … Activity/ Wf O1 … On Data Analyzer Data Analyzer Data Output Data Output Data Input 12 Dificuldades para paralelização • • • • • • Necessidade de aumento de desempenho de execução de atividades de um workflow Execução das atividades usando processamento de alto desempenho (PAD) SGWfC perde o controle da execução e desconhece estratégia de paralelismo Controle limitado da execução remota Proveniência limitada das atividades paralelas Exemplo: Workflow de treinamento das redes neurais 13 Uso do Hydra + VisTrails • • • • • • • Middleware para distribuição de atividades Conjunto de componentes para um workflow científico Atividades podem ser paralelizadas O controle da execução fica com o SGWfC SGWfC conhece a estratégia de paralelismo Captura da proveniência das atividades paralelas Aumento de desempenho do workflow OGASAWARA et al., 2009 - Exploring Many Task Computing in Scientific Workflows. In: ACM/IEEE SC09 - Workshop on Many-Task Computing on Grids and Supercomputers, 2009. 14 Resultados experimentais (velocidade) 1000.0 464.9 Execution time (min) 239.9 237.4 100.0 125.5 123.3 63.8 61.7 35.3 33.1 12.1 18.0 10.0 1.0 20.2 1 Hydra MTC 8 16 32 64 Number of Cores Total Workflow Time (MTC + Overhead) 9.7 8.2 5.9 128 15 Resultados de proveniência Number of activities (parameters explored) 512 Upload Transfer Time 1.2 min Wait time for scheduler 0.3 min Execution Time in HPC (16 nodes with 8 cores) 8.15 min Download Transfer Time 0.8 min Total Execution Time 8.2 min Speedup Number of errors 56.2 0 16 Resultados experimentais (previsão trivial) 2.50 Zona de treinamento Zona de Previsão 2.00 1.50 1.00 0.50 0.00 0 20 40 60 80 100 120 -0.50 cos(t)+1 LR AR NN NNS NNA 17 Resultados experimentais (previsão do PIB agrícola) 180 Zona de treinamento 160 140 120 100 80 60 40 20 PIB Agrícola Regressão Linear Auto Regressão 2007 T4 2005 T4 2003 T4 2001 T4 1999 T4 1997 T4 1995 T4 1993 T4 1991 T4 1989 T4 1987 T4 1985 T4 1983 T4 1981 T4 0 Redes Neurais 18 Trabalhos relacionados • • Weka – Knowledge Flow • Representa um fluxo de dados • Falta apoio a variações do experimento, a controles e a proveniência • Falta paralelismo Tamanduá • Projeto nacional para apoio a gestão governamental • Tem paralelismo • Falta apoio a variações do experimento, a controles e a proveniência 19 Conclusões l l l Viabilidade do uso de workflows científicos para obter paralelização Bom desempenho alcançado com pouco overhead do framework para paralelização Outras vantagens l Apoio na documentação / registro dos resultados obtidos l Facilidade na exploração l Facilidade na reprodução 20 Trabalhos Futuros l Generalizar o mecanismo de agregação para ser utilizado em outros processos de mineração de dados l Avaliar cenários de mineração de dados através de fragmentação de dados l Avaliar o processo para os problemas de classificação 21 Paralelização de Tarefas de Mineração de Dados Utilizando Workflows Científicos Obrigado! Eduardo Ogasawara [email protected] Visite nosso sítio http://gexp.nacad.ufrj.br 22