XIII SIMPEP - Bauru, SP, Brasil, 6 a 8 de Novembro de 2006 Uma discussão sobre a aplicação de processo de KDD e técnicas de mineração de dados na indústria automobilística Prof. Adriano Soares de Barros (FATEC) [email protected] Prof. Dr. Fernando Celso de Campos (UNIMEP) [email protected] Resumo: Quando se pensa em um carro, a idéia é de um veículo pouco poluente e com formas alternativas de combustível. A indústria automotiva confirma estas profecias, mas também dá pistas que os carros serão bastante silenciosos. As montadoras precisam desenvolver os automóveis velozmente e com qualidade, devido ao alto nível de concorrência existente, pois existem muitos produtos disponíveis ao consumidor final no mercado atualmente. Devidas estas necessidades criou-se uma subárea na engenharia mecânica, chamada pela sigla NVH (Noise/Vibration/Harshness) que tem como objetivo reduzir os ruídos e vibração dos automóveis. Atualmente existem várias ferramentas para tratamento de dados gerados pelos testes de NVH, mas, há a necessidade de se aplicar ferramentas como o KDD (Knowledge Discovery and Data Mining) de forma que o profissional possa analisar e tomar decisões com maior precisão e rapidez os dados fornecidos pelos equipamentos de aquisição de dados, proporcionando diferencial competitivo no desenvolvimento de produtos com relação aos concorrentes. Neste artigo discute-se a viabilidade da criação de uma ferramenta de KDD para dados de NVH, mostrando um estudo de caso de uma montadora que obteve ganhos competitivos aplicando fases do processo de KDD sobre o processo de análise de dados de NVH. Palavras-chave: Automação; Sensores; Indústria Automotiva. 1. Introdução Estrategicamente é muito interessante para as montadoras conhecer características dos seus produtos para que elas possam localizá-lo no mercado consumidor. O objetivo principal é justamente criar uma identidade para o produto de forma que este se encaixe com a sua marca. Cada montadora procura dirigir seus produtos para um nicho de mercado de acordo com suas estratégias. Uma montadora pode desejar passar uma imagem de conforto, de robustez, de esportividade, entre outros. De maneira geral, o acerto do automóvel para estas características não é uma tarefa fácil, principalmente pela necessidade de se fazer muitas medições e testes para que se possa moldar o veículo para que este apresente as características desejadas. Uma das principais características para se criar esta identidade do automóvel é o pacote acústico que ele possui, de forma que o produto possa ser identificado através de seu funcionamento. Para que isto ocorra muitas medições de ruído e vibração se faz necessárias. Além disto, estas medições de ruído e vibração evita que um automóvel esportivo, por exemplo, se torne excessivamente silencioso ou excessivamente macio o que estragaria a imagem que o produto deseja passar. Por outro lado, o veículo deve respeitar as leis de trânsito e não possuir ruídos indesejáveis. Para que este ponto seja alcançado grandes quantidades de informações são aquisitadas por sensores como microfones e acelerômetros e depois analisadas. O grande volume destas informações acaba exigindo grandes esforços de analistas para conseguir identificar o ponto exato em termos de ruído e vibração que se deseja alcançar. Neste artigo propõe-se que, para facilitar o processo de acerto das características acústicas do automóvel, utilize-se da ferramenta de KDD (Knowledge Discovery in Databases) que é um 1 XIII SIMPEP - Bauru, SP, Brasil, 6 a 8 de Novembro de 2006 processo que tem como objetivo reduzir o tempo de análise de grandes volumes de dados. Assim sendo o resultado que se deseja chegar é a redução do tempo de projeto de novos produtos o que tornaria a montadora mais agressiva diante da concorrência. 2. O Processo de KDD A descoberta de conhecimento em base de dados (KDD) é o processo de extração de conhecimento novo, útil e interessante a partir de bases de dados. Este processo tem natureza iterativa e interativa e é composto por uma série de atividades mostradas na figura 1. A mineração de dados, por sua vez, pode ser considerada o núcleo do processo de KDD, consistindo na aplicação de algoritmos de extração de padrões de comportamento e tendências a partir de dados. Os padrões extraídos pelo KDD são dados que possuem uma certa semelhança com relação a algum aspecto, como por exemplo: a divisão dos clientes de um banco em baixo, médio e alto risco para empréstimos, de acordo com os antecedentes destes clientes. O processo de KDD vem se tornando mais comum e tendo desdobramentos relevantes em relação aos processos de tomada de decisão - operacional, gerencial e estratégica. Esses desdobramentos vêm influenciando na tomada de decisões permitindo que estas decisões se tornem mais seguras. Esta segurança é proporcionada por dados estatísticos baseados em experiências anteriores. O KDD é o responsável por descobrir estes dados estatísticos dentro de bancos de dados institucionais. Em sua pesquisa, Carvalho (2000) afirma que o objetivo do processo de KDD é tornar grandes volumes de dados em padrões compreensíveis às pessoas, visando facilitar uma melhor interpretação dos dados existentes. Segundo Zhang et al. (2003), existem 5 fases no processo de KDD, que são organizadas conforme ilustrado na Figura 1. Estas 5 fases são comentadas a seguir. Figura 1: Fases do processo de KDD – Fonte: Adaptado de Carvalho (2000) Na fase da seleção, busca-se identificar o subconjunto de atributos sobre o qual o KDD deverá atuar, facilitando o trabalho dos algoritmos responsáveis pela tarefa de organização e ordenação dos dados. Os dados utilizados em NVH (noise, vibration and harshness) na área automotiva, geralmente, se formam devido à necessidade de se registrar o comportamento do veículo durante as atividades diárias, como por exemplo, atividades de estacionamento, ultrapassagem e cruzeiro. Estes dados são coletados por medições feitas pelos sensores, principalmente acelerômetros, microfones e tacômetro. Nesse contexto, nem todos os dados armazenados podem interessar ao processo de KDD e, assim, caberá à fase de seleção identificar quais são os dados relevantes. Para Rodrigues Filho (2001), a fase de pré-processamento e limpeza corresponde a atividades que visam gerar uma representação conveniente dos dados. Nesta fase, procura-se fazer as atividades de conversão dos dados provenientes de diferentes fontes, para que estes possam 2 XIII SIMPEP - Bauru, SP, Brasil, 6 a 8 de Novembro de 2006 ser lidos e processados por um único sistema gerenciador de banco de dados (SGBD). A fase de transformação é implementada por meio de um processamento dos dados, visando organizar os dados para facilitar o trabalho realizado pelas fases posteriores do processo de KDD. Rodrigues Filho (2001) verificou que essa fase pode tomar até 80% do tempo necessário para todo o processo de análise, devido às dificuldades de integração de bases de dados com estruturas heterogêneas. A fase de data mining (ou mineração de dados), conforme Carvalho (2000), trata-se de um conjunto de técnicas reunidas da Estatística e da Inteligência Artificial (AI) com o objetivo específico de descobrir conhecimento novo, que porventura esteja escondido em grandes massas de dados armazenadas em bancos de dados. Rodrigues (2001) explica que a mineração de dados procura uma série de padrões escondidos nos dados, freqüentemente envolvendo uma aplicação iterativa e repetitiva de métodos de mineração de dados. Com o auxílio da mineração de dados, podem-se desenvolver aplicações que mostrem de maneira gráfica informações críticas, com o objetivo de estreitar ainda mais o relacionamento das organizações com seus consumidores finais ou a identificação, também em modo gráfico, de problemas da produção que acabam passando despercebidos. Na fase de interpretação das informações, segundo Rodrigues Filho (2001), a informação extraída é analisada em relação ao objetivo de suporte à decisão do usuário final, sendo as melhores informações identificadas e apresentadas. Dessa forma, o propósito do resultado não é somente visualizar (graficamente ou logicamente) o resultado da fase de mineração de dados, mas também filtrar a informação que será apresentada, eliminando possíveis ruídos que poderão surgir no processo. Exemplos de ruídos são informações do tipo "apenas as vacas pariram" ou "todas as cobaias que vieram a morrer bebiam água", que são consideradas como ruído por serem informações de difícil análise e compreensão pelo usuário, devido ao fato de serem imprecisas. Um exemplo de ruído na área de NVH seria problemas com a transmissão de dados do sensor até o equipamento de aquisição, gerando picos nos gráficos. 3. Uso do processo de KDD para dados de NVH Os automóveis precisam de energia para funcionar, conseqüentemente existia, e existe ainda, uma grande ênfase na descoberta de novas fontes de energia para movê-los. Jee & Jung (2000) cita que não havia grandes preocupações das montadoras com o ruído e vibração que os automóveis produziam. Assim, os automóveis foram se desenvolvendo, até o momento que as diversas montadoras chegaram a um nível muito alto de concorrência, pois, estes fabricam produtos iguais e o que faria que um comprador escolhesse o produto de uma determinada marca e não de um concorrente? Para El-Essawi & Lin (2004) o diferencial é a resposta, o conforto que este produto oferece, ruído baixo ou agradável aos ouvidos, funcionamento preciso e macio. Com estas necessidades, segundo Shaw & Moessen et.al. (2003), criou-se uma área da engenharia mecânica, chamada pela sigla NVH que tem como objetivo, na área automotiva, de eliminar os ruídos e vibração dos automóveis de forma que estes se tornem mais atraentes, seguros e confortáveis. Conforme Jee & Jung (2000) existem diversos sensores que conseguem captar ruídos e vibrações e transformar em pulsos elétricos, estes pulsos elétricos são aquisitados geralmente por um computador que os converte em números decimais em um arquivo no formato texto. 3 XIII SIMPEP - Bauru, SP, Brasil, 6 a 8 de Novembro de 2006 Figura 2 – Foto do equipamento de aquisição - Fonte: Schillemeit & Cucuz(2002) Por exemplo, no equipamento mostrado na figura 2 as aquisições ocorrem normalmente numa freqüência de 1.000 hertz (Hz) sendo 1 Hz, segundo o dicionário Michaelis (2005), uma unidade de medida que equivale a um ciclo por segundo. Conseqüentemente em um segundo de teste aquisita-se 1.000 medidas de som, por exemplo, que são números com precisão de 15 casas decimais, através de um único canal. O número mínimo de canais de aquisição é 16 e máximo de 512, no equipamento mostrado na figura 2. Para se mapear o comportamento acústico de um veículo, por padrão, faz-se uma aquisição de 30 segundos gerando um banco de dados de 30.000 registros para um único canal de aquisição, podendo este número chegar 15.360.000 registros para uma análise completa dos 512 canais possíveis para aquisição. Logo, o volume de dados gerados a partir dessa rodada de testes NVH é muito grande para serem analisados por analistas humanos e muitos detalhes passam despercebidos devido à falta da realização do processo de KDD. Assim o KDD pode se comportar como uma ferramenta computacional direcionada para se extrair mais informações do que apenas alguns relatórios textuais, rotineiros e listagens inertes. Schillemeit & Cucuz (2002) explicam que existe uma grande dificuldade para transformar o grande volume de dados gerados pelos sensores de aquisição de ruído e vibração em um relatório passível de análise por um pesquisador ou engenheiro da área. Daí a necessidades de se construir rotinas para tratamento e análise destes dados. Jönsson & Edström (2001) informam que atualmente existem várias ferramentas para tratamento de dados de NVH, mas, nenhuma delas são ferramentas para uso em uma sala de reunião, por exemplo, principalmente pelo volume de dados necessários para que estas ferramentas funcionem. Há a necessidade de se aplicar à ferramenta de KDD nos dados gerados por estas ferramentas de forma que estes sejam mais legíveis facilitando assim a tomada de decisões. 4. Sistema proposto O sistema exemplo tem a finalidade de propor uma aplicação de uma ferramenta de KDD em dados aquisitado para NVH. O sistema realizará as fases do KDD confeccionando um relatório que normalmente é feito pelos técnicos responsáveis pela análise dos dados aquisitados. O sistema proposto nasceu de uma necessidade em uma empresa automotiva, na qual existia um gargalo com o alto tempo da geração de relatórios para análise de dados para a área de NVH, cerca de 16 horas (ou 2 dias de trabalho). Esse tempo de geração de relatórios atravancava o processo de tratamento de dados do equipamento PROSIG que faz aquisições de ruídos e vibração em bancadas de testes de componentes mecânicos. 4 XIII SIMPEP - Bauru, SP, Brasil, 6 a 8 de Novembro de 2006 Este equipamento possui um software especialista que traduz os dados aquisitados pelos acelerômetros, microfones e tacômetro para um formato que possa ser manipulado por usuários comuns. Koko (2002) cita em seu trabalho que software especialista é um programa de computador criado especificamente para uma finalidade, tornando inviável a utilização deste software para outros fins se não ao que ele foi criado. O software para controle de tornos CNC é um exemplo de software especialista. O software de aquisição de dados do PROSIG cria um arquivo no formato texto (TXT) para registrar as informações registradas pelos sensores. A grande dificuldade é justamente a importação dos arquivos TXT. Além destas operações existem outras como a filtragem e ordenação dos dados, cálculos estatísticos, geração dos relatórios e geração dos gráficos que são feitos todos no Excel em um processo quase que artesanal. Todo este processo gera imperfeições principalmente com relação a dificuldades de não se esquecer de importar para o Excel nenhum dos inúmeros arquivos TXT que são gerados para cada canal e para cada corrida. Por exemplo, em uma configuração comum utiliza-se 120 canais e 15 corridas para se realizar um teste, conseqüentemente serão criados 1800 arquivos TXT para cada teste feito em um equipamento como o mostrado na figura 2. Criou-se um sistema em linguagem Visual Basic Application (VBA) para Excel. O sistema deverá automatizar os processos manuais que o software do equipamento de aquisição não realiza. 5. Funcionamento do sistema O sistema criado é bastante simples de operar, toda a programação foi feita na linguagem nativa do Excel que é a VBA. Um dos sistemas mais utilizados é o de “Runup-down”, que consiste em mapear o comportamento do automóvel em termos de ruído e vibração desde a rotação de 1000 RPM até o regime máximo de rotação do motor, no caso do teste “Runup” ou do nível máximo de rotação até 1000 RPM no caso do “Rundown”. Os dados selecionados, pré-processados e transformados ficam com a aparência mostrada na figura 3 que mostra o resultado do trabalho realizado pelo VBA sobre os dados aquisitados pelo equipamento. Figura 3 – Arquivo em análise gerada pelo sistema, a partir dos arquivos .TXT Na Figura 4, mostra-se um gráfico gerado pelo Excel através da linguagem VBA. O gráfico mostra o comportamento sonoro de um automóvel em um teste de rundown. Neste teste mede-se a porcentagem de audição de uma pessoa em cada faixa de rotação. Analisando 5 XIII SIMPEP - Bauru, SP, Brasil, 6 a 8 de Novembro de 2006 o gráfico verifica-se que a 1000 RPM a pessoa tem uma audição de quase 100% e a 6500 RPM a pessoa tem apenas 40% da sua capacidade de audição em uma conversação, por exemplo. Figura 4: Representação gráfica de uma corrida “Runup” Os cálculos de AI cujos resultados são mostrados nas figuras 3 e 4 eram os mais demorados para serem feitos pelos técnicos e o risco de esquecimentos e falhas era muito alto, torno de 25% dos relatórios deste tipo eram gerados com falhas de importação de arquivos. Hoje as falhas são muito raras e geralmente causadas por falhas do equipamento e não por falha da análise feita pelo VBA. Todo o processo de tratamento de dados foi automatizado em linguagem VBA e implementado no setor de NVH para tratamento dos dados aquisitados com o equipamento PROSIG. Como conseqüência da implementação do sistema, agilizou-se o processo de tratamento de dados para a área de NVH, tornando-a mais competitiva com relação a áreas similares das montadoras concorrentes, obtendo-se ganhos estratégicos com o lançamento de novos modelos mais rapidamente e com maior qualidade. Numericamente verificou-se o aumento da capacidade de realização de testes para NVH em 25% e a capacidade de tratamento de dados em 50%. O tempo de geração dos relatórios que antes era de 16 horas (cerca de 2 dias de trabalho) passou, desse modo, a ser 4 horas (ou seja, meio dia de trabalho), representando um ganho de 75% em termos de tempo. Em conseqüência destas melhorias o tempo gasto para o tratamento de dados foi reduzido e os técnicos podem realizar a instrumentação para o teste com maior qualidade devido ao aumento da disponibilidade de tempo. Eliminaram-se diversos pontos passíveis de falha humana aumentando a qualidade e confiabilidade dos relatórios gerados pela área de NVH. Citem-se, por exemplo, alguns pontos de falha humana: Processo de importação de dados TXT para o formato Excel: por cansaço da rotina de "puxar e colar" a ocorrência de erros aumentava significativamente; Processo de geração de gráficos: montagem desorganizada de gráficos não favorecendo a visualização correta dos dados; Não realização de cálculos que impediam uma abrangência maior do teste. Todas estas falhas humanas foram eliminadas pelo sistema provocando ganhos de qualidade de serviços e economia de recursos financeiros gastos com equipamentos novos e pessoal qualificado. A tela principal do sistema, mostrada na figura 5, é de fácil utilização, permitindo que até 6 XIII SIMPEP - Bauru, SP, Brasil, 6 a 8 de Novembro de 2006 mesmo pessoas leigas consigam operá-lo. Figura 5 – Tela principal do sistema 6. Conclusões Devido aos "apelos da modernidade" do mercado consumidor de veículos, consonante aos avanços tecnológicos e somando-se uma grande quantidade de informação de relacionamento (CRM) disponível, torna-se imprescindível focar em estratégias de produção que atinjam diretamente o desenvolvimento de produtos com atenção e cuidado que um qualificador de pedido merece. Visa-se, então, a criação de uma identidade para o produto relacionando-o com a marca que representa e dirigindo-o para um nicho de mercado de acordo com suas estratégias. Conceitos como conforto, robustez, esportividade, entre outros, podem ser explorados, estudados, testados, realizados a partir de análises NVH. Essas análises podem proporcionar para a engenharia de produto meios de interferir nas características do veículo alterando ou inserindo itens e componentes no seu projeto. A partir desses encaminhamentos surge um montante de informações advindas das análises NVH que precisam ser tratadas, agrupadas, plotadas em gráficos de tendências, para uma visão mais objetiva, clara e precisa, para que a área de engenharia de produto, tenha seus históricos analíticos e os resultados das alterações e intervenções, refazendo-se o ciclo de testes até se atingir um nível satisfatório de conforto acústico e "dirigibilidade" (no sentido de dureza, rigidez, grau de dificuldade de manipular alavancas e comandos do veículo). A ferramenta proposta foi desenvolvida nos moldes do processo de KDD, levando-se em consideração as fases: seleção, pré-processamento e limpeza, transformação. Um grande acréscimo de qualidade foi alcançado com a implementação da ferramenta, permitindo a produção de testes com maior confiabilidade e produtividade de análises. O tempo gasto para geração de relatórios foi minimizado permitindo-se redução de custos sensíveis pela empresa, principalmente com gastos relacionados com o pagamento de técnicos para confeccionar o relatório, que era um processo lento e demorado - numa palavra artesanal. A qualidade dos testes aumentou significativamente, pois, as falhas provocadas pelo stress gerado nas tarefas repetitivas foram eliminadas. Também, a padronização das planilhas e 7 XIII SIMPEP - Bauru, SP, Brasil, 6 a 8 de Novembro de 2006 gráficos gerados pelo VBA facilitou a tarefa de análise das informações pelo engenheiro requisitante do teste. Pelo montante de informações aquisitadas a partir dos sensores de NVH conclui-se que atualmente ainda existe grande necessidade de automação de atividades burocráticas relativas à administração de resultados dos testes, por exemplo: análises diversificadas de dados, laudos técnicos, documentação para homologação de veículos (similar ao habite-se de residências, é como um usa-se para veículos), entre outros. Verifica-se que processos repetitivos poderiam ser realizados por recursos computacionais, permitindo que técnicos e engenheiros ocupem-se mais com tarefas técnicas ao invés de burocráticas, ganhando na qualidade e precisão dos processos de análise e suporte à engenharia de produto. 7. Referências Bibliográficas CARVALHO, L.A.V. Data Mining - A Mineração de Dados no Marketing, Medicina, Economia, Engenharia e Admininstração, 1ª Edição. Rio de Janeiro: Editora Érica, 2000. 234p. EL-ESSAWI M., LIN J. Z., et.al. Analytical Predictions and Correlation With Physical Tests for Potential Buzz, Squeak, and Rattle Regions in a Cockpit Assembly, SAE World Congress Detroit, Michigan March 8-11, 2004 FAYYAD, U., et.al. Information Visualization in Data Mining and Knowledge Discovery, Academic Press, san Diego, CA92101-4495, USA, ISBN 1-55860-689-0, 2002 JEE T., JUNG S. Analysis of Structure-borne Noise and Structural Dynamic Modification, Fisita World Automotive Congress, Seoul, Korea, 2000 KEOGH E., et.al. Towards Parameter-Free Data Mining, KDD '04,Seattle, WA, U.S.A., 2004 KOKO, B. The MSC. Software Simulation Data Management Initiative, Conference Proceedings for the 3rd Worldwide MSC. Software Aerospace Conference & Technology Showcase, April 8th -10 th, 2002. KUSIAK A. Selection of Invariant Objects With a Data-Mining Approach, IEEE transactions on electronics packaging manufacturing, vol. 28, no. 2, april 2005 LINDELL Y., PINKAS B. Privacy Preserving Data Mining, Department of Computer Science Weizmann Institute of Science Rehovot, Israel, 2002 MICHAELIS Moderno Dicionário da Língua Portuguesa, Editora Melhoramentos, 2005 NAVEGA S. Princípios Essenciais do Data Mining, Publicado nos Anais do Infoimagem 2002 RODRIGUES J. A. F. Data Mining: Conceitos, Técnicas e Aplicação, Dissertação para obtenção do título de Mestre em Engenharia -Escola Politécnica da Universidade de São Paulo, 2001. SCHILLEMEIT B. & CUCUZ S. Comparison of Experimental NVH Analysis Techniques on Automotive HVAC Systems, SAE Technical Paper Series, 2002 SHAW C.E., et.al. - A Correlation Study of Computational Techniques to Model Engine Air Induction System Response Including BEM, FEM and 1D Methods, SAE Technical Paper Series, 2003 SOIBELMAN L. et.al. Data Preparation Process for Construction Knowledge Generation Knowledge Discovery in Databases, Journal Of Computing In Civil Engineering, January 2002 through STENTI A., et.al. Dynamic modeling of car door weather seals: A first outline, Proceedings of the SAE Noise & Vibration Conference, Traverse City, Michigan, Paper No. 971921, 2004 ZHANG C. & ZHANG S. An agent-based hybrid framework for database mining, Faculty of InformationTechnology, UTS, Sydney, Australia, 2003 8