Barros_ASB_processo KDD

XIII SIMPEP - Bauru, SP, Brasil, 6 a 8 de Novembro de 2006
Uma discussão sobre a aplicação de processo de KDD e técnicas de
mineração de dados na indústria automobilística
Prof. Adriano Soares de Barros (FATEC) [email protected]
Prof. Dr. Fernando Celso de Campos (UNIMEP) [email protected]
Resumo: Quando se pensa em um carro, a idéia é de um veículo pouco poluente e com
formas alternativas de combustível. A indústria automotiva confirma estas profecias, mas
também dá pistas que os carros serão bastante silenciosos. As montadoras precisam
desenvolver os automóveis velozmente e com qualidade, devido ao alto nível de concorrência
existente, pois existem muitos produtos disponíveis ao consumidor final no mercado
atualmente. Devidas estas necessidades criou-se uma subárea na engenharia mecânica,
chamada pela sigla NVH (Noise/Vibration/Harshness) que tem como objetivo reduzir os
ruídos e vibração dos automóveis. Atualmente existem várias ferramentas para tratamento de
dados gerados pelos testes de NVH, mas, há a necessidade de se aplicar ferramentas como o
KDD (Knowledge Discovery and Data Mining) de forma que o profissional possa analisar e
tomar decisões com maior precisão e rapidez os dados fornecidos pelos equipamentos de
aquisição de dados, proporcionando diferencial competitivo no desenvolvimento de produtos
com relação aos concorrentes. Neste artigo discute-se a viabilidade da criação de uma
ferramenta de KDD para dados de NVH, mostrando um estudo de caso de uma montadora
que obteve ganhos competitivos aplicando fases do processo de KDD sobre o processo de
análise de dados de NVH.
Palavras-chave: Automação; Sensores; Indústria Automotiva.
1. Introdução
Estrategicamente é muito interessante para as montadoras conhecer características dos seus
produtos para que elas possam localizá-lo no mercado consumidor.
O objetivo principal é justamente criar uma identidade para o produto de forma que este se
encaixe com a sua marca. Cada montadora procura dirigir seus produtos para um nicho de
mercado de acordo com suas estratégias.
Uma montadora pode desejar passar uma imagem de conforto, de robustez, de esportividade,
entre outros. De maneira geral, o acerto do automóvel para estas características não é uma
tarefa fácil, principalmente pela necessidade de se fazer muitas medições e testes para que se
possa moldar o veículo para que este apresente as características desejadas.
Uma das principais características para se criar esta identidade do automóvel é o pacote
acústico que ele possui, de forma que o produto possa ser identificado através de seu
funcionamento. Para que isto ocorra muitas medições de ruído e vibração se faz necessárias.
Além disto, estas medições de ruído e vibração evita que um automóvel esportivo, por
exemplo, se torne excessivamente silencioso ou excessivamente macio o que estragaria a
imagem que o produto deseja passar. Por outro lado, o veículo deve respeitar as leis de
trânsito e não possuir ruídos indesejáveis.
Para que este ponto seja alcançado grandes quantidades de informações são aquisitadas por
sensores como microfones e acelerômetros e depois analisadas. O grande volume destas
informações acaba exigindo grandes esforços de analistas para conseguir identificar o ponto
exato em termos de ruído e vibração que se deseja alcançar.
Neste artigo propõe-se que, para facilitar o processo de acerto das características acústicas do
automóvel, utilize-se da ferramenta de KDD (Knowledge Discovery in Databases) que é um
1
XIII SIMPEP - Bauru, SP, Brasil, 6 a 8 de Novembro de 2006
processo que tem como objetivo reduzir o tempo de análise de grandes volumes de dados.
Assim sendo o resultado que se deseja chegar é a redução do tempo de projeto de novos
produtos o que tornaria a montadora mais agressiva diante da concorrência.
2. O Processo de KDD
A descoberta de conhecimento em base de dados (KDD) é o processo de extração de
conhecimento novo, útil e interessante a partir de bases de dados. Este processo tem natureza
iterativa e interativa e é composto por uma série de atividades mostradas na figura 1.
A mineração de dados, por sua vez, pode ser considerada o núcleo do processo de KDD,
consistindo na aplicação de algoritmos de extração de padrões de comportamento e tendências
a partir de dados.
Os padrões extraídos pelo KDD são dados que possuem uma certa semelhança com relação a
algum aspecto, como por exemplo: a divisão dos clientes de um banco em baixo, médio e alto
risco para empréstimos, de acordo com os antecedentes destes clientes.
O processo de KDD vem se tornando mais comum e tendo desdobramentos relevantes em
relação aos processos de tomada de decisão - operacional, gerencial e estratégica. Esses
desdobramentos vêm influenciando na tomada de decisões permitindo que estas decisões se
tornem mais seguras.
Esta segurança é proporcionada por dados estatísticos baseados em experiências anteriores. O
KDD é o responsável por descobrir estes dados estatísticos dentro de bancos de dados
institucionais.
Em sua pesquisa, Carvalho (2000) afirma que o objetivo do processo de KDD é tornar
grandes volumes de dados em padrões compreensíveis às pessoas, visando facilitar uma
melhor interpretação dos dados existentes.
Segundo Zhang et al. (2003), existem 5 fases no processo de KDD, que são organizadas
conforme ilustrado na Figura 1. Estas 5 fases são comentadas a seguir.
Figura 1: Fases do processo de KDD – Fonte:
Adaptado de Carvalho (2000)
Na fase da seleção, busca-se identificar o subconjunto de atributos sobre o qual o KDD deverá
atuar, facilitando o trabalho dos algoritmos responsáveis pela tarefa de organização e
ordenação dos dados.
Os dados utilizados em NVH (noise, vibration and harshness) na área automotiva,
geralmente, se formam devido à necessidade de se registrar o comportamento do veículo
durante as atividades diárias, como por exemplo, atividades de estacionamento, ultrapassagem
e cruzeiro.
Estes dados são coletados por medições feitas pelos sensores, principalmente acelerômetros,
microfones e tacômetro. Nesse contexto, nem todos os dados armazenados podem interessar
ao processo de KDD e, assim, caberá à fase de seleção identificar quais são os dados
relevantes.
Para Rodrigues Filho (2001), a fase de pré-processamento e limpeza corresponde a atividades
que visam gerar uma representação conveniente dos dados. Nesta fase, procura-se fazer as
atividades de conversão dos dados provenientes de diferentes fontes, para que estes possam
2
XIII SIMPEP - Bauru, SP, Brasil, 6 a 8 de Novembro de 2006
ser lidos e processados por um único sistema gerenciador de banco de dados (SGBD).
A fase de transformação é implementada por meio de um processamento dos dados, visando
organizar os dados para facilitar o trabalho realizado pelas fases posteriores do processo de
KDD. Rodrigues Filho (2001) verificou que essa fase pode tomar até 80% do tempo
necessário para todo o processo de análise, devido às dificuldades de integração de bases de
dados com estruturas heterogêneas.
A fase de data mining (ou mineração de dados), conforme Carvalho (2000), trata-se de um
conjunto de técnicas reunidas da Estatística e da Inteligência Artificial (AI) com o objetivo
específico de descobrir conhecimento novo, que porventura esteja escondido em grandes
massas de dados armazenadas em bancos de dados.
Rodrigues (2001) explica que a mineração de dados procura uma série de padrões escondidos
nos dados, freqüentemente envolvendo uma aplicação iterativa e repetitiva de métodos de
mineração de dados. Com o auxílio da mineração de dados, podem-se desenvolver aplicações
que mostrem de maneira gráfica informações críticas, com o objetivo de estreitar ainda mais o
relacionamento das organizações com seus consumidores finais ou a identificação, também
em modo gráfico, de problemas da produção que acabam passando despercebidos.
Na fase de interpretação das informações, segundo Rodrigues Filho (2001), a informação
extraída é analisada em relação ao objetivo de suporte à decisão do usuário final, sendo as
melhores informações identificadas e apresentadas.
Dessa forma, o propósito do resultado não é somente visualizar (graficamente ou
logicamente) o resultado da fase de mineração de dados, mas também filtrar a informação que
será apresentada, eliminando possíveis ruídos que poderão surgir no processo.
Exemplos de ruídos são informações do tipo "apenas as vacas pariram" ou "todas as cobaias
que vieram a morrer bebiam água", que são consideradas como ruído por serem informações
de difícil análise e compreensão pelo usuário, devido ao fato de serem imprecisas.
Um exemplo de ruído na área de NVH seria problemas com a transmissão de dados do sensor
até o equipamento de aquisição, gerando picos nos gráficos.
3. Uso do processo de KDD para dados de NVH
Os automóveis precisam de energia para funcionar, conseqüentemente existia, e existe ainda,
uma grande ênfase na descoberta de novas fontes de energia para movê-los.
Jee & Jung (2000) cita que não havia grandes preocupações das montadoras com o ruído e
vibração que os automóveis produziam.
Assim, os automóveis foram se desenvolvendo, até o momento que as diversas montadoras
chegaram a um nível muito alto de concorrência, pois, estes fabricam produtos iguais e o que
faria que um comprador escolhesse o produto de uma determinada marca e não de um
concorrente?
Para El-Essawi & Lin (2004) o diferencial é a resposta, o conforto que este produto oferece,
ruído baixo ou agradável aos ouvidos, funcionamento preciso e macio.
Com estas necessidades, segundo Shaw & Moessen et.al. (2003), criou-se uma área da
engenharia mecânica, chamada pela sigla NVH que tem como objetivo, na área automotiva,
de eliminar os ruídos e vibração dos automóveis de forma que estes se tornem mais atraentes,
seguros e confortáveis.
Conforme Jee & Jung (2000) existem diversos sensores que conseguem captar ruídos e
vibrações e transformar em pulsos elétricos, estes pulsos elétricos são aquisitados geralmente
por um computador que os converte em números decimais em um arquivo no formato texto.
3
XIII SIMPEP - Bauru, SP, Brasil, 6 a 8 de Novembro de 2006
Figura 2 – Foto do equipamento de aquisição - Fonte:
Schillemeit & Cucuz(2002)
Por exemplo, no equipamento mostrado na figura 2 as aquisições ocorrem normalmente numa
freqüência de 1.000 hertz (Hz) sendo 1 Hz, segundo o dicionário Michaelis (2005), uma
unidade de medida que equivale a um ciclo por segundo.
Conseqüentemente em um segundo de teste aquisita-se 1.000 medidas de som, por exemplo,
que são números com precisão de 15 casas decimais, através de um único canal. O número
mínimo de canais de aquisição é 16 e máximo de 512, no equipamento mostrado na figura 2.
Para se mapear o comportamento acústico de um veículo, por padrão, faz-se uma aquisição de
30 segundos gerando um banco de dados de 30.000 registros para um único canal de
aquisição, podendo este número chegar 15.360.000 registros para uma análise completa dos
512 canais possíveis para aquisição.
Logo, o volume de dados gerados a partir dessa rodada de testes NVH é muito grande para
serem analisados por analistas humanos e muitos detalhes passam despercebidos devido à
falta da realização do processo de KDD.
Assim o KDD pode se comportar como uma ferramenta computacional direcionada para se
extrair mais informações do que apenas alguns relatórios textuais, rotineiros e listagens
inertes.
Schillemeit & Cucuz (2002) explicam que existe uma grande dificuldade para transformar o
grande volume de dados gerados pelos sensores de aquisição de ruído e vibração em um
relatório passível de análise por um pesquisador ou engenheiro da área.
Daí a necessidades de se construir rotinas para tratamento e análise destes dados.
Jönsson & Edström (2001) informam que atualmente existem várias ferramentas para
tratamento de dados de NVH, mas, nenhuma delas são ferramentas para uso em uma sala de
reunião, por exemplo, principalmente pelo volume de dados necessários para que estas
ferramentas funcionem.
Há a necessidade de se aplicar à ferramenta de KDD nos dados gerados por estas ferramentas
de forma que estes sejam mais legíveis facilitando assim a tomada de decisões.
4. Sistema proposto
O sistema exemplo tem a finalidade de propor uma aplicação de uma ferramenta de KDD em
dados aquisitado para NVH. O sistema realizará as fases do KDD confeccionando um
relatório que normalmente é feito pelos técnicos responsáveis pela análise dos dados
aquisitados.
O sistema proposto nasceu de uma necessidade em uma empresa automotiva, na qual existia
um gargalo com o alto tempo da geração de relatórios para análise de dados para a área de
NVH, cerca de 16 horas (ou 2 dias de trabalho).
Esse tempo de geração de relatórios atravancava o processo de tratamento de dados do
equipamento PROSIG que faz aquisições de ruídos e vibração em bancadas de testes de
componentes mecânicos.
4
XIII SIMPEP - Bauru, SP, Brasil, 6 a 8 de Novembro de 2006
Este equipamento possui um software especialista que traduz os dados aquisitados pelos
acelerômetros, microfones e tacômetro para um formato que possa ser manipulado por
usuários comuns.
Koko (2002) cita em seu trabalho que software especialista é um programa de computador
criado especificamente para uma finalidade, tornando inviável a utilização deste software para
outros fins se não ao que ele foi criado. O software para controle de tornos CNC é um
exemplo de software especialista.
O software de aquisição de dados do PROSIG cria um arquivo no formato texto (TXT) para
registrar as informações registradas pelos sensores.
A grande dificuldade é justamente a importação dos arquivos TXT. Além destas operações
existem outras como a filtragem e ordenação dos dados, cálculos estatísticos, geração dos
relatórios e geração dos gráficos que são feitos todos no Excel em um processo quase que
artesanal.
Todo este processo gera imperfeições principalmente com relação a dificuldades de não se
esquecer de importar para o Excel nenhum dos inúmeros arquivos TXT que são gerados para
cada canal e para cada corrida.
Por exemplo, em uma configuração comum utiliza-se 120 canais e 15 corridas para se realizar
um teste, conseqüentemente serão criados 1800 arquivos TXT para cada teste feito em um
equipamento como o mostrado na figura 2.
Criou-se um sistema em linguagem Visual Basic Application (VBA) para Excel. O sistema
deverá automatizar os processos manuais que o software do equipamento de aquisição não
realiza.
5. Funcionamento do sistema
O sistema criado é bastante simples de operar, toda a programação foi feita na linguagem
nativa do Excel que é a VBA.
Um dos sistemas mais utilizados é o de “Runup-down”, que consiste em mapear o
comportamento do automóvel em termos de ruído e vibração desde a rotação de 1000 RPM
até o regime máximo de rotação do motor, no caso do teste “Runup” ou do nível máximo de
rotação até 1000 RPM no caso do “Rundown”.
Os dados selecionados, pré-processados e transformados ficam com a aparência mostrada na
figura 3 que mostra o resultado do trabalho realizado pelo VBA sobre os dados aquisitados
pelo equipamento.
Figura 3 – Arquivo em análise gerada pelo sistema, a partir dos arquivos .TXT
Na Figura 4, mostra-se um gráfico gerado pelo Excel através da linguagem VBA. O
gráfico mostra o comportamento sonoro de um automóvel em um teste de rundown. Neste
teste mede-se a porcentagem de audição de uma pessoa em cada faixa de rotação. Analisando
5
XIII SIMPEP - Bauru, SP, Brasil, 6 a 8 de Novembro de 2006
o gráfico verifica-se que a 1000 RPM a pessoa tem uma audição de quase 100% e a 6500
RPM a pessoa tem apenas 40% da sua capacidade de audição em uma conversação, por
exemplo.
Figura 4: Representação gráfica de uma corrida “Runup”
Os cálculos de AI cujos resultados são mostrados nas figuras 3 e 4 eram os mais demorados
para serem feitos pelos técnicos e o risco de esquecimentos e falhas era muito alto, torno de
25% dos relatórios deste tipo eram gerados com falhas de importação de arquivos. Hoje as
falhas são muito raras e geralmente causadas por falhas do equipamento e não por falha da
análise feita pelo VBA.
Todo o processo de tratamento de dados foi automatizado em linguagem VBA e
implementado no setor de NVH para tratamento dos dados aquisitados com o equipamento
PROSIG.
Como conseqüência da implementação do sistema, agilizou-se o processo de tratamento de
dados para a área de NVH, tornando-a mais competitiva com relação a áreas similares das
montadoras concorrentes, obtendo-se ganhos estratégicos com o lançamento de novos
modelos mais rapidamente e com maior qualidade.
Numericamente verificou-se o aumento da capacidade de realização de testes para NVH em
25% e a capacidade de tratamento de dados em 50%. O tempo de geração dos relatórios que
antes era de 16 horas (cerca de 2 dias de trabalho) passou, desse modo, a ser 4 horas (ou seja,
meio dia de trabalho), representando um ganho de 75% em termos de tempo.
Em conseqüência destas melhorias o tempo gasto para o tratamento de dados foi reduzido e os
técnicos podem realizar a instrumentação para o teste com maior qualidade devido ao
aumento da disponibilidade de tempo.
Eliminaram-se diversos pontos passíveis de falha humana aumentando a qualidade e
confiabilidade dos relatórios gerados pela área de NVH. Citem-se, por exemplo, alguns
pontos de falha humana:
Processo de importação de dados TXT para o formato Excel: por cansaço da rotina de "puxar
e colar" a ocorrência de erros aumentava significativamente;
Processo de geração de gráficos: montagem desorganizada de gráficos não favorecendo a
visualização correta dos dados;
Não realização de cálculos que impediam uma abrangência maior do teste.
Todas estas falhas humanas foram eliminadas pelo sistema provocando ganhos de qualidade
de serviços e economia de recursos financeiros gastos com equipamentos novos e pessoal
qualificado.
A tela principal do sistema, mostrada na figura 5, é de fácil utilização, permitindo que até
6
XIII SIMPEP - Bauru, SP, Brasil, 6 a 8 de Novembro de 2006
mesmo pessoas leigas consigam operá-lo.
Figura 5 – Tela principal do sistema
6. Conclusões
Devido aos "apelos da modernidade" do mercado consumidor de veículos, consonante aos
avanços tecnológicos e somando-se uma grande quantidade de informação de relacionamento
(CRM) disponível, torna-se imprescindível focar em estratégias de produção que atinjam
diretamente o desenvolvimento de produtos com atenção e cuidado que um qualificador de
pedido merece.
Visa-se, então, a criação de uma identidade para o produto relacionando-o com a marca que
representa e dirigindo-o para um nicho de mercado de acordo com suas estratégias.
Conceitos como conforto, robustez, esportividade, entre outros, podem ser explorados,
estudados, testados, realizados a partir de análises NVH.
Essas análises podem proporcionar para a engenharia de produto meios de interferir nas
características do veículo alterando ou inserindo itens e componentes no seu projeto.
A partir desses encaminhamentos surge um montante de informações advindas das análises
NVH que precisam ser tratadas, agrupadas, plotadas em gráficos de tendências, para uma
visão mais objetiva, clara e precisa, para que a área de engenharia de produto, tenha seus
históricos analíticos e os resultados das alterações e intervenções, refazendo-se o ciclo de
testes até se atingir um nível satisfatório de conforto acústico e "dirigibilidade" (no sentido de
dureza, rigidez, grau de dificuldade de manipular alavancas e comandos do veículo).
A ferramenta proposta foi desenvolvida nos moldes do processo de KDD, levando-se em
consideração as fases: seleção, pré-processamento e limpeza, transformação.
Um grande acréscimo de qualidade foi alcançado com a implementação da ferramenta,
permitindo a produção de testes com maior confiabilidade e produtividade de análises.
O tempo gasto para geração de relatórios foi minimizado permitindo-se redução de custos
sensíveis pela empresa, principalmente com gastos relacionados com o pagamento de técnicos
para confeccionar o relatório, que era um processo lento e demorado - numa palavra artesanal.
A qualidade dos testes aumentou significativamente, pois, as falhas provocadas pelo stress
gerado nas tarefas repetitivas foram eliminadas. Também, a padronização das planilhas e
7
XIII SIMPEP - Bauru, SP, Brasil, 6 a 8 de Novembro de 2006
gráficos gerados pelo VBA facilitou a tarefa de análise das informações pelo engenheiro
requisitante do teste.
Pelo montante de informações aquisitadas a partir dos sensores de NVH conclui-se que
atualmente ainda existe grande necessidade de automação de atividades burocráticas relativas
à administração de resultados dos testes, por exemplo: análises diversificadas de dados,
laudos técnicos, documentação para homologação de veículos (similar ao habite-se de
residências, é como um usa-se para veículos), entre outros.
Verifica-se que processos repetitivos poderiam ser realizados por recursos computacionais,
permitindo que técnicos e engenheiros ocupem-se mais com tarefas técnicas ao invés de
burocráticas, ganhando na qualidade e precisão dos processos de análise e suporte à
engenharia de produto.
7. Referências Bibliográficas
CARVALHO, L.A.V. Data Mining - A Mineração de Dados no Marketing, Medicina, Economia,
Engenharia e Admininstração, 1ª Edição. Rio de Janeiro: Editora Érica, 2000. 234p.
EL-ESSAWI M., LIN J. Z., et.al. Analytical Predictions and Correlation With Physical Tests for Potential
Buzz, Squeak, and Rattle Regions in a Cockpit Assembly, SAE World Congress Detroit, Michigan March 8-11,
2004
FAYYAD, U., et.al. Information Visualization in Data Mining and Knowledge Discovery, Academic Press, san
Diego, CA92101-4495, USA, ISBN 1-55860-689-0, 2002
JEE T., JUNG S. Analysis of Structure-borne Noise and Structural Dynamic Modification, Fisita World
Automotive Congress, Seoul, Korea, 2000
KEOGH E., et.al. Towards Parameter-Free Data Mining, KDD '04,Seattle, WA, U.S.A., 2004
KOKO, B. The MSC. Software Simulation Data Management Initiative, Conference Proceedings for the 3rd
Worldwide MSC. Software Aerospace Conference & Technology Showcase, April 8th -10 th, 2002.
KUSIAK A. Selection of Invariant Objects With a Data-Mining Approach, IEEE transactions on electronics
packaging manufacturing, vol. 28, no. 2, april 2005
LINDELL Y., PINKAS B. Privacy Preserving Data Mining, Department of Computer Science Weizmann
Institute of Science Rehovot, Israel, 2002
MICHAELIS Moderno Dicionário da Língua Portuguesa, Editora Melhoramentos, 2005
NAVEGA S. Princípios Essenciais do Data Mining, Publicado nos Anais do Infoimagem 2002
RODRIGUES J. A. F. Data Mining: Conceitos, Técnicas e Aplicação, Dissertação para obtenção do título de
Mestre em Engenharia -Escola Politécnica da Universidade de São Paulo, 2001.
SCHILLEMEIT B. & CUCUZ S. Comparison of Experimental NVH Analysis Techniques on Automotive
HVAC Systems, SAE Technical Paper Series, 2002
SHAW C.E., et.al. - A Correlation Study of Computational Techniques to Model Engine Air Induction
System Response Including BEM, FEM and 1D Methods, SAE Technical Paper Series, 2003
SOIBELMAN L. et.al. Data Preparation Process for Construction Knowledge Generation
Knowledge Discovery in Databases, Journal Of Computing In Civil Engineering, January 2002
through
STENTI A., et.al. Dynamic modeling of car door weather seals: A first outline, Proceedings of the SAE
Noise & Vibration Conference, Traverse City, Michigan, Paper No. 971921, 2004
ZHANG C. & ZHANG S. An agent-based hybrid framework for database mining, Faculty of
InformationTechnology, UTS, Sydney, Australia, 2003
8