RODRIGO LEITE DURÃES VALIDAÇÃO DE MODELOS BASEADOS EM RNA UTILIZANDO ANÁLISE ESTATÍSTICA DE DADOS E LÓGICA FUZZY Belo Horizonte – MG Outubro de 2009 RODRIGO LEITE DURÃES VALIDAÇÃO DE MODELOS BASEADOS EM RNA UTILIZANDO ANÁLISE ESTATÍSTICA DE DADOS E LÓGICA FUZZY Dissertação apresentada ao Curso de Mestrado em Modelagem Matemática e Computacional do Centro Federal de Educação Tecnológica de Minas Gerais, como requisito parcial à obtenção do título de Mestre em Modelagem Matemática e Computacional. Área de concentração: Sistemas Inteligentes Modelagem Matemática e Computacional Orientador: Prof. Dr. Paulo Eduardo Maciel de Almeida CEFET-MG M ESTRADO EM M ODELAGEM M ATEMÁTICA E C OMPUTACIONAL C ENTRO F EDERAL DE E DUCAÇÃO T ECNOLÓGICA DE M INAS G ERAIS D IRETORIA DE P ESQUISA E P ÓS -G RADUAÇÃO Belo Horizonte – MG Outubro de 2009 D947v Durães, Rodrigo Leite, 1978Validação de Modelos Baseados em RNA Utilizando Análise Estatística de Dados e Lógica Fuzzy / Rodrigo Leite Durães - Belo Horizonte: CEFETMG, 2009. 123f. : il. Inclui Bibliografia. Dissertação (Mestrado em Modelagem Matemática e Computacional) - Centro Federal de Educação Tecnológica de Minas Gerais Orientador: Paulo Eduardo Maciel de Almeida. 1 - Inteligência computacional. 2 - Redes neurais artificiais. 3 Lógica fuzzy. 4 - Estatística. I. Almeida, Paulo Eduardo Maciel de II. Centro Federal de Educação Tecnológica de Minas Gerais III. Título CDU 621.7.04 Folha de aprovação. Esta folha será fornecida pelo Programa de Pós-Graduação e deverá substituir esta. Aos meus pais, Sérgio e Idalice. Agradecimentos Agradeço a todas as pessoas que direta e indiretamente contribuíram para a realização deste trabalho. A Deus por ter me dado a saúde e a fé necessários para a conclusão de mais uma jornada. Aos meus pais: Sérgio Alberto Oliveira Durães e Idalice de Magalhães Leite, que tanto me apoiaram nesse processo e em todos os momentos de minha vida. Ao meu orientador Prof. Dr. Paulo Eduardo Maciel de Almeida por ter acreditado em meu trabalho, pelo incentivo, conselhos e críticas, os quais permitiram meu crescimento pessoal e profissional. Ao Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG) por participar, da minha formação acadêmica e pessoal. Aos professores e colegas do Grupo de Pesquisa em Sistemas Inteligentes - GPSI. Ao Laboratório de Sistemas Inteligentes do CEFET-MG (LSI) pelo apoio e infraestrutura fornecidos. À todos os meus professores. Sem eles este trabalho não teria sido possível. Agradeço à direção, coordenação, funcionários e estagiários do Mestrado em Modelagem Matemática e Computacional e da Diretoria de Pesquisa e Pós-Graduação do CEFET-MG. A todos os amigos e colegas que me incentivaram. A todos vocês, meus sinceros agradecimentos. “Se não há troca de idéias, elas se tornam inúteis. Divulgá-las é o que as torna fortes.” Linus Benedict Torvalds Resumo Atualmente, a Inteligência Computacional (IC) e em particular as Redes Neurais Artificiais (RNA) são muito usadas para modelagem de problemas em várias áreas de aplicação. Porém, na maioria dos trabalhos publicados, os autores não se aprofundam na discussão da qualidade estatística dos dados históricos usados para treinamento das RNA. A análise estatística utilizada como ferramenta para validar e melhorar os modelos obtidos com técnicas de IC não é muito abordada pelos trabalhos da área. Este trabalho aplica técnicas estatísticas em conjunto com técnicas de IC para aumentar a qualidade de modelos baseados em IC. Em linhas gerais, objetiva-se demonstrar a importância da qualidade dos dados para o desempenho de modelos que utilizam RNA. Especificamente, é analisado um modelo térmico na produção de aço, é verificada a confiabilidade dos dados, a correlação das variáveis de entrada e saída, entre outros, e filtrados os dados com base na aplicação conjunta de métodos estatísticos e lógica fuzzy. Os resultados obtidos são comparados com técnicas convencionais de pré-processamento de dados para modelagem com RNA para solução do mesmo problema. Mostra-se que a utilização da análise estatística em conjunto com a lógica fuzzy é promissora para o refinamento de modelos baseados em RNA, para a classe de problemas abordada. PALAVRAS-CHAVE: inteligência computacional (IC); redes neurais artificiais (RNA); estatística; lógica fuzzy. Abstract Currently, Computational Intelligence (CI) and in special Artificial Neural Networks (ANN) have been largely used for the modeling of problems applied in several different areas. However, in most of the published work in this field, the authors have not focus on a deeper discussion about the statistical quality of the historical data used on their ANN training. Indeed the statistical analysis which is used as tool to validate and improve the models obtained by CI techniques is not highlighted on the studies of this area. Therefore, this work underlines the application of statistical and CI techniques together, in order to increase the quality of CI models. In summary, the objective of this work is to demonstrate the importance of the data quality to the performance of models that use ANN. In addition, a thermal model is examined when applied on the production of steel. In this application the reliability of the used data, and the correlation of input and output variables are verified, and also data is filtered based on the joint application of statistical methods and fuzzy logic. The achieved results are compared with ANN techniques conventional used to solve the same problem. Finally, it is shown that statistical analysis and fuzzy logic, when applied together, are a promising technique for the refinement of models based on ANN, for the studied problem class. KEY–WORDS: Computational Intelligence (CI); Artificial Neural Networks (ANN); statistics; fuzzy logic. Lista de Figuras 1 Função linear. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33 2 Função tangente sigmoidal. . . . . . . . . . . . . . . . . . . . . . . . . p. 34 3 Função logarítmica sigmoidal. . . . . . . . . . . . . . . . . . . . . . . . p. 34 4 Forma equivalente do teste F. . . . . . . . . . . . . . . . . . . . . . . . p. 55 5 Diagrama de Hassi-Euler: gráfico da função de pertinência fuzzy (ALMEIDA, 2008). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Técnicas de tratamento estatístico propostas e implementadas neste trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 p. 63 p. 67 Técnicas de tratamento estatístico propostas e implementadas neste trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 75 8 Modelo Fuzzy de Sugeno para avaliação da qualidade. . . . . . . . . p. 76 9 Partição fuzzy de entrada CP. . . . . . . . . . . . . . . . . . . . . . . . p. 76 10 Partição fuzzy de entrada CPK. . . . . . . . . . . . . . . . . . . . . . . p. 77 11 Partição fuzzy de entrada IQRnorm. . . . . . . . . . . . . . . . . . . . p. 77 12 Partição fuzzy de saída Qualidade. . . . . . . . . . . . . . . . . . . . . p. 78 13 Representação gráfica de CP, CPK e Qualidade. . . . . . . . . . . . . p. 78 14 Representação gráfica de IQRnorm, CP e Qualidade. . . . . . . . . . p. 79 15 Representação gráfica de IQRnorm, CPK e Qualidade. . . . . . . . . p. 79 16 Sistema Fuzzy de Avaliação da Qualidade. . . . . . . . . . . . . . . . p. 80 17 Separação da base de dados filtrada em amostras. . . . . . . . . . . . p. 82 18 Escolha da RNA e do algoritmo de treinamento. . . . . . . . . . . . . p. 83 19 Treinamento, validação e teste de um modelo neural. . . . . . . . . . . p. 83 20 Gráfico de desempenho dos dados de treinamento de um modelo neural. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 106 21 Gráfico de desempenho dos dados de treinamento de um modelo neural. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 107 Lista de Tabelas 1 Tipos de arquiteturas de RNA (ALMEIDA; SIMOES, 2003). . . . . . . . . p. 32 2 Avaliação da qualidade dos dados . . . . . . . . . . . . . . . . . . . . p. 80 3 Avaliação da qualidade dos dados . . . . . . . . . . . . . . . . . . . . p. 80 4 Experimentos de filtragem de dados: base 1 . . . . . . . . . . . . . . p. 88 5 Experimentos de filtragem de dados: base 2 . . . . . . . . . . . . . . p. 88 6 Experimentos de filtragem de dados: base 3 . . . . . . . . . . . . . . p. 89 7 Experimentos de filtragem de dados: base 4 . . . . . . . . . . . . . . p. 89 8 Experimentos de filtragem de dados com o coeficiente de correlação parcial e PCA: base 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Experimentos de filtragem de dados com o coeficiente de correlação parcial e PCA: base 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 16 p. 93 Experimentos de filtragem de dados com o coeficiente de correlação de Spearman, Pearson, stepwise e PCA: base 3 . . . . . . . . . . . . 15 p. 92 Experimentos de filtragem de dados com o coeficiente de correlação de Spearman, Pearson, stepwise e PCA: base 2 . . . . . . . . . . . . 14 p. 92 Experimentos de filtragem de dados com o coeficiente de correlação de Spearman, Pearson, stepwise e PCA: base 1 . . . . . . . . . . . . 13 p. 91 Experimentos de filtragem de dados com o coeficiente de correlação parcial e PCA: base 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 p. 91 Experimentos de filtragem de dados com o coeficiente de correlação parcial e PCA: base 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 p. 90 p. 93 Experimentos de filtragem de dados com o coeficiente de correlação de Spearman, Pearson, stepwise e PCA: base 4 . . . . . . . . . . . . p. 94 Resultados da RNA: etapa de treinamento relativa à base 3 . . . . . . p. 97 17 Resultados da RNA: etapa de validação relativa à base 3 . . . . . . . p. 97 18 Resultados da RNA: etapa de teste relativa à base 3 . . . . . . . . . . p. 98 19 Resultados da RNA: etapa de treinamento relativa à base 4 . . . . . . p. 98 20 Resultados da RNA: etapa de validação relativa à base 4 . . . . . . . p. 99 21 Resultados da RNA: etapa de teste relativa à base 4 . . . . . . . . . . p. 100 22 Hipóteses alternativas do teste z. . . . . . . . . . . . . . . . . . . . . . p. 104 23 Comparação de resultados. . . . . . . . . . . . . . . . . . . . . . . . . p. 104 Lista de Códigos Fontes 2.1 Regras Fuzzy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 63 2.2 Regras de um modelo Fuzzy. . . . . . . . . . . . . . . . . . . . . . . . p. 63 2.3 Regras de um modelo Fuzzy TSK. . . . . . . . . . . . . . . . . . . . . p. 64 3.1 Código SQL para consulta de inconsistências. . . . . . . . . . . . . . p. 71 3.2 Código SQL para consulta de inconsistências. . . . . . . . . . . . . . p. 71 3.3 Código SQL para redução de dados. . . . . . . . . . . . . . . . . . . . p. 73 3.4 Código SQL para redução de dados. . . . . . . . . . . . . . . . . . . . p. 73 3.5 Código SQL para redução de dados. . . . . . . . . . . . . . . . . . . . p. 73 3.6 Código SQL para seleção de dados válidos. . . . . . . . . . . . . . . . p. 74 A.1 Regras Fuzzy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 120 Lista de Abreviaturas e Siglas AHP - Analytic Hierarchy Process ANCOVA - Análise de Covariância ANFIS - Adaptive Neuro-fuzzy Inference Systems ANOVA - Analise of Variance ARA - Algoritmos para Rank de Atributos ◦ C - Graus Celsius CEFET-MG - Centro Federal de Educação Tecnológica de Minas Gerais CFS - Porcentagem de carbono no fim do sopro CIB - Porcentagem de carbono in blow CMAC - Cerebellar Model Articulation Controller EQM - Erro quadrático médio GPSI - Grupo de Pesquisas em Sistemas Inteligentes GRADCOD - Código do Aço HMTCGU1 - Percentual de Carbono do Gusa (%) HMTMNGU1 - Percentual de Manganês do Gusa (%) HMTPGU1 - Percentual de Fósforo do Gusa (%) HMTSIGU1 - Percentual de Silício do Gusa (%) HMTTEMGU1 - Temperatura do Gusa (o C) HOTMETAL - Quantidade de Gusa (kg) IC - Inteligência Computacional IEQ - Intervalo entre o primeiro quartil e o terceiro quartil IQR - InterQuantile Range kg - Quilograma LANAGE - Idade da Lança de Sopro LIMAMO - Quantidade de Cal Calcítica (kg) LIMDOLAMO - Quantidade de Cal Dolomítica (kg) LM - Levenberg-Marquardt LSI - Laboratório de Sistemas Inteligentes LOGSIG - Função Sigmoidal Unipolar MFe - Minério de ferro MLP - Multi-Layer Perceptron MSE - Mean Squares of Error MST - Mean Squares for Treatments NUMCORRIDA - Número da Corrida Oxig - Oxigênio OXYCUR - Volume de Oxigênio Soprado (m3 ) PCA - Análise de Componentes Principais PURELIN - Função Linear RADBAS - Função de Base Radial RBF - Radial Basis Function (Redes Neurais de Base Radial) RNA - Redes Neurais Artificiais R & R - Repetitividade e Reprodutibilidade SCRTOTAMO - Quantidade Total de Sucata (kg) SQL - Structured Query Language SSE - Error Sum of Squares ou Sum of Squares Errors SST - Total Sum of Squares ou Sum of Squares for Treatments TANSIG - Função Sigmoidal Bipolar TEMACT - Temperatura do Aço (o C) TFS - Temperatura do aço no fim do sopro TIB - Temperatura in blow V & M - Vallourec & Mannesmann do Brasil VESAGE - Idade do Vaso Sumário 1 INTRODUÇÃO p. 20 1.1 RELEVÂNCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20 1.2 ESTADO DA ARTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21 1.3 CARACTERIZAÇÃO DO PROBLEMA . . . . . . . . . . . . . . . . . . p. 26 1.4 MOTIVAÇÃO E OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . p. 27 1.5 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 27 1.6 ORGANIZAÇÃO DA DISSERTAÇÃO . . . . . . . . . . . . . . . . . . . p. 29 2 REFERENCIAL TEÓRICO p. 31 2.1 REDES NEURAIS ARTIFICIAIS . . . . . . . . . . . . . . . . . . . . . p. 31 2.1.1 Redes Multi-Layer Perceptron - MLP . . . . . . . . . . . . . . . p. 32 2.1.1.1 Back-Propagation . . . . . . . . . . . . . . . . . . . . p. 35 2.1.1.2 Algoritmo Levenberg-Marquardt . . . . . . . . . . . . p. 38 2.1.2 Redes de Elman . . . . . . . . . . . . . . . . . . . . . . . . . . p. 38 2.2 ESTATÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 38 2.2.1 Análise de Componentes Principais . . . . . . . . . . . . . . . p. 39 2.2.1.1 Redução de Dimensionalidade . . . . . . . . . . . . . 2.2.1.2 Critérios para Determinação do Número k de Componentes Principais . . . . . . . . . . . . . . . . . . . 2.2.1.3 p. 41 Procedimento 1: Análise de representatividade em relação à variância total . . . . . . . . . . . . . . . . . 2.2.1.4 p. 39 p. 41 Procedimento 2: Análise da qualidade de aproximação da matriz de covariâncias ou correlação . . . . . p. 43 2.2.1.5 Procedimento 3: Análise prática das componentes . p. 44 2.2.1.6 Intervalos de confiança para os autovalores populacionais . . . . . . . . . . . . . . . . . . . . . . . . . . p. 44 2.2.1.7 Inferência sobre a matriz de correlação populacional p. 45 2.2.1.8 Distribuição das componentes principais no caso da 2.2.1.9 distribuição normal multivariada . . . . . . . . . . . . p. 45 Análise de Componentes Principais por Núcleo . . . p. 46 2.2.2 As Medidas de Semelhança . . . . . . . . . . . . . . . . . . . p. 46 Distância de Mahalanobis . . . . . . . . . . . . . . . . p. 46 2.2.3 Correlação por Posto . . . . . . . . . . . . . . . . . . . . . . . p. 48 2.2.4 Correlação Parcial . . . . . . . . . . . . . . . . . . . . . . . . . p. 49 2.2.5 Intervalo entre Q1 e Q3 . . . . . . . . . . . . . . . . . . . . . . p. 49 2.2.6 Teste de Proficiência . . . . . . . . . . . . . . . . . . . . . . . . p. 51 2.2.2.1 2.2.7 Redução de Dados Utilizando Algoritmos para Ranking de Atributos (ARA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 51 2.2.8 Análise de Variância - ANOVA . . . . . . . . . . . . . . . . . . p. 52 2.2.9 Teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 53 2.2.10 Teste Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55 2.2.11 Análise Discriminante . . . . . . . . . . . . . . . . . . . . . . . p. 56 2.2.11.1 Escolha pela análise de variância univariada . . . . . p. 56 2.2.11.2 Método Forward . . . . . . . . . . . . . . . . . . . . . p. 57 2.2.11.3 Método Backward . . . . . . . . . . . . . . . . . . . . p. 57 2.2.11.4 Método Stepwise . . . . . . . . . . . . . . . . . . . . p. 58 2.2.12 Índice de Capacidade (CP ) . . . . . . . . . . . . . . . . . . . p. 59 2.2.13 Índice de Capacidade K (CP K) . . . . . . . . . . . . . . . . . p. 60 2.3 LÓGICA FUZZY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 61 2.3.1 Modelo de Takagi-Sugeno-Kang . . . . . . . . . . . . . . . . . p. 64 2.4 DISCUSSÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 64 3 DETALHAMENTO DA PROPOSTA DE REFINAMENTO DE MODELOS BASEADO EM TÉCNICAS ESTATÍSTICAS p. 66 3.1 CONSIDERAÇÕES INICIAIS . . . . . . . . . . . . . . . . . . . . . . . p. 66 3.2 PROPOSTA GERAL DE REFINAMENTO ESTATÍSTICO . . . . . . . . p. 66 3.3 EXPLORAÇÃO DO ESPAÇO SOLUÇÃO . . . . . . . . . . . . . . . . p. 67 3.4 INSTRUMENTOS DE ANÁLISE E FILTRAGEM DE DADOS . . . . . . p. 69 3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS . . . . . . . . . . . . p. 69 3.5.1 Seleção e Tratamento de Dados . . . . . . . . . . . . . . . . . p. 70 3.6 DISCUSSÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 83 4 EXPERIMENTOS E AVALIAÇÃO DOS RESULTADOS p. 85 4.1 CONSIDERAÇÕES INICIAIS . . . . . . . . . . . . . . . . . . . . . . . p. 85 4.2 POPULAÇÃO E AMOSTRAS . . . . . . . . . . . . . . . . . . . . . . . p. 85 4.3 TRATAMENTO E ANÁLISE DOS DADOS . . . . . . . . . . . . . . . . p. 92 4.4 VALIDAÇÃO DO MODELO . . . . . . . . . . . . . . . . . . . . . . . . p. 100 4.5 COMPARAÇÃO DOS RESULTADOS . . . . . . . . . . . . . . . . . . . p. 104 4.6 LIMITAÇÕES DO MÉTODO . . . . . . . . . . . . . . . . . . . . . . . . p. 105 4.7 DISCUSSÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 108 5 CONCLUSÃO p. 109 5.1 CONTRIBUIÇÕES DESTE TRABALHO . . . . . . . . . . . . . . . . . p. 111 5.2 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . p. 112 Referências p. 113 Apêndice A -- Banco de Conhecimento Fuzzy Empregado p. 120 20 1 INTRODUÇÃO 1.1 RELEVÂNCIA A década de 1990 trouxe um crescente problema de supersaturação de dados ao mundo da ciência, dos negócios e do governo (INMON, 1997), (INMON; WELCH; GLASSEY, 1999) e (KIMBALL, 1996). A capacidade de coletar e armazenar dados excedeu em muito a habilidade de analisar, sintetizar e extrair conhecimento desses dados. Conforme a norma NBR ISO 9001:2000, capacidade é definida como a aptidão de uma organização, sistema ou processo de realizar um produto que irá atender aos requisitos especificados para este produto (NBR ISO 9001, 2000). A preocupação com a qualidade é tão antiga quanto a própria humanidade. Desde que o homem pré-histórico confeccionou o seu primeiro artefato, surgiu a preocupação com a adequação do uso do produto às necessidades de quem o utiliza. Foi somente com a introdução do conceito de produção em massa que a qualidade começou a ser abordada sob uma ótica diferente. A qualidade é o atendimento das necessidades dos clientes de forma constante e consistente (BAPTISTA, 1996), (??) e (RAMOS, 2000). Processos industriais normalmente são caracterizados por inúmeros fenômenos que, se tratados individualmente, não descrevem com precisão a modelagem como um todo, e a interação de vários fenômenos num mesmo processo leva a um alto nível de complexidade de modelagem. Segundo Cunha (2001), os conhecidos problemas de variação dos resultados de qualidade de matérias-primas e do produto adicionam ainda maiores dificuldades de validação de modelos matemáticos para um sistema complexo. Com base na norma NBR ISO 9001:2000, define-se processo como um conjunto de atividades inter-relacionadas ou interativas que transformam insumos (entradas) em produtos (saídas) (NBR ISO 9001, 2000). Quando a complexidade do processo excede um determinado grau, os modelos matemáticos não apenas se tornam intratáveis, como também sua precisão e con- 1.2 ESTADO DA ARTE 21 fiabilidade relativas à realidade física se tornam questionáveis. Porém, as diversas simplificações feitas por causa das limitações físicas, torna contraditório a busca cada vez maior de precisão na modelagem matemática. Como alternativa à modelagem rigorosa de processo tem-se a implantação de redes neurais artificiais. Segundo (MEIRELES; ALMEIDA; SIMOES, 2003), as RNA (redes neurais artificiais) têm se mostrado um campo vasto para pesquisa aplicada. Estas técnicas de simulação têm se mostrado uma importante ferramenta para análise de sistemas complexos. 1.2 ESTADO DA ARTE As RNA, os sistemas fuzzy e as técnicas estatísticas, que serão discutidos no Capítulo 2, vêm hoje sendo utilizados em modelagem e reconhecimento de padrões, dentre outros. A seguir são descritos alguns trabalhos relacionados à aplicação destas técnicas na modelagem de sistemas: No trabalho de Meireles, Almeida e Simoes (2003) é estudado o avanço das pesquisas em RNA e é destacado que o objetivo das mesmas foi progressivamente mudando, da construção de uma máquina que mimetizasse o comportamento do cérebro, para a busca de uma máquina que efetivamente aprendesse. Este trabalho é importante para o entendimento da técnica de RNA. Ribeiro et al. (2005) propõem uma comparação entre duas metodologias, a de RNA e o modelo de regressão (MR), para estimar profundidades batimétricas a partir de imagens. Este trabalho é relevante porque caracteriza as duas metodologias. O trabalho de Fernandes, Navaux e Portugal (1996) possui um duplo objetivo: por um lado, o modelo de RNA é apresentado dando destaque às suas características estatísticas; e, por outro, são apresentados dois exercícios de previsão empíricos nos quais se tenta comparar o desempenho das RNA e do modelo de séries de tempo estrutural, que pertence à classe dos modelos de decomposição em componentes não-observáveis. Os modelos econométricos tradicionais são usados para fornecer uma base inicial para a determinação da arquitetura da RNA. Os resultados mostram que, para as previsões um passo à frente, não é possível discriminar inequivocamente a favor de um dos modelos; contudo, para previsões com horizontes de tempo mais longos, a RNA apresenta maior capacidade preditiva. O trabalho é pertinente porque 1.2 ESTADO DA ARTE 22 mostras as semelhanças entre a estatística e as RNA. Moraes e Silveira (2006) apresentam o processo de gestão de perdas não-técnicas na ELEKTRO, em busca da excelência no desempenho operacional utilizando estudos estatísticos, redes neurais e árvores de decisão. O que contribui para a escolha dos métodos aqui utilizados. Colombo, Guerra e Aguayo (2006) aplicam técnicas e ferramentas de extração automático e inteligente de conhecimento a base de dados relacional na avaliação da qualidade de produtos de software usando diferentes técnicas e ferramentas de: preparação de dados (estatística, teoria da informação), análises inteligente de dados (estatística, visualização de dados, inteligência artificial), sistemas de bases de dados (base de dados relacional, sistema gerenciador de banco de dados). Estas diferentes técnicas auxiliaram na abordagem que foi utilizada. Toyoshima et al. (2003) fizeram um estudo sobre aglomerações industriais brasileiras, mais especificamente, as do Rio Grande do Sul e as de São Paulo, procurando verificar se há diferenças relevantes em relação ao desenvolvimento de municípios que possuem grande concentração em uma ou poucas indústrias, daquelas que diversificam mais a produção industrial ou possuem pouca atividade industrial. Para isso foram utilizadas duas técnicas diferentes de classificação de grupos - a análise multivariada discriminante e a de redes neurais. Estas duas técnicas foram utilizadas. O trabalho de Costa (2009) apresenta uma aplicação da metaheurística Otimização por Enxame de Partículas (Particle Swarm Optimization - PSO) na identificação de pontos influentes em modelos de regressão. Foi utilizada, como função objetivo, a função de sensibilidade de casos gCook(E) que tem comportamento multimodal. A eficiência da metodologia proposta foi testada em conjuntos de dados simulados e em um conjunto com dados observados. Os resultados obtidos mostram que esta metodologia apresenta soluções satisfatórias na identificação de pontos influentes. O trabalho auxiliou no tratamento de dados suspeitos. Nos trabalhos de Zarate, Paoliello e Ribeiro (2003b) e Zarate, Paoliello e Ribeiro (2003a) é aplicada a metodologia KDD (Knowledge Discovery in Databases) utilizando técnicas de clusterização em Data Mining para identificar grupos com condições de operação e características que permita auxiliar nos procedimentos de manutenção de um motor de combustão. Zarate (2003) mostra a aplicação de Data Mining em bases de dados com dados suspeitos. Este trabalho auxiliou na escolha da metodologia aqui aplicada. 1.2 ESTADO DA ARTE 23 No trabalho de Oliveira (2003) é apresentada uma introdução à Descoberta de Conhecimento em Banco de Dados (KDD Knowledge Discovery in Database), desde os conceitos de conhecimento e consciência, surgimento histórico, sua relação com outras áreas próximas ao KDD como DataWarehouse, Aprendizado de Máquina, Agente de Conhecimento, entre outras. Também é discutido o conceito de DataMining, suas etapas e suas mais comuns aplicações. O trabalho é importante porque apresenta técnicas de processamento que são aqui utilizadas. REIS JUNIOR (2005) propôs a modelagem térmica de um processo de laminação de tubos da Vallourec & Mannesmann do Brasil (V&M). Para esta modelagem ele utilizou redes neurais artificiais Fuzzy-CMAC. Este algoritmo de treinamento é um método de gradiente de 1a ordem. A variável de saída da rede era a temperatura. Os erros de generalização obtidos com as redes fuzzy-CMAC e ANFIS (Adaptive Neuro-fuzzy Inference Systems) equivalem respectivamente a 3, 37 % e 3, 78 % da média de temperatura do laminador. Estes valores são próximos aos obtidos no treinamento, que foram: 3, 27 % para rede fuzzy-CMAC e 3, 72 % para rede ANFIS. No entanto, o número de parâmetros utilizado na rede fuzzy-CMAC era menor que da rede ANFIS. Na rede MLP (Multi-Layer Perceptron), o erro de generalização obtido equivale a 7, 53 % da temperatura média do laminador. O valor de EQM (erro quadrático médio) para o treinamento da MLP foi 7 % do valor da temperatura média. O problema apresentado se assemelha ao problema que será modelado. Os trabalhos existentes na área de Inteligência Computacional (IC) demonstram um grande interesse no emprego das técnicas de Redes Neurais Artificiais (RNA) para solução de problemas, porém em todos os trabalhos analisados, o pesquisador apenas comparou as RNA com outros métodos, dentre eles a estatística, sem se aprofundar na discussão de uma possível utilização conjunta destes métodos. A análise estatística de dados utilizada como ferramenta para validar os modelos obtidos é uma área de pesquisa não muito abordada pelos trabalhos de IC. Foi desenvolvido por Cunha (2001) um modelo dinâmico para o processo de refino de aço via redes neurais artificiais. O mesmo utilizou o backpropagation, um algoritmo de treinamento de primeira ordem (a derivada de primeira ordem na equação de atualização dos pesos que fazem conexão entre os neurônios da rede), e alcançou o acerto simultâneo de 73, 3 %. Para a simulação do modelo dinâmico de Cunha (2001) foram consideradas 5.030 bateladas (filtradas de 15.000 bateladas) para treinamento e 200 bateladas para testes. São três conversores a oxigênio trabalhando continuamente, 1.2 ESTADO DA ARTE 24 resultando em aproximadamente 70 bateladas por dia. Cada conversor apresenta um volume de 190 m3 . Em cada batelada o conversor recebe uma carga total (gusa e sucata) de 245 toneladas para produzir 220 toneladas de aço. As variáveis de entrada deste modelo são determinadas a partir da disponibilidade dos dados à época. Desta forma são definidas quatro variáveis de entrada: a temperatura do banho medida pela sublança (TIB - temperatura in blow), a porcentagem de carbono do banho calculado pela temperatura de solidificação, pelo diagrama Fe-C, obtida pela amostra da sublança (CIB - porcentagem de carbono in blow) e as quantidades de minério de ferro (MFe) e de oxigênio (Oxig) determinadas pelo modelo vigente e implementadas pelo operador para o restante do sopro. As variáveis de saída são: a porcentagem de carbono (CFS) e a temperatura do aço (TFS) no período de fim de sopro. A estrutura de rede com a qual Cunha (2001) obteve o melhor resultado para o modelo dinâmico foi uma rede feedforward multicamada, com duas camadas escondidas e topologia 4x9x3x2 e 4x3x3x2. As funções de ativação utilizadas nos cálculos internos dos neurônios são do tipo sigmoidal. Pacianotto (2003) continuou o trabalho de Cunha (2001) usando somente a modelagem dinâmica, ou seja, as saídas da rede que atuam diretamente no processo utilizando um algoritmo de segunda ordem. Sua rede tinha como saídas o carbono e a temperatura no fim de sopro. Foi atingido um percentual de acerto de 97, 5 % dos valores de temperatura e 90, 6 % dos valores de carbono (para valores de carbono próximos a 0, 04 %) nas bateladas processadas. O algoritmo de treinamento utilizado foi o de Levenberg-Marquadt que é de segunda ordem. Ambos os trabalhos são relevantes ao trabalho aqui apresentado. Rocha e Souza (2004) propuseram a modelagem térmica de um processo de laminação de tubos da Vallourec & Mannesmann do Brasil (V&M). Para esta modelagem eles utilizaram redes neurais artificiais MLP e RBF (Radial Basis Function). A variável de saída da rede era a temperatura. Conseguiu-se chegar ao erro percentual de 0, 57% com a rede MLP, considerando a temperatura média de saída igual a 850o . Este trabalho possui relevância ao problema aqui tratado. TECHSTEEL (2007) propôs a modelagem do processo de produção de aço da Vallourec & Mannesmann do Brasil (V&M). Para esta etapa da modelagem foram utilizados: análise do tipo e fonte dos dados disponíveis, condicionamento e avaliação estatística dos dados, determinação das variáveis relevantes para definição do modelo. Esta modelagem auxiliou na avaliação estatística aqui desenvolvida. 1.2 ESTADO DA ARTE 25 Dominguete et al. (2006) apresenta um novo modelo para a estimativa do teor de fósforo para o Convertedor LD da V & M do Brasil utilizando redes neurais. Este modelo auxiliou na construção do modelo aqui descrito. Moreira e Lana (2002) mostra como a geração de escória de aciaria LD pelo método de convertedor com sopro de oxigênio é realizada. Este trabalho foi relevante para a compreensão do problema aqui abordado. Nos trabalhos de Almeida e Simoes (2001), Almeida (2002) e Almeida e Simoes (2003) é proposta a rede CMAC (Cerebellar Model Articulation Controller) Paramétrica (P-CMAC), que não é um algoritmo de aprendizagem, mas sim uma estrutura neural. Esta estrutura estipula como as camadas de uma rede neural devem ser conectadas, mas não utiliza obrigatoriamente um algoritmo de aprendizagem, podendo ser então variado este algoritmo a fim de se obter um resultado satisfatório, levandose em conta tempo de processamento e recursos computacionais necessários a seu funcionamento. Almeida e Simoes (2003) propõe uma rede MLP com o algoritmo de treinamento backpropagation, no mesmo pode-se compreender o modo de operação do algoritmo considerando a descrição feita por eles. Estes trabalhos foram relevantes para a compreensão da técnica de RNA. Araujo (2006) e Araujo (2007) propôs a modelagem de parte de um processo de laminação de tubos de aço da Vallourec & Mannesmann do Brasil (V&M). Para esta modelagem ele utilizou o algoritmo Levemberg-Marquardt (LM) para treinar uma rede neural artificial com arquitetura MLP (Multi-Layer Perceptron). A variável de saída da rede era a temperatura do aço. Os resultados obtidos no treinamento e execução da rede não foram considerados adequados porque as RNA não alcançaram a precisão desejada. Estes trabalhos apresentam semelhanças ao trabalho aqui descrito. (DURÃES; ALMEIDA, 2009a) e (DURÃES; ALMEIDA, 2009b) propõem a utilização de técnicas estatísticas e lógica fuzzy para validar modelos baseados em RNA. Utilizando o modelo fuzzy de Sugeno e as redes MLP, Elman e Cascade-Forward, e tendo como variável de saída a temperatura do aço, os resultados obtidos foram considerados adequados, sendo os mesmos apresentados neste trabalho. 1.3 CARACTERIZAÇÃO DO PROBLEMA 26 1.3 CARACTERIZAÇÃO DO PROBLEMA Este trabalho analisa um problema térmico na produção de aço e verificar a confiabilidade dos dados e a correlação das variáveis de entrada e saída, comparando o resultado da rede neural aplicada na base de dados sem modificações com a rede neural aplicada na base de dados modificada, e também comparar as diversas técnicas estatísticas empregadas na fase de filtragem. O problema em questão surgiu quando Araujo (2008) propôs a modelagem do processo de produção de aço da Vallourec & Mannesmann do Brasil (V&M). Na modelagem foram utilizadas redes neurais artificiais MLP e P-CMAC. A variável de saída da rede era a temperatura do aço. Os resultados obtidos no treinamento e execução da rede não foram considerados adequados porque os erros médios foram superiores à precisão do sensor da V&M que é 20◦ C. A hipótese inicial do presente trabalho é que a base de dados usada por Araujo (2008) para o treinamento do modelo neural é muito ruidosa, portanto, foi proposta uma nova abordagem para tratamento dos dados do problema em questão, um préprocessamento dos dados. Estas bases de dados são uma importante fonte de informação, porém, muitas vezes, não são exploradas dadas às dificuldades inerentes ao grande volume de dados, ultrapassando assim a habilidade técnica e a capacidade humana em sua interpretação (CARVALHO, 2005). Assim, foram utilizadas técnicas estatísticas com o intuito de verificar se as mesmas sanavam esta deficiência da modelagem. Para tanto, foi necessário pesquisar e eliminar as causas assinaláveis que estavam afetando a qualidade dos dados, e, assim, permitir o entendimento das ferramentas que iam ser utilizadas na busca contínua da eliminação dos fatores que comprometem a qualidade do modelo. O contexto deste trabalho é o estudo e a análise de dados durante sua coleta e tratamento nos mais variados níveis. Com o emprego dessa ferramenta, pode-se classificar dados suspeitos e é possível reduzir o número de parâmetros para treinamento das redes. A grande questão é encontrar métodos eficientes para tratar os dados suspeitos, pois estes, por exemplo, podem prejudicar o desempenho dos modelos matemáticos empregados para entender os fenômenos envolvidos. 1.4 MOTIVAÇÃO E OBJETIVOS 27 1.4 MOTIVAÇÃO E OBJETIVOS Para lidar com a supersaturação de dados, se faz necessária uma nova geração de ferramentas inteligentes para extração automatizada de dados e descoberta de conhecimento. Essa necessidade já foi reconhecida por pesquisadores de diversas áreas, inclusive de aprendizado de máquina, estatística, bancos de dados inteligentes, sistemas especialistas, computação neural e visualização de dados (AMOR, 2000), (CARVALHO, 2005), (INMON, 1997), (INMON; WELCH; GLASSEY, 1999), (KIMBALL, 1996), (MENEZES, 2003), (PASSOS; GOLDSCHMIDT, 2005) e (SINGH, 2001). Além disso, é preciso despertar a consciência para o estudo, utilização e difusão destas ferramentas. Assim, o objetivo deste trabalho é demonstrar a importância da qualidade dos dados em um sistema que utiliza RNA. A seguir são apresentados os objetivos específicos deste trabalho: • Aperfeiçoar modelos matemáticos baseados em RNA; • Fazer um estudo comparativo de desempenho entre diferentes arquiteturas de RNA; • Investigar a influência dos parâmetros de treinamento, do tamanho e da composição do conjunto de dados de entrada no desempenho de modelos neurais; • Comparar diversas técnicas de análise de dados suspeitos; • Avaliar os resultados em relação às técnicas tradicionais. Espera-se que o resultado deste trabalho dê a outros pesquisadores a possibilidade de evoluir na construção de sistemas neurais. 1.5 METODOLOGIA O estudo aqui proposto é de natureza analítica e visa organizar e sistematizar os aspectos mais relevantes encontrados no trabalho (GIL, 2000a), (MARCONI; LAKATOS, 2002) e (FRANCA; VASCOCELLOS, 2004). O objetivo intrínseco do trabalho aponta para os aspectos da qualidade do produto e para a qualidade do modelo para fins industriais. 1.5 METODOLOGIA 28 Em relação ao modo de abordagem do problema, a pesquisa é classificada como qualitativa, pois utiliza coleta de dados levantando as condições iniciais relevantes e posteriormente apresentando uma justificativa. É também uma pesquisa quantitativa, pois os resultados serão classificados e analisados (GIL, 2000b), (LAVILLE; DIDONNE, 1977) e (SILVA; MENEZES, 2001). Os objetivos da pesquisa a classificam como exploratória, pois visa investigar o problema com vistas a torná-lo explícito ou a construir hipóteses (BORBA et al., 2004), (CERVO; BERVIAN, 1983) e (DUARTE; FURTADO, 2002). Nesse contexto, a hipótese que a pesquisa pretende comprovar é a seguinte: É possível refinar modelos baseados em RNA a partir da análise estatística dos dados históricos usados para o treinamento das redes? Para alcançar os objetivos propostos, foram percorridos os seguintes passos: • Revisão da literatura: Foi feita uma revisão bibliográfica sobre estatística, RNA, lógica fuzzy e análise estatística; • Exploração do espaço solução: Realização de um estudo abrangente sobre o desenvolvimento de trabalhos de modelagem de processos, com a utilização de RNA, lógica fuzzy e análise estatística. Cada processo, cada etapa, cada produto, requer um trabalho específico e, por isto, é preciso despertar a sensibilidade para a escolha e uso da ferramenta ou conjunto de ferramentas que melhor se adequa ao caso a ser estudado (CAMPOS, 2003), (BAPTISTA, 1996) e (RAMOS, 2000). • Pré-processamento da base de dados: Verificação de inconsistências e ruídos nos dados fornecidos, usando a análise estatística das variáveis. É efetuada uma limpeza independente de domínio, como decisão da estratégia de tratamento de atributos incompletos, remoção de ruído e tratamento de conjuntos não balanceados (CARVALHO, 2005), de modo que o treinamento inicial da rede seja otimizado, eliminando dados dos campos que não agregam informações ao processo. Costuma-se afirmar que esse passo leva cerca de 80 % do tempo total do processo. • Seleção dos dados: Seleção e coleta do conjunto de dados ou variáveis neces- sárias. Para tanto foi utilizado a linguagem de consulta estruturada (SQL) devido à sua simplicidade e facilidade de uso. É necessário que haja bom senso na escolha do valor do tamanho amostral e do número de variáveis a serem medidas, 1.6 ORGANIZAÇÃO DA DISSERTAÇÃO 29 levando-se em consideração o orçamento da pesquisa e a qualidade dos dados que serão obtidos e utilizados na análise final (CAMPOS, 2003), (BAPTISTA, 1996) e (RAMOS, 2000). • Transformação dos dados: Transformação dos dados em um formato apropri- ado. As amostras foram representadas usando arquivos tipo texto. Este padrão possui um ótimo desempenho para exportação e análise de base de dados. Os dados foram arrendondados de forma a garantir uma precisão de até duas casas decimais. Para a realização da análise de forma apropriada, os dados foram normalizados de forma a estabelecer uma unidade padrão para todas as grandezas presentes no banco de dados. A normalização escolhida foi a normalização pela média. A medida de proximidade adotada é a distância de Mahalanobis. • Avaliação da qualidade dos dados: Utilização da lógica fuzzy e das técnicas estatísticas para avaliar a qualidade dos dados. • Definição das RNA e os algoritmos de treinamento: Escolha das RNA e os algoritmos de treinamento utilizados. • Treinamento das RNA: Treinamento das RNA com os dados originais e tratados provenientes do processo de produção de aço da V&M do Brasil; • Realização de testes de validação do modelo obtido: Análise dos resultados dos dados provenientes do processo de aciaria da V&M do Brasil e comparação com base nos estudos feitos na literatura; • Análise dos Resultados da Pesquisa e Discussão: Análise e avaliação dos resultados obtidos. 1.6 ORGANIZAÇÃO DA DISSERTAÇÃO Este trabalho está dividido em cinco Capítulos, sendo que o Capítulo 2 abrange os diversos conteúdos teóricos necessários a um amplo entendimento do objeto de estudo: os conceitos sobre estatística, RNA e lógica fuzzy. O Capítulo 3 apresenta a população e as amostras, os instrumentos de coleta de dados e o tratamento e a análise dos dados provenientes do processo de aciaria da V&M do Brasil e os compara com base nos estudos feitos na literatura. 1.6 ORGANIZAÇÃO DA DISSERTAÇÃO 30 No Capítulo 4, por meio de técnicas predominantemente estatísticas serão analisados e avaliados os resultados do trabalho bem como são apresentadas a eficiência e a eficácia dos métodos propostos. O Capítulo 5 proporciona uma avaliação geral do trabalho desenvolvido, descrevendo as conclusões, bem como as possíveis limitações, além de propor melhorias para as mesmas com as sugestões de trabalhos futuros para a continuidade da pesquisa. 31 2 REFERENCIAL TEÓRICO Este Capítulo descreve as principais técnicas utilizadas. A Seção 2.1 apresenta a teoria das RNA, sua definição, características, aplicações e algoritmos de treinamento. A Seção 2.2 apresenta as técnicas estatísticas utilizadas. A Seção 2.3 descreve a lógica fuzzy e suas aplicações. A Seção 2.4 encerra o capítulo com as discussões finais. 2.1 REDES NEURAIS ARTIFICIAIS As Redes Neurais Artificiais (RNA) são modelos matemáticos que se assemelham às estruturas neurais biológicas e que têm capacidade computacional adquirida por meio de aprendizado e generalização (CARVALHO, 2005). Estruturalmente, uma rede neural consiste em um número de elementos interconectados (chamados neurônios) organizados em camadas. Geralmente constroem superfícies equacionais complexas por meio de interações repetidas, cada instante ajustando os parâmetros que definem a superfície. Cada neurônio geralmente tem um conjunto de pesos que determina como o neurônio avalia a combinação dos sinais de entrada. A entrada para um neurônio pode ser positiva ou negativa. O aprendizado se faz pela modificação dos pesos usados pelo neurônio em acordo com a classificação de erros que foi feita pela rede como um todo. As entradas são geralmente pesadas e normalizadas para produzir um procedimento suave. Assim, uma RNA pode ser definida como um arranjo de neurônios artificiais, na qual pode-se distinguir neurônios de entrada, neurônios internos e neurônios de saída. A forma como estes neurônios estão interconectados define a arquitetura da rede. Estas são em geral de três tipos, a saber conforme a Tabela 1: 2.1 REDES NEURAIS ARTIFICIAIS 32 Tabela 1: Tipos de arquiteturas de RNA (ALMEIDA; SIMOES, 2003). 2.1.1 Redes Multi-Layer Perceptron - MLP Uma arquitetura de rede MLP (Multi-Layer Perceptron) possui as seguintes características: • O fluxo de sinal na rede é unidirecional, da esquerda para a direita, camada a camada; • A rede é do tipo totalmente conectada, qualquer camada da rede está conectada a todas as outras unidades na camada anterior. Não existem conexões entre os neurônios de camadas não adjacentes, e nem conexões entre neurônios em uma mesma camada (ALMEIDA; SIMOES, 2003); • O modelo de cada neurônio da rede inclui uma função de ativação não linear e diferenciável em qualquer ponto; • O processamento realizado por cada neurônio é definido pela combinação dos processamentos realizados pelos neurônios da camada anterior que estão conectados a ele. Segundo Braga, Carvalho e Ludermir (2007) e Carvalho (2005), as redes MLP apresentam um poder computacional muito maior que as redes sem camadas intermediárias. Em um número finito de iterações, uma rede com uma camada oculta consegue aproximar qualquer função contínua, enquanto uma com duas camadas ocultas é capaz de aproximar qualquer função não linear, mesmo que descontínua (ALMEIDA; SIMOES, 2003). 2.1 REDES NEURAIS ARTIFICIAIS 33 A função de ativação representa o efeito que a entrada interna e o estado atual de ativação exercem na definição do próximo estado de ativação da unidade. O grau de ativação é, assim, determinado a partir da excitação externa. Existem várias funções de ativação, mas apenas algumas encontram aplicações práticas relevantes (ALMEIDA; SIMOES, 2003). Neste trabalho são utilizadas as funções linear (Figura 1), tangente sigmoidal (Figura 2) e logarítmica sigmoidal (Figura 3). Figura 1: Função linear. Para definir o número de neurônios da camada oculta usados em um modelo de RNA, é comum o emprego do teorema proposto por Kolmogorov-Nielsen ((TAKAHASHI; RABELO; TEIXEIRA, 2008), (MARTINS et al., 2009), (DORNELLES; PEDROLLO; GOLDENFUM, 2006), (GOMES, 2005), (FERRONATO, 2008) e (STEINER, 2009)): “Dada uma função contínua arbitrária F : [0, 1]m → RM , f(x)=y, ∃∀f , uma imple- mentação exata com uma rede neural de três camadas, sendo a camada de entrada um vetor de dimensão m, a camada oculta composta por 2n+1 neurônios, e a camada de saída com M neurônios, representando as M componentes do vetor y.”. As RNA têm se mostrado um campo vasto para pesquisa aplicada (MEIRELES; ALMEIDA; SIMOES, 2003). Ao contrário do que possa parecer à primeira vista, as RNA têm vários pontos de contato com os modelos estatísticos e econométricos tradicio- 2.1 REDES NEURAIS ARTIFICIAIS Figura 2: Função tangente sigmoidal. Figura 3: Função logarítmica sigmoidal. 34 2.1 REDES NEURAIS ARTIFICIAIS 35 nais. Estas ligações acabam embotadas pelo uso de jargões técnicos distintos. 2.1.1.1 Back-Propagation O algoritmo back - propagation, também conhecido como algoritmo de retropropagação do erro, é um algoritmo de aprendizado supervisionado. Esse algoritmo tem como objetivo minimizar a função de erro entre a saída real e a desejada, utilizando o método do gradiente descendente. As redes neurais feedforward com algoritmo de aprendizagem tipo back - propagation se tornaram muito populares, devido à capacidade de resolver a maioria dos problemas de reconhecimento de padrões (BRAGA; CARVALHO; LUDERMIR, 2007), (HAYKIN, 2007) e (MEDEIROS, 2003). A topologia de uma rede neural não linear, cujo comportamento seja codificado pelo algoritmo back - propagation, é em geral, composta de uma camada de entrada, uma camada de saída e um número arbitrário de camadas intermediárias (BRAGA; CARVALHO; LUDERMIR, 2007). Cada neurônio de uma camada, com exceção da ca- mada de entrada, encontra-se conectado a todos os neurônios presentes na camada imediatamente anterior à sua. A fase de treinamento do algoritmo back - propagation desencadeia duas etapas, para cada padrão de entrada apresentado: processamento para a frente e processamento para trás (HAYKIN, 2007). No processamento para a frente, que é primeira etapa, o fluxo do processamento parte das unidades na camada de entrada em direção às unidades na camada de saída. Nesta etapa, os pesos sinápticos permanecem inalterados. Os neurônios da camada de entrada recebem os valores do padrão de entrada. Em seguida, a função de ativação é aplicada, produzindo a saída de cada neurônio desta camada. Uma vez geradas as saídas dos neurônios da camada de saída da rede, o algoritmo back - propagation inicia a segunda etapa do treinamento para o padrão apresentado. Em geral são duas as condições de parada do treinamento de uma rede back - propagation: um número máximo de iterações definido pelo usuário ou a convergência da rede. Diz-se que uma rede neural converge quando o somatório dos erros dos neurônios da camada de saída atinge um nível de erro aceitável para o problema em questão. A variação do erro permite a estimação do gradiente em cada iteração é um algoritmo que move o vetor de pesos na direção em que a derivada parcial do erro 2.1 REDES NEURAIS ARTIFICIAIS 36 em relação à cada peso é negativa, buscando sempre o ponto de mínimo. Ou seja, considerando-se o erro como uma superfície matemática, a variação dos pesos é sempre na direção de um vale nessa superfície. Quando o gradiente é zero é porque se atingiu um determinado ponto de mínimo, que não necessariamente é o mínimo global. Logo, há diversos enfoques para se escapar de um mínimo local. Porque um mínimo local não é bom? Porque, nesse caso a rede neural ficaria parada sem aceitar novos padrões para treinamento, mesmo que eles fossem necessários para que a rede pudesse generalizar a respeito das relações de entrada e saída (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007). Ao final do treinamento de uma rede, os pesos das conexões entre os neurônios representam o conhecimento descoberto pela rede. Esse conjunto pode então ser utilizado pela rede para processar novos casos e, em função do conhecimento descoberto, apresentar resultados. Uma vez que o conhecimento armazenado pela matriz de pesos de uma rede neural treinada não pode ser interpretado diretamente pelo homem, a qualidade do desempenho dessa rede deve ser avaliada por meio de experimentos a fim de verificar a adequação deste conhecimento na implementação da tarefa desejada (HAYKIN, 2007). Em um processo iterativo como o algoritmo back - propagation, uma questão importante é sobre o critério de parada do treinamento. Em termos absolutos, a solução final ocorrerá para o índice de desempenho (erro global) igual a zero ou dentro de um valor muito pequeno. Todavia, se durante a fase de desenvolvimento o erro não for pequeno e não tiver tendência a diminuir, dois enfoques podem ser adotados (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007): • Limitar o número de iterações, ou seja, o treinamento cessa após ter ocorrido um valor limite, pré-fixado, de épocas de treinamento (sessões de treinamento). • Amostrar e tirar a média de um certo número de épocas, por exemplo, 500 épocas. Se o erro médio do último conjunto de 500 épocas não for melhor que o das 500 anteriores o treinamento deve ser cessado, indicando que um mínimo local foi alcançado. Depois disso, a rede deve estar ainda pronta para ser reutilizada para testes. Se o desempenho não for satisfatório, aos pesos devem ser adicionados um pouco de ruído, para auxiliar a rede a sair do mínimo local. Ou então a rede deveria ser completamente reinicializada. 2.1 REDES NEURAIS ARTIFICIAIS 37 A principal dificuldade no treinamento de redes MLP com o algoritmo back - propagation está relacionada à sua sensibilidade às características da superfície de erro, o que dificulta a sua convergência em regiões de baixo gradiente e de mínimos locais (BRAGA; CARVALHO; LUDERMIR, 2007). Uma forma de minimizar esse problema é considerar efeitos de segunda ordem para o gradiente descendente. Algumas abordagens podem ser utilizadas tanto para acelerar o algoritmo quanto para reduzir os efeitos dos mínimos locais (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007): • Utilizar taxas de aprendizado decrescente; • Utilizar um termo de momento; • Adicionar ruído aos dados. Entre as várias técnicas utilizadas para acelerar o processo de treinamento e evitar mínimos locais, a adição de um termo momento é uma alternativa. A inclusão do termo momento na expressão de ajuste dos pesos proporciona um comportamento análogo à inércia no aprendizado, resultando em um aumento da velocidade de convergência em regiões de descida da superfície de erro, já que o novo ajuste será sempre adicionado a uma parcela do ajuste anterior. Embora esta possa parecer uma solução para o problema de convergência, há uma grande sensibilidade à constante de momento e, dependendo da superfície, pode haver instabilidade no treinamento (HAYKIN, 2007). Outro problema relacionado à convergência do back - propagation é conhecido como flat spot, que ocorre quando a derivada da função sigmoidal de uma unidade se aproxima de zero durante o treinamento (BRAGA; CARVALHO; LUDERMIR, 2007). Esse efeito ocorre porque a derivada da função sigmoidal se aproxima de zero quando a saída do neurônio se aproxima de um dos seus limites de saturação. Como o ajuste de pesos utiliza o valor da derivada, a unidade pode não ter seus pesos ajustados ou ajustá-los com um valor muito pequeno. Existem algumas propostas para superar esse problema, entre elas (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007): • Utilizar uma medida de erro que tenda para infinito quando a derivada da sigmoidal tender para zero. • Adicionar uma constante à derivada, evitando que o erro seja igual a zero. • Utilizar uma função de erro não-linear. 2.2 ESTATÍSTICA 38 2.1.1.2 Algoritmo Levenberg-Marquardt Ao contrário do algoritmo de treinamento back - propagation, que é baseado no método de gradiente descendente, o algoritmo Levenberg-Marquardt é uma aproximação do método de Newton. Ele melhora o método de Gauss-Newton por meio da utilização de uma taxa de aprendizado variável. Proposto para ajuste de pesos da rede por ciclo, o algoritmo de treinamento Levenberg-Marquardt é uma técnica de otimização numérica que demanda uma grande quantidade de memória e elevada complexidade computacional, o que pode tornar sua utilização ineficiente para redes muito grandes (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007). Entretanto, a cada dia computadores com maior capacidade de memória e processamento são lançados no mercado, minimizando essa restrição. 2.1.2 Redes de Elman Elman introduziu memória nas RNA. Nas redes de Elman, além das camadas de entrada, intermediárias e de saída, há também unidades de contexto, como nas redes recorrentes em geral. As camadas de saída são unidades lineares que somam os sinais que recebem. As camadas intermediárias podem ter funções de ativação lineares ou não lineares, e as unidades de contexto são usadas apenas para memorizar as ativações anteriores das camadas intermediárias, podendo ser consideradas como atraso no tempo em um passo. As conexões feedforward são modificáveis, e as conexões recorrentes são fixas, motivo pelo qual a rede de Elman é apenas parcialmente recorrente (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007). Em um primeiro estágio, feedforward, as entradas são propagadas para frente para produzir as saídas. Posteriormente, a rede é treinada com o algoritmo de aprendizagem back - propagation padrão. 2.2 ESTATÍSTICA A Estatística é uma parte da matemática aplicada que fornece métodos para coleta, organização, descrição, análise e interpretação de dados e para utilização dos mesmos na tomada de decisões (BAPTISTA, 1996), (RAMOS, 2000). A Estatística Clássica envolve conceitos como distribuição normal, variância, análise de regressão, desvio simples, análise de conjuntos, análises de discriminantes e 2.2 ESTATÍSTICA 39 intervalos de confiança, todos usados para estudar os dados e os relacionamentos entre eles (FREUND, 2006), (VIEIRA, 1985) e (NEUFELD, 2003). Essas são as pedras fundamentais nas quais as mais avançadas análises estatísticas se apoiam. Ela incorpora um envolvimento muito forte do usuário, exigindo engenheiros experientes, na construção de modelos que descrevem o comportamento de dados por meio dos métodos clássicos da matemática. A seguir são citadas várias técnicas para tratamento de dados suspeitos. As mesmas serão utilizadas na modelagem dos dados de entrada para uso em sistemas que utilizem redes neurais artificiais: 2.2.1 Análise de Componentes Principais Um problema comum em reconhecimento estatístico de padrões é a seleção das características ou extração de características. A seleção de características se refere a um processo no qual um espaço de dados é transformado em um espaço de características que, em teoria, tem exatamente a mesma dimensão que o espaço original de dados (MANLY, 2008), (MINGOTI, 2005) e (HAYKIN, 2007). Entretanto, a transformação é projetada de tal forma que o conjunto de dados pode ser representado por um número reduzido de características efetivas e ainda reter a maioria do conteúdo de informação intrínseco dos dados; em outras palavras, o conjunto de dados sofre uma redução de dimensionalidade. A análise de componentes principais (também conhecida como a transformação de Karhumen-Loève na teoria da comunicação) maximiza a taxa de redução da variância e é, portanto, a escolha correta (MINGOTI, 2005). A análise de componentes principais é uma técnica padrão normalmente utilizada para redução de dados em reconhecimento estatístico de padrões e processamento de sinais. 2.2.1.1 Redução de Dimensionalidade Da perspectiva de reconhecimento estatístico de padrões, o valor prático da análise de componentes principais é que ela fornece uma técnica efetiva para redução de dimensionalidade. Em particular, pode-se reduzir o número de características necessárias para a representação efetiva de dados descartando aquelas combinações lineares que têm variâncias pequenas e retendo apenas aqueles termos que têm variâncias grandes (MANLY, 2008) e (HAYKIN, 2007). 2.2 ESTATÍSTICA 40 Em geral deseja-se obter redução do número de variáveis a serem avaliadas e interpretação das combinações lineares construídas, ou seja, a informação contida nas p-variáveis originais é substituída pela informação contida em k(k < p) componentes principais não correlacionadas. Desta forma, o sistema de variabilidade do vetor aleatório que contém as k componentes principais. A qualidade da aproximação depende do número de componentes mantidas no sistema e pode ser medida através da avaliação da proporção da variância total explicada por essas. Quando a distribuição de probabilidades do vetor aleatório em estudo é normal p-variada, as componentes principais, além de não correlacionadas, são independentes e têm distribuição normal. Entretanto, a suposição de normalidade não é requisito necessário para que a técnica de análise de componentes principais possa ser utilizada. A obtenção das componentes principais envolve a decomposição da matriz de covariâncias do vetor aleatório de interesse. Caso seja feita alguma transformação deste vetor aleatório, as componentes deverão ser determinadas utilizando-se a matriz de covariâncias relativa ao vetor transformado. Uma transformação muito usual é a padronização das variáveis do vetor pelas respectivas médias e desvios padrões, gerando-se novas variáveis centradas em zero e com variâncias iguais a 1. Neste caso, as componentes principais são determinadas a partir da matriz de covariância das variáveis originais padronizadas, o que é equivalente a extrair-se as componentes principais utilizando-se a matriz de correlação das variáveis originais. Uma vez determinadas as componentes principais, os seus valores numéricos, denominados de escores, podem ser calculados para cada elemento amostral. Deste modo, os valores de cada componente podem ser analisados, usando-se técnicas estatísticas usuais como análise de variância, dentre outras. As componentes principais são variáveis aleatórias que não podem ser medidas diretamente, mas observadas apenas a partir da informação do vetor aleatório x. É comum utilizar os escores das componentes para condução de análise estatística de dados ou para a simples ordenação (ranking) dos elementos amostrais observados, com o intuito de identificar aqueles que estão com maiores, ou menores, valores globais das componentes. É importante observar que as componentes principais, obtidas através da matriz de covariâncias, resultam em combinações lineares, cujos coeficientes de ponderação refletem a diferença da variância das variáveis originais além da covariância entre elas. Uma aplicação útil de um analisador de componentes principais é como pré - pro- 2.2 ESTATÍSTICA 41 cessador para uma rede neural supervisionada (por exemplo: um perceptron de múltiplas camadas de back-propagation) (HAYKIN, 2007). Aqui a motivação é acelerar a convergência do processo de aprendizagem retirando a correlação dos dados de entrada. Um procedimento de aprendizagem supervisionada como o de back-propagation se baseia na descida mais íngreme. O processo de convergência nesta forma de aprendizagem é tipicamente lento devido a efeitos interativos de pesos sinápticos de um perceptron de múltiplas camadas sobre o sinal de erro, mesmo com o uso de procedimentos simples de aceleração local como o momento e taxas de aprendizagens adaptativas para pesos individuais. Se, entretanto, as entradas para o perceptron de múltiplas camadas consistirem de componentes não-correlacionadas, então a matriz hessiana da função de custo e(n) em relação aos parâmetros livres da rede é mais proximamente diagonal do que seria no caso contrário. Uma vez que esta forma de diagonalização seja realizada, o uso de procedimentos de aceleração locais simples permitem uma aceleração considerável no processo de convergência, o que se torna possível pelo escalamento apropriado das taxas de aprendizagem ao longo de cada eixo de peso, independente. 2.2.1.2 Critérios para Determinação do Número k de Componentes Principais Quando o vetor aleatório x tem distribuição normal multivariada, é possível construir intervalos de confiança e testes de hipóteses para os autovalores populacionais, assim como fazer inferência sobre a matriz de covariância ou correlação populacionais. Quando o objetivo é a redução da dimensionalidade do espaço amostral, isto é, a sumarização da informação das p-variáveis originais em k componentes principais, k < p, é necessário estabelecer-se critérios de escolha para o valor de componentes, que deverão ser mantidas no sistema. Três procedimentos podem ser utilizados para isso, sendo dois puramente matemáticos e um terceiro que alia o ponto de vista prático. 2.2.1.3 Procedimento 1: Análise de representatividade em relação à variância total Sob este critério, deve-se manter no sistema um número de componentes k que conjuntamente representem uma porcentagem γ 100 % da variância total, onde 0 < 2.2 ESTATÍSTICA 42 γ < 1 é um valor pré-determinado pelo pesquisador. Portanto, na prática, busca-se o valor de k tal que: γ= k X i=1 k X λ̂i (2.1) λˆj j=1 Não há um limite definido para o valor de γ e sua escolha deverá ser feita de acordo com a natureza do fenômeno investigado. Em algumas situações, é possível obter-se uma porcentagem de explicação de variância total acima de 90 % ou 95 % com 1 ou 2 componentes, enquanto que em outras, é necessário um número muito maior. O objetivo, ao se utilizar a técnica de componentes principais, é sumarizar a informação das p-variáveis originais de uma forma simples. Desse modo, a utilidade prática das componentes decresce com o crescimento do número de componentes necessárias para se chegar ao valor escolhido de γ, uma vez que, quanto maior será a dificuldade de interpretação das mesmas. Assim sendo, em alguns casos torna-se necessário trabalhar com porcentagens de explicação abaixo de 90 %. Em geral, quando as componentes principais são extraídas da matriz de correlação, necessita-se de um número maior de componentes para se alcançar o valor de γ, em comparação com o número requerido quando as componentes são extraídas da matriz de covariâncias. Quando a matriz de correlação é utilizada para extração das componentes principais, a variância total é igual ao número de variáveis original p . Assim, um critério que pode ser utilizado para a escolha do valor de k é o de manter no sistema apenas as componentes relacionadas àqueles autovalores λ̂i ≥ 1, ou seja, mantém-se as combinações lineares que conseguem explicar pelo menos a quantidade de variância de uma variável original padronizada. Similarmente, quando a análise é feita com a matriz de covariâncias, pode-se manter no sistema as componentes relacionadas aos autovalores que são maiores ou iguais a λm , definido por: λˆm = p X j=1 p λˆj (2.2) 2.2 ESTATÍSTICA 43 e que representa a variância média das variâncias originais xi , i = 1, 2, ..., p. Um gráfico que pode auxiliar na escolha do valor k é o scree-plot, que mostra os valores numéricos dos autovalores λi de acordo com a respectiva ordem i . Basta observar no gráfico o ponto em que os valores de λi tendem a se aproximar de zero. Componentes oriundas de autovalores iguais a zero sempre podem ser eliminadas do sistema. No entanto, nesses casos aconselha-se que o pesquisador refaça a análise de componentes, usando apenas um número de variáveis iguais ao número de autovalores maiores que zero. 2.2.1.4 Procedimento 2: Análise da qualidade de aproximação da matriz de covariâncias ou correlação A escolha do valor k de componentes determina uma aproximação para a matriz da qual elas foram extraídas. Assim, na prática, quando as componentes são extraídas das matrizes de covariâncias ou de correlação amostrais, tem-se as seguintes aproximações para as matrizes Spxp e Rpxp , respectivamente: Spxp ≈ k X λ̂i eˆi 2′ (2.3) Rpxp ≈ k X λ̂i eˆi 2′ (2.4) i=1 i=1 onde em cada caso, (λ̂i , eˆi ) representam os respectivos autovalores e autovetores normalizados de Spxp e Rpxp . Assim sendo, o valor de k poderia ser escolhido de modo a se ter uma aproximação razoável para as matrizes Spxp ou Rpxp . As parcelas que mais contribuem para a aproximação dessas matrizes são as correspondentes aos autovalores. Significativamente maiores que zero. Assim, as componentes associadas a autovalores pequenos ou próximos a zero poderiam ser eliminadas. É preciso ser cauteloso na análise da qualidade da aproximação, uma vez que um grau de exigência elevado está, geralmente, relacionado com um valor elevado de k , o que não é o desejado. 2.2 ESTATÍSTICA 44 2.2.1.5 Procedimento 3: Análise prática das componentes Para que as componentes possam ser utilizadas adequadamente, o mais indicado é que sejam passíveis de interpretação. Assim, a escolha do valor k pode ser pautada pela natureza prática das componentes encontradas. Eventualmente, pode ocorrer que a componente mais útil sob o ponto de vista prático do pesquisador seja a de ordem 4 , por exemplo. Nesse caso, para que este possa utilizá-la, será necessário manter pelo menos k = 4 componentes principais no sistema. A situação ideal é aquela em que as componentes principais de maior interesse do pesquisador são as de maior explicação relativa à da variância total e levam a um valor pequeno de k , mas isto nem sempre acontece. 2.2.1.6 Intervalos de confiança para os autovalores populacionais Suponha que o vetor aleatório x tenha distribuição normal multivariada. Então, a hipótese de que o autovalor teórico λi seja igual a zero, para algum i fixo, pode ser testada através da construção de intervalos de confiança. Pode ser mostrado que, sob a hipótese de normalidade multivariada do vetor aleatório x , e amostras de tamanhos n grandes, os autovalores estimados λ̂i , i = 1, 2, ..., p são assintoticamente independentes, e com distribuição normal com média igual a λi e variância igual a ( n2 λ2i ). Assim, um intervalo de (1 − α) (100 %) de confiança para λi populacional é dado por: λ̂i r ; r √ √ 1 1 1 + z1−1/2 α 2 1 − z1−1/2 α 2 n n λ̂i (2.5) onde 2(1 − α2 ) é a ordenada da distribuição normal padronizada, cuja área acima é igual a α2 . Um limite inferior do intervalo muito próximo de zero é um indicativo de que a componente principal relacionada àquele autovalor é de pouca importância em termos de sua contribuição na variância total. 2.2 ESTATÍSTICA 45 2.2.1.7 Inferência sobre a matriz de correlação populacional Para que a análise de componentes principais tenha algum sentido, é necessário que as variáveis sejam correlacionadas. Se as matrizes de covariâncias e de correlação forem diagonais, a aplicação desta técnica simplesmente vai devolver, em alguma ordem, as próprias variáveis originais. Sob a suposição de normalidade multivariada, é possível testar se a matriz de covariâncias e de correlação populacionais, o que indica que as variáveis são independentes. 2.2.1.8 Distribuição das componentes principais no caso da distribuição normal multivariada Quando a distribuição do vetor aleatório x é normal p-variada, as componentes principais têm distribuição normal e são independentes. Individualmente, cada componente tem distribuição normal univariada, pois é uma combinação linear de variáveis aleatórias com distribuição normal. Conjuntamente, as p componentes terão distribuição normal p-variada com matriz de covariâncias dadas por: λpxp = 0 λ1 λ2 0 λp (2.6) Isto faz com que a técnica de análise de componentes principais possa também ser utilizada como um mecanismo de verificação da suposição de normalidade multivariada do vetor aleatório x = (x1 x2 ...xp )′ . Se for possível, demonstrar, através de testes de hipóteses para verificação de normalidade, que as componentes principais separadamente seguem uma distribuição normal univariada, se terá a indicação de que o vetor x , provavelmente, também segue uma distribuição normal p-variada. Apenas as observações completas são utilizadas na análise. Assim, se por exemplo, houver n observações amostrais e p-variáveis e, por algum motivo, o valor de uma dessas variáveis for perdido (missing) para um elemento amostral, esse elemento será automaticamente desconsiderado, e a análise de componentes principais será feita 2.2 ESTATÍSTICA 46 com base em apenas (n − 1) dados amostrais. Os resultados, portanto, podem não ser confiáveis, caso haja uma quantidade considerável de valores omissos. A análise de componentes principais pode também ser utilizada como um método de seleção de variáveis. Por exemplo, se o pesquisador mediu p = 20 variáveis e dessas deseja selecionar as 10 mais importantes, ele poderá analisar as componentes seqüencialmente, observando, em cada uma delas, as variáveis que aparecem com maiores coeficientes, em valor absoluto. De cada componente yi , o pesquisador pode selecionar mi variáveis até obter as 10 desejadas, ou seja, M X mi = 10 (2.7) i=1 onde M representa o número de variáveis desejado. 2.2.1.9 Análise de Componentes Principais por Núcleo Nesta forma de PCA (Análise de Componentes Principais) a computação é realizada em um espaço de características que é não linearmente relacionado com o espaço de entrada (MANLY, 2008) e (MINGOTI, 2005). O espaço de características é definido por um núcleo de produto interno. Devido à relação não-linear entre o espaço de características, a ela é não-linear. Entretanto, ao contrário de outras formas de PCA não-lineares, sua implementação se baseia na álgebra linear (HAYKIN, 2007). Ela é uma extensão natural da PCA ordinária. Nela todas as propriedades da PCA ordinária continuam valendo. Em particular, ela é linear no espaço de entrada. Assim, ela pode ser aplicada a todos aqueles domínios nos quais a PCA ordinária tem sido usada para extração de características ou redução de dados, para os quais a extensão não-linear faça sentido. 2.2.2 As Medidas de Semelhança 2.2.2.1 Distância de Mahalanobis Uma medida que leva em consideração as correlações entre variáveis é a distância de Mahalanobis. Para agregamentos normalmente distribuídos a distância de Mahala- 2.2 ESTATÍSTICA 47 nobis, em geral, é utilizada (CAMPOS, 2001), (DWINNELL, 2008), (MANLY, 2008) e (UBA; DUTRA, 2008). Pontos com maior alavancagem têm maior influência nos coeficientes de regressão e têm maior distância de Mahalanobis. A distância de Mahalanobis pode ser utilizada para medir a distância entre classes de padrões. Isso pode ser feito por meio da soma ou da média da distância entre todos os padrões de duas classes diferentes (CAMPOS, 2001), (DWINNELL, 2008), (MANLY, 2008) e (UBA; DUTRA, 2008). Uma distância de Mahalanobis é também usada para medir a distância de uma única observação multivariada ao centro da população da qual veio a observação. Considere que ui e uj representem os valores médios dos vetores xi e xj respectivamente. Isto é, ui = E[xi ] (2.8) na qual E é o operador estatístico esperado. O vetor médio uj é definido de forma similar. Como uma medida de distância entre essas duas populações, pode-se utilizar a distância de Mahalanobis representada por dij . O quadrado do valor dessa distância de xi para xj é definido por: d2ij na qual P−1 T = (xi − ui ) −1 X (xj − uj ) é a inversa da matriz de covariância P (2.9) . Assume-se que a matriz de covariância é a mesma para ambas as populações, como mostrado por: X = E[(xi − ui )(xi − ui )T ] (2.10) X = E[(xj − uj )(xj − uj )T ] (2.11) Para o caso especial quando xj = xi , ui = u e P = I é a matriz identidade, a distância de Mahalanobis se reduz à distância euclidiana entre o vetor de amostra xi 2.2 ESTATÍSTICA 48 e o vetor de média u. 2.2.3 Correlação por Posto Como o teste de significância de r é baseado em suposições bastante restritivas, às vezes recorre-se a uma alternativa não-paramétrica que pode ser aplicada sob condições bem mais gerais. Este teste da hipótese nula sem correlação é baseado no coeficiente de correlação por posto, muitas vezes denominado coeficiente de correlação por posto de Spearman, e denotado por rs (FREUND, 2006). Para calcular o coeficiente de correlação por posto para um conjunto de pares de dados, primeiro ordena-se os x entre si em ordem crescente ou decrescente; em seguida ordena-se os y da mesma maneira, encontra-se a soma dos quadrados das diferenças, d , entre os postos dos x e dos y , e substitui na fórmula rs = 1 − 6 X Sd 2 n (n2 − 1) (2.12) na qual n é o número de pares de x e y. Quando há empates, procede-se atribuindo a cada uma das observações empatadas a média dos postos que elas ocupam conjuntamente. Quando não há empates, rs é efetivamente igual ao coeficiente de correlação r calculado para os dois conjuntos de postos; quando existem empates, pode haver uma pequena diferença (que, em geral, é desprezível). É fácil ver, trabalhando com postos em lugar dos dados originais, perde-se alguma informação, mas isso geralmente é compensado pela facilidade do cálculo do coeficiente de correlação por posto. A principal vantagem em utilizar rs é que se pode testar a hipótese nula de não haver qualquer correlação sem ter de fazer quaisquer suposições sobre as populações amostradas (FREUND, 2006). Sob a hipótese nula de não haver qualquer correlação na realidade, a hipótese nula de que os x e os y estejam aleatoriamente emparelhados - a distribuição amostral de rs tem a média 0 e o desvio-padrão σrs = √ 1 n−1 (2.13) 2.2 ESTATÍSTICA 49 como essa distribuição pode ser aproximada por uma distribuição normal mesmo para valores relativamente pequenos de n, baseia-se o teste da hipótese nula na estatística que aproximadamente a distribuição normal padrão. Estatística para testar a significância de rs z = rs 2.2.4 √ n−1 (2.14) Correlação Parcial A estatística denominada coeficiente de correlação parcial desempenha satisfatoriamente a função de eliminar os efeitos de outras variáveis (FREUND, 2006), (CAMPOS, 2003), (LAPPONI, 2005) e (NEUFELD, 2003). rxy, z = √ 2.2.5 rxy − rxz ryz p 1 − rxz 2 1 − ryz 2 (2.15) Intervalo entre Q1 e Q3 Para evitar a possibilidade de indução ao erro por algum valor extremo (muito pequeno ou muito grande), pode ser recomendável omitir um tal dado suspeito, ou então usar uma outra medida estatística que não a média. Talvez a mediana que, não é tão sensível a um dado suspeito como a média (CAMPOS, 2003). Uma estratégia para tratar dados suspeitos e outras irregularidades é utilizar métodos numéricos resistentes que pouco são afetados pelos dados suspeitos. O primeiro quartil, a mediana e o terceiro quartil avaliam a forma da parte central e a variabilidade da distribuição de frequência da amostra. Uma das aplicações do IEQ (intervalo entre o primeiro quartil e o terceiro quartil, também denominado IQR - InterQuantile Range) é a detecção de valores suspeitos de uma variável. Embora o IEQ ajude a retirar um dado suspeito da amostra por considerá-lo suspeito, essa decisão deve ser acompanhada de um criterioso julgamento (LAPPONI, 2005), (BORGES, 2006) e (R Development Core Team, 2008). O valor x de uma variável é considerado possível suspeito se estiver no intervalo Q1 − 3IEQ < x < Q1 − 1, 5IEQ ou no intervalo Q3 + 1, 5IEQ < x < Q3 + 3IEQ. 2.2 ESTATÍSTICA 50 O valor de x de uma variável é considerado suspeito se x < Q1 − 3IEQ ou x > Q3 + 3IEQ. Sendo que IEQ = Q3 − Q1 . A detecção de dados suspeitos não é um processo trivial. Uma técnica utilizada é a inspeção visual, válida até 3 dimensões, além da visual, existem também técnicas de análise exploratória para dados multivariados, por exemplo, o teste de Hotelling (BORGES, 2006). O boxplot é uma forma gráfica para mostrar os possíveis dados suspeitos. Estudos de repetitividade e reprodutibilidade (R&R) determinam quanto da variação observada do processo é devida à variação do sistema de medição, verificando a sua adequação. O gráfico sequencial auxilia na detecção de padrões nos conjuntos de dados. Então, uma questão é feita: Fazendo um gráfico sequencial para amostras univariadas, pode-se constatar alguma tendência? Para responder a esta pergunta primeiro é preciso saber o que pode produzir dados suspeitos (LAPPONI, 2005): • Erros de medição; • Valores default assumidos durante o preenchimento de uma base de dados, po- dem corresponder a valores reais mas pertencentes a uma base de dados desbalanceada. As características do IEQ são (LAPPONI, 2005): • É uma medida simples, fácil de ser calculada e automatizada. • Mede a distribuição da metade dos dados da amostra situados ao redor da mediana. • É uma medida resistente, pois não é afetado pelos dados extremos da amostra ou variável. Contudo essa medida não é suficiente para avaliar a variabilidade de uma amostra ou variável, pois envolve apenas os valores centrais, deixando de considerar os valores extremos que também são importantes, os restantes 50% dos dados (BORGES, 2006). 2.2 ESTATÍSTICA 2.2.6 51 Teste de Proficiência O IQRnorm, significa o intervalo interquartil normalizado calculado da seguinte forma (IUPAC; ISO; AOAC, 2004) e (BORGES, 2006): IQR norm = 0.7413 Q3 − 0.7413 Q1 (2.16) A interpretação do z-score é apresentada a seguir (IUPAC; ISO; AOAC, 2004) e (BORGES, 2006): • z < 2 Resultado satisfatório • 2 < z < 3 Resultado questionável • z > 3 Resultado insatisfatório zi = yi − Md IQRnorm (2.17) na qual M d representa o valor da mediana, yi o resultado i. 2.2.7 Redução de Dados Utilizando Algoritmos para Ranking de Atributos (ARA) As médias e a variância podem indicar se um atributo é relevante na distinção de duas classes ou não. Caso os dados apresentem uma distribuição normal, a relevância dos atributos pode ser avaliada pela variância. Caso o atributo não ajude a separar as classes este possui pouca relevância para o problema em questão. LimiarI = x̄(A) − 2 σ(A) (2.18) LimiarS = x̄(A) + 2 σ(A) (2.19) 2.2 ESTATÍSTICA 52 Considerando dois atributos x1 e x2 , neles x2 representa uma classificação A ou B e x1 contendo n1 exemplos da classe A e n2 exemplos da classe B. É possível determinar se o atributo x1 contribui para a distinção das classes. Ou seja, se as médias estão próximas ou muito distantes (OLIVEIRA, 2003), (CIOS; KURGAN, 2003), (ZARATE, 2003), (ZARATE; PAOLIELLO; RIBEIRO, 2003b) e (ZARATE; PAOLIELLO; RIBEIRO, 2003a). Existem autores que utilizam o critério de +3 ou -3 desvios padroni- zados, para avaliar a existência de candidatos à dado suspeito (UFPR, 2008). Nestes casos é comum tomar como medida da capacidade de um processo a dispersão de seis-sigma na distribuição da característica da qualidade do produto, que é representada por: x̄ ± 3 σ e é comumente chamada de faixa característica do processo. A capacidade do processo é avaliada por meio da comparação da faixa característica do processo com a faixa de especificação determinada pelo cliente. δ(A − B) = r σ 2 (A) σ 2 (B) + n1 n2 x̄(A) − x̄(B) − LimiarI teste1 = δ(A − B) x̄(A) − x̄(B) − LimiarS teste2 = δ(A − B) (2.20) (2.21) (2.22) Nestes dois testes o valor deve ser positivo para o atributo x1 contribuir com a distinção das classes (OLIVEIRA, 2003), (CIOS; KURGAN, 2003), (ZARATE, 2003), (ZARATE; PAOLIELLO; RIBEIRO, 2003b) e (ZARATE; PAOLIELLO; RIBEIRO, 2003a). 2.2.8 Análise de Variância - ANOVA O objetivo da análise de variância (ANOVA) é avaliar se as diferenças observadas entre as médias das amostras são estatisticamente significantes. Uma análise de variância expressa uma medida da variação total num conjunto de dados como uma soma de termos, cada um dos quais é atribuído a uma fonte ou causa específica de variação (FREUND, 2006), (CAMPOS, 2003), (LAPPONI, 2005) e 2.2 ESTATÍSTICA 53 (NEUFELD, 2003). Para poder aplicar o procedimento de análise de variância, algumas condições precisam ser cumpridas (FREUND, 2006), (CAMPOS, 2003), (LAPPONI, 2005) e (NEUFELD, 2003): • As amostras devem ser extraídas de populações que tenham distribuições normais; • As amostras devem ser aleatórias e independentes; • As populações devem ter a mesma variância. O teste de hipóteses da análise de variância é estabelecido como (FREUND, 2006), (CAMPOS, 2003), (LAPPONI, 2005) e (NEUFELD, 2003): • A hipótese nula H0 afirma que as K populações têm a mesma média. • A hipótese alternativa H1 afirma que nem todas as médias das K populações são iguais. Os testes propostos podem ser de origem qualitativa ou quantitativa, mas a variável dependente necessariamente deverá ser contínua. 2.2.9 Teste F O teste F é um teste de hipóteses utilizado para verificar se as variâncias das duas populações são diferentes, ou para verificar qual das duas populações com distribuição normal têm mais variabilidade. De outra maneira, conhecida duas amostras com qualquer tamanho, o teste F dá condições para determinar se as duas amostras pertencem à mesma população. O procedimento estatístico é o seguinte (FREUND, 2006), (CAMPOS, 2003), (LAPPONI, 2005) e (NEUFELD, 2003): • De duas populações com distribuição normal são retiradas duas amostras aleatórias com variâncias σ12 e σ22 . • O teste tem as hipóteses: H0 : σ12 = σ22 , e H1 : σ12 > σ22 . Essas hipóteses podem ser reescritas como: H0 : σ12 σ22 = 1 e H1 : σ12 σ22 >1 2.2 ESTATÍSTICA 54 • Se as variâncias das populações não forem conhecidas, as variâncias das amostras deverão ser utilizadas, pois são as melhores estimativas das respectivas variâncias das populações. Com as variâncias será calculado o F observado Fo = S1 2 S2 2 (2.23) • Como regra, a variância do numerador de Fo deve ser a da amostra que tiver maior variância, pois com essa escolha, Fo sempre será maior do que 1 e, consequentemente, somente será utilizada a cauda superior da distribuição F. A partir desse momento o índice um sempre identificará a amostra com maior variância. • Se n1 e n2 forem os tamanhos das amostras aleatórias retiradas das populações, a distribuição F terá v1 = n1 − 1 graus de liberdade do numerador e v2 = n2 − 1 graus de liberdade do denominador. • Com o nível de significância α e os graus de liberdade, do numerador e do denominador, será obtido o F crítico Fc . • Comparando o F observado Fo e o F crítico Fc : Se Fo > Fc , a hipótese nula deverá ser rejeitada; caso contrário, a hipótese nula será aceita. • Comparando o p − value = P (Fc ≥ Fo ) e o nível de significância adotado α: Se p−value < α, a hipótese nula deve ser rejeitada; caso contrário, se p−value < α, a hipótese nula deverá ser aceita. A forma equivalente de anunciar a conclusão do teste de hipóteses aplicando a distribuição F é mostrada na Figura 4 (FREUND, 2006), (CAMPOS, 2003), (LAPPONI, 2005) e (NEUFELD, 2003): Além disso, as principais características da distribuição F são (FREUND, 2006), (CAMPOS, 2003), (LAPPONI, 2005) e (NEUFELD, 2003): • A distribuição F é contínua e sempre positiva com valores no intervalo (0, +∞). A distribuição F tem inclinação positiva. • Há uma família de distribuições F identificadas por dois parâmetros, graus de liberdade do numerador v1 e graus de liberdade do denominador v2 . A forma final da distribuição depende dos graus de liberdade v1 e v2 . 2.2 ESTATÍSTICA 55 Figura 4: Forma equivalente do teste F. 2.2.10 Teste Cochran Um teste muito simples e de fácil execução, para verificar a homogeneidade das variâncias, é o teste de Cochran - que consiste em calcular todas as variâncias envolvidas no experimento e dividir a maior delas pela soma de todas (MARANHA et al., 2006). O valor resultante da divisão é então comparado com os valores críticos, que leva em conta o número de variâncias envolvidas e o número de graus de liberdade utilizado nos cálculos. É uma extensão da prova de McNemar (NASCIMENTO; CARVALHO, 2001). O teste descrito por Cochran pode ser usado quando se deseja decidir se uma estimativa de variância é excessivamente grande ou não, em comparação com um grupo (CONAGIN et al., 1993). O Teste de Cochran se aplica apenas quando todos os desvios-padrões forem obtidos a partir de um mesmo número de resultados em condições de repetitividade. O teste consiste em calcular C Cochran e comparar com C Cochran crítico. Se a repetitividade das medidas é independente do valor da concentração, esta condição de variância uniforme é chamada homocedástica, e quando não uniforme, heterocedástica (TAVARES, 2008). Talvez a única dificuldade na execução desse teste seja decidir quais variâncias testar (CAMPOS, 2000). 2.2 ESTATÍSTICA 56 Este procedimento é baseado no critério de máxima variância de Cochran. Dado um conjunto de p com desvios padrão Si (i = 1, 2, ..., p) todos computados com o mesmo número de repetições n, o critério de Cochran é dado por (SANTOS; DIAS; SILVA, 2007) e (JCOlivieri Consultoria, 2008) e (FUNARBE, 2008): Ccalculado = S2 p X Si2 (2.24) i=1 na qual, S 2 = maior variância Si2 = variância a ser verificada Se o valor calculado da razão for maior que o valor crítico, a variância em questão é considerada como sendo dado suspeito (BORGES, 2006). O teste de Cochran é um teste diferente porque nele é de interesse que o valor calculado seja menor do que o valor crítico, e não maior como ocorre na maioria dos testes estatísticos, pois é exatamente isso que indica que as variâncias são homogêneas (FONSECA; SANTOS, 2004). De fato, se o valor calculado fosse maior, o resultado seria significante, o que negaria a hipótese de igualdade (ou de homogeneidade) das variâncias envolvidas no experimento. 2.2.11 Análise Discriminante 2.2.11.1 Escolha pela análise de variância univariada Neste procedimento, uma comparação é feita através de análise de variância entre os vários grupos que estão sendo considerados com respeito a cada variável, separadamente. Aquelas variáveis com valores da estatística F mais significativos estão relacionadas às variáveis mais importantes para a discriminação dos grupos. Este procedimento tem o inconveniente de analisar o efeito de cada variável individualmente, não levando em consideração a correlação que as variáveis têm entre si. 2.2 ESTATÍSTICA 57 2.2.11.2 Método Forward Esse método é similar ao utilizado em análise de regressão linear múltipla (STEINER, 2008). No primeiro passo do algoritmo, ajusta-se uma análise de variância para cada uma das p-variáveis candidatas a entrar no modelo separadamente. Dentre as variáveis significativas, dá entrada no modelo de discriminação aquela de maior significância, ou seja, a de maior poder para discriminação dos grupos. Se não houver qualquer variável significativa, o algoritmo é interrompido. Supondo-se que uma variável tenha dado entrada no modelo, no primeiro passo do algoritmo, o procedimento forward prossegue na busca de uma nova variável significativa. Para isto, um modelo ANCOVA (Análise de Covariância) é ajustado, considerando-se a variável candidata a entrar como resposta e aquela que já entrou no primeiro passo como explicativa (covariável). Isto é feito para todas as variáveis candidatas e, dentre as mais significativas, escolhe-se a de maior significância para entrar no modelo. No terceiro passo, um modelo ANCOVA é ajustado para cada uma das candidatas restantes, considerando-se as variáveis que entraram nos passos 1 e 2 como explicativas. Este procedimento é repetido até que não haja mais variáveis significativas para dar entrada no modelo. 2.2.11.3 Método Backward O método backward se inicia considerando todas as variáveis candidatas à discriminação como parte de um único modelo de regressão. A partir daí, testa-se a significância de cada variável, eliminando-se, dentre as não significativas, aquela de menor significância, ou seja, a de menor poder de discriminação. A decisão sobre a eliminação ou não da variável é tratada como a variável-resposta e as (p − 1) variáveis restantes como explicativas (covariáveis). A estatística F é calculada para cada variá- vel e, se o valor de F observado for menor que o valor F de referência escolhido para a saída de variáveis, ela será candidata a sair. Em cada passo do algoritmo sai a variável de menor significância. Se uma variável for removida, o procedimento backward prossegue buscando uma segunda variável para remoção, o que é feito novamente através do ajuste de um modelo ANCOVA para cada uma das (p − 1) variáveis sepa- radamente, considerando-a como variável-resposta em função das (p − 2) variáveis restantes. Este procedimento é repetido até que não haja mais variáveis para serem removidas do modelo. 2.2 ESTATÍSTICA 58 2.2.11.4 Método Stepwise Este método é uma combinação dos procedimentos forward e backward. Neste procedimento, as variáveis dão entrada no modelo uma a uma, de acordo com o valor de F parcial de entrada em cada estágio. No primeiro passo do algoritmo, os valores de F parciais considerados para a análise de entrada da variável são aqueles calculados como descritos em 2.2.11.1 e no primeiro passo do algoritmo do método forward. A partir do segundo passo, os F parciais de entrada são calculados levando-se em consideração apenas as variáveis que já entraram e permaneceram no modelo nos passos anteriores. Os valores calculados de F parciais, para as variáveis candidatas a entrar, são comparados com um valor F de referência escolhido a priori, que determina a entrada ou não da variável. Em cada estágio do algoritmo, faz-se um teste para a saída de variáveis. Isto é feito para cada variável separadamente, considerando o ajuste de um modelo ANCOVA, no qual a variável em questão é tratada como resposta e as outras que ja estão no modelo são tratadas como explicativas (covariáveis). Por exemplo, se num estágio houver 3 variáveis, x1 , x2 e x3 , já incluídas no modelo no qual x1 é a variável-resposta, e x2 e x3 são as covariáveis; o F parcial para x2 calculado com base no modelo no qual x2 é a variável-resposta e x1 e x3 são as covariáveis e por último o F parcial de x3 calculado com base no modelo no qual x3 é a variávelresposta e x1 e x2 são as covariáveis. Os valores de F parciais assim calculados são comparados com o valor de F de referência e permanecem as variáveis que são significativas, ou seja, que apresentam um valor de F parcial acima do valor de referência. O procedimento termina no momento em que não houver mais variáveis significativas para dar entrada no modelo. Em todos os métodos a escolha do valor de F de referência de entrada ou saída de variáveis está relacionada com o nível de significância que se deseja utilizar em cada caso. Assim, ao invés de se utilizar o valor da estatística F para a decisão sobre entrada e saída de variáveis, também é comum comparar-se a probabilidade de significância padrão, como 5 %, para determinar se ela deve entrar ou sair do modelo. Os valores de referência de F, assim como os valores de níveis de significância para entrada e saída de variáveis, não precisam ser necessariamente iguais. Existem algumas sugestões na literatura a respeito da escolha do nível de significância que deve ser utilizado para entrada e saída de variáveis. Para o procedimento backward, o valor sugerido é 1 %, enquanto que para o método stepwise, recomenda-se um nível de significância entre 25 a 50 % para entrada de variáveis e de 15 % para saída de 2.2 ESTATÍSTICA 59 variáveis. Estes valores altos de níveis de significância são recomendáveis em função do fato de que, na prática, é comum haver situações nas quais, embora se tenha um bom conjunto de variáveis discriminantes, ao aplicarem-se os métodos de seleção de variáveis, não se consegue encontrar variáveis significativas para discriminação, pelo fato de se estar postulando um valor muito pequeno de nível de significância para comparação, ou seja, há um nível de exigência muito elevado. Dentre os métodos descritos, os mais recomendáveis são o backward e o stepwise. O método forward tem o inconveniente de, algumas vezes, produzir modelos nos quais nem todas as variáveis são significativas. A utilização dos métodos automáticos de seleção de variáveis discriminantes não assegura que o modelo final com as variáveis escolhidas será de boa qualidade. Deste modo, após usar algum método de seleção de variáveis, é necessário que o usuário faça uma análise de sua qualidade de ajuste em termos das probabilidades de erros de classificação, como descrito em 2.2.1. 2.2.12 Índice de Capacidade (CP ) A capacidade do processo pode ser avaliada por meio das análises gráficas, na comparação de histogramas ou gráficos sequenciais, ou por meio de índices de capacidade. Índices de capacidade de processos têm sido usados frequentemente para determinar se um processo é capaz de produzir itens em conformidade com a tolerância especificada. Para utilizar os índices de capacidade de processos é necessário que: • as variáveis de interesse tenham distribuição aproximadamente normal multivariada. O cálculo do índice de capacidade é dado pela Equação (2.25). CP = 1 (LSE − LIE ) 6 σ(A) (2.25) na qual LSE e LIE são limites superior e inferior da especificação de engenharia, ou seja, os limites aceitáveis para as variáveis em questão. 2.2 ESTATÍSTICA 60 Se CP > 1, isto indica que o processo é capaz de atender à especificação. Alguns autores preferem utilizar 8 no denominador ao invés de 6, neste índice. A idéia é dar uma margem de segurança maior, já que, mesmo estável, podem ocorrer pequenas alterações em σ (BAPTISTA, 1996), (IMAM, 2004) e (RAMOS, 2000). Avaliação de processo pelo CP : 1o caso: Processo bastante satisfatório: 1, 33 ≤ CP 2◦ caso: Processo adequado: 1, 00 ≤ CP < 1, 33 3o caso: Processo inadequado: CP < 1, 00 Na prática, para avaliação da capacidade de processos, pode-se usar histogramas assinalando neles as linhas de LSE e LIE 2.2.13 Índice de Capacidade K (CP K) O índice é definido como sendo o menor valor entre CP I (índice de capacidade inferior) e CP S (índice de capacidade superior), ou seja (BAPTISTA, 1996): CPK = min(CPI , CPS ) (2.26) Com CPI = 1 (x̄(A) − LIE ) 3 σ(A) (2.27) CPS = 1 (LSE − x̄(A)) 3 σ(A) (2.28) E Enquanto que o índice CP somente compara a variação total permitida pela especificação com a variação utilizada pelo processo, sem fazer nenhuma consideração quanto à média, o índice CP K avalia a distância da média do processo (x̄) aos limites da especificação, tomando aquela que é o menor, e, portanto, mais crítico em termos de chances de serem produzidos itens fora da especificação. Se CP K > 1, então o 2.3 LÓGICA FUZZY 61 processo será capaz (RAMOS, 2000). Alguns autores também preferem utilizar o valor 4 no denominador de CP I e CP S, em vez de 3. A idéia é similar à exposta no índice CP (BAPTISTA, 1996) e (IMAM, 2004). Quando somente há especificação unilateral para a característica de qualidade, ou seja, quando somente há um valor mínimo ou máximo, então não mais há sentido em se calcular o índice CP , já que ou LIE ou LSE inexiste (IMAM, 2004) e (RAMOS, 2000). Quanto ao índice CP K, este também ficará afetado pela especificação unilateral, pois somente será possível calcular ou CP I ou CP S (BAPTISTA, 1996). Concluindo, nos casos de especificações unilaterais somente CP K é calculado, e, mesmo assim, somente CP I ou CP S, dependendo de haver somente uma especificação mínima ou máxima, respectivamente (RAMOS, 2000). Quando a distribuição dos valores individuais não mais é satisfatoriamente representada por uma distribuição normal, ou, então, os dados se apresentam autocorrelacionados (não há independência entre eles ao longo do tempo), não mais se pode tomar a decisão da capacidade do processo com base nos índices CP ou CP K, já que, no cálculo destes, são admitidas estas hipóteses (BAPTISTA, 1996) e (IMAM, 2004). Contudo, a avaliação ainda pode ser feita por meio do histograma, marcando-se os limites de especificação sobre este e avaliando-se se é (ou não) possível produzir produtos conformes (IMAM, 2004) e (RAMOS, 2000). 2.3 LÓGICA FUZZY A Lógica Fuzzy é uma teoria matemática que tem como principal objetivo permitir a modelagem do modo aproximado de raciocínio, imitando a habilidade humana de tomar decisões em ambientes de incerteza e imprecisão (PASSOS; GOLDSCHMIDT, 2005). A lógica fuzzy, também conhecida como nebulosa ou difusa, foi proposta por Lotfi Zadeh em 1965, como uma extensão da teoria matemática dos conjuntos e da lógica clássica. Sua proposta é permitir que uma função de pertinência pudesse retornar valores pertencentes ao intervalo de 0 a 1, possibilitando maior flexibilidade que a lógica clássica booleana. O objetivo principal da utilização da lógica fuzzy é permitir 2.3 LÓGICA FUZZY 62 que expressões linguísticas sejam passíveis de operação por computadores (SILVA, 2006). O advento da lógica fuzzy foi causado pela necessidade de um método capaz de expressar de uma maneira sistemática quantidades imprecisas, vagas, mal-definidas (REZENDE, 2005) e (SHAW; SIMOES, 1999). Observou-se na última década uma mudança conceitual referente ao entendimento dos sistemas baseados em lógica fuzzy e suas potencialidades. Antes confinados a aplicações específicas e de pequeno porte, eles passaram a ser cada vez mais utilizados de forma integrada com outras tecnologias em sistemas de maior porte e de uso mais geral. A mesma é uma modalidade da lógica capaz de tratar conceitos vagos, imprecisos ou ambíguos - em geral descritos na linguagem natural humana - e convertê-los para um formato numérico, de fácil processamento computacional (SHAW; SIMOES, 1999). A mesma representa um maneira importante de manuseio de informações imprecisas, fornecendo um método de traduzir expressões verbais, vagas, imprecisas e qualitativas, comuns na comunicação humana, em valores numéricos, sendo muito distinta da teoria de probabilidades (REZENDE, 2005) e (SHAW; SIMOES, 1999). Assim, a tecnologia fuzzy tem um imenso valor prático, na qual se torna possível a inclusão da experiência de operadores humanos, além de possibilitar estratégias de tomadas de decisão em problemas complexos. A mesma é útil em tarefas de tomadas de decisão. Nela as variáveis individuais não são definidas em termos exatos. Por exemplo, no sequenciamento de tarefas de uma linha industrial, ou na aplicação em logística e planejamento de manutenção, o uso de lógica fuzzy pode significar vantagens adicionais em minimização de custos, devido à facilidade de implementação dessas estratégias (REZENDE, 2005) e (SHAW; SIMOES, 1999). Os conjuntos fuzzy são representados de acordo com a natureza e a dimensão do universo de discurso em estudo. Quando o universo de discurso é contínuo ou é constituído por uma grande quantidade de elementos discretos, a forma mais indicada de representação é o gráfico de sua função de pertinência, chamado de Diagrama de Hassi-Euler (H-E). A Figura 5 apresenta um diagrama H-E genérico. A conversão escalar - fuzzy é um mapeamento do domínio de números reais discretos, em geral - para o domínio fuzzy. Este processo atribui valores linguísticos, definidos por funções de pertinência, às variáveis de entrada (ALMEIDA, 2008). A conversão fuzzy - escalar é um método utilizado para decodificar as variáveis linguísticas de saída inferidas pelas regras fuzzy para valores reais - geralmente dis- 2.3 LÓGICA FUZZY 63 Figura 5: Diagrama de Hassi-Euler: gráfico da função de pertinência fuzzy (ALMEIDA, 2008). cretos. Os principais métodos de conversão fuzzy - escalar são o Centro-da-Área, o Centro-do-Máximo, a Média-do-Máximo e a Média-Ponderada (ALMEIDA, 2008). Por exemplo, no enfoque fuzzy, uma função real de entrada-saída é aproximada por seções que cobrem regiões da função. Em vez de se especificar um valor exato de um ponto na função de entrada-saída, a seção indicaria um conjunto de valores plausíveis. Quanto maior a cobertura da região, mais fuzzy seria um valor nesse conjunto para representar um ponto real. Cada região é expressa por uma regra heurística SE ... ENTÃO. Da mesma maneira, quanto menos fuzzy, elas se tornariam pontos, por exemplo (SHAW; SIMOES, 1999): Código Fonte 2.1: Regras Fuzzy. I f causa1 = A and causa2 = B then e f e i t o = C no qual A, B e C são conjuntos. Código Fonte 2.2: Regras de um modelo Fuzzy. I f a t e m p e r a t u r a e s t a BAIXA no f o r n o # 2 then mantenha o f o r n o # 2 MAIS TEMPO LIGADO no qual os termos BAIXA e MAIS TEMPO LIGADO representam conjuntos fuzzy. BAIXA é uma função que define o grau de intensidade da temperatura, enquanto MAIS TEMPO LIGADO é uma função que define o grau de duração do tempo de operação do forno. O fato de se implantar inteligência no controlador de forno neste caso consiste 2.4 DISCUSSÕES FINAIS 64 então em associar esses termos fuzzy por meio de uma inferência fuzzy, expressa por uma estrutura SE ... ENTÃO. 2.3.1 Modelo de Takagi-Sugeno-Kang Na década de 80, foi proposta uma estrutura de inferência baseada na teoria de conjuntos fuzzy. Esta estrutura é denominada sistema de inferência de Sugeno, modelo de inferência fuzzy paramétrico ou simplesmente modelo TSK (REZENDE, 2005) e (SHAW; SIMOES, 1999). Os autores demonstraram que estes modelos funcionam como bons aproximadores para sistemas que podem ser completa ou satisfatoriamente representados apenas por meio de suas relações de entrada e saída (REZENDE, 2005) e (SHAW; SIMOES, 1999). Uma aplicação bastante comum dos modelos de inferência fuzzy é sua utilização para aproximação de funções não-lineares. Pelas suas propriedades sintáticas, os modelos de inferência de TSK são mais adequados a este fim. A existência de funções paramétricas nos consequentes de suas regras e a facilidade de se ajustarem a partir de um conjunto de dados de entrada e saída faz com que eles sejam intrinsecamente relacionados com a tarefa de aproximação de funções em geral. Um exemplo genérico de regras TSK pode ser visto no Código 2.3. Código Fonte 2.3: Regras de um modelo Fuzzy TSK. I f x1 = A i and x2 = A j and . . . and xp = Am then y = F ( x1 , x2 , . . . , xp ) O processamento de conhecimento em um modelo TSK é similar ao ocorrido em modelos de Mamdani. A etapa de conversão escalar-fuzzy é idêntica, exceto pelo fato de que a norma T utilizada na maioria da aplicações não é a função Min, mas a função Prod (ALMEIDA, 2008) e (REZENDE, 2005). A saída numérica é calculada diretamente pela soma das saídas das regras, ponderada pelos valores de ativação de cada uma delas. 2.4 DISCUSSÕES FINAIS Este Capítulo apresentou as técnicas usadas no desenvolvimento deste trabalho. A Seção 2.1 descreveu a teoria das RNA, bem como suas aplicações práticas. A Seção 2.2 detalhou os métodos estatísticos que constituem este trabalho. Finalmente 2.4 DISCUSSÕES FINAIS 65 na Seção 2.3 foi abordado a lógica fuzzy, sua definição e o modelo proposto. É comum a utilização de cada técnica separada para a resolução do problema estudado. A utilização da lógica fuzzy e RNA em conjunto, denominada de abordagem híbrida ou neuro-fuzzy também é muito utilizada. A união da estatística com a RNA e a lógica fuzzy não é comum na literatura, o que justifica em parte a sua utilização como foco deste trabalho. 66 3 DETALHAMENTO DA PROPOSTA DE REFINAMENTO DE MODELOS BASEADO EM TÉCNICAS ESTATÍSTICAS 3.1 CONSIDERAÇÕES INICIAIS Este Capítulo relata o detalhamento da proposta de refinamento de modelos baseados em técnicas estatísticas. A Seção 3.2 faz uma breve introdução sobre a proposta geral de refinamento estatístico utilizada. A Seção 3.3 apresenta os detalhes do problema estudado. A Seção 3.4 especifica o hardware utilizado bem como o software. A Seção 3.5 abrange a etapa de pré-processamento, que é uma das mais importantes e mais árduas, e portanto, deve-se ter uma maior atenção pois dela depende o bom desenvolvimento do trabalho, ainda nesta Seção há a Subseção 3.5.1 que cita o desenvolvimento do trabalho em si, com as principais técnicas utilizadas. Por último, a Seção 3.6 apresenta as discussões finais do Capítulo. 3.2 PROPOSTA GERAL DE REFINAMENTO ESTATÍSTICO A proposta geral de refinamento estatístico segue estas etapas: primeiro foi feita análise de dados suspeitos, e, em seguida foi utilizada a lógica fuzzy para validar a análise de dados. Depois foi feita a análise de semelhança e PCA para a seleção de variáveis úteis ao modelo matemático do problema. No caso de redução de componentes, a PCA foi realizada novamente até que não ocorram novas reduções. Estas etapas são visualizadas na Figura 6. Para um melhor entendimento, as próximas seções descrevem com mais detalhes 3.3 EXPLORAÇÃO DO ESPAÇO SOLUÇÃO 67 Figura 6: Técnicas de tratamento estatístico propostas e implementadas neste trabalho. esta proposta. 3.3 EXPLORAÇÃO DO ESPAÇO SOLUÇÃO O problema aqui tratado é um problema de previsão. Um problema de previsão visa a modelagem dos estados seguintes de um determinado sistema, baseado nos seus estados anteriores, podendo ser caracterizado, portanto, como um problema de extrapolação (CARVALHO, 2005), (OLIVEIRA, 2003) e (PASSOS; GOLDSCHMIDT, 2005). O único meio de se verificar se uma previsão foi bem feita é aguardar o acontecimento e verificar o quanto foi acertada ou não a previsão realizada. As RNA e a estatística são ferramentas utilizadas em previsão. Existe uma diferença fundamental, entretanto, na abordagem que essas duas técnicas usam para representar um ambiente real. Nos métodos estatísticos, os modelos matemáticos do ambiente são formulados primeiramente. Os parâmetros são então estimados e finalmente o modelo é validado. Com RNA, a arquitetura de rede é primeiramente construída (pelas características do problema) e depois disso a rede é treinada para prever respostas a um conjunto de dados de treinamento da melhor forma possível (HAYKIN, 2007). Este problema primeiro foi estudado por Araujo (2008) que propôs a modelagem do processo de produção de aço da Vallourec & Mannesmann do Brasil (V&M), baseado nos estudos de (CUNHA, 2001) e (PACIANOTTO, 2003). Um banco de dados, com medições e especificações técnicas da produção de aço foi fornecido pela (V&M). Após reuniões realizadas com os engenheiros responsáveis pelo processo, foram selecionadas 15 variáveis de influência mais relevante para a temperatura de saída. Na 3.3 EXPLORAÇÃO DO ESPAÇO SOLUÇÃO 68 modelagem foram utilizadas redes neurais artificiais MLP e P-CMAC. A variável de saída da rede era a temperatura do aço. Para efetuar este estudo foi utilizado o algoritmo de regressão passo a passo (stepwise regression) do software MATLAB, que selecionou 10 variáveis para a rede MLP. Na P-CMAC foram utilizadas as 7 primeiras variáveis. Durante o treinamento foram utilizadas várias funções de ativação. Nos testes realizados, a rede não mostrou o comportamento esperado devido ao baixo número de neurônios utilizados. Este número não pôde ser aumentado devido ao crescimento exponencial do número de equações necessárias para se processar a rede. Assim, os resultados obtidos no treinamento e execução da rede, não foram considerados adequados porque foram superiores à precisão do sensor da V&M que é 20◦ C. A conclusão que se chegou foi que a base de dados era muito ruidosa o que dificultava a convergência das RNA. Assim, nasceu a idéia de aplicar técnicas estatística para filtrar os dados e variáveis mais influentes, para a resolução deste problema. Uma base de dados pode conter dados numéricos ou categóricos, sendo necessário saber lidar adequadamente com cada um destes casos. As 4 bases originais possuem as seguintes variáveis: Número da Corrida (NUMCORRIDA), Quantidade de Gusa (kg) (HOTMETAL), Temperatura do Gusa (o C) (HMTTEMGU1), Quantidade Total de Sucata (kg) (SCRTOTAMO), Quantidade de Cal Calcítica (kg) (LIMAMO), Quantidade de Cal Dolomítica (kg) (LIMDOLAMO), Volume de Oxigênio Soprado (m3 ) (OXYCUR), Percentual de Carbono do Gusa (%) (HMTCGU1), Percentual de Silício do Gusa (%) (HMTSIGU1), Percentual de Manganês do Gusa (%) (HMTMNGU1), Percentual de Fósforo do Gusa (%) (HMTPGU1), Idade da Lança de Sopro (LANAGE), Temperatura do Aço (o C) (TEMACT), Código do Aço (GRADCOD), e Idade do Vaso (VESAGE). É importante aplicar técnicas de seleção de variáveis, para reduzir o número de entradas do processo e avaliar que tipo de ganho este processamento daria ao sistema como um todo. Além disso, é relevante executar uma etapa de pré-processamento para eliminar erros e ruídos do banco de dados, de modo que o treinamento inicial da rede seja otimizado, eliminando sinais do campo que não agregam informações ao processo. 3.4 INSTRUMENTOS DE ANÁLISE E FILTRAGEM DE DADOS 69 3.4 INSTRUMENTOS DE ANÁLISE E FILTRAGEM DE DADOS Foram utilizados os software livre R versão 2.8.1 e o gretl 1.7.9, que, por meio de dados selecionados geraram: distribuições de frequências, gráficos, medidas de tendência central (média e mediana), e medidas de dispersão (variância e desvio padrão). O R e o gretl fornecem uma ampla variedade de técnicas estatísticas (modelagem linear e não linear, testes estatísticos clássicos, análise de séries temporais, classificação, agrupamento,...) e gráficos, e são altamente extensíveis. Os mesmos são, portanto, importantes ferramentas na análise e manipulação de dados, com testes paramétricos e não paramétricos, modelagem linear e não linear, análise de séries temporais, análise de sobrevivência, simulação e estatística espacial, além de apresentarem facilidade na elaboração de diversos tipos de gráficos, dentre outras (R Development Core Team, 2008). Além dos procedimentos estatísticos, o R permite operações matemáticas simples, e manipulação de vetores e matrizes, assim como a confecção de diversos tipos de gráficos. Para consultas, reduções e seleção de dados via SQL foi utilizado o software livre Foxy SQL Free versão 1.1.0.12. Para visualização e armazenamento dos dados foi utilizado o software Calc do pacote BrOffice versão 3.0. Para o desenvolvimento da lógica fuzzy e RNA foi utilizado o Matlab versões 6.5 e 7.6 (R2008a). Algumas funções utilizadas para os testes estatísticos também foram desenvolvidas nos softwares livres R, Scilab versão 5.0.3, Octave versão 3.0.3 e FreeMat versão 2.0. 3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS A etapa de pré-processamento compreende as funções relacionadas à captação, à organização, ao tratamento e à preparação dos dados. Compreende desde a correlação de dados errados até o ajuste da formatação dos dados, além de eliminar erros e ruídos do banco de dados, de modo que o treinamento inicial da rede seja otimizado, eliminando sinais do campo que não agregam informações ao processo. As causas que levam à situação de ausência de dados são a não disponibilidade do dado ou a inexistência do mesmo. Uma situação de não disponibilidade ocorre quando da não divulgação do dado. 3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS 3.5.1 70 Seleção e Tratamento de Dados Uma vez definido o domínio sobre o qual se pretende executar o processo de descoberta, o próximo passo é selecionar e coletar o conjunto de dados ou variáveis necessárias. No entanto é necessário tirar dados irrelevantes que podem trazer conhecimento falso ou, no melhor dos casos, aumentar o tempo de processamento. Logo, as tuplas que possuem pelo menos uma inconsistência são removidas. Em um banco de dados, valores ausentes ou vazios são chamados de null, NAN ou NA e este não é um tipo de valor. Uma base de dados é considerada muito grande se esta possui duas características: alta dimensionalidade e grande número de registros. Um número grande de atributos pode gerar muitas combinações, exigindo grande esforço computacional. E um grande número de atributos exige grande número de instâncias. O principal alvo da redução de dados é a redução da dimensão e a principal questão é saber quais atributos podem ser descartados sem afetar a qualidade dos resultados. No tratamento dos dados, o objetivo é preparar esses dados de modo a assegurar sua qualidade e eficiência. Os itens mais importantes para o tratamento dos dados são: • Eliminação de dados duplicados ou corrompidos - dados duplicados ou corrompidos são removidos. • Tratamento de dados suspeitos - dados com valores inválidos, ou significantemente fora do esperado para uma variável são removidos. • Transformação dos dados - essa etapa pode ser subdivida em duas tarefas: Tra- tamento de Atributos - adequar os diferentes tipos de atributos. Normalização - tratar dados com atributos de diferentes dimensões, quando se pretende que eles tenham a mesma influência no processo. A seleção por redução de dados horizontal é caracterizada pela escolha de casos. Entre as operações de redução de dados horizontal podem ser citadas: eliminação direta de casos e segmentação do banco de dados. Nesta operação, deve-se escolher um ou mais atributos para nortear o processo de segmentação. Por exemplo, a redução de linhas de uma tabela, neste caso há uma redução do número de instâncias. Os critérios adotados para seleção de registros de dados, foram baseados na análise do banco de dados e do problema em questão. A identificação dos casos com 3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS 71 inconsistência foram obtidas por meio de consultas em SQL, cujas restrições especificam o tipo de inconsistência a ser verificada, conforme exemplificado nos Códigos Fontes 3.1 e 3.2. Código Fonte 3.1: Código SQL para consulta de inconsistências. SELECT * FROM LDCEFE WHERE TIMDIT < 0 ; Código Fonte 3.2: Código SQL para consulta de inconsistências. SELECT * FROM LDCEFE WHERE TIMDIT = 0 ; A operação de redução de valores é uma alternativa à opção de corte de atributos oferecida pela redução de dados vertical. Essa operação consiste em reduzir o número de valores distintos em determinados atributos, o que pode proporcionar um melhor desempenho. Por exemplo, a redução de colunas de uma tabela, neste caso há uma redução de atributos. É a atividade pela qual os ruídos, dados estranhos ou inconsistentes (dados heterogêneos, incompletos, repetição de tuplas, problemas de tipagem) são tratados. Com menos valores, menos comparações são feitas, reduzindo o tempo de processamento. Oitenta por cento (80 %) do tempo consumido em todo o processo se concentra na limpeza de dados. Abrange qualquer tratamento realizado sobre os dados selecionados de forma a assegurar a qualidade (completude, veracidade e integridade) dos fatos por eles representados. Informações ausentes, errôneas ou inconsistentes nas bases de dados devem ser corrigidas de forma a não comprometer a qualidade dos dados. Em aplicações reais, é comum que os dados estejam incompletos, ruidosos ou inconsistentes. Os dados são considerados incompletos se há informação ausente para determinados atributos ou ainda se há dados pouco detalhados. Dados ruidosos são dados errados ou que contenham valores considerados divergentes do padrão normal esperado, denominados dados suspeitos. Dados inconsistentes são aqueles que contêm algum tipo de discrepância semântica entre si. É importante perceber que a qualidade dos dados possui grande influência na qualidade dos modelos a serem abstraídos a partir destes dados. Quanto pior for a qualidade dos dados informados, pior será a qualidade dos modelos. A etapa de pré-processamento envolve, dentre outras funções, a limpeza dos dados. A percepção sobre como os dados devem ser 3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS 72 pré-processados, a fim de melhorar a qualidade, constitui uma questão de grande relevância. A fase de limpeza dos dados envolve uma verificação da consistência das informações, a correção de possíveis erros e o preenchimento ou a eliminação de valores desconhecidos e redundantes, além da eliminação de valores não pertencentes ao domínio. A execução dessa fase tem como objetivo, portanto, corrigir a base de dados, eliminando consultas desnecessárias. Em geral, os métodos de limpeza dos dados dependem do contexto da aplicação e pressupõem a caracterização dos domínios envolvidos. Um exemplo simples de limpeza dos dados, é a definição de um intervalo de possíveis valores (domínio) para um determinado atributo. Caso surgisse qualquer valor diferente dos definidos no intervalo, o registro contendo esse dado seria corrigido ou mesmo removido da base de dados. A melhor maneira de evitar a poluição dos dados é organizando a entrada dos dados. Os campos podem conter espaços em branco, estar incompletos, inexatos, inconsistentes ou não identificáveis. A presença de valores ausentes em uma base de dados é um fato comum podendo estar distribuído em diversos atributos, numa mesma instância (registro) ou de forma aleatória. Dois pontos são observados quando se lida com dados ausentes: • A decisão pela eliminação ou não do atributo ou do registro, que contêm valores ausentes; • A recuperação dos valores ausentes. Um procedimento comum, para lidar com dados ausentes, consiste em eliminar o(s) atributo(s) ou a(s) instância(s) da base de dados, que apresentam esses valores. Outros procedimentos sugerem a substituição de valores ausentes por valores padrões ou valores médios em todas as ocorrências. A substituição por valor padrão, mesmo o mais criterioso, pode introduzir na base informações distorcidas, que não estão contidas no evento e nas circunstâncias que a gerou. O critério adotado para a exclusão de registros do banco de dados foram os seguintes: • Foram determinados como irrelevantes os registros com valores negativos. Es- ses dados são desconsiderados tendo em vista a impossibilidade desses existirem. 3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS 73 • Por meio do cálculo do desvio padrão de cada variável foi possível identificar e remover os registros que se mostravam muito fora de três desvios padrões (dados suspeitos) de acordo com o Limiar com três desvios. Três operações básicas em um processo de redução de dados foram aplicadas: • Eliminação de uma coluna (atributo); • Eliminação de uma linha (instância); • Reduzir número de valores de uma coluna (smooth). Nesta operação são especificados os casos a serem eliminados e não os casos que devem permanecer na análise. Lidar com dados mais relevantes pode ser mais efetivo e mais eficiente, ou seja, pode ser alcançado um maior desempenho com o mínimo de medidas e esforço computacional. Tais operações foram implementadas por meio de instruções de exclusão em SQL do tipo: Código Fonte 3.3: Código SQL para redução de dados. DELETE FROM LDCEFE WHERE HMTTEM = NULL ; Código Fonte 3.4: Código SQL para redução de dados. DELETE FROM LDCEFE WHERE HMTTEM = 0 ; Código Fonte 3.5: Código SQL para redução de dados. DELETE FROM LDCEFE WHERE HMTTEM < 0 ; Feito isso, os dados válidos são selecionados. Nesta operação foram utilizadas as técnicas estatísticas: IEQ, distância de Mahalanobis e o limiar, descritos na Seção 2.2, o que pode ser visto na Figura 7. O limiar foi utilizado com 2 desvios e com 3 desvios. Como o cálculo do limiar precisa dos LSE e LIE, e não havia está informação foi feita uma analogia, ambos foram admitidos como o máximo e o mínimo de cada variável das bases de dados originais. Mas, como também foi aplicado o IEQ, o LSE e o LIE podem ser utilizados como sendo o Q3 + 3 ∗ IEQ e Q1 − 3 ∗ IEQ das amostras, pois as bases originais apresentavam dados suspeitos de acordo com a análise IEQ. Tal operação foi implementada por meio de instruções de seleção em SQL do tipo: 3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS 74 Código Fonte 3.6: Código SQL para seleção de dados válidos. SELECT * FROM LDCEFE WHERE TIMDIT > 0 ; O conjunto de dados resultante desta consulta se torna o conjunto a ser efetivamente considerado deste ponto em diante. O arredondamento de valores, também chamado de aproximação de valores, é uma função comum no cotidiano. Este método possui uma etapa inicial voltada à ordenação dos valores existentes no conjunto de dados. Depois os dados são normalizados. Essa operação consiste em ajustar a escala dos valores de cada atributo de forma que os valores fiquem em pequenos intervalos, tais como de −1 a 1, ou de 0 a 1. Os dados de entrada são normalizados, de tal forma que os valores de todos os atributos pertençam a uma mesma faixa de valores. A normalização dos dados é importante para garantir que cada variável tenha o mesmo peso, exercendo a mesma influência na execução do algoritmo. Essa influência acontece predominantemente ao se calcular as medidas de semelhança ou dessemelhança entre os dados, conhecida como medidas de proximidades. Sem a normalização, as variáveis com maior escala se tornam dominantes. Feito isso é preciso avaliar a sua qualidade. A análise de capacidade do processo é uma técnica que compara a variabilidade do processo com as especificações correspondentes. A análise baseia-se num grupo de índices, chamados de índices de capacidade e de desempenho do processo. Os índices de capacidade de processo analisam as informações de modo que seja possível avaliar se um processo é capaz de gerar produtos que atendam às especificações provenientes dos clientes internos e externos. Eles são bastante úteis no objetivo das empresas em atender as especificações dos clientes. No caso de construção de índices de qualidade, a não incorporação da correlação existente entre os itens amostrais nas várias características de qualidade medidas pode resultar num índice que não represente adequadamente a qualidade final do produto. Assim, optou-se por utilizar a lógica fuzzy para mensurar a qualidade das variáveis de entrada e saída da RNA utilizando diferentes índices de capacidade considerando o problema da V & M. Isto pode ser visto na Figura 7 que é a 6 detalhada. Como foi dito primeiro foi escolhido o método de análise de dados suspeitos e em seguida, foi utilizado a lógica fuzzy para validar a análise de dados. Depois foi 3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS 75 escolhido o teste de análise de semelhança e é feito a PCA para a seleção de variáveis úteis ao modelo matemático do problema. No caso de redução de componentes, a PCA foi realizada novamente até que não ocorram novas reduções. IEQ Limiar 3 Distância de Mahalanobis coeficiente correla. Pearson Base de Dados Histórica IEQ, Limiar 3 e Distância de Mahalanobis coeficiente correla. posto (rank) Spearman Tomada de decisão Fuzzy Escolher qual teste usar Escolher o método a ser utilizado Limiar 3 e Distância de Mahalhanobis Sim Não PCA Houve redução de componentes? Stepwise coeficiente correla. parcial Base de Dados Filtrada Limiar 2 Limiar 2 e Distância de Mahalanobis Figura 7: Técnicas de tratamento estatístico propostas e implementadas neste trabalho. O modelo fuzzy escolhido foi o modelo de Sugeno descrito na Seção 2.3, as partições de entrada são o teste de proficiência: IQRnorm e os índices de capacidade: CP e CP K ambos descritos na Seção 2.2. As partições de entrada e saída podem ser vistas nas figuras 8 até 12. A Figura 9 mostra a partição de entrada CP que foi dividida no intervalo de 0 a 2 em: “inadequado” [0; 1, 2], “adequado” [1; 1, 4], “satisfatorio” [1, 33; 1, 8], “bastantesatisfatorio” [1, 67; 2], de acordo com a sua definição na Seção 2.2. A Figura 10 mostra a partição de entrada CP K que foi dividida no intervalo de 0 a 2 em: “incapaz” [0; 1], “questionavel” [0, 8; 1, 2], “capaz” [1, 1; 1, 2], de acordo com a sua definição na Seção 2.2. A Figura 11 mostra a partição de entrada IQRnorm que foi dividida no intervalo de 0 a 4 em: “satisfatorio” [0; 2], “menosquestionavel” [1, 5; 2, 5], “questionavel” [2, 1; 2, 9], “bastantequestionavel” [2, 5; 3, 5], “insatisfatorio” [3, 1; 4], de acordo com a sua definição 3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS 76 Figura 8: Modelo Fuzzy de Sugeno para avaliação da qualidade. Figura 9: Partição fuzzy de entrada CP. na Seção 2.2. Para a partição de saída foi criada a Função Qualidade avaliada no intervalo de 0 a 1, na qual 0 é Incompatível, Q1 é uma referencia ao 1o quartil cujo valor é 0, 25, M ediana vale 0, 5, Q3 é uma referencia ao 3o quartil cujo valor é 0, 75. Isto é retratado na Figura 12. Foram necessárias 60 regras fuzzy para a representação do espaço solução que 3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS 77 Figura 10: Partição fuzzy de entrada CPK. Figura 11: Partição fuzzy de entrada IQRnorm. podem ser vistas no Código Fonte A.1 do Apêndice A. Os gráficos das superfícies resultantes da aplicação do modelo fuzzy nas partições de entrada podem ser vistos nas figuras 13 até 15. Então, foi criado o sistema fuzzy de avaliação da qualidade. O mesmo pode ser visto na Figura 16, na qual o bloco simout é a saída fuzzy da função qualidade. Assim, a qualidade das variáveis de entrada foi analisada conforme as tabelas 2 e 3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS 78 Figura 12: Partição fuzzy de saída Qualidade. Figura 13: Representação gráfica de CP, CPK e Qualidade. 3. A Tabela 2 mostra os valores das três partições fuzzy de entrada: CP , CP K e IQRnorm. Com os valores dessas três partições foi calculado o valor da saída da função qualidade representada por simout: 0, 5 representa uma qualidade ideal, os 3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS 79 Figura 14: Representação gráfica de IQRnorm, CP e Qualidade. Figura 15: Representação gráfica de IQRnorm, CPK e Qualidade. valores acima de 0, 5 e abaixo de 0, 5 representam variáveis que não possuem uma qualidade ideal mas, ainda assim, podem ser utilizadas e valores 0 representam variáveis incompatíveis e por isso devem ser descartadas da análise. Quando houverem 3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS 80 Figura 16: Sistema Fuzzy de Avaliação da Qualidade. Tabela 2: Avaliação da qualidade dos dados muitas variáveis iguais a 0, a base de dados deve ser descartada por apresentar uma baixa qualidade. Tabela 3: Avaliação da qualidade dos dados Feito isso, foi realizada a seleção de variáveis de entrada para o modelo neural (ver Figura 7). Uma das técnicas de seleção de variáveis escolhida é o grau de autocorrelação dos dados, utilizada para evitar efeitos como a subestimação da variância do processo, provocando um aumento de alarmes falsos e a subestimação da capacidade do processo. A maneira mais comum de determinar e representar a correlação entre os dados é calcular o coeficiente de correlação, que é a distância relativa entre cada ponto de dado na amostra. Este coeficiente possui um valor dentro do intervalo −1 ≤ r ≤ 1: • H0 : p = 0, ou seja, o coeficiente obtido não é significativo; • H1 : p 6= 0, ou seja, o coeficiente obtido é significativo. 3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS 81 • Se r for positivo, existe uma relação direta entre as variáveis (ambas aumentam); • Se r for negativo, a relação é inversa (uma aumenta e outra diminui); • Se r for nulo, significa que não existe correlação linear entre as variáveis. • Se o coeficiente de correlação é 1, então os dados correspondem perfeitamente. • Se o coeficiente for −1, então os dados possuem uma correspondência inversa perfeita. Quando o p − value for menor que α (α geralmente igual a 0, 05), rejeita-se H0 , considerando que o relacionamento entre as variáveis é significativo. Nesta etapa foram utilizadas as seguintes técnicas estatísticas: correlação de Pearson, correlação de Spearman, correlação parcial e stepwise, descritas na Seção 2.2. Feito isso, visando reduzir o número de entradas e descorrelacioná-las entre si, utilizou-se o PCA da mesma forma como o sugerido por (HAYKIN, 2007). O número de componentes principais foi ajustado de modo que a soma dos m maiores auto-valores (variância) representasse 95 % da soma total de todos esses auto-valores (HAYKIN, 2007). No caso de redução de componentes foi novamente feito o PCA. A seleção de dados por redução vertical é uma operação de pré-processamento muito importante. Ela tem como objetivo encontrar um conjunto mínimo de atributos de tal forma que a informação original seja preservada. É fácil observar que, quanto maior o valor de n, maior o desafio na escolha dos atributos, pois o número de possibilidades de subconjuntos de atributos cresce exponencialmente na medida em que n aumenta. Entre as principais motivações para a aplicação da redução de dados vertical podem ser citadas: • Um conjunto de atributos b selecionados pode conduzir a modelos mais concisos e com maior precisão; • Se o método de seleção dos atributos for rápido, o tempo de processamento necessário para utilizá-lo, pode ser inferior ao tempo de processamento para utilizá-lo sobre todo o conjunto de atributos; • A eliminação de um atributo é muito mais significativa em termos de redução do tamanho de um conjunto de dados do que a exclusão de um registro. 3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS 82 O processo de redução de características objetiva: • Menos dados para um aprendizado mais rápido dos algoritmos; • Maior exatidão do conhecimento extraído a partir desses dados; • Resultados mais simples que possam ser facilmente entendidos. Nesta etapa, a base de dados foi dividida em duas novas: uma formada pela análise de correlação parcial e PCA, e outra formada pelas análises stepwise, correlação de Pearson, correlação de Spearman e PCA, já que stepwise, correlação de Pearson e correlação de Spearman tiveram resultados idênticos durante a análise. Feito isso Base de Dados Filtrada Treinamento Validação Teste Figura 17: Separação da base de dados filtrada em amostras. as bases de dados foram divididas em três amostras: treinamento, validação e teste para o modelo neural (ver Figura 17). O treinamento usou 70 % da base de dados, a validação usou 20 % da base de dados, e o teste usou 10 % da base de dados. A seguir, a RNA e o algoritmo de treinamento foram escolhidos (ver Figura 18). Com a RNA e o algoritmo de treinamento escolhidos foi feita a simulação de acordo com a Figura 19. Para a utilização da base de dados histórica sem alterações também foi utilizado o mesmo diagrama da Figura 19. 3.6 DISCUSSÕES FINAIS 83 Figura 18: Escolha da RNA e do algoritmo de treinamento. Avalição do Desempenho da RNA BD Treinamento Treinamento da RNA T r eMi nL aPm e n t o da RNA T rEel imn aa nm e n t o da RNA Cascade-Forward BD Teste Escolha do modelo mais adequado BD Validação Figura 19: Treinamento, validação e teste de um modelo neural. 3.6 DISCUSSÕES FINAIS Este Capítulo detalhou a proposta de refinamento de modelos baseados em técnicas estatísticas. A Seção 3.2 apresentou uma breve introdução sobre a proposta geral 3.6 DISCUSSÕES FINAIS 84 de refinamento estatístico utilizada. Então, a Seção 3.3 mostrou os detalhes do problema estudado. A Seção 3.4 apresentou o software e hardware utilizado. Finalmente na Seção 3.5 foi abordado como a etapa de pré-processamento funciona, sendo que na Subseção 3.5.1 foi tratado o desenvolvimento do trabalho em si, com a utilização das técnicas principais propostas. O método proposto mostrou-se consistente e bastante promissor. Os dados suspeitos foram filtrados, as bases foram divididas, o sistema fuzzy funcionou bem, enfim o pré-processamento foi realizado com o intuito do modelo alcançar a precisão desejada. Os resultados encontrados a partir das técnicas aqui propostas, bem como a sua análise, podem ser vistos no Capítulo 4. 85 4 EXPERIMENTOS E AVALIAÇÃO DOS RESULTADOS 4.1 CONSIDERAÇÕES INICIAIS Este Capítulo tem como objetivo mostrar e analisar os resultados deste trabalho. A Seção 4.2 mostra os métodos utilizados para a coleta de dados referentes a população e as amostras utilizadas no desenvolvimento deste trabalho. A Seção 4.3 mostra as RNA e algoritmos de treinamento utilizados e a comparação entre os mesmos. A Seção 4.4 apresenta os métodos estatísticos utilizados para validar os modelos neurais. A Seção 4.5 mostra as comparações dos resultados encontrados. A Seção 4.6 cita as limitações do método empregado. Por último, a Seção 4.7 apresenta as discussões finais do Capítulo. 4.2 POPULAÇÃO E AMOSTRAS Após o planejamento e a devida determinação das características mensuráveis do problema que se quer pesquisar, dá-se início a coleta de dados numéricos necessários à descrição do problema. Formalmente, a coleta de dados se refere à obtenção, reunião e registro sistemático dos dados. Para a realização da coleta de dados foi seguido o presente roteiro (FREUND, 2006): • Definir o objetivo da coleta de dados. • Identificar o tipo de dados que devem ser coletados e fazer a amostragem corretamente, observando-se a necessidade ou não de estratificação. O objetivo da coleta de dados é selecionar amostras sem dados suspeitos das bases de dados originais. Como o tipo de dados que devem ser coletados são numé- 4.2 POPULAÇÃO E AMOSTRAS 86 ricos, as variáveis não numéricas, foram descartadas: Número da Corrida e Código do Aço. Portanto, quando for referido às bases originais, será considerado apenas as variáveis numéricas. O próximo passo é fazer a amostragem de dados. Antes, porém é necessário ter um planejamento de amostras. Em estatística, um planejamento de amostras é um plano definido e completamente determinado antes da coleta de quaisquer dados ou de se obter uma amostra de uma dada população. Os erros possíveis de serem cometidos na realização de uma amostragem podem ser tratados aplicando técnicas adequadas e estabelecendo resultados com estimativa de erro, como por exemplo, um intervalo de confiança. Seguindo alguns critérios de seleção, o subconjunto escolhido de uma população é denominado amostra. Uma amostra representativa tem as mesmas características da população da qual foi retirada. Há dois tipos de amostras quanto à forma de serem extraídas da população, a amostra probabilística e as restantes que não são probabilísticas. Em geral, as amostragens são realizadas sem reposição e os cálculos estatísticos nos dois tipos de amostragens são os mesmos. Na amostragem sem reposição, a unidade selecionada não retorna para a população. Portanto, em cada seleção a população é reduzida de uma unidade elementar. Se o tamanho da população for suficientemente maior que o tamanho da amostra recomendado mais de vinte vezes os resultados estatísticos das amostras com e sem reposição não serão muito diferentes, pois a chance de escolher o mesmo elemento é muito pequena (FREUND, 2006). Como as amostras selecionadas para o problema em questão não são pequenas o método escolhido foi a amostragem sem reposição. Outro motivo para não ter reposição é o fato da amostragem utilizada ser uma amostragem sistemática. Embora uma amostragem sistemática possa não ser uma amostra aleatória de acordo com a definição, muitas vezes é razoável tratar as amostras sistemáticas como se fossem amostras aleatórias; em alguns casos, as amostras sistemáticas de fato apresentam um melhora em relação às amostras aleatórias simples, pois as amostras se dispersam mais uniformemente sobre toda a população (FREUND, 2006). Mesmo sendo sistemática a amostragem preserva as características da distribuição, ou seja, se a distribuição é normal, têm-se mais pontos retirados de onde há maior concentração de pontos. 4.2 POPULAÇÃO E AMOSTRAS 87 Neste trabalho foram selecionadas amostras não probabilísticas com métodos de amostragem sem reposição. Uma explicação encontra-se na Subseção 4.6. Como nas amostras não probabilísticas alguns componentes da população não têm nenhuma chance de ser selecionado, deve ser definido algum critério de escolha. Como neste problema a variação em estudo apresenta, de estrato em estrato, um comportamento heterogêneo e, dentro de cada estrato, um comportamento homogêneo, é fundamental que o processo de amostragem leve em consideração os estratos. Assim, também foi utilizada a amostragem estratificada que é um processo que consiste em estratificar (ou dividir) a população em um certo número de subpopulações que não se sobrepõem, chamadas estratos ou camadas, e então extraiu-se uma amostra de cada estrato. Os critérios de seleção foram definidos no Capítulo 3, e os estratos são as bases de dados modificadas. Primeiro foi feita a estratificação e, depois, foi utilizada a amostragem sistemática para selecionar uma amostra dentro de cada estrato. As bases 1 e 2 originalmente possuem 13 variáveis de entrada cada, com as análises estatísticas esse número foi reduzido conforme as Tabelas 4 e 5, estes são os estratos, a amostragem sistemática foi utilizada quando as bases de dados são divididas em amostras para o treinamento, a validação e o teste das RNA. Pode-se notar que a distância de Mahalanobis não reduziu o número de variáveis, e com os testes combinados IEQ, Limiar com 3 desvios e distância de Mahalanobis não houve seleção de variáveis porque apresentou baixa qualidade, segundo o sistema de avaliação fuzzy. Isto quer dizer que houve muitas variáveis classificadas como “incompatíveis”, valores iguais a zero ou próximos de zero (Subseção 3.5.1). A base 3 original possui 13 variáveis de entrada. Com as análises estatísticas esse número foi reduzido conforme a Tabela 6. Pode-se notar que o Limiar com 2 desvios não selecionou variáveis porque apresentou baixa qualidade segundo o sistema de avaliação fuzzy. Isto quer dizer que houve muitas variáveis classificadas como “incompatíveis”, valores iguais a zero ou próximos de zero (Subseção 3.5.1). A base 4 original foi a única em que todas as análises estatísticas selecionaram variáveis (ver a Tabela 7) porque não apresentou baixa qualidade segundo o sistema de avaliação fuzzy (Subseção 3.5.1). 4.2 POPULAÇÃO E AMOSTRAS 88 Tabela 4: Experimentos de filtragem de dados: base 1 Tabela 5: Experimentos de filtragem de dados: base 2 Conforme foi dito no Capítulo 3 as bases de dados originais foram divididas em duas novas bases cada. As Tabelas 8, 9, 10 e 11 são referentes a correlação parcial e PCA. 4.2 POPULAÇÃO E AMOSTRAS 89 Tabela 6: Experimentos de filtragem de dados: base 3 Tabela 7: Experimentos de filtragem de dados: base 4 As bases 1 e 2 originalmente possuem 643 e 657 elementos, respectivamente. Com as análises estatísticas esses números foram reduzidos conforme as Tabelas 8 e 9. Em ambas somente a distância de Mahalanobis não reduziu as quantidades de 4.2 POPULAÇÃO E AMOSTRAS 90 elementos, isto explica o fato de a combinação do Limiar com 2 desvios e a distância de Mahalanobis filtrarem a mesma quantidade de dados da técnica de Limiar com 2 desvios. Pode-se notar que a combinação entre o IEQ, Limiar com 3 desvios e a distância de Mahalanobis não conseguiu filtrar os elementos porque a sua qualidade foi baixa segundo o sistema avaliador de qualidade fuzzy. Isto quer dizer que houve muitas variáveis classificadas como “incompatíveis”, valores iguais a zero ou próximos de zero (Subseção 3.5.1). Tabela 8: Experimentos de filtragem de dados com o coeficiente de correlação parcial e PCA: base 1 A base 3 original possui 32415 elementos, conforme pode ser visto na Tabela 10. As técnicas Limiar com 2 desvios, Limiar com 2 desvios e distância de Mahalanobis, e IEQ, Limiar com 3 desvios e distância de Mahalanobis não conseguiram filtrar os dados porque apresentaram baixa qualidade, conforme a análise do sistema avaliador da qualidade fuzzy. A base 4 foi a única em que todas as técnicas conseguiram reduzir a quantidade de elementos (ver Tabela 11) porque não apresentou baixa qualidade segundo o sistema de avaliação fuzzy (Subseção 3.5.1). As tabelas 12, 13, 14 e 15 são referentes à correlação de Spearman, Pearson, stepwise e PCA. Os resultados são análogos às bases referentes à correlação parcial. 4.2 POPULAÇÃO E AMOSTRAS 91 Tabela 9: Experimentos de filtragem de dados com o coeficiente de correlação parcial e PCA: base 2 Tabela 10: Experimentos de filtragem de dados com o coeficiente de correlação parcial e PCA: base 3 Pode-se notar na Tabela 14 que o IEQ também apresentou baixa qualidade segundo o sistema fuzzy de avaliação da qualidade. Isto quer dizer que houve muitas variáveis classificadas como “incompatíveis”, valores iguais a zero ou próximos de zero (Subseção 3.5.1). 4.3 TRATAMENTO E ANÁLISE DOS DADOS 92 Tabela 11: Experimentos de filtragem de dados com o coeficiente de correlação parcial e PCA: base 4 Tabela 12: Experimentos de filtragem de dados com o coeficiente de correlação de Spearman, Pearson, stepwise e PCA: base 1 4.3 TRATAMENTO E ANÁLISE DOS DADOS Para encontrar as RNA adequadas foram variados diversos parâmetros e a partir dos resultados foram definidas as RNA adequadas que foram submetidas a testes alterando parâmetros mais específicos. Os parâmetros alterados são descritos a seguir: 4.3 TRATAMENTO E ANÁLISE DOS DADOS 93 Tabela 13: Experimentos de filtragem de dados com o coeficiente de correlação de Spearman, Pearson, stepwise e PCA: base 2 Tabela 14: Experimentos de filtragem de dados com o coeficiente de correlação de Spearman, Pearson, stepwise e PCA: base 3 • Tipo da Rede: O primeiro critério para seleção da rede ideal foi a definição do tipo de rede. Os testes tiveram como foco as redes dos tipos Feed-Forward Backpropagation, Cascade-Forward Backpropagation e Elman backpropagation; • Algoritmo de Treinamento: Para os testes foram utilizadas os algoritmos de trei- namento LM (Levenberg-Marquardt Backpropagation), OSS (One Step Secant), 4.3 TRATAMENTO E ANÁLISE DOS DADOS 94 Tabela 15: Experimentos de filtragem de dados com o coeficiente de correlação de Spearman, Pearson, stepwise e PCA: base 4 Rprop (Propagação resiliente), Fletcher-Reeves e Beale-Powell. Uma maneira de verificar a adequação do modelo é comparar cada valor observado xi com o respectivo valor previsto pelo modelo x̂i . O resíduo é definido como a diferença entre o valor exato de um número xi e de seu valor aproximado x bi : ri = xi − x̂i (4.1) Um resíduo pode ser visto como a parte do valor observado que o ajuste não foi capaz de explicar. Contudo, os resíduos não são independentes e possuem variâncias diferentes que dependem do valor de x correspondente. Os resíduos padronizados são resíduos transformados. O conceito de erro padrão da estimativa é equivalente ao do desvio padrão, que mede a variabilidade dos valores da amostra ao redor da média aritmética desses valores. Como uma estatística, seu desvio padrão é chamado erro padrão, tal como para o desvio de x b, que é chamado erro padrão. Os resíduos são padronizados dividindo-os pelo desvio padrão do erro que é calculado como: Se = r SSE n−2 (4.2) 4.3 TRATAMENTO E ANÁLISE DOS DADOS Se = √ 95 (4.3) MSE na qual: • SSE é Error Sum of Squares ou Sum of Squares Errors (Variação não-explicada: Soma dos erros quadráticos ou soma dos quadrados dos desvios). • M SE é Mean Squares of Error (Média do quadrado dos erros). As tabelas 16, 17, 18, 19, 20 e 21 mostram as RNA com seus algoritmos considerados adequados e os resultados da comparação entre as RNA aplicadas nas bases de dados originais e modificadas. Para esta análise foram selecionadas apenas as bases originais 3 e 4 que possuem mais elementos, e as bases modificadas com a quantidade de elementos acima de 19000. Na tentativa de se buscar a melhor arquitetura para as RNA desenvolvidas, em relação ao número de neurônios da camada intermediária, foi implementado inicialmente o número de neurônios da camada intermediária de n 2 até 2n + 1, sendo n o número de entradas. O valor limite de 2n + 1 neurônios foi definido com base no Teorema de Kolmogorov conforme descrito na Seção 2.1 mas, além desse teorema foi variado o número de neurônios acima do valor proposto para efeito de análise. Foi escolhida uma única camada oculta também de acordo com o Teorema de Kolmogorov. As configurações finais ficaram assim: • A RNA Feed-Forward Backpropagation com o algoritmo de treinamento LM utili- zou as funções de ativação logsig (função sigmoidal unipolar) e purelin (função linear). A sua camada de entrada possui o número de neurônios igual ao número de variáveis conforme as tabelas 6 e 7, a sua única camada oculta possui 39 neurônios e a sua camada de saída possui um neurônio. • A RNA Cascade-Forward Backpropagation com o algoritmo de treinamento LM utilizou as funções de ativação tansig (função sigmoidal bipolar) e purelin. A sua camada de entrada possui o número de neurônios igual ao número de variáveis conforme as tabelas 6 e 7, a sua única camada oculta possui 26 neurônios e a sua camada de saída possui um neurônio. 4.3 TRATAMENTO E ANÁLISE DOS DADOS 96 • A RNA Elman backpropagation com os seus algoritmos de treinamento utilizou as funções de ativação tansig e purelin. A sua camada de entrada possui o número de neurônios igual ao número de variáveis conforme as tabelas 6 e 7, a sua única camada oculta possui 10 neurônios e a sua camada de saída possui um neurônio. Pode ser visto nas tabelas 16 e 17 que para a base 3, o valor do SE para o treinamento e a validação de todas as bases modificadas foi inferior à base original e, portanto, adequado para o modelo. Apenas para a etapa de teste que uma das bases modificadas apresentou um SE maior, a base 3epearson (ver Tabela 18) utilizando as RNA do tipo Elman backpropagation com todos os algoritmos de treinamento exceto com o algoritmo de treinamento Beale-Powell, este código da base pode ser lido da seguinte maneira: número da base = 3, E = IEQ, Pearson = correlação de Pearson e PCA, ou seja, E e Pearson são os testes estatísticos aplicados sobre a base. Na Rprop (resilient backpropagation) somente o sinal da derivada é usado para determinar a direção da atualização do peso, e a quantidade da atualização é determinada da seguinte forma: o valor da atualização para pesos e bias é incrementado de um fator deltinc sempre que a derivada for na mesma direção para duas iterações sucessivas, e o valor da atualização é decrementado por um fator deltdec sempre que a derivada muda de sinal em relação a iteração anterior. Além disso, sempre que os pesos estiveram oscilando a mudança nos pesos é reduzida (NETO et al., 2006), (BAUER, 2008), (RAMÍREZ; FERREIRA; VELHO, 2006), (CASTANHAEIRA, 2008), (ALVES, 2004) e (DE AGUIAR JÚNIOR, 2004). O método de secante em um passo (one step secant) é uma tentativa intermediária entre os algoritmos de gradiente conjugado e os algoritmos quasi-Newton. Esse algoritmo não armazena a matriz hessiana completa. Ele assume que a cada iteração, a Hessiana anterior é uma matriz identidade. E existe uma vantagem adicional de que a nova direção de pesquisa seja calculada sem computar a matriz inversa. Considerando a precisão do sensor da V&M de 20o C, todos os resultados da base original 3 referentes ao treinamento, validação e teste foram superiores e, portanto, inadequados para o modelo. No treinamento as bases modificadas apresentaram 12 valores de erro abaixo da precisão desejada de 20o C, na validação 4 valores de erro abaixo da precisão desejada de 20o C e no teste 5 valores de erro abaixo da precisão desejada de 20o C. A RNA Feed-Forward Backpropagation com o algoritmo de treinamento LM utilizando o IEQ, Limiar3 e Mahalanobis em conjunto mostrou- 4.3 TRATAMENTO E ANÁLISE DOS DADOS 97 se adequada em relação ao treinamento, validação e teste em comparação com a precisão adotada. Tabela 16: Resultados da RNA: etapa de treinamento relativa à base 3 Tabela 17: Resultados da RNA: etapa de validação relativa à base 3 Para a etapa de treinamento da base 4 pode ser visto na Tabela 19 que o valor do SE de todas as bases modificadas foi inferior à base original e, portanto, adequado para o modelo, exceto para as bases: 4l3pearson (l3 = Limiar com 3 desvios), 4l3mahalpearson (mahal = distância de Mahalanobis), 4pearson (aqui foram usadas as técnicas combinadas IEQ, Limiar com 3 desvios e distância de Mahalanobis) e 4l3parcial (parcial = correlação parcial) na coluna Elman com Levenberg - Marquardt; 4.3 TRATAMENTO E ANÁLISE DOS DADOS 98 Tabela 18: Resultados da RNA: etapa de teste relativa à base 3 4mahalparcial na coluna Elman com Propagação Resiliente, que apresentaram um SE maior. Considerando a precisão do sensor da V&M de 20o C, todos os resultados da base original 4 referentes ao treinamento, validação e teste foram superiores e, portanto, inadequados para o modelo. No treinamento as bases modificadas apresentaram 4 valores de erro abaixo da precisão desejada de 20o C, na validação 2 valores de erro abaixo da precisão desejada de 20o C e no teste 2 valores de erro abaixo da precisão desejada de 20o C. Tabela 19: Resultados da RNA: etapa de treinamento relativa à base 4 4.3 TRATAMENTO E ANÁLISE DOS DADOS 99 Para a etapa de validação da base 4 pode ser visto na Tabela 20 que o valor do SE de todas as bases modificadas foi inferior à base original e, portanto, adequado para o modelo, exceto para as bases: 4epearson, 4l3pearson, 4l3mahalpearson, 4mahalpearson, 4l3parcial e 4l3mahalparcial na coluna Elman com Levenberg - Marquardt. Tabela 20: Resultados da RNA: etapa de validação relativa à base 4 Para a etapa de teste da base 4 pode ser visto na Tabela 21 que o valor do SE de todas as bases modificadas foi inferior à base original e, portanto, adequado para o modelo, exceto para as bases: 4l3 mahalpearson e 4l3mahalparcial na coluna Levenberg - Marquardt; 4l3mahalpearson e 4l3mahalparcial na coluna Cascade-forward com Levenberg - Marquardt; 4l3 mahalpearson, 4mahalpearson e 4l3mahalparcial na coluna Elman com Levenberg - Marquardt; 4l3mahalpearson, 4l3mahalparcial e 4mahalparcial na coluna Elman com Propagação Resiliente; 4l3mahalpearson e 4l3mahalparcial na coluna Elman com One Step Secant; 4l3mahalpearson e 4l3mahalparcial na coluna Elman com Beale-Powell restarts. Ao final desta avaliação chega-se às seguintes conclusões: para a base 4 devido à etapa de teste as bases 4l3mahalpearson e 4l3mahalparcial tiveram o pior desempenho. E no geral a RNA: Levenberg - Marquardt teve o melhor desempenho seguida pela Cascade-forward com Levenberg - Marquardt. Na maioria dos casos, as bases modificadas tiveram um desempenho mais adequado em relação às bases originais. 4.4 VALIDAÇÃO DO MODELO 100 Tabela 21: Resultados da RNA: etapa de teste relativa à base 4 No geral, a RNA Feed-Forward Backpropagation com o algoritmo de treinamento LM utilizando o IEQ, Limiar3 e Mahalanobis em conjunto na base 3 mostrou-se adequada em relação ao treinamento, validação e teste em comparação com a precisão adotada e, por adequada para o modelo. 4.4 VALIDAÇÃO DO MODELO Para validar o treinamento dos modelos neurais foram utilizados: a ANOVA, o teste F e o teste de Cochran para comparação de variâncias, o teste de Bonferroni para identificação de dados suspeitos, e o teste Z para comparação de médias. A análise de variância é um teste estatístico amplamente difundido entre os analistas, e visa fundamentalmente verificar se existe uma diferença significativa entre as médias e se os fatores exercem influência em alguma variável dependente. A distribuição F testa a igualdade das variâncias (homogeneidade). O F observado é: Fo = MST MSE (4.4) Para operar com variâncias, a variação explicada deve ser dividida pelo gl do numerador (k −1), e a variação não-explicada deve ser dividida pelo gl do denominador, 4.4 VALIDAÇÃO DO MODELO 101 sendo k o número de amostras e n o tamanho das amostras. O F observado é: Fo = r2 (n − k) (k − 1) (1 − r2 ) (4.5) SST (n − k) (k − 1) SSE (4.6) Fo = na qual: • SST é Total Sum of Squares ou Sum of Squares for Treatments (Variação total: Soma dos quadrados dos desvios ou soma de quadrados total). • SSE é Error Sum of Squares ou Sum of Squares Errors (Variação não-explicada: Soma dos erros quadráticos ou soma dos quadrados dos desvios). • M SE é Mean Squares of Error (Média do quadrado dos erros). • M ST é Mean Squares for Treatments. Como o início do procedimento de análise de variância se deu na agricultura, no teste de hipóteses permanecem algumas definições dessa área, como o termo tratamento que define a causa ou fonte de variação dentro de um conjunto de dados. O coeficiente de determinação r2 é definido como a relação que mede a proporção da variação total da variável dependente que é explicada pela variação da variável independente. r2 = MST SST (4.7) O coeficiente de determinação r2 é sempre um número positivo entre zero e um. Quanto mais próximo o coeficiente de determinação estiver da unidade, melhor será o ajuste. Se o teste F indicar diferenças significativas entre as variâncias, e os níveis forem fixos, haverá interesse em identificar quais as médias que diferem entre si. Se o teste F indicar diferenças significativas entre as variâncias, e os níveis forem aleatórios, haverá interesse em identificar a estimativa dos componentes de variação. 4.4 VALIDAÇÃO DO MODELO 102 Pelos valores obtidos para o teste F , pôde-se testar a hipótese da existência de diferenças entre as variâncias das amostras. Se a hipótese nula é rejeitada pelo teste F , ou seja, se existe diferença entre as variâncias, não é possível saber quais as temperaturas que diferem significativamente entre si ou ainda quais são os grupos de temperatura que diferem uns dos outros. Por meio da distribuição F , têm-se as seguintes suposições: se o valor do percentil for menor do que 10 ou 20 % do iésimo caso, este não apresenta influência sobre os valores ajustados. Se o valor do percentil estiver próximo a 50 % ou mais, os valores ajustados com estes casos diferem substancialmente, ou seja, estes valores são considerados dados suspeitos. O percentil de cada valor da amostra y ordenada de forma crescente em uma escala de 5 a 95 % é: P% = 10d − 5 (4.8) d é a ordem de um valor da série, e P é o percentil em porcentagem dessa ordem em uma escala de 5 a 95 %. Para as bases originais as temperaturas do modelo ficaram próximo a 50 % na distribuição F . Assim, constatou-se que existem dados suspeitos que influenciam o ajuste dos valores do modelo. O baixo p − value (5, 42004E − 08, ou seja, 0, 000000542) fornece uma sólida base para rejeitar a hipótese nula e concluir que existe diferença entre as variâncias referentes ao treinamento, validação e teste da RNA, considerando um α igual a 5 %, ou seja, o intervalo de confiança é de 95 %. Logo a hipótese de que a base é ruidosa está comprovada. Para as bases de dados modificadas, nenhum dos casos presentes no modelo ficou acima de 10 % na distribuição F . Assim, constatou-se que não existem dados suspeitos que influenciem o ajuste dos valores do modelo. Isso pode ser comprovado também com o teste F pois o F observado variando entre 3, 789 e 3, 79 é menor do que o F crítico 3, 84, a hipótese nula deve ser aceita, logo não há diferença significativa entre as variabilidades das temperaturas referentes ao treinamento, validação e teste das RNA. O coeficiente de determinação das bases originais ficou em torno de 0, 33 para o treinamento e teste e 0, 70 para a validação. Nas bases modificadas o coeficiente de determinação ficou em torno de 0, 60 para treinamento e teste e 0, 90 para a validação, 4.4 VALIDAÇÃO DO MODELO 103 isto indica que o modelo está muito bem ajustado aos dados. O coeficiente de variação é calculado como: cv = σ(x) x̄ (4.9) e mostra o tamanho da variação de x. O valor do coeficiente de variação foi igual a 1, 90 %, indicando ótima precisão, para as bases originais e menor do que 1 % para as bases modificadas, demonstrando que as bases modificadas proporcionaram um melhor desempenho nas RNA. O teste de Cochran comprovou os resultados do teste F para as bases originais e modificadas (ver 2.2.10). Para as base de dados originais o teste de Cochran apresentou p − value muito pequenos como 2, 2e − 16 muito abaixo do intervalo de confiança de 0, 05. Como o p − value foi menor que o valor crítico, a variância em questão é considerada como sendo dado suspeito. De fato, como o valor calculado foi menor, o resultado é significante, o que nega a hipótese de igualdade (ou de homogeneidade) das variâncias envolvidas no experimento. Para as bases modificadas o teste de Cochran apresentou valores C como 0, 00021258 muito abaixo do valor crítico 0, 0495, e p − value = 0, 50 maior que α = 0, 05. Portanto, conclui-se que as variâncias são homogêneas. O teste Z é utilizado para testar a média de uma população e construir um intervalo de confiança, quando o desvio padrão da população for conhecido. (x − µo ) z= σ √ n (4.10) na qual µo é o valor da média que ocorre sob a hipótese nula. x média amostral σ desvio padrão conhecido (população). n ≥ 30 Para as bases originais o teste Z apresentou valores como 2, 233 maior do que 1, 96, então deve-se rejeitar a hipótese nula e aceitar a hipótese alternativa. E como o p − value = 0, 0255 é menor do que o nível de significância 0, 05, a hipótese nula 4.5 COMPARAÇÃO DOS RESULTADOS 104 Tabela 22: Hipóteses alternativas do teste z. Hipótese alternativa Rejeitar a hipótese nula Aceitar a hipótese nula µ1 − µ2 < δ z ≤ −zα z > −zα z ≥ zα z < zα µ1 − µ2 > δ α α µ1 − µ2 6= δ z ≤ −z 2 ou z >= z 2 −z α2 < z < z α2 Tabela 23: Comparação de resultados. Melhores Resultados do SE (◦ C) Araujo 2008 Duraes 2009 MLP c/ LM P-CMAC MLP c/ LM 49,5727 22,65 16,44 deve ser rejeitada. Portanto, conclui-se que o modelo baseado em dados originais realmente possui dados suspeitos. Para as bases modificadas o teste Z apresentou p − value entre 0, 17 e 0, 64, maior do que o nível de significância α = 0, 05, a hipótese nula deve ser aceita, pois há evidências de que a diferença de médias não seja significativa. Por último, foi utilizado o teste de Bonferroni que pode identificar dados suspeitos em observações do y previsto, nos quais os resíduos padronizados excluídos são grandes e com grande influência no modelo, no qual os maiores resíduos padronizados excluídos seriam um dado suspeito. Este teste foi utilizado somente nas bases de dados modificadas, nas quais há interesse em saber se os resíduos padronizados excluídos influenciaram o modelo. O teste de Bonferroni apresentou p − values como 0, 53 maiores do que o nível de significância 0, 05. Conclui-se por este teste que o conjunto testado não contém dados suspeitos. 4.5 COMPARAÇÃO DOS RESULTADOS Para mostrar o quanto os resultados encontrados são satisfatórios, os resultados alcançados foram comparados com os resultados alcançados por Araujo (2008) por meio de dois experimentos. No primeiro experimento ele utilizou uma rede MLP e no segundo utilizou uma rede P-CMAC conforme pode ser visto na Tabela 23. É importante lembrar que Araujo (2008) utilizou uma massa de 1736 dados, enquanto as bases utilizadas em (DURÃES; ALMEIDA, 2009a) e (DURÃES; ALMEIDA, 2009b) 4.6 LIMITAÇÕES DO MÉTODO 105 possuem a quantidade de elementos variando de 19044 a 32415 (ver Tabelas 10 até 15). Como as redes neurais são robustas e possuem alta capacidade de generalização, com uma massa de dados menor as RNA apresentam resultados melhores e consequêntemente erros menores. Além disso, as etapas de treinamento, validação e teste desenvolvidas em (DURÃES; ALMEIDA, 2009a) e (DURÃES; ALMEIDA, 2009b) apresentaram SE homogêneos e modelos adequados, conforme já mencionado na Subseção 4.4, o mesmo não foi alcançado por Araujo (2008). A Figura 20 mostra o desempenho de uma rede MLP com o algoritmo de treinamento Levenberg-Marquardt utilizada na base 3 original. Os “x” em azul representam os dados do treinamento, os “+” em verde representam os dados da validação, e os “o” em vermelho representam os dados da etapa de teste. Como é visto na Figura 20, a amplitude dos resíduos está compreendida no intervalo [−5; 4] em escala de engenharia, ou seja, em graus Celsius. A Figura 21 mostra o desempenho de uma rede MLP com o algoritmo de treinamento Levenberg-Marquardt utilizada na base 3 filtrada com os métodos IEQ, Limiar com 3 desvios e distância de Mahalanobis, correlação parcial e PCA. Os “x” em azul representam os dados do treinamento, os “+” em verde representam os dados da validação, e os “o” em vermelho representam os dados da etapa de teste. A amplitude do erro absoluto está compreendida no intervalo [−0, 02; 0, 025] em escala de engenharia, e portanto, bem menor que a amplitude dos resíduos da base original, cujo resultado é mostrado na Figura 20. Isto mostra efetivamente que o método de refinamento proposto e aplicado neste trabalho foi eficaz e eficiente, e portanto adequado ao problema abordado. Após a utilização de todos estes testes estatísticos pode-se concluir que os modelos utilizando métodos estatísticos, lógica fuzzy e RNA apresentaram um melhor desempenho em relação as técnicas convencionais de RNA sem tratamento de dados. Além disso, a validação dos modelos das técnicas convencionais de RNA sem tratamento de dados não foram satisfatórias, o mesmo não ocorreu com os modelos híbridos que mostraram-se válidos. 4.6 LIMITAÇÕES DO MÉTODO Algumas técnicas estatísticas não foram abordadas devido às suas limitações. Por exemplo: o teste Q de Dixon para redução de dados suspeitos, que conforme DQBF- 4.6 LIMITAÇÕES DO MÉTODO 106 Figura 20: Gráfico de desempenho dos dados de treinamento de um modelo neural. CUL (2008), Neves (2008), Nascimento e Carvalho (2001) e Zamora (2006) só pode ser utilizado entre 3 e 14 elementos. O teste de Grubbs para redução de dados suspeitos, que segundo a ISO só deve ser utilizado entre 5 e 30 elementos. O teste T de Student para comparação de médias, que só pode ser utilizado até 30 elementos (CAMPOS, 2003), (FREUND, 2006), (LAPPONI, 2005) e (NEUFELD, 2003). A distribuição T acima de 30 elementos tende a uma distribuição normal, portanto é o mesmo que usar o Teste Z para médias. A técnica de reamostragem Bootstrap não pôde ser usada para construir medidas de variabilidade para o PCA, ou para criar intervalos de confianças, ou ainda para 4.6 LIMITAÇÕES DO MÉTODO 107 Figura 21: Gráfico de desempenho dos dados de treinamento de um modelo neural. particionar o conjunto de dados porque nela o conjunto de treinamento foi gerado a partir de N sorteios aleatórios com reposição a partir do conjunto de dados original (contendo N registros), como o conjunto de teste é composto pelos registros do conjunto de dados original não sorteados para o treinamento, esse método que gera os conjuntos, abstrai e avalia o modelo um número repetido de vezes, a fim de ultimar uma média de desempenho possui um elevado custo computacional além de criar partições que não eram representativas da população, justamente por ser um método probabilístico com reposição. Por causa do tamanho das bases 3 e 4, o teste da distância de Cook para identi- 4.7 DISCUSSÕES FINAIS 108 ficação de resíduos com valores altos não pôde ser utilizado devido ao elevado custo computacional, assim como a utilização da RNA RBF (Radial Basis Function) que também não pôde ser utilizada devido ao elevado custo computacional. 4.7 DISCUSSÕES FINAIS Neste Capítulo foram apresentados os resultados encontrados e a sua análise. Foi realizada uma investigação da influência dos parâmetros de treinamento, do tamanho e da composição do conjunto de dados de entrada no desempenho de modelos neurais conforme a proposta geral de refinamento estatístico da Seção 3.2. Então, comparou-se diversas técnicas de análise de dados suspeitos conforme a Subseção 3.5.1 de acordo com a Figura 7, seus resultados podem ser vistos nas Tabelas 4 até 15 da Seção 4.2. E foi feito um estudo comparando-se as RNA Elman, MLP Backpropagation e Cascade - forward e os algoritmos de treinamento OSS, Levenberg-Marquardt, Fletcher-Reeves e Beale-Powell conforme a Figura 18 da Subseção 3.5.1. E finalmente os resultados alcançados pelos modelos híbridos apresentados neste Capítulo mostraram-se mais adequados em relação aos resultados das técnicas convencionais de RNA sem tratamento de dados. Conforme a Seção 4.6 algumas técnicas estatísticas propostas não podem ser utilizadas. Dois fatores limitaram a utilização destas técnicas neste trabalho: a quantidade de elementos utilizada e o esforço computacional demandado. Exceto o Bootstrap que não foi utilizado pelo fato de ser um método probabilístico com reposição. Pode-se afirmar ao final da análise aqui desenvolvida, que este trabalho cumpriu efetivamente o seu papel comprovando a hipótese inicial, isto foi mostrado na Seção 4.4. Espera-se que os resultados alcançados por este trabalho dêem a outros pesquisadores a possibilidade de evoluir na construção de sistemas neurais. E além disso, desperte a consciência para o estudo, utilização e difusão destes instrumentos. 109 5 CONCLUSÃO Inicialmente foi feita uma contextualização teórica sobre RNA, lógica fuzzy e técnicas estatísticas, o que permitiu o embasamento conceitual para o desenvolvimento deste trabalho. Este arcabouço conceitual se mostrou muito importante ao longo do projeto porque garante que os conceitos utilizados neste trabalho possam ser evoluídos de modo consistente em trabalhos futuros. A avaliação dos resultados no Capítulo 4 comprovou que este trabalho cumpriu o seu objetivo de demonstrar a importância da qualidade dos dados em um modelo baseado em RNA. Além disso, o mesmo mostrou que a metodologia aplicada é adequada e pode ser utilizada em conjunto com as RNA para a criação de modelos matemáticos. Do ponto de vista do objetivo geral proposto, este foi alcançado satisfatoriamente. O trabalho também conseguiu cumprir seus objetivos específicos, conforme descrições abaixo: • Aperfeiçoar modelos matemáticos baseados em RNA: este objetivo foi alcançado uma vez que os resultados alcançados pelos modelos híbridos apresentados no Capítulo 4 mostraram-se mais adequados em relação aos resultados das técnicas convencionais de pré-processamento em modelos baseados em RNA. • Fazer um estudo comparativo de desempenho entre diferentes RNA: este estudo foi feito comparando-se as RNA Elman, MLP Backpropagation e Cascade - forward e os algoritmos de treinamento OSS, Levenberg-Marquardt, FletcherReeves e Beale-Powell conforme foi apresentado na Figura 18 da Subseção 3.5.1 e discutido na mesma Subseção. • Investigar a influência dos parâmetros de treinamento, do tamanho e da com- posição do conjunto de dados de entrada no desempenho de modelos neurais: esta investigação foi realizada por meio da proposta geral de refinamento estatístico da Seção 3.2, e os seus resultados que podem ser vistos no Capítulo 4 5 CONCLUSÃO 110 são que, as bases 1 e 2 não foram utilizadas porque possuem uma quantidade insatisfatória de dados o que facilita a convergência das RNA; o mesmo não acontece com as bases 3 e 4 porque apresentam uma quantidade satisfatória de dados e, portanto, puderam ser utilizadas. • Comparar diversas técnicas de análise de dados suspeitos: esta comparação foi realizada na Subseção 3.5.1 de acordo com a Figura 7 e seus resultados podem ser vistos nas Tabelas 4 até 15 da Seção 4.2. As discussões sobre estes resultados foram apresentadas na mesma Seção. • Avaliar os resultados em relação às técnicas tradicionais: esta avaliação foi realizada na Seção 4.3 e seus resultados encontram-se nas Tabelas 16 até 21, com discussões detalhadas na mesma Seção. Com as experiências adquiridas, mostrou-se que as técnicas de análise estatística de dados em sistemas utilizando RNA são necessárias e muito úteis, porém, é importante que a visão das possibilidades de utilização e aplicação dessa tecnologia seja ampliada. Este trabalho auxiliou nesta questão da seguinte maneira: primeiro com a verificação das várias semelhanças entre estatística e RNA, pois muitas das técnicas utilizadas em RNA possuem um paralelo em estatística. O próximo passo foi utilizar as semelhanças para tratar os pontos fracos das RNA, assim como é feito em sistemas híbridos. Uma grande dificuldade tratada em estatística é justificar a importância de se manter determinadas variáveis e de se retirar outras. Os valores modais de entrada dificultam a modelagem porque em funções não existem valores de saídas diferentes para valores iguais de entrada. Isto acontece apenas em relações matemáticas e, portanto, transformar relações matemáticas em funções não é uma tarefa simples. A capacidade de generalização permite que RNA lidem com ruídos e distorções nos dados, respondendo corretamente a novos padrões, ou seja, as RNA são capazes de estabelecer relações entre padrões de natureza distinta. Mas, dados suspeitos podem distorcer a entrada de uma RNA. Assim, o conjunto de dados foi examinado para identificar relações mais complexas. Outro ponto que pode causar problemas é anomalia dos dados, pontos que erroneamente estejam fora da faixa, indicando erros nos dados. Além disso, as RNA são sensíveis à escala das variáveis; se a magnitude dos valores de entrada diferirem dentre si, a rede pode erroneamente atribuir uma maior 5.1 CONTRIBUIÇÕES DESTE TRABALHO 111 importância a valores maiores. Outro fato é que os dados devem ser normalizados, pois a função de ativação estará sendo excitada em uma região muito plana, com derivada praticamente nula. Somando-se a isto o fato de uma RNA ser sensível a mínimos locais, as entradas de uma RNA são portanto, um ponto chave para o seu bom funcionamento, sendo conhecidas várias técnicas para inicializar a estrutura de um RNA a fim de acelerar o treinamento e melhorar a generalização entre elas, por exemplo, as metaheurísticas e a lógica fuzzy. Quando este conjunto de técnicas falham, o pesquisador normalmente abandona a RNA em favor de outros métodos. O trabalho aqui desenvolvido é relevante porque utiliza uma combinação de lógica fuzzy e estatística para o pré-processamento de dados e a determinação de conjuntos de treinamento, validação e teste, além dos atributos a serem utilizados nesses conjuntos, fornecendo novas possibilidades de utilização das RNA. 5.1 CONTRIBUIÇÕES DESTE TRABALHO Como a maior dificuldade encontrada no desenvolvimento desse trabalho foi a carência de material referente ao estudo. Este trabalho contribui para o desenvolvimento de ferramentas estatísticas utilizadas em conjunto com lógica fuzzy e redes neurais ao diminuir a carência de referencial teórico-conceitual. Do ponto de vista operacional, este trabalho sinaliza direções importantes para o desenvolvimento de aplicações de modelos matemáticos na indústria. Considera-se que este trabalho pôde contribuir para mostrar a viabilidade da aplicação de técnicas estatísticas e lógica fuzzy na validação de modelos que utilizam RNA na modelagem de processos industriais. O uso destas técnicas ainda não é tão abrangente em aplicações industriais. A maioria dos trabalhos científicos publicados nesta área ainda carece de uma ligação estreita com as aplicações reais. Como pode ser observado neste trabalho, o uso de ferramentas estatísticas e lógica fuzzy na validação de modelos baseados em RNA para processos industriais tem potencialidades. Desta maneira, é importante aproximar mais as pesquisas desta área de IC das aplicações industriais. O presente trabalho traz como contribuição acadêmica a elaboração de um experimento que, conduzido com o rigor do método científico, obteve dados que mediante análise mostraram que a opção pela aplicação de métodos estatísticos e lógica fuzzy na validação de modelos que utilizam RNA é adequada. Assim, do ponto de vista acadêmico, este trabalho contribui para a associação das técnicas estatísticas, lógica 5.2 TRABALHOS FUTUROS 112 fuzzy e RNA. Esta associação é de suma importância para orientação de trabalhos futuros, permitindo vislumbrar novas possibilidades de desenvolvimento e refinamento de modelos matemáticos. 5.2 TRABALHOS FUTUROS Neste trabalho foi efetuada uma breve revisão bibliográfica sobre alguns métodos estatísticos aplicados à análise da qualidade, lógica fuzzy e RNA. Durante o desenvolvimento deste trabalho e também após sua conclusão foram identificadas várias possibilidades de ampliação da proposta inicial e alguns pontos que poderiam ser modificados e/ou estendidos, proporcionando um melhor desempenho ao conjunto de técnicas propostas para a modelagem matemática. Contudo, a fim de garantir o atendimento dos objetivos inicialmente propostos, algumas técnicas estatísticas não foram abordadas devido às suas limitações conforme 4.6. Acredita-se que outros trabalhos poderão ser desenvolvidos em continuidade a este, no intuito de promover melhorias nas técnicas utilizadas, as quais podem ser aperfeiçoadas. A seguir são apresentadas sugestões para estes trabalhos: • Outros métodos de seleção de características podem ser implementados como: análise de agrupamentos, árvores de decisão e meta-heurísticas; • Outras RNA podem ser utilizadas; • A utilização das técnicas aqui detalhadas em problemas de classificação e agrupamentos; • A implementação das técnicas aqui descritas em ambiente de produção; • A análise de outros casos nos quais efetivamente a premissa de qualidade dos dados seja inadequadamente assumida nos métodos estatísticos abordados. 113 Referências ALMEIDA, P. E. M. de. Redes Neurais CMAC Paramétricas: Fundamentos e Aplicações em Processamento de Sinais e Controle de Processos. Tese (Doutorado) — Escola Politécnica da USP, 2002. ALMEIDA, P. E. M. de. Notas de Aula da Disciplina Inteligência Computacional. Belo Horizonte: Programa de Mestrado em Modelagem Matemática e Computacional do Centro Federal de Educação Tecnológica de Minas Gerais, 2008. ALMEIDA, P. E. M. de; SIMOES, M. G. Fundamentals of a fast convergence parametric cmac network. Proceedings of IEEE-INSS IJCNN, Washington, v. 3, p. 3015–3020, 2001. ALMEIDA, P. E. M. de; SIMOES, M. G. Fundamentals and applications of parametric cmac: a fast convergence neural structure. IEEE Transactions on Industrial Applications, v. 39, n. 5, p. 1551–1557, September-October 2003. ALVES, F. de O. Reconhecimento Inteligente de Sinais de Trânsito Brasileiros. Dissertação (Monografia) — Universidade do Vale do Rio dos Sinos, São Leopoldo, Junho 2004. AMOR, D. A (R)Evolução do E-business. São Paulo: Makron Books, 2000. ARAUJO, A. F. de. Inteligência Computacional na Indústria - Etapa 3: Implementação de um Modelo Matemático de Laminação de Tubos Usando Redes Neurais Artificiais. Belo Horizonte, Julho 2006. ARAUJO, A. F. de. Inteligência Computacional na Indústria - Etapa 4: Implementação de um Modelo Matemático de Laminação de Tubos Usando Redes Neurais Artificiais. Belo Horizonte, Junho 2007. ARAUJO, A. F. de. Inteligência Computacional na Indústria - Etapa 5: Implementação de um Modelo Matemático para um Convertedor de Aço tipo LD. Belo Horizonte, Junho 2008. BAPTISTA, N. Introdução ao estudo de controle estatístico de processo, CEP. [S.l.]: Qualitymark, 1996. BAUER, D. P. Aplicação de Redes Neurais Artificiais na Determinação do Preço de Ações. Dissertação (Monografia) — Centro Universitário Feevale, Novo Hamburgo, Novembro 2008. BORBA, J. T. et al. Monografia para Economia. 1. ed. São Paulo: Saraiva, 2004. Referências 114 BORGES, R. M. H. Comparação interlaboratorial: Instrumento para garantia de qualidade em laboratórios químicos. In: INMETRO. Curitiba, 2006. BRAGA, A. de P.; CARVALHO, A. C. P. de Leon Ferreira de; LUDERMIR, T. B. Redes neurais artificiais: teoria e aplicações. 2. ed. Rio de Janeiro: LTC, 2007. CAMPOS, G. M. Estatística Prática para Docentes e Pós-Graduandos - 11. Aditividade e homogeineidade. São Paulo: [s.n.], 2000. CAMPOS, M. S. Desvendando o MINITAB. Rio de Janeiro: Qualitymark, 2003. CAMPOS, T. E. de. Distância de Mahalanobis. [S.l.], 2001. CARVALHO, L. A. V. Data Mining: A mineração de dados no marketing, medicina, engenharia e administração. São Paulo: Érica, 2005. CASTANHAEIRA, L. G. Aplicação de Técnicas de Mineração de Dados em Problemas de Classificação de Padrões. Dissertação (Dissertação) — UFMG, Belo Horizonte, Setembro 2008. CERVO, A. L.; BERVIAN, P. A. Metodologia cientifica. 3. ed. São Paulo: McGraw-Hill do Brasil, 1983. CIOS, K. J.; KURGAN, L. A. Trends in Data Mining and Knowledge Discovery. [S.l.]: University of Colorado at Boulder, Department of Computer Science, 2003. COLOMBO, R. T.; GUERRA, A. C.; AGUAYO, M. T. V. Aplicação de Data Mining a Dados de Avaliação da Qualidade de Produtos de Software. [S.l.], Março 2006. CONAGIN, A. et al. Metodologia e técnicas experimentais - efeito da falta de normalidade em testes de homogeneidade das variâncias. 4◦ Simpósio de Estatística Aplicada à Experimentação Agronômica e 36a Reunião Anual da Região Brasileira da Sociedade Internacional de Biometria, Outubro 1993. COSTA, A. A. B. Aplicação da Metaheurística PSO na Identificação de Pontos Influentes por meio da Função de Sensibilidade de Casos. Dissertação (Mestrado) — CEFET-MG, Belo Horizonte, MG, Setembro 2009. CUNHA, A. P. da. Redes Neurais em Processos Siderúrgicos : Analisador Virtual de Propriedades Metalúrgicas do Sinter e Modelo de Predição de Qualidade do Aço. Tese (Doutorado) — UNICAMP, Campinas, SP., Dezembro 2001. DE AGUIAR JÚNIOR, S. R. Modelo Rapide: uma aplicação de mineração de dados e redes neurais artificiais para a estimativa da demanda por transporte rodoviário interestadual de passageiros no Brasil. Dissertação (Dissertação) — Universidade Católica de Brasília, Brasília, Maio 2004. DOMINGUETE, D. H. et al. Avaliação de Técnicas de Regressão e de uma Nova Abordagem para a Otimização do Processo de Desfosforação de Aço no Convertedor LD da V&M do Brasil. São Paulo, Julho e Setembro 2006. Referências 115 DORNELLES, F.; PEDROLLO, O. C.; GOLDENFUM, J. A. Análise comparativa da aplicação de redes neurais e sistemas de inferência difusa na previsão de nível do rio quaraí utilizando previsão de chuva. I Simpósio de Recursos Hídricos do Sul-Sudeste, 2006. DQBFCUL. Notas sobre algarismos significativos e cálculo de erros. [S.l.], 2008. DUARTE, S. V.; FURTADO, M. S. V. Manual para elaboração de monografias e projetos de pesquisas. 3. ed. Montes Claros, 2002. DURÃES, R. L.; ALMEIDA, P. E. M. de. Refinamento de modelos baseados em rna com o emprego de análise estatística de dados e lógica fuzzy. In: IME. XII EMC Encontro de Modelagem Computacional. Rio de Janeiro, RJ, 2009. Disponível em: <http://www.emc2009.iprj.uerj.br/>. DURÃES, R. L.; ALMEIDA, P. E. M. de. Utilizando análise estatística de dados e lógica fuzzy para validar modelos baseados em rna. In: COPPE/UFRJ AND LNCC. 30 o CILAMCE - Congresso Ibero-Latino-Americano de Métodos Computacionais em Engenharia. Armação dos Búzios, RJ, 2009. Disponível em: <http://eventos.nacad.ufrj.br/>. DWINNELL, W. Data Mining in MATLAB: Mahalanobis Distance. [S.l.], 2008. FERNANDES, L. G. L.; NAVAUX, P. O. A.; PORTUGAL, M. S. Previsão de séries de tempo: redes neurais artificiais e modelos estruturais. Pesq. Plan. Econ. Previsão de séries de tempo, v. 26, n. 2, p. 253–276, Agosto 1996. FERRONATO, G. Intervalos de Predição para Redes Neurais Artificiais via Regressão Não Linear. Dissertação (Dissertação) — UFSC, Florianópolis, Agosto 2008. FONSECA, C.; SANTOS, R. Comparação interlaboratorial de resultados analiticos análise dilatometrica: Uma ferramenta para teste de materiais. Outubro 2004. FRANCA, J. L.; VASCOCELLOS, A. C. d. Manual para Normalização de Publicações técnico-científica. 7. ed. Belo Horizonte, 2004. FREUND, J. E. Estatística Aplicada: economia, administração e contabilidade. Porto Alegre: Bookman, 2006. FUNARBE, F. A. B. Testes de Cochran a Bartlet. [S.l.], 2008. GIL, A. C. Como Elaborar projeto de pesquisa. São Paulo: Atlas, 2000. GIL, A. C. Técnicas de Pesquisas em Economia e Elaboração de Monografias. São Paulo: Atlas, 2000. GOMES, D. T. Redes Neurais Recorrentes para Previsão de Séries Temporais de Memórias Curta e Longa. Dissertação (Dissertação) — UNICAMP, Campinas, SP, Novembro 2005. HAYKIN, S. Redes neurais: princípios e prática. Porto Alegre: Bookman, 2007. IMAM. CEP - Controle Estatístico do Processo. [S.l.: s.n.], 2004. Referências 116 INMON, W. H. Como construir o data warehouse. São Paulo: Editora Campus, 1997. INMON, W. H.; WELCH, J. D.; GLASSEY, K. L. Gerenciando Data Warehouse. São Paulo: Makron Books, 1999. IUPAC; ISO; AOAC. The harmonized protocol for the proficiency testing of (chemical) analytical laboratories (technical report). [S.l.], march 2004. JCOlivieri Consultoria. Rejeição de Dispersos. [S.l.], 2008. KIMBALL, R. Data Warehouse Toolkit. São Paulo: Makron Books, 1996. LAPPONI, J. C. Estatística usando Excel. Rio de Janeiro: Elsevier, 2005. LAVILLE, C.; DIDONNE, J. A construção do saber, manual de metodologia da pesquisa em ciências humanas. Belo Horizonte, 1977. MANLY, B. F. J. Métodos Estatísticos Multivariados: Uma Introdução. 3. ed. Porto Alegre: Bookman, 2008. MARANHA, S. P. D. et al. Aplicação de testes estatísticos na implatação dos novos sistemas de amostragem do manuseio de carvão e coque da companhia siderurgica paulista. SEMINÁRIO DE REDUÇÃO DE MINÉRIO DE FERRO E MATÉRIAS-PRIMAS E SIMPÓSIO BRASILEIRO DE MINÉRIO DE FERRO, v. 3, n. 1, p. 18–21, Julho a Setembro 2006. MARCONI, M. de A.; LAKATOS, E. M. Técnicas de pesquisa e execução de pesquisas, amostragem e técnicas de pesquisa, elaboração, análise e interpretação de dados. 5. ed. São Paulo: Atlas, 2002. MARTINS, A. C. et al. Utilizando redes neurais artificiais para soluções de problemas de aproximação de funções contínuas. Curso Ciência da Computação, Faculdade Ruy Barbosa, 2009. MEDEIROS, L. F. de. Redes Neurais em Delphi. Florianópolis: Visual Books Editora, 2003. MEIRELES, M. R. G.; ALMEIDA, P. E. M.; SIMOES, M. G. A comprehensive review for industrial applicability of artificial neural networks. IEEE Transactions on Industrial Electronics, New York, v. 50, n. 3, p. 585–601, June 2003. MENEZES, H. Comércio Eletrônico Para Pequenas Empresas. Florianópolis: Visual Books Ltda., 2003. MINGOTI, S. A. Análise de dados através de métodos de estatística multivariada: uma abordagem aplicada. Belo Horizonte: Editora UFMG, 2005. MORAES, R. T. B. de; SILVEIRA, A. Otimizando Resultados com a Gestão das Perdas Não-Técnicas de Energia Elétrica. Belo Horizonte, Agosto 2006. MOREIRA, D. B.; LANA, M. F. de. A geração de escória de aciaria LD pelo método de convertedor com sopro de oxigênio. 2002. Disponível em: <cst.com.br/produtos/coprodutos/publicacoes/publicacoes.asp>. Referências 117 NASCIMENTO, H. L.; CARVALHO, L. R. F. d. Ferramentas Estatísticas para a Escolha, Validação, Comparação e Monitoramento de Métodos Analíticos. Instituto de Química - Universidade de São Paulo, LEMA - Laboratório de Estudos do Meio Ambiente, São Paulo: [s.n.], 2001. NBR ISO 9001, A. B. d. N. T. NBR ISO 9000: Sistema de Gestão da Qualidade Fundamentos e Vocabulário. Rio de Janeiro, 2000. NETO, L. B. et al. Neuro-cpt: Classificação de solos usando-se redes neurais artificiais. ENGEVISTA, v. 8, n. 1, p. 37–48, Junho 2006. NEUFELD, J. L. Estatística aplicada à administração usando Excel. São Paulo: Pearson Prentice Hall, 2003. NEVES, C. das. 2.5.- Teste de Normalidade. Faculdade de Ciências e Tecnologia, UNL, Departamento de Química, Monte da Caparica, 2825, Portugal: [s.n.], 2008. OLIVEIRA, A. C. G. Introdução à descoberta de conhecimento em bancos de dados e datamining. Pontifical Catholic University of Minas Gerais, Laboratory of Applied Computational Intelligence (LICAP), Belo Horizonte, 2003. PACIANOTTO, T. A. Aplicação de Redes Neurais para o Ajuste Operacional do Período Final de Sopro de um Processo de Aciaria a Oxigênio. Dissertação (Mestrado) — UNICAMP, Campinas, SP, Outubro 2003. PASSOS, E.; GOLDSCHMIDT, R. Data Mining um guia prático. Rio de Janeiro: Elsevier, 2005. R Development Core Team. R: A Language and Environment for Statistical Computing. ISBN 3-900051-07-0. Vienna, Austria, 2008. RAMOS, A. W. CEP para processos contínuos e em bateladas. São Paulo: Editora Edgard Blücher Ltda., 2000. RAMÍREZ, M. C. V.; FERREIRA, N. J.; VELHO, H. F. do C. Previsão de chuva para o padrão de verão zcas-vcan através de um downscaling estatístico. Centro de Previsão do Tempo e Estudos Climáticos (CPTEC), Instituto Nacional de Pesquisas Espaciais (INPE), Laboratório Associado de Computação e Matemática Aplicada (LAC), Novembro 2006. REIS JUNIOR, G. S. Modelagem Térmica de Processos de Laminação de Tubos Usando Redes Neurais fuzzy-CMAC. Dissertação (Mestrado) — CEFET-MG, Belo Horizonte, MG, 2005. REZENDE, S. O. Sistemas Inteligentes: fundamentos e aplicações. Barueri: Manole, 2005. RIBEIRO, S. R. A. et al. Extração de profundidades mediante redes neurais artificiais e modelo de regressão usando dados de levantamento gps e de imagem ikonosii estudo comparativo. ENGEVISTA, v. 7, n. 1, p. 73–82, Abril 2005. Referências 118 ROCHA, R. R.; SOUZA, T. de Eustáquio de A. Relatório Técnico do LSI: Inteligência Computacional na Indústria: Implementação de Soluções Inteligentes para Problemas Práticos em Automação e Controle de Processos Industriais. [S.l.], março 2004. SANTOS, M. de Fátima Pereira dos; DIAS, J. C. M.; SILVA, D. C. Um modelo de validação de curvas analíticas. São Paulo: Editora Epse, 2007. SHAW, I. S.; SIMOES, M. G. Controle e Modelagem Fuzzy. 1. ed.. ed. São Paulo: Edgard Blücher Ltda., 1999. SILVA, E. L. da; MENEZES, E. M. Metodologia da Pesquisa e Elaboração de Dissertação. 3. ed. Florianópolis, 2001. SILVA, G. da. Modelagem e Implementação de uma Ferramenta Inteligente e de Código Aberto para Inserção Automática de Inferência Fuzzy em Sig Convencionais. Dissertação (Mestrado) — CEFET-MG, Belo Horizonte, Agosto 2006. SINGH, H. S. Data Warehouse. São Paulo: Makron Books, 2001. STEINER, M. T. A. Os Métodos de Análise Discriminante. [S.l.], 2008. STEINER, M. T. A. Os Métodos de Análise Discriminante. [S.l.], Novembro 2009. TAKAHASHI, H. J.; RABELO, G. B. da C.; TEIXEIRA, R. de A. Aplicação de técnicas de inteligência computacional para predição de propriedades mecânicas de aços da alta resistência microligados. Tecnologia em Metalurgia e Materiais, v. 5, n. 2, p. 100–104, Outubro - Dezembro 2008. TAVARES, M. Estatística Não Paramétrica. [S.l.], 2008. TECHSTEEL, S. E. E. A. Modelo matemático de temperatura do final de sopro Convertedor LD. Belo Horizonte, Setembro 2007. TOYOSHIMA, S. H. et al. Aplicação das técnicas de redes neurais artificiais e de análise multivariada discriminante ao estudo de aglomerações industriais: o caso do rio grande do sul e de são paulo. Outubro 2003. UBA, D. M.; DUTRA, L. V. Seleção de candidatos: Uma estratégia para incorporação da distância de mahalanobis no algoritmo k-médias. n. 7, Maio 2008. UFPR. Teste de Shapiro-Wilk para Normalidade. [S.l.], 2008. VIEIRA, S. Introdução à Bioestatística. Rio de Janeiro: Campus, 1985. ZAMORA, P. P. Planejamento de Experimentos em Laboratório (Análise e Otimização). 2006. ZARATE, L. E. Data mining applied to the discovery of symptom patterns in database with nephrolithiasis. AIA2003/IASTED, Benalmãdena, Espanha, 2003. ZARATE, L. E.; PAOLIELLO, R.; RIBEIRO, T. Descoberta de conhecimento em motores de combustão utilizando data mining via técnica de clusterização. Pontifical Catholic University of Minas Gerais, Laboratory of Applied Computational Intelligence (LICAP), Belo Horizonte, 2003. Referências 119 ZARATE, L. E.; PAOLIELLO, R.; RIBEIRO, T. Descoberta de falhas em motores de combustão através de data mining via técnicas de clusterização. Pontifical Catholic University of Minas Gerais, Laboratory of Applied Computational Intelligence (LICAP), Belo Horizonte, 2003. 120 APÊNDICE A -- Banco de Conhecimento Fuzzy Empregado Código Fonte A.1: Regras Fuzzy. I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s s a t i s f a t o r i o ) then ( q u a l i d a d e i s mediana ) I f ( cp i s adequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s menosquestionavel ) then ( q u a l i d a d e i s q3 ) I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s menosquestional ) then ( q u a l i d a d e i s q3 ) I f ( cp i s inadequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s q3 ) 5 I f ( cp i s adequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s s a t i s f a t o r i o ) then ( q u a l i d a d e i s q1 ) I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s s a t i s f a t o r i o ) then ( q u a l i d a d e i s q1 ) I f ( cp i s inadequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s s a t i s f a t o r i o ) then ( q u a l i d a d e i s q1 ) I f ( cp i s inadequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s inadequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) 10 I f ( cp i s inadequado ) and ( cpk i s q u e s t i o n a v a l ) and ( i q r n o m r i s menosquestionavel ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s inadequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s menosquestionavel ) then ( q u a l i d a d e i s ( i n c o m p a t i v e l ) I f ( cp i s inadequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s inadequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s inadequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) 15 I f ( cp i s inadequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) Apêndice A -- Banco de Conhecimento Fuzzy Empregado 121 I f ( cp i s inadequado ) and ( cpk i s capaz ) and ( i q r n o r m i s s a t i s f a t o r i o ) then ( qualidade i s incompativel ) I f ( cp i s inadequado ) and ( cpk i s capaz ) and ( i q r n o r m i s menosquestionavel ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s inadequado ) and ( cpk i s capaz ) and ( i q r n o r m i s q u e s t i o n a v e l ) then ( qualidade i s incompativel ) I f ( cp i s inadequado ) and ( cpk i s capaz ) and ( i q r n o r m i s b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) 20 I f ( cp i s inadequado ) and ( cpk i s capaz ) and ( i q r n o r m i s i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s adequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s adequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s adequado ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s adequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s s a t i s f a t o r i o ) then ( qualidade i s incompativel ) 25 I f ( cp i s adequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s menosquestionavel ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s adequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s q u e s t i o n a v e l ) then ( qualidade i s incompativel ) I f ( cp i s adequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s adequado ) and ( cpk i s incapaz ) and ( i q r n o r m i s i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s adequado ) and ( cpk i s capaz ) and ( i q r n o r m i s s a t i s f a t o r i o ) then ( qualidade i s incompativel ) 30 I f ( cp i s adequado ) and ( cpk i s capaz ) and ( i q r n o r m i s menosquestionavel ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s adequado ) and ( cpk i s capaz ) and ( i q r n o r m i s q u e s t i o n a v e l ) then ( qualidade i s incompativel ) I f ( cp i s adequado ) and ( cpk i s capaz ) and ( i q r n o r m i s b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s adequado ) and ( cpk i s capaz ) and ( i q r n o r m i s i n s a t i s f a t o r i o ) then ( qualidade i s incompativel ) I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) 35 I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) Apêndice A -- Banco de Conhecimento Fuzzy Empregado 122 I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s menosquestionavel ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) 40 I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s menosquestionavel ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) 45 I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s menosquestionavel ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) 50 I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s capaz ) and ( i q r n o r m i s i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s b a s t a n t e s a t i s f a t r o i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s menosquestionavel ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) 55 I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s incapaz ) and ( i q r n o r m i s s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s menosquestionavel ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) Apêndice A -- Banco de Conhecimento Fuzzy Empregado I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s b a s t a n t e q u e s t i o n a v e l ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) 60 I f ( cp i s b a s t a n t e s a t i s f a t o r i o ) and ( cpk i s q u e s t i o n a v e l ) and ( i q r n o r m i s i n s a t i s f a t o r i o ) then ( q u a l i d a d e i s i n c o m p a t i v e l ) 123