http://dx.doi.org/10.15202/10.15202/1981-996X.2016v10n1p23 APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA MACHINE LEARNING AND APPLICATIONS IN BIOINFORMATICS Maria Fernanda Ribeiro Dias Doutoranda em Biotecnologia pelo Instituto Nacional de Metrologia, Qualidade e Tecnologia (INMETRO), Duque de Caxias, RJ, Brasil [email protected] Pedro Geraldo Pascutti Doutor em Física pela Universidade de São Paulo (USP), São Paulo, SP, Brasil Professor adjunto da Universidade Federal do Rio de Janeiro (UFRJ), Rio de Janeiro, RJ, Brasil [email protected] Manuela Leal da Silva Doutora em Ciências Biológicas - Biofísica pela Universidade Federal do Rio de Janeiro (UFRJ), Rio de Janeiro, RJ, Brasil Pesquisadora do Instituto Nacional de Metrologia, Qualidade e Tecnologia (INMETRO), Duque de Caxias, RJ, Brasil [email protected] RESUMO ABSTRACT O uso de ferramentas computacionais para a resolução de sistemas biológicostem chamado a atenção na área científica e proporciona um ganho tanto na quantidade de informações obtidas quanto na interpretação dos dados. A diversidade e complexidadedos problemas biológicos dificulta a análise através da utilização de ferramentas computacionais. Essas dificuldades estão relacionadas ao processamento, forma de representação e interpretação dos dados. Nesse âmbito, a aprendizagem de máquina vem auxiliar no cruzamento de informações e relações oriundas da análise de dados de sistemas biológicos. Atualmente, muitas técnicas e metodologias estão sendo utilizadas em conjunto e dessa forma, problemas mais complexos ganham maior potencial para serem resolvidos. Além disso, o surgimento de supercomputadores vem acrescentar e aumentar a capacidade de exploração e análise dos dados. Uma análise criteriosa se faz necessária toda vez que um novo problema, de cunho biológico, é proposto. Esperamos que essa breve revisão possa contribuir para o entendimento e a resolução desses problemas. The use of computational tools to solve and study biological systems has drawn attention in the scientific area and provides an acquisitionin amount of information obtained and in the interpretation of the data. The diversity and complexity of biological problemscomplicates the analysis using computational tools. These difficulties are associated with the processing, representation and interpretation of data sets. In this context, machine learning comes assist in crossing information and relationships derived from analysis of data in biological systems. Currently many techniques and methodologies are being used together and thus problems that are more complexacquire greater potential to be solved. Moreover, the appearance of supercomputers came add and increase operating capacity and data analysis.On the other hand, a careful analysis is required every time a new problem, of biological nature, it is proposed. We hope this brief review can contribute to the understanding and resolution of these problems. Palavras chave: Sistemas biológicos. Aprendizado de máquina. Bioinformática. Keywords: Biological systems. Machine learning. Bioinformatics. 23 Revista Semioses, v 10, n.01, 2016 Maria Fernanda Ribeiro Dias 1 INTRODUÇÃO Ao longo dos últimos anos a geração de uma grande quantidade de dados genômicos e proteômicos tem resultado em uma grande quantidade de dados biológicos que necessitam ser interpretados (RAZA, 2010). Dentre as áreas da bioinformática destinadas ao processamento e análises destes dados se insere a mineração de dados, que visa desenvolver algoritmos com potencial para analisar uma grande quantidade de informações (ALPAYDIN, 2004; CARVALHO, 2005). Exemplos deste tipo de análise incluem a previsão de estruturas das proteínas, a classificação de genes, a classificação de tipos de câncer com base em dados de microarray, o agrupamento de dados de expressão de genes e a modelagem estatística de interação proteína-proteína (LIBBRECHT; NOBLE, 2015). O termo aprendizagem de máquina surgiu no final do século XX e pode ser definido como a capacidade de melhorar o desempenho na realização de alguma tarefa, por meio da experiência ou da descoberta de similaridade entre os dados (MITCHELL, 1997). Um modelo de aprendizagem de máquina adquire e utiliza conhecimento caso seja capaz de utilizar-se de informações prévias para inferir novos resultados e novas informações (ARBEX, 2009). Logo, a aprendizagem de máquina refere-se à área na qual são desenvolvidos e estudados os algoritmos, técnicas e ferramentas que permitem o aprendizado. Nesse contexto, cita-se o conceito de inteligência artificial, que no sentido mais amplo se dedica as técnicas que permitem ao computador aprender e aperfeiçoar seu desempenho em alguma tarefa, mimetizando o funcionamento do cérebro humano(CAPON; DUNNE, 2007). A aplicação das técnicas de aprendizagem de máquina na bioinformática vem resultando em grande sucesso ao melhorar o desempenho da análise de grande quantidade de dados. Além disso, esta área esta reinventando a forma como esses dados podem ser utilizados e direcionados para fins estratégicos, como biotecnologia e química medicinal, por exemplo. De uma forma metodológica e para facilitar a organização dos métodos, a aprendizagem de máquina pode ser dividida em: a) métodos de aprendizagem de máquina não supervisionada, que consistem em agrupar 24 os dados de modo a permitir a descoberta de similaridades e diferenças entre os padrões (PEROUet al., 2000); b) métodos de aprendizagem de máquina supervisionada, onde os dados são organizados por rótulos (classes) e utilizados como exemplos de treinamento de um sistema que, depois de treinado, será capaz de fazer inferências quanto aos rótulos de novos dados (GOLUBet al., 1999); e c) métodos de aprendizagem de máquina semi supervisionada, que utilizam dados rotulados e não rotuladas para aumentar a capacidade de generalização de modelos de aprendizagem de máquina (CHAPELLE; ZIEN; OLKOPF, 2006). Aqui são expostas as principais categorias e ferramentas de métodos de aprendizagem de máquina e as principais aplicações e considerações que devem ser feitas quanto aouso destes métodosna exploração de problemas biológicos. Não é intencional catalogar todos os métodos de aprendizagem de máquina ou todas as ferramentas disponíveis para o uso dessa metodologia, mas sim discutir o potencial de aplicação destas ferramentas junto a Bioinformática. 2 APRENDIZAGEM DE MÁQUINA As fases que constituem os métodos de aprendizagem são: Pré-processamento, Mineração de Dados e Pós-processamento (SMOLA; SCHÖLKOPF, 1998; SMOLA;VISHWANATHAN; LE, 2007). As ferramentas utilizadas em cada fase devem ser abrangentes a ponto de permitir que, a partir dos dados, seja obtido um método de extração ou conhecimentos de características que possa ser validado por meio de técnicas estatísticas. A fase de Pré-processamento compreende a aplicação de várias técnicas para captação, organização e preparação dos dados. É uma etapa que possui fundamental relevância para o processo de classificação e compreende desde a análise dos dados até sua formatação e normalização(FUJISAWA; FUKUDA; NAKATA, 2000).Em algumas situações estas fases chegam a demandar até 80% do tempo total de processamento, principalmente devido às bem conhecidas dificuldades de integração de bases de dadosheterogêneas (MANILLA et al., 1994).Na maioria APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA dos problemas, os dados a serem analisados se originam de problemas reais. Na bioinformática estes dados se destinam a resolução de problemas biológicos,análises de microarray, genomas e proteomas inteiros e ou sequências de DNA, RNA e proteínas que necessitam ser numericamente representados para posteriormente serem inseridos em um método de aprendizagem de máquina (TUNG; HO, 2008). Um dos maiores desafios da fase de pré-processamento consiste em representar estesdados de forma que eles mimetizem o problema real. Os problemas encontrados nesta fase são os dados em pequenas quantidades e muitas das vezes a má qualidade dos mesmos.Os dados em pequena quantidade podem incorrer em resultados inconsistentes e pouco precisos (HUSSAIN et al., 2000). Além disso, a qualidade do conjunto de dados está diretamente relacionada ao nível de ruído que estes apresentam. A origem do ruído pode ser originária da má representação, propagação de erros nos dados experimentais, erros de digitação ou na representação numérica. Nesses casos, faz-se necessário a utilização de técnicas estatísticas para detectar os ruídose minimizá-los (GUREK, 2001). A fase de aplicação também chamada de fase de mineração de dados utiliza os métodos de aprendizagem supervisionada,semi-supervisionada e nãosupervisionada. Fazem parte desta fase: o conjunto de dados que passou pela fase de pré-processamento, todas as ferramentas possíveis de serem utilizadas e as formas de validação das ferramentas e do modelo proposto (LARRAÑAGAet al., 2006). A fase de Pós-processamento constitui-se da avaliação e interpretação dos resultados obtidos, na qual interessantes padrões são identificados. Utiliza-se nesta fase: dados estatísticos, gráficos e mapas de cores e distâncias. Algumas ferramentas estão disponíveis para a aplicação dos processos de mineração de dados como no caso da ferramenta de código aberto LIBSVM (CHANG; LIN, 2011), que implementamodelos lineares e de regressão logística para a resolução de problemas de classificação. Existem ainda pacotes de software que unem um conjunto de ferramentas para aplicação, como no caso das ferramentas Weka(FRANKet al., 2004; HALL et al., 2009)e GenePattern (REICH et al., 2006). Weka reúne um conjunto de algoritmos para o pré-processamento, a mineração de dados e o pós-processamento. Muitos dos algoritmos que compõem o Weka estão descritos emWitten e Frank (2000).Já a ferramenta GenePattern é um software de código aberto desenvolvido para análise de dados genômicos. A área de aprendizagem de máquina está dividida em três grandes grupos, que se constituem por características e técnicas bastante particulares. Na aprendizagem supervisionada, o objetivo é induzir conceitos a partir de exemplos que estão pré-classificados. Se as classes possuírem valores discretos, o problema é categorizado como classificação. Caso as classes possuam valores contínuos, o problema é categorizado como regressão. Nestes casos, uma classe de exemplos rotulados é utilizada para classificar dados desconhecidos (ver Figura 1, item A). Na aprendizagem não supervisionada os dados são a princípio desconhecidos e agrupados de acordo com alguma similaridade, logo existe o processo de extração de informações em dados desconhecidos (ver Figura 1, item B). A aprendizagem semi-supervisionada é requerida quando a quantidade de dados rotulados é baixa e utilizam-se dados não rotulados para compor o conjunto de treinamento (Figura 1, item C). Esta metodologia constitui a integração entre a aprendizagem não supervisionada e a aprendizagem supervisionada (YIPet al., 2013). Figura 1: Representação dos métodos de aprendizagem de máquina utilizados na bioinformática 1 “A”– Representação da aprendizagem supervisionada; “B”– Representação da aprendizagem não supervisionada; “C”– Representação da aprendizagem semi-supervisionada. Em vermelho e azul estão representados o conjunto de dados já rotulados. Verde e amarelo constituem os dados que serão rotulados após aplicação da aprendizagem de máquina não supervisionada ou semi-supervisionada. 25 Maria Fernanda Ribeiro Dias Fonte: Adaptado de (YIP et al., 2013). 3 APRENDIZAGEM NÃO SUPERVISIONADA A aprendizagem de máquina não supervisionada se caracteriza por receber dados do tipo {x1, x2.. xn}, e extrair associações ou características destes dados. Os métodos muito utilizados são os métodos de análises de componentes principais(PCA), modelos baseados em distâncias como k-means e modelos de agrupamentos hierárquicos (do inglês Hierarchical Clustering) (LÄNGKVIST; KARLSSON; LOUTFI, 2014).A análise de agrupamento pode ser entendida como o processo de reunir ou agrupar variáveis similares entre si. A identificação de grupos que se associam é um ponto de partida para a exploração dos dados e da relação entre eles. Os algoritmos de agrupamento recebem como entrada 26 dados em forma de vetores n-dimensionais. O resultado é um cluster formado por grupos que apresentam alguma semelhança baseada nos atributos que caracterizam e representam esses dados (GHAHRAMAN, 2004). Em 2002, Taylor e colaboradores aplicaram técnicas de aprendizagem não supervisionada e métodos estatísticos nas análises do genótipo de plantas. Os perfis metabolômicos foram traçados e posteriormente comparados por meio de estatísticas descritivas. Em seguida, foi aplicado o método de redes neurais para discriminar entre os genótipos presentes nas amostras e foi descoberto que possivelmente estes perfis metabólicos tenham se originado de duas diferentes linhagens. Através dos métodos de agrupamento hierárquico e PCA foi possível separar e compreender as diferenças encontradas em cada perfil. Os resultados encontrados foram confirmados através de dados experimentais, onde foramverificadas diferenças entre os genótipos de mitocôndrias e cloroplastos presentes nos dados submetidos ás análises de aprendizagem de máquina. Golub e outros (1999) foram os pioneiros na utilização de ferramentas diversificadas para analisar uma grande quantidade de dados biológicos. Neste trabalho foram utilizados os métodos de aprendizagem não supervisionada, agrupamento hierárquico e self organized maps, e métodos de aprendizagem supervisionada, os preditores multiclasses. Com a junção destas ferramentas foi possível agrupar e classificar os dados de pacientes com câncer, diferenciando-os entre a leucemia mielóide aguda e leucemia linfoblástica aguda. A partir das análises de Golub e outros, outras ferramentas e análises foram sendo elucidadas e diferentes métodos de aprendizagem de máquina, principalmente os métodos de aprendizagem supervisionada passaram a ser aplicados em problemas biológicos. 4 APRENDIZAGEM SUPERVISIONADA Os métodos de aprendizagem supervisionada se caracterizam por receber dados rotulados do tipo {x1, x2.. xn}, e utilizarem estes dados e a representação de seus atributos para a predição de um novo conjunto de dados desconhecidos. Os métodos de aprendizagem de máquina supervisionada podem ser divididos em problemas de classificação e regressão. Os algo- APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA ritmos mais conhecidos e aplicados em bioinformática são:redes neurais (WIDROW; LEHR, 1990), árvore de decisão(QUINLAN, 1986), k-nearest neighbors (COVER, 1967)emáquina de vetor de suporte (SVM, do inglês support vector machine) (CORTES; VAPNIK, 1995). Além destes, existe ainda o NaiveBayes, que de acordo com Oguri (2006) é o classificador mais utilizado em aprendizagem de máquina.Entretanto, o algoritmo SVM vem tomando espaço nas últimas décadas e sendo utilizado em diferentes análises de bioinformática (LIBBRECHT; NOBLE, 2015).Isso se deve ao fato do algoritmo SVM constituir modelos baseados no fato de que, para dimensões altas, todos os problemas se tornam linearmente separáveis (TONG; KOLLER, 2001). O uso do produto internokernel e a construção do hiperplano oferecem uma solução alternativa para projetar os dados em um espaço de menor dimensão, aumentando o desempenho domodelo de classificação. A representação dos dados de treinamento em forma de vetores torna isto possível, pois estes nunca aparecem isolados, mas na forma de produto interno. Quando os dados de treinamento são separáveis, o hiperplano ótimo no espaço característico é aquele que apresenta a máxima margem de separação (SEMOLINI, 2002). O uso da aprendizagem de máquina supervisionada possibilita aplicação em diversas áreas do conhecimento e na bioinformática vem sendo bastante utilizado na classificação de diferentes sistemas. Lu e outros (2011) fizeram a predição e caracterização de todo o genoma de RNAs noncodings (ncRNAs) deCaenorhabditis elegans, utilizando o algoritmo SVM com os seguintes atributos: as regiões conservadas, a estrutura secundária e a composição dos ácidos nucleicos. Essas análises resultaram em 97% de acurácia nas análises de validação e apresentaram novos ncRNAs potenciais em C. elegans, fornecendo um método que pode ser adaptado para outros organismos. Em 2007,Tung e Ho propuseram um método computacional para a predição de imunogenicidade de peptídeos. O método utiliza números binários e propriedades físico-químicas para a representação dos dados, algoritmos árvore de decisão (para selecionar o conjunto de propriedades físico-químicas mais relevantes) e SVM para classificar os dados representados em peptídeos de ligação do complexo principal de histocompatibilidade, MHC(do inglês major histocompatibility complex) de classe I ou II (TUNG; HO, 2007). Posteriormente, este mesmo grupo utilizou a mesma metodologia de representação e a comparação de diferentes algoritmos para a identificação de proteínas ubiquitináveis.Neste trabalho, Tung e Ho (2008) utilizaram os modelos SVM, K-nearest neighbor e NayveBayes combinados com propriedades físico-químicas, identificação por aminoácidos e informações evolutivas. O melhor resultado obtido foi oriundo da combinação do algoritmo SVM com a representação de peptídeos através das propriedades físico-químicas. Esta ferramenta avaliou mais de 3 mil peptídeos com 72% de recall nos resultados de validação. 5 APREDIZAGEM SEMI-SUPERVISIONADA A aprendizagem semi-supervisionada se baseia na definição de que para problemas com pouca quantidade de dados rotulados, usa-se dados não rotulados para compor o conjunto de treinamento. Desta forma, este método reúne características da aprendizagem supervisionada e da aprendizagem não supervisionada. Em análises de sequências gênicas, o processo utiliza os algoritmos de aprendizagem supervisionadae iniciam com a construção de um modelo inicial formado por rótulos dos genesque constituem um subconjunto. Este modelo é utilizado para avaliar o genoma inteiro e rotular os dados experimentais, que após serem rotulados, passam a fazer parte do conjunto de treinamento(LIBBRECHT; NOBLE, 2015). A abordagem semi-supervisionada pode ser mais eficiente do que uma abordagem totalmente supervisionada, pois o modelo é capaz de aprender a partir de um conjunto maior de dados em vez de apenas o subconjunto que fora identificado com alta confiança. Um dos fatores limitantes deste método é o aumento de ruído e o uso de dados que direcionem ao erro. Logo é interessante que os dados sejam oriundos de fontes seguras e tenham outras fontes para corroborar com os resultados.Le e colaboradores, 2016 utilizam um método de aprendizagem semi-supervisionada para análise de metagenomas. O algoritmo propõe um método de agrupamento dos reads de acordo com as características de cada um. Após agrupados, cada cluster é comparado aos táxons depositados em bancos de 27 Maria Fernanda Ribeiro Dias g) LOOCV (do inglês, leave-one-out cross-validation), validação cruzada retirando um dado para teste e o restante para treinamento (ver Figura, item iv). Nas análises de validação cruzada feitas com as técnicas iii e iv, o procedimento é repetido diversas vezes. dados e assim atribui-se aos reads uma referência taxonômica. 6 AVALIAÇÃO DOS MODELOS DE CLASSIFICAÇÃO O desempenho do classificador e os valores estatísticos são calculados após serem contabilizados os resultados de predição levando em consideração acurácia, precisão e recall obtidos (TARCAet al., 2007). Para a obtenção destes valores é necessário a obtenção dos seguintes valores: h) verdadeiro positivo(VP): ocorre quando o classificador prevê uma resposta do tipo “sim” e essa resposta está de acordo com os dados observados; i) verdadeiro negativo(VN): ocorre quando o classificador prevê uma resposta do tipo “não” e essa resposta está de acordo com os dados observados; j) falso positivo(FP): ocorre quando o classificador prevê uma resposta do tipo ``sim’’ quando a mesma deveria ser “não”; e k) falso negativo(FN): ocorre quando o classificador prevê uma resposta do tipo ``não’’ e ela deveria ser “sim”. Tabela 1: Tabela de confusão utilizada para auxiliar análises estatísticas de metodologias de aprendizagem de máquina supervisionado e semi-supervisionado Valor Verdadeiro Valor Predito O desempenho do algoritmo de aprendizagem é confirmado através dos valores estatísticos dos dados de validação cruzada. A avaliação se aplica aos métodos de aprendizagem supervisionada e semi-supervisionada e utiliza o conjunto de dados de treinamento para avaliar o desempenho do modelo (KRETSCHMANN; FLEISCHMANN;APWEILER, 2001). As técnicas de validação cruzada se baseiam no particionamento do conjunto de dados em subconjuntos, utilizando posteriormente alguns destes subconjuntos para dados de treinamento e o restante para serem utilizados como teste (LARRAÑAGA et al., 2006). As técnicas mais utilizadas para avaliação são: d) validação cruzada com K grupos (do inglês K-fold cross-validation), onde se retira um grupo pra teste e o restante é utilizado pra treinamento (ver Figura 2, item i); e) validação cruzada com 2 grupos (do inglês 2-fold cross-validation), onde um grupo é utilizado como teste e outro como treinamento (ver Figura 2, item ii); f) validação com amostras aleatórias (do inglês repeated random sub-sampling validation) quando é retirado por n-vezes do conjunto de treinamento um subconjunto para teste (ver Figura 2, item iii); e Figura 2: Representação esquemática das técnicas de validação cruzada Positivo Negativo Positivo VP Verdadeiro Positivo FP Falso Positivo Negativo FN Falso Negativo VN Verdadeiro Netivo Fonte: Adaptado de(Fawcett, Tom; 2006). Desta forma pode-se montar uma tabela caracterizada como “tabela de confusão” (ver Tabela 1), de onde é possível realizar as seguintes avaliações(ver Equações 1, 2 e 3). Equação 1: Recall: Avalia o quanto um classificador pode reconhecer exemplos positivos VP/(VP+FN) (1) Equação 2: Acurácia: Avalia o quanto um classificador pode reconhecer exemplos negativos Fonte: Adaptado de (Sudhir Varma e Richard Simon, 2006). 28 VN/(FP+VN) (2) APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA Equação 3: Precisão: Avalia o quanto das classificações positivas estão corretas. Relaciona-se com a qualidade e uniformidade do método VP/ (VP+FP) (3) 7 CONCLUSÕES A escolha do método e modelo de aprendizagem de máquina depende de uma diversidade de fatores. A primeira observação é quanto a origem dos dados e as características que estes apresentam. Quando não se tem nenhuma informação prévia dos dados, a escolha é limitada somente a aplicação de métodos de aprendizagem não supervisionada. Neste contexto, diversas análises estatísticas são requeridas para avaliar e extrair associações entre os dados. Uma outra abordagem para os métodos de aprendizagem não supervisionada é sua aplicação em um conjunto de dados rotulados e experimentalmente validados. Esta aplicação permite a extração de associações e relações entre os dados e pode corroborar com a descoberta de padrões em novos dados. Logo, a aprendizagem não supervisionada pode auxiliar os métodos de aprendizagem supervisionada e semi-supervisionada, enriquecendo as informações obtidas através destas técnicas. Quando disponibilizamos de dados com características representáveis, é possível propor o uso dos métodos de aprendizagem supervisionada e/ou semi-supervisionada, porém a utilização destas ferramentas atrelada a origem dos dados implica algumas particularidades. A primeira delas é o overfitting,termo utilizado para caracterizar modelos que se ajustam bem ao conjunto de treinamento, mas não é condizente com os dados reais. Um dos motivos para este fator é a redundância entre os atributos que representam os dados. Atributos redundantes geram overfitting e na maioria dos casos uma análise de correlação pode ajudar a solucionar este problema. A segunda particularidade a ser observada é quanto ao underfitting, caracterizado quando o modelo não se ajusta bem aos dados de treinamento. Nestes casos existem duas possibilidades: a primeira está condicionada ao aumento do conjunto de treinamento e a segunda se define pela adição de novos atributos na representação do conjunto de dados. Além disso, existem ainda os casos de dados desbalanceados, quando apenas uma classe apresenta grande quantidade de dados. Nesses casos, o uso de aprendizagem semi-supervisionada pode auxiliar no enriquecimento de dados para a classe que possui menor quantidade de dados. O ajuste do modelo utilizado nos métodos de aprendizagem de máquina é um dos pontos cruciais para o bom desempenho do classificador e esta se torna uma medida essencial para a construção de modelos eficientes ao serem utilizadas metodologias de aprendizagem de máquina. 8 CONSIDERAÇÕES FINAIS Neste artigo foi apresentada uma visão geral dos conceitos de aprendizagem de máquina.A imersão de técnicas de aprendizagem de dados na resolução de sistemas biológicos se tornou uma ferramenta eficaz e inovadora. Para cada problema existem algoritmos e técnicas, com características próprias e considerações favoráveis e desfavoráveis que variam de acordo com a natureza do problema, a limitação computacional e a qualidade dos dados. Discutir as ferramentas e os problemas já descritos vem corroborar para o avanço de técnicas computacionais e suas aplicações na biologia. Este fato permite agregar e enriquecer a área da bioinformática, pois abre portas para áreas ainda não exploradas,além de contribuir para o avanço das ferramentas e a amplitude de suas aplicações. 29 Maria Fernanda Ribeiro Dias REFERÊNCIAS BIBLIOGRÁFICAS –– ALPAYDIN, E. Introduction to machine learning. Cambrige: MIT Press, 2004. –– ARBEX, W. A.Modelos computacionais para identificação de informação genômica associada à resistência ao carrapato bovino. 2009. 200 f. Tese (Doutorado em Engenharia de Sistemas e Computação)– Universidade Federal do Rio de Janeiro,Rio de Janeiro, 2009. –– CAPON, T.J.M.; DUNNE, P.E. Argumentation in artificial intelligence.Artificial Intelligence, Irvine, v. 171, n. 10/15, p. 619-641, 2007. –– CARVALHO, L. A. V. Datamining: a mineração de dados no marketing, medicina, economia, engenharia e administração. Rio de Janeiro: Ciência Moderna, 2005. –– CHANG, C.C.; LIN, C.J.LIBSVM:a library for support vector machines. Taipei: ACM Transactions on Intelligent Systems and Technology,2011. –– CHAPELLE, O.; ZIEN, A.; OLKOPF, B.S. Semi-supervised learning. London: MIT Press, 2006. –– CORTES, C.; VAPNIK, V.N.Support-vector networks. Machine Learning, Boston, v. 20, p. 273297, 1995. –– COVER, T.M.Nearest neighbor pattern classification. IEEE Transactionson InformationTheory, Piscataway, v. 13, n. 1, p. 21-27, 1967. –– FAWCETT, TOM. An Introduction to ROC Analysis. Pattern Recognition Letters. V. 27 p. 861 – 874, 2006. –– FRANK, E. et al. Data mining in bioinformatics using Weka. Bioinformatics, Oxford, v. 20, n. 15, p. 2479-2481, 2004 –– FUJISAWA, K.; FUKUDA, M.; NAKATA, K.Preprocessing sparse semidefinite programs via matrix completion.SIAM Journal on Optimization, Philadelphia, v. 11, n. 3, p. 647-674, 2000. –– GHAHRAMAN, I. Unsupervised learning. In: BOUSQUET, O.; RAETSCH, G. Luxburg, U. von. (Org.).Advanced lectures on machine learning. Berlin: Springer-Verlag, 2004. p. 72-112. –– GOLUB, T. R. et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science,New York, v. 286,n. 5439, p. 531-537, 1999. 30 –– GUREK, E. L.Aquisição de conhecimento em bancos de dados. 2001. 98 f. Trabalho de Conclusão de Curso(Tecnólogo em Processamento de Dados) – Universidade Tuiuti do Paraná,Santo Inácio, 2001. –– HALL, M. et al.The WEKA data mining software: an update. SIGKDD Explorations, New York, v. 11, n. 1,p. 10-18, 2009. –– HUSSAIN, F. et al. Exception rule mining with a relative interestingness measure. In: TERANO, T.; LIU, H.; CHEN, A. L. P. Knowledge discovery and data mining. Berlin: Springer, 2000. p. 86-96. –– RAZA, K.Application of data mining in Bioinformatics.Indian Journal of Computer Science and Engineering, New Delhi, v. 1, n. 2, p. 114-118, 2010. –– KRETSCHMANN, E.; FLEISCHMANN, W.; APWEILER, R. Automatic rule generation for protein annotation with the C4.5 data mining algorithm applied on SWISS-PROT. Bioinformatics, Oxford, v. 17, n. 10, p. 920-926, 2001. –– LÄNGKVIST, M.; KARLSSON, L.; LOUTFI, A. A review of unsupervised feature learning and deep learning for time-series modeling. Pattern Recognition Letters,Uppsala, v.42, p. 11-24, 2014. –– LARRAÑAGA,P. et al. Machine learning in bioinformatics. Brief Bioinformatics, Oxford, v. 7, n. 1, p. 86-112, 2006. –– LIBBRECHT, M. W.; NOBLE, W. S. Machine learning applications in genetics and genomics. Nature Reviews Genetics,London, v. 16,n. 6, p. 321-332, 2015. –– LU, Z.J. et al. Prediction and characterization of noncoding RNAs in C. elegans by integrating conservation, secondary structure, and high-throughput sequencing and array data. Genome Research, New York, v. 21, n. 2, p. 276-285, 2011. –– MANILLA, H. et al. Finding interesting rules from large sets of discovered association rules.In: INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT, 3., 1994, Maryland.Proceedings… Maryland: [s.n.], 1994. p. 401-407. –– MITCHELL, T.Machine learning.New York: McGraw-Hill, 1997. –– OGURI, P.Aprendizado de máquina para o problema de sentiment classification. 2006. 54f. Disserta- APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA ção (Mestrado em Ciências da Computação) – Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2006. –– PEROU, C. M. et al. Molecular portraits of human breast tumours. Nature,London, v. 406, n. 6797, p. 747-752, 2000. –– QUINLAN, J. R.Induction of decision trees. Machine Learning, Boston, v. 1, p. 81-106, 1986. –– REICH, M. et al.GenePattern 2.0. Nature Genetics, London, v. 38, p. 500-501, 2006. –– SEMOLINI, R.Support vector machines, inferência transdutiva e o problema de classificação. 2002. 142 f. Dissertação (Mestrado em Engenharia Elétrica) – Universidade Estadual de Campinas,Campinas, 2002. –– SMOLA, A.J.; SCHÖLKOPF, B. Learning with kernels: support vector machines, regularization, optimization, and beyond.Cambridge:MIT Press, 1998. –– SMOLA, A. J.;VISHWANATHAN, S.V.N.;LE, Q. V. Bundle methods for machine learning. In:ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS,20., 2007, Cambridge.Proceedings… Cambridge: MIT Press,2007. p. 1-8. –– TARCA, A.L. et al. Machine learning and its applications to biology. PLoS Computational Biology,California, v. 3, n. 6,p. 953-963, 2007. –– TAYLOR, J. et al. Application of metabolomics to plant genotype discrimination using statistics and machine learning. Bioinformatics, Oxford, v. 18, n. 2, p. 241–248, 2002. –– TONG, S.; KOLLER, D. Support vector machine active learning with applications to text classification. Journal of Machine Learning Research, Van- couver, v. 2, p. 45-66, 2001. –– TUNG, C. W.; HO, S.Y. Computational identification of ubiquitylation sites from protein sequences. BMC Bioinformatics, Bari, v. 9, n. 310, p. 310-317, 2008. –– TUNG, C.W.; HO, S.Y. POPI: predicting immunogenicity of MHC class I binding peptides by mining informative physicochemical properties. Bioinformatics,Oxford, v. 23, n. 8, p. 942-949, 2007. –– WIDROW, B.; LEHR, M.A.30 years of adaptive neural networks: perceptron, Madaline, and backpropagaion. Proceedings of the IEEE, Raleigh, v. 78, n. 9, p. 1415-1442, 1990. –– WITTEN, I. H.; FRANK, E. Data mining: practical machine learning tools and techniques with java implementations. São Francisco: Morgan Kaufmann, 2000. –– YIP, K.Y. et al. Machine learning and genome annotation: a match meant to be?.Genome Biology, London, v.14, n. 205, p. 205- 217, 2013. –– VARMA, SUDHIR, and RICHARD SIMON. Bias in Error Estimation When Using Cross-Validation for Model Selection. BMC Bioinformatics v. 7, n. 91, 2006. AGRADECIMENTOS À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) e ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq). Recebido em 15 de julho de 2016. Aceito em 20 de agosto de 2016. 31 Maria Fernanda Ribeiro Dias 32 APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA 33 Maria Fernanda Ribeiro Dias 34 APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA 35 Maria Fernanda Ribeiro Dias 36 APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA 37