aprendizado de máquina e suas aplicações em bioinformática

Propaganda
http://dx.doi.org/10.15202/10.15202/1981-996X.2016v10n1p23
APRENDIZADO DE MÁQUINA E SUAS
APLICAÇÕES EM BIOINFORMÁTICA
MACHINE LEARNING AND APPLICATIONS IN BIOINFORMATICS
Maria Fernanda Ribeiro Dias
Doutoranda em Biotecnologia pelo Instituto Nacional de Metrologia, Qualidade e Tecnologia (INMETRO),
Duque de Caxias, RJ, Brasil
[email protected]
Pedro Geraldo Pascutti
Doutor em Física pela Universidade de São Paulo (USP), São Paulo, SP, Brasil
Professor adjunto da Universidade Federal do Rio de Janeiro (UFRJ), Rio de Janeiro, RJ, Brasil
[email protected]
Manuela Leal da Silva
Doutora em Ciências Biológicas - Biofísica pela Universidade Federal do Rio de Janeiro (UFRJ), Rio de Janeiro, RJ, Brasil
Pesquisadora do Instituto Nacional de Metrologia, Qualidade e Tecnologia (INMETRO), Duque de Caxias, RJ, Brasil
[email protected]
RESUMO
ABSTRACT
O uso de ferramentas computacionais
para a resolução de sistemas biológicostem chamado a atenção na área científica e proporciona
um ganho tanto na quantidade de informações
obtidas quanto na interpretação dos dados. A
diversidade e complexidadedos problemas biológicos dificulta a análise através da utilização de
ferramentas computacionais. Essas dificuldades
estão relacionadas ao processamento, forma de
representação e interpretação dos dados. Nesse
âmbito, a aprendizagem de máquina vem auxiliar no cruzamento de informações e relações
oriundas da análise de dados de sistemas biológicos. Atualmente, muitas técnicas e metodologias
estão sendo utilizadas em conjunto e dessa forma, problemas mais complexos ganham maior
potencial para serem resolvidos. Além disso, o
surgimento de supercomputadores vem acrescentar e aumentar a capacidade de exploração e
análise dos dados. Uma análise criteriosa se faz
necessária toda vez que um novo problema, de
cunho biológico, é proposto. Esperamos que essa
breve revisão possa contribuir para o entendimento e a resolução desses problemas.
The use of computational tools to solve
and study biological systems has drawn attention in the scientific area and provides an acquisitionin amount of information obtained and in
the interpretation of the data. The diversity and
complexity of biological problemscomplicates
the analysis using computational tools. These
difficulties are associated with the processing,
representation and interpretation of data sets.
In this context, machine learning comes assist
in crossing information and relationships derived from analysis of data in biological systems.
Currently many techniques and methodologies
are being used together and thus problems that
are more complexacquire greater potential to
be solved. Moreover, the appearance of supercomputers came add and increase operating
capacity and data analysis.On the other hand,
a careful analysis is required every time a new
problem, of biological nature, it is proposed. We
hope this brief review can contribute to the understanding and resolution of these problems.
Palavras chave: Sistemas biológicos.
Aprendizado de máquina. Bioinformática.
Keywords: Biological systems. Machine
learning. Bioinformatics.
23
Revista Semioses, v 10, n.01, 2016
Maria Fernanda Ribeiro Dias
1 INTRODUÇÃO
Ao longo dos últimos anos a geração de
uma grande quantidade de dados genômicos
e proteômicos tem resultado em uma grande
quantidade de dados biológicos que necessitam
ser interpretados (RAZA, 2010). Dentre as áreas da bioinformática destinadas ao processamento e análises destes dados se insere a mineração de dados, que visa desenvolver algoritmos
com potencial para analisar uma grande quantidade de informações (ALPAYDIN, 2004; CARVALHO, 2005). Exemplos deste tipo de análise
incluem a previsão de estruturas das proteínas,
a classificação de genes, a classificação de tipos
de câncer com base em dados de microarray, o
agrupamento de dados de expressão de genes e
a modelagem estatística de interação proteína-proteína (LIBBRECHT; NOBLE, 2015).
O termo aprendizagem de máquina surgiu no final do século XX e pode ser definido
como a capacidade de melhorar o desempenho
na realização de alguma tarefa, por meio da experiência ou da descoberta de similaridade entre os dados (MITCHELL, 1997). Um modelo
de aprendizagem de máquina adquire e utiliza
conhecimento caso seja capaz de utilizar-se de
informações prévias para inferir novos resultados e novas informações (ARBEX, 2009). Logo,
a aprendizagem de máquina refere-se à área
na qual são desenvolvidos e estudados os algoritmos, técnicas e ferramentas que permitem
o aprendizado. Nesse contexto, cita-se o conceito de inteligência artificial, que no sentido
mais amplo se dedica as técnicas que permitem
ao computador aprender e aperfeiçoar seu desempenho em alguma tarefa, mimetizando o
funcionamento do cérebro humano(CAPON;
DUNNE, 2007).
A aplicação das técnicas de aprendizagem
de máquina na bioinformática vem resultando
em grande sucesso ao melhorar o desempenho
da análise de grande quantidade de dados. Além
disso, esta área esta reinventando a forma como
esses dados podem ser utilizados e direcionados
para fins estratégicos, como biotecnologia e química medicinal, por exemplo. De uma forma
metodológica e para facilitar a organização dos
métodos, a aprendizagem de máquina pode ser
dividida em:
a) métodos de aprendizagem de máquina não
supervisionada, que consistem em agrupar
24
os dados de modo a permitir a descoberta de
similaridades e diferenças entre os padrões
(PEROUet al., 2000);
b) métodos de aprendizagem de máquina supervisionada, onde os dados são organizados por rótulos (classes) e utilizados como
exemplos de treinamento de um sistema
que, depois de treinado, será capaz de fazer
inferências quanto aos rótulos de novos dados (GOLUBet al., 1999); e
c) métodos de aprendizagem de máquina semi
supervisionada, que utilizam dados rotulados e não rotuladas para aumentar a capacidade de generalização de modelos de aprendizagem de máquina (CHAPELLE; ZIEN;
OLKOPF, 2006).
Aqui são expostas as principais categorias e ferramentas de métodos de aprendizagem
de máquina e as principais aplicações e considerações que devem ser feitas quanto aouso destes
métodosna exploração de problemas biológicos.
Não é intencional catalogar todos os métodos
de aprendizagem de máquina ou todas as ferramentas disponíveis para o uso dessa metodologia, mas sim discutir o potencial de aplicação
destas ferramentas junto a Bioinformática.
2 APRENDIZAGEM DE MÁQUINA
As fases que constituem os métodos de aprendizagem são: Pré-processamento, Mineração de Dados e Pós-processamento
(SMOLA;
SCHÖLKOPF,
1998;
SMOLA;VISHWANATHAN; LE, 2007). As ferramentas utilizadas em cada fase devem ser abrangentes a ponto de permitir que, a partir dos dados,
seja obtido um método de extração ou conhecimentos de características que possa ser validado
por meio de técnicas estatísticas.
A fase de Pré-processamento compreende a aplicação de várias técnicas para captação, organização e preparação dos dados. É
uma etapa que possui fundamental relevância
para o processo de classificação e compreende
desde a análise dos dados até sua formatação e
normalização(FUJISAWA; FUKUDA; NAKATA,
2000).Em algumas situações estas fases chegam
a demandar até 80% do tempo total de processamento, principalmente devido às bem conhecidas
dificuldades de integração de bases de dadosheterogêneas (MANILLA et al., 1994).Na maioria
APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA
dos problemas, os dados a serem analisados se
originam de problemas reais. Na bioinformática
estes dados se destinam a resolução de problemas
biológicos,análises de microarray, genomas e proteomas inteiros e ou sequências de DNA, RNA
e proteínas que necessitam ser numericamente
representados para posteriormente serem inseridos em um método de aprendizagem de máquina
(TUNG; HO, 2008).
Um dos maiores desafios da fase de pré-processamento consiste em representar estesdados de forma que eles mimetizem o problema
real. Os problemas encontrados nesta fase são
os dados em pequenas quantidades e muitas das
vezes a má qualidade dos mesmos.Os dados em
pequena quantidade podem incorrer em resultados inconsistentes e pouco precisos (HUSSAIN et
al., 2000). Além disso, a qualidade do conjunto de
dados está diretamente relacionada ao nível de ruído que estes apresentam. A origem do ruído pode
ser originária da má representação, propagação de
erros nos dados experimentais, erros de digitação
ou na representação numérica. Nesses casos, faz-se necessário a utilização de técnicas estatísticas
para detectar os ruídose minimizá-los (GUREK,
2001).
A fase de aplicação também chamada de
fase de mineração de dados utiliza os métodos de
aprendizagem supervisionada,semi-supervisionada e nãosupervisionada. Fazem parte desta fase:
o conjunto de dados que passou pela fase de pré-processamento, todas as ferramentas possíveis
de serem utilizadas e as formas de validação das
ferramentas e do modelo proposto (LARRAÑAGAet al., 2006).
A fase de Pós-processamento constitui-se
da avaliação e interpretação dos resultados obtidos, na qual interessantes padrões são identificados. Utiliza-se nesta fase: dados estatísticos, gráficos e mapas de cores e distâncias.
Algumas ferramentas estão disponíveis
para a aplicação dos processos de mineração de
dados como no caso da ferramenta de código
aberto LIBSVM (CHANG; LIN, 2011), que implementamodelos lineares e de regressão logística
para a resolução de problemas de classificação.
Existem ainda pacotes de software que unem um
conjunto de ferramentas para aplicação, como no
caso das ferramentas Weka(FRANKet al., 2004;
HALL et al., 2009)e GenePattern (REICH et al.,
2006). Weka reúne um conjunto de algoritmos
para o pré-processamento, a mineração de dados
e o pós-processamento. Muitos dos algoritmos
que compõem o Weka estão descritos emWitten
e Frank (2000).Já a ferramenta GenePattern é um
software de código aberto desenvolvido para análise de dados genômicos.
A área de aprendizagem de máquina está
dividida em três grandes grupos, que se constituem por características e técnicas bastante particulares. Na aprendizagem supervisionada, o
objetivo é induzir conceitos a partir de exemplos
que estão pré-classificados. Se as classes possuírem valores discretos, o problema é categorizado
como classificação. Caso as classes possuam valores contínuos, o problema é categorizado como
regressão. Nestes casos, uma classe de exemplos
rotulados é utilizada para classificar dados desconhecidos (ver Figura 1, item A). Na aprendizagem
não supervisionada os dados são a princípio desconhecidos e agrupados de acordo com alguma
similaridade, logo existe o processo de extração de
informações em dados desconhecidos (ver Figura
1, item B). A aprendizagem semi-supervisionada
é requerida quando a quantidade de dados rotulados é baixa e utilizam-se dados não rotulados
para compor o conjunto de treinamento (Figura
1, item C). Esta metodologia constitui a integração entre a aprendizagem não supervisionada e a
aprendizagem supervisionada (YIPet al., 2013).
Figura 1: Representação dos métodos de aprendizagem de máquina utilizados
na bioinformática
1 “A”– Representação da aprendizagem supervisionada; “B”– Representação da aprendizagem não supervisionada; “C”– Representação
da aprendizagem semi-supervisionada. Em vermelho e azul estão representados o conjunto de dados já rotulados. Verde e amarelo
constituem os dados que serão rotulados após aplicação da aprendizagem de máquina não supervisionada ou semi-supervisionada.
25
Maria Fernanda Ribeiro Dias
Fonte: Adaptado de (YIP et al., 2013).
3 APRENDIZAGEM NÃO
SUPERVISIONADA
A aprendizagem de máquina não supervisionada se caracteriza por receber dados do tipo
{x1, x2.. xn}, e extrair associações ou características destes dados. Os métodos muito utilizados
são os métodos de análises de componentes
principais(PCA), modelos baseados em distâncias como k-means e modelos de agrupamentos
hierárquicos (do inglês Hierarchical Clustering)
(LÄNGKVIST; KARLSSON; LOUTFI, 2014).A
análise de agrupamento pode ser entendida
como o processo de reunir ou agrupar variáveis
similares entre si. A identificação de grupos que
se associam é um ponto de partida para a exploração dos dados e da relação entre eles. Os algoritmos de agrupamento recebem como entrada
26
dados em forma de vetores n-dimensionais. O
resultado é um cluster formado por grupos que
apresentam alguma semelhança baseada nos
atributos que caracterizam e representam esses
dados (GHAHRAMAN, 2004).
Em 2002, Taylor e colaboradores aplicaram técnicas de aprendizagem não supervisionada e métodos estatísticos nas análises do
genótipo de plantas. Os perfis metabolômicos
foram traçados e posteriormente comparados
por meio de estatísticas descritivas. Em seguida, foi aplicado o método de redes neurais para
discriminar entre os genótipos presentes nas
amostras e foi descoberto que possivelmente
estes perfis metabólicos tenham se originado de
duas diferentes linhagens. Através dos métodos
de agrupamento hierárquico e PCA foi possível
separar e compreender as diferenças encontradas em cada perfil. Os resultados encontrados
foram confirmados através de dados experimentais, onde foramverificadas diferenças entre os genótipos de mitocôndrias e cloroplastos
presentes nos dados submetidos ás análises
de aprendizagem de máquina. Golub e outros
(1999) foram os pioneiros na utilização de ferramentas diversificadas para analisar uma grande
quantidade de dados biológicos. Neste trabalho
foram utilizados os métodos de aprendizagem
não supervisionada, agrupamento hierárquico e
self organized maps, e métodos de aprendizagem supervisionada, os preditores multiclasses.
Com a junção destas ferramentas foi possível
agrupar e classificar os dados de pacientes com
câncer, diferenciando-os entre a leucemia mielóide aguda e leucemia linfoblástica aguda. A
partir das análises de Golub e outros, outras
ferramentas e análises foram sendo elucidadas
e diferentes métodos de aprendizagem de máquina, principalmente os métodos de aprendizagem supervisionada passaram a ser aplicados
em problemas biológicos.
4 APRENDIZAGEM SUPERVISIONADA
Os métodos de aprendizagem supervisionada se caracterizam por receber dados rotulados do tipo {x1, x2.. xn}, e utilizarem estes
dados e a representação de seus atributos para a
predição de um novo conjunto de dados desconhecidos. Os métodos de aprendizagem de máquina supervisionada podem ser divididos em
problemas de classificação e regressão. Os algo-
APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA
ritmos mais conhecidos e aplicados em bioinformática são:redes neurais (WIDROW; LEHR,
1990), árvore de decisão(QUINLAN, 1986),
k-nearest neighbors (COVER, 1967)emáquina
de vetor de suporte (SVM, do inglês support
vector machine) (CORTES; VAPNIK, 1995).
Além destes, existe ainda o NaiveBayes, que de
acordo com Oguri (2006) é o classificador mais
utilizado em aprendizagem de máquina.Entretanto, o algoritmo SVM vem tomando espaço
nas últimas décadas e sendo utilizado em diferentes análises de bioinformática (LIBBRECHT;
NOBLE, 2015).Isso se deve ao fato do algoritmo SVM constituir modelos baseados no fato
de que, para dimensões altas, todos os problemas se tornam linearmente separáveis (TONG;
KOLLER, 2001). O uso do produto internokernel e a construção do hiperplano oferecem uma
solução alternativa para projetar os dados em
um espaço de menor dimensão, aumentando
o desempenho domodelo de classificação. A
representação dos dados de treinamento em
forma de vetores torna isto possível, pois estes
nunca aparecem isolados, mas na forma de produto interno. Quando os dados de treinamento
são separáveis, o hiperplano ótimo no espaço
característico é aquele que apresenta a máxima
margem de separação (SEMOLINI, 2002).
O uso da aprendizagem de máquina supervisionada possibilita aplicação em diversas
áreas do conhecimento e na bioinformática vem
sendo bastante utilizado na classificação de diferentes sistemas. Lu e outros (2011) fizeram
a predição e caracterização de todo o genoma
de RNAs noncodings (ncRNAs) deCaenorhabditis elegans, utilizando o algoritmo SVM com
os seguintes atributos: as regiões conservadas, a
estrutura secundária e a composição dos ácidos
nucleicos. Essas análises resultaram em 97% de
acurácia nas análises de validação e apresentaram novos ncRNAs potenciais em C. elegans,
fornecendo um método que pode ser adaptado
para outros organismos.
Em 2007,Tung e Ho propuseram um
método computacional para a predição de imunogenicidade de peptídeos. O método utiliza
números binários e propriedades físico-químicas para a representação dos dados, algoritmos
árvore de decisão (para selecionar o conjunto de
propriedades físico-químicas mais relevantes)
e SVM para classificar os dados representados
em peptídeos de ligação do complexo principal
de histocompatibilidade, MHC(do inglês major histocompatibility complex) de classe I ou
II (TUNG; HO, 2007). Posteriormente, este
mesmo grupo utilizou a mesma metodologia de
representação e a comparação de diferentes algoritmos para a identificação de proteínas ubiquitináveis.Neste trabalho, Tung e Ho (2008)
utilizaram os modelos SVM, K-nearest neighbor
e NayveBayes combinados com propriedades
físico-químicas, identificação por aminoácidos
e informações evolutivas. O melhor resultado
obtido foi oriundo da combinação do algoritmo
SVM com a representação de peptídeos através das propriedades físico-químicas. Esta ferramenta avaliou mais de 3 mil peptídeos com
72% de recall nos resultados de validação.
5 APREDIZAGEM SEMI-SUPERVISIONADA
A aprendizagem semi-supervisionada se
baseia na definição de que para problemas com
pouca quantidade de dados rotulados, usa-se
dados não rotulados para compor o conjunto
de treinamento. Desta forma, este método reúne características da aprendizagem supervisionada e da aprendizagem não supervisionada.
Em análises de sequências gênicas, o processo
utiliza os algoritmos de aprendizagem supervisionadae iniciam com a construção de um
modelo inicial formado por rótulos dos genesque constituem um subconjunto. Este modelo
é utilizado para avaliar o genoma inteiro e rotular os dados experimentais, que após serem
rotulados, passam a fazer parte do conjunto de
treinamento(LIBBRECHT; NOBLE, 2015). A
abordagem semi-supervisionada pode ser mais
eficiente do que uma abordagem totalmente supervisionada, pois o modelo é capaz de aprender
a partir de um conjunto maior de dados em vez
de apenas o subconjunto que fora identificado
com alta confiança. Um dos fatores limitantes
deste método é o aumento de ruído e o uso de
dados que direcionem ao erro. Logo é interessante que os dados sejam oriundos de fontes
seguras e tenham outras fontes para corroborar com os resultados.Le e colaboradores, 2016
utilizam um método de aprendizagem semi-supervisionada para análise de metagenomas. O
algoritmo propõe um método de agrupamento
dos reads de acordo com as características de
cada um. Após agrupados, cada cluster é comparado aos táxons depositados em bancos de
27
Maria Fernanda Ribeiro Dias
g) LOOCV (do inglês, leave-one-out cross-validation), validação cruzada retirando um
dado para teste e o restante para treinamento (ver Figura, item iv). Nas análises de validação cruzada feitas com as técnicas iii e iv, o
procedimento é repetido diversas vezes.
dados e assim atribui-se aos reads uma referência taxonômica.
6 AVALIAÇÃO DOS MODELOS
DE CLASSIFICAÇÃO
O desempenho do classificador e os valores estatísticos são calculados após serem
contabilizados os resultados de predição levando em consideração acurácia, precisão e recall
obtidos (TARCAet al., 2007). Para a obtenção
destes valores é necessário a obtenção dos seguintes valores:
h) verdadeiro positivo(VP): ocorre quando
o classificador prevê uma resposta do tipo
“sim” e essa resposta está de acordo com os
dados observados;
i) verdadeiro negativo(VN): ocorre quando
o classificador prevê uma resposta do tipo
“não” e essa resposta está de acordo com os
dados observados;
j) falso positivo(FP): ocorre quando o classificador prevê uma resposta do tipo ``sim’’
quando a mesma deveria ser “não”; e
k) falso negativo(FN): ocorre quando o classificador prevê uma resposta do tipo ``não’’ e
ela deveria ser “sim”.
Tabela 1: Tabela de confusão utilizada para auxiliar análises estatísticas de metodologias de aprendizagem de máquina supervisionado e
semi-supervisionado
Valor Verdadeiro
Valor Predito
O desempenho do algoritmo de aprendizagem é confirmado através dos valores estatísticos
dos dados de validação cruzada. A avaliação se aplica
aos métodos de aprendizagem supervisionada e semi-supervisionada e utiliza o conjunto de dados de
treinamento para avaliar o desempenho do modelo
(KRETSCHMANN; FLEISCHMANN;APWEILER,
2001). As técnicas de validação cruzada se baseiam
no particionamento do conjunto de dados em subconjuntos, utilizando posteriormente alguns destes
subconjuntos para dados de treinamento e o restante para serem utilizados como teste (LARRAÑAGA
et al., 2006). As técnicas mais utilizadas para avaliação são:
d) validação cruzada com K grupos (do inglês
K-fold cross-validation), onde se retira um
grupo pra teste e o restante é utilizado pra
treinamento (ver Figura 2, item i);
e) validação cruzada com 2 grupos (do inglês
2-fold cross-validation), onde um grupo é
utilizado como teste e outro como treinamento (ver Figura 2, item ii);
f) validação com amostras aleatórias (do inglês
repeated random sub-sampling validation)
quando é retirado por n-vezes do conjunto
de treinamento um subconjunto para teste
(ver Figura 2, item iii); e
Figura 2: Representação esquemática das técnicas de validação cruzada
Positivo
Negativo
Positivo
VP
Verdadeiro Positivo
FP
Falso Positivo
Negativo
FN
Falso Negativo
VN
Verdadeiro Netivo
Fonte: Adaptado de(Fawcett, Tom; 2006).
Desta forma pode-se montar uma tabela caracterizada como “tabela de confusão” (ver
Tabela 1), de onde é possível realizar as seguintes avaliações(ver Equações 1, 2 e 3).
Equação 1: Recall: Avalia o quanto
um classificador pode reconhecer exemplos
positivos
VP/(VP+FN)
(1)
Equação 2: Acurácia: Avalia o quanto
um classificador pode reconhecer exemplos
negativos
Fonte: Adaptado de (Sudhir Varma e Richard Simon, 2006).
28
VN/(FP+VN)
(2)
APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA
Equação 3: Precisão: Avalia o quanto
das classificações positivas estão corretas. Relaciona-se com a qualidade e uniformidade do
método
VP/ (VP+FP)
(3)
7 CONCLUSÕES
A escolha do método e modelo de aprendizagem de máquina depende de uma diversidade de fatores. A primeira observação é quanto a
origem dos dados e as características que estes
apresentam. Quando não se tem nenhuma informação prévia dos dados, a escolha é limitada somente a aplicação de métodos de aprendizagem não supervisionada. Neste contexto,
diversas análises estatísticas são requeridas
para avaliar e extrair associações entre os dados. Uma outra abordagem para os métodos de
aprendizagem não supervisionada é sua aplicação em um conjunto de dados rotulados e experimentalmente validados. Esta aplicação permite a extração de associações e relações entre
os dados e pode corroborar com a descoberta de
padrões em novos dados. Logo, a aprendizagem
não supervisionada pode auxiliar os métodos de
aprendizagem supervisionada e semi-supervisionada, enriquecendo as informações obtidas
através destas técnicas.
Quando disponibilizamos de dados com
características representáveis, é possível propor o uso dos métodos de aprendizagem supervisionada e/ou semi-supervisionada, porém a
utilização destas ferramentas atrelada a origem
dos dados implica algumas particularidades. A
primeira delas é o overfitting,termo utilizado
para caracterizar modelos que se ajustam bem
ao conjunto de treinamento, mas não é condizente com os dados reais. Um dos motivos para
este fator é a redundância entre os atributos que
representam os dados. Atributos redundantes
geram overfitting e na maioria dos casos uma
análise de correlação pode ajudar a solucionar
este problema. A segunda particularidade a ser
observada é quanto ao underfitting, caracterizado quando o modelo não se ajusta bem aos dados de treinamento. Nestes casos existem duas
possibilidades: a primeira está condicionada ao
aumento do conjunto de treinamento e a segunda se define pela adição de novos atributos
na representação do conjunto de dados. Além
disso, existem ainda os casos de dados desbalanceados, quando apenas uma classe apresenta grande quantidade de dados. Nesses casos,
o uso de aprendizagem semi-supervisionada
pode auxiliar no enriquecimento de dados para
a classe que possui menor quantidade de dados.
O ajuste do modelo utilizado nos métodos de aprendizagem de máquina é um dos
pontos cruciais para o bom desempenho do
classificador e esta se torna uma medida essencial para a construção de modelos eficientes ao
serem utilizadas metodologias de aprendizagem
de máquina.
8 CONSIDERAÇÕES FINAIS
Neste artigo foi apresentada uma visão geral dos conceitos de aprendizagem de
máquina.A imersão de técnicas de aprendizagem de dados na resolução de sistemas biológicos se tornou uma ferramenta eficaz e inovadora. Para cada problema existem algoritmos e
técnicas, com características próprias e considerações favoráveis e desfavoráveis que variam de
acordo com a natureza do problema, a limitação
computacional e a qualidade dos dados. Discutir as ferramentas e os problemas já descritos
vem corroborar para o avanço de técnicas computacionais e suas aplicações na biologia. Este
fato permite agregar e enriquecer a área da bioinformática, pois abre portas para áreas ainda não
exploradas,além de contribuir para o avanço das
ferramentas e a amplitude de suas aplicações.
29
Maria Fernanda Ribeiro Dias
REFERÊNCIAS BIBLIOGRÁFICAS
–– ALPAYDIN, E. Introduction to machine learning.
Cambrige: MIT Press, 2004.
–– ARBEX, W. A.Modelos computacionais para identificação de informação genômica associada à resistência ao carrapato bovino. 2009. 200 f. Tese
(Doutorado em Engenharia de Sistemas e Computação)– Universidade Federal do Rio de Janeiro,Rio
de Janeiro, 2009.
–– CAPON, T.J.M.; DUNNE, P.E. Argumentation in
artificial intelligence.Artificial Intelligence, Irvine,
v. 171, n. 10/15, p. 619-641, 2007.
–– CARVALHO, L. A. V. Datamining: a mineração de
dados no marketing, medicina, economia, engenharia e administração. Rio de Janeiro: Ciência Moderna, 2005.
–– CHANG, C.C.; LIN, C.J.LIBSVM:a library for support vector machines. Taipei: ACM Transactions
on Intelligent Systems and Technology,2011. –– CHAPELLE, O.; ZIEN, A.; OLKOPF, B.S. Semi-supervised learning. London: MIT Press, 2006.
–– CORTES, C.; VAPNIK, V.N.Support-vector networks. Machine Learning, Boston, v. 20, p. 273297, 1995.
–– COVER, T.M.Nearest neighbor pattern classification. IEEE Transactionson InformationTheory, Piscataway, v. 13, n. 1, p. 21-27, 1967.
–– FAWCETT, TOM. An Introduction to ROC Analysis. Pattern Recognition Letters. V. 27 p. 861 – 874,
2006.
–– FRANK, E. et al. Data mining in bioinformatics
using Weka. Bioinformatics, Oxford, v. 20, n. 15, p.
2479-2481, 2004
–– FUJISAWA,
K.; FUKUDA, M.; NAKATA,
K.Preprocessing sparse semidefinite programs via
matrix completion.SIAM Journal on Optimization,
Philadelphia, v. 11, n. 3, p. 647-674, 2000.
–– GHAHRAMAN, I. Unsupervised learning. In:
BOUSQUET, O.; RAETSCH, G. Luxburg, U. von.
(Org.).Advanced lectures on machine learning. Berlin: Springer-Verlag, 2004. p. 72-112.
–– GOLUB, T. R. et al. Molecular classification of
cancer: class discovery and class prediction by gene
expression monitoring. Science,New York, v. 286,n.
5439, p. 531-537, 1999.
30
–– GUREK, E. L.Aquisição de conhecimento em bancos de dados. 2001. 98 f. Trabalho de Conclusão de
Curso(Tecnólogo em Processamento de Dados) –
Universidade Tuiuti do Paraná,Santo Inácio, 2001.
–– HALL, M. et al.The WEKA data mining software:
an update. SIGKDD Explorations, New York, v. 11,
n. 1,p. 10-18, 2009.
–– HUSSAIN, F. et al. Exception rule mining with a
relative interestingness measure. In: TERANO, T.;
LIU, H.; CHEN, A. L. P. Knowledge discovery and
data mining. Berlin: Springer, 2000. p. 86-96.
–– RAZA, K.Application of data mining in Bioinformatics.Indian Journal of Computer Science and Engineering, New Delhi, v. 1, n. 2, p. 114-118, 2010.
–– KRETSCHMANN, E.; FLEISCHMANN, W.;
APWEILER, R. Automatic rule generation for protein annotation with the C4.5 data mining algorithm applied on SWISS-PROT. Bioinformatics,
Oxford, v. 17, n. 10, p. 920-926, 2001.
–– LÄNGKVIST, M.; KARLSSON, L.; LOUTFI, A. A
review of unsupervised feature learning and deep
learning for time-series modeling. Pattern Recognition Letters,Uppsala, v.42, p. 11-24, 2014.
–– LARRAÑAGA,P. et al. Machine learning in bioinformatics. Brief Bioinformatics, Oxford, v. 7, n. 1, p.
86-112, 2006.
–– LIBBRECHT, M. W.; NOBLE, W. S. Machine learning applications in genetics and genomics. Nature
Reviews Genetics,London, v. 16,n. 6, p. 321-332,
2015.
–– LU, Z.J. et al. Prediction and characterization of
noncoding RNAs in C. elegans by integrating conservation, secondary structure, and high-throughput
sequencing and array data. Genome Research, New
York, v. 21, n. 2, p. 276-285, 2011.
–– MANILLA, H. et al. Finding interesting rules from
large sets of discovered association rules.In: INTERNATIONAL CONFERENCE ON INFORMATION
AND KNOWLEDGE MANAGEMENT, 3., 1994,
Maryland.Proceedings… Maryland: [s.n.], 1994. p.
401-407.
–– MITCHELL, T.Machine learning.New York: McGraw-Hill, 1997.
–– OGURI, P.Aprendizado de máquina para o problema de sentiment classification. 2006. 54f. Disserta-
APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA
ção (Mestrado em Ciências da Computação) – Pontifícia Universidade Católica do Rio de Janeiro, Rio
de Janeiro, 2006.
–– PEROU, C. M. et al. Molecular portraits of human
breast tumours. Nature,London, v. 406, n. 6797, p.
747-752, 2000.
–– QUINLAN, J. R.Induction of decision trees. Machine Learning, Boston, v. 1, p. 81-106, 1986.
–– REICH, M. et al.GenePattern 2.0. Nature Genetics, London, v. 38, p. 500-501, 2006.
–– SEMOLINI, R.Support vector machines, inferência
transdutiva e o problema de classificação. 2002. 142 f.
Dissertação (Mestrado em Engenharia Elétrica) – Universidade Estadual de Campinas,Campinas, 2002.
–– SMOLA, A.J.; SCHÖLKOPF, B. Learning with kernels: support vector machines, regularization, optimization, and beyond.Cambridge:MIT Press, 1998.
–– SMOLA, A. J.;VISHWANATHAN, S.V.N.;LE,
Q. V. Bundle methods for machine learning.
In:ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS,20., 2007, Cambridge.Proceedings… Cambridge: MIT Press,2007. p. 1-8.
–– TARCA, A.L. et al. Machine learning and its
applications to biology. PLoS Computational
Biology,California, v. 3, n. 6,p. 953-963, 2007.
–– TAYLOR, J. et al. Application of metabolomics to
plant genotype discrimination using statistics and
machine learning. Bioinformatics, Oxford, v. 18, n.
2, p. 241–248, 2002.
–– TONG, S.; KOLLER, D. Support vector machine
active learning with applications to text classification. Journal of Machine Learning Research, Van-
couver, v. 2, p. 45-66, 2001.
–– TUNG, C. W.; HO, S.Y. Computational identification of ubiquitylation sites from protein sequences.
BMC Bioinformatics, Bari, v. 9, n. 310, p. 310-317,
2008.
–– TUNG, C.W.; HO, S.Y. POPI: predicting immunogenicity of MHC class I binding peptides by
mining informative physicochemical properties.
Bioinformatics,Oxford, v. 23, n. 8, p. 942-949, 2007.
–– WIDROW, B.; LEHR, M.A.30 years of adaptive
neural networks: perceptron, Madaline, and backpropagaion. Proceedings of the IEEE, Raleigh, v. 78,
n. 9, p. 1415-1442, 1990.
–– WITTEN, I. H.; FRANK, E. Data mining: practical machine learning tools and techniques with
java implementations. São Francisco: Morgan Kaufmann, 2000.
–– YIP, K.Y. et al. Machine learning and genome annotation: a match meant to be?.Genome Biology,
London, v.14, n. 205, p. 205- 217, 2013.
–– VARMA, SUDHIR, and RICHARD SIMON. Bias
in Error Estimation When Using Cross-Validation
for Model Selection. BMC Bioinformatics v. 7, n. 91,
2006.
AGRADECIMENTOS
À Coordenação de Aperfeiçoamento de
Pessoal de Nível Superior (CAPES) e ao Conselho Nacional de Desenvolvimento Científico e
Tecnológico (CNPq).
Recebido em 15 de julho de 2016.
Aceito em 20 de agosto de 2016.
31
Maria Fernanda Ribeiro Dias
32
APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA
33
Maria Fernanda Ribeiro Dias
34
APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA
35
Maria Fernanda Ribeiro Dias
36
APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA
37
Download