Introdução ao aprendizado de máquina e inteligência

Propaganda
TACG
Talking About Computing and Genomics
Introdução ao aprendizado de máquina e inteligência
computacional e aplicações em bioinformática, biologia
computacional ou genômica
Wagner Arbex
[email protected]
Modelos computacionais aplicados à bioinformática e biologia computacional
Ritz Hotel – Juiz de Fora, MG
3 de setembro de 2013
First of all...
Parte I
Introdução ao aprendizado de máquina e
inteligência computacional
Inteligência artificial x aprendizado de máquina I
Até a década de 80, a IA era uma área de “problemas
curiosos”(FACELLI et al., 2011), dividida entre simbolismo e
conexionismo;
Simbolismo e conexionismo
São técnicas que buscam criar um “comportamento inteligente” em
sistemas computacionais;
O simbolismo baseia-se no “fluxo do raciocínio”, em geral, serial e que
simula o raciocínio dedutivo;
O conexionismo baseia-se em princípios neurobiológicos da “arquitetura
cerebral”, criando um “raciocínio paralelo e a partir de experiências”.
A partir dos anos 80, a IA começou a ser aplicada, quase sempre,
para encontrar/criar regras ou tomar decisões, baseadas em
conhecimento de especialistas, p. ex., em sistemas de diagnóstico;
Inteligência artificial x aprendizado de máquina II
O aprendizado de máquina (AM), em termos amplos, é aplicado na:
Caracterização, entendimento automático e reconhecimento de
padrão;
Interpretação de resultados prévios, primários e/ou intermediários para
estabelecimento de conhecimento ou tomada de decisão.
Ao contrário das abordagens clássicas:
Permite expressar ou representar imprecisão e/ou incerteza – alto,
baixo, muito, pouco etc. – ou relações e agrupamentos – p. ex., o
conjunto das pessoas altas;
Possibilita o uso desses conceitos “vagos”, emulando o padrão comum
de entendimento, uma vez que, entre pessoas, não há dificuldade de
discernimento dos mesmos;
Inteligência artificial x aprendizado de máquina III
Aprendizado de máquina, ou machine learning, pode ser definido
como a capacidade de melhorar o desempenho na realização de
alguma tarefa, por meio da experiência (MITCHELL, 1997);
Aprendizado de máquina
O processo de indução de uma hipótese – ou aproximação de função – a
partir de experiência adquirida/obtida chama-se aprendizado de
máquina (FACELLI et al., 2011).
Aquisição de conhecimento
Um sistema computacional adquire e utiliza conhecimento caso seja
capaz de utilizar-se de informações prévias, primárias ou derivadas
dessas, para inferir novos resultados e novas informações (ARBEX, 2009).
Inteligência artificial x aprendizado de máquina IV
Onde aparece a mineração de dados?
Mineração de dados (MD) é um nome estabelecido no “mundo dos
negócios” para aplicações de algoritmos de aprendizado de máquina em
grande massas de dados e, na ciência da computação, é chamado de
descoberta de conhecimento em bases de dados (knowledge discovery in
databases - KDD) (ALPAYDIN, 2004; CARVALHO, 2005):
MD e AM são diferenciados na compreensão de que AM refere-se à
disciplina na qual são desenvolvidos e estudados os algoritmos, técnicas e
ferramentas que permitem o aprendizado;
MD deve ser vista como o processo em si, que aplica AM para a descoberta
de conhecimento;
Como funciona o aprendizado de máquina? I
Costuma-se dizer que AM cumpre tarefas e que se resumem a
tarefas preditivas ou supervisionadas e tarefas descritivas ou
não-supervisionadas;
Na predição, estabelecem-se funções ou hipóteses que consigam
explicar como os atributos de entrada – ou atributos preditores –
relacionam-se com o atributo de saída – também chamado de
atributo alvo ou atributo meta;
As tarefas de predição podem ser a classificação, para dados
discretos, e a regressão para dados contínuos;
Como funciona o aprendizado de máquina? II
Na descrição, as tarefas são, genericamente, chamadas de
agrupamento, associação e sumarização (CARVALHO, 2005;
FACELLI et al., 2011):
No agrupamento, buscam-se dados similares, sob algum aspecto de
seus atributos
Na associação, buscam-se padrões suficientemente frequentes para
separar os atributos que refletem esse padrão;
Por sumarização, entende-se uma descrição simples, e compacta para
um conjunto de dados;
Como funciona o aprendizado de máquina? III
Tarefa de predição
Encontrar uma função – ou hipótese – a partir dos dados de treinamento,
que sirva para caraterizar um novo caso, com base nos valores dos seus
atributos de entrada e, portanto, faz-se o aprendizado
supervisionado (FACELLI et al., 2011);
Um modelo preditivo também obtém uma descrição simples do conjunto de
dados;
Tarefa de descrição
Faz-se a descrição ou a exploração de um conjunto de dados, do qual não
se conhece(m) o(s) atributo(s) de saída, então é feito o aprendizado
não-supervisionado. P. ex., agrupamento ou descoberta de regras de
associação (CARVALHO, 2005; FACELLI et al., 2011);
Um modelo descritivo pode servir para predição, após ser validado;
Inteligência computacional I
O termo inteligência computacional (IC) surgiu na última década,
confundindo o escopo relacionado com IA e AM;
A IA tenta simular o comportamento inteligente em sistemas com
representação exata e completa do conhecimento (TURING, 1950).
IC envolve computação a partir de um sistema com uma capacidade
de aprendizagem e/ou para tratar situações novas, estando
relacionado a adaptação, como, p. ex., o aprendizado por reforço;
Um sistema com IC deve possuir um ou mais atributos de razão,
como generalização, descoberta, de associação e
abstração (EBERHART; SHI, 2007);
Inteligência computacional II
O início e o fim da confusão entre IC e AM
IC geralmente incorpora abordagens híbridas, tais como redes neurais,
sistemas difusos e sistemas de computação evolucionária;
São sistemas frequentemente projetados para imitar um ou mais aspectos
da “inteligência biológica”;
Parte II
Aplicações de aprendizado de máquina e
inteligência computacional
Descoberta de SNPs I
Polimorfismos de base única são modificações de um único
nucleotídeo, em uma dada sequência, quando comparada a outra,
que, como consequência, podem alterar a formação de proteínas;
Figura : Exemplos de polimorfismos bi, tri e tetra-alélicos
Descoberta de SNPs II
O estudo de SNPs busca... (ARBEX, 2009)
Identificar um SNP em uma sequência;
Comprovar se o nucleotídeo “trocado" é realmente um caso de
polimorfismo;
Verificar se o polimorfismo provocará alterações a ponto de alterar a
formação de uma proteína;
Verificar se a “nova" proteína, se esta realmente foi formada, quando
combinada com as demais, provocará ou suprimirá alguma característica no
indivíduo;
Descoberta de SNPs III
C1 : QS = 43 (Ac = 99,999%)
Polyphred = 99% PPSPolyphred = 1 (97% TP); Polybayes = 96% PPSPolybayes = 2 (75% TP)
C2 : QS = 50 (Ac = 99,9999%)
Polyphred = 94% PPSPolyphred = 3 (62% TP); Polybayes = 0% PPSPolybayes = 6 (1% TP)
Descoberta de SNPs IV
Padrões para leitura das bases e identificação de SNPs
Escore de
qualidade (QS)
10
20
30
40
50
Probabilidade
de erro
1 em 10
1 em 100
1 em 1.000
1 em 10.000
1 em 100.000
Acurácia
(Ac - %)
90
99
99,9
99,999
99,9999
Qualidade de leitura das bases.
Classe
1
2
3
4
5
6
Polyphred
score (PPS)
99
95 - 98
90 - 94
70 - 89
50 - 69
0 - 49
Ver. Positivos
(TP - %)
97
75
62
35
11
1
Classificação de candidatos a SNPs.
Sistema de inferência difusa (SID) para descoberta de
SNPs
O
Máquina de Inferência
/
C2 : QS = 50; Polyphred = 94% PPSPolyphred; Polybayes = 0% PPSPolybayes
Fuzzificação
{︃
PIM (x) =
⎧
⎪
⎪
⎪
⎪
⎨
PmP (x) = ⎪
⎪
⎪
⎪
⎩
⎧
⎪
⎪
⎪
⎪
⎨
PMP (x) = ⎪
⎪
⎪
⎪
⎩
1
59 − x
59 − 49
0
x ≤ 49
49 < x < 59
x ≥ 59
0
x − 60
70 − 60
1
91, 5 − x
91, 5 − 89
0
x ≤ 60
60 < x < 70
70 ≤ x ≤ 89
0
x − 92, 5
95 − 92, 5
1
99 − x
99 − 98
0
89 < x < 91, 5
x ≥ 91, 5
⎧
⎪
⎪
⎪
⎪
⎨
PPP (x) = ⎪
⎪
⎪
⎪
⎩
⎧
⎪
⎪
⎪
⎪
⎨
PPR (x) = ⎪
⎪
⎪
⎪
⎩
0
x − 25
50 − 25
1
79 − x
79 − 69
0
0
x − 80
90 − 80
1
96 − x
96 − 94
0
x ≤ 25
25 < x < 50
50 ≤ x ≤ 69
69 < x < 79
x ≥ 79
x ≤ 80
80 < x < 90
90 ≤ x ≤ 94
94 < x < 96
x ≥ 96
x ≤ 92, 5
92, 5 < x < 95
95 ≤ x ≤ 98
98 < x < 99
x ≥ 99
{︃
PAP (x) =
0
x − 96, 5
99 − 96, 5
1
x ≤ 96, 5
96, 5 < x < 99
x ≥ 99
Função de pertinência para a variável linguística possibilidade.
Fuzzificação
⎧
⎪
⎪
⎨
QR (x) = ⎪
⎪
⎩
1
30 − x
30 − 20
0
x ≤ 20
20 < x < 30
x ≥ 30
⎧
⎪
⎪
⎪
⎪
⎪
⎪
⎨
QB (x) = ⎪
⎪
⎪
⎪
⎪
⎪
⎩
0
x − 15
30 − 15
1
70 − x
70 − 40
0
x ≤ 15
15 < x < 30
30 ≤ x ≤ 40
40 < x < 70
x ≥ 70
⎧
⎪
⎪
⎨
QO (x) = ⎪
⎪
⎩
0
x − 40
50 − 40
1
x ≤ 40
40 < x < 50
x ≥ 50
Função de pertinência para a variável linguística qualidade.
Regras de inferência
se
improvável
pouco provável
medianamente provável
provável
muito provável
altamente provável
improvável
pouco provável
medianamente provável
provável
muito provável
altamente provável
improvável
pouco provável
medianamente provável
provável
muito provável
altamente provável
e
qualidade ruim
qualidade ruim
qualidade ruim
qualidade ruim
qualidade ruim
qualidade ruim
qualidade boa
qualidade boa
qualidade boa
qualidade boa
qualidade boa
qualidade boa
qualidade ótima
qualidade ótima
qualidade ótima
qualidade ótima
qualidade ótima
qualidade ótima
então
SNP descartado
SNP descartado
SNP descartado
SNP descartado
SNP descartado
SNP descartado
SNP descartado
SNP descartado
SNP não confirmado
SNP não confirmado
SNP confirmado
SNP confirmado
SNP descartado
SNP descartado
SNP não confirmado
SNP não confirmado
SNP confirmado
SNP confirmado
Regras de inferência utilizadas no modelo.
(R1 )
(R2 )
(R3 )
(R4 )
(R5 )
(R6 )
(R7 )
(R8 )
(R9 )
(R10 )
(R11 )
(R12 )
(R13 )
(R14 )
(R15 )
(R16 )
(R17 )
(R18 )
Regras de inferência
possibilidade
improvável (PIM )
pouco provável (PPP )
medianamente provável (PmP )
provável (PP )
muito provável (PMP )
altamente provável (PAP )
ruim (QR )
qualidade
boa (QB )
ótima (QO )
SNPD
SNPD
SNPD
SNPD
SNPD
SNPD
SNPD
SNPD
SNPNC
SNPNC
SNPC
SNPC
SNPD
SNPD
SNPNC
SNPNC
SNPC
SNPC
Interpretação das regras de inferência utilizadas no modelo.
Defuzzificação
⎧
⎪
⎪
⎨
SNPD (x) = ⎪
⎪
⎩
⎧
⎪
⎪
⎪
⎪
⎪
⎪
⎨
SNPNC (x) = ⎪
⎪
⎪
⎪
⎪
⎪
⎩
⎧
⎪
⎪
⎨
SNPC (x) = ⎪
⎪
⎩
1
30 − x
30 − 20
0
0
x − 15
30 − 15
1
70 − x
70 − 40
0
0
x − 40
50 − 40
1
x ≤ 20
20 < x < 30
x ≥ 30
x ≤ 15
15 < x < 30
30 ≤ x ≤ 40
40 < x < 70
x ≥ 70
x ≤ 40
40 < x < 50
x ≥ 50
Função de saída para a variável linguística SNP, definida pelos termos SNP descartado (SNPD ),
SNP não confirmado (SNPNC ) e SNP confirmado (SNPC ).
Síntese dos resultados
Escore mínimo
de alinhamento
30%
60%
90%
Polyphred
Polybayes
Total
1.503
1.224
1.055
240
230
202
1.624
1.378
1.145
SID - Mamdani
SID - Larsen
SNPC
SNPNC
SNPD
SNPC
SNPNC
SNPD
17%
10%
22%
5%
61%
85%
9%
9%
4%
5%
87%
86%
Candidatos a SNPs e agrupamentos desses a partir dos resultados do SID.
Referências I
ALPAYDIN, E. Introduction to machine learning. Cambrige: MIT
Press, 2004. 415 p.
ARBEX, W. Modelos computacionais para identificação de
informação genômica associada à resistência ao carrapato
bovino. Tese (Doutorado em Engenharia de Sistemas e Computação)
— Universidade Federal do Rio de Janeiro, Rio de Janeiro, Mar.
2009. Trabalho vencedor do prêmio SBIAgro 2009 – Categoria
Tese de Doutorado no VII Congresso da Sociedade Brasileira de
Agroinformática.
CARVALHO, L. A. V. de. Datamining: a mineração de dados no
marketing, medicina, economia, engenharia e administração. Rio
de Janeiro: Ciência Moderna, 2005.
EBERHART, R. C. et al. Computational intelligence: concepts to
implementation. Burlington: Morgan Kaufmann Publishers, 2007.
Referências II
FACELLI, K. et al. Inteligência artifical: uma abordagem de
aprendizado de máquina. Rio de Janeiro: LTC, 2011.
MITCHELL, T. M. Machine learning. 1. ed. New York: McGraw Hill
Higher Education, 1997. 432 p. ISBN 0070428077.
TURING, A. M. Computing machinery and intelligence. Mind, LIX, p.
433–460, Oct. 1950.
TACG
Talking About Computing and Genomics
Introdução ao aprendizado de máquina e inteligência
computacional e aplicações em bioinformática, biologia
computacional ou genômica
Wagner Arbex
[email protected]
Modelos computacionais aplicados à bioinformática e biologia computacional
Ritz Hotel – Juiz de Fora, MG
3 de setembro de 2013
Download