TCC-AndreDelGrossi-BCC-UEL-2013

Propaganda
ANDRÉ AUGUSTO DEL GROSSI
COMPARAÇÃO E AVALIAÇÃO DE TÉCNICAS
DE APRENDIZADO DE MÁQUINA PARA
INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DE
PRÓSTATA
LONDRINA–PR
2013
ANDRÉ AUGUSTO DEL GROSSI
COMPARAÇÃO E AVALIAÇÃO DE TÉCNICAS
DE APRENDIZADO DE MÁQUINA PARA
INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DE
PRÓSTATA
Trabalho de Conclusão de Curso apresentado
ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em
Ciência da Computação.
Orientador: Prof(a). Ms. Helen C. de Mattos
Senefonte
Coorientador: Prof(a). Dr(a). Maria Angélica
de O. C. Brunetto
LONDRINA–PR
2013
André Augusto Del Grossi
Comparação e avaliação de técnicas de aprendizado de máquina para indicação
de biópsia para o câncer de próstata/ André Augusto Del Grossi. – Londrina–PR,
201363 p. : il. (algumas color.) ; 30 cm.
Orientador: Prof(a). Ms. Helen C. de Mattos Senefonte
– Universidade Estadual de Londrina, 2013.
1. aprendizado de máquina. 2. câncer de próstata. 3. biópsia. I. Helen C. de
Mattos Senefonte. II. Universidade Estadual de Londrina. III. Curso de Ciência
da Computação.
CDU 02:141:005.7
ANDRÉ AUGUSTO DEL GROSSI
COMPARAÇÃO E AVALIAÇÃO DE TÉCNICAS
DE APRENDIZADO DE MÁQUINA PARA
INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DE
PRÓSTATA
Trabalho de Conclusão de Curso apresentado
ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em
Ciência da Computação.
BANCA EXAMINADORA
Prof(a). Ms. Helen C. de Mattos Senefonte
Universidade Estadual de Londrina
Orientador
Prof(a). Dr(a). Cinthyan Renata Sachs C.
de Barbosa
Universidade Estadual de Londrina
Prof. Dr. Bruno Bogaz Zarpelão
Universidade Estadual de Londrina
Londrina–PR, 21 de novembro de 2013
LONDRINA–PR
2013
Dedico este trabalho aos meus familiares e ao meu
grande amigo Vínicius Quaglio que me acompanhou
durante o ano nesta jornada.
AGRADECIMENTOS
Agradeço primeiramente aos meus pais Meire e Osvaldo, pelo apoio, suporte e
amor incondicional especialmente durante a execução deste trabalho.
À minha irmã Ana Paula, pela energia positiva e confortante que a sua companhia
me fornece, em particular neste ano, repleto de conquistas e realizações para ambos.
À minha orientadora Helen, pessoa extraordinária que tive o prazer de conhecer e
compartilhar o desenvolvimento deste trabalho.
Agradeço também aos meus colegas de trabalho, pelo aprendizado e paciência.
E por fim a todos os meus amigos, que acompanharam de alguma forma o sucesso
e as dificuldades que enfrentei durante o ano.
Todos os homens sonham, mas não da mesma forma.
Aqueles que sonham durante a noite, nos recessos
empoeirados da mente, acordam na manhã seguinte
e descobrem que foi algo efêmero, passageiro;
mas os sonhadores do dia são homens perigosos,
porque ao criar seus sonhos com os olhos abertos,
podem torná-los reais.
(T. E. Lawrence)
DEL GROSSI, A. A.. Comparação e avaliação de técnicas de aprendizado de máquina para indicação de biópsia para o câncer de próstata.
63 p. Trabalho de Conclusão de Curso (Graduação). Bacharelado em Ciência
da Computação – Universidade Estadual de Londrina, 2013.
RESUMO
Este estudo propõe a investigação de técnicas de aprendizado de máquina
aplicadas ao problema de diagnóstico de câncer de próstata, com o intuito de auxiliar na seleção de pacientes a serem encaminhados ao procedimento de biópsia.
O trabalho possui como objetivo investigar quais técnicas, dentre as selecionadas,
alcançam melhores taxas de classificação para o problema. As variáveis antecedentes ao tratamento de pacientes do Hospital Universitário da Universidade Estadual
de Londrina (HU-UEL), no período de 2005 a 2009 foram utilizadas para construção e validação dos classificadores. Por fim, as métricas de desempenho para os
modelos construídos a partir das técnicas e algoritmos descritos são comparados e
contrastados, juntamente com um resumo dos resultados no geral.
Palavras-chave: câncer de próstata. aprendizado de máquina. biópsia. classificação
DEL GROSSI, A. A.. Comparison and evaluation of machine learning
techniques for recommending patients to prostate cancer biopsy. 63
p. Final Project (Undergraduation). Bachelor of Science in Computer Science –
State University of Londrina, 2013.
ABSTRACT
This study proposes the investigation of machine learning techniques applied to prostate cancer diagnosis with the goal of determining patients that should
undergo biopsy for prostate cancer screening. This work intends to investigate which
techniques provide best classification rates for the problem. Pre-treatment variables
gathered from patients of the Academic Hospital of State University of Londrina
(HU-UEL) from 2005 to 2009 are used for construction and validation of classifiers.
Lastly, accuracy and performance indicators for the obtained models are compared
based on similarities and divergences, along with general observed results.
Keywords: prostate cancer. machine learning. biopsy. classification
LISTA DE ILUSTRAÇÕES
Figura 1 – Gráfico da função logística . . . . . . . . . . . . . . . . . . . . . . . .
Figura 2 – Visão simplificada das camadas uma rede neural artificial multi-layer
perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Figura 3 – Função backpropagation simples . . . . . . . . . . . . . . . . . . . . .
Figura 4 – Árvore de decisão para a avaliação de compra de computador . . . .
Figura 5 – Um exemplo de curva ROC . . . . . . . . . . . . . . . . . . . . . . .
. 30
.
.
.
.
33
34
35
40
Figura 6 – Seletor de interface do Weka . . . . . . . . . . . . . . . . . . . . . . . . 43
Figura 7 – Weka Explorer após o carregamento de um conjunto de dados . . . . . 44
Figura 8 – Forma de cálculo para o obtenção do valor do atributo Ajuste . . . . . 45
Figura 9 – Indicadores de desempenho para o modelo de regressão logística . . . .
Figura 10 – Desempenho do modelo construído com o algoritmo MultiLayerPerceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Figura 11 – Desempenho do modelo construído com o algoritmo MLPClassifier (n
= 305) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Figura 12 – Desempenho do modelo construído com o algoritmo MLPClassifier (n
= 500) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Figura 13 – Desempenho do modelo construído com o algoritmo ADTree (n = 500)
Figura 14 – Estrutura de árvore gerada pelo classificador ADTree . . . . . . . . . .
Figura 15 – Desempenho do modelo construído com o algoritmo PART (n = 305) .
Figura 16 – Regras de decisão geradas pelo classficador PART . . . . . . . . . . . .
Figura 17 – Comparação de desempenho entre classificadores . . . . . . . . . . . .
49
50
51
52
52
53
54
54
55
LISTA DE TABELAS
Tabela 1 – Matriz de confusão para dois valores de classe . . . . . . . . . . . . . . 38
Tabela 2 – Métricas de desempenho derivadas da matriz de confusão . . . . . . . . 39
Tabela
Tabela
Tabela
Tabela
Tabela
Tabela
Tabela
3
4
5
6
7
8
9
–
–
–
–
–
–
–
Sumário dos atributos númericos do conjunto de dados (n = 500)
Sumário dos atributos booleanos do conjunto de dados (n = 500)
Parâmetros para o algoritmo de regressão logística . . . . . . . .
Parâmetros para o algoritmo MultiLayerPerceptron . . . . . . . .
Parâmetros para o algoritmo MLPClassifier . . . . . . . . . . . .
Parâmetros para o algoritmo ADTree . . . . . . . . . . . . . . . .
Parâmetros para o algoritmo PART . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
46
46
47
47
47
48
48
Tabela 10 – Coefiecientes obtidos a partir do modelo de regressão logística . . . . . 50
Tabela 11 – Valores das conexões para o modelo construído com o algoritmo MLPClassifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
LISTA DE ABREVIATURAS E SIGLAS
ANN
Rede neural artificial (artificial neural network)
ARFF
Formato de arquivo atributo-relação (attribute-relation file format)
AUC
Área sob a curva (area under curve)
CART
Árvore de classificação e regressão (classification and regression tree)
CSPC
Câncer de próstata clinicamente significativo (clinically significative
prostate cancer)
CSV
Valores separados por vírgula (comma separated values)
DRE
Exame de toque retal (digital rectal examination)
FN
Falsos negativos
FP
Falsos positivos
kNN
k vizinhos mais próximos (k-nearest neighbors)
MLE
Estimativa por máxima verossimilhança (maximum likelihood estimate)
MLP
Perceptron de múltiplas camadas (multi-layer perceptron)
NSPC
Câncer de próstata não significativo (non-significant prostate cancer)
PSA
Antígeno específico da próstata (prostate-specific antigen)
RBF
Função de base radial (radial basis function)
ROC
Característica de operação do receptor (receiver operating characteristic)
SCG
Gradiente conjugado ajustado (scaled conjugate gradient)
SQL
Linguagem estruturada de consultas (structured query language)
SVM
Máquina de vetores de suporte (support vector machines)
VN
Verdadeiros negativos
VP
Verdadeiros positivos
WEKA
Ambiente Waikato para análise de informação (Waikato environment
for knowledge analysis)
LISTA DE SÍMBOLOS
∈
Pertence
R
Conjunto dos números reais
SUMÁRIO
1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
2 Fundamentação Teórica . . . . . .
2.1 Câncer de próstata . . . . . . . .
2.2 Aprendizado de máquina . . . . .
2.2.1 Regressão logística . . . .
2.2.2 Redes neurais artificiais .
2.2.3 Árvores de decisão . . . .
2.2.4 Avaliação de classificadores
2.3 Trabalhos relacionados . . . . . .
. . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27
27
28
29
32
35
37
40
3 Materiais e métodos . .
3.1 O ambiente Weka . . .
3.2 Conjunto de dados . .
3.3 Experimentos e testes .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
43
43
45
46
4 Resultados . . . . . . . . . . . .
4.1 Regressão Logística . . . . . .
4.2 Redes Neurais Artificiais . . .
4.2.1 MultiLayerPerceptron
4.2.2 MLPClassifier . . . . .
4.3 Árvores de Decisão . . . . . .
4.3.1 ADTree . . . . . . . .
4.3.2 PART . . . . . . . . .
4.4 Comparação de Resultados . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
49
49
50
50
51
52
52
54
55
5 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
25
1 INTRODUÇÃO
A confirmação do diagnóstico de câncer de próstata em pacientes é uma tarefa complicada que requer na maioria dos casos a realização de biópsia, procedimento que auxilia
na detecção da doença. Este procedimento consiste na coleta de uma amostra das células
prostáticas para análise laboratorial, e é um procedimento invasivo e inconveniente– 50%
dos homens relatam incômodo durante a biópsia [1]. Na tentativa de reduzir a chance que
um paciente tem de ser submetido ao procedimento, existem técnicas que se baseam em
dados clínicos, obtidos desde a primeira suspeita para a construção de modelos determinadores da necessidade de biópsia. No entanto, mesmo com a utilização de informações
obtidas através de exames, o diagnóstico não é livre de incertezas; Djavan et al. [2] afirmam que níveis elevados de PSA não confirmam o câncer de próstata, pois estes também
podem occorer em casos de doenças prostáticas benignas. Sendo assim, testes efetuados
somente com o marcador de PSA mostraram-se ineficazes pois recomendavam pacientes
para a biópsia sem que houvesse necessidade [3].
Pesquisas mais recentes sugerem a incorporação de métodos matemáticos e computacionais para auxiliar na solução do problema, como a construção de nomogramas1
[6] baseados em atributos como estágio clínico, PSA e pontuação de Gleason2 para inferir
um diagnóstico (nomograma proposto por Kattan et al. [7]). Outra técnica fortemente
utilizada é a regressão logística, um tipo de análise de regressão que possui como objetivo
prever a saída de uma variável binária ou multinomial a partir de variáveis independentes
discretas e/ou contínuas. Por fim, métodos de classificação mais generalizáveis e flexíveis
baseados em técnicas de aprendizado de máquina, como por exemplo redes neurais artificiais e máquinas de vetores de suporte surgiram como alternativas, propondo vantagens
devido à capacidade de reconhecer padrões e inter-relações não lineares entre variáveis [2].
A proposta deste trabalho consiste no estudo e aplicação de técnicas de aprendizado de máquina para inferir a necessidade de biópsia para câncer de próstata, usando
como estudo de caso dados coletados de pacientes do Hospital Universitário da Universidadade Estadual de Londrina, Paraná, acompanhados pelo médico professor de Urologia,
Dr. Horácio Alvarenga Moreira. Os indicadores de desempenho e eficácia de classificação
das técnicas e algoritmos selecionados são calculados e ao final são estabelecidas comparações entre si.
O trabalho segue estruturado da seguinte forma: no capítulo 2, a fundamentação
1
2
Diagrama que representa as relações entre valores de uma ou mais variáveis [4] de forma que uma
linha reta tocando as escalas interceptem nos valores apropriados de cada variável [5].
Classificação que avalia o prognóstico do tumor prostático através do procedimento de biópsia; quanto
maior a pontuação, mais acentuada é a agressividade do tumor.
26
Capítulo 1. Introdução
téorica é apresentada, onde as seções individuais descrevem aspectos do câncer de próstata
e motivação do problema, técnicas e métodos de classificação no campo de aprendizado
de máquina e trabalhos correlatos à proposta. No capítulo 3 são fornecidas informações
a respeito do ambiente configurado para realização de testes, explicação do conjunto de
dados e dos atributos relevantes e experimentos efetuados com os algoritmos e técnicas
apresentados no capítulo anterior. Em seguida, os resultados de classificação obtidos a
partir dos modelos gerados são dispostos no capítulo 4 categorizados pelos algoritmos, e
ao fim do capítulo um sumário dos resultados gerais é compilado. Por fim, as considerações
finais do trabalho são apresentadas no capítulo 5 juntamente com dificuldades encontradas
e sugestões para pesquisas futuras.
27
2 FUNDAMENTAÇÃO TEÓRICA
Para uma melhor compreensão do campo de estudo, são apresentados nas seções
a seguir conceitos pertinentes ao problema proposto. Na seção 2.1, é descrita a fundamentação médica a respeito ao câncer de próstata, incluindo características da doença,
dificuldades no diagnóstico e tratamentos mais comuns. Em seguida, a área de aprendizado de máquina é introduzida englobando conceitos básicos e técnicas computacionais
pertinentes ao campo de estudo. Por fim, é efetuado um levantamento e breve análise de
trabalhos relacionados acerca do tema com ênfase às técnicas descritas na seção 2.2.
2.1
Câncer de próstata
O câncer de próstata é a sexta principal causa de mortalidade relacionada ao câncer [8], com fatores de risco como idade, histórico familiar e etnia [2]. Devido à grande
heterogeneidade biológica da doença [9], o câncer de próstata possui como característica
grande dificuldade em sua detecção e diagnóstico. Muito se deve ao fato que grande parte
dos portadores de câncer prostático não exibem sintomas e devido a isso, não são submetidos a nenhum tipo de terapia [10]. Outro motivo recorrente é a falta de palpabilidade
do tumor, imperceptível muitas vezes por exames de ultrassom ou ressonância magnética
[7]. Além disso, dentre os diagnósticos confirmados, somente uma pequena parcela de pacientes correm sérios riscos: apesar de um em cada seis homens desenvolverem câncer de
próstata durante sua vida, destes, apenas um em dez casos manifestam tumores agressivos
[11]. Pacientes que não apresentam uma combinação de dados clínicos indicando alto risco
não são beneficiados pelo procedimento de biópsia, o qual requer anestesia local e pode
causar ansiedade, dor, sangramentos e infecções, assim como custos e despesas médicas
adicionais.
O marcador do antígeno específico da próstata (prostate specific antigen, abreviado
como PSA) é o parâmetro mais amplamente utilizado para o diagnóstico precoce de câncer
de próstata [12]– o antígeno está presente em pequenas quantidades em homens com
boa saúde prostática, porém mostra-se elevado com frequência na presença de câncer de
próstata e outras doenças prostáticas [13].
Devido ao grande número de falsos positivos obtidos através do uso exclusivo do
valor de PSA, este é considerado ineficaz no processo de inferência do diagnóstico [14].
Apesar da existência de valores de referência para o PSA de acordo com a faixa etária,
valores superiores a 4ng/mL sugerem alguma anomalia prostática, em sua maioria não
relacionadas ao câncer, como por exemplo, retenção urinária, prostatite, ejaculação e hiperplasia prostática benigna (BPH, do inglês benign prostatic hyperplasia) [15], as quais
28
Capítulo 2. Fundamentação Teórica
causam inflamação da próstata são responsáveis por um aumento na produção de PSA
[16] De forma análoga, estima-se que 20% de pacientes diagnosticados com câncer de próstata clinicamente significativo possuem um valor de PSA inferior a 4ng/mL [17]. Outras
variáveis indicativas de biópsia incluem o exame de toque, responsável por identificar alteração no volume prostático e taxa de percentual de PSA livre em relação ao PSA total,
calculado através da razão dos valores obtidos por meio de hemogramas.
Assim como para o PSA, um aumento no volume da próstata não indica necessariamente um tumor cancerígeno– a métrica de densidade (razão entre PSA e volume
total), introduzida para efetuar um ajuste discriminatório entre os pacientes, possui um
valor de corte de aproximadamente 0.15 para distinguir entre uma hipertrofia benigna e
um possível tumor [18]. No entanto, a variação diária do valor de PSA assim como uma
inexatidão de 10% a 30% no cálculo do volume prostático limitam a utilidade clínica deste
parâmetro [15]– leituras de PSA que permanecem elevadas por um período de no mínimo
três meses são altamente indicativas de suspeita de câncer de próstata, enquanto oscilações constantes sugerem um processo benigno [19]. Para a métrica de PSA livre/total,
valores inferiores a 0.15 (15%) sugerem presença de câncer com probabilidade maior que
50%; a faixa de 0.15 a 0.25 é definida como faixa de incerteza e valores acima de 0.25
indicam probabilidade inferior a 10% [20].
Tratamentos possíveis para o diagnóstico de câncer de próstata localizado incluem
espera e monitoramento cuidadoso, prostectomia radical1 , braquiterapia2 , radiação externa, entre outros [7]. A seleção do tratamento apropriado para cada paciente depende
do diagnóstico– fatores como estágio clínico do câncer, outras complicações de saúde
(problemas cardiovasculares, diabetes, entre outras doenças), idade e disponibilidade de
tratamento são os principais motivos considerados no momento em que o médico determina o tipo de tratamento mais adequado ao paciente [21].
2.2
Aprendizado de máquina
Subcampo da inteligência artificial, o aprendizado de máquina é a área que engloba
o estudo e a construção de sistemas inteligentes a partir de dados [22]. Após efetuado o
aprendizado, também denominado treinamento, um sistema pode ser utilizado para classificar ou estimar saídas para instâncias desconhecidas. Arthur Samuel, norte-americano
pioneiro na área de inteligência artificial aplicada a jogos, definiu o aprendizado de máquina como "o campo de estudos que fornece a computadores a habilidade de aprenderem
sem serem explicitamente programados"[23].
1
2
Remoção cirúrgica parcial ou total da glándula prostática.
Forma de radioterapia onde a fonte de radiação é posicionada internamente ou próxima à região
necessitada de tratamento.
2.2. Aprendizado de máquina
29
Witten e Frank [24] descreveram quatro conceitos caracterizando os vários algoritmos de aprendizado de máquina: aprendizado por classificação, onde um conjunto de
exemplos pertencentes à classes são utilizados para construir modelos; aprendizado por
associação, onde deseja-se identificar grupos de um ou mais atributos que determinam o
valor de classe de uma instância; aprendizado por agrupamento, no qual exemplos semelhantes de acordo com um critério estabelecido são agrupados; e aprendizado por regressão,
que possui como objetivo desenvolver um modelo matemático correlacionando atributos
com o valor de classe [23].
Dentre as diversas técnicas desenvolvidas na área de aprendizado de máquina,
foram consideradas para este estudo as técnicas mais recorrentes em pesquisas correlatas
para tarefas relacionadas ao problema incluindo como por exemplo dedução de diagnóstico
da doença, avaliação de prognóstico em pacientes portadores e inferência da necessidade
de biópsia para câncer de próstata.
2.2.1
Regressão logística
A regressão logística é um tipo de modelo de classificação probabilístico que possui
como objetivo estimar o valor de classe de uma variável dependente a partir de outras
variáveis discretas e/ou contínuas [25]. A classe que se deseja estimar é frequentemente
binária– no caso onde existam mais que duas classes, a regressão logística multinomial
deve ser usada.
Apesar de compartilhar pequenas semelhanças com técnicas estatísticas, a regressão logística é uma técnica originada no campo de aprendizado de máquina, pois possui
como objetivo classificar instâncias de acordo com um conjunto de atributos; desta forma,
a análise de regressão tem como tarefa não somente identificar quais variáveis independentes influenciam o resultado da variável dependente mas também como estas o fazem.
No entanto, deve-se evitar a inferência de causalidade entre as variáveis no modelo, pois
este configura um conceito distinto da correlação entre variáveis [26].
Para uma melhor compreensão da técnica de regressão logística, alguns conceitos
matemáticos são necessários; a função logística (eq. 2.1, ilustrada graficamente na figura 1
é a fundamentação elementar deste tipo de análise de regressão.
𝑓 (𝑡) =
1
𝑒𝑡
=
𝑡
𝑒 +1
1 + 𝑒−𝑡
f : R ↦→ [0, 1]
(2.1)
Também denominada de função ou curva sigmóide, é delimitada no intervalo entre
0 e 1 para qualquer t ∈ R; esta delimitação garante que o valor de saída estimado pelo
modelo permaneça no intervalo, permitindo a interpretação do valor como uma figura
probabilística.
30
Capítulo 2. Fundamentação Teórica
1
0.5
0
−6
−4
−2
0
2
4
6
Figura 1: Gráfico da função logística
A construção básica de um modelo de regressão logística é similar ao mecanismo
desenvolvido para a regressão linear:
Definição 1. Suponha um conjunto de dados contendo N pontos observados. Cada ponto
consiste em um conjunto de M variáveis explanatórias 𝑥1,𝑖 , 𝑥2,𝑖 , . . . , 𝑥𝑀,𝑖 , 0 ≤ i < N (também denominadas variáveis independentes, características ou atributos) e uma variável
dependente binária 𝑌𝑖 , isto é, limitada aos valores 0 e 1.
Como dito anteriormente, as variáveis independentes podem ser do tipo reais,
binárias ou categóricas. Estas podem ser classificadas como contínuas, atributos como por
exemplo salário, idade e altura, ou discretas, tais como sexo ou tipo sanguíneo. Variáveis
discretas expressas de forma textual podem ser codificadas numericamente em categorias
ou em atributos binários adicionais.
A variável dependente de saída assume a forma de uma distribuição Bernoulli,
descrita na equação 2.2.
𝑃𝑟 (𝑌𝑖 |𝑥1,𝑖 , 𝑥2,𝑖 , . . . , 𝑥𝑚,𝑖 ) = 𝑝𝑦𝑖 𝑖 (1 − 𝑝𝑖 )1−𝑦𝑖 =
⎧
⎨
𝑝𝑖
se 𝑦𝑖 = 1
⎩ 1 − 𝑝 se 𝑦 = 0
𝑖
𝑖
(2.2)
A probabilidade de sucesso 𝑌𝑖 = 1 é denotada por 𝑝𝑖 , e seu complemento 1 𝑝𝑖 indica 𝑌𝑖 = 0. O objetivo da regressão logística é encontrar os coeficientes de uma
combinação linear das variáveis explicativas que preveja a variável de saída corretamente.
Esta função 𝑔(𝑖) é escrita da seguinte forma:
𝑔(𝑖) = 𝛽0 + 𝛽1 𝑥1,𝑖 + · · · + 𝛽𝑀 𝑥𝑚,𝑖
(2.3)
onde 𝛽0 , 𝛽1 , . . . , 𝛽𝑀 ∈ R são os coeficientes de regressão e 𝑥1,𝑖 , 𝑥2,𝑖 , . . . , 𝑥𝑀,𝑖 as
variáveis independentes. g(i) pode ser reescrita de forma compacta usando a notação de
2.2. Aprendizado de máquina
31
produto escalar entre os vetores 𝛽 e 𝑋𝑖 .
𝑔(𝑖) = 𝛽 · 𝑋𝑖
(2.4)
No entanto, o valor calculado por g(i) pode assumir valores arbitrários no conjunto dos números reais, dadas as entradas 𝑥1,𝑖 , 𝑥2,𝑖 , . . . , 𝑥𝑀,𝑖 fornecidas. Para contornar
este problema, a combinação linear de coeficientes e variáveis explanatórias é fornecida à
função logística (eq. 2.1) como parâmetro. A probabilidade de sucesso 𝜋𝑖 é equivalente a
composição 𝑓 ∘ 𝑔, dada na eq. 2.5.
𝜋𝑖 = 𝑓 (𝑔(𝑖))
1
=
1 + 𝑒−𝑔(𝑖)
1
=
1 + 𝑒−(𝛽·𝑋𝑖 )
(2.5)
Ao aplicar g(i) à função logística, é possível observar as mesmas propriedades que
caracterizam a eq. 2.1 e que reforçam o comportamento probabilístico [27]:
lim
𝑔(𝑖)→+∞
𝜋𝑖 = 1
lim
𝑔(𝑖)→−∞
𝜋𝑖 = 0
(2.6)
Para estimar os coeficientes, utiliza-se a estimativa por máxima verossimilhança
(MLE) (equação 2.7).
𝑃 (𝜋𝑖 |𝑋, 𝛽) ≈
=
=
𝑁
∏︁
𝑖=1
𝑁
∏︁
𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝑦𝑖 |𝜋𝑖 (𝛽 · 𝑋𝑖 ))
𝜋𝑖𝑦𝑖 (1 − 𝜋𝑖 )1−𝑦𝑖
𝑖=1
𝑁 [︂
∏︁
𝑖=1
1
1 + 𝑒−(𝛽·𝑋𝑖 )
]︂𝑦𝑖 [︂
1
1−
1 + 𝑒−(𝛽·𝑋𝑖 )
]︂1−𝑦𝑖
(2.7)
No entanto, devido a grande quantidade de expressões exponenciais em 2.7, aplicamos o logaritmo negativo– desta forma, o produtório torna-se um somatório e algumas
expressões exponenciais são substituídas por logaritmos [25]. A função log-verossimilhança
negativa L(𝛽) a ser minimizada é descrita em 2.8.
L(𝛽) = − log 𝑃 (𝜋𝑖 |𝑋, 𝛽)
= −
𝑁
∑︁
𝑖=1
𝑦𝑖 log 𝜋𝑖 + (1 − 𝑦𝑖 ) log(1 − 𝜋𝑖 )
(2.8)
32
Capítulo 2. Fundamentação Teórica
Para efetuar a minimização de L(𝛽), utiliza-se um método numérico iterativo.
A motivação no uso da técnica se deve não somente à interpretabilidade do modelo,
uma vez que a magnitude dos coeficientes em 2.3 influenciam o resultado da probabilidade
estimada, mas também o pequeno número de parâmetros desconhecidos: um conjunto de
dados de dimensão R𝑚 resultará em m + 1 coeficientes.
As tabelas de Partin, propostas por [28] originalmente em 1993, são um tipo de
nomograma comumente utilizado para prever o estado patológico de um paciente após
o procedimento de prostactemia radical. As tabelas foram obtidas através de regressão
logística baseado nos atributos PSA, estágio clínico do câncer de próstata e soma de
Gleason. Eifler et al. [29] propuseram uma atualização ao nomograma devido à mudança
no sistema de pontuação de Gleason e da natureza do diagnóstico da doença dezenove
anos após ao nomograma primário.
2.2.2
Redes neurais artificiais
Com o funcionamento análogo à redes ou circuito de neurônios reais [30], uma
rede neural artificial consiste em um grupo de neurônios artificiais interconectados, utilizando um modelo matemático para processamento de informações através da modelagem
de relações complexas não lineares entre as variáveis de entrada sem outras informações
previamente fornecidas [9]. Redes neurais são sistemas adaptáveis, onde o fluxo de informações internas ou externas à rede alteram sua estrutura.
Considerada como uma das representações mais comuns de redes neurais artificiais,
o multi-layer perceptron é dividido em três partes: neurônios de entrada, neurônios ocultos
e neurônios de saída. Um grupo de neurônios é denominado uma camada, onde o número
de neurônios na camada de entrada é igual ao número de variáveis da entrada e o número
de neurônios na camada de saída é igual ao número de variáveis de saída [31]. O número
de neurônios nas camadas ocultas pode ser escolhido arbitrariamente, porém algumas
pesquisas [32][33][34] sugerem o uso de uma relação entre a quantidade de neurônios nas
camadas de entrada e saída para determinar a quantidade ideal de neurônios para uma
camada oculta– esta relação é dada em 2.9 como a raiz quadrada entre o produto da
quantidade de neurônios das camadas de entrada e saída.
𝑁ℎ =
√︁
𝑁𝑖 × 𝑁𝑜
(2.9)
A figura 2 ilustra uma rede neural simples feedforward 3 – os neurônios são representados através de círculos, cada um conectado aos neurônios da camada subsequente,
exceto pela camada final. As arestas representam as conexões entre neurônios e possuem
3
Rede neural artificial onde a direção do fluxo de dados é única, i.e. não existem ciclos.
2.2. Aprendizado de máquina
33
um valor arbitrário inicial, o peso da conexão. As setas indicam a direção do fluxo de
dados, a partir da camada de entrada até a camada de saída.
Oculta
Entrada
Saída
Figura 2: Visão simplificada das camadas uma rede neural artificial multi-layer perceptron
O funcionamento de uma rede neural artificial dá-se por meio de dois processos:
treinamento e teste. O treinamento é realizado para ‘ensinar’a rede, com o intuito de
obter os valores de saída corretos de acordo com as variáveis de entrada. A técnica de
treinamento mais simples, o backpropagation, emprega o cálculo da variação do erro; este
é então propagado na direção oposta da computação dos dados, alterando os pesos das
conexões de forma que um novo valor de saída seja ainda mais próximo ao valor real [35].
O treinamento é encerrado assim que a taxa de erro cai abaixo do valor de tolerância
especificado. A etapa de teste avalia o desempenho de classificação da rede: utilizando um
conjunto de dados distinto, calculam-se os valores de saída sem que o erro obtido ao final
seja propagado– esta taxa de erro representa o quão próximo os valores reais de saída se
situam comparados aos valores calculados pela rede neural [36].
Existem, no entanto, algumas complicações presentes nas fases de treinamento
e teste de uma rede neural artificial. O overfitting ocorre quando uma rede é treinada
demasiadamente, gerando valores especializados somente no conjunto de dados do treinamento, assim quaisquer outras entradas desconhecidas à rede apresentam taxa de erro
maior que a tolerância estabelecida [31]. Outro ponto a ser observado é a interpretação
do erro obtido nas saídas da rede; geralmente calcula-se uma estimativa média do erro
sobre todas os valores processados. Caso as saídas sejam discretas ou até mesmo binárias,
é necessário definir critérios adicionais para avaliação do erro. Em casos onde o conjunto
de dados gera mais de uma saída, como por exemplo na Figura 2 em que a rede neural
possui duas saídas para três valores de entrada, calcula-se a média do erro sobre todas os
valores de saída obtidos e subsequentemente a média sobre todos os registros processados.
A forma de retropropagação do erro em uma rede neural é determinado pelo algoritmo utilizado; a função ilustrada na figura 3, descrita por Russell e Norvig [31] efetua
34
Capítulo 2. Fundamentação Teórica
uma otimização por meio de descida do gradiente, técnica que possui como objetivo minimizar a soma dos quadrados dos erros utilizando a derivada de primeira ordem. A idéia
por trás do algoritmo é dividir o erro calculado e distribuí-los de acordo com o peso das
conexões aos neurônios das camadas precedentes. A atualização dos pesos é efetuada assim que o gradiente de erro é obtido entre os neurônios que compartilham a conexão.
função Backpropagation(exemplos, rede) retorna uma rede neural
parâmetros exemplos, conjunto de exemplos com vetores de entrada x e saída y
rede, rede neural com L camadas, pesos 𝑊𝑖,𝑗 , função de ativação g
repita
para cada e em exemplos faça
para cada nó j na camada de entrada faça 𝑎𝑗 ← 𝑥𝑗 [𝑒]
para l = 2 até L faça
∑︀
𝑒𝑛𝑡𝑟𝑎𝑑𝑎𝑖 ← 𝑊𝑗,𝑖 𝑎𝑗
𝑗
𝑎𝑖 ← 𝑔(𝑒𝑛𝑡𝑟𝑎𝑑𝑎𝑖 )
◁ Valor calculado é fornecido à função de ativação
para cada nó i na camada de saída faça
Δ𝑖 ← 𝑔 ′ (𝑒𝑛𝑡𝑟𝑎𝑑𝑎𝑖 ) × (𝑦𝑖 [𝑒] − 𝑎𝑖 )
◁ Gradiente de erro na camada L
para l = L - 1 até 1 faça
para cada nó j na camada l faça
∑︀
◁ Cálculo do gradiente de erro
Δ𝑗 ← 𝑔 ′ (𝑒𝑛𝑡𝑟𝑎𝑑𝑎𝑗 ) × 𝑊𝑗,𝑖 Δ𝑖
𝑖
para cada nó i na camada l + 1 faça
𝑊𝑗,𝑖 ← 𝑊𝑗,𝑖 + 𝜂 × 𝑎𝑗 × Δ𝑖
até que algum critério de parada seja satisfeito
fim função
◁ Atualização de pesos
Figura 3: Função backpropagation simples
Existem variações do algoritmo padrão de backpropagation que incluem parâmetros
adicionais para controle dos pesos como por exemplo a constante de momento (momentum
rate) e a taxa de declínio (decay) [37] com o intuito de reduzir a presença de mínimos
locais assim como um ajuste mais refinado dos pesos. Outros algoritmos para treinamento
utilizam métodos numéricos alternativos, como por exemplo gradiente conjugado (SCG), o
qual efetua buscas em direções conjugadas ao gradiente providenciando uma convergência
mais rápida [9]. Adicionalmente, o algoritmo de Levenberg-Marquadt consiste em uma
combinação dos métodos de descida de gradiente e o algoritmo de Gauss-Newton; desta
forma, é possível determinar diferentes valores de ajuste dadas variações no gradiente [38].
Apesar da alta popularidade de redes do tipo multi-layer perceptron, existem diversos outros modelos de redes com o mesmo princípio básico de interconexão entre neurônios
porém com estruturas e propósitos distintos– as redes Hopfield são um tipo de rede neural
artificial recorrente (conexões entre neurônios assumem mais de uma direção) utilizadas
para o reconhecimento de padrões devido a capacidade de agirem como memórias associativas recuperando padrões próximos aos que lhe foram apresentados durante o treinamento
2.2. Aprendizado de máquina
35
[39]. Redes neurais RBF são utilizadas para problemas de grande número de dimensões,
e mesclam conceitos de máquinas de vetores suporte por meio da utilização de funções
que constituem uma base arbitrária para os vetores de entrada assim que transferidos à
camada oculta [40]. Redes RBF não apresentam mínimos locais pois os únicos parâmetros ajustados são as conexões do mapeamento entre a camada oculta e camada de saída,
porém este tipo de rede necessita que o conjunto de entradas esteja contido no espaço
definido pelas funções de base radial.
2.2.3
Árvores de decisão
Árvores de decisão são ferramentas de aprendizado supervisionado para problemas
de classificação. Como o próprio nome da técnica sugere, esta possui como objetivo a
construção de uma árvore que represente explicitamente a estrutura do conjunto de dados
[41]. Em outras palavras, uma árvore de decisão fornece, através da disposição de seus
nós, uma interpretação intuitiva do conjunto de variáveis explicativas para o critério de
classificação.
Munido de uma tupla e seus valores para as variáveis independentes, o percurso
pela árvore encerrando em uma folha determina o valor da classe para a instância– os
nós são rotulados com um dos atributos e os ramos partindo destes indicam seus valores
possíveis. Os valores para os atributos em uma árvore de decisão são categóricos– variáveis
contínuas são discretizadas precedendo a construção da árvore. A figura 4 ilustra uma
árvore de decisão elaborada para determinar indivíduos que possam vir a comprar um
computador [42].
Idade
<= 30
Estudante?
Não
Não
> 40
31 - 40
Sim
Sim
Sim
Avaliação
de crédito?
Excelente
Sim
Razoável
Não
Figura 4: Árvore de decisão para a avaliação de compra de computador
Uma árvore de decisão é construída a partir da divisão do conjunto de dados
original em subconjuntos resultantes de um teste de valores de um dos atributos. Este
processo é repetido para cada subconjunto de maneira recursiva até que os valores de saída
de um subconjunto sejam iguais ao valor esperado [43]. O critério utilizado para seleção
36
Capítulo 2. Fundamentação Teórica
dos atributos mais relevantes para a construção do modelo classificação ou regressão
varia de acordo com o algoritmo usado, porém compartilham semelhanhanças, como por
exemplo, a redução de impureza (entropia) e a homogeneidade da variável dependente
nos subconjuntos gerados.
A métrica mais amplamente utilizada para a seleção de atributos relevantes no
processo de construção de uma árvore de decisão é o ganho de informação, cálculo que
indica a quantidade de informação ganha após a inserção de um nó na árvore que efetua
uma decisão a partir de um atributo, isto é, o ‘benefício’obtido ao se utilizar este atributo
ao invés dos outros no conjunto. Eberle [42] descreve o cálculo do ganho de informação
da seguinte forma:
Definição 2. Seja 𝑝𝑖 , dada pela equação 2.10 a probabilidade que uma tupla do conjunto
D com m valores possíveis, possui de pertencer a classe 𝐶𝑖 .
𝑝𝑖 =
𝐶𝑖,𝐷
𝐷
(2.10)
A entropia do conjunto D é determinada na equação 2.11 e representa a informação
esperada para classificar uma tupla do conjunto.
𝐼𝑛𝑓 𝑜(𝐷) =
∑︁
−𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖
(2.11)
𝑖
A informação necessária após a utilização de um atributo A para a divisão de D
é obtida pelo somatório do produto entre a probabilidade de cada subconjunto 𝐷𝑗 e a
entropia de 𝐷𝑗 . Este cálculo é obtido por meio da equação 2.12.
𝐼𝑛𝑓 𝑜𝐴 (𝐷) =
𝑣
∑︁
𝐷𝑗
× 𝐼(𝐷𝑗 )
𝑗=1 𝐷
(2.12)
O ganho de informação (eq. 2.13) é dado como a diferença entre a entropia do
conjunto e a informação calculada após a decisão efetuada pelo atributo A.
𝐺𝑎𝑛ℎ𝑜(𝐴) = 𝐼𝑛𝑓 𝑜(𝐷) − 𝐼𝑛𝑓 𝑜𝐴 (𝐷)
(2.13)
Após o cálculo do ganho de informação para todos os atributos de um subjconjunto,
escolhe-se o atributo com o maior ganho de informação, o que equivale à capacidade do
atributo em decidir o valor de classe para a maior quantidade de instâncias. Como dito
anteriormente, o processo de construção de uma árvore de decisão é recursivo, sendo assim,
o cálculo de ganho de informação é repetido até que todas as tuplas sejam devidamente
atribuídas seu valor de classe.
2.2. Aprendizado de máquina
37
No entanto, a utilização do cálculo de ganho de informação possui uma propensão
a considerar atributos com grande quantidade de valores possíveis. Para superar esta
limitação, a proporção de ganho (gain ratio) é obtida pela subtração entre o ganho de
informação e um novo cálculo de informação obtido após divisão pelo atributo (eq. 2.14).
𝑣
∑︁
𝐷𝑗
𝐷𝑗
× 𝑙𝑜𝑔2
𝐼𝑛𝑓 𝑜𝐷𝑖𝑣𝑖𝑠𝑎𝑜𝐴 (𝐷) = −
𝐷
𝑗=1 𝐷
(︂
)︂
(2.14)
Assim, a proporção do ganho de informação obtém-se por meio da equação 2.15.
𝑃 𝑟𝑜𝑝𝑜𝑟𝑐𝑎𝑜𝐺𝑎𝑛ℎ𝑜(𝐴) = 𝐺𝑎𝑛ℎ𝑜(𝐴) − 𝐼𝑛𝑓 𝑜𝐷𝑖𝑣𝑖𝑠𝑎𝑜(𝐴)
(2.15)
Ao passo que algoritmos como ID3 [44] e C4.5 [45] utilizam os indicadores de
ganho de informação e proporção de ganho para a construção de árvores de decisão,
outras técnicas como por exemplo CART [46] e IBM IntelligentMiner [47] empregam o
uso do coeficiente Gini, outra métrica popular para construção recursiva de árvores de
decisão.
2.2.4
Avaliação de classificadores
Dadas as diversas técnicas pertencentes ao campo de aprendizado de máquina, a
tarefa de classificação consiste na construção de um modelo classificador utilizando dados
conhecidos com o objetivo de determinar o valor de classe para instâncias não rotuladas
[48]. Para contrastar divergências e similaridades entre modelos classificadores, definiramse métricas e critérios para que subsequente a elaboração do modelo, o desempenho entre
outros aspectos adicionais sejam analisados. Alguns destes critérios, senão os mais importantes, estão dispostos abaixo.
Acurácia/Exatidão
Capacidade do modelo em determinar rótulos de classe corretos para instâncias novas ou
desconhecidas.
Rapidez
Custos computacionais envolvidos na elaboração e utilização do classificador.
Robustez
Capacidade de classificar instâncias corretamente com dados omissos ou ruído.
Escalabilidade
Construção eficiente de um classificador utilizando um maior volume de instâncias.
Interpretabilidade
Nível de compreensão e abstração provido pelo modelo.
Simplicidade
Grau de complexidade da estrutura construída (ex. tamanho de uma árvore de decisão,
38
Capítulo 2. Fundamentação Teórica
número de camadas em uma rede neural e quantidade de coeficientes em um modelo de
regressão logística).
Para avaliar a exatidão de um classificador, alguns parâmetros podem ser calculados utilizando o conjunto de teste: sejam 𝑛𝑡 o número total de instâncias para teste
e 𝑛𝑐 o número de instâncias de teste classificadas corretamente. A acurácia 𝜂 e erro de
classificação 𝜀 podem ser calculados através de 2.16a e 2.16b respectivamente.
𝑛𝑐
𝑛𝑡
(2.16a)
𝑛𝑡 − 𝑛𝑐
=1−𝜂
𝑛𝑡
(2.16b)
𝜂=
𝜀=
Além destas medidas, é possível elaborar uma matriz de confusão, fornecendo ainda
mais informações sobre a acurácia do modelo. Em uma matriz de confusão, o eixo horizontal determina os valores de classe corretos enquanto o eixo vertical denota os valores
de classe atribuídos pelo classificador. Desta forma, as quantidades de instâncias classificadas corretamente são dispostas na diagonal principal, enquanto os outros elementos
representam os exemplos classificados incorretamente. A tabela 1 exemplifica resultados
de classificação para dois valores distintos de classe.
′
𝑐1
𝑐2 ′
𝑐1
23
7
𝑐2
10
68
Tabela 1: Matriz de confusão para dois valores de classe
A partir da tabela 1 com as classes 𝑐1 = sim e 𝑐2 = não, obtemos os valores:
Verdadeiros positivos (VP) Esperado = 𝑐1 , classificados como 𝑐1
Falsos positivos (FP) Esperado = 𝑐2 , classificados como 𝑐1
Falsos negativos (FN) Esperado = 𝑐1 , classificados como 𝑐2
Verdadeiros negativos (VN) Esperado = 𝑐2 , classificados como 𝑐2
Uma matriz de confusão fornece informações para o cálculo de outras métricas
importantes. Algumas delas estão dispostas na tabela 2.
As métricas descritas na tabela 2 para a matriz de confusão em ( 1) podem ser
calculadas.
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 =
𝑉𝑃
23
=
= 0.7666
𝑉 𝑃 + 𝐹𝑁
23 + 7
(2.17a)
2.2. Aprendizado de máquina
39
Nomenclaturas
Cálculo
Sensibilidade; taxa de verdadeiros positivos; recall
𝑇𝑃𝑅 =
𝑉𝑃
𝑉 𝑃 +𝐹 𝑁
Especificidade; taxa de verdadeiros negativos
𝑇 𝑁𝑅 =
𝑉𝑁
𝑉 𝑁 +𝐹 𝑃
Fall-out; taxa de falsos positivos
𝐹𝑃𝑅 =
𝐹𝑃
𝐹 𝑃 +𝑉 𝑁
Exatidão; acurácia
𝐴𝐶𝐶 =
𝑉 𝑃 +𝑉 𝑁
𝑉 𝑃 +𝑉 𝑁 +𝐹 𝑃 +𝐹 𝑁
Descrição
Proporção de verdadeiros
positivos
corretamente
identificados
Proporção de verdadeiros
negativos
corretamente
identificados
Proporção de instâncias
classificadas incorretamente
como verdadeiros
Proporção de instâncias
classificadas corretamente
Tabela 2: Métricas de desempenho derivadas da matriz de confusão
𝐸𝑠𝑝𝑒𝑐𝑖𝑓 𝑖𝑐𝑖𝑑𝑎𝑑𝑒 =
𝐹 𝑎𝑙𝑙 − 𝑜𝑢𝑡 =
𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 =
𝑉𝑁
68
=
= 0.8717
𝑉 𝑁 + 𝐹𝑃
68 + 10
𝐹𝑃
10
=
= 0.1282
𝐹𝑃 + 𝑉 𝑁
10 + 68
𝑉𝑃 +𝑉𝑁
23 + 68
=
= 0.8425
𝑉 𝑃 + 𝑉 𝑁 + 𝐹𝑃 + 𝐹𝑁
23 + 68 + 10 + 7
(2.17b)
(2.17c)
(2.17d)
É possível observar que o teste possui maior exatidão para as instâncias com
classe negativa, uma vez que a especificidade é maior que a sensibilidade. Como ilustrado
na tabela 2, a taxa de verdadeiros positivos determina o quão sensível o modelo é para
instâncias de classe positiva ao passo que a taxa de verdadeiros negativos determina o quão
específico o modelo é para a classificação de instâncias negativas [49]. Um classificador
perfeito possui valores de sensibilidade e especificidade iguais a 1: sendo assim, o índice
de acurácia é diretamente proporcional à alterações nas métricas de verdadeiros positivos
e negativos.
Uma técnica amplamente adotada para avaliar o valor que maximiza a acurácia
do modelo é a construção de uma curva de limiar, também denominada de curva ROC
(receiver operating characteristic), a qual foi inicialmente desenvolvida para detecção de
sinais de radares durante a segunda guerra mundial. A figura 5 ilustra um exemplo desta
ferramenta. Uma curva ROC busca estabelecer uma comparação entre modelos de classificação avaliando diferentes pontos de limiar para discriminação; enquanto o eixo vertical
do gráfico indica a sensibilidade (taxa de verdadeiros positivos), o eixo horizontal indica a
taxa de falsos positivos (1 - especificidade), onde cada ponto no espaço representa os respectivos valores obtidos de uma matriz de confusão. A diagonal que corta o espaço ROC
40
Capítulo 2. Fundamentação Teórica
ao meio é conhecido como a linha de zero discriminação, onde permanecem resultados
de decisões aleatórias– pontos acima desta linha indicam desempenho superior à decisões
aleatórias, ao passo que pontos abaixo da linha indicam desempenho inferior. Caso os
pontos na curva ROC estejam presentes abaixo da linha de zero discriminação, a inversão
dos rótulos de classe das instâncias resultará em uma curva com a concavidade invertida,
isto é, com pontos acima da linha de discriminação. No entanto, esta prática é tido como
último recurso para aperfeiçoar um classificador, pois pode causar overfitting [50].
Taxa de verdadeiros positivos (sensibilidade)
1
(0,1) Classificação perfeita
0
ria
ató
0.5
isã
c
De
0
le
oa
0.5
Taxa de falsos positivos (1 - especificidade)
1
Figura 5: Um exemplo de curva ROC
O cálculo da área sob a curva obtida, também conhecida como AUC (area under
curve) é uma forma de agregação de uma curva ROC em um valor escalar. Dado que
o espaço ROC é limitado entre 0 e 1 em ambos os eixos, os valores da área calculada
se mantém neste alcance. A área abaixo da linha de zero discriminação é 0.5, portanto
espera-se que qualquer classificador possua uma área acima deste limiar. A métrica de
área sob a curva pode ser interpretada como a probabilidade a que um modelo possui
de discriminar um exemplo positivo escolhido aleatoriamente de um exemplo positivo
escolhido aleatoriamente [51]. O valor da área sob a curva pode ser calculado por meio da
média de aproximações trapezoidais.
2.3
Trabalhos relacionados
A aplicação de conceitos e técnicas originadas na área de aprendizado de máquina
para auxílio em tarefas relacionadas ao câncer é um tema recorrente em estudos recentes.
2.3. Trabalhos relacionados
41
Estima-se que mais de 500 publicações acadêmicas em periódicos médicos são geradas a
cada ano [52]. No entanto, ensaios clínicos são publicados com menor frequência, assim
como estudos que avaliam o desempenho de redes neurais em contraste com métodos
estatísticos [53].
Entre estes estudos, destaca-se Cinar et al. [9], que propuseram um comparativo
entre redes neurais artificiais e máquinas de vetor de suporte (SVM) utilizando dados
de 300 pacientes do Departamento de Urologia do Hospital de Bornova Sifa na Turquia.
Atributos utilizados incluiram peso, altura, índice de massa corpórea, valores de PSA e
PSA livre, volume prostático, densidade PSA/volume, fumante ou não-fumante, pressão
arterial (sistólica e diastólica), batimento cardíaco e pontuação de Gleason. Os autores
atingiram através da empregação de três técnicas de treinamento em redes neurais artificiais, uma taxa de acurácia média de 79%; com o uso de funções de núcleo linear,
polinomial e gaussiana, obtiveram percentuais de classificação 77.2%, 81.1% e 78.9%,
respectivamente.
Pesquisas mais recentes, como a de Regnier-Coudert et al. [54], apresentam uma
análise detalhada do uso de técnicas estatísticas, redes neurais artificiais e redes bayesianas. Foram utilizados dados clínicos padronizados pela Associação Britância de Cirurgiões
Urologistas (BAUS) contendo os atributos PSA, pontuação de Gleason e estágio clínico
para inferir a variável de estado patológico; o conjunto inicial continha dados de mais de
7500 pacientes obtidos entre 1999 e 2008, porém apenas 1701 registros foram selecionados
devido à grande quantidade de atributos omissos e dados errôneos no conjunto original.
Um aspecto notável do estudo foi a avaliação do desempenho das tabelas de Partin, que
têm como base pacientes americanos, em indivíduos britânicos; concluiu-se que as diferenças demográficas comprometem o desempenho da regressão logística. A eficácia no uso
de tabelas de Partin mostrou-se baixa, por volta de 61%. A introdução de redes bayesianas e redes neurais artificiais mostrou um desempenho de classificação próximo a 67% e
65% respectivamente. Lisboa et al. [55] sugerem a incorporação de técnicas de validação
temporal e externa para avaliar a eficiência dos métodos. Estas variações são baseadas
na clássica validação cruzada, onde os dados são divididos em conjuntos de treinamento
e teste e utilizados distintamente.
O estudo conduzido por Lawrentschuk et al. [56] utilizando uma amostra de 3025
pacientes da Rede de Saúde Universitária (UHN) em Toronto, Canadá, e contendo atributos idade, exame de toque, ultrassom transretal e volume prostático apresenta uma
comparação entre métodos de regressão logística e redes neurais artificiais para classificar
os pacientes em quatro categorias de resultado de biópsia. Os resultados obtidos não foram
satisfatórios: ao passo que os tumores benignos foram identificados com eficácia média de
87%, o câncer de próstata significativo (CSPC) e não-significativo (NSPC) foram classificados com taxas de 22% e 2% respectivamente. O conjunto inicial de dados continha 7758
42
Capítulo 2. Fundamentação Teórica
registros, onde mais da metade foi descartado devido a falta de integridade. Marin et al.
[57] propuseram através de sua pesquisa meios para reduzir os problemas gerados pela
falta de integridade em um conjunto de dados contendo 950 amostras de testes para diagnóstico de câncer de próstata. Após efetuarem a discretização de variáveis linguísticas,
percebeu-se que somente 44 dos 950 registros possuíam todos os atributos com valores
não-nulos. Os autores descrevem então técnicas para corrigir as amostras restantes, como
por exemplo, preenchimento de campos vazios com valor médio do atributo, normalização por meio de histograma de frequência, remoção de entradas com valores altamente
discriminantes e seleção de atributos relevantes.
Garzotto et al. [58] conduziram e compararam resultados de testes com árvores
de classificação e regressão (CART) e regressão logística, obtendo precisão similar com
áreas sob a curva ROC iguais a 0.74 e 0.72 respectivamente. O conjunto de dados foi
composto de 1433 pacientes com PSA inferior a 10ng/mL e incluiu fatores como idade,
região demográfica, histórico familiar e dados laboratoriais como exame de toque, vasectomia, densidade de PSA e pontuação Gleason; a árvore de decisão obtida classificou as
instâncias com valores de sensibilidade e especificidade 95.5% e 37.9% respectivamente.
A pesquisa conduzida por Gülkesen et al. [59] baseou-se no algoritmo QUEST (Quick,
Unbiased and Efficient Statistical Tree), uma variação do algortimo CART onde os critérios para seleção de atributos são mais maleáveis e dados omissos são tratados com
imputação. Com dados de 1830 pacientes coletados entre 2001 e 2007, a análise por meio
de árvores de decisão resultou em um modelo com sensibilidade e especificidade iguais a
0.99 e 0.97 respectivamente, estimando que por volta de 13% dos casos analisados foram
poupados do procedimento de biópsia. No entanto, verificou-se que os resultados obtidos
possuiam acurácia similar ao modelo construído utilizando regressão logística, com uma
AUC levemente maior.
43
3 MATERIAIS E MÉTODOS
Neste capítulo, são apresentados as ferramentas e algoritmos utilizados, assim como
as configurações e parâmetros associados a cada técnica. O ambiente de testes de algoritmos de aprendizado de máquina Weka é descrito na seção 3.1, onde uma visão geral
sobre as funcionalidades da ferramenta é dada. Em 3.1, o conjunto de dados obtido para a
realização dos experimentos é apresentado, incluindo atributos e estatísticas pertinentes.
Por fim, as configurações para os algoritmos selecionados são dadas na seção 3.3 a partir
de variações nos valores padronizados pelo ambiente de testes.
3.1
O ambiente Weka
Weka, acrônimo para Waikato Environment for Knowledge Analysis, é uma coleção
de algoritmos e ferramentas de aprendizado de máquina para tarefas de mineração de
dados [60]. Atualmente, é considerado como sistema de referência [61] tanto no meio
acadêmico quanto comercial pois é open-source além de altamente modular e extensível,
permitindo a integração de novos algoritmos com a interface por meio de plugins e APIs.
A interface gráfica inicial do ambiente é ilustrada na figura 6.
Figura 6: Seletor de interface do Weka
A partir da versão 3.4, o Weka providencia o acesso (figura 6) às diferentes interfaces que compõem o programa. As aplicações principais são o Explorer, ferramenta
principal do Weka para processamento e análise de conjuntos de dados assim como testes
com os diversos algoritmos; o Experimenter, modo que oferece controles e opções mais
rígidos para a condução de experimentos sob condições específicas; KnowledgeFlow, ferramenta que permite ao usuário especificar graficamente por meio de um diagrama uma
44
Capítulo 3. Materiais e métodos
sequência de algoritmos, filtros e opções disponíveis no Weka para a construção de testes
mais robustos e detalhados não possíveis no modo Explorer [62]; e por fim, o Simple CLI,
a interface por linha de comando.
Figura 7: Weka Explorer após o carregamento de um conjunto de dados
Ao iniciar o modo Explorer e providenciar um conjunto de dados no formato ARFF
ou outro igualmente suportado como CSV ou uma tabela obtida via SQL, a interface ilustrada na figura 7 é apresentada ao usuário. As seções principais são categorizadas por
meio das abas na parte superior: no preprocessamento (Preprocess), os atributos na relação são identificados e estatísticas como valores máximo, mínimo, média e desvio padrão
são ilustrados à direita; a aba de classificação (Classify) fornece acesso à algoritmos de
classificação e regressão, com opções para escolha de conjuntos de treinamento e teste–
os resultados são armazenados na lista no canto inferior esquerdo com opções para visualização do modelo representativo caso possível e também do erro obtido; a seção Cluster
inclui os algoritmos de agregação como k-nearest neighbors e k-means; em Associate é
possível aplicar técnicas de associação de regras para a identificação de interrelações nos
atributos do conjunto; a aba de seleção Select attributes providencia algoritmos e técnicas
para determinar os atributos com maior importância preditiva, auxiliando o processo de
seleção de características (feature selection); e por último, o painel de visualização (Visualize) exibe gráficos de dispersão que ilustram a correlação entre os atributos presentes
no conjunto.
3.2. Conjunto de dados
3.2
45
Conjunto de dados
Os casos para este estudo foram obtidos através do Dr. Horário Alvarenga Moreira,
urologista do Hospital Universitário de Londrina. 500 pacientes foram acompanhados
pelo profissional no período de 2005 à 2009 com exames para investigação de tumores
prostáticos. Devido a questões de privacidade, o conjunto de dados não inclui pacientes que
foram submetidos a exames, porém não foram encaminhados para biópsia. Sendo assim,
todas as instâncias do conjunto são rotuladas com o resultado obtido após o procedimento.
A compilação dos atributos do conjunto deu-se a partir dos seguintes exames:
toque retal (1 - alterado, 0 - normal), PSA total (via hemograma), volume prostático (via
ultrassom), dosagem de PSA livre (hemograma) e biópsia prostática. O atributo ‘Ajuste’é
uma métrica calculada pelo médico com o intuito de adequar a dosagem de PSA total
para a idade do paciente, independente do volume prostático calculado– este é calculado
por meio das verificações apresentadas na figura 8.
Os atributos númericos são apresentados por meio da tabela 3, juntamente com
algumas estatísticas.
se 45 ≤ idade ≤ 55 então
se PSA Total ≤ 2,5 então
Ajuste = 1
senão
Ajuste = 0
senão se 55 < idade ≤ 65 então
se PSA Total ≤ 3,5 então
Ajuste = 1
senão
Ajuste = 0
senão se 65 < idade ≤ 75 então
se PSA Total ≤ 4,5 então
Ajuste = 1
senão
Ajuste = 0
senão se idade > 75 então
se PSA Total ≤ 6,5 então
Ajuste = 1
senão
Ajuste = 0
Figura 8: Forma de cálculo para o obtenção do valor do atributo Ajuste
A partir dos 500 casos, estima-se que aproximadamente 40% dos pacientes não foram submetidos a todos os exames, especialmente ao indicador de PSA livre que apresenta
a maior quantidade de valores omissos, devido ao fato que foram encaminhados para a
46
Capítulo 3. Materiais e métodos
Atributo
Mínimo
Idade
30
Volume prostático
10
PSA
1.8
% PSA livre/total
0.01
Máximo
100
405
809.1
0.94
Média
64.4
59.26
19.12
0.18
Desvio Padrão
8.4
32.38
61.4
0.17
Faltantes
1
2
183
Tabela 3: Sumário dos atributos númericos do conjunto de dados (n = 500)
biópsia prematuramente durante o tratamento exame subsequentes não foram registrados.
Além disto, atributos adicionais como histórico familiar e etnia não puderam ser obtidos.
Na tabela 4, a distribuição das características booleanas para as 500 instâncias é
dada.
Atributo
Ajuste
Toque
Diagnóstico
V
F Faltantes
458 42
168 306
26
193 307
-
Tabela 4: Sumário dos atributos booleanos do conjunto de dados (n = 500)
O conjunto contendo os 500 pacientes será utilizado como padrão, porém técnicas
para preenchimento dos valores nulos serão necessários. O subconjunto contendo somente
as instâncias com valores não nulos inclui 305 casos, o qual também será aplicado aos testes
com o objetivo de verificar o impacto da quantidade de exemplos sob o desempenho geral
dos algoritmos.
3.3
Experimentos e testes
A partir das técnicas descritas na seção 2.2, foram escolhidos algoritmos mais
frequentemente utilizados em pesquisas similares, assim como algoritmos que apresentaram maior desempenho de classificação a partir do conjunto de dados. A configuração,
parâmetros e ajustes de cada algoritmo, assim como as representações gráficas (quando
aplicáveis) dos classificadores são apresentadas na seção a seguir.
Para a técnica de regressão logística, o algoritmo utilizado pelo Weka é descrito
por [63] e possui o uso de um estimador de ‘cume’ (ridge estimator), parâmetro para
estabilização e regularização de instâncias, penalizando coeficientes grandes para evitar
overfitting. A estimativa dos coeficientes é obtida por meio de um método numérico QuasiNewton. Durante os testes efetuados, a alteração dos parâmetros não causou variação no
desempenho do modelo, portanto os valores padrão foram mantidos (tabela 5).
3.3. Experimentos e testes
Parâmetro
Número máximo de iterações
Cume (ridge)
47
Valor
−1 (ilimitado)
1.0 × 10−8
Tabela 5: Parâmetros para o algoritmo de regressão logística
Para a técnica de redes neurais artificiais, foram selecionados duas variações:
MultiLayerPerceptron
Algoritmo padrão que utiliza backpropagation para atualização dos pesos e possui como
parâmetros taxa de aprendizado, momento, declínio (decay) e opções para normalização
e categorização de atributos numéricos (tabela 6).
MLPClassifier
Rede neural artificial baseada no método Quasi-Newton BFGS (Broyden-Fletcher-GoldfarbShanno) para a minimização da soma dos quadrados do erro, juntamente com o parâmetro
de ‘cume’ para penalizar o cálculo dos pesos (tabela 7).
Parâmetro
Declínio (decay)
Número de camadas ocultas (hiddenLayers)
Taxa de aprendizado (learningRate)
Momento (momentum)
Número de épocas (trainingTime)
Valor
Falso
1a3
0.08 a 0.4
0.1 a 0.3
500 a 750
Tabela 6: Parâmetros para o algoritmo MultiLayerPerceptron
Parâmetro
Neurônios na camada oculta (numFunctions)
Cume (ridge)
Tolerância do erro (delta)
Valor
2a5
0.01 a 0.1
1.0 × 10−10 a 1.0 × 10−6
Tabela 7: Parâmetros para o algoritmo MLPClassifier
Por fim, os dois algoritmos selecionados para a construção de modelos baseados
na concepção de árvores de decisão incluem:
ADTree
Algoritmo proposto por Freund e Mason através da aplicação de técnicas de boosting1
em árvores de decisão para a obtenção de regras de classificação mais compactas e de
1
Combinação de classificadores gerados por um mesmo algoritmo de aprendizado no qual o funcionamento é ajustado de acordo com os erros cometidos pelo classificador anterior [64]
48
Capítulo 3. Materiais e métodos
fácil interpretação quando comparadas a outros algoritmos de árvores de decisão [65]. O
percurso pelos nós de decisão de atributos retorna uma pontuação, a qual é acumulada e
ao final do trajeto é utilizada para definir o rótulo de classe da instância. Os parâmetros
do algoritmo ADTree encontram-se na tabela 8.
PART
Abreviação de PARTial decision tree, é uma variação do algoritmo C4.5 [45] que extrai
regras if-then a partir das folhas com ‘melhor’ decisão. Por meio do método de separação
e consquista, as regras de decisão são calculadas a partir dos subconjuntos de casos gerados até que todas as instâncias sejam abrangidas pelas regras [66]. A tabela 9 inclui os
parâmetros variáveis para a geração dos classificadores.
Parâmetro
Número de iterações (numOfBoostingIterations)
Caminho de busca (searchPath)
Valor
3 a 10
Melhor caminho z-pure
Tabela 8: Parâmetros para o algoritmo ADTree
Parâmetro
Fator de confiança (confidenceFactor)
Mínimo de instâncias por regra (minNumObj)
Quantidade de dados para poda (numFolds)
Não efetuar poda (unpruned)
Valor
0.05 a 0.4
2a7
3a8
Falso
Tabela 9: Parâmetros para o algoritmo PART
Adotou-se por padrão a técnica de validação cruzada com k=10, no qual o conjunto inicial de dados é separado em 10 partes iguais. Para a construção do modelo, são
realizadas dez iterações onde uma das partes é tomada como o conjunto de teste e as
restantes para o treinamento, assim cada parte é utilizada como teste uma vez. Ao final
das iterações, calcula-se a média das estatísticas e métricas de desempenho para todas as
dez iterações, obtendo um valor geral para cada indicador.
49
4 RESULTADOS
Uma vez definidos os valores dos parâmetros utilizados para cada algoritmo descrito na seção 3.3, modelos de classificação foram construídos utilizando o conjunto de
dados fornecido pelo Dr. Horácio A. Moreira. Os classificadores descritos neste capítulo
refletem o maior desempenho obtido resultantes de testes efetuados por meio da variação
dos parâmetros de configuração. Curvas ROC e percentuais derivados da matriz de confusão são dados para cada algoritmo usado, assim como o valor de corte (threshold) para
a definição do rótulo de classe para as instâncias.
4.1
Regressão Logística
O classificador obtido com a técnica de regressão logística apresentou desempenho
relativamente fraco; 69.4%, o que equivale a 347 dos 500 casos foram corretamente classificados. O valor de corte que gerou este percentual de acurácia foi de 0.4642. Sendo assim,
o modelo pode ser considerado mais conservador pois escolhe um aumento na quantidade
de falsos positivos sob a quantidade de falsos negativos. A figura 9 apresenta as métricas
de desempenho calculadas.
Falsos negativos
1
Falsos positivos
Verdadeiros
positivos
19%
19.6%
11.6%
Verdadeiros
negativos
0.5
49.8%
0
0
0.5
(a) Curva ROC (AUC = 0.7159)
1
(b) Percentual de VP, VN, FN e FP
Figura 9: Indicadores de desempenho para o modelo de regressão logística
Os coeficientes e razão de chances1 (com intervalo de confiança de 95%) calculadas
pelo algoritmo são dispostos na tabela 10.
1
Também conhecida como razão de possibilidades, ou odds ratio em inglês, indica a razão entre as
chances relativas da ocorrência da saída esperada, dado o valor do atributo analisado
50
Capítulo 4. Resultados
Atributo
Idade
Volume
PSA
PSA Livre/Total
Ajuste
Toque
Coeficiente livre
Valor
0.0424
-0.0237
0.0054
0.7547
-0.7381
-0.9931
-1.4102
Razão de chances
1.0433
0.9766
1.0054
2.127
0.478
0.3704
N/A
Tabela 10: Coefiecientes obtidos a partir do modelo de regressão logística
4.2
Redes Neurais Artificiais
4.2.1
MultiLayerPerceptron
Dentre os modelos gerados utilizando os valores especificados na tabela 6, o classificador baseado no algoritmo MultiLayerPerceptron que obteve melhor desempenho foi
construído com três camadas ocultas, taxa de aprendizado igual a 0.5 e momento igual
a 0.2– o número de épocas, quando maior que 500 causou redução na performance. A
avaliação do classificador obtido é apresentado na figura 10.
Utilizando o conjunto com as 500 instâncias, o desempenho obtido foi de 68.8%.
Utilizando somente os casos que não possuíam valores nulos (n = 305), a acurácia subiu
para 70.49%. Com isso, foi possível perceber que o algoritmo MultiLayerPerceptron é
sensível a dados faltantes, mesmo com a aplicação de um filtro para correção destes
valores.
Falsos negativos
1
Falsos positivos
Verdadeiros
positivos
16.39%
13.11%
20.33%
Verdadeiros
negativos
0.5
50.16%
0
0
0.5
(a) Curva ROC (AUC = 0.6438)
1
(b) Percentual de VP, VN, FN e FP
Figura 10: Desempenho do modelo construído com o algoritmo MultiLayerPerceptron
Certos pontos da curva ROC (fig. 10a) apresentaram comportamento próximo à
decisão aleatória, quando o valor no eixo horizontal se aproxima de 0.15. Nesta região, o
ponto de corte para a atribuição do valor de classe permanece alto por volta de 0.68; o
valor de corte que gerou a melhor taxa de exatidão foi de 0.49.
4.2. Redes Neurais Artificiais
4.2.2
51
MLPClassifier
A utilização do algoritmo MLPClassifier apresentou desempenho levemente superior ao classificador gerado com o algoritmo MultiLayerPerceptron para ambos os conjuntos com 500 e 305 instâncias. O classificador obtido com o conjunto de dados onde
os casos com valores nulos foram desconsiderados resultou em acurácia de classificação
igual a 71.14% com 0.51 para o ponto de corte. A figura 11 exibe detalhes adicionais do
desempenho.
1
Falsos negativos
Verdadeiros
positivos
Falsos positivos
8.2%
20.66%
16.07%
0.5
Verdadeiros
negativos
55.08%
0
0
0.5
1
(a) Curva ROC (AUC = 0.6782)
(b) Percentual de VP, VN, FN e FP
Figura 11: Desempenho do modelo construído com o algoritmo MLPClassifier (n = 305)
Na tabela 11, são dispostos os pesos das conexões entre os neurônios da camada
de entrada e a camada oculta. Adicionalmente, três neurônios de bias para cada neurônio
na camada oculta foram criados, com pesos 1.68314, 0.30868 e -1.58390 respectivamente.
Atributo
Idade
Volume
PSA
PSA Livre/Total
Ajuste
Toque
Peso (neurônio 1)
0.99678
1.715815
-0.23637
0.39286
-0.74715
-0.36268
Peso (neurônio 2)
0.97959
1.38124
0.25022
-0.78210
1.37455
2.29051
Peso (neurônio 3)
-3.63784
1.00791
-0.11938
-0.64545
0.55101
-0.07021
Tabela 11: Valores das conexões para o modelo construído com o algoritmo MLPClassifier
Observou-se por meio do classificador gerado a partir do conjunto de dados que
engloba todas as 500 instâncias um pequeno aumento na métrica de acurácia (de 71.14%
para 71.4%). Ao passo que as taxas de falsos positivos e negativos permaneceu inalterada,
houve um aumento na taxa de verdadeiros positivos aliado a uma diminuição na taxa
de verdadeiros negativos. A curva ROC, dada pela figura 12a, apresenta-se mais robusta,
com um pequeno aumento na área sob a curva. Os percentuais da matriz de confusão são
dispostos na figura 12b.
52
Capítulo 4. Resultados
1
Falsos negativos
Verdadeiros
positivos
Falsos positivos
20.6%
8%
0.5
18%
Verdadeiros
negativos
53.4%
0
0
0.5
1
(a) Curva ROC (AUC = 0.7223)
(b) Percentual de VP, VN, FN e FP
Figura 12: Desempenho do modelo construído com o algoritmo MLPClassifier (n = 500)
4.3
Árvores de Decisão
4.3.1
ADTree
O classificador construído por meio do algoritmo ADTree obteve uma taxa de exatidão de 71.8%– um leve ganho de desempenho sob as técnicas de redes neurais artificiais
e regressão logística. A figura 13 ilustra as medidas calculadas para o modelo obtido.
1
Falsos negativos
Falsos positivos
0.5
12.8%
Verdadeiros
positivos
25.8%
15.4%
Verdadeiros
negativos
46%
0
0
0.5
(a) Curva ROC (AUC = 0.7277)
1
(b) Percentual de VP, VN, FN e FP
Figura 13: Desempenho do modelo construído com o algoritmo ADTree (n = 500)
É possível perceber por meio da figura 13b que o classificador apresenta uma
redução da taxa de verdadeiros negativos, porém isso é refletido em um aumento na
taxa de verdadeiros positivos. Isto se deve a um valor de corte estabelecido em 0.4687, o
que causa um aumento na taxa de falsos positivos, atribuindo um comportamento mais
conservativo ao modelo.
Na figura 14, a representação gráfica do classificador ADTree é exibida. Um percurso pela árvore passa por todos os nós, com a busca feita em profundidade pré-fixa
(nós da subárvore esquerda são explorados primeiro). Para cada decisão efetuada, o valor
associado ao resultado da decisão é somado e o total obtido representa a probabilidade
4.3. Árvores de Decisão
do valor de classe positivo para a instância.
Figura 14: Estrutura de árvore gerada pelo classificador ADTree
53
54
Capítulo 4. Resultados
4.3.2
PART
A aplicação do algoritmo PART para extração de regras a partir de uma árvore
de decisão apresentou desempenho similar ao uso de redes neurais, porém produziu um
modelo mais sucinto– as seis regras obtidas para a classificação são dispostas na figura 16.
O classificador construído a partir do conjunto inicial de 500 instâncias obteve desempenho
de 66.4%; ao utilizar somente os 305 casos sem valores nulos, a taxa de exatidão elevou-se
para 71.48%. Na figura 15, os indicadores calculados são exibidos.
1
Falsos negativos
Falsos positivos
Verdadeiros
positivos
17.7%
10.82%
19.02%
0.5
Verdadeiros
negativos
52.46%
0
0
0.5
(a) Curva ROC (AUC = 0.6808)
1
(b) Percentual de VP, VN, FN e FP
Figura 15: Desempenho do modelo construído com o algoritmo PART (n = 305)
As regras na figura 16 são avaliadas sequencialmente; caso o resultado do teste de
uma condição for verdadeiro, o rótulo de classe correspondente é atribuído. Caso contrário
a próxima regra é avaliada até a última condição, onde a instância é classificada com um
valor padrão.
se Toque = F e Volume > 53 e PSA ≤ 14.2 então
Biópsia = F
senão se Idade ≤ 59 então
Biópsia = F
senão se Toque = V e 0.21 < PSA Livre/Total ≤ 0.58 então
Biópsia = F
senão se Toque = T então
Biópsia = V
senão se Volume ≤ 46 então
Biópsia = F
senão
Biópsia = V
Figura 16: Regras de decisão geradas pelo classficador PART
Observa-se por meio das regras obtidas, similaridades entre as convenções adotadas por médicos para delinear a provável necessidade de biópsia. Na segunda condição
avaliada, um paciente que obteve ausência de tumor pelo exame de toque e indicador de
PSA Livre/Total entre 0.21 e 0.58 (zona de incerteza e baixa probabilidade), atribui-se F
4.4. Comparação de Resultados
55
(falso) para o valor de classe, isto é, possui pequena necessidade de submeter-se à biópsia.
Em contraste, a terceira regra obtida atribui V (verdadeiro) com a detecção de um tumor
e recomenda o paciente ao procedimento, independente de outros indicadores.
4.4
Comparação de Resultados
Os classificadores obtidos por meio do uso dos algoritmos descritos obtiveram taxas
de exatidão próximas a 70%. Na figura 17, é estabelecida uma comparação gráfica entre
estes valores.
PART (n=305)
ADTree (n=500)
MLPClassifier (n=500)
MLPClassifier (n=305)
MultiLayerPerceptron (n=305)
MultiLayerPerceptron (n=500)
Regressão Logística (n=500)
67
67.5
68
68.5
69
69.5
70
70.5
71
71.5
72
72.5
Figura 17: Comparação de desempenho entre classificadores
A técnica de regressão logística produziu o menor desempenho de classificação
dentre todas as outras técnicas, devido ao baixo valor do ponto de corte estabelecido
para decisão entre as classes. Verificou-se por meio da tabela 10 que os maiores valores
de coeficiente e razão de chances correspondem ao indicador de PSA/Livre. Dados estes
indicadores, o modelo atribui maiores valores probabilísticos de recomendação à biópsia
para quantidades maiores de PSA Livre/Total.
Os dois algoritmos baseados em redes neurais artificiais escolhidos resultaram em
classificadores com desempenho similar, porém ao passo que o MultiLayerPerceptron sofreu uma queda de aproximadamente 1.7% no desempenho ao utilizar o conjunto original
com valores omissos corrigidos, o algoritmo MLPClassifier mostrou-se mais robusto no
56
Capítulo 4. Resultados
quesito acurácia geral, entretanto a classificação de verdadeiros positivos sofreu uma redução enquanto a taxa de verdadeiros negativos (maior parte do conjunto) cresceu na
mesma proporção. A escolha entre os modelos de redes neurais artificiais gerados deve
levar em consideração esta variação nas taxas, pois para a tarefa em questão, é preferível
que o classificador possua uma maior taxa de falsos positivos do que falsos negativos,
priorizando um comportamento conservador sobre um comportamento liberal.
Por fim, algoritmos de classificação embasados em árvores de decisão obtiveram as
maiores taxas de desempenho entre todos os outras técnicas. Com a aplicação do algoritmo
ADTree, houve um aumento notável na taxa de verdadeiros positivos, assim como uma
redução nos falsos negativos, características tipicamente conservadoras. A área sob a curva
também mostrou-se mais consistente em relação aos outros algoritmos, resultado de uma
maior concavidade. No entanto, a estrutura obtida ADTree possui complexidade média
pois efetua todas as 16 decisões antes de calcular o valor de probabilidade final para com
isso, atribuir o valor de classe para a instância. O algoritmo PART, por sua vez, elaborou
um conjunto de regras pequeno e sucinto, porém priorizando os verdadeiros negativos
sobre os verdadeiros positivos.
57
5 CONCLUSÃO
O campo de pesquisa para aplicação de técnicas de aprendizado de máquina em
tarefas médicas relacionadas ao câncer de próstata embora atrativo e de grande utilidade,
permanece com alto nível de complexidade devido aos vários fatores envolvidos no processo
de inferência de diagnósticos, detecção e identificação de tumores e riscos associados,
entre outros. Os trabalhos revisados abrangem diversas técnicas, onde o foco inicial das
pesquisas foi dado em redes neurais artificiais, porém testes preliminares resultaram em
baixos indicadores de desempenho. Sendo assim, a experimentação por meio de outros
tipos de algoritmos de classificação permitiu interpretações diversas, de acordo com as
características próprias a cada técnica estudada.
Os resultados obtidos com a aplicação do conjunto de dados proposto obtiveram
taxas de desempenho próximas a maioria dos casos clínicos analisados utilizando algoritmos equivalentes. Alguns fatores limitantes tanto para o desempenho dos classificadores,
assim como para testes adicionais elaborados, foram originados do conjunto de dados,
o qual incluiu uma quantidade pequena de instâncias para um problema diversificado e
repleto de incerteza como a recomendação de pacientes para biópsia. Adicionalmente, com
a baixa dimensionalidade do conjunto, não foi possível elaborar conclusões sólidas sobre a
população analisada assim como correlação entre as variáveis antecedentes ao tratamento–
apenas os indicadores mais frequentemente utilizados durante o monitoramento e acompanhamento da suspeita de câncer de próstata foram disponibilizados. Para contornar o
problema, alguns estudos de caso sugerem a incorporação de atributos adicionais considerados fatores de risco para o câncer de próstata, com a premissa de um aumento no
percentual de desemepenho.
Dado o desempenho levemente superior por meio do uso de algoritmos de árvores
de decisão, aliando recursos adicionais do campo de aprendizado de máquina como boosting
e extração de regras, espera-se que classificadores elaborados a partir da combinação de
duas ou mais técnicas possam vir a beneficiar das vantagens presentes nos algoritmos
individuais. Além disto, técnicas avançadas de validação, como por exemplo validação
temporal, validação externa ou até mesmo a partição do conjunto original em treinamento,
teste e validação, oferecem uma estimativa mais fiel do real desempenho dos classificadores,
quando fornecidos novos casos.
59
REFERÊNCIAS
1 ESSINK-BOT, M. L. et al. Short-term effects of population-based screening for
prostate cancer on health-related quality of life. Journal of National Cancer Institute,
v. 90, p. 925–931, 1998.
2 DJAVAN, B. et al. Novel artificial neural network for early detection of prostate
cancer. Journal of Clinical Oncology, v. 20, p. 921–929, 2002.
3 VICKERS, A. J. et al. Impact of recent screening on predicting the outcome of
prostate cancer biopsy in men with elevated psa: data from the european randomized
study of prostate cancer screening in gothenburg, sweden. Cancer, v. 116, p. 2612–2620,
2010.
4 THE Oxford English Dictionary. [S.l.]: Oxford University Press, 2007.
5 AMERICAN Heritage Dictionary. [S.l.]: Houghton Mifflin, 2009.
6 KARAKIEWICZ, P. I. et al. Development and validation of a nomogram predicting
the outcome of prostate biopsy based on patient age, digital rectal examination and
serum prostate specific antigen. The Journal of Urology, v. 173, p. 1930–1934, 2005.
7 KATTAN, M. W.; SCARDINO, P. T. Prediction of progression: nomograms of clinical
utility. Clinical Prostate Cancer, v. 1, p. 90–96, 2002.
8 BAADE, P. D.; YOULDEN, D. R.; KRNJACKI, L. J. International epidemology of
prostate cancer: geographical distribution and secular trends. Molecular Nutrition &
Food Research, v. 53, p. 171–184, 2009.
9 CINAR, M. et al. Early prostate cancer diagnosis by using artificial neural networks
and support vector machines. Expert Systems with Applications, v. 36, 2009.
10 CRUIJSEN-KOETER, I. W. van der et al. Comparison of screen detected and
clinically diagnosed prostate cancer in the european randomized study of screening for
prostate cancer, section rotterdam. Journal of Urology, v. 174, p. 121–125, 2005.
11 UNIVERSITY, O. H. . S. Presence Of High-risk Prostate Cancer Can Be Predicted
Without A Biopsy, New Study Says. 2005. Disponível em: <http://www.sciencedaily.com
/releases/2005/05/050522112707.htm>. Acesso em: 29.7.2013.
12 PARTIN, A. W.; OESTERLING, J. E. The clinical usefulness of prostate specific
antigen: Update 1994. Journal of Urology, v. 152, p. 1358–1368, 1994.
13 CATALONA, W. J. et al. Comparison of digital rectal examination and serum
prostate specific antigen in the early detection of prostate cancer: Results of a multicenter
clinical trial of 6630 men. Journal of Urology, v. 151, p. 1283–1290, 1994.
14 STEPHAN, C. et al. A (-5, -7) propsa based artificial neural network to detect
prostate cancer. European Urology, v. 50, p. 1014–1020, 2006.
15 COOKSON, M. M. Prostate cancer: screening and early detection. Cancer Control,
v. 8.
60
Referências
16 SARITAS, I.; OZKAN, I. A.; SERT, I. U. Prognosis of prostate cancer by artificial
neural networks. Expert Systems and Applications, v. 37, p. 6646–6650, 2010.
17 CATALONA, W. J.; ORNSTEIN, D. K. Prostate cancer detection in men with serum
psa concentrations of 2.6 to 4.0 ng/ml and benign prostate examination: enhancement of
specificity with free psa measurements. Journal of American Medical Association, v. 277,
p. 1452–1455, 1997.
18 BENSON, M. C.; WHANG, I. S.; PANTUC, A. e. a. Prostate specific antigen
density: a means for distinguishing benign prostatic hypertrophy and prostate cancer.
Journal of Urology, v. 147, p. 815–816, 1992.
19 STRUM, S. B.; POGLIANO, D. What every doctor who treats male patients should
know. PCRI Insights, v. 8, p. 4–5, 2005.
20 ITO, K. et al. Free/total psa ratio is a powerful predictor of future prostate cancer
morbidity in men with initial psa levels of 4.1 to 10.0 ng/ml. Journal of Urology, v. 61,
p. 760–764, 2003.
21 INSTITUTE, N. C. Treatment Choices for Men with Early-Stage Prostate Cancer.
2011.
22 MOHRI, M.; ROSTAMIZADEH, A.; TALWALKAR, A. Foundations of Machine
Learning. [S.l.]: The MIT Press, 2012.
23 SIMON, P. Too Big To Ignore: The Business Case for Big Data. [S.l.]: Wiley, 2013.
24 WITTEN, I. H.; FRANK, E. Data Mining: Practical Machine Learning Tools and
Techniques with Java Implementations. San Francisco, CA: Morgan Kaufmann, 2005.
25 HOSMER, D. W.; LEMESHOW, S. Applied Logistic Regression. [S.l.]: Wiley, 2000.
26 ARMSTRONG, J. S. Illusions in regression analysis. International Journal of
Forecasting, v. 28, p. 689–672, 2012.
27 ZANINI, A. Regressão logística e redes neurais artificiais: um problema de estrutura
de preferência do consumidor e classificação de perfis de consumo. Dissertação (Mestrado)
— Faculdade de Economia e Administração, Universidade Federal de Juiz de Fora, Juiz
de Fora, MG, 2007.
28 PARTIN, A. W. et al. The use of prostate specific antigen, clinical stage in men with
localized prostate cancer. Journal of Urology, v. 150, p. 110–114, 1993.
29 EIFLER, J. B. et al. An updated prostate cancer staging nomogram (partin tables)
based on cases from 2006 to 2011. Urological Oncology, v. 111, p. 22–29, 2012.
30 HOPFIELD, J. J. Neural networks and physical systems with emergent collective
computational abilities. Proceedings of the National Academy of Science, USA, v. 79, p.
2554–2558, April 1982.
31 RUSSELL, S.; NORVIG, P. Artificial Intelligence: A Modern Approach. [S.l.]:
Prentice Hall, 2009.
Referências
61
32 SINGH, N. K.; SINGH, A. K.; TRIPATHY, M. Selection of hidden layer neurons
and best training method for ffnn in application of long term load forecasting. Journal
of Electrical Engineering, v. 63, n. 3, p. 153–161, 2012.
33 METHAPRAYOON, K. et al. Multistage artificial neural network short term load
forecasting engine with front end weather forecasting. IEEE Transactions on Industry
Applications, v. 43, n. 6, p. 1410–1416, 2007.
34 CHARYTONIUK, W.; CHEN, M. S. Neural network design for short term load
forecasting. In: International Conference on Electric Utility Deregulation and Restructing
and Power Technologies. [S.l.: s.n.], 2000. p. 554–561.
35 HAYKIN, S. O. Neural Networks and Learning Machines. [S.l.]: Prentice Hall, 2008.
36 COPPIN, B. Inteligência Artificial. [S.l.]: LTC, 2010.
37 MOLLER, M. F. A scaled conjugate gradient algorithm for fast supervised learning.
Neural Networks, v. 6, p. 525–533, 1993.
38 GAVIN, H. The levenberg-marquadt method for nonlinear least squares curve-fitting
problems. Departmento de Engenharia Civil e Ambiental, Duke University. 2011.
39 SILVA, J. M.; DRUMMOND, L.; WEDEMANN, R. S. Redes Neurais Artificiais:
Rede Hopfield e Redes Estocásticas. Dissertação (Mestrado) — Universidade Federal
Fluminense, Niterói, Rio de Janeiro, 2003.
40 ROSA, J. L. G. SCC-5809 - Redes de Função de Base Radial. 2011. Palestra.
Disponível em: <http://wiki.icmc.usp.br/images/e/e8/SCC5809Cap6.pdf>. Acesso em:
3.11.2013.
41 SHI, H. Best-first decision tree learning. Dissertação (Mestrado) — University of
Waikato, Hamilton, New Zealand, 2007.
42 EBERLE, W. Data Mining: Concepts and Techniques. 2012. Palestra.
43 ROKACH, L.; MAIMON, O. Top-down induction of decision trees classifiers-a
survey". IEEE Transactions on Systems, Man, and Cybernetics, Part C, v. 35, p.
476–487.
44 QUINLAN, J. R. Induction of decision trees. Machine Learning, p. 81–106, 1986.
45 QUINLAN, J. R. C4.5: Programs for Machine Learning by J. Ross Quinlan., Inc.,
1993. [S.l.]: Morgan Kaufmann, 1993.
46 BREIMAN, L. et al. Classification and Regression Trees. [S.l.]: Chapman and Hall,
1984.
47 CABENA, P. et al. Intelligent Miner for Data Applications Guide. 1999. IBM
Redbooks, SG24-5252-00.
48 STEFANOWSKI, J. Data Mining: Evaluation of Classifiers. Palestra. Disponível em:
<http://www.cs.put.poznan.pl/jstefanowski/sed/DM-4-evaluatingclassifiersnew.pdf>.
Acesso em: 6.10.2013.
62
Referências
49 METZ, C. E. Basic principles of roc analysis. Seminars in Nuclear Medicine, v. 8, p.
283–298, 1978.
50 FLACH, P. Repairing concavities in roc curves. In: Proc. 2003 UK Workshop on
Computational Intelligence. [S.l.]: Springer-Verlag, 2003. p. 38–44.
51 FAWCETT, T. An introduction to roc analysis. Pattern Recognition Letters, v. 27,
p. 861–874, 2006.
52 GANT, V.; RODWAY, S.; WYATT, J. Artificial neural networks: Practical
considerations for clinical applications. [S.l.]: Cambridge University Press, 2001.
53 LISBOA, P. J. A review of evidence of health benefit from artificial neural networks
in medical intervention. Neural Networks, v. 15, p. 11–39, 2002.
54 REGNIER-COUDERT, O. et al. Machine learning for improved pathological
staging of prostate cancer: A performance comparison on a range of classifiers. Artificial
Intelligence in Medicine, v. 55, p. 25–35, 2012.
55 LISBOA, P. J.; TAKTAK, A. F. G. The use of artificial neural networks in decision
support in cancer: A systematic review. Neural Networks, v. 19, p. 408–415, 2006.
56 LAWRENTSCHUK, N. et al. Predicting prostate biopsy outcome: artificial neural
networks and polychotomous regression are equivalente models. International Urology
and Nephrology, v. 43, p. 23–30, 2010.
57 MARIN, O. R. et al. Automatic decision using dirty databases: Application to
prostate cancer diagnosis. In: 32nd Annual International Conference of the IEEE EMBS.
Buenos Aires, Argentina: [s.n.], 2010.
58 GARZOTTO, M. et al. Improved detection of prostate cancer using classification
and regression tree analysis. Journal of Clinical Oncology, v. 23, p. 4322–4329, 2005.
59 GüLKESEN, K. H. et al. Prediction of prostate cancer using decision tree algorithm.
Turkish Journal of Medicinal Science, v. 40, p. 681–686, 2010.
60 HALL, M. et al. The weka data mining software: An update. SIGKDD Explorations,
v. 11, 2009.
61 PIATETSKY-SHAPIRO, G. KDnuggets news on SIGKDD service award. 2005.
Disponível em: <http://www.kdnuggets.com/news/2005/n13/2i.html>. Acesso em:
2.8.2013.
62 HALL, M.; REUTEMANN, P. WEKA KnowledgeFlow Tutorial for Version 3-5-8.
[S.l.], 2008. University of Waikato, New Zealand.
63 CESSIE, S. le; HOUWELINGEN, J. C. van. Ridge estimators in logistic regression.
Applied Statistics.
64 CHAVES, B. B. Estudo do algoritmo AdaBoost de aprendizagem de máquina aplicado
a sensores e sistemas embarcados. 19–20 p. Dissertação (Mestrado) — Universidade de
São Paulo, São Paulo, São Paulo, 2011.
Referências
65 FREUND, Y.; MASON, L. The alternating decision tree learning algorithm. In:
Proceedings of the Sixteenth International Conference on Machine Learning. [S.l.]:
Morgan Kaufmann Publishers Inc., 1999. p. 124–133.
66 FRANK, E.; WITTEN, I. H. Generating accurate rule sets without global
optimization. In: . [S.l.]: Morgan Kaufmann, 1998. p. 144–151.
63
Download