ANDRÉ AUGUSTO DEL GROSSI COMPARAÇÃO E AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DE PRÓSTATA LONDRINA–PR 2013 ANDRÉ AUGUSTO DEL GROSSI COMPARAÇÃO E AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DE PRÓSTATA Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em Ciência da Computação. Orientador: Prof(a). Ms. Helen C. de Mattos Senefonte Coorientador: Prof(a). Dr(a). Maria Angélica de O. C. Brunetto LONDRINA–PR 2013 André Augusto Del Grossi Comparação e avaliação de técnicas de aprendizado de máquina para indicação de biópsia para o câncer de próstata/ André Augusto Del Grossi. – Londrina–PR, 201363 p. : il. (algumas color.) ; 30 cm. Orientador: Prof(a). Ms. Helen C. de Mattos Senefonte – Universidade Estadual de Londrina, 2013. 1. aprendizado de máquina. 2. câncer de próstata. 3. biópsia. I. Helen C. de Mattos Senefonte. II. Universidade Estadual de Londrina. III. Curso de Ciência da Computação. CDU 02:141:005.7 ANDRÉ AUGUSTO DEL GROSSI COMPARAÇÃO E AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DE PRÓSTATA Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em Ciência da Computação. BANCA EXAMINADORA Prof(a). Ms. Helen C. de Mattos Senefonte Universidade Estadual de Londrina Orientador Prof(a). Dr(a). Cinthyan Renata Sachs C. de Barbosa Universidade Estadual de Londrina Prof. Dr. Bruno Bogaz Zarpelão Universidade Estadual de Londrina Londrina–PR, 21 de novembro de 2013 LONDRINA–PR 2013 Dedico este trabalho aos meus familiares e ao meu grande amigo Vínicius Quaglio que me acompanhou durante o ano nesta jornada. AGRADECIMENTOS Agradeço primeiramente aos meus pais Meire e Osvaldo, pelo apoio, suporte e amor incondicional especialmente durante a execução deste trabalho. À minha irmã Ana Paula, pela energia positiva e confortante que a sua companhia me fornece, em particular neste ano, repleto de conquistas e realizações para ambos. À minha orientadora Helen, pessoa extraordinária que tive o prazer de conhecer e compartilhar o desenvolvimento deste trabalho. Agradeço também aos meus colegas de trabalho, pelo aprendizado e paciência. E por fim a todos os meus amigos, que acompanharam de alguma forma o sucesso e as dificuldades que enfrentei durante o ano. Todos os homens sonham, mas não da mesma forma. Aqueles que sonham durante a noite, nos recessos empoeirados da mente, acordam na manhã seguinte e descobrem que foi algo efêmero, passageiro; mas os sonhadores do dia são homens perigosos, porque ao criar seus sonhos com os olhos abertos, podem torná-los reais. (T. E. Lawrence) DEL GROSSI, A. A.. Comparação e avaliação de técnicas de aprendizado de máquina para indicação de biópsia para o câncer de próstata. 63 p. Trabalho de Conclusão de Curso (Graduação). Bacharelado em Ciência da Computação – Universidade Estadual de Londrina, 2013. RESUMO Este estudo propõe a investigação de técnicas de aprendizado de máquina aplicadas ao problema de diagnóstico de câncer de próstata, com o intuito de auxiliar na seleção de pacientes a serem encaminhados ao procedimento de biópsia. O trabalho possui como objetivo investigar quais técnicas, dentre as selecionadas, alcançam melhores taxas de classificação para o problema. As variáveis antecedentes ao tratamento de pacientes do Hospital Universitário da Universidade Estadual de Londrina (HU-UEL), no período de 2005 a 2009 foram utilizadas para construção e validação dos classificadores. Por fim, as métricas de desempenho para os modelos construídos a partir das técnicas e algoritmos descritos são comparados e contrastados, juntamente com um resumo dos resultados no geral. Palavras-chave: câncer de próstata. aprendizado de máquina. biópsia. classificação DEL GROSSI, A. A.. Comparison and evaluation of machine learning techniques for recommending patients to prostate cancer biopsy. 63 p. Final Project (Undergraduation). Bachelor of Science in Computer Science – State University of Londrina, 2013. ABSTRACT This study proposes the investigation of machine learning techniques applied to prostate cancer diagnosis with the goal of determining patients that should undergo biopsy for prostate cancer screening. This work intends to investigate which techniques provide best classification rates for the problem. Pre-treatment variables gathered from patients of the Academic Hospital of State University of Londrina (HU-UEL) from 2005 to 2009 are used for construction and validation of classifiers. Lastly, accuracy and performance indicators for the obtained models are compared based on similarities and divergences, along with general observed results. Keywords: prostate cancer. machine learning. biopsy. classification LISTA DE ILUSTRAÇÕES Figura 1 – Gráfico da função logística . . . . . . . . . . . . . . . . . . . . . . . . Figura 2 – Visão simplificada das camadas uma rede neural artificial multi-layer perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 3 – Função backpropagation simples . . . . . . . . . . . . . . . . . . . . . Figura 4 – Árvore de decisão para a avaliação de compra de computador . . . . Figura 5 – Um exemplo de curva ROC . . . . . . . . . . . . . . . . . . . . . . . . 30 . . . . 33 34 35 40 Figura 6 – Seletor de interface do Weka . . . . . . . . . . . . . . . . . . . . . . . . 43 Figura 7 – Weka Explorer após o carregamento de um conjunto de dados . . . . . 44 Figura 8 – Forma de cálculo para o obtenção do valor do atributo Ajuste . . . . . 45 Figura 9 – Indicadores de desempenho para o modelo de regressão logística . . . . Figura 10 – Desempenho do modelo construído com o algoritmo MultiLayerPerceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 11 – Desempenho do modelo construído com o algoritmo MLPClassifier (n = 305) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 12 – Desempenho do modelo construído com o algoritmo MLPClassifier (n = 500) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 13 – Desempenho do modelo construído com o algoritmo ADTree (n = 500) Figura 14 – Estrutura de árvore gerada pelo classificador ADTree . . . . . . . . . . Figura 15 – Desempenho do modelo construído com o algoritmo PART (n = 305) . Figura 16 – Regras de decisão geradas pelo classficador PART . . . . . . . . . . . . Figura 17 – Comparação de desempenho entre classificadores . . . . . . . . . . . . 49 50 51 52 52 53 54 54 55 LISTA DE TABELAS Tabela 1 – Matriz de confusão para dois valores de classe . . . . . . . . . . . . . . 38 Tabela 2 – Métricas de desempenho derivadas da matriz de confusão . . . . . . . . 39 Tabela Tabela Tabela Tabela Tabela Tabela Tabela 3 4 5 6 7 8 9 – – – – – – – Sumário dos atributos númericos do conjunto de dados (n = 500) Sumário dos atributos booleanos do conjunto de dados (n = 500) Parâmetros para o algoritmo de regressão logística . . . . . . . . Parâmetros para o algoritmo MultiLayerPerceptron . . . . . . . . Parâmetros para o algoritmo MLPClassifier . . . . . . . . . . . . Parâmetros para o algoritmo ADTree . . . . . . . . . . . . . . . . Parâmetros para o algoritmo PART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 46 47 47 47 48 48 Tabela 10 – Coefiecientes obtidos a partir do modelo de regressão logística . . . . . 50 Tabela 11 – Valores das conexões para o modelo construído com o algoritmo MLPClassifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 LISTA DE ABREVIATURAS E SIGLAS ANN Rede neural artificial (artificial neural network) ARFF Formato de arquivo atributo-relação (attribute-relation file format) AUC Área sob a curva (area under curve) CART Árvore de classificação e regressão (classification and regression tree) CSPC Câncer de próstata clinicamente significativo (clinically significative prostate cancer) CSV Valores separados por vírgula (comma separated values) DRE Exame de toque retal (digital rectal examination) FN Falsos negativos FP Falsos positivos kNN k vizinhos mais próximos (k-nearest neighbors) MLE Estimativa por máxima verossimilhança (maximum likelihood estimate) MLP Perceptron de múltiplas camadas (multi-layer perceptron) NSPC Câncer de próstata não significativo (non-significant prostate cancer) PSA Antígeno específico da próstata (prostate-specific antigen) RBF Função de base radial (radial basis function) ROC Característica de operação do receptor (receiver operating characteristic) SCG Gradiente conjugado ajustado (scaled conjugate gradient) SQL Linguagem estruturada de consultas (structured query language) SVM Máquina de vetores de suporte (support vector machines) VN Verdadeiros negativos VP Verdadeiros positivos WEKA Ambiente Waikato para análise de informação (Waikato environment for knowledge analysis) LISTA DE SÍMBOLOS ∈ Pertence R Conjunto dos números reais SUMÁRIO 1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2 Fundamentação Teórica . . . . . . 2.1 Câncer de próstata . . . . . . . . 2.2 Aprendizado de máquina . . . . . 2.2.1 Regressão logística . . . . 2.2.2 Redes neurais artificiais . 2.2.3 Árvores de decisão . . . . 2.2.4 Avaliação de classificadores 2.3 Trabalhos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 27 28 29 32 35 37 40 3 Materiais e métodos . . 3.1 O ambiente Weka . . . 3.2 Conjunto de dados . . 3.3 Experimentos e testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 43 45 46 4 Resultados . . . . . . . . . . . . 4.1 Regressão Logística . . . . . . 4.2 Redes Neurais Artificiais . . . 4.2.1 MultiLayerPerceptron 4.2.2 MLPClassifier . . . . . 4.3 Árvores de Decisão . . . . . . 4.3.1 ADTree . . . . . . . . 4.3.2 PART . . . . . . . . . 4.4 Comparação de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 49 50 50 51 52 52 54 55 5 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 25 1 INTRODUÇÃO A confirmação do diagnóstico de câncer de próstata em pacientes é uma tarefa complicada que requer na maioria dos casos a realização de biópsia, procedimento que auxilia na detecção da doença. Este procedimento consiste na coleta de uma amostra das células prostáticas para análise laboratorial, e é um procedimento invasivo e inconveniente– 50% dos homens relatam incômodo durante a biópsia [1]. Na tentativa de reduzir a chance que um paciente tem de ser submetido ao procedimento, existem técnicas que se baseam em dados clínicos, obtidos desde a primeira suspeita para a construção de modelos determinadores da necessidade de biópsia. No entanto, mesmo com a utilização de informações obtidas através de exames, o diagnóstico não é livre de incertezas; Djavan et al. [2] afirmam que níveis elevados de PSA não confirmam o câncer de próstata, pois estes também podem occorer em casos de doenças prostáticas benignas. Sendo assim, testes efetuados somente com o marcador de PSA mostraram-se ineficazes pois recomendavam pacientes para a biópsia sem que houvesse necessidade [3]. Pesquisas mais recentes sugerem a incorporação de métodos matemáticos e computacionais para auxiliar na solução do problema, como a construção de nomogramas1 [6] baseados em atributos como estágio clínico, PSA e pontuação de Gleason2 para inferir um diagnóstico (nomograma proposto por Kattan et al. [7]). Outra técnica fortemente utilizada é a regressão logística, um tipo de análise de regressão que possui como objetivo prever a saída de uma variável binária ou multinomial a partir de variáveis independentes discretas e/ou contínuas. Por fim, métodos de classificação mais generalizáveis e flexíveis baseados em técnicas de aprendizado de máquina, como por exemplo redes neurais artificiais e máquinas de vetores de suporte surgiram como alternativas, propondo vantagens devido à capacidade de reconhecer padrões e inter-relações não lineares entre variáveis [2]. A proposta deste trabalho consiste no estudo e aplicação de técnicas de aprendizado de máquina para inferir a necessidade de biópsia para câncer de próstata, usando como estudo de caso dados coletados de pacientes do Hospital Universitário da Universidadade Estadual de Londrina, Paraná, acompanhados pelo médico professor de Urologia, Dr. Horácio Alvarenga Moreira. Os indicadores de desempenho e eficácia de classificação das técnicas e algoritmos selecionados são calculados e ao final são estabelecidas comparações entre si. O trabalho segue estruturado da seguinte forma: no capítulo 2, a fundamentação 1 2 Diagrama que representa as relações entre valores de uma ou mais variáveis [4] de forma que uma linha reta tocando as escalas interceptem nos valores apropriados de cada variável [5]. Classificação que avalia o prognóstico do tumor prostático através do procedimento de biópsia; quanto maior a pontuação, mais acentuada é a agressividade do tumor. 26 Capítulo 1. Introdução téorica é apresentada, onde as seções individuais descrevem aspectos do câncer de próstata e motivação do problema, técnicas e métodos de classificação no campo de aprendizado de máquina e trabalhos correlatos à proposta. No capítulo 3 são fornecidas informações a respeito do ambiente configurado para realização de testes, explicação do conjunto de dados e dos atributos relevantes e experimentos efetuados com os algoritmos e técnicas apresentados no capítulo anterior. Em seguida, os resultados de classificação obtidos a partir dos modelos gerados são dispostos no capítulo 4 categorizados pelos algoritmos, e ao fim do capítulo um sumário dos resultados gerais é compilado. Por fim, as considerações finais do trabalho são apresentadas no capítulo 5 juntamente com dificuldades encontradas e sugestões para pesquisas futuras. 27 2 FUNDAMENTAÇÃO TEÓRICA Para uma melhor compreensão do campo de estudo, são apresentados nas seções a seguir conceitos pertinentes ao problema proposto. Na seção 2.1, é descrita a fundamentação médica a respeito ao câncer de próstata, incluindo características da doença, dificuldades no diagnóstico e tratamentos mais comuns. Em seguida, a área de aprendizado de máquina é introduzida englobando conceitos básicos e técnicas computacionais pertinentes ao campo de estudo. Por fim, é efetuado um levantamento e breve análise de trabalhos relacionados acerca do tema com ênfase às técnicas descritas na seção 2.2. 2.1 Câncer de próstata O câncer de próstata é a sexta principal causa de mortalidade relacionada ao câncer [8], com fatores de risco como idade, histórico familiar e etnia [2]. Devido à grande heterogeneidade biológica da doença [9], o câncer de próstata possui como característica grande dificuldade em sua detecção e diagnóstico. Muito se deve ao fato que grande parte dos portadores de câncer prostático não exibem sintomas e devido a isso, não são submetidos a nenhum tipo de terapia [10]. Outro motivo recorrente é a falta de palpabilidade do tumor, imperceptível muitas vezes por exames de ultrassom ou ressonância magnética [7]. Além disso, dentre os diagnósticos confirmados, somente uma pequena parcela de pacientes correm sérios riscos: apesar de um em cada seis homens desenvolverem câncer de próstata durante sua vida, destes, apenas um em dez casos manifestam tumores agressivos [11]. Pacientes que não apresentam uma combinação de dados clínicos indicando alto risco não são beneficiados pelo procedimento de biópsia, o qual requer anestesia local e pode causar ansiedade, dor, sangramentos e infecções, assim como custos e despesas médicas adicionais. O marcador do antígeno específico da próstata (prostate specific antigen, abreviado como PSA) é o parâmetro mais amplamente utilizado para o diagnóstico precoce de câncer de próstata [12]– o antígeno está presente em pequenas quantidades em homens com boa saúde prostática, porém mostra-se elevado com frequência na presença de câncer de próstata e outras doenças prostáticas [13]. Devido ao grande número de falsos positivos obtidos através do uso exclusivo do valor de PSA, este é considerado ineficaz no processo de inferência do diagnóstico [14]. Apesar da existência de valores de referência para o PSA de acordo com a faixa etária, valores superiores a 4ng/mL sugerem alguma anomalia prostática, em sua maioria não relacionadas ao câncer, como por exemplo, retenção urinária, prostatite, ejaculação e hiperplasia prostática benigna (BPH, do inglês benign prostatic hyperplasia) [15], as quais 28 Capítulo 2. Fundamentação Teórica causam inflamação da próstata são responsáveis por um aumento na produção de PSA [16] De forma análoga, estima-se que 20% de pacientes diagnosticados com câncer de próstata clinicamente significativo possuem um valor de PSA inferior a 4ng/mL [17]. Outras variáveis indicativas de biópsia incluem o exame de toque, responsável por identificar alteração no volume prostático e taxa de percentual de PSA livre em relação ao PSA total, calculado através da razão dos valores obtidos por meio de hemogramas. Assim como para o PSA, um aumento no volume da próstata não indica necessariamente um tumor cancerígeno– a métrica de densidade (razão entre PSA e volume total), introduzida para efetuar um ajuste discriminatório entre os pacientes, possui um valor de corte de aproximadamente 0.15 para distinguir entre uma hipertrofia benigna e um possível tumor [18]. No entanto, a variação diária do valor de PSA assim como uma inexatidão de 10% a 30% no cálculo do volume prostático limitam a utilidade clínica deste parâmetro [15]– leituras de PSA que permanecem elevadas por um período de no mínimo três meses são altamente indicativas de suspeita de câncer de próstata, enquanto oscilações constantes sugerem um processo benigno [19]. Para a métrica de PSA livre/total, valores inferiores a 0.15 (15%) sugerem presença de câncer com probabilidade maior que 50%; a faixa de 0.15 a 0.25 é definida como faixa de incerteza e valores acima de 0.25 indicam probabilidade inferior a 10% [20]. Tratamentos possíveis para o diagnóstico de câncer de próstata localizado incluem espera e monitoramento cuidadoso, prostectomia radical1 , braquiterapia2 , radiação externa, entre outros [7]. A seleção do tratamento apropriado para cada paciente depende do diagnóstico– fatores como estágio clínico do câncer, outras complicações de saúde (problemas cardiovasculares, diabetes, entre outras doenças), idade e disponibilidade de tratamento são os principais motivos considerados no momento em que o médico determina o tipo de tratamento mais adequado ao paciente [21]. 2.2 Aprendizado de máquina Subcampo da inteligência artificial, o aprendizado de máquina é a área que engloba o estudo e a construção de sistemas inteligentes a partir de dados [22]. Após efetuado o aprendizado, também denominado treinamento, um sistema pode ser utilizado para classificar ou estimar saídas para instâncias desconhecidas. Arthur Samuel, norte-americano pioneiro na área de inteligência artificial aplicada a jogos, definiu o aprendizado de máquina como "o campo de estudos que fornece a computadores a habilidade de aprenderem sem serem explicitamente programados"[23]. 1 2 Remoção cirúrgica parcial ou total da glándula prostática. Forma de radioterapia onde a fonte de radiação é posicionada internamente ou próxima à região necessitada de tratamento. 2.2. Aprendizado de máquina 29 Witten e Frank [24] descreveram quatro conceitos caracterizando os vários algoritmos de aprendizado de máquina: aprendizado por classificação, onde um conjunto de exemplos pertencentes à classes são utilizados para construir modelos; aprendizado por associação, onde deseja-se identificar grupos de um ou mais atributos que determinam o valor de classe de uma instância; aprendizado por agrupamento, no qual exemplos semelhantes de acordo com um critério estabelecido são agrupados; e aprendizado por regressão, que possui como objetivo desenvolver um modelo matemático correlacionando atributos com o valor de classe [23]. Dentre as diversas técnicas desenvolvidas na área de aprendizado de máquina, foram consideradas para este estudo as técnicas mais recorrentes em pesquisas correlatas para tarefas relacionadas ao problema incluindo como por exemplo dedução de diagnóstico da doença, avaliação de prognóstico em pacientes portadores e inferência da necessidade de biópsia para câncer de próstata. 2.2.1 Regressão logística A regressão logística é um tipo de modelo de classificação probabilístico que possui como objetivo estimar o valor de classe de uma variável dependente a partir de outras variáveis discretas e/ou contínuas [25]. A classe que se deseja estimar é frequentemente binária– no caso onde existam mais que duas classes, a regressão logística multinomial deve ser usada. Apesar de compartilhar pequenas semelhanças com técnicas estatísticas, a regressão logística é uma técnica originada no campo de aprendizado de máquina, pois possui como objetivo classificar instâncias de acordo com um conjunto de atributos; desta forma, a análise de regressão tem como tarefa não somente identificar quais variáveis independentes influenciam o resultado da variável dependente mas também como estas o fazem. No entanto, deve-se evitar a inferência de causalidade entre as variáveis no modelo, pois este configura um conceito distinto da correlação entre variáveis [26]. Para uma melhor compreensão da técnica de regressão logística, alguns conceitos matemáticos são necessários; a função logística (eq. 2.1, ilustrada graficamente na figura 1 é a fundamentação elementar deste tipo de análise de regressão. 𝑓 (𝑡) = 1 𝑒𝑡 = 𝑡 𝑒 +1 1 + 𝑒−𝑡 f : R ↦→ [0, 1] (2.1) Também denominada de função ou curva sigmóide, é delimitada no intervalo entre 0 e 1 para qualquer t ∈ R; esta delimitação garante que o valor de saída estimado pelo modelo permaneça no intervalo, permitindo a interpretação do valor como uma figura probabilística. 30 Capítulo 2. Fundamentação Teórica 1 0.5 0 −6 −4 −2 0 2 4 6 Figura 1: Gráfico da função logística A construção básica de um modelo de regressão logística é similar ao mecanismo desenvolvido para a regressão linear: Definição 1. Suponha um conjunto de dados contendo N pontos observados. Cada ponto consiste em um conjunto de M variáveis explanatórias 𝑥1,𝑖 , 𝑥2,𝑖 , . . . , 𝑥𝑀,𝑖 , 0 ≤ i < N (também denominadas variáveis independentes, características ou atributos) e uma variável dependente binária 𝑌𝑖 , isto é, limitada aos valores 0 e 1. Como dito anteriormente, as variáveis independentes podem ser do tipo reais, binárias ou categóricas. Estas podem ser classificadas como contínuas, atributos como por exemplo salário, idade e altura, ou discretas, tais como sexo ou tipo sanguíneo. Variáveis discretas expressas de forma textual podem ser codificadas numericamente em categorias ou em atributos binários adicionais. A variável dependente de saída assume a forma de uma distribuição Bernoulli, descrita na equação 2.2. 𝑃𝑟 (𝑌𝑖 |𝑥1,𝑖 , 𝑥2,𝑖 , . . . , 𝑥𝑚,𝑖 ) = 𝑝𝑦𝑖 𝑖 (1 − 𝑝𝑖 )1−𝑦𝑖 = ⎧ ⎨ 𝑝𝑖 se 𝑦𝑖 = 1 ⎩ 1 − 𝑝 se 𝑦 = 0 𝑖 𝑖 (2.2) A probabilidade de sucesso 𝑌𝑖 = 1 é denotada por 𝑝𝑖 , e seu complemento 1 𝑝𝑖 indica 𝑌𝑖 = 0. O objetivo da regressão logística é encontrar os coeficientes de uma combinação linear das variáveis explicativas que preveja a variável de saída corretamente. Esta função 𝑔(𝑖) é escrita da seguinte forma: 𝑔(𝑖) = 𝛽0 + 𝛽1 𝑥1,𝑖 + · · · + 𝛽𝑀 𝑥𝑚,𝑖 (2.3) onde 𝛽0 , 𝛽1 , . . . , 𝛽𝑀 ∈ R são os coeficientes de regressão e 𝑥1,𝑖 , 𝑥2,𝑖 , . . . , 𝑥𝑀,𝑖 as variáveis independentes. g(i) pode ser reescrita de forma compacta usando a notação de 2.2. Aprendizado de máquina 31 produto escalar entre os vetores 𝛽 e 𝑋𝑖 . 𝑔(𝑖) = 𝛽 · 𝑋𝑖 (2.4) No entanto, o valor calculado por g(i) pode assumir valores arbitrários no conjunto dos números reais, dadas as entradas 𝑥1,𝑖 , 𝑥2,𝑖 , . . . , 𝑥𝑀,𝑖 fornecidas. Para contornar este problema, a combinação linear de coeficientes e variáveis explanatórias é fornecida à função logística (eq. 2.1) como parâmetro. A probabilidade de sucesso 𝜋𝑖 é equivalente a composição 𝑓 ∘ 𝑔, dada na eq. 2.5. 𝜋𝑖 = 𝑓 (𝑔(𝑖)) 1 = 1 + 𝑒−𝑔(𝑖) 1 = 1 + 𝑒−(𝛽·𝑋𝑖 ) (2.5) Ao aplicar g(i) à função logística, é possível observar as mesmas propriedades que caracterizam a eq. 2.1 e que reforçam o comportamento probabilístico [27]: lim 𝑔(𝑖)→+∞ 𝜋𝑖 = 1 lim 𝑔(𝑖)→−∞ 𝜋𝑖 = 0 (2.6) Para estimar os coeficientes, utiliza-se a estimativa por máxima verossimilhança (MLE) (equação 2.7). 𝑃 (𝜋𝑖 |𝑋, 𝛽) ≈ = = 𝑁 ∏︁ 𝑖=1 𝑁 ∏︁ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝑦𝑖 |𝜋𝑖 (𝛽 · 𝑋𝑖 )) 𝜋𝑖𝑦𝑖 (1 − 𝜋𝑖 )1−𝑦𝑖 𝑖=1 𝑁 [︂ ∏︁ 𝑖=1 1 1 + 𝑒−(𝛽·𝑋𝑖 ) ]︂𝑦𝑖 [︂ 1 1− 1 + 𝑒−(𝛽·𝑋𝑖 ) ]︂1−𝑦𝑖 (2.7) No entanto, devido a grande quantidade de expressões exponenciais em 2.7, aplicamos o logaritmo negativo– desta forma, o produtório torna-se um somatório e algumas expressões exponenciais são substituídas por logaritmos [25]. A função log-verossimilhança negativa L(𝛽) a ser minimizada é descrita em 2.8. L(𝛽) = − log 𝑃 (𝜋𝑖 |𝑋, 𝛽) = − 𝑁 ∑︁ 𝑖=1 𝑦𝑖 log 𝜋𝑖 + (1 − 𝑦𝑖 ) log(1 − 𝜋𝑖 ) (2.8) 32 Capítulo 2. Fundamentação Teórica Para efetuar a minimização de L(𝛽), utiliza-se um método numérico iterativo. A motivação no uso da técnica se deve não somente à interpretabilidade do modelo, uma vez que a magnitude dos coeficientes em 2.3 influenciam o resultado da probabilidade estimada, mas também o pequeno número de parâmetros desconhecidos: um conjunto de dados de dimensão R𝑚 resultará em m + 1 coeficientes. As tabelas de Partin, propostas por [28] originalmente em 1993, são um tipo de nomograma comumente utilizado para prever o estado patológico de um paciente após o procedimento de prostactemia radical. As tabelas foram obtidas através de regressão logística baseado nos atributos PSA, estágio clínico do câncer de próstata e soma de Gleason. Eifler et al. [29] propuseram uma atualização ao nomograma devido à mudança no sistema de pontuação de Gleason e da natureza do diagnóstico da doença dezenove anos após ao nomograma primário. 2.2.2 Redes neurais artificiais Com o funcionamento análogo à redes ou circuito de neurônios reais [30], uma rede neural artificial consiste em um grupo de neurônios artificiais interconectados, utilizando um modelo matemático para processamento de informações através da modelagem de relações complexas não lineares entre as variáveis de entrada sem outras informações previamente fornecidas [9]. Redes neurais são sistemas adaptáveis, onde o fluxo de informações internas ou externas à rede alteram sua estrutura. Considerada como uma das representações mais comuns de redes neurais artificiais, o multi-layer perceptron é dividido em três partes: neurônios de entrada, neurônios ocultos e neurônios de saída. Um grupo de neurônios é denominado uma camada, onde o número de neurônios na camada de entrada é igual ao número de variáveis da entrada e o número de neurônios na camada de saída é igual ao número de variáveis de saída [31]. O número de neurônios nas camadas ocultas pode ser escolhido arbitrariamente, porém algumas pesquisas [32][33][34] sugerem o uso de uma relação entre a quantidade de neurônios nas camadas de entrada e saída para determinar a quantidade ideal de neurônios para uma camada oculta– esta relação é dada em 2.9 como a raiz quadrada entre o produto da quantidade de neurônios das camadas de entrada e saída. 𝑁ℎ = √︁ 𝑁𝑖 × 𝑁𝑜 (2.9) A figura 2 ilustra uma rede neural simples feedforward 3 – os neurônios são representados através de círculos, cada um conectado aos neurônios da camada subsequente, exceto pela camada final. As arestas representam as conexões entre neurônios e possuem 3 Rede neural artificial onde a direção do fluxo de dados é única, i.e. não existem ciclos. 2.2. Aprendizado de máquina 33 um valor arbitrário inicial, o peso da conexão. As setas indicam a direção do fluxo de dados, a partir da camada de entrada até a camada de saída. Oculta Entrada Saída Figura 2: Visão simplificada das camadas uma rede neural artificial multi-layer perceptron O funcionamento de uma rede neural artificial dá-se por meio de dois processos: treinamento e teste. O treinamento é realizado para ‘ensinar’a rede, com o intuito de obter os valores de saída corretos de acordo com as variáveis de entrada. A técnica de treinamento mais simples, o backpropagation, emprega o cálculo da variação do erro; este é então propagado na direção oposta da computação dos dados, alterando os pesos das conexões de forma que um novo valor de saída seja ainda mais próximo ao valor real [35]. O treinamento é encerrado assim que a taxa de erro cai abaixo do valor de tolerância especificado. A etapa de teste avalia o desempenho de classificação da rede: utilizando um conjunto de dados distinto, calculam-se os valores de saída sem que o erro obtido ao final seja propagado– esta taxa de erro representa o quão próximo os valores reais de saída se situam comparados aos valores calculados pela rede neural [36]. Existem, no entanto, algumas complicações presentes nas fases de treinamento e teste de uma rede neural artificial. O overfitting ocorre quando uma rede é treinada demasiadamente, gerando valores especializados somente no conjunto de dados do treinamento, assim quaisquer outras entradas desconhecidas à rede apresentam taxa de erro maior que a tolerância estabelecida [31]. Outro ponto a ser observado é a interpretação do erro obtido nas saídas da rede; geralmente calcula-se uma estimativa média do erro sobre todas os valores processados. Caso as saídas sejam discretas ou até mesmo binárias, é necessário definir critérios adicionais para avaliação do erro. Em casos onde o conjunto de dados gera mais de uma saída, como por exemplo na Figura 2 em que a rede neural possui duas saídas para três valores de entrada, calcula-se a média do erro sobre todas os valores de saída obtidos e subsequentemente a média sobre todos os registros processados. A forma de retropropagação do erro em uma rede neural é determinado pelo algoritmo utilizado; a função ilustrada na figura 3, descrita por Russell e Norvig [31] efetua 34 Capítulo 2. Fundamentação Teórica uma otimização por meio de descida do gradiente, técnica que possui como objetivo minimizar a soma dos quadrados dos erros utilizando a derivada de primeira ordem. A idéia por trás do algoritmo é dividir o erro calculado e distribuí-los de acordo com o peso das conexões aos neurônios das camadas precedentes. A atualização dos pesos é efetuada assim que o gradiente de erro é obtido entre os neurônios que compartilham a conexão. função Backpropagation(exemplos, rede) retorna uma rede neural parâmetros exemplos, conjunto de exemplos com vetores de entrada x e saída y rede, rede neural com L camadas, pesos 𝑊𝑖,𝑗 , função de ativação g repita para cada e em exemplos faça para cada nó j na camada de entrada faça 𝑎𝑗 ← 𝑥𝑗 [𝑒] para l = 2 até L faça ∑︀ 𝑒𝑛𝑡𝑟𝑎𝑑𝑎𝑖 ← 𝑊𝑗,𝑖 𝑎𝑗 𝑗 𝑎𝑖 ← 𝑔(𝑒𝑛𝑡𝑟𝑎𝑑𝑎𝑖 ) ◁ Valor calculado é fornecido à função de ativação para cada nó i na camada de saída faça Δ𝑖 ← 𝑔 ′ (𝑒𝑛𝑡𝑟𝑎𝑑𝑎𝑖 ) × (𝑦𝑖 [𝑒] − 𝑎𝑖 ) ◁ Gradiente de erro na camada L para l = L - 1 até 1 faça para cada nó j na camada l faça ∑︀ ◁ Cálculo do gradiente de erro Δ𝑗 ← 𝑔 ′ (𝑒𝑛𝑡𝑟𝑎𝑑𝑎𝑗 ) × 𝑊𝑗,𝑖 Δ𝑖 𝑖 para cada nó i na camada l + 1 faça 𝑊𝑗,𝑖 ← 𝑊𝑗,𝑖 + 𝜂 × 𝑎𝑗 × Δ𝑖 até que algum critério de parada seja satisfeito fim função ◁ Atualização de pesos Figura 3: Função backpropagation simples Existem variações do algoritmo padrão de backpropagation que incluem parâmetros adicionais para controle dos pesos como por exemplo a constante de momento (momentum rate) e a taxa de declínio (decay) [37] com o intuito de reduzir a presença de mínimos locais assim como um ajuste mais refinado dos pesos. Outros algoritmos para treinamento utilizam métodos numéricos alternativos, como por exemplo gradiente conjugado (SCG), o qual efetua buscas em direções conjugadas ao gradiente providenciando uma convergência mais rápida [9]. Adicionalmente, o algoritmo de Levenberg-Marquadt consiste em uma combinação dos métodos de descida de gradiente e o algoritmo de Gauss-Newton; desta forma, é possível determinar diferentes valores de ajuste dadas variações no gradiente [38]. Apesar da alta popularidade de redes do tipo multi-layer perceptron, existem diversos outros modelos de redes com o mesmo princípio básico de interconexão entre neurônios porém com estruturas e propósitos distintos– as redes Hopfield são um tipo de rede neural artificial recorrente (conexões entre neurônios assumem mais de uma direção) utilizadas para o reconhecimento de padrões devido a capacidade de agirem como memórias associativas recuperando padrões próximos aos que lhe foram apresentados durante o treinamento 2.2. Aprendizado de máquina 35 [39]. Redes neurais RBF são utilizadas para problemas de grande número de dimensões, e mesclam conceitos de máquinas de vetores suporte por meio da utilização de funções que constituem uma base arbitrária para os vetores de entrada assim que transferidos à camada oculta [40]. Redes RBF não apresentam mínimos locais pois os únicos parâmetros ajustados são as conexões do mapeamento entre a camada oculta e camada de saída, porém este tipo de rede necessita que o conjunto de entradas esteja contido no espaço definido pelas funções de base radial. 2.2.3 Árvores de decisão Árvores de decisão são ferramentas de aprendizado supervisionado para problemas de classificação. Como o próprio nome da técnica sugere, esta possui como objetivo a construção de uma árvore que represente explicitamente a estrutura do conjunto de dados [41]. Em outras palavras, uma árvore de decisão fornece, através da disposição de seus nós, uma interpretação intuitiva do conjunto de variáveis explicativas para o critério de classificação. Munido de uma tupla e seus valores para as variáveis independentes, o percurso pela árvore encerrando em uma folha determina o valor da classe para a instância– os nós são rotulados com um dos atributos e os ramos partindo destes indicam seus valores possíveis. Os valores para os atributos em uma árvore de decisão são categóricos– variáveis contínuas são discretizadas precedendo a construção da árvore. A figura 4 ilustra uma árvore de decisão elaborada para determinar indivíduos que possam vir a comprar um computador [42]. Idade <= 30 Estudante? Não Não > 40 31 - 40 Sim Sim Sim Avaliação de crédito? Excelente Sim Razoável Não Figura 4: Árvore de decisão para a avaliação de compra de computador Uma árvore de decisão é construída a partir da divisão do conjunto de dados original em subconjuntos resultantes de um teste de valores de um dos atributos. Este processo é repetido para cada subconjunto de maneira recursiva até que os valores de saída de um subconjunto sejam iguais ao valor esperado [43]. O critério utilizado para seleção 36 Capítulo 2. Fundamentação Teórica dos atributos mais relevantes para a construção do modelo classificação ou regressão varia de acordo com o algoritmo usado, porém compartilham semelhanhanças, como por exemplo, a redução de impureza (entropia) e a homogeneidade da variável dependente nos subconjuntos gerados. A métrica mais amplamente utilizada para a seleção de atributos relevantes no processo de construção de uma árvore de decisão é o ganho de informação, cálculo que indica a quantidade de informação ganha após a inserção de um nó na árvore que efetua uma decisão a partir de um atributo, isto é, o ‘benefício’obtido ao se utilizar este atributo ao invés dos outros no conjunto. Eberle [42] descreve o cálculo do ganho de informação da seguinte forma: Definição 2. Seja 𝑝𝑖 , dada pela equação 2.10 a probabilidade que uma tupla do conjunto D com m valores possíveis, possui de pertencer a classe 𝐶𝑖 . 𝑝𝑖 = 𝐶𝑖,𝐷 𝐷 (2.10) A entropia do conjunto D é determinada na equação 2.11 e representa a informação esperada para classificar uma tupla do conjunto. 𝐼𝑛𝑓 𝑜(𝐷) = ∑︁ −𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖 (2.11) 𝑖 A informação necessária após a utilização de um atributo A para a divisão de D é obtida pelo somatório do produto entre a probabilidade de cada subconjunto 𝐷𝑗 e a entropia de 𝐷𝑗 . Este cálculo é obtido por meio da equação 2.12. 𝐼𝑛𝑓 𝑜𝐴 (𝐷) = 𝑣 ∑︁ 𝐷𝑗 × 𝐼(𝐷𝑗 ) 𝑗=1 𝐷 (2.12) O ganho de informação (eq. 2.13) é dado como a diferença entre a entropia do conjunto e a informação calculada após a decisão efetuada pelo atributo A. 𝐺𝑎𝑛ℎ𝑜(𝐴) = 𝐼𝑛𝑓 𝑜(𝐷) − 𝐼𝑛𝑓 𝑜𝐴 (𝐷) (2.13) Após o cálculo do ganho de informação para todos os atributos de um subjconjunto, escolhe-se o atributo com o maior ganho de informação, o que equivale à capacidade do atributo em decidir o valor de classe para a maior quantidade de instâncias. Como dito anteriormente, o processo de construção de uma árvore de decisão é recursivo, sendo assim, o cálculo de ganho de informação é repetido até que todas as tuplas sejam devidamente atribuídas seu valor de classe. 2.2. Aprendizado de máquina 37 No entanto, a utilização do cálculo de ganho de informação possui uma propensão a considerar atributos com grande quantidade de valores possíveis. Para superar esta limitação, a proporção de ganho (gain ratio) é obtida pela subtração entre o ganho de informação e um novo cálculo de informação obtido após divisão pelo atributo (eq. 2.14). 𝑣 ∑︁ 𝐷𝑗 𝐷𝑗 × 𝑙𝑜𝑔2 𝐼𝑛𝑓 𝑜𝐷𝑖𝑣𝑖𝑠𝑎𝑜𝐴 (𝐷) = − 𝐷 𝑗=1 𝐷 (︂ )︂ (2.14) Assim, a proporção do ganho de informação obtém-se por meio da equação 2.15. 𝑃 𝑟𝑜𝑝𝑜𝑟𝑐𝑎𝑜𝐺𝑎𝑛ℎ𝑜(𝐴) = 𝐺𝑎𝑛ℎ𝑜(𝐴) − 𝐼𝑛𝑓 𝑜𝐷𝑖𝑣𝑖𝑠𝑎𝑜(𝐴) (2.15) Ao passo que algoritmos como ID3 [44] e C4.5 [45] utilizam os indicadores de ganho de informação e proporção de ganho para a construção de árvores de decisão, outras técnicas como por exemplo CART [46] e IBM IntelligentMiner [47] empregam o uso do coeficiente Gini, outra métrica popular para construção recursiva de árvores de decisão. 2.2.4 Avaliação de classificadores Dadas as diversas técnicas pertencentes ao campo de aprendizado de máquina, a tarefa de classificação consiste na construção de um modelo classificador utilizando dados conhecidos com o objetivo de determinar o valor de classe para instâncias não rotuladas [48]. Para contrastar divergências e similaridades entre modelos classificadores, definiramse métricas e critérios para que subsequente a elaboração do modelo, o desempenho entre outros aspectos adicionais sejam analisados. Alguns destes critérios, senão os mais importantes, estão dispostos abaixo. Acurácia/Exatidão Capacidade do modelo em determinar rótulos de classe corretos para instâncias novas ou desconhecidas. Rapidez Custos computacionais envolvidos na elaboração e utilização do classificador. Robustez Capacidade de classificar instâncias corretamente com dados omissos ou ruído. Escalabilidade Construção eficiente de um classificador utilizando um maior volume de instâncias. Interpretabilidade Nível de compreensão e abstração provido pelo modelo. Simplicidade Grau de complexidade da estrutura construída (ex. tamanho de uma árvore de decisão, 38 Capítulo 2. Fundamentação Teórica número de camadas em uma rede neural e quantidade de coeficientes em um modelo de regressão logística). Para avaliar a exatidão de um classificador, alguns parâmetros podem ser calculados utilizando o conjunto de teste: sejam 𝑛𝑡 o número total de instâncias para teste e 𝑛𝑐 o número de instâncias de teste classificadas corretamente. A acurácia 𝜂 e erro de classificação 𝜀 podem ser calculados através de 2.16a e 2.16b respectivamente. 𝑛𝑐 𝑛𝑡 (2.16a) 𝑛𝑡 − 𝑛𝑐 =1−𝜂 𝑛𝑡 (2.16b) 𝜂= 𝜀= Além destas medidas, é possível elaborar uma matriz de confusão, fornecendo ainda mais informações sobre a acurácia do modelo. Em uma matriz de confusão, o eixo horizontal determina os valores de classe corretos enquanto o eixo vertical denota os valores de classe atribuídos pelo classificador. Desta forma, as quantidades de instâncias classificadas corretamente são dispostas na diagonal principal, enquanto os outros elementos representam os exemplos classificados incorretamente. A tabela 1 exemplifica resultados de classificação para dois valores distintos de classe. ′ 𝑐1 𝑐2 ′ 𝑐1 23 7 𝑐2 10 68 Tabela 1: Matriz de confusão para dois valores de classe A partir da tabela 1 com as classes 𝑐1 = sim e 𝑐2 = não, obtemos os valores: Verdadeiros positivos (VP) Esperado = 𝑐1 , classificados como 𝑐1 Falsos positivos (FP) Esperado = 𝑐2 , classificados como 𝑐1 Falsos negativos (FN) Esperado = 𝑐1 , classificados como 𝑐2 Verdadeiros negativos (VN) Esperado = 𝑐2 , classificados como 𝑐2 Uma matriz de confusão fornece informações para o cálculo de outras métricas importantes. Algumas delas estão dispostas na tabela 2. As métricas descritas na tabela 2 para a matriz de confusão em ( 1) podem ser calculadas. 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 = 𝑉𝑃 23 = = 0.7666 𝑉 𝑃 + 𝐹𝑁 23 + 7 (2.17a) 2.2. Aprendizado de máquina 39 Nomenclaturas Cálculo Sensibilidade; taxa de verdadeiros positivos; recall 𝑇𝑃𝑅 = 𝑉𝑃 𝑉 𝑃 +𝐹 𝑁 Especificidade; taxa de verdadeiros negativos 𝑇 𝑁𝑅 = 𝑉𝑁 𝑉 𝑁 +𝐹 𝑃 Fall-out; taxa de falsos positivos 𝐹𝑃𝑅 = 𝐹𝑃 𝐹 𝑃 +𝑉 𝑁 Exatidão; acurácia 𝐴𝐶𝐶 = 𝑉 𝑃 +𝑉 𝑁 𝑉 𝑃 +𝑉 𝑁 +𝐹 𝑃 +𝐹 𝑁 Descrição Proporção de verdadeiros positivos corretamente identificados Proporção de verdadeiros negativos corretamente identificados Proporção de instâncias classificadas incorretamente como verdadeiros Proporção de instâncias classificadas corretamente Tabela 2: Métricas de desempenho derivadas da matriz de confusão 𝐸𝑠𝑝𝑒𝑐𝑖𝑓 𝑖𝑐𝑖𝑑𝑎𝑑𝑒 = 𝐹 𝑎𝑙𝑙 − 𝑜𝑢𝑡 = 𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 = 𝑉𝑁 68 = = 0.8717 𝑉 𝑁 + 𝐹𝑃 68 + 10 𝐹𝑃 10 = = 0.1282 𝐹𝑃 + 𝑉 𝑁 10 + 68 𝑉𝑃 +𝑉𝑁 23 + 68 = = 0.8425 𝑉 𝑃 + 𝑉 𝑁 + 𝐹𝑃 + 𝐹𝑁 23 + 68 + 10 + 7 (2.17b) (2.17c) (2.17d) É possível observar que o teste possui maior exatidão para as instâncias com classe negativa, uma vez que a especificidade é maior que a sensibilidade. Como ilustrado na tabela 2, a taxa de verdadeiros positivos determina o quão sensível o modelo é para instâncias de classe positiva ao passo que a taxa de verdadeiros negativos determina o quão específico o modelo é para a classificação de instâncias negativas [49]. Um classificador perfeito possui valores de sensibilidade e especificidade iguais a 1: sendo assim, o índice de acurácia é diretamente proporcional à alterações nas métricas de verdadeiros positivos e negativos. Uma técnica amplamente adotada para avaliar o valor que maximiza a acurácia do modelo é a construção de uma curva de limiar, também denominada de curva ROC (receiver operating characteristic), a qual foi inicialmente desenvolvida para detecção de sinais de radares durante a segunda guerra mundial. A figura 5 ilustra um exemplo desta ferramenta. Uma curva ROC busca estabelecer uma comparação entre modelos de classificação avaliando diferentes pontos de limiar para discriminação; enquanto o eixo vertical do gráfico indica a sensibilidade (taxa de verdadeiros positivos), o eixo horizontal indica a taxa de falsos positivos (1 - especificidade), onde cada ponto no espaço representa os respectivos valores obtidos de uma matriz de confusão. A diagonal que corta o espaço ROC 40 Capítulo 2. Fundamentação Teórica ao meio é conhecido como a linha de zero discriminação, onde permanecem resultados de decisões aleatórias– pontos acima desta linha indicam desempenho superior à decisões aleatórias, ao passo que pontos abaixo da linha indicam desempenho inferior. Caso os pontos na curva ROC estejam presentes abaixo da linha de zero discriminação, a inversão dos rótulos de classe das instâncias resultará em uma curva com a concavidade invertida, isto é, com pontos acima da linha de discriminação. No entanto, esta prática é tido como último recurso para aperfeiçoar um classificador, pois pode causar overfitting [50]. Taxa de verdadeiros positivos (sensibilidade) 1 (0,1) Classificação perfeita 0 ria ató 0.5 isã c De 0 le oa 0.5 Taxa de falsos positivos (1 - especificidade) 1 Figura 5: Um exemplo de curva ROC O cálculo da área sob a curva obtida, também conhecida como AUC (area under curve) é uma forma de agregação de uma curva ROC em um valor escalar. Dado que o espaço ROC é limitado entre 0 e 1 em ambos os eixos, os valores da área calculada se mantém neste alcance. A área abaixo da linha de zero discriminação é 0.5, portanto espera-se que qualquer classificador possua uma área acima deste limiar. A métrica de área sob a curva pode ser interpretada como a probabilidade a que um modelo possui de discriminar um exemplo positivo escolhido aleatoriamente de um exemplo positivo escolhido aleatoriamente [51]. O valor da área sob a curva pode ser calculado por meio da média de aproximações trapezoidais. 2.3 Trabalhos relacionados A aplicação de conceitos e técnicas originadas na área de aprendizado de máquina para auxílio em tarefas relacionadas ao câncer é um tema recorrente em estudos recentes. 2.3. Trabalhos relacionados 41 Estima-se que mais de 500 publicações acadêmicas em periódicos médicos são geradas a cada ano [52]. No entanto, ensaios clínicos são publicados com menor frequência, assim como estudos que avaliam o desempenho de redes neurais em contraste com métodos estatísticos [53]. Entre estes estudos, destaca-se Cinar et al. [9], que propuseram um comparativo entre redes neurais artificiais e máquinas de vetor de suporte (SVM) utilizando dados de 300 pacientes do Departamento de Urologia do Hospital de Bornova Sifa na Turquia. Atributos utilizados incluiram peso, altura, índice de massa corpórea, valores de PSA e PSA livre, volume prostático, densidade PSA/volume, fumante ou não-fumante, pressão arterial (sistólica e diastólica), batimento cardíaco e pontuação de Gleason. Os autores atingiram através da empregação de três técnicas de treinamento em redes neurais artificiais, uma taxa de acurácia média de 79%; com o uso de funções de núcleo linear, polinomial e gaussiana, obtiveram percentuais de classificação 77.2%, 81.1% e 78.9%, respectivamente. Pesquisas mais recentes, como a de Regnier-Coudert et al. [54], apresentam uma análise detalhada do uso de técnicas estatísticas, redes neurais artificiais e redes bayesianas. Foram utilizados dados clínicos padronizados pela Associação Britância de Cirurgiões Urologistas (BAUS) contendo os atributos PSA, pontuação de Gleason e estágio clínico para inferir a variável de estado patológico; o conjunto inicial continha dados de mais de 7500 pacientes obtidos entre 1999 e 2008, porém apenas 1701 registros foram selecionados devido à grande quantidade de atributos omissos e dados errôneos no conjunto original. Um aspecto notável do estudo foi a avaliação do desempenho das tabelas de Partin, que têm como base pacientes americanos, em indivíduos britânicos; concluiu-se que as diferenças demográficas comprometem o desempenho da regressão logística. A eficácia no uso de tabelas de Partin mostrou-se baixa, por volta de 61%. A introdução de redes bayesianas e redes neurais artificiais mostrou um desempenho de classificação próximo a 67% e 65% respectivamente. Lisboa et al. [55] sugerem a incorporação de técnicas de validação temporal e externa para avaliar a eficiência dos métodos. Estas variações são baseadas na clássica validação cruzada, onde os dados são divididos em conjuntos de treinamento e teste e utilizados distintamente. O estudo conduzido por Lawrentschuk et al. [56] utilizando uma amostra de 3025 pacientes da Rede de Saúde Universitária (UHN) em Toronto, Canadá, e contendo atributos idade, exame de toque, ultrassom transretal e volume prostático apresenta uma comparação entre métodos de regressão logística e redes neurais artificiais para classificar os pacientes em quatro categorias de resultado de biópsia. Os resultados obtidos não foram satisfatórios: ao passo que os tumores benignos foram identificados com eficácia média de 87%, o câncer de próstata significativo (CSPC) e não-significativo (NSPC) foram classificados com taxas de 22% e 2% respectivamente. O conjunto inicial de dados continha 7758 42 Capítulo 2. Fundamentação Teórica registros, onde mais da metade foi descartado devido a falta de integridade. Marin et al. [57] propuseram através de sua pesquisa meios para reduzir os problemas gerados pela falta de integridade em um conjunto de dados contendo 950 amostras de testes para diagnóstico de câncer de próstata. Após efetuarem a discretização de variáveis linguísticas, percebeu-se que somente 44 dos 950 registros possuíam todos os atributos com valores não-nulos. Os autores descrevem então técnicas para corrigir as amostras restantes, como por exemplo, preenchimento de campos vazios com valor médio do atributo, normalização por meio de histograma de frequência, remoção de entradas com valores altamente discriminantes e seleção de atributos relevantes. Garzotto et al. [58] conduziram e compararam resultados de testes com árvores de classificação e regressão (CART) e regressão logística, obtendo precisão similar com áreas sob a curva ROC iguais a 0.74 e 0.72 respectivamente. O conjunto de dados foi composto de 1433 pacientes com PSA inferior a 10ng/mL e incluiu fatores como idade, região demográfica, histórico familiar e dados laboratoriais como exame de toque, vasectomia, densidade de PSA e pontuação Gleason; a árvore de decisão obtida classificou as instâncias com valores de sensibilidade e especificidade 95.5% e 37.9% respectivamente. A pesquisa conduzida por Gülkesen et al. [59] baseou-se no algoritmo QUEST (Quick, Unbiased and Efficient Statistical Tree), uma variação do algortimo CART onde os critérios para seleção de atributos são mais maleáveis e dados omissos são tratados com imputação. Com dados de 1830 pacientes coletados entre 2001 e 2007, a análise por meio de árvores de decisão resultou em um modelo com sensibilidade e especificidade iguais a 0.99 e 0.97 respectivamente, estimando que por volta de 13% dos casos analisados foram poupados do procedimento de biópsia. No entanto, verificou-se que os resultados obtidos possuiam acurácia similar ao modelo construído utilizando regressão logística, com uma AUC levemente maior. 43 3 MATERIAIS E MÉTODOS Neste capítulo, são apresentados as ferramentas e algoritmos utilizados, assim como as configurações e parâmetros associados a cada técnica. O ambiente de testes de algoritmos de aprendizado de máquina Weka é descrito na seção 3.1, onde uma visão geral sobre as funcionalidades da ferramenta é dada. Em 3.1, o conjunto de dados obtido para a realização dos experimentos é apresentado, incluindo atributos e estatísticas pertinentes. Por fim, as configurações para os algoritmos selecionados são dadas na seção 3.3 a partir de variações nos valores padronizados pelo ambiente de testes. 3.1 O ambiente Weka Weka, acrônimo para Waikato Environment for Knowledge Analysis, é uma coleção de algoritmos e ferramentas de aprendizado de máquina para tarefas de mineração de dados [60]. Atualmente, é considerado como sistema de referência [61] tanto no meio acadêmico quanto comercial pois é open-source além de altamente modular e extensível, permitindo a integração de novos algoritmos com a interface por meio de plugins e APIs. A interface gráfica inicial do ambiente é ilustrada na figura 6. Figura 6: Seletor de interface do Weka A partir da versão 3.4, o Weka providencia o acesso (figura 6) às diferentes interfaces que compõem o programa. As aplicações principais são o Explorer, ferramenta principal do Weka para processamento e análise de conjuntos de dados assim como testes com os diversos algoritmos; o Experimenter, modo que oferece controles e opções mais rígidos para a condução de experimentos sob condições específicas; KnowledgeFlow, ferramenta que permite ao usuário especificar graficamente por meio de um diagrama uma 44 Capítulo 3. Materiais e métodos sequência de algoritmos, filtros e opções disponíveis no Weka para a construção de testes mais robustos e detalhados não possíveis no modo Explorer [62]; e por fim, o Simple CLI, a interface por linha de comando. Figura 7: Weka Explorer após o carregamento de um conjunto de dados Ao iniciar o modo Explorer e providenciar um conjunto de dados no formato ARFF ou outro igualmente suportado como CSV ou uma tabela obtida via SQL, a interface ilustrada na figura 7 é apresentada ao usuário. As seções principais são categorizadas por meio das abas na parte superior: no preprocessamento (Preprocess), os atributos na relação são identificados e estatísticas como valores máximo, mínimo, média e desvio padrão são ilustrados à direita; a aba de classificação (Classify) fornece acesso à algoritmos de classificação e regressão, com opções para escolha de conjuntos de treinamento e teste– os resultados são armazenados na lista no canto inferior esquerdo com opções para visualização do modelo representativo caso possível e também do erro obtido; a seção Cluster inclui os algoritmos de agregação como k-nearest neighbors e k-means; em Associate é possível aplicar técnicas de associação de regras para a identificação de interrelações nos atributos do conjunto; a aba de seleção Select attributes providencia algoritmos e técnicas para determinar os atributos com maior importância preditiva, auxiliando o processo de seleção de características (feature selection); e por último, o painel de visualização (Visualize) exibe gráficos de dispersão que ilustram a correlação entre os atributos presentes no conjunto. 3.2. Conjunto de dados 3.2 45 Conjunto de dados Os casos para este estudo foram obtidos através do Dr. Horário Alvarenga Moreira, urologista do Hospital Universitário de Londrina. 500 pacientes foram acompanhados pelo profissional no período de 2005 à 2009 com exames para investigação de tumores prostáticos. Devido a questões de privacidade, o conjunto de dados não inclui pacientes que foram submetidos a exames, porém não foram encaminhados para biópsia. Sendo assim, todas as instâncias do conjunto são rotuladas com o resultado obtido após o procedimento. A compilação dos atributos do conjunto deu-se a partir dos seguintes exames: toque retal (1 - alterado, 0 - normal), PSA total (via hemograma), volume prostático (via ultrassom), dosagem de PSA livre (hemograma) e biópsia prostática. O atributo ‘Ajuste’é uma métrica calculada pelo médico com o intuito de adequar a dosagem de PSA total para a idade do paciente, independente do volume prostático calculado– este é calculado por meio das verificações apresentadas na figura 8. Os atributos númericos são apresentados por meio da tabela 3, juntamente com algumas estatísticas. se 45 ≤ idade ≤ 55 então se PSA Total ≤ 2,5 então Ajuste = 1 senão Ajuste = 0 senão se 55 < idade ≤ 65 então se PSA Total ≤ 3,5 então Ajuste = 1 senão Ajuste = 0 senão se 65 < idade ≤ 75 então se PSA Total ≤ 4,5 então Ajuste = 1 senão Ajuste = 0 senão se idade > 75 então se PSA Total ≤ 6,5 então Ajuste = 1 senão Ajuste = 0 Figura 8: Forma de cálculo para o obtenção do valor do atributo Ajuste A partir dos 500 casos, estima-se que aproximadamente 40% dos pacientes não foram submetidos a todos os exames, especialmente ao indicador de PSA livre que apresenta a maior quantidade de valores omissos, devido ao fato que foram encaminhados para a 46 Capítulo 3. Materiais e métodos Atributo Mínimo Idade 30 Volume prostático 10 PSA 1.8 % PSA livre/total 0.01 Máximo 100 405 809.1 0.94 Média 64.4 59.26 19.12 0.18 Desvio Padrão 8.4 32.38 61.4 0.17 Faltantes 1 2 183 Tabela 3: Sumário dos atributos númericos do conjunto de dados (n = 500) biópsia prematuramente durante o tratamento exame subsequentes não foram registrados. Além disto, atributos adicionais como histórico familiar e etnia não puderam ser obtidos. Na tabela 4, a distribuição das características booleanas para as 500 instâncias é dada. Atributo Ajuste Toque Diagnóstico V F Faltantes 458 42 168 306 26 193 307 - Tabela 4: Sumário dos atributos booleanos do conjunto de dados (n = 500) O conjunto contendo os 500 pacientes será utilizado como padrão, porém técnicas para preenchimento dos valores nulos serão necessários. O subconjunto contendo somente as instâncias com valores não nulos inclui 305 casos, o qual também será aplicado aos testes com o objetivo de verificar o impacto da quantidade de exemplos sob o desempenho geral dos algoritmos. 3.3 Experimentos e testes A partir das técnicas descritas na seção 2.2, foram escolhidos algoritmos mais frequentemente utilizados em pesquisas similares, assim como algoritmos que apresentaram maior desempenho de classificação a partir do conjunto de dados. A configuração, parâmetros e ajustes de cada algoritmo, assim como as representações gráficas (quando aplicáveis) dos classificadores são apresentadas na seção a seguir. Para a técnica de regressão logística, o algoritmo utilizado pelo Weka é descrito por [63] e possui o uso de um estimador de ‘cume’ (ridge estimator), parâmetro para estabilização e regularização de instâncias, penalizando coeficientes grandes para evitar overfitting. A estimativa dos coeficientes é obtida por meio de um método numérico QuasiNewton. Durante os testes efetuados, a alteração dos parâmetros não causou variação no desempenho do modelo, portanto os valores padrão foram mantidos (tabela 5). 3.3. Experimentos e testes Parâmetro Número máximo de iterações Cume (ridge) 47 Valor −1 (ilimitado) 1.0 × 10−8 Tabela 5: Parâmetros para o algoritmo de regressão logística Para a técnica de redes neurais artificiais, foram selecionados duas variações: MultiLayerPerceptron Algoritmo padrão que utiliza backpropagation para atualização dos pesos e possui como parâmetros taxa de aprendizado, momento, declínio (decay) e opções para normalização e categorização de atributos numéricos (tabela 6). MLPClassifier Rede neural artificial baseada no método Quasi-Newton BFGS (Broyden-Fletcher-GoldfarbShanno) para a minimização da soma dos quadrados do erro, juntamente com o parâmetro de ‘cume’ para penalizar o cálculo dos pesos (tabela 7). Parâmetro Declínio (decay) Número de camadas ocultas (hiddenLayers) Taxa de aprendizado (learningRate) Momento (momentum) Número de épocas (trainingTime) Valor Falso 1a3 0.08 a 0.4 0.1 a 0.3 500 a 750 Tabela 6: Parâmetros para o algoritmo MultiLayerPerceptron Parâmetro Neurônios na camada oculta (numFunctions) Cume (ridge) Tolerância do erro (delta) Valor 2a5 0.01 a 0.1 1.0 × 10−10 a 1.0 × 10−6 Tabela 7: Parâmetros para o algoritmo MLPClassifier Por fim, os dois algoritmos selecionados para a construção de modelos baseados na concepção de árvores de decisão incluem: ADTree Algoritmo proposto por Freund e Mason através da aplicação de técnicas de boosting1 em árvores de decisão para a obtenção de regras de classificação mais compactas e de 1 Combinação de classificadores gerados por um mesmo algoritmo de aprendizado no qual o funcionamento é ajustado de acordo com os erros cometidos pelo classificador anterior [64] 48 Capítulo 3. Materiais e métodos fácil interpretação quando comparadas a outros algoritmos de árvores de decisão [65]. O percurso pelos nós de decisão de atributos retorna uma pontuação, a qual é acumulada e ao final do trajeto é utilizada para definir o rótulo de classe da instância. Os parâmetros do algoritmo ADTree encontram-se na tabela 8. PART Abreviação de PARTial decision tree, é uma variação do algoritmo C4.5 [45] que extrai regras if-then a partir das folhas com ‘melhor’ decisão. Por meio do método de separação e consquista, as regras de decisão são calculadas a partir dos subconjuntos de casos gerados até que todas as instâncias sejam abrangidas pelas regras [66]. A tabela 9 inclui os parâmetros variáveis para a geração dos classificadores. Parâmetro Número de iterações (numOfBoostingIterations) Caminho de busca (searchPath) Valor 3 a 10 Melhor caminho z-pure Tabela 8: Parâmetros para o algoritmo ADTree Parâmetro Fator de confiança (confidenceFactor) Mínimo de instâncias por regra (minNumObj) Quantidade de dados para poda (numFolds) Não efetuar poda (unpruned) Valor 0.05 a 0.4 2a7 3a8 Falso Tabela 9: Parâmetros para o algoritmo PART Adotou-se por padrão a técnica de validação cruzada com k=10, no qual o conjunto inicial de dados é separado em 10 partes iguais. Para a construção do modelo, são realizadas dez iterações onde uma das partes é tomada como o conjunto de teste e as restantes para o treinamento, assim cada parte é utilizada como teste uma vez. Ao final das iterações, calcula-se a média das estatísticas e métricas de desempenho para todas as dez iterações, obtendo um valor geral para cada indicador. 49 4 RESULTADOS Uma vez definidos os valores dos parâmetros utilizados para cada algoritmo descrito na seção 3.3, modelos de classificação foram construídos utilizando o conjunto de dados fornecido pelo Dr. Horácio A. Moreira. Os classificadores descritos neste capítulo refletem o maior desempenho obtido resultantes de testes efetuados por meio da variação dos parâmetros de configuração. Curvas ROC e percentuais derivados da matriz de confusão são dados para cada algoritmo usado, assim como o valor de corte (threshold) para a definição do rótulo de classe para as instâncias. 4.1 Regressão Logística O classificador obtido com a técnica de regressão logística apresentou desempenho relativamente fraco; 69.4%, o que equivale a 347 dos 500 casos foram corretamente classificados. O valor de corte que gerou este percentual de acurácia foi de 0.4642. Sendo assim, o modelo pode ser considerado mais conservador pois escolhe um aumento na quantidade de falsos positivos sob a quantidade de falsos negativos. A figura 9 apresenta as métricas de desempenho calculadas. Falsos negativos 1 Falsos positivos Verdadeiros positivos 19% 19.6% 11.6% Verdadeiros negativos 0.5 49.8% 0 0 0.5 (a) Curva ROC (AUC = 0.7159) 1 (b) Percentual de VP, VN, FN e FP Figura 9: Indicadores de desempenho para o modelo de regressão logística Os coeficientes e razão de chances1 (com intervalo de confiança de 95%) calculadas pelo algoritmo são dispostos na tabela 10. 1 Também conhecida como razão de possibilidades, ou odds ratio em inglês, indica a razão entre as chances relativas da ocorrência da saída esperada, dado o valor do atributo analisado 50 Capítulo 4. Resultados Atributo Idade Volume PSA PSA Livre/Total Ajuste Toque Coeficiente livre Valor 0.0424 -0.0237 0.0054 0.7547 -0.7381 -0.9931 -1.4102 Razão de chances 1.0433 0.9766 1.0054 2.127 0.478 0.3704 N/A Tabela 10: Coefiecientes obtidos a partir do modelo de regressão logística 4.2 Redes Neurais Artificiais 4.2.1 MultiLayerPerceptron Dentre os modelos gerados utilizando os valores especificados na tabela 6, o classificador baseado no algoritmo MultiLayerPerceptron que obteve melhor desempenho foi construído com três camadas ocultas, taxa de aprendizado igual a 0.5 e momento igual a 0.2– o número de épocas, quando maior que 500 causou redução na performance. A avaliação do classificador obtido é apresentado na figura 10. Utilizando o conjunto com as 500 instâncias, o desempenho obtido foi de 68.8%. Utilizando somente os casos que não possuíam valores nulos (n = 305), a acurácia subiu para 70.49%. Com isso, foi possível perceber que o algoritmo MultiLayerPerceptron é sensível a dados faltantes, mesmo com a aplicação de um filtro para correção destes valores. Falsos negativos 1 Falsos positivos Verdadeiros positivos 16.39% 13.11% 20.33% Verdadeiros negativos 0.5 50.16% 0 0 0.5 (a) Curva ROC (AUC = 0.6438) 1 (b) Percentual de VP, VN, FN e FP Figura 10: Desempenho do modelo construído com o algoritmo MultiLayerPerceptron Certos pontos da curva ROC (fig. 10a) apresentaram comportamento próximo à decisão aleatória, quando o valor no eixo horizontal se aproxima de 0.15. Nesta região, o ponto de corte para a atribuição do valor de classe permanece alto por volta de 0.68; o valor de corte que gerou a melhor taxa de exatidão foi de 0.49. 4.2. Redes Neurais Artificiais 4.2.2 51 MLPClassifier A utilização do algoritmo MLPClassifier apresentou desempenho levemente superior ao classificador gerado com o algoritmo MultiLayerPerceptron para ambos os conjuntos com 500 e 305 instâncias. O classificador obtido com o conjunto de dados onde os casos com valores nulos foram desconsiderados resultou em acurácia de classificação igual a 71.14% com 0.51 para o ponto de corte. A figura 11 exibe detalhes adicionais do desempenho. 1 Falsos negativos Verdadeiros positivos Falsos positivos 8.2% 20.66% 16.07% 0.5 Verdadeiros negativos 55.08% 0 0 0.5 1 (a) Curva ROC (AUC = 0.6782) (b) Percentual de VP, VN, FN e FP Figura 11: Desempenho do modelo construído com o algoritmo MLPClassifier (n = 305) Na tabela 11, são dispostos os pesos das conexões entre os neurônios da camada de entrada e a camada oculta. Adicionalmente, três neurônios de bias para cada neurônio na camada oculta foram criados, com pesos 1.68314, 0.30868 e -1.58390 respectivamente. Atributo Idade Volume PSA PSA Livre/Total Ajuste Toque Peso (neurônio 1) 0.99678 1.715815 -0.23637 0.39286 -0.74715 -0.36268 Peso (neurônio 2) 0.97959 1.38124 0.25022 -0.78210 1.37455 2.29051 Peso (neurônio 3) -3.63784 1.00791 -0.11938 -0.64545 0.55101 -0.07021 Tabela 11: Valores das conexões para o modelo construído com o algoritmo MLPClassifier Observou-se por meio do classificador gerado a partir do conjunto de dados que engloba todas as 500 instâncias um pequeno aumento na métrica de acurácia (de 71.14% para 71.4%). Ao passo que as taxas de falsos positivos e negativos permaneceu inalterada, houve um aumento na taxa de verdadeiros positivos aliado a uma diminuição na taxa de verdadeiros negativos. A curva ROC, dada pela figura 12a, apresenta-se mais robusta, com um pequeno aumento na área sob a curva. Os percentuais da matriz de confusão são dispostos na figura 12b. 52 Capítulo 4. Resultados 1 Falsos negativos Verdadeiros positivos Falsos positivos 20.6% 8% 0.5 18% Verdadeiros negativos 53.4% 0 0 0.5 1 (a) Curva ROC (AUC = 0.7223) (b) Percentual de VP, VN, FN e FP Figura 12: Desempenho do modelo construído com o algoritmo MLPClassifier (n = 500) 4.3 Árvores de Decisão 4.3.1 ADTree O classificador construído por meio do algoritmo ADTree obteve uma taxa de exatidão de 71.8%– um leve ganho de desempenho sob as técnicas de redes neurais artificiais e regressão logística. A figura 13 ilustra as medidas calculadas para o modelo obtido. 1 Falsos negativos Falsos positivos 0.5 12.8% Verdadeiros positivos 25.8% 15.4% Verdadeiros negativos 46% 0 0 0.5 (a) Curva ROC (AUC = 0.7277) 1 (b) Percentual de VP, VN, FN e FP Figura 13: Desempenho do modelo construído com o algoritmo ADTree (n = 500) É possível perceber por meio da figura 13b que o classificador apresenta uma redução da taxa de verdadeiros negativos, porém isso é refletido em um aumento na taxa de verdadeiros positivos. Isto se deve a um valor de corte estabelecido em 0.4687, o que causa um aumento na taxa de falsos positivos, atribuindo um comportamento mais conservativo ao modelo. Na figura 14, a representação gráfica do classificador ADTree é exibida. Um percurso pela árvore passa por todos os nós, com a busca feita em profundidade pré-fixa (nós da subárvore esquerda são explorados primeiro). Para cada decisão efetuada, o valor associado ao resultado da decisão é somado e o total obtido representa a probabilidade 4.3. Árvores de Decisão do valor de classe positivo para a instância. Figura 14: Estrutura de árvore gerada pelo classificador ADTree 53 54 Capítulo 4. Resultados 4.3.2 PART A aplicação do algoritmo PART para extração de regras a partir de uma árvore de decisão apresentou desempenho similar ao uso de redes neurais, porém produziu um modelo mais sucinto– as seis regras obtidas para a classificação são dispostas na figura 16. O classificador construído a partir do conjunto inicial de 500 instâncias obteve desempenho de 66.4%; ao utilizar somente os 305 casos sem valores nulos, a taxa de exatidão elevou-se para 71.48%. Na figura 15, os indicadores calculados são exibidos. 1 Falsos negativos Falsos positivos Verdadeiros positivos 17.7% 10.82% 19.02% 0.5 Verdadeiros negativos 52.46% 0 0 0.5 (a) Curva ROC (AUC = 0.6808) 1 (b) Percentual de VP, VN, FN e FP Figura 15: Desempenho do modelo construído com o algoritmo PART (n = 305) As regras na figura 16 são avaliadas sequencialmente; caso o resultado do teste de uma condição for verdadeiro, o rótulo de classe correspondente é atribuído. Caso contrário a próxima regra é avaliada até a última condição, onde a instância é classificada com um valor padrão. se Toque = F e Volume > 53 e PSA ≤ 14.2 então Biópsia = F senão se Idade ≤ 59 então Biópsia = F senão se Toque = V e 0.21 < PSA Livre/Total ≤ 0.58 então Biópsia = F senão se Toque = T então Biópsia = V senão se Volume ≤ 46 então Biópsia = F senão Biópsia = V Figura 16: Regras de decisão geradas pelo classficador PART Observa-se por meio das regras obtidas, similaridades entre as convenções adotadas por médicos para delinear a provável necessidade de biópsia. Na segunda condição avaliada, um paciente que obteve ausência de tumor pelo exame de toque e indicador de PSA Livre/Total entre 0.21 e 0.58 (zona de incerteza e baixa probabilidade), atribui-se F 4.4. Comparação de Resultados 55 (falso) para o valor de classe, isto é, possui pequena necessidade de submeter-se à biópsia. Em contraste, a terceira regra obtida atribui V (verdadeiro) com a detecção de um tumor e recomenda o paciente ao procedimento, independente de outros indicadores. 4.4 Comparação de Resultados Os classificadores obtidos por meio do uso dos algoritmos descritos obtiveram taxas de exatidão próximas a 70%. Na figura 17, é estabelecida uma comparação gráfica entre estes valores. PART (n=305) ADTree (n=500) MLPClassifier (n=500) MLPClassifier (n=305) MultiLayerPerceptron (n=305) MultiLayerPerceptron (n=500) Regressão Logística (n=500) 67 67.5 68 68.5 69 69.5 70 70.5 71 71.5 72 72.5 Figura 17: Comparação de desempenho entre classificadores A técnica de regressão logística produziu o menor desempenho de classificação dentre todas as outras técnicas, devido ao baixo valor do ponto de corte estabelecido para decisão entre as classes. Verificou-se por meio da tabela 10 que os maiores valores de coeficiente e razão de chances correspondem ao indicador de PSA/Livre. Dados estes indicadores, o modelo atribui maiores valores probabilísticos de recomendação à biópsia para quantidades maiores de PSA Livre/Total. Os dois algoritmos baseados em redes neurais artificiais escolhidos resultaram em classificadores com desempenho similar, porém ao passo que o MultiLayerPerceptron sofreu uma queda de aproximadamente 1.7% no desempenho ao utilizar o conjunto original com valores omissos corrigidos, o algoritmo MLPClassifier mostrou-se mais robusto no 56 Capítulo 4. Resultados quesito acurácia geral, entretanto a classificação de verdadeiros positivos sofreu uma redução enquanto a taxa de verdadeiros negativos (maior parte do conjunto) cresceu na mesma proporção. A escolha entre os modelos de redes neurais artificiais gerados deve levar em consideração esta variação nas taxas, pois para a tarefa em questão, é preferível que o classificador possua uma maior taxa de falsos positivos do que falsos negativos, priorizando um comportamento conservador sobre um comportamento liberal. Por fim, algoritmos de classificação embasados em árvores de decisão obtiveram as maiores taxas de desempenho entre todos os outras técnicas. Com a aplicação do algoritmo ADTree, houve um aumento notável na taxa de verdadeiros positivos, assim como uma redução nos falsos negativos, características tipicamente conservadoras. A área sob a curva também mostrou-se mais consistente em relação aos outros algoritmos, resultado de uma maior concavidade. No entanto, a estrutura obtida ADTree possui complexidade média pois efetua todas as 16 decisões antes de calcular o valor de probabilidade final para com isso, atribuir o valor de classe para a instância. O algoritmo PART, por sua vez, elaborou um conjunto de regras pequeno e sucinto, porém priorizando os verdadeiros negativos sobre os verdadeiros positivos. 57 5 CONCLUSÃO O campo de pesquisa para aplicação de técnicas de aprendizado de máquina em tarefas médicas relacionadas ao câncer de próstata embora atrativo e de grande utilidade, permanece com alto nível de complexidade devido aos vários fatores envolvidos no processo de inferência de diagnósticos, detecção e identificação de tumores e riscos associados, entre outros. Os trabalhos revisados abrangem diversas técnicas, onde o foco inicial das pesquisas foi dado em redes neurais artificiais, porém testes preliminares resultaram em baixos indicadores de desempenho. Sendo assim, a experimentação por meio de outros tipos de algoritmos de classificação permitiu interpretações diversas, de acordo com as características próprias a cada técnica estudada. Os resultados obtidos com a aplicação do conjunto de dados proposto obtiveram taxas de desempenho próximas a maioria dos casos clínicos analisados utilizando algoritmos equivalentes. Alguns fatores limitantes tanto para o desempenho dos classificadores, assim como para testes adicionais elaborados, foram originados do conjunto de dados, o qual incluiu uma quantidade pequena de instâncias para um problema diversificado e repleto de incerteza como a recomendação de pacientes para biópsia. Adicionalmente, com a baixa dimensionalidade do conjunto, não foi possível elaborar conclusões sólidas sobre a população analisada assim como correlação entre as variáveis antecedentes ao tratamento– apenas os indicadores mais frequentemente utilizados durante o monitoramento e acompanhamento da suspeita de câncer de próstata foram disponibilizados. Para contornar o problema, alguns estudos de caso sugerem a incorporação de atributos adicionais considerados fatores de risco para o câncer de próstata, com a premissa de um aumento no percentual de desemepenho. Dado o desempenho levemente superior por meio do uso de algoritmos de árvores de decisão, aliando recursos adicionais do campo de aprendizado de máquina como boosting e extração de regras, espera-se que classificadores elaborados a partir da combinação de duas ou mais técnicas possam vir a beneficiar das vantagens presentes nos algoritmos individuais. Além disto, técnicas avançadas de validação, como por exemplo validação temporal, validação externa ou até mesmo a partição do conjunto original em treinamento, teste e validação, oferecem uma estimativa mais fiel do real desempenho dos classificadores, quando fornecidos novos casos. 59 REFERÊNCIAS 1 ESSINK-BOT, M. L. et al. Short-term effects of population-based screening for prostate cancer on health-related quality of life. Journal of National Cancer Institute, v. 90, p. 925–931, 1998. 2 DJAVAN, B. et al. Novel artificial neural network for early detection of prostate cancer. Journal of Clinical Oncology, v. 20, p. 921–929, 2002. 3 VICKERS, A. J. et al. Impact of recent screening on predicting the outcome of prostate cancer biopsy in men with elevated psa: data from the european randomized study of prostate cancer screening in gothenburg, sweden. Cancer, v. 116, p. 2612–2620, 2010. 4 THE Oxford English Dictionary. [S.l.]: Oxford University Press, 2007. 5 AMERICAN Heritage Dictionary. [S.l.]: Houghton Mifflin, 2009. 6 KARAKIEWICZ, P. I. et al. Development and validation of a nomogram predicting the outcome of prostate biopsy based on patient age, digital rectal examination and serum prostate specific antigen. The Journal of Urology, v. 173, p. 1930–1934, 2005. 7 KATTAN, M. W.; SCARDINO, P. T. Prediction of progression: nomograms of clinical utility. Clinical Prostate Cancer, v. 1, p. 90–96, 2002. 8 BAADE, P. D.; YOULDEN, D. R.; KRNJACKI, L. J. International epidemology of prostate cancer: geographical distribution and secular trends. Molecular Nutrition & Food Research, v. 53, p. 171–184, 2009. 9 CINAR, M. et al. Early prostate cancer diagnosis by using artificial neural networks and support vector machines. Expert Systems with Applications, v. 36, 2009. 10 CRUIJSEN-KOETER, I. W. van der et al. Comparison of screen detected and clinically diagnosed prostate cancer in the european randomized study of screening for prostate cancer, section rotterdam. Journal of Urology, v. 174, p. 121–125, 2005. 11 UNIVERSITY, O. H. . S. Presence Of High-risk Prostate Cancer Can Be Predicted Without A Biopsy, New Study Says. 2005. Disponível em: <http://www.sciencedaily.com /releases/2005/05/050522112707.htm>. Acesso em: 29.7.2013. 12 PARTIN, A. W.; OESTERLING, J. E. The clinical usefulness of prostate specific antigen: Update 1994. Journal of Urology, v. 152, p. 1358–1368, 1994. 13 CATALONA, W. J. et al. Comparison of digital rectal examination and serum prostate specific antigen in the early detection of prostate cancer: Results of a multicenter clinical trial of 6630 men. Journal of Urology, v. 151, p. 1283–1290, 1994. 14 STEPHAN, C. et al. A (-5, -7) propsa based artificial neural network to detect prostate cancer. European Urology, v. 50, p. 1014–1020, 2006. 15 COOKSON, M. M. Prostate cancer: screening and early detection. Cancer Control, v. 8. 60 Referências 16 SARITAS, I.; OZKAN, I. A.; SERT, I. U. Prognosis of prostate cancer by artificial neural networks. Expert Systems and Applications, v. 37, p. 6646–6650, 2010. 17 CATALONA, W. J.; ORNSTEIN, D. K. Prostate cancer detection in men with serum psa concentrations of 2.6 to 4.0 ng/ml and benign prostate examination: enhancement of specificity with free psa measurements. Journal of American Medical Association, v. 277, p. 1452–1455, 1997. 18 BENSON, M. C.; WHANG, I. S.; PANTUC, A. e. a. Prostate specific antigen density: a means for distinguishing benign prostatic hypertrophy and prostate cancer. Journal of Urology, v. 147, p. 815–816, 1992. 19 STRUM, S. B.; POGLIANO, D. What every doctor who treats male patients should know. PCRI Insights, v. 8, p. 4–5, 2005. 20 ITO, K. et al. Free/total psa ratio is a powerful predictor of future prostate cancer morbidity in men with initial psa levels of 4.1 to 10.0 ng/ml. Journal of Urology, v. 61, p. 760–764, 2003. 21 INSTITUTE, N. C. Treatment Choices for Men with Early-Stage Prostate Cancer. 2011. 22 MOHRI, M.; ROSTAMIZADEH, A.; TALWALKAR, A. Foundations of Machine Learning. [S.l.]: The MIT Press, 2012. 23 SIMON, P. Too Big To Ignore: The Business Case for Big Data. [S.l.]: Wiley, 2013. 24 WITTEN, I. H.; FRANK, E. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. San Francisco, CA: Morgan Kaufmann, 2005. 25 HOSMER, D. W.; LEMESHOW, S. Applied Logistic Regression. [S.l.]: Wiley, 2000. 26 ARMSTRONG, J. S. Illusions in regression analysis. International Journal of Forecasting, v. 28, p. 689–672, 2012. 27 ZANINI, A. Regressão logística e redes neurais artificiais: um problema de estrutura de preferência do consumidor e classificação de perfis de consumo. Dissertação (Mestrado) — Faculdade de Economia e Administração, Universidade Federal de Juiz de Fora, Juiz de Fora, MG, 2007. 28 PARTIN, A. W. et al. The use of prostate specific antigen, clinical stage in men with localized prostate cancer. Journal of Urology, v. 150, p. 110–114, 1993. 29 EIFLER, J. B. et al. An updated prostate cancer staging nomogram (partin tables) based on cases from 2006 to 2011. Urological Oncology, v. 111, p. 22–29, 2012. 30 HOPFIELD, J. J. Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Science, USA, v. 79, p. 2554–2558, April 1982. 31 RUSSELL, S.; NORVIG, P. Artificial Intelligence: A Modern Approach. [S.l.]: Prentice Hall, 2009. Referências 61 32 SINGH, N. K.; SINGH, A. K.; TRIPATHY, M. Selection of hidden layer neurons and best training method for ffnn in application of long term load forecasting. Journal of Electrical Engineering, v. 63, n. 3, p. 153–161, 2012. 33 METHAPRAYOON, K. et al. Multistage artificial neural network short term load forecasting engine with front end weather forecasting. IEEE Transactions on Industry Applications, v. 43, n. 6, p. 1410–1416, 2007. 34 CHARYTONIUK, W.; CHEN, M. S. Neural network design for short term load forecasting. In: International Conference on Electric Utility Deregulation and Restructing and Power Technologies. [S.l.: s.n.], 2000. p. 554–561. 35 HAYKIN, S. O. Neural Networks and Learning Machines. [S.l.]: Prentice Hall, 2008. 36 COPPIN, B. Inteligência Artificial. [S.l.]: LTC, 2010. 37 MOLLER, M. F. A scaled conjugate gradient algorithm for fast supervised learning. Neural Networks, v. 6, p. 525–533, 1993. 38 GAVIN, H. The levenberg-marquadt method for nonlinear least squares curve-fitting problems. Departmento de Engenharia Civil e Ambiental, Duke University. 2011. 39 SILVA, J. M.; DRUMMOND, L.; WEDEMANN, R. S. Redes Neurais Artificiais: Rede Hopfield e Redes Estocásticas. Dissertação (Mestrado) — Universidade Federal Fluminense, Niterói, Rio de Janeiro, 2003. 40 ROSA, J. L. G. SCC-5809 - Redes de Função de Base Radial. 2011. Palestra. Disponível em: <http://wiki.icmc.usp.br/images/e/e8/SCC5809Cap6.pdf>. Acesso em: 3.11.2013. 41 SHI, H. Best-first decision tree learning. Dissertação (Mestrado) — University of Waikato, Hamilton, New Zealand, 2007. 42 EBERLE, W. Data Mining: Concepts and Techniques. 2012. Palestra. 43 ROKACH, L.; MAIMON, O. Top-down induction of decision trees classifiers-a survey". IEEE Transactions on Systems, Man, and Cybernetics, Part C, v. 35, p. 476–487. 44 QUINLAN, J. R. Induction of decision trees. Machine Learning, p. 81–106, 1986. 45 QUINLAN, J. R. C4.5: Programs for Machine Learning by J. Ross Quinlan., Inc., 1993. [S.l.]: Morgan Kaufmann, 1993. 46 BREIMAN, L. et al. Classification and Regression Trees. [S.l.]: Chapman and Hall, 1984. 47 CABENA, P. et al. Intelligent Miner for Data Applications Guide. 1999. IBM Redbooks, SG24-5252-00. 48 STEFANOWSKI, J. Data Mining: Evaluation of Classifiers. Palestra. Disponível em: <http://www.cs.put.poznan.pl/jstefanowski/sed/DM-4-evaluatingclassifiersnew.pdf>. Acesso em: 6.10.2013. 62 Referências 49 METZ, C. E. Basic principles of roc analysis. Seminars in Nuclear Medicine, v. 8, p. 283–298, 1978. 50 FLACH, P. Repairing concavities in roc curves. In: Proc. 2003 UK Workshop on Computational Intelligence. [S.l.]: Springer-Verlag, 2003. p. 38–44. 51 FAWCETT, T. An introduction to roc analysis. Pattern Recognition Letters, v. 27, p. 861–874, 2006. 52 GANT, V.; RODWAY, S.; WYATT, J. Artificial neural networks: Practical considerations for clinical applications. [S.l.]: Cambridge University Press, 2001. 53 LISBOA, P. J. A review of evidence of health benefit from artificial neural networks in medical intervention. Neural Networks, v. 15, p. 11–39, 2002. 54 REGNIER-COUDERT, O. et al. Machine learning for improved pathological staging of prostate cancer: A performance comparison on a range of classifiers. Artificial Intelligence in Medicine, v. 55, p. 25–35, 2012. 55 LISBOA, P. J.; TAKTAK, A. F. G. The use of artificial neural networks in decision support in cancer: A systematic review. Neural Networks, v. 19, p. 408–415, 2006. 56 LAWRENTSCHUK, N. et al. Predicting prostate biopsy outcome: artificial neural networks and polychotomous regression are equivalente models. International Urology and Nephrology, v. 43, p. 23–30, 2010. 57 MARIN, O. R. et al. Automatic decision using dirty databases: Application to prostate cancer diagnosis. In: 32nd Annual International Conference of the IEEE EMBS. Buenos Aires, Argentina: [s.n.], 2010. 58 GARZOTTO, M. et al. Improved detection of prostate cancer using classification and regression tree analysis. Journal of Clinical Oncology, v. 23, p. 4322–4329, 2005. 59 GüLKESEN, K. H. et al. Prediction of prostate cancer using decision tree algorithm. Turkish Journal of Medicinal Science, v. 40, p. 681–686, 2010. 60 HALL, M. et al. The weka data mining software: An update. SIGKDD Explorations, v. 11, 2009. 61 PIATETSKY-SHAPIRO, G. KDnuggets news on SIGKDD service award. 2005. Disponível em: <http://www.kdnuggets.com/news/2005/n13/2i.html>. Acesso em: 2.8.2013. 62 HALL, M.; REUTEMANN, P. WEKA KnowledgeFlow Tutorial for Version 3-5-8. [S.l.], 2008. University of Waikato, New Zealand. 63 CESSIE, S. le; HOUWELINGEN, J. C. van. Ridge estimators in logistic regression. Applied Statistics. 64 CHAVES, B. B. Estudo do algoritmo AdaBoost de aprendizagem de máquina aplicado a sensores e sistemas embarcados. 19–20 p. Dissertação (Mestrado) — Universidade de São Paulo, São Paulo, São Paulo, 2011. Referências 65 FREUND, Y.; MASON, L. The alternating decision tree learning algorithm. In: Proceedings of the Sixteenth International Conference on Machine Learning. [S.l.]: Morgan Kaufmann Publishers Inc., 1999. p. 124–133. 66 FRANK, E.; WITTEN, I. H. Generating accurate rule sets without global optimization. In: . [S.l.]: Morgan Kaufmann, 1998. p. 144–151. 63