mineração_exercicio1_Hugo

Propaganda
CLASSIFICAÇÃO SUPERVISIONADA
Por
Hugo Feitosa de Figueirêdo
Universidade Federal de Campina Grande
Departamento de Sistemas e Computação
Campina Grande - PB, Novembro de 2007
1 Introdução
Este relatório tem como objetivo mostrar os resultados obtidos nas execuções de alguns
algoritmos de classificação supervisionada, implementados na biblioteca Weka. Sendo este relatório
exigido pela disciplina de Mineração de Dados, oferecida pelo curso de Pós-Graduação em
Informática da Universidade Federal de Campina Grande.
Para este experimento foi utilizado a biblioteca Weka, que possui diversos algoritmos de
mineração de dados - incluindo alguns de classificação supervisionada - implementados em Java.
Além disso, foi utilizado um arquivo no formato “arff” – formato utilizado pela Weka – para execução
dos algoritmos de classificação supervisionada, sendo os dados no domínio de câncer de mama
fornecidos por Matjaz Zwitter e Milan Soklic, do Centro Médico Universitário do Instituto de
Oncologia da Yugoslávia.
Foram selecionados cinco algoritmos de classificação supervisionada para este experimento,
o 1R, o Prisma, o NaïveBayes, o J48 e o Id3, sendo cada algoritmo executado pelo menos duas vezes,
uma para a técnica de fragmentação “Cross Validation” e a outra para a “Holdout”:
1.1 Métricas
Kappa Statistic: índice que compara o valor encontrado nas observações com aquele que se
pode esperar do acaso. É o valor calculado dos resultados encontrados nas observações e relatado
como um decimal (0 a 1). Quanto menor o valor de kappa menor a confiança da observação, o valor
1 implica a correlação perfeita.
Root Mean-Squared Error: usado para medir o sucesso de uma predição numérica. Este valor
é calculado pela média da raiz quadrada da diferença entre o valor calculado e o valor correto. O root
mean-squared error é simplesmente a raiz quadrada do mean-squared-error (dá o valor do erro
entre os valores atuais e os valores preditos).
Mean Absolute Error: média da diferença entre os valores atuais e os preditos em todos os
casos, é a média do erro da predição.
Root Relative Squared Error: reduz o quadrado do erro relativo na mesma dimensão da
quantidade sendo predita incluindo raiz quadrada. Assim como a raiz quadrada do erro significativo
(root mean-squared error), este exagera nos casos em que o erro da predição foi significativamente
maior do que o erro significativo.
Relative Absolute Error: É o erro total absoluto. Em todas as mensurações de erro, valores
mais baixos significam maior precisão do modelo, com o valor próximo de zero temos o modelo
estatisticamente perfeito.
True Positives (TP): são os valores classificados verdadeiramente positivos.
False Positives (FP): são os falsos positivos, são os dados classificados erroneamente como
positivos pelo classificador.
Precisão (precision): É o valor da predição positiva (número de casos positivos por total de
casos cobertos), muito influenciada pela especificidade e pouco pela sensitividade. Sensitividade é o
número de casos positivos que são verdadeiramente positivos e especificidade é o número de casos
negativos que são verdadeiramente negativos.
Recall (Cobertura): É o valor da cobertura de casos muito influenciada pela sensitividade e
pouco pela especificidade. É calculada por número de casos cobertos pelo número total de casos
aplicáveis.
F-measure: Usada para medir o desempenho, pois combina valores de cobertura e precisão
de uma regra numa única fórmula.
1.2 Técnicas de Fragmentação
Na k- validação cruzada (cross-validation-10 folds) a amostra é dividida em k partes de igual
tamanho, de preferência as partes (ou folds) devem possuir a mesma quantidade de padrões,
garantindo a mesma proporção de classes para cada subconjunto. O algoritmo é executado sob k-1
“folds” (subconjuntos) gerando as regras, posteriormente ele é validado sob o fold que sobrou. Assim
neste caso onde usamos 10 partes (10 folds), o conjunto de treinamento é criado sob 9 (nove) partes
e testado calculando a taxa de acerto sob os dados da parte não utilizada, a parte que sobrou. Ao
final a taxa de acerto é uma média das taxas de acerto nas k iterações realizadas.
Para a técnica de fragmentação Holdout foi utilizada a opção porcentagem split que separa
uma porcentagem dos dados para testar as regras do classificador.
2 Algoritmos executados e resultados obtidos
2.1 1R
2.1.1 Informações sobre o algoritmo
As informações descritas abaixo sobre o algoritmo 1R foram retiradas da biblioteca Weka.
Nome da Classe: weka.classifiers.rules.OneR
Descrição: Classe para construir e usar o classificador 1R, em outras palavras, usar o atributo
de erro mínimo para predição, discretizando atributos numéricos (Holte, 1993).
Parâmetros (descritos apenas os parâmentros modificados no experimento):

minBucketSize: O menor tamanho do “balde” usado para discretizar atributos
numéricos.
2.1.2 Resultados e Discussão
Os resultados extraídos da biblioteca Weka, referentes à execução do algoritmo 1R para o
arquivo de câncer de mama, localizam-se no Anexo 2.
Para testar o parâmetro minBucketSize, o algoritmo 1R foi executado com os valores dois e
seis para este parâmetro, sendo o mesmo resultado obtido nas duas execuções o que já era
esperado, pois este parâmetro é utilizado no momento de discretização de atributos numéricos e o
arquivo utilizado para o experimento só contêm atributos nominais (ver Anexo 1).
Figura 2.1 - Regras geradas pelo 1R.
Figura 2.2 – Resultados obtidos com o 1R com Cross Validation.
Figura 2.3 – Resultados obtidos com 1R com Holdout.
2.2 Id3
2.2.1 Informações sobre o algoritmo
As informações descritas abaixo sobre o algoritmo Id3 foram retiradas da biblioteca Weka.
Nome da Classe: weka.classifiers.trees.Id3
Descrição: Class for constructing an unpruned decision tree based on the ID3 algorithm. Can
only deal with nominal attributes. No missing values allowed. Empty leaves may result in unclassified
instances (Quinlan, 1986).
2.2.2 Resultados e Discussão
O Id3 é um algoritmo de classificação que objetiva 100% de acurácia de treinamento o que é
interessante para conhecer os dados de mineração. Sendo que para os dados de mineração deste
experimento, o Id3 nos testes obteve uma taxa de 58,84 % de instâncias classificadas corretamente
para a técnica de fragmentação Cross Validation (ver Figura 2.4) e uma tava de 60% para a técnica
Holdout (ver Figura 2.5). Com isso, percebemos que apesar de obter uma acurácia de treinamento
muito alta, o Id3 consegui uma taxa de acerto baixa nos testes.
A métrica kappa obteve um baixo valor nas duas técnicas de fragmentação, além disso, a
métrica F-Mesure, que é uma boa métrica para avaliar a precisão e a cobertura da árvore obtida,
obteve uma baixa taxa por classe também, principalmente na classe recorrence-events.
Figura 2.4 - Resultados do Prisma com Cross Validation.
Figura 2.5 – Resultados do Prisma com Holdout.
2.3 J48
2.3.1 Informações sobre o algoritmo
As informações descritas abaixo sobre o algoritmo J48 foram retiradas da biblioteca Weka.
Nome da Classe: weka.classifiers.trees.J48.
Descrição: Classe para gerar uma árvore de decisão podada ou não, utilizando o algoritmo
C45 (Quinlan, 1993).
Parâmetros (descritos apenas os parâmentros modificados no experimento):

Unpruned: Informa quando a poda é executada.
2.3.2 Resultados e Discussão
O J48 foi executado com as técnicas de fragmentação Cross Validation e Holdout, além disso,
para os valores “true” e “false” do parâmentro “unpruned”.
Para a técnica Cross Validation foi escolhido o valor 10 para o parâmetro folds, devido a este
valor ser uma boa quantidade de partes a serem divididas as 277 instâncias do arquivo de dados
utilizado neste experimento.
Com a técnica Cross Validation e o parâmetro “unpruned” com o valor “false”, o J48 retornou
uma árvore de decisão muito simples, como pode ser observado na Figura 2.6. Além disso, 74,37 %
das instâncias foram classificadas corretamente e 25,63 % foram classificadas incorretamente (ver
Figura 2.7).
Figura 2.6 –Árvore podada do J48 com Cross Validation.
Já com a técnica Cross Validation e com o parâmetro “unpruned” com o valor “true”, o J48
retornou uma árvore muito complexa, como pode ser observado na Figura 2.8. Além disso, os
resultados obtidos com a árvore gerada foram piores do que os retornados pela árvore podada (ver
Figura 2.9) como pode ser observado na métrica F-Measure obtidas por classe, pois as duas classes
obtiveram valores menores do que a da árvore podada. Dessa forma, o J48 sem poda com Cross
Validation se mostrou um algoritmo inferior ao com poda para os dados utilizados neste
experimento.
Figura 2.7 - Resultados apresentados pela árvore podada gerada pelo J48 com Cross Validation.
Figura 2.8 – Árvore não podada gerada pelo J48 comCross Validation.
Figura 2.9 – Resultados obtidos com a árvore não podada gerada pelo J48 com Cross Validation.
Com a técnica de fragmentação Holdout o J48 foi executado com os valores 33%, 50%, 66%,
70% e 80% para o parâmetro percentage split, sendo a mesma árvore retornada para todos os
valores, com isso para o experimento foi adotado o valor de 66%, por este ter obtido resultados de
teste um pouco melhores do que os outros.
A árvore criada pelo J48 com Holdout foi a mesma da criada com o Cross Valiation, tanto com
a poda (ver Figura 2.10) como sem (ver Figura 2.11), mas nos testes a técnica de Holdout retornou
resultados melhores do que a técnica Cross Validation. Com isso, o algoritmo de J48 com Holdout e
com poda se mostrou a melhor alternativa para o problema do câncer de mama, em comparação
com as outras execuções do J48 descritas neste experimento.
Figura 2.10 – Resultados obtidos com J48 com poda e com Holdout.
Figura 2.11 - Resultados obtidos com J48 sem poda e com Holdout.
2.4 Prisma
2.4.1 Informações sobre o algoritmo
As informações descritas abaixo sobre o algoritmo Prisma foram retiradas da biblioteca
Weka.
Nome da Classe: weka.classifiers.rules.Prism.
Descrição: Constrói um conjunto de regras para classificação usando o algoritmo Prisma,
podendo somente ser executado com atributos nominais e sem valores faltando, além disso, não
realiza nenhuma poda (Cendrowska, 1987).
2.4.2 Resultados e Discussão
O algoritmo Prisma foi executado com os dados de câncer de mama do experimento, sendo
obtida uma grande quantidade de regras, devido à natureza do algoritmo de não realizar a poda,
com isso, algumas regras geradas possuem uma baixa cobertura, além disso, as regras geradas para
os dados de câncer de mama foram muito complexas, ou seja, utilizam muitos atributos em uma
regra (ver Figura 2.12, Figura 2.13 eFigura 2.14).
A técnica de fragmentação Holdout gerou resultados nos testes melhores do que o Cross
Validation, apesar das regras geradas terem sido as mesmas. As duas técnicas apresentaram um
valor baixo para a métrica kappa, sendo que a de Cross Validation apresentou valor 0,1306 (ver
Figura 2.15) e a de Holdout apresentou valor 0,129 (ver Figura 2.16).
Figura 2.12 – Amostra de regras 1 geradas pelo Prisma.
Figura 2.13 - Amostra de regras 2 geradas pelo Prisma.
Figura 2.14 - Amostra de regras 3 geradas pelo Prisma.
Figura 2.15 – Resultados obtidos pelo Prisma com Cross Validation.
Figura 2.16 - Resultados obtidos pelo Prisma com Holdout.
2.5 NaïveBayes
2.5.1 Informações sobre o algoritmo
As informações descritas abaixo sobre o algoritmo NaïveBayes foram retiradas da biblioteca
Weka.
Nome da Classe: weka.classifiers.bayes.NaiveBayes.
Descrição: Classe para classificação utilizando o Naïve Bayes (John e Langley,1995).
2.5.2 Resultados e Discussão
O algoritmo Naïve Bayes obteve ótimos resultados para os dados de câncer de mama
utilizados neste experimento, sendo o modelo gerado pelo algoritmo apresentado na Figura 2.17.
Figura 2.17 – Modelo de classificação retornado pelo algoritmo Naïve Bayes.
Nos testes o algoritmo Naïve Bayes obteve bons resultados nas duas técnicas de
fragmentação - Cross Validation (ver Figura 2.18) e Holdout (ver Figura 2.19) -, conseguindo uma taxa
de mais de 75% de instâncias classificadas corretamente e um valor de kappa de 0,3798 com o Cross
Validation e de 0,4134 com o Holdout. Além disso, obteve bons valores de F-Measure com as duas
técnicas nas duasd classes, em comparação aos outros algoritmos.
Figura 2.18 - Resultados obtidos pelo algoritmo Naïve Bayes com Cross Validation.
Figura 2.19 – Resultados obtidos pelo algoritmo Naïve Bayes com Holdout.
3 Comparativo dos resultados
Como a técnica de fragmentação Holdout obteve melhores resultados do que a técnica Cross
Validation com os dados deste experimento, a técnica Holdout foi escolhida como técnica de
fragmentação para o comparativo entre os algoritmos.
3.1 Resultados utilizando a técnica Holdout
Em relação ao percentual de classificações corretas o J48, Naïve Bayes e 1R obtiveram
percentuais acima de 70% (ver Figura 3.1), sendo que o J48 foi o que se saiu melhor entre os três. Da
mesma forma, o J48 foi o que se saiu melhor em relação ao percentual de classificações incorretas
(ver Figura 3.2) e instâncias não classificadas (ver Figura 3.3).
Figura 3.1 - Taxa de acerto.
Figura 3.2 – Taxa de erro.
Figura 3.3 – Taxa de não classificados.
Com a métrica kappa o Naïve Bayes foi o único que conseguiu um valor superior a 0.3 (ver
Figura 3.4), da mesma forma, obteve o melhor resultado da métrica F-Measure para a classe
recurrence-events, mas para a classe no-recurrence-events o J48 se saiu melhor (ver Figura 3.5).
Figura 3.4 - Estatística kappa.
Figura 3.5 – Métrica F-Measure.
4 Conclusão
Foi observado neste experimento que o J48 e o Naïve Bayes se mostraram melhores para o
problema de câncer de mama do que os outros três algoritmos utilizados. Também temos que a
técnica de fragmentação Holdout se mostrou mais eficiente do que a Cross Validation para as
instâncias do arquivo utilizado neste experimento.
Além disso, foi observado que as taxas de cobertura e precisão para a classe recurrenceevents foram baixas para todos os algoritmos, mostrando uma falha na distribuição dos dados
utilizados para o treinamento.
5 Bibliografia
Holte, R. (1993). “Very simple classification rules perform well on most commonly used
datasets”. In: Machine Learning (Vol. 11, pp. 63-91).
J. Cendrowska (1987). “PRISM: An algorithm for inducing modular rules”. International
Journal of Man-Machine Studies. Vol.27, No.4, pp.349-370.
Ross Quinlan (1993). "C4.5: Programs for Machine Learning", Morgan Kaufmann Publishers,
San Mateo, CA.
R. Quinlan (1986). "Induction of decision trees". Machine Learning. Vol.1, No.1, pp. 81-106.
George H. John and Pat Langley (1995). Estimating Continuous Distributions in Bayesian
Classifiers. Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence. pp. 338345. Morgan Kaufmann, San Mateo.
6 Anexos
Anexo 1
Conteúdo do arquivo utilizado para a realização do experimento:
http://www.dsc.ufcg.edu.br/~sampaio/cursos/2007.2/PosGraduacao/MineracaoDeDados/Mi
scelanea/datasets/simbolicos/breast-cancer.arff
Anexo 2
Classificação com o 1R, com a configuração Básica.
=== Run information ===
Scheme:
weka.classifiers.rules.OneR -B 6
Relation: breast-cancer
Instances: 275
Attributes: 10
age
menopause
tumor-size
inv-nodes
node-caps
deg-malig
breast
breast-quad
irradiat
Class
Test mode: 10-fold cross-validation
=== Classifier model (full training set) ===
inv-nodes:
0-2
3-5
6-8
9-11
12-14
15-17
18-20
21-23
24-26
27-29
30-32
-> no-recurrence-events
-> recurrence-events
-> recurrence-events
-> recurrence-events
-> recurrence-events
-> no-recurrence-events
-> no-recurrence-events
-> no-recurrence-events
-> recurrence-events
-> no-recurrence-events
-> no-recurrence-events
33-35 -> no-recurrence-events
36-39 -> no-recurrence-events
(204/275 instances correct)
Time taken to build model: 0 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances
184
66.9091 %
Incorrectly Classified Instances
91
33.0909 %
Kappa statistic
0.0944
Mean absolute error
0.3309
Root mean squared error
0.5752
Relative absolute error
80.0701 %
Root relative squared error
126.6528 %
Total Number of Instances
275
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure Class
0.846 0.763
0.73
0.846 0.784
no-recurrence-events
0.238 0.154
0.388
0.238 0.295
recurrence-events
=== Confusion Matrix ===
a
b
<-- classified as
165 30 | a = no-recurrence-events
61 19 | b = recurrence-events
Anexo 3
Classificação com o Prisma, com a configuração Básica.
=== Run information ===
Scheme:
weka.classifiers.rules.Prism
Relation: breast-cancer
Instances: 275
Attributes: 10
age
menopause
tumor-size
inv-nodes
node-caps
deg-malig
breast
breast-quad
irradiat
Class
Test mode: 10-fold cross-validation
=== Classifier model (full training set) ===
Prism rules
---------If age = 70-79 then no-recurrence-events
If menopause = lt40 then no-recurrence-events
If tumor-size = 5-9 then no-recurrence-events
If age = 20-29 then no-recurrence-events
If tumor-size = 10-14
and node-caps = no then no-recurrence-events
If tumor-size = 0-4
and age = 50-59 then no-recurrence-events
If deg-malig = 1
and breast-quad = right_low then no-recurrence-events
If deg-malig = 1
and breast-quad = central then no-recurrence-events
If tumor-size = 15-19
and menopause = ge40 then no-recurrence-events
If tumor-size = 0-4
and age = 40-49 then no-recurrence-events
If deg-malig = 1
and tumor-size = 50-54 then no-recurrence-events
If deg-malig = 2
and tumor-size = 45-49 then no-recurrence-events
If deg-malig = 2
and inv-nodes = 15-17 then no-recurrence-events
If deg-malig = 1
and age = 50-59
and breast-quad = left_low then no-recurrence-events
If deg-malig = 2
and tumor-size = 40-44
and menopause = premeno then no-recurrence-events
If deg-malig = 2
and inv-nodes = 6-8
and menopause = premeno then no-recurrence-events
If deg-malig = 2
and breast-quad = right_low
and menopause = premeno then no-recurrence-events
If deg-malig = 2
and tumor-size = 35-39
and menopause = premeno then no-recurrence-events
If deg-malig = 2
and breast-quad = left_up
and tumor-size = 25-29 then no-recurrence-events
If deg-malig = 1
and tumor-size = 20-24
and breast-quad = left_low then no-recurrence-events
If inv-nodes = 0-2
and tumor-size = 20-24
and breast-quad = right_up then no-recurrence-events
If inv-nodes = 0-2
and menopause = ge40
and breast = left
and tumor-size = 30-34 then no-recurrence-events
If deg-malig = 2
and tumor-size = 40-44
and age = 50-59 then no-recurrence-events
If tumor-size = 20-24
and breast-quad = left_up
and inv-nodes = 3-5 then no-recurrence-events
If breast-quad = central
and age = 40-49 then no-recurrence-events
If inv-nodes = 0-2
and tumor-size = 20-24
and node-caps = yes then no-recurrence-events
If inv-nodes = 0-2
and age = 50-59
and tumor-size = 40-44 then no-recurrence-events
If tumor-size = 50-54
and breast = left then no-recurrence-events
If inv-nodes = 0-2
and tumor-size = 20-24
and age = 40-49
and deg-malig = 3 then no-recurrence-events
If deg-malig = 1
and tumor-size = 30-34
and menopause = ge40 then no-recurrence-events
If deg-malig = 2
and inv-nodes = 6-8
and irradiat = no then no-recurrence-events
If tumor-size = 35-39
and irradiat = yes then no-recurrence-events
If inv-nodes = 0-2
and age = 50-59
and tumor-size = 50-54 then no-recurrence-events
If inv-nodes = 0-2
and tumor-size = 20-24
and menopause = premeno
and breast = right then no-recurrence-events
If inv-nodes = 0-2
and age = 50-59
and menopause = ge40
and deg-malig = 3 then no-recurrence-events
If deg-malig = 2
and tumor-size = 25-29
and age = 30-39 then no-recurrence-events
If deg-malig = 1
and age = 40-49
and tumor-size = 25-29 then no-recurrence-events
If breast-quad = central
and tumor-size = 45-49 then no-recurrence-events
If inv-nodes = 15-17
and age = 50-59 then no-recurrence-events
If tumor-size = 0-4
and age = 30-39
and menopause = premeno
and inv-nodes = 0-2
and node-caps = no
and deg-malig = 2
and breast = right
and breast-quad = central
and irradiat = no then no-recurrence-events
If deg-malig = 2
and breast-quad = left_low
and tumor-size = 30-34 then no-recurrence-events
If deg-malig = 1
and tumor-size = 15-19
and breast = left then no-recurrence-events
If deg-malig = 2
and tumor-size = 25-29
and node-caps = yes then no-recurrence-events
If deg-malig = 2
and age = 60-69
and breast-quad = left_up then no-recurrence-events
If inv-nodes = 0-2
and breast-quad = left_low
and tumor-size = 30-34
and irradiat = no then no-recurrence-events
If deg-malig = 2
and tumor-size = 25-29
and menopause = ge40
and inv-nodes = 0-2 then no-recurrence-events
If breast-quad = central
and age = 30-39 then no-recurrence-events
If age = 40-49
and tumor-size = 40-44
and breast = right then no-recurrence-events
If tumor-size = 15-19
and inv-nodes = 12-14 then no-recurrence-events
If deg-malig = 2
and tumor-size = 15-19
and breast = right then no-recurrence-events
If inv-nodes = 0-2
and age = 40-49
and tumor-size = 30-34
and breast-quad = left_up then no-recurrence-events
If deg-malig = 2
and tumor-size = 35-39
and breast-quad = left_up then no-recurrence-events
If tumor-size = 25-29
and breast = right
and menopause = ge40
and deg-malig = 3 then no-recurrence-events
If deg-malig = 2
and breast-quad = left_low
and age = 50-59
and tumor-size = 25-29 then no-recurrence-events
If age = 40-49
and tumor-size = 35-39
and breast = left then no-recurrence-events
If tumor-size = 20-24
and menopause = premeno
and age = 50-59 then no-recurrence-events
If age = 40-49
and tumor-size = 20-24
and irradiat = no
and inv-nodes = 3-5 then no-recurrence-events
If breast-quad = right_up
and age = 30-39 then no-recurrence-events
If age = 40-49
and breast-quad = right_up
and deg-malig = 1 then no-recurrence-events
If age = 40-49
and inv-nodes = 0-2
and tumor-size = 20-24
and menopause = premeno
and breast-quad = left_up then no-recurrence-events
If age = 40-49
and inv-nodes = 0-2
and tumor-size = 30-34
and deg-malig = 2 then no-recurrence-events
If inv-nodes = 0-2
and age = 40-49
and tumor-size = 15-19
and breast-quad = left_low then no-recurrence-events
If inv-nodes = 0-2
and tumor-size = 20-24
and deg-malig = 2
and menopause = premeno
and age = 40-49
and node-caps = no
and breast = left
and breast-quad = left_low
and irradiat = no then no-recurrence-events
If tumor-size = 25-29
and deg-malig = 1
and age = 50-59
and menopause = premeno
and inv-nodes = 0-2
and node-caps = no
and breast = right
and breast-quad = left_up
and irradiat = no then no-recurrence-events
If inv-nodes = 0-2
and age = 40-49
and tumor-size = 25-29
and breast = right
and deg-malig = 3 then no-recurrence-events
If tumor-size = 30-34
and age = 30-39
and breast = left
and menopause = premeno
and inv-nodes = 0-2
and node-caps = no
and deg-malig = 2
and breast-quad = left_up
and irradiat = no then no-recurrence-events
If breast = right
and tumor-size = 25-29
and age = 40-49
and inv-nodes = 0-2
and menopause = premeno
and node-caps = no
and deg-malig = 2
and breast-quad = left_low
and irradiat = no then no-recurrence-events
If tumor-size = 30-34
and age = 60-69
and breast-quad = left_low then no-recurrence-events
If breast-quad = right_up
and age = 40-49
and node-caps = no
and tumor-size = 30-34
and menopause = premeno
and inv-nodes = 0-2
and deg-malig = 3
and breast = right
and irradiat = no then no-recurrence-events
If tumor-size = 20-24
and age = 50-59
and breast-quad = left_up
and breast = right then no-recurrence-events
If inv-nodes = 24-26 then recurrence-events
If inv-nodes = 9-11
and deg-malig = 3 then recurrence-events
If inv-nodes = 12-14
and node-caps = yes then recurrence-events
If inv-nodes = 6-8
and breast-quad = right_low then recurrence-events
If inv-nodes = 3-5
and breast-quad = right_up
and node-caps = yes then recurrence-events
If inv-nodes = 6-8
and tumor-size = 40-44 then recurrence-events
If inv-nodes = 9-11
and age = 30-39 then recurrence-events
If inv-nodes = 3-5
and deg-malig = 3
and tumor-size = 20-24 then recurrence-events
If deg-malig = 3
and tumor-size = 50-54 then recurrence-events
If inv-nodes = 3-5
and tumor-size = 30-34
and node-caps = no then recurrence-events
If inv-nodes = 6-8
and tumor-size = 10-14 then recurrence-events
If inv-nodes = 15-17
and menopause = premeno then recurrence-events
If deg-malig = 3
and inv-nodes = 6-8
and breast-quad = left_low then recurrence-events
If deg-malig = 3
and tumor-size = 25-29
and age = 30-39 then recurrence-events
If deg-malig = 3
and age = 60-69
and tumor-size = 20-24 then recurrence-events
If tumor-size = 45-49
and deg-malig = 1 then recurrence-events
If inv-nodes = 9-11
and age = 50-59 then recurrence-events
If deg-malig = 3
and tumor-size = 25-29
and breast-quad = right_low then recurrence-events
If age = 30-39
and tumor-size = 35-39 then recurrence-events
If inv-nodes = 3-5
and age = 60-69
and tumor-size = 20-24 then recurrence-events
If breast-quad = right_up
and tumor-size = 25-29
and menopause = premeno then recurrence-events
If node-caps = yes
and age = 60-69
and irradiat = yes then recurrence-events
If deg-malig = 3
and inv-nodes = 6-8
and age = 40-49 then recurrence-events
If age = 30-39
and breast-quad = left_up
and deg-malig = 1 then recurrence-events
If deg-malig = 3
and tumor-size = 30-34
and irradiat = yes then recurrence-events
If inv-nodes = 3-5
and age = 60-69
and tumor-size = 25-29 then recurrence-events
If deg-malig = 3
and breast-quad = right_up
and node-caps = yes then recurrence-events
If deg-malig = 3
and tumor-size = 25-29
and menopause = premeno
and age = 50-59 then recurrence-events
If age = 30-39
and tumor-size = 0-4
and menopause = premeno
and inv-nodes = 0-2
and node-caps = no
and deg-malig = 2
and breast = right
and breast-quad = central
and irradiat = no then recurrence-events
If tumor-size = 20-24
and irradiat = yes
and breast = left then recurrence-events
If age = 40-49
and tumor-size = 15-19
and breast-quad = left_up then recurrence-events
If tumor-size = 50-54
and age = 40-49
and breast = right then recurrence-events
If tumor-size = 40-44
and age = 60-69
and breast-quad = left_low then recurrence-events
If tumor-size = 20-24
and age = 30-39
and node-caps = yes then recurrence-events
If tumor-size = 25-29
and age = 40-49
and breast-quad = left_low
and menopause = premeno
and breast = left then recurrence-events
If tumor-size = 35-39
and deg-malig = 1
and breast = right then recurrence-events
If tumor-size = 20-24
and breast-quad = central
and age = 50-59 then recurrence-events
If tumor-size = 25-29
and deg-malig = 3
and breast = left
and breast-quad = left_up then recurrence-events
If tumor-size = 30-34
and breast-quad = central
and age = 60-69 then recurrence-events
If tumor-size = 20-24
and age = 60-69
and breast = right
and deg-malig = 1 then recurrence-events
If tumor-size = 30-34
and breast-quad = right_up
and deg-malig = 3
and age = 50-59 then recurrence-events
If age = 40-49
and tumor-size = 40-44
and breast = left then recurrence-events
If age = 30-39
and tumor-size = 15-19
and breast = right
and menopause = premeno then recurrence-events
If age = 40-49
and tumor-size = 25-29
and breast-quad = left_low
and menopause = premeno
and deg-malig = 2
and inv-nodes = 0-2
and node-caps = no
and breast = right
and irradiat = no then recurrence-events
If tumor-size = 20-24
and deg-malig = 2
and menopause = ge40
and age = 40-49 then recurrence-events
If tumor-size = 30-34
and age = 30-39
and breast-quad = left_up
and menopause = premeno
and inv-nodes = 0-2
and node-caps = no
and deg-malig = 2
and breast = left
and irradiat = no then recurrence-events
If tumor-size = 35-39
and menopause = ge40
and deg-malig = 2
and breast-quad = left_low then recurrence-events
If tumor-size = 30-34
and irradiat = yes
and deg-malig = 1 then recurrence-events
If tumor-size = 20-24
and breast = left
and deg-malig = 2
and age = 50-59
and menopause = ge40 then recurrence-events
If breast-quad = right_up
and deg-malig = 3
and age = 40-49
and menopause = premeno
and tumor-size = 30-34
and inv-nodes = 0-2
and node-caps = no
and breast = right
and irradiat = no then recurrence-events
If tumor-size = 15-19
and menopause = premeno
and age = 50-59
and breast = left
and deg-malig = 2 then recurrence-events
If tumor-size = 25-29
and deg-malig = 1
and breast-quad = left_up
and age = 50-59
and menopause = premeno
and inv-nodes = 0-2
and node-caps = no
and breast = right
and irradiat = no then recurrence-events
If tumor-size = 20-24
and breast-quad = left_low
and deg-malig = 2
and inv-nodes = 0-2
and age = 40-49
and menopause = premeno
and node-caps = no
and breast = left
and irradiat = no then recurrence-events
Time taken to build model: 0.03 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances
178
64.7273 %
Incorrectly Classified Instances
65
23.6364 %
Kappa statistic
0.2633
Mean absolute error
0.2364
Root mean squared error
0.4862
Relative absolute error
64.9111 %
Root relative squared error
114.1995 %
UnClassified Instances
32
11.6364 %
Total Number of Instances
275
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure Class
0.89 0.657
0.77
0.89
0.826 no-recurrence-events
0.343 0.11
0.558 0.343 0.425 recurrence-events
=== Confusion Matrix ===
a b <-- classified as
154 19 | a = no-recurrence-events
46 24 | b = recurrence-events
Anexo 4
Classificação com o Id3, com a configuração Básica.
=== Run information ===
Scheme:
weka.classifiers.trees.Id3
Relation: breast-cancer
Instances: 275
Attributes: 10
age
menopause
tumor-size
inv-nodes
node-caps
deg-malig
breast
breast-quad
irradiat
Class
Test mode: 10-fold cross-validation
=== Classifier model (full training set) ===
Id3
deg-malig = 1
| tumor-size = 0-4: no-recurrence-events
| tumor-size = 5-9: no-recurrence-events
| tumor-size = 10-14: no-recurrence-events
| tumor-size = 15-19
| | age = 10-19: null
| | age = 20-29: null
| | age = 30-39
| | | breast = left: no-recurrence-events
| | | breast = right: recurrence-events
| | age = 40-49: null
| | age = 50-59: no-recurrence-events
| | age = 60-69: no-recurrence-events
| | age = 70-79: null
| | age = 80-89: null
| | age = 90-99: null
| tumor-size = 20-24
| | breast-quad = left_up: recurrence-events
| | breast-quad = left_low: no-recurrence-events
| | breast-quad = right_up: no-recurrence-events
| | breast-quad = right_low: no-recurrence-events
| | breast-quad = central: null
| tumor-size = 25-29
| | breast-quad = left_up: no-recurrence-events
| | breast-quad = left_low: no-recurrence-events
| | breast-quad = right_up: null
| | breast-quad = right_low: no-recurrence-events
| | breast-quad = central: no-recurrence-events
| tumor-size = 30-34
| | age = 10-19: null
| | age = 20-29: null
| | age = 30-39: recurrence-events
| | age = 40-49
| | | irradiat = yes: recurrence-events
| | | irradiat = no: no-recurrence-events
| | age = 50-59: no-recurrence-events
| | age = 60-69: no-recurrence-events
| | age = 70-79: null
| | age = 80-89: null
| | age = 90-99: null
| tumor-size = 35-39
| | breast = left: no-recurrence-events
| | breast = right: recurrence-events
| tumor-size = 40-44
| | breast = left: recurrence-events
| | breast = right: no-recurrence-events
| tumor-size = 45-49: recurrence-events
| tumor-size = 50-54: no-recurrence-events
| tumor-size = 55-59: null
deg-malig = 2
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
tumor-size = 0-4
| age = 10-19: null
| age = 20-29: null
| age = 30-39: no-recurrence-events
| age = 40-49: no-recurrence-events
| age = 50-59: no-recurrence-events
| age = 60-69: null
| age = 70-79: null
| age = 80-89: null
| age = 90-99: null
tumor-size = 5-9: no-recurrence-events
tumor-size = 10-14: no-recurrence-events
tumor-size = 15-19
| menopause = lt40: no-recurrence-events
| menopause = ge40: no-recurrence-events
| menopause = premeno
| | breast = left
| | | age = 10-19: null
| | | age = 20-29: null
| | | age = 30-39: null
| | | age = 40-49
| | | | breast-quad = left_up: recurrence-events
| | | | breast-quad = left_low: no-recurrence-events
| | | | breast-quad = right_up: null
| | | | breast-quad = right_low: null
| | | | breast-quad = central: null
| | | age = 50-59: recurrence-events
| | | age = 60-69: null
| | | age = 70-79: null
| | | age = 80-89: null
| | | age = 90-99: null
| | breast = right: no-recurrence-events
tumor-size = 20-24
| irradiat = yes
| | inv-nodes = 0-2: null
| | inv-nodes = 3-5: recurrence-events
| | inv-nodes = 6-8: no-recurrence-events
| | inv-nodes = 9-11: null
| | inv-nodes = 12-14: null
| | inv-nodes = 15-17: null
| | inv-nodes = 18-20: null
| | inv-nodes = 21-23: null
| | inv-nodes = 24-26: null
| | inv-nodes = 27-29: null
| | inv-nodes = 30-32: null
| | inv-nodes = 33-35: null
| | inv-nodes = 36-39: null
| irradiat = no
| | breast-quad = left_up
| | | menopause = lt40: null
| | | menopause = ge40
| | | | age = 10-19: null
| | | | age = 20-29: null
| | | | age = 30-39: null
| | | | age = 40-49: recurrence-events
| | | | age = 50-59
| | | | | breast = left: recurrence-events
| | | | | breast = right: no-recurrence-events
| | | | age = 60-69: no-recurrence-events
| | | | age = 70-79: null
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| | | | age = 80-89: null
| | | | age = 90-99: null
| | | menopause = premeno: no-recurrence-events
| | breast-quad = left_low
| | | age = 10-19: null
| | | age = 20-29: null
| | | age = 30-39: recurrence-events
| | | age = 40-49
| | | | inv-nodes = 0-2: no-recurrence-events
| | | | inv-nodes = 3-5: no-recurrence-events
| | | | inv-nodes = 6-8: null
| | | | inv-nodes = 9-11: null
| | | | inv-nodes = 12-14: null
| | | | inv-nodes = 15-17: null
| | | | inv-nodes = 18-20: null
| | | | inv-nodes = 21-23: null
| | | | inv-nodes = 24-26: null
| | | | inv-nodes = 27-29: null
| | | | inv-nodes = 30-32: null
| | | | inv-nodes = 33-35: null
| | | | inv-nodes = 36-39: null
| | | age = 50-59: no-recurrence-events
| | | age = 60-69: null
| | | age = 70-79: null
| | | age = 80-89: null
| | | age = 90-99: null
| | breast-quad = right_up: no-recurrence-events
| | breast-quad = right_low: no-recurrence-events
| | breast-quad = central
| | | age = 10-19: null
| | | age = 20-29: null
| | | age = 30-39: no-recurrence-events
| | | age = 40-49: no-recurrence-events
| | | age = 50-59: recurrence-events
| | | age = 60-69: null
| | | age = 70-79: null
| | | age = 80-89: null
| | | age = 90-99: null
tumor-size = 25-29
| breast-quad = left_up: no-recurrence-events
| breast-quad = left_low
| | age = 10-19: null
| | age = 20-29: null
| | age = 30-39: no-recurrence-events
| | age = 40-49
| | | menopause = lt40: null
| | | menopause = ge40: no-recurrence-events
| | | menopause = premeno
| | | | breast = left: recurrence-events
| | | | breast = right: recurrence-events
| | age = 50-59: no-recurrence-events
| | age = 60-69: no-recurrence-events
| | age = 70-79: null
| | age = 80-89: null
| | age = 90-99: null
| breast-quad = right_up: recurrence-events
| breast-quad = right_low: no-recurrence-events
| breast-quad = central: no-recurrence-events
tumor-size = 30-34
| breast-quad = left_up
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| | inv-nodes = 0-2
| | | age = 10-19: null
| | | age = 20-29: null
| | | age = 30-39: no-recurrence-events
| | | age = 40-49: no-recurrence-events
| | | age = 50-59: null
| | | age = 60-69: no-recurrence-events
| | | age = 70-79: null
| | | age = 80-89: null
| | | age = 90-99: null
| | inv-nodes = 3-5: recurrence-events
| | inv-nodes = 6-8: no-recurrence-events
| | inv-nodes = 9-11: recurrence-events
| | inv-nodes = 12-14: null
| | inv-nodes = 15-17: null
| | inv-nodes = 18-20: null
| | inv-nodes = 21-23: null
| | inv-nodes = 24-26: null
| | inv-nodes = 27-29: null
| | inv-nodes = 30-32: null
| | inv-nodes = 33-35: null
| | inv-nodes = 36-39: null
| breast-quad = left_low: no-recurrence-events
| breast-quad = right_up
| | inv-nodes = 0-2
| | | age = 10-19: null
| | | age = 20-29: null
| | | age = 30-39: null
| | | age = 40-49: no-recurrence-events
| | | age = 50-59: null
| | | age = 60-69: recurrence-events
| | | age = 70-79: null
| | | age = 80-89: null
| | | age = 90-99: null
| | inv-nodes = 3-5: recurrence-events
| | inv-nodes = 6-8: no-recurrence-events
| | inv-nodes = 9-11: null
| | inv-nodes = 12-14: null
| | inv-nodes = 15-17: null
| | inv-nodes = 18-20: null
| | inv-nodes = 21-23: null
| | inv-nodes = 24-26: null
| | inv-nodes = 27-29: null
| | inv-nodes = 30-32: null
| | inv-nodes = 33-35: null
| | inv-nodes = 36-39: null
| breast-quad = right_low
| | age = 10-19: null
| | age = 20-29: null
| | age = 30-39: null
| | age = 40-49: no-recurrence-events
| | age = 50-59: recurrence-events
| | age = 60-69: null
| | age = 70-79: null
| | age = 80-89: null
| | age = 90-99: null
| breast-quad = central: recurrence-events
tumor-size = 35-39
| breast-quad = left_up: no-recurrence-events
| breast-quad = left_low: recurrence-events
| | breast-quad = right_up: no-recurrence-events
| | breast-quad = right_low: null
| | breast-quad = central: null
| tumor-size = 40-44
| | age = 10-19: null
| | age = 20-29: null
| | age = 30-39: no-recurrence-events
| | age = 40-49: no-recurrence-events
| | age = 50-59: no-recurrence-events
| | age = 60-69
| | | inv-nodes = 0-2: recurrence-events
| | | inv-nodes = 3-5: no-recurrence-events
| | | inv-nodes = 6-8: null
| | | inv-nodes = 9-11: null
| | | inv-nodes = 12-14: null
| | | inv-nodes = 15-17: null
| | | inv-nodes = 18-20: null
| | | inv-nodes = 21-23: null
| | | inv-nodes = 24-26: null
| | | inv-nodes = 27-29: null
| | | inv-nodes = 30-32: null
| | | inv-nodes = 33-35: null
| | | inv-nodes = 36-39: null
| | age = 70-79: null
| | age = 80-89: null
| | age = 90-99: null
| tumor-size = 45-49: no-recurrence-events
| tumor-size = 50-54
| | inv-nodes = 0-2
| | | age = 10-19: null
| | | age = 20-29: null
| | | age = 30-39: null
| | | age = 40-49
| | | | breast = left: no-recurrence-events
| | | | breast = right: recurrence-events
| | | age = 50-59: no-recurrence-events
| | | age = 60-69: no-recurrence-events
| | | age = 70-79: null
| | | age = 80-89: null
| | | age = 90-99: null
| | inv-nodes = 3-5: null
| | inv-nodes = 6-8: null
| | inv-nodes = 9-11: recurrence-events
| | inv-nodes = 12-14: null
| | inv-nodes = 15-17: null
| | inv-nodes = 18-20: null
| | inv-nodes = 21-23: null
| | inv-nodes = 24-26: null
| | inv-nodes = 27-29: null
| | inv-nodes = 30-32: null
| | inv-nodes = 33-35: null
| | inv-nodes = 36-39: null
| tumor-size = 55-59: null
deg-malig = 3
| inv-nodes = 0-2
| | tumor-size = 0-4: no-recurrence-events
| | tumor-size = 5-9: null
| | tumor-size = 10-14: no-recurrence-events
| | tumor-size = 15-19
| | | age = 10-19: null
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| age = 20-29: null
| age = 30-39: no-recurrence-events
| age = 40-49: recurrence-events
| age = 50-59: null
| age = 60-69: no-recurrence-events
| age = 70-79: null
| age = 80-89: null
| age = 90-99: null
tumor-size = 20-24
| age = 10-19: null
| age = 20-29: null
| age = 30-39
| | breast-quad = left_up: recurrence-events
| | breast-quad = left_low: null
| | breast-quad = right_up: null
| | breast-quad = right_low: null
| | breast-quad = central: no-recurrence-events
| age = 40-49: no-recurrence-events
| age = 50-59: no-recurrence-events
| age = 60-69: recurrence-events
| age = 70-79: no-recurrence-events
| age = 80-89: null
| age = 90-99: null
tumor-size = 25-29
| breast = left
| | age = 10-19: null
| | age = 20-29: null
| | age = 30-39: null
| | age = 40-49: recurrence-events
| | age = 50-59: no-recurrence-events
| | age = 60-69: recurrence-events
| | age = 70-79: null
| | age = 80-89: null
| | age = 90-99: null
| breast = right
| | age = 10-19: null
| | age = 20-29: null
| | age = 30-39: null
| | age = 40-49: no-recurrence-events
| | age = 50-59: recurrence-events
| | age = 60-69: no-recurrence-events
| | age = 70-79: null
| | age = 80-89: null
| | age = 90-99: null
tumor-size = 30-34
| breast-quad = left_up
| | irradiat = yes: recurrence-events
| | irradiat = no: no-recurrence-events
| breast-quad = left_low: no-recurrence-events
| breast-quad = right_up
| | age = 10-19: null
| | age = 20-29: null
| | age = 30-39: null
| | age = 40-49
| | | node-caps = yes: recurrence-events
| | | node-caps = no: no-recurrence-events
| | age = 50-59: recurrence-events
| | age = 60-69: null
| | age = 70-79: null
| | age = 80-89: null
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| | | age = 90-99: null
| | breast-quad = right_low: null
| | breast-quad = central: recurrence-events
| tumor-size = 35-39
| | age = 10-19: null
| | age = 20-29: null
| | age = 30-39: recurrence-events
| | age = 40-49: no-recurrence-events
| | age = 50-59: no-recurrence-events
| | age = 60-69: null
| | age = 70-79: null
| | age = 80-89: null
| | age = 90-99: null
| tumor-size = 40-44: no-recurrence-events
| tumor-size = 45-49: null
| tumor-size = 50-54: recurrence-events
| tumor-size = 55-59: null
inv-nodes = 3-5
| tumor-size = 0-4: null
| tumor-size = 5-9: null
| tumor-size = 10-14: null
| tumor-size = 15-19: null
| tumor-size = 20-24: recurrence-events
| tumor-size = 25-29
| | menopause = lt40: null
| | menopause = ge40: no-recurrence-events
| | menopause = premeno: recurrence-events
| tumor-size = 30-34
| | age = 10-19: null
| | age = 20-29: null
| | age = 30-39: recurrence-events
| | age = 40-49: recurrence-events
| | age = 50-59: recurrence-events
| | age = 60-69: no-recurrence-events
| | age = 70-79: null
| | age = 80-89: null
| | age = 90-99: null
| tumor-size = 35-39: null
| tumor-size = 40-44
| | age = 10-19: null
| | age = 20-29: null
| | age = 30-39: no-recurrence-events
| | age = 40-49: no-recurrence-events
| | age = 50-59: null
| | age = 60-69: recurrence-events
| | age = 70-79: null
| | age = 80-89: null
| | age = 90-99: null
| tumor-size = 45-49: null
| tumor-size = 50-54: null
| tumor-size = 55-59: null
inv-nodes = 6-8
| tumor-size = 0-4: null
| tumor-size = 5-9: null
| tumor-size = 10-14: recurrence-events
| tumor-size = 15-19: recurrence-events
| tumor-size = 20-24: null
| tumor-size = 25-29: recurrence-events
| tumor-size = 30-34: recurrence-events
| tumor-size = 35-39: recurrence-events
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| tumor-size = 40-44: recurrence-events
| tumor-size = 45-49: no-recurrence-events
| tumor-size = 50-54: null
| tumor-size = 55-59: null
inv-nodes = 9-11: recurrence-events
inv-nodes = 12-14
| tumor-size = 0-4: null
| tumor-size = 5-9: null
| tumor-size = 10-14: null
| tumor-size = 15-19: no-recurrence-events
| tumor-size = 20-24: null
| tumor-size = 25-29: recurrence-events
| tumor-size = 30-34: recurrence-events
| tumor-size = 35-39: null
| tumor-size = 40-44: null
| tumor-size = 45-49: null
| tumor-size = 50-54: null
| tumor-size = 55-59: null
inv-nodes = 15-17
| age = 10-19: null
| age = 20-29: null
| age = 30-39: null
| age = 40-49: recurrence-events
| age = 50-59: no-recurrence-events
| age = 60-69: null
| age = 70-79: null
| age = 80-89: null
| age = 90-99: null
inv-nodes = 18-20: null
inv-nodes = 21-23: null
inv-nodes = 24-26: recurrence-events
inv-nodes = 27-29: null
inv-nodes = 30-32: null
inv-nodes = 33-35: null
inv-nodes = 36-39: null
Time taken to build model: 0.02 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances
158
57.4545 %
Incorrectly Classified Instances
85
30.9091 %
Kappa statistic
0.1053
Mean absolute error
0.3067
Root mean squared error
0.5497
Relative absolute error
84.219 %
Root relative squared error
129.1389 %
UnClassified Instances
32
11.6364 %
Total Number of Instances
275
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure Class
0.786 0.686
0.739 0.786 0.762 no-recurrence-events
0.314 0.214
0.373 0.314 0.341 recurrence-events
=== Confusion Matrix ===
a b <-- classified as
136 37 | a = no-recurrence-events
48 22 | b = recurrence-events
Anexo 5
Classificação com o J48, com a configuração Básica.
=== Run information ===
Scheme:
weka.classifiers.trees.J48 -C 0.25 -M 2
Relation: breast-cancer
Instances: 275
Attributes: 10
age
menopause
tumor-size
inv-nodes
node-caps
deg-malig
breast
breast-quad
irradiat
Class
Test mode: 10-fold cross-validation
=== Classifier model (full training set) ===
J48 pruned tree
-----------------node-caps = yes
| deg-malig = 1: recurrence-events (0.0)
| deg-malig = 2: no-recurrence-events (25.0/8.0)
| deg-malig = 3: recurrence-events (29.0/7.0)
node-caps = no: no-recurrence-events (221.0/50.0)
Number of Leaves :
4
Size of the tree : 6
Time taken to build model: 0.16 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances
203
Incorrectly Classified Instances
72
Kappa statistic
0.222
Mean absolute error
0.3691
Root mean squared error
0.4524
Relative absolute error
89.3006 %
Root relative squared error
99.5959 %
Total Number of Instances
275
=== Detailed Accuracy By Class ===
73.8182 %
26.1818 %
TP Rate FP Rate Precision Recall F-Measure Class
0.944 0.763
0.751
0.944 0.836
no-recurrence-events
0.238 0.056
0.633
0.238 0.345
recurrence-events
=== Confusion Matrix ===
a
b <-- classified as
184 11 | a = no-recurrence-events
61 19 | b = recurrence-events
Anexo 6
Classificação com o NaïveBayes, com a configuração Básica.
=== Run information ===
Scheme:
weka.classifiers.bayes.NaiveBayes
Relation: breast-cancer
Instances: 275
Attributes: 10
age
menopause
tumor-size
inv-nodes
node-caps
deg-malig
breast
breast-quad
irradiat
Class
Test mode: 10-fold cross-validation
=== Classifier model (full training set) ===
Naive Bayes Classifier
Class no-recurrence-events: Prior probability = 0.71
age: Discrete Estimator. Counts = 1 2 21 63 70 39 6 1 1 (Total = 204)
menopause: Discrete Estimator. Counts = 6 91 101 (Total = 198)
tumor-size: Discrete Estimator. Counts = 8 5 28 24 34 34 34 13 17 3 6 1 (Total = 207)
inv-nodes: Discrete Estimator. Counts = 167 17 8 3 2 4 1 1 1 1 1 1 1 (Total = 208)
node-caps: Discrete Estimator. Counts = 25 172 (Total = 197)
deg-malig: Discrete Estimator. Counts = 58 101 39 (Total = 198)
breast: Discrete Estimator. Counts = 101 96 (Total = 197)
breast-quad: Discrete Estimator. Counts = 69 74 21 18 18 (Total = 200)
irradiat: Discrete Estimator. Counts = 32 165 (Total = 197)
Class recurrence-events: Prior probability = 0.29
age: Discrete Estimator. Counts = 1 1 16 28 22 18 1 1 1 (Total = 89)
menopause: Discrete Estimator. Counts = 1 34 48 (Total = 83)
tumor-size: Discrete Estimator. Counts = 2 1 2 7 15 19 25 7 7 2 4 1 (Total = 92)
inv-nodes: Discrete Estimator. Counts = 44 18 11 6 3 3 1 1 2 1 1 1 1 (Total = 93)
node-caps: Discrete Estimator. Counts = 31 51 (Total = 82)
deg-malig: Discrete Estimator. Counts = 10 29 44 (Total = 83)
breast: Discrete Estimator. Counts = 46 36 (Total = 82)
breast-quad: Discrete Estimator. Counts = 26 34 13 7 5 (Total = 85)
irradiat: Discrete Estimator. Counts = 31 51 (Total = 82)
Time taken to build model: 0.02 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances
203
Incorrectly Classified Instances
72
Kappa statistic
0.336
Mean absolute error
0.3039
Root mean squared error
0.4367
Relative absolute error
73.5395 %
Root relative squared error
96.1583 %
Total Number of Instances
275
73.8182 %
26.1818 %
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure Class
0.846 0.525
0.797 0.846 0.821 no-recurrence-events
0.475 0.154
0.559 0.475 0.514 recurrence-events
=== Confusion Matrix ===
a b <-- classified as
165 30 | a = no-recurrence-events
42 38 | b = recurrence-events
Download