Mineração de Dados: Conceitos e aplicação de algoritmos em uma

Mineração de Dados: Conceitos e aplicação de
algoritmos em uma Base de Dados na área da saúde
Felipe Cebulski Soczek¹, Regiane Orlovski²
¹,² Tecnologia em Análise e Desenvolvimento de Sistemas – Faculdade Guairacá
CEP 85010-000 – Guarapuava – PR – Brasil
¹[email protected], ²[email protected]
Abstract: The purpose of this article is to apply Data Mining thus presenting
the basic concepts, followed by the application of algorithms in two databases
in healthcare on Breast Cancer, thus showing how many people have chances
of developing Breast Cancer Benign or Cancer Maligo. The tool used was the
Weka software, which enabled to use the acquired knowledge to the literature
by putting them into practice. The algorithms presented best results among
several that were used were Jrip of Classification Rules, Decision Trees LMT
as well as Artificial Neural Networks.
Keywords: Data Mining; Concepts; Application Algorithm; Software Weka.
Resumo: O objetivo deste artigo é aplicar a Mineração de Dados
apresentando assim seus conceitos básicos, seguido da aplicação de
algoritmos em duas Bases de Dados na área da saúde sobre o Câncer de
Mama, apresentando assim quantas pessoas possuem chances de desenvolver
Câncer de Mama Benigno ou Câncer Maligo. A ferramenta utilizada foi o
software Weka, que possibilitou utilizar os conhecimentos adquiridos com o
levantamento bibliográfico colocando-os em prática. Os algoritmos que
melhor apresentaram resultados dentre os vários que foram utilizados foram o
Jrip de Regras de Classificação, LMT de Árvores de Decisão e também as
Redes Neurais Artificiais.
Palavras chaves: Mineração de Dados; Conceitos; Aplicação de Algoritmos;
Software Weka.
Introdução
Atualmente existe uma grande quantia de áreas de trabalho e pesquisa que estão
informatizados, contando assim com diferentes sistemas que auxiliam diariamente e
armazenam dados e informações. Com a utilização dos meios corretos para esta retirada
de conhecimento destes dados, podem-se visar melhorias de serviços, observar padrões,
auxiliar em estudos, entre outras finalidades.
Devido aos avanços tecnológicos nos dias atuais, as áreas corporativas e de
pesquisa vêm se mostrando cada vez mais preparadas para este armazenamento de
dados, dessa forma é extremamente necessário o estudo sobre a Mineração de Dados e o
investimento neste setor de busca de informação útil. Para se demonstrar algumas
informações que são obtidas com a utilização da Mineração de Dados, foi escolhida
uma Base de Dados na área da saúde, que trata particularmente sobre o Câncer de
Mama. Existem diversas áreas passiveis da utilização da Mineração de dados, porém a
área da saúde é um diferencial, pois os avanços dela são de interesse mútuo das pessoas,
assim fazem-se necessários estudos nesta área com este tipo de aplicação.
O objetivo do trabalho é aplicar a Mineração de Dados com o software Weka,
apresentando as diversas estatísticas obtidas com os diferentes algoritmos utilizados e
mostrar as informações retornadas da Base de Dados, dividindo assim as pessoas com
potencial de desenvolvimento de Câncer Benigno ou Câncer Maligno.
Fundamentação Teórica
Com a necessidade de busca de informação constante, seja em qualquer área do
conhecimento, faz-se necessária uma ferramenta que proporcione tais possibilidades de
auxílio à decisão, busca de informações corretas e seguras. Afirma Côrtes (2002), que a
Mineração de Dados esta progredindo e fazendo-se necessária cada vez mais, sendo
uma ferramenta segura para se buscar informações úteis, possibilitando guiar tomadas
de decisões em condições de certeza limitada.
Com a grande quantia de informação obtida diariamente Amorim (2006), cita
que nos dias atuais as organizações mostram que estão avançadas nesta obtenção diária
de informações, porém a grande maioria não utiliza os meios corretos para extrair
informação dessas imensas bases de dados. Ainda nas palavras de Amorim (2006), essa
forma inadequada de extrair informação desses dados prejudica e muito as suas
atividades, sendo que com grandes investimentos nessa área de armazenamento de
dados faz-se necessária o estudo da forma correta da busca de informação. Cita
Bortoleto (2007), que as empresas estão em um cenário de constante competição por
mercados cada vez menores, sendo assim, as melhoras nos serviços e a busca constante
de melhorias é o que possibilitará a sobrevivência e progresso das empresas, ou de
qualquer área.
Nas palavras de Dantas (2008), a grande importância da utilização da
Mineração se da às grandes quantias de informações guardadas, onde esses arquivos
possuem informações úteis, porém de difícil interpretação, auxiliando em previsões
futuras tornando então dados sem utilidades e desorganizados em grandes fontes de
informação.
Para ressaltar a importância da praticidade e confiabilidade da Mineração de
Dados, Cita Goldshmidt (2011), que com a grande quantia de informação que se
aglomera em grandes bases de dados faz-se necessário o estimulo sobre o estudo da
Mineração de Dados e suas técnicas, buscando conhecimento que auxiliarão na
competitividade de serviços de empresas e micro empresas podendo assim melhorar
seus negócios, traduzindo-se em diferenciais mercadológicos trazendo lucros.
Reforçando esta idéia Gomes (2008), cita que com a crescente informatização no
mundo em todos os tipos de negócio, o volume de dados armazenados é enorme, e
tornam-se cada vez mais difíceis de serem trabalhados com formas e métodos
tradicionais, sendo assim, para contornar tais problemas surgiram os conceitos de
Mineração de Dados, onde a mesma faz parte do processo de Descoberta de
Conhecimento em Bases de Dados / Knowledge Discovery in Database (KDD) que tem
a finalidade de auxiliar na busca e descoberta de conhecimento e informações úteis em
grandes volumes de dados.
Para melhor explicar este processo no qual a Mineração de Dados faz parte
Maimon (2009), cita que KDD é o processo organizado que visam buscar novos
padrões e informações úteis dentro de grandes complexos conjuntos de dados, sendo o
núcleo desse processo a Mineração de Dados que envolvem seus algoritmos de que
exploram os dados, modelando e encontrando padrões até então desconhecidos. Ainda
nas palavras de Maimon (2009), estima-se que as informações que se encontram
armazenadas estão dobrando de tamanho a cada 20 meses, sendo assim, fica
extremamente difícil compreender e fazer uso destas informações sem a Mineração de
Dados, com esse ritmo acelerado de armazenamento.
Para o auxílio e explicação da função do KDD Usama (1996), confirma que o
KDD é o conjunto de métodos desenvolvidos para buscar nos dados informações úteis e
que façam sentido, sendo sua utilidade principal mapear os dados tornando-os mais
compactos e mais fáceis de trabalhar, aplicando assim a Mineração de Dados a fim de
buscarem dados relevantes.
Para Han e Kamber (2006), o KDD se divide em sete passos, sendo eles:
Limpeza de Dados, Integração dos Dados, Seleções de Dados, Transformação dos
Dados/Pré-Processamento, Aplicação do algoritmo de Mineração de Dados e Avaliação
de Padrões.
Ainda nas palavras de Han e Kamber (2006), a Limpeza de Dados consiste em
corrigir erros que são encontrados facilmente em bases de dados, sendo que essas
imperfeições se não forem corrigidas, contornadas ou minimizadas, comprometem
muito a eficácia do resultado da Mineração de Dados.
A definição de Integração dos dados para Macêdo (2009), é a integração e
agrupamento se necessário dos dados que estão separados em diferentes partições,
ajustando assim os dados e visando ter mais informações sobre determinado assunto.
Santos (2005), afirma que a Seleções de Dados é onde o analisador separa a
informação, visando os arquivos necessários para se obter informações valiosas, e
descartando os arquivos sem utilidades, mais para isso o analisador tem que ter
profundo conhecimento e domínio das informações trabalhadas, não podendo assim
eliminar dados que possam influenciar no bom resultado final.
Para explicar a Transformação dos Dados/Pré-Processamento Graças (2009),
cita que é a etapa que prepara a informação e as transforma para receber a Mineração de
Dados em formato apropriado, sendo que essa etapa proporciona diferentes operações
para diferentes fins, sendo limpeza, integração, transformação de dados, entre outras.
Utilizando novamente as palavras de Graças (2009), afirma que a etapa da
aplicação do algoritmo de Mineração de Dados que se efetua a entrada com os dados já
organizados e limpos em busca da informação trazendo os padrões solicitados, sendo
que os diferentes tipos de algoritmos de Mineração de Dados vão diferenciar os tipos de
dados que serão retornados. Esta etapa é o coração do processo de KDD.
Para Moreira (2002), é na Avaliação de Padrões que se estudam os dados
retornados, sendo assim interpretados e avaliados, selecionando os dados úteis e
esquematizando-os de forma que possam ser utilizados.
As etapas explicadas anteriormente podem ser ilustradas na Figura 1:
Figura 1: Etapas do KDD. Fonte: Adaptação feita a partir de Han; Kamber (2006).
Nas palavras de Bonnard (2010), um dos maiores índices de fracasso e
informações incorretas vem da etapa de Pré-Processamento mal aplicada, sendo comuns
as Bases de Dados estarem dispostas fora de formato adequado, contendo também
dados ruidosos, dados faltantes ou incompletos, sendo assim, é fundamental para o
sucesso da Mineração de Dados aplicarem métodos de tratamento, limpeza e redução do
volume de dados, pois dessa forma pode-se ter uma maior confiança e credibilidade
sobre as informações que serão retiradas.
Nessa etapa de Pré-processamento Pereira (2006), descreve estas tarefas, sendo
elas:
- Integração dos dados: visa arrumar falhas e inconsistências dos nomes e
valores de atributos;
- Limpar os dados: corrige os erros, substituindo ou eliminando valores
perdidos;
- Converter dados: dados nominais ou em códigos para números inteiros;
- Redução de domínio: diminui a colocação dos valores em seus espaços
originalmente possíveis;
- Derivar ou construir novos atributos;
- Discretizar os dados: transforma os dados de atributos contínuos para
categóricos;
- Selecionar: seleciona os atributos que são relevantes para especificada tarefa.
Seguindo essas informações sobre Pré-Processamento de Dados, Bertholdo
(2012), cita que a Discretização, que também faz parte do Pré-Processamento, sendo de
grande importância para a preparação dos dados para a aplicação da Mineração de
Dados, pois é com ela que se podem separar os dados com maior relevância,
convertendo um atributo contínuo em discreto, definindo as categorias e mapeamento
dos valores.
Segundo Oliveira (2009), a Mineração de Dados é reconhecida pela execução de
suas diversas tarefas, sendo as mais comuns:
- Descrição: descreve padrões e tendências reveladas pelos dados, geralmente
oferecendo uma interpretação dos dados obtidos;
- Classificação: determina a qual classe um registro pertence, analisando assim
os conjuntos de registros fornecidos;
- Estimação ou Regressão: pode se estimar o valor de uma variável analisando as
demais;
- Agrupamento: aproxima os registros similares, identificando assim seus
grupos;
- Associação: identifica quais atributos estão relacionados;
Na Mineração de Dados existem diversos algoritmos para diferentes finalidades
se adaptando assim para diferentes buscas de dados, porém Halmenschlager (2002), cita
que entre as técnicas mais utilizadas estão as Árvores de Decisão, Regras de
Classificação e Redes Neurais, sendo que as Árvores de Decisão e as Regras de
Classificação são consideradas métodos simbólicos que representam por meio de
expressões o que é aprendido sobre os atributos dados, e já as Redes Neurais são
métodos conexionistas, onde consiste em ajustar pesos em uma rede.
Ainda nas palavras de Halmenschlager (2002), as Árvores de Decisão podem ser
aplicadas tranquilamente em grandes quantidades de dados se adequando também a
qualquer tipo de dado disponibilizando assim a facilidade de serem entendidas,
proporcionando ao usuário usar diretamente as informações obtidas.
Segundo Amo (2009), a Árvore de Decisão é uma estrutura de árvore sendo que
cada nó interno é um atributo do banco de dados de amostras, diferente dos atributos
classe, sendo as folhas valores do atributo classe, onde cada ramo é ligado de um nófilho a um nó-pai que é etiquetado com um valor do atributo do nó-pai, sendo assim,
existem tantos ramos quantos valores possíveis para tal atributo e um atributo que
aparece em um nó não podem aparecer nos nós descendentes.
Para ilustrar uma Árvore de Decisão, tem-se a Figura 2:
Figura 2: Árvore de Decisão. Fonte: Adaptação feita a partir da internet (2013).
Segundo Souza (2002), as Regras de Classificação é a predição de um valor que
um determinado atributo do conjunto assumirá dado um conjunto de valores dos demais
atributos do conjunto. Ainda nas palavras de Souza (2002), cita que os dois modelos
mais conhecidos de Regras de Classificação são:
- Stricto sensu: Se apresenta na forma de SE <Condição> ENTÃO
<Classificação>, sendo que se os valores assumidos atendem as condições do
antecedente da regra, então recebe a classe indicada pelo valor do atributo da
classificação.
- Indiretas: Sob forma de Árvores de Decisão, usando sequência hierárquica
construída ao longo de uma estrutura de Árvore com nós e folhas representando as
classes, podendo assim a Árvore exprimir diferentes Regras de Classificação.
Como no estudo será aplicado as Redes Neurais Artificiais, Antonio (2009), as
Redes Neurais Artificiais são uma abstração computacional que visa imitar o sistema
nervoso do ser humano em um computador com as funcionalidades do cérebro, fazendo
uso de um modelo abstrato matemático do neurônio, onde as ligações dos neurônios
(sinapses) são emuladas a partir de pesos, que são ajustadas durante o processo de
evolução do treinamento e aprendizado da rede. Antonio (2009), ainda cita que o corpo
celular é emulado pela composição de duas funções chamadas de funções de ativação e
propagação onde estas funções realizam o mapeamento e a transferência dos sinais de
entrada em um único sinal de saída, então esta saída é propagada para os neurônios
seguintes da rede, como no modelo biológico.
Segundo Haykin (1999), o neurônio é uma unidade de informação e
processamento que o coração de uma Rede Neural formada por um conjunto de sinapses
ou elos de conexão onde cada uma se caracteriza por um peso ou força, um somador
para adicionar sinais da entrada ponderados pelas sinapses do neurônio, e uma função
de ativação para restringir a amplitude da saída de um neurônio, que também é referida
como função restritiva já que limita o intervalo do sinal de saída a um valor finito.
Para melhor ilustrar como um neurônio artificial é disposto, tem-se a Figura 3:
Figura 3: Neurônio Artificial. Fonte: Adaptação feita a partir da internet (2013).
Para a utilização prática foi escolhido o software Weka, onde cita R. Bouckaert
(2010), que esta ferramenta foi criada em 1993 na Universidade de Waikato na Nova
Zelândia, utiliza linguagem Java dentro das especificações da GPL (General Public
License) apropriada para se iniciar os estudos em Mineração de Dados, sendo assim
utilizada no meio acadêmico, dando a oportunidade de serem aprendidos os conceitos
básicos da Mineração de Dados. Ainda nas palavras de R. Bouckaert (2010), com esta
ferramenta podem ser conduzidos processos de Mineração de Dados de forma simples,
avaliando assim seus resultados obtidos, oferecendo também recursos para executar PréProcessamentos de dados, Classificação, Clusterização, Associação, e vários outros
suportes tais como a visualização dos dados, edição dos atributos, também tendo como
característica principal sua portabilidade, podendo rodar nas mais diversas plataformas,
sendo assim, se beneficia da linguagem orientada a objetos com vantagens como
polimorfismo, encapsulamento, reutilização de código, dentre outras.
O software Weka disponibiliza na sua interpretação dos dados a estatística
Kappa, onde cita Simões (2011), que é de grande importância sendo que com esta
estatística pode se avaliar o nível de concordância e ligação dos dados dentro de uma
Base de Dados, sendo que se o número estatístico ficar próximo do 0 (zero) significa
uma maior discordância das informações, e ficando o mais próximo do 1 (um) indica
assim uma maior ligação e concordância.
Reforçando este conceito sobre a importância da Estatística Kappa, Castro
(2010), cita que é muito valiosa para se mensurar a qualidade da classificação e para dar
a estatística de quanto às observações se afastam daquelas esperadas, frutos do acaso e
indicando assim quão legítimas as interpretações são de acordo com a Tabela 1.
Tabela 1: Valores da Estatística Kappa. Fonte: Landis e Koch, 1977.
Ainda nas palavras de Castro (2010), o Weka disponibiliza outra forma para
auxiliar na representação da qualidade da classificação que é a Matriz de confusão, que
é uma representação em linhas e colunas correspondentes às áreas de teste e
treinamento, ela mostra a hipótese h oferecendo uma medida efetiva do modelo de
classificação, ao mostrar o número de classificações corretas versus as classificações
preditas para cada classe, sobre um conjunto de exemplos t.
Após então a escolha da ferramenta passou para a etapa de análise e seleção da
Base de Dados, onde foram escolhidas duas bases na área da saúde, que tratam sobre o
câncer de mama. Como cita Fátima (2009), conhecimento e informação, são quesitos
fundamentais para o bom funcionamento e progressão, tanto na área da saúde bem como
no controle social, tomada de decisão, instituições de ensino, mercado financeiro,
empresas de produção, setores esses que estão crescentemente encontrando na
Mineração de Dados maneiras de melhor monitorar seus dados, seja para previsões de
risco, consumo de clientes, monitoramento de arrecadações, riscos do mercado,
colocando assim a Mineração de Dados em seus cotidianos.
Segundo Dreyer (2009), a informática tem se apresentado extremamente
crescente na última década auxiliando a área da Saúde por meio de utilizações de
recursos tecnológicos. Assim com essa utilização da informática na Saúde facilita o
acesso de informações dando suporte à prática nos serviços da saúde, pois as
informações retiradas da mesma são complexas. Citam-se a seguir alguns pontos
positivos na sua utilização, tais como:
- Aumento da adesão aos protocolos clínicos;
- Melhorias na capacidade de monitorar doenças, suas condições e sintomas;
- Redução de erros nas medicações e diagnósticos;
- Melhor aproveitamento do tempo dos profissionais;
Como cita Bernardes (2007), faz-se muito necessário no setor da saúde uma
ferramenta que de suporte e que traga informações exatas para auxiliar nas suas tomadas
de decisões, buscando assim em suas informações obtidas dados relevantes que venham
a ser necessários.
Ainda nas palavras de Bernardes (2007), no segmento hospitalar e da saúde,
guardam-se informações muito relevantes dos pacientes, diagnósticos, tratamentos,
exames, medicamentos, assim sendo difícil de encontrar informação útil dentro de toda
essa concentração de dados, é então que a tecnologia se aplica. Dessa forma, com a
aplicação da Mineração de Dados, contando com dados sólidos e esquematizados, pode
se encontrar grandes auxílios para o progresso na área da saúde, selando assim a
confirmação de que tecnologia anda ao lado de todas as ciências.
Segundo L. Houston (1999), as características de uma população podem ser
estudadas para apresentar fatores associados com um resultado, estudos observacionais
como Estatística, Mineração de Dados, Aprendizagem, são de muita ajuda para associar
essas informações com devidas metas, reforçando assim que o estudo dos dados está se
tornando um grande reforço para as áreas científicas como a medicina, biotecnologia e
pesquisas em geral.
Seguindo o pensamento sobe estudos observacionais que envolvem o ser
humano e a área da saúde, o Instituto Nacional de Câncer (2012), cita que o Câncer é
uma das doenças que mais ocorrem no Brasil, onde este estudo chamado incidência de
Câncer no Brasil traz anualmente relatórios desta enfermidade mostrando os tipos de
Câncer que mais atingem a população. Ainda no relatório do Instituto Nacional de
Câncer (2012), traz a estatística sobre o Câncer de mama atingir aproximadamente 53
mil mulheres em 2012/2013, ficando assim em terceiro lugar entre os Cânceres com
mais ocorrência e vítimas no Brasil.
Segundo Swaroop (2009), o Câncer de mama é uma doença onde as células se
dão formação nos tecidos da mama, sendo a segunda principal causa de morte por
câncer entre as mulheres perdendo somente para o Câncer de pulmão, sendo também o
câncer mais comum entre mulheres com exceção do Câncer de pele.
Citando novamente os dados do Instituto Nacional de Câncer (2012), o Câncer
de mama é a doença que mais atinge as mulheres em todo o mundo, tanto em países
desenvolvidos como em países em desenvolvimento, sendo que o fator principal de
risco é a idade, o Brasil oferece o exame clínico das mamas a partir dos 40 anos e um
exame mamográfico a cada dois anos, para mulheres de 50 a 69 anos.
Etapas do desenvolvimento do trabalho
A visão sobre a elaboração do trabalho baseia-se em minerar dados focando a área da
saúde, sendo esta área muito promissora junto a Mineração de Dados. Com várias
opções na área da saúde passíveis de serem trabalhadas com a Mineração de dados foi
escolhido trabalhar com duas bases de dados sobre o Câncer de Mama, que é um tema
de grande relevância, sendo uma doença que atinge mulheres do mundo todo.
Buscou-se então uma ferramenta que poderia ser utilizada para retirar
informações e estatísticas das bases escolhidas. Foi escolhida então a ferramenta Weka,
que é utilizada no meio acadêmico para se iniciar os estudos em Mineração de Dados,
contando com uma vasta literatura sobre seu funcionamento e utilização.
O Weka também proporciona uma grande biblioteca de algoritmos de Mineração
de Dados que pode suprir e trazer bons resultados para poder ser apresentados e
comprovarem a eficácia da Mineração de Dados.
Entrando na parte prática do trabalho, primeiramente foram estudadas as bases
escolhidas, analisando assim seus dados e o que ela proporcionava para ser trabalhado.
Nesta etapa foram verificados os atributos das duas bases, trazendo informação sobre os
mesmos para melhor se entender suas relações e qual as suas relevâncias perante a
aplicação dos algoritmos e quais resultados poderiam trazer. A descrição dos atributos
das duas Bases de Dados utilizadas estão apresentadas nos apêndices A e B.
Com os atributos citados nas duas bases nota-se a sua divisão em dois tipos de
dados, sendo eles Integer ou Varchar, que estipulam qual o grau da relevância dos seus
dados sobre números ou palavras. A estipulação destes valores sobre os dados são
efetuados dentro da Base de Dados conforme eles são recebidos e agrupados dentro de
suas referentes classes.
Um processo que também está presente na Mineração de dados e também foi
utilizado no trabalho é a Discretização, que visa melhor dispor os dados dentro de uma
classe, criando padrões onde tais dados serão alocados. A utilização deste processo visa
aumentar a chance de acerto do algoritmo de Mineração de Dados, porém não é sempre
que a sua utilização resultara em melhorias e mudanças. Tudo depende de como a Base
de Dados está disposta e como seus dados estão organizados.
Os algoritmos escolhidos para aplicação prática se dividem em:
- Jrip, OneR e ZeroR de Regras de Classificação;
- J48, REPTree, LMT de Árvores de Decisão;
- MultilayerPerceptron de Redes Neurais Artificiais;
Além da aplicação dos algoritmos de Mineração de dados, o Weka oferece os
Algoritmos de Fragmentação, que tratam da forma que o programa vai interagir com a
Base de Dados. Os dois utilizados são: Cross-Validation (Folds) e Percentage Split.
Na Cross-Validation o algoritmo realiza um laço de repetição de iterações, onde
os folds são os números de pares e subconjuntos treinamento-teste fornecidos na
entrada. Os resultados dos testes geram dados estatísticos, sendo finalizado e gerando as
informações. O número de Folds altera o resultado final da aplicação do Algoritmo de
Mineração de dados, dessa forma para se atingir um bom resultado deve-se testar
crescentemente ou decrescentemente o número dos mesmos.
Na Percentage Split cria-se um subconjunto de treinamento com i% do tamanho
da Base de Dados fornecida, sendo i a percentagem dada. Basicamente então, trata-se da
redução do tamanho da Base de Dados em uma percentagem do seu total, visando à
melhoria das estatísticas.
Para melhor entender as aplicações e estatísticas que serão apresentadas a seguir
deve-se relembrar que:
Discretização: Resume-se em Discretizar o atributo chave, ou não Discretizar
nenhum atributo. Na prática este processo foi utilizado para visar melhores resultados,
onde somente não foi aplicado nas Redes Neurais Artificiais;
Algoritmos de Fragmentação: Cross-Validation (Folds) que foram testados
crescente ou decrescentemente visando uma melhoria das estatísticas, e Split que divide
a Base de Dados, parte validando e outra parte treinando;
Algoritmo: Algoritmo Escolhido;
Acerto: A taxa geral de quanto o algoritmo conseguiu classificações corretas e
seguras;
Estatística Kappa: Mede o nível da concordância e ligação dos dados;
Matriz de Confusão: Apresenta em números a quantidade de classificações
corretas e incorretas. A diagonal direita representa os números das instâncias
classificadas corretamente, sendo elas A: Quantas tem riscos de desenvolver um Câncer
de Mama Benigno (superior esquerda) e B: Quantas tem riscos de desenvolver um
Câncer de Mama Maligno (inferior direita). Na diagonal esquerda estão apresentadas as
classificações erradas;
Segue então as informações obtidas com as aplicações de algoritmos de Regras
de Classificação na Base de Dados breast-w:
Tabela 2. Tabela Jrip com Folds
Tabela 3. Tabela Jrip com Split
Em geral se mostrou exato, com uma taxa de acerto quase que 100% nas duas
tabelas demonstrando assim uma boa confiabilidade, também com o índice Kappa
próximo de 1 que representa a concordância entre os dados, e com a diagonal de erro da
Matriz de Confusão com poucas classificações incorretas.
Tabela 4. Tabela OneR com Folds
Tabela 5. Tabela OneR com Split
Mostrou-se correto com índice de acerto maior que 90%, porém a Estatística
Kappa atingiu um valor menor do que a do algoritmo Jrip, mas mesmo assim apresentou
concordância quase perfeita. Sua Matriz de Confusão também se mostrou muito
satisfatória com poucas classificações incorretas.
Tabela 6. Tabela ZeroR com Folds
Tabela 7. Tabela ZeroR com Split
O Algorito ZeroR teve uma taxa de acerto menor se comparada aos outros, pois
não possibilitou a visualização da Estatística Kappa, afetando assim seu resultado pela
falta de concordância.
Segue agora os resultados obtidos com a aplicação de algoritmos de Árvores de
Decisão:
Tabela 8. Tabela J48 com Folds
Tabela 9. Tabela J48 com Split
O algoritmo J48 retornou ótimos resultados, contendo a Estatística Kappa
superior do que a do algoritmo de Regras de Classificação OneR. Sua Matriz de
Confusão se mostrou satisfatória apresentando poucos erros em sua diagonal.
Tabela 10. Tabela REPTree com Folds
Tabela 11. Tabela REPTree com Split
O algoritmo REPTree se mostrou claro em sua aplicação, trazendo assim um
índice de acerto levemente maior do que a do algoritmo J48 representando assim maior
confiabilidade, porém suas Estatísticas Kappa ficaram muito semelhantes. Sua Matriz
de Confusão apresentou uma taxa muito satisfatória em sua diagonal de acerto (direita).
Tabela 12. Tabela LMT com Folds
Tabela 13. Tabela LMT com Split
O algoritmo LMT foi um algoritmo extremamente pesado para se rodar em um
computador simples, demorando um pouco para retornar suas estatísticas. Porém como
pode ser visto, equiparou seu índice de acerto ao do algoritmo de Regras de
Classificação Jrip, e também foi o que melhor retornou a Estatística Kappa dos
algoritmos de Árvores de Decisão.
A seguir na Tabela 14, 15, 16,17 e 18 serão apresentados as informações obtidas
por meio da utilização do algoritmo MultilayerPerceptron (Redes Neurais Artificiais).
A tabela de informações apresentada com as Redes Neurais Artificiais será a mesma dos
algoritmos de Regras de Classificação e Árvores de Decisão, porém o Algoritmo de
Fragmentação será apenas o Cross-Validation (Folds), também será acrescentado o
atributo na tabela de resultados chamado Camadas Ocultas, e não será discretizado
nenhuma classe. Para padronizar a utilização das Redes Neurais Artificiais, todas as
aplicações utilizaram cinco (5) Folders.
As Camadas Ocultas são representadas por letras, sendo que cada uma das letras
se refere à maneira com que o algoritmo irá trabalhar com a Base de Dados. O Weka
possui um help onde ele explica de que forma as Camadas Ocultas irão se aplicar dentro
da Base de Dados, sendo eles:
A – Se refere aos atributos + classes /2
I – Somente atributos
O – Somente classes
T – Atributos + classes
Tabela 14. Tabela MultilayerPerceptron com Camadas ocultas A
Nesta aplicação foi utilizada para se ilustrar uma Rede Neural Artificial a figura
gerada pelo software Weka. Segue então a Figura 4:
Figura 4: Rede Neural Artificial. Fonte: Adaptação feita a partir do software Weka (2013).
Esta aplicação mostrou um acerto de 95%, com a Estatística Kappa com
concordância quase perfeita, gerando poucas classificações incorretas na Matriz de
Confusão. Sua Camada Oculta é A, desta forma utilizando atributos e classes da Base
de Dados, dividindo-os por dois.
Tabela 15. Tabela MultilayerPerceptron com Camadas ocultas I
A aplicação com a Camada Oculta I mostrou estatísticas levemente abaixo das
oferecidas pela Camada Oculta A, continuando assim à apresentar dados confiáveis e
uma Matriz de Confusão muito satisfatória.
Tabela 16. Tabela MultilayerPerceptron com Camadas ocultas O
As estatísticas alcançadas por meio das Camadas Ocultas O, se equipararam
quase que identicamente das do A, porém com algumas diferenças em suas Matrizes de
Confusão.
Tabela 17. Tabela MultilayerPerceptron com Camadas ocultas T
A Camada Oculta T também trouxe informações que se equipararam as demais
camadas.
Tabela 18. Tabela MultilayerPerceptron com Camadas ocultas 50
Neste resultado se estipulou cinquenta (50) Camadas Ocultas com o objetivo de
fugir dos padrões para buscar um resultado diferente, retornando assim informações que
se equiparam aos demais resultados, porém tendo a melhor Estatística Kappa.
A partir desta parte do trabalho, começa-se a aplicação dos algoritmos na
Segunda Base de Dados, porém tal se mostrou menos confiável em seus resultados, pelo
fato de seus dados estarem menos organizados e agrupados, mas ainda sim pode se
obter informações relevantes.
Base de dados breast-cancer, aplicação Algoritmos de Regras de Classificação:
Tabela 19. Tabela JRip com Folds
Tabela 20. Tabela JRip com Split
O algoritmo JRip se mostrou eficaz em classificar, teve 75% de Acerto das
classificações da Base de Dados, também com uma Estatística Kappa razoável e sua
Matriz de Confusão trazendo alguns erros de classificação. A discretização do atributo
Tumor-size se implica pela sua importância para com as informações dispostas dentro
desta Base de Dados, se mostrando importante pela sua descrição e pelo seu número de
ocorrências apresentado estatisticamente pelo software Weka.
Tabela 21. Tabela OneR com Folds
Tabela 22. Tabela OneR com Split
O algoritmo OneR trouxe um índice de acerto menor do que o do algoritmo Jrip,
sendo inferior também na Estatística Kappa e na Matriz de Confusão demonstrando
uma grande discordância dos dados.
Tabela 23. Tabela ZeroR com Folds
Tabela 24. Tabela ZeroR com Split
O algoritmo ZeroR trouxe uma leve melhora na sua taxa de Acerto em
comparação ao algoritmo OneR, porém como este algoritmo não possui a Estatística
Kappa e com sua Matriz de Confusão com dados faltantes se torna menos exato que os
demais.
Segue então a aplicação dos algoritmos de Árvores de Decisão na segunda Base
de Dados:
Tabela 25. Tabela J48 com Folds
Tabela 26. Tabela J48 com Split
O algoritmo J48 alcançou um bom número no Acerto ficando próximo do
algoritmo Jrip, porém tendo uma Estatística Kappa com leve concordância.
Tabela 27. Tabela REPTree com Folds
Tabela 28. Tabela REPTree com Split
O algoritmo REPTree se mostrou razoável em comparação as informações
colhidas dos demais algoritmos, porém se mostrou falho ao retornar a estatística Kappa
do atributo Tumor-size que foi Discretizado, retornando valor 0. Sua matriz de
Confusão equipara seu resultado aos demais apresentados na segunda Base de Dados.
Tabela 29. Tabela LMT com Folds
Tabela 30. Tabela LMT com Split
O algoritmo LMT foi o melhor no retorno de informações em relação aos outros
algoritmos, tanto nos de Regras de Classificação como nos de Árvores de Decisão.
Apresentou uma taxa de Acerto em torno de 75% e com sua Estatística Kappa atingindo
uma concordância regular. Apresentou também uma Matriz de Confusão levemente
melhor em comparação aos outros algoritmos, sendo assim com menos classificações
incorretas.
Na sequência apresentam-se as informações obtidas com a utilização das Redes
Neurais Artificiais para a segunda Base de Dados:
Tabela 31. Tabela MultilayerPerceptron com Camadas ocultas A
Retornou uma taxa de Acerto de 66%, com a estatística Kappa em 0,16 tendo
assim uma concordância de dados regular.
Tabela 32. Tabela MultilayerPerceptron com Camadas ocultas I
Com as Camadas Ocultas I teve uma taxa de Acerto igual a das Camadas
Ocultas A, porém com uma melhora na Estatística Kappa.
Tabela 33. Tabela MultilayerPerceptron com Camadas ocultas O
A Camada Oculta O apresentou uma ótima estatística, superando aos demais na
taxa de Acerto, Estatística Kappa e Matriz de Confusão.
Tabela 34. Tabela MultilayerPerceptron com Camadas ocultas T
Retornou uma taxa de Acerto em 69%, tendo a Estatística Kappa e Matriz de
Confusão regular.
Tabela 35. Tabela MultilayerPerceptron com Camadas ocultas 50
Com 50 Camadas Ocultas, apresentou as mesmas estatísticas obtidas com a
Camada Oculta O.
A aplicação dos algoritmos nas duas Bases de Dados retornou o mesmo tipo de
informação de saída, especificando a quantia de pessoas com suas diferentes
características podem desenvolver um Câncer Maligno ou um Câncer Benigno. Desta
forma, medem a recorrência dos fatores cancerígenos nos diferentes casos relatados nas
bases, agrupando e classificando os casos em uma das saídas (Maligno ou Benigno).
Como as duas bases têm o mesmo fim, a aplicação nesta área da saúde teria a
finalidade de mostrar e dividir os casos de pessoas que foram arquivados, e
estatisticamente classificá-los para se dizer quantos casos tem grandes chances de
desenvolver um Câncer Maligno e quantos casos têm a chance de desenvolver um
Câncer Benigno.
Resultados
Com a aplicação dos algoritmos de Mineração de Dados fornecidos pode-se ver as
diferentes estatísticas e informações levantadas, podendo desta forma ver os algoritmos
que melhor se comportaram para esta finalidade, que é classificar os pacientes que
podem desenvolver um Câncer de Mama Benigno ou Câncer Maligno.
O software Weka se comportou de forma esperada junto às Bases de Dados,
trazendo assim informações claras das aplicações de seus diferentes algoritmos e
estatísticas, podendo aplicar assim os conteúdos estudados e levantados nas referências
bibliográficas em prática.
O processo de Discretização que faz parte do Pré-Processamento de Dados pode
ser visto utilizado na prática, mostrando assim casos em que trouxe melhorias das
estatísticas gerais, aplicado nos atributos chaves das Bases de Dados organizando-os.
Dentre o processo de Discretização pode ser visto também em prática a utilização dos
Algoritmos de Fragmentação e a sua relevância para o resultado dos algoritmos
principais, sendo eles modificados em cada aplicação visando à melhoria dos resultados,
também a importância da Taxa de Acerto, Estatística Kappa e Matriz de Confusão,
auxiliando o entendimento sobre as aplicações e exatidão das informações levantadas.
Em relação à primeira Base de Dados, o algoritmo de Regras de Classificação
que apresentou melhores resultados é o JRIP utilizando Split, com Acerto de 97% e
Estatística Kappa 0,9479. A Matriz de Confusão que melhor alcançou resultados
apresentou 80 pessoas com chances de Câncer de Mama Benigno, e 43 Malignos. O
melhor algoritmo de Árvores de Decisão foi o LMT também utilizando Split,
alcançando 96% de Acerto, Estatística Kappa chegando a 0,9291. Em sua melhor
Matriz de Confusão, classificou 289 casos com chances de desenvolver Câncer de
Mama Benigno e 157 Maligno. Com o algoritmo de Redes Neurais Artificiais, seu
melhor resultado foi com a utilização de 50 Camadas Ocultas e 5 Folds, com 95% de
acerto e chegando á 0,909 de Estatística Kappa. Em sua melhor Matriz de Confusão
classificou 439 casos com chance de desenvolver um Câncer de Mama Benigno e 231
Maligno. O algoritmo que menos se mostrou exato em sua aplicação na Base de Dados
foi o ZeroR de Regras de Classificação, retornando uma taxa de acerto de 65% e
impossibilitando a visualização da Estatística Kappa e Matriz de Confusão.
Na segunda Base de Dados não foi possível equiparar os níveis de informações
obtidos na primeira Base de Dados, pois seus dados são completamente diferentes, desta
forma retornando um padrão diferente de obtenção de resultados.
Em relação aos algoritmos de Regras de Classificação na segunda base, o
algoritmo JRip apresentou Acerto de 75% utilizando Split, e 0,3889 de Estatística
Kappa. Sua melhor Matriz de Confusão apresentou 42 casos com potencial de
desenvolvimento de Câncer de Mama Benigno e 8 de Maligno. De Árvores de Decisão
o LMT apresentou 75% de Acerto utilizando o Split, com a Estatística Kappa de 0,3496.
Sua melhor Matriz de Confusão classificou 63 casos com potencial para Câncer de
Mama Benigno e 12 para Maligno. Com o algoritmo de Redes Neurais Artificiais, seu
melhor Acerto foi com a Camada Oculta O, que alcançou 74% com 5 Folds, e 0.3516
de Estatística Kappa. Sua melhor Matriz de Confusão classificou 173 casos com
potencial para Câncer Benigno e 40 para Maligno. O algoritmo ZeroR continuou sendo
o menos confiável, não apresentando a Estatística Kappa nem as classificações da
Matriz de Confusão.
Considerações Finais
A Mineração de Dados vem se mostrando cada vez mais necessária e disseminada nos
mais diversos campos e ambientes, facilitando e agilizando o processo de busca de
informação útil dentro de grandes quantidades de dados.
Com este trabalho foi possível compreender as etapas e conceitos que envolvem
a Mineração de Dados, dando ênfase na aplicação dos algoritmos de Regras de
Classificação, Árvores de Decisão e Redes Neurais Artificiais e suas estatísticas. A
aplicação destes diversos algoritmos é interessante pelo fato de poder assim tentar
alcançar melhores resultados com cada um, independente dos dados sendo trabalhados,
podendo assim comparar suas estatísticas, identificar os mais exatos e chegar aos
resultados mais corretos.
Também foi possível ter uma introdução sobre as informações que envolvem a
Mineração de Dados e seus conceitos, seguida então da aplicação de vários algoritmos
podendo assim ver quais tem o melhor desempenho em se tratando do foco das Bases de
Dados, que é a de classificar os atributos e seus tipos de dados informando quantas
pessoas estão passíveis de desenvolver um Câncer de Mama Maligno ou Benigno.
Como as duas bases têm a mesma finalidade, a aplicação nesta área da saúde
com estes tipos de dados visou à classificação de casos de Câncer de Mama que
poderiam ser Benignos ou Malignos, desta forma, este tipo de informação levantada
apresentado neste trabalho visa estatisticamente mostrar em arquivos de consultórios
médicos especializados no assunto, arquivos hospitalares, entre outras, quantas pessoas
apresentam fatores de risco que irão determinar o desenvolvimento de um Câncer
Benigno ou Maligno, podendo assim estudar estes fatores de risco e assim visar
melhorias em seus tratamentos ou prevenção.
Referências
Amo, Sandra de. Técnicas de Mineração de Dados. Uberlândia, 2009. Disponível em:
<http://www.lsi.ufu.br/documentos/publicacoes/ano/2004/JAI-cap5.pdf>. Acesso
em: 16/04/13.
Amorim, Thiago. Conceitos, técnicas, ferramentas e aplicações de Mineração de
Dados para gerar conhecimento a partir de bases de dados. Pernambuco. 2006.
Disponível em: <http://www.cin.ufpe.br/~tg/2006-2/tmas.pdf> Acesso em:
03/04/2013.
Antonio Carlos Gay, Thomé. Redes Neurais - Uma Ferramenta Para KDD e Data
mining. Rio de Janeiro, 2009. Disponível em:
<http://funk.on.br/esantos/doutorado/INTELIG%CANCIA%20ARTIFICIAL/T%C9
CNICAS/REDES%20NEURAIS/CURSO%20UFRJ%20de%20RN/22.pdf>. Acesso
em: 16/04/13.
Bernardes Ribeiro da Costa, Rodrigo. Aplicação do Processo de Mineração de Dados
para Auxílio à Gestão do Pronto-Socorro de Clínica Médica do Hospital
Universitário de Brasília. Brasília, 2007. Disponível em: <monografias.cic.unb.br/dspace/bitstream/123456789/120/1/RODRIGO_BERNARDES_MONOGRAFIA.pdf>. Acesso em: 01/03/2013
Bertholdo, Leonardo. Técnicas De Mineração De Dados Na Classificação De
Ecotoxicidade De Água Para Aplicação Na Gestão De Corpos Hídricos.
Campinas, 2012. Disponível em:
<http://www.excelenciaemgestao.org/Portals/2/documents/cneg8/anais/T12_0480_2
516.pdf>. Acesso em: 16/04/13.
Bonnard Schonhorst, Gustavo. Mineração de Regras de Associação Aplicada à
Modelagem dos Dados Transacionais de um Supermercado. Itajubá, 2010.
Disponível em: <http://juno.unifei.edu.br/bim/0036319.pdf> Acesso em: 03/04/2013.
Bortoleto, Silvio. Aplicação de um sistema para mineração de dados de vendas.
Curitiba, 2007. Disponível em:
<http://www.aedb.br/seget/artigos07/1405_SetsMiner_V8B.pdf> Acesso em:
03/04/2013.
Castro, Dayan. Procedimentos de data mining na definição de valores para as
análises de multicritérios como apoio à tomada de decisões e análise espaciais
urbanas. Minas Gerais, 2010. Disponível em:
<http://www.arq.ufmg.br/SiteLabGeo/Laboratorio_Geo/Artigos/CBC2010_02CT03-1-VF.pdf> Acesso em: 05/06/2013.
Costa Cortês, Sérgio da. Mineração de Dados – Funcionalidades, Técnicas e
abordagens. Rio de Janeiro, 2002. Disponível em: <ftp://ftp.inf.pucrio.br/pub/docs/techreports/02_10_cortes.pdf> Acesso em: 03/04/2013.
Dantas, Eric. O Uso da Descoberta de Conhecimento em Base de Dados para
Apoiar a Tomada de Decisões. João Pessoa, 2008. Disponível em:
<http://www.aedb.br/seget/artigos08/331_331_Artigo_SEGET_EJDR_Versao_Final
_010808.pdf> Acesso em: 03/04/2013.
Das Graças J. M. Tomazela, Maria. Aplicação de Técnicas de Mineração de Dados
para Caracterização de Grupos de Cidades Produtoras de Cana-De-Açúcar do
Estado de São Paulo e Definição de Políticas Especificas. Indaituba, 2009.
Disponível em:
<http://www.fatecindaiatuba.edu.br/reverte_online/8aedicao/Artigo11.pdf>. Acesso
em: 16/04/13.
Dos Santos Cabral, Rafael. Mineração De Dados. Brasília, 2005. Disponível em:
<http://www.paulotarso.com/Files/FSI/Mineracao%20de%20Dados.pdf>. Acesso
em: 16/04/13.
Dreyer Galvão, Noemi. Aplicação da mineração de dados em bancos da segurança e
saúde pública em acidentes de transporte. São Paulo, 2009. Disponível em:
<http://www.saude.mt.gov.br/upload/documento/104/aplicacao-da-mineracao-dedados-em-bancos-da-seguranca-e-saude-publica-em-acidentes-de-transporte-[104180610-SES-MT].pdf>. Acesso em: 03/04/2013.
Fátima Marin, Heimar. Técnica de mineração de dados: Uma revisão da literatura.
Cuiabá, 2009. Disponível em: <http://www.scielo.br/pdf/ape/v22n5/14.pdf> Acesso
em: 03/04/20013.
Goldschmidt, Ronaldo. Mineração de dados: Aplicação prática em pequenas e
médias empresas. Jacarepaguá, 2011. Disponível em:
<http://www.fij.br/revista/arq/vol01_01/datamining.pdf> Acesso em: 03/04/2013.
Gomes de Sousa, Douglas. Mineração de Dados para Descoberta de Padrões:
Estudo Aplicado à Base de Dados da Delegacia Regional do Trabalho. Pelotas,
2008. Disponível em:
<http://www.ufpel.tche.br/prg/sisbi/bibct/acervo/info/2008/mono_douglas_sousa.pdf
> Acesso em: 03/04/2013.
Halmenschlager, Carine. Um Algoritmo Para Indução De Árvores E Regras De
Decisão. Porto Alegre, 2002. Disponível em:
<http://www.lume.ufrgs.br/bitstream/handle/10183/2755/000325797.pdf?sequence=
1>. Acesso em: 16/04/13.
Han, Jiawei & Kamber, Micheline. Data Mining: Concepts and Techniques, 2nd Ed.
Munich, 2006. Disponível em: <http://www.cs.uiuc.edu/~hanj/bk2/> Acesso em:
03/04/2013.
Haykin, Simon. Redes Neurais – 2ed. England, 1999. Disponível em:
<http://books.google.com.br/books?hl=ptBR&lr=&id=lBp0X5qfyjUC&oi=fnd&pg=PA27&dq=Redes+Neurais:+Princ%C3%
ADpios+e+Pr%C3%A1ticas++Simon+Haykin&ots=sxs1dHKA0X&sig=9X1zgdInm_Yg6aXZdUPyb7H69jE>
Acesso em: 23/04/13.
Instituto Nacional de Câncer José Alencar Gomes da Silva. Estimativa 2012 –
Incidência de Câncer no Brasil. Rio de Janeiro, 2012. Disponível em:
<http://www.inca.gov.br/rbc/n_57/v04/pdf/13_resenha_estimativa2012_incidencia_d
e_cancer_no_brasil.pdf>. Acesso em: 16/04/13.
L. Houston, Andrea. Medical Data Mining on the Internet: Research on a Cancer
Information System. Netherlands, 1999. Disponível em:
<http://citeseerx.ist.psu.edu/viewdoc/download?rep=rep1&type=pdf&doi=10.1.1.9.5
219>. Acesso em: 03/04/2013.
Macêdo Marques Gouveia, Roberta. Mineração De Dados Em Data Warehouse Para
Sistema De Abastecimento De Água. João Pessoa, 2009. Disponível em:
<http://www.lenhs.ct.ufpb.br/html/downloads/serea/teses/teses/dissertacao_roberta.p
df> Acesso em: 16/04/13.
Maimon, Oded. Introduction To Knowledge Discovery In Databases. Israel, 2009.
Disponível em: <http://www.ise.bgu.ac.il/faculty/liorr/hbchap1.pdf>. Acesso em:
16/04/13.
Moreira Pitoni, Rafael. Mineração de Regras de Associação nos Canais de
Informação do Direto. Porto Alegre, 2002. Disponível em:
<ftp://ftp.inf.ufrgs.br/pub/geyer/Alunos/RafaelPitoni/Dissertacao_Pitoni.pdf>.
Acesso em: 16/04/13.
Oliveira Camilo, Cássio. Mineração de Dados: Conceitos, Tarefas, Métodos e
Ferramentas. Goiás, 2009. Disponível em:
<http://www.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_00109.pdf>. Acesso em: 03/04/2013.
Pereira Leite Filho, Hugo. Aplicabilidade de memória lógica como ferramenta
coadjuvante no diagnóstico das doenças genéticas. Goiânia, 2006. Disponível em:
<http://tede.biblioteca.ucg.br/tde_busca/arquivo.php?codArquivo=425>. Acesso em:
03/04/2013.
R. Bouckaert, Remco. WEKA—Experiences with a Java Open-Source Project. New
Zealand, 2010. Disponível em:
<http://www.cs.waikato.ac.nz/~eibe/pubs/bouckaert10a.pdf>. Acesso em: 16/04/13.
Simões Pellucci, Paulo Roberto. Utilização de técnicas de Aprendizado de Máquina
no reconhecimento de entidades nomeadas no Português. Belo Horizonte, 2011.
Disponível em: <http://revistas.unibh.br/index.php/dcet/article/view/305/164>
Acesso em: 30/04/13.
Souza Vasconcelos, Benitz de. Mineração de Regras de Classificação com Sistemas
de Banco de Dados Objeto-Relacional. Campina Grande, 2002. Disponível em:
<http://docs.computacao.ufcg.edu.br/posgraduacao/dissertacoes/2002/Dissertacao_B
enitzDeSouzaVasconcelos.pdf>. Acesso em: 16/04/13.
Swaroop, Prem. Data Mining: Introduction and a Health Care Application.
Maryland, 2009. Disponível em:
<http://www.rhsmith.umd.edu/faculty/bgolden/classes_links/2009_jan_data%20mini
ng_BUDT%20758.pdf>. Acesso em: 03/04/2013.
Usama Fayyad, Gregory. From Data Mining to Knowledge Discovery in Databases.
Boston, 1996. Disponível em: <http://www.kdnuggets.com/gpspubs/aimag-kddoverview-1996-Fayyad.pdf>. Acesso em: 16/04/13.
Apêndices
 Descrição dos atributos das Bases de Dados
o Apêndice A: Descrição de atributos Base de Dados breast-w
Atributo
Clump_Tchikness
Descrição
Na sua espessura as células
benignas tendem a ser agrupadas
nas
monocamadas, enquanto que as
células cancerosas são muitas vezes
agrupadas em
multicamadas
Tipo de dado
Integer (1,10)
Cell_Size_Uniformity
Cell_Shape_Uniformity
Na uniformidade do tamanho
as células cancerosas tendem a
variar seu tamanho
Na uniformidade do tamanho as
células cancerosas tendem a variar
sua forma
Integer (1,10)
Integer (1,10)
Marginal_Adhesion
No caso da aderência das marginais
normais as
células tendem a ficar juntas,
habilidade que células cancerosas
tendem a perder, sendo assim um
sinal de malignidade
Integer (1,10)
Single_Epi_Cell_Size
As células epiteliais que são
significativamente
alargadas podem representar uma
célula maligna
Integer (1,10)
Bare_Nuclei
Bland_Chromatin
Normal_Nucleoli
Mitoses
Class
Os núcleos nus são um termo
utilizados para os núcleos que não
são rodeados pelo citoplasma (o
resto
da célula). Aqueles que são
tipicamente vistos em tumores
benignos
A cromatina descreve uma textura
uniforme do núcleo visto em
células benignas
Os nucléolos normais são pequenas
estruturas vistas no núcleo.
Em células normais, o nucléolo é
geralmente muito pequena se
visível. Em
células cancerosas o nucléolo
tornar-se mais proeminente,
havendo assim mais deles
É o processo em que a célula
divide e repetições. Os patologistas
podem determinar o grau da
anomalia levando em consideração
a contagem do número de mitoses
Indica com os dados citados acima
se o Câncer é benigno ou maligno
Integer (1,10)
Integer (1,10)
Integer (1,10)
Integer (1,10)
Varchar (benign, malignant)
o Apêndice B: Descrição de atributos Base de Dados breast-cancer
Atributo
age
menopause
tumor-size
inv-nodes
node-caps
deg-malig
breast
breast-quad
irradiat
class
Descrição
Trata-se da idade do indivíduo
Indica se o paciente é
pré-ou pós menopausa
no momento do diagnóstico
O maior diâmetro (em mm)
do tumor excisado
o número de linfonodos axilares
que contêm mama metastático pode
ser visível ao exame histológico
Mostra se o câncer não metastasise
para um linfonodo.
No entanto, ao longo do tempo, e
com doença mais agressiva,
o tumor pode voltar a colocar o nó
de linfa e depois penetrar na capsule
O grau de malignidade do tumor.
Os tumores que são constituídos
predominantemente em um grau de
células, onde o neo-plástico retêm
muitas das suas características
comuns.
O câncer de mama que pode
ocorrer em qualquer mama
Quadrante da mama que pode ser
dividida em quatro quadrantes,
utilizando o bico como um ponto
central
A radioterapia é um tratamento que
utiliza raios-x de alta energia para
destruir as células cancerosas
Demonstra se os dados recorrem
para um Câncer de Mama Benigno
ou Maligno
Tipo de dado
Integer (10-19 até 90-99)
Varchar (lt40, ge40,
premeno)
Integer (0-4 até 55-59)
Integer (0-2 até 36-39)
Varchar (Yes, No)
Integer (1, 2, 3)
Varchar (Left, Right)
Varchar (Left_up, Left_low,
Right_up, Right_low,
Central)
Varchar (Yes, No)
Varchar (No-recurrenceevents e Recurrence-events)