Mineração de Dados: Conceitos e aplicação de algoritmos em uma Base de Dados na área da saúde Felipe Cebulski Soczek¹, Regiane Orlovski² ¹,² Tecnologia em Análise e Desenvolvimento de Sistemas – Faculdade Guairacá CEP 85010-000 – Guarapuava – PR – Brasil ¹[email protected], ²[email protected] Abstract: The purpose of this article is to apply Data Mining thus presenting the basic concepts, followed by the application of algorithms in two databases in healthcare on Breast Cancer, thus showing how many people have chances of developing Breast Cancer Benign or Cancer Maligo. The tool used was the Weka software, which enabled to use the acquired knowledge to the literature by putting them into practice. The algorithms presented best results among several that were used were Jrip of Classification Rules, Decision Trees LMT as well as Artificial Neural Networks. Keywords: Data Mining; Concepts; Application Algorithm; Software Weka. Resumo: O objetivo deste artigo é aplicar a Mineração de Dados apresentando assim seus conceitos básicos, seguido da aplicação de algoritmos em duas Bases de Dados na área da saúde sobre o Câncer de Mama, apresentando assim quantas pessoas possuem chances de desenvolver Câncer de Mama Benigno ou Câncer Maligo. A ferramenta utilizada foi o software Weka, que possibilitou utilizar os conhecimentos adquiridos com o levantamento bibliográfico colocando-os em prática. Os algoritmos que melhor apresentaram resultados dentre os vários que foram utilizados foram o Jrip de Regras de Classificação, LMT de Árvores de Decisão e também as Redes Neurais Artificiais. Palavras chaves: Mineração de Dados; Conceitos; Aplicação de Algoritmos; Software Weka. Introdução Atualmente existe uma grande quantia de áreas de trabalho e pesquisa que estão informatizados, contando assim com diferentes sistemas que auxiliam diariamente e armazenam dados e informações. Com a utilização dos meios corretos para esta retirada de conhecimento destes dados, podem-se visar melhorias de serviços, observar padrões, auxiliar em estudos, entre outras finalidades. Devido aos avanços tecnológicos nos dias atuais, as áreas corporativas e de pesquisa vêm se mostrando cada vez mais preparadas para este armazenamento de dados, dessa forma é extremamente necessário o estudo sobre a Mineração de Dados e o investimento neste setor de busca de informação útil. Para se demonstrar algumas informações que são obtidas com a utilização da Mineração de Dados, foi escolhida uma Base de Dados na área da saúde, que trata particularmente sobre o Câncer de Mama. Existem diversas áreas passiveis da utilização da Mineração de dados, porém a área da saúde é um diferencial, pois os avanços dela são de interesse mútuo das pessoas, assim fazem-se necessários estudos nesta área com este tipo de aplicação. O objetivo do trabalho é aplicar a Mineração de Dados com o software Weka, apresentando as diversas estatísticas obtidas com os diferentes algoritmos utilizados e mostrar as informações retornadas da Base de Dados, dividindo assim as pessoas com potencial de desenvolvimento de Câncer Benigno ou Câncer Maligno. Fundamentação Teórica Com a necessidade de busca de informação constante, seja em qualquer área do conhecimento, faz-se necessária uma ferramenta que proporcione tais possibilidades de auxílio à decisão, busca de informações corretas e seguras. Afirma Côrtes (2002), que a Mineração de Dados esta progredindo e fazendo-se necessária cada vez mais, sendo uma ferramenta segura para se buscar informações úteis, possibilitando guiar tomadas de decisões em condições de certeza limitada. Com a grande quantia de informação obtida diariamente Amorim (2006), cita que nos dias atuais as organizações mostram que estão avançadas nesta obtenção diária de informações, porém a grande maioria não utiliza os meios corretos para extrair informação dessas imensas bases de dados. Ainda nas palavras de Amorim (2006), essa forma inadequada de extrair informação desses dados prejudica e muito as suas atividades, sendo que com grandes investimentos nessa área de armazenamento de dados faz-se necessária o estudo da forma correta da busca de informação. Cita Bortoleto (2007), que as empresas estão em um cenário de constante competição por mercados cada vez menores, sendo assim, as melhoras nos serviços e a busca constante de melhorias é o que possibilitará a sobrevivência e progresso das empresas, ou de qualquer área. Nas palavras de Dantas (2008), a grande importância da utilização da Mineração se da às grandes quantias de informações guardadas, onde esses arquivos possuem informações úteis, porém de difícil interpretação, auxiliando em previsões futuras tornando então dados sem utilidades e desorganizados em grandes fontes de informação. Para ressaltar a importância da praticidade e confiabilidade da Mineração de Dados, Cita Goldshmidt (2011), que com a grande quantia de informação que se aglomera em grandes bases de dados faz-se necessário o estimulo sobre o estudo da Mineração de Dados e suas técnicas, buscando conhecimento que auxiliarão na competitividade de serviços de empresas e micro empresas podendo assim melhorar seus negócios, traduzindo-se em diferenciais mercadológicos trazendo lucros. Reforçando esta idéia Gomes (2008), cita que com a crescente informatização no mundo em todos os tipos de negócio, o volume de dados armazenados é enorme, e tornam-se cada vez mais difíceis de serem trabalhados com formas e métodos tradicionais, sendo assim, para contornar tais problemas surgiram os conceitos de Mineração de Dados, onde a mesma faz parte do processo de Descoberta de Conhecimento em Bases de Dados / Knowledge Discovery in Database (KDD) que tem a finalidade de auxiliar na busca e descoberta de conhecimento e informações úteis em grandes volumes de dados. Para melhor explicar este processo no qual a Mineração de Dados faz parte Maimon (2009), cita que KDD é o processo organizado que visam buscar novos padrões e informações úteis dentro de grandes complexos conjuntos de dados, sendo o núcleo desse processo a Mineração de Dados que envolvem seus algoritmos de que exploram os dados, modelando e encontrando padrões até então desconhecidos. Ainda nas palavras de Maimon (2009), estima-se que as informações que se encontram armazenadas estão dobrando de tamanho a cada 20 meses, sendo assim, fica extremamente difícil compreender e fazer uso destas informações sem a Mineração de Dados, com esse ritmo acelerado de armazenamento. Para o auxílio e explicação da função do KDD Usama (1996), confirma que o KDD é o conjunto de métodos desenvolvidos para buscar nos dados informações úteis e que façam sentido, sendo sua utilidade principal mapear os dados tornando-os mais compactos e mais fáceis de trabalhar, aplicando assim a Mineração de Dados a fim de buscarem dados relevantes. Para Han e Kamber (2006), o KDD se divide em sete passos, sendo eles: Limpeza de Dados, Integração dos Dados, Seleções de Dados, Transformação dos Dados/Pré-Processamento, Aplicação do algoritmo de Mineração de Dados e Avaliação de Padrões. Ainda nas palavras de Han e Kamber (2006), a Limpeza de Dados consiste em corrigir erros que são encontrados facilmente em bases de dados, sendo que essas imperfeições se não forem corrigidas, contornadas ou minimizadas, comprometem muito a eficácia do resultado da Mineração de Dados. A definição de Integração dos dados para Macêdo (2009), é a integração e agrupamento se necessário dos dados que estão separados em diferentes partições, ajustando assim os dados e visando ter mais informações sobre determinado assunto. Santos (2005), afirma que a Seleções de Dados é onde o analisador separa a informação, visando os arquivos necessários para se obter informações valiosas, e descartando os arquivos sem utilidades, mais para isso o analisador tem que ter profundo conhecimento e domínio das informações trabalhadas, não podendo assim eliminar dados que possam influenciar no bom resultado final. Para explicar a Transformação dos Dados/Pré-Processamento Graças (2009), cita que é a etapa que prepara a informação e as transforma para receber a Mineração de Dados em formato apropriado, sendo que essa etapa proporciona diferentes operações para diferentes fins, sendo limpeza, integração, transformação de dados, entre outras. Utilizando novamente as palavras de Graças (2009), afirma que a etapa da aplicação do algoritmo de Mineração de Dados que se efetua a entrada com os dados já organizados e limpos em busca da informação trazendo os padrões solicitados, sendo que os diferentes tipos de algoritmos de Mineração de Dados vão diferenciar os tipos de dados que serão retornados. Esta etapa é o coração do processo de KDD. Para Moreira (2002), é na Avaliação de Padrões que se estudam os dados retornados, sendo assim interpretados e avaliados, selecionando os dados úteis e esquematizando-os de forma que possam ser utilizados. As etapas explicadas anteriormente podem ser ilustradas na Figura 1: Figura 1: Etapas do KDD. Fonte: Adaptação feita a partir de Han; Kamber (2006). Nas palavras de Bonnard (2010), um dos maiores índices de fracasso e informações incorretas vem da etapa de Pré-Processamento mal aplicada, sendo comuns as Bases de Dados estarem dispostas fora de formato adequado, contendo também dados ruidosos, dados faltantes ou incompletos, sendo assim, é fundamental para o sucesso da Mineração de Dados aplicarem métodos de tratamento, limpeza e redução do volume de dados, pois dessa forma pode-se ter uma maior confiança e credibilidade sobre as informações que serão retiradas. Nessa etapa de Pré-processamento Pereira (2006), descreve estas tarefas, sendo elas: - Integração dos dados: visa arrumar falhas e inconsistências dos nomes e valores de atributos; - Limpar os dados: corrige os erros, substituindo ou eliminando valores perdidos; - Converter dados: dados nominais ou em códigos para números inteiros; - Redução de domínio: diminui a colocação dos valores em seus espaços originalmente possíveis; - Derivar ou construir novos atributos; - Discretizar os dados: transforma os dados de atributos contínuos para categóricos; - Selecionar: seleciona os atributos que são relevantes para especificada tarefa. Seguindo essas informações sobre Pré-Processamento de Dados, Bertholdo (2012), cita que a Discretização, que também faz parte do Pré-Processamento, sendo de grande importância para a preparação dos dados para a aplicação da Mineração de Dados, pois é com ela que se podem separar os dados com maior relevância, convertendo um atributo contínuo em discreto, definindo as categorias e mapeamento dos valores. Segundo Oliveira (2009), a Mineração de Dados é reconhecida pela execução de suas diversas tarefas, sendo as mais comuns: - Descrição: descreve padrões e tendências reveladas pelos dados, geralmente oferecendo uma interpretação dos dados obtidos; - Classificação: determina a qual classe um registro pertence, analisando assim os conjuntos de registros fornecidos; - Estimação ou Regressão: pode se estimar o valor de uma variável analisando as demais; - Agrupamento: aproxima os registros similares, identificando assim seus grupos; - Associação: identifica quais atributos estão relacionados; Na Mineração de Dados existem diversos algoritmos para diferentes finalidades se adaptando assim para diferentes buscas de dados, porém Halmenschlager (2002), cita que entre as técnicas mais utilizadas estão as Árvores de Decisão, Regras de Classificação e Redes Neurais, sendo que as Árvores de Decisão e as Regras de Classificação são consideradas métodos simbólicos que representam por meio de expressões o que é aprendido sobre os atributos dados, e já as Redes Neurais são métodos conexionistas, onde consiste em ajustar pesos em uma rede. Ainda nas palavras de Halmenschlager (2002), as Árvores de Decisão podem ser aplicadas tranquilamente em grandes quantidades de dados se adequando também a qualquer tipo de dado disponibilizando assim a facilidade de serem entendidas, proporcionando ao usuário usar diretamente as informações obtidas. Segundo Amo (2009), a Árvore de Decisão é uma estrutura de árvore sendo que cada nó interno é um atributo do banco de dados de amostras, diferente dos atributos classe, sendo as folhas valores do atributo classe, onde cada ramo é ligado de um nófilho a um nó-pai que é etiquetado com um valor do atributo do nó-pai, sendo assim, existem tantos ramos quantos valores possíveis para tal atributo e um atributo que aparece em um nó não podem aparecer nos nós descendentes. Para ilustrar uma Árvore de Decisão, tem-se a Figura 2: Figura 2: Árvore de Decisão. Fonte: Adaptação feita a partir da internet (2013). Segundo Souza (2002), as Regras de Classificação é a predição de um valor que um determinado atributo do conjunto assumirá dado um conjunto de valores dos demais atributos do conjunto. Ainda nas palavras de Souza (2002), cita que os dois modelos mais conhecidos de Regras de Classificação são: - Stricto sensu: Se apresenta na forma de SE <Condição> ENTÃO <Classificação>, sendo que se os valores assumidos atendem as condições do antecedente da regra, então recebe a classe indicada pelo valor do atributo da classificação. - Indiretas: Sob forma de Árvores de Decisão, usando sequência hierárquica construída ao longo de uma estrutura de Árvore com nós e folhas representando as classes, podendo assim a Árvore exprimir diferentes Regras de Classificação. Como no estudo será aplicado as Redes Neurais Artificiais, Antonio (2009), as Redes Neurais Artificiais são uma abstração computacional que visa imitar o sistema nervoso do ser humano em um computador com as funcionalidades do cérebro, fazendo uso de um modelo abstrato matemático do neurônio, onde as ligações dos neurônios (sinapses) são emuladas a partir de pesos, que são ajustadas durante o processo de evolução do treinamento e aprendizado da rede. Antonio (2009), ainda cita que o corpo celular é emulado pela composição de duas funções chamadas de funções de ativação e propagação onde estas funções realizam o mapeamento e a transferência dos sinais de entrada em um único sinal de saída, então esta saída é propagada para os neurônios seguintes da rede, como no modelo biológico. Segundo Haykin (1999), o neurônio é uma unidade de informação e processamento que o coração de uma Rede Neural formada por um conjunto de sinapses ou elos de conexão onde cada uma se caracteriza por um peso ou força, um somador para adicionar sinais da entrada ponderados pelas sinapses do neurônio, e uma função de ativação para restringir a amplitude da saída de um neurônio, que também é referida como função restritiva já que limita o intervalo do sinal de saída a um valor finito. Para melhor ilustrar como um neurônio artificial é disposto, tem-se a Figura 3: Figura 3: Neurônio Artificial. Fonte: Adaptação feita a partir da internet (2013). Para a utilização prática foi escolhido o software Weka, onde cita R. Bouckaert (2010), que esta ferramenta foi criada em 1993 na Universidade de Waikato na Nova Zelândia, utiliza linguagem Java dentro das especificações da GPL (General Public License) apropriada para se iniciar os estudos em Mineração de Dados, sendo assim utilizada no meio acadêmico, dando a oportunidade de serem aprendidos os conceitos básicos da Mineração de Dados. Ainda nas palavras de R. Bouckaert (2010), com esta ferramenta podem ser conduzidos processos de Mineração de Dados de forma simples, avaliando assim seus resultados obtidos, oferecendo também recursos para executar PréProcessamentos de dados, Classificação, Clusterização, Associação, e vários outros suportes tais como a visualização dos dados, edição dos atributos, também tendo como característica principal sua portabilidade, podendo rodar nas mais diversas plataformas, sendo assim, se beneficia da linguagem orientada a objetos com vantagens como polimorfismo, encapsulamento, reutilização de código, dentre outras. O software Weka disponibiliza na sua interpretação dos dados a estatística Kappa, onde cita Simões (2011), que é de grande importância sendo que com esta estatística pode se avaliar o nível de concordância e ligação dos dados dentro de uma Base de Dados, sendo que se o número estatístico ficar próximo do 0 (zero) significa uma maior discordância das informações, e ficando o mais próximo do 1 (um) indica assim uma maior ligação e concordância. Reforçando este conceito sobre a importância da Estatística Kappa, Castro (2010), cita que é muito valiosa para se mensurar a qualidade da classificação e para dar a estatística de quanto às observações se afastam daquelas esperadas, frutos do acaso e indicando assim quão legítimas as interpretações são de acordo com a Tabela 1. Tabela 1: Valores da Estatística Kappa. Fonte: Landis e Koch, 1977. Ainda nas palavras de Castro (2010), o Weka disponibiliza outra forma para auxiliar na representação da qualidade da classificação que é a Matriz de confusão, que é uma representação em linhas e colunas correspondentes às áreas de teste e treinamento, ela mostra a hipótese h oferecendo uma medida efetiva do modelo de classificação, ao mostrar o número de classificações corretas versus as classificações preditas para cada classe, sobre um conjunto de exemplos t. Após então a escolha da ferramenta passou para a etapa de análise e seleção da Base de Dados, onde foram escolhidas duas bases na área da saúde, que tratam sobre o câncer de mama. Como cita Fátima (2009), conhecimento e informação, são quesitos fundamentais para o bom funcionamento e progressão, tanto na área da saúde bem como no controle social, tomada de decisão, instituições de ensino, mercado financeiro, empresas de produção, setores esses que estão crescentemente encontrando na Mineração de Dados maneiras de melhor monitorar seus dados, seja para previsões de risco, consumo de clientes, monitoramento de arrecadações, riscos do mercado, colocando assim a Mineração de Dados em seus cotidianos. Segundo Dreyer (2009), a informática tem se apresentado extremamente crescente na última década auxiliando a área da Saúde por meio de utilizações de recursos tecnológicos. Assim com essa utilização da informática na Saúde facilita o acesso de informações dando suporte à prática nos serviços da saúde, pois as informações retiradas da mesma são complexas. Citam-se a seguir alguns pontos positivos na sua utilização, tais como: - Aumento da adesão aos protocolos clínicos; - Melhorias na capacidade de monitorar doenças, suas condições e sintomas; - Redução de erros nas medicações e diagnósticos; - Melhor aproveitamento do tempo dos profissionais; Como cita Bernardes (2007), faz-se muito necessário no setor da saúde uma ferramenta que de suporte e que traga informações exatas para auxiliar nas suas tomadas de decisões, buscando assim em suas informações obtidas dados relevantes que venham a ser necessários. Ainda nas palavras de Bernardes (2007), no segmento hospitalar e da saúde, guardam-se informações muito relevantes dos pacientes, diagnósticos, tratamentos, exames, medicamentos, assim sendo difícil de encontrar informação útil dentro de toda essa concentração de dados, é então que a tecnologia se aplica. Dessa forma, com a aplicação da Mineração de Dados, contando com dados sólidos e esquematizados, pode se encontrar grandes auxílios para o progresso na área da saúde, selando assim a confirmação de que tecnologia anda ao lado de todas as ciências. Segundo L. Houston (1999), as características de uma população podem ser estudadas para apresentar fatores associados com um resultado, estudos observacionais como Estatística, Mineração de Dados, Aprendizagem, são de muita ajuda para associar essas informações com devidas metas, reforçando assim que o estudo dos dados está se tornando um grande reforço para as áreas científicas como a medicina, biotecnologia e pesquisas em geral. Seguindo o pensamento sobe estudos observacionais que envolvem o ser humano e a área da saúde, o Instituto Nacional de Câncer (2012), cita que o Câncer é uma das doenças que mais ocorrem no Brasil, onde este estudo chamado incidência de Câncer no Brasil traz anualmente relatórios desta enfermidade mostrando os tipos de Câncer que mais atingem a população. Ainda no relatório do Instituto Nacional de Câncer (2012), traz a estatística sobre o Câncer de mama atingir aproximadamente 53 mil mulheres em 2012/2013, ficando assim em terceiro lugar entre os Cânceres com mais ocorrência e vítimas no Brasil. Segundo Swaroop (2009), o Câncer de mama é uma doença onde as células se dão formação nos tecidos da mama, sendo a segunda principal causa de morte por câncer entre as mulheres perdendo somente para o Câncer de pulmão, sendo também o câncer mais comum entre mulheres com exceção do Câncer de pele. Citando novamente os dados do Instituto Nacional de Câncer (2012), o Câncer de mama é a doença que mais atinge as mulheres em todo o mundo, tanto em países desenvolvidos como em países em desenvolvimento, sendo que o fator principal de risco é a idade, o Brasil oferece o exame clínico das mamas a partir dos 40 anos e um exame mamográfico a cada dois anos, para mulheres de 50 a 69 anos. Etapas do desenvolvimento do trabalho A visão sobre a elaboração do trabalho baseia-se em minerar dados focando a área da saúde, sendo esta área muito promissora junto a Mineração de Dados. Com várias opções na área da saúde passíveis de serem trabalhadas com a Mineração de dados foi escolhido trabalhar com duas bases de dados sobre o Câncer de Mama, que é um tema de grande relevância, sendo uma doença que atinge mulheres do mundo todo. Buscou-se então uma ferramenta que poderia ser utilizada para retirar informações e estatísticas das bases escolhidas. Foi escolhida então a ferramenta Weka, que é utilizada no meio acadêmico para se iniciar os estudos em Mineração de Dados, contando com uma vasta literatura sobre seu funcionamento e utilização. O Weka também proporciona uma grande biblioteca de algoritmos de Mineração de Dados que pode suprir e trazer bons resultados para poder ser apresentados e comprovarem a eficácia da Mineração de Dados. Entrando na parte prática do trabalho, primeiramente foram estudadas as bases escolhidas, analisando assim seus dados e o que ela proporcionava para ser trabalhado. Nesta etapa foram verificados os atributos das duas bases, trazendo informação sobre os mesmos para melhor se entender suas relações e qual as suas relevâncias perante a aplicação dos algoritmos e quais resultados poderiam trazer. A descrição dos atributos das duas Bases de Dados utilizadas estão apresentadas nos apêndices A e B. Com os atributos citados nas duas bases nota-se a sua divisão em dois tipos de dados, sendo eles Integer ou Varchar, que estipulam qual o grau da relevância dos seus dados sobre números ou palavras. A estipulação destes valores sobre os dados são efetuados dentro da Base de Dados conforme eles são recebidos e agrupados dentro de suas referentes classes. Um processo que também está presente na Mineração de dados e também foi utilizado no trabalho é a Discretização, que visa melhor dispor os dados dentro de uma classe, criando padrões onde tais dados serão alocados. A utilização deste processo visa aumentar a chance de acerto do algoritmo de Mineração de Dados, porém não é sempre que a sua utilização resultara em melhorias e mudanças. Tudo depende de como a Base de Dados está disposta e como seus dados estão organizados. Os algoritmos escolhidos para aplicação prática se dividem em: - Jrip, OneR e ZeroR de Regras de Classificação; - J48, REPTree, LMT de Árvores de Decisão; - MultilayerPerceptron de Redes Neurais Artificiais; Além da aplicação dos algoritmos de Mineração de dados, o Weka oferece os Algoritmos de Fragmentação, que tratam da forma que o programa vai interagir com a Base de Dados. Os dois utilizados são: Cross-Validation (Folds) e Percentage Split. Na Cross-Validation o algoritmo realiza um laço de repetição de iterações, onde os folds são os números de pares e subconjuntos treinamento-teste fornecidos na entrada. Os resultados dos testes geram dados estatísticos, sendo finalizado e gerando as informações. O número de Folds altera o resultado final da aplicação do Algoritmo de Mineração de dados, dessa forma para se atingir um bom resultado deve-se testar crescentemente ou decrescentemente o número dos mesmos. Na Percentage Split cria-se um subconjunto de treinamento com i% do tamanho da Base de Dados fornecida, sendo i a percentagem dada. Basicamente então, trata-se da redução do tamanho da Base de Dados em uma percentagem do seu total, visando à melhoria das estatísticas. Para melhor entender as aplicações e estatísticas que serão apresentadas a seguir deve-se relembrar que: Discretização: Resume-se em Discretizar o atributo chave, ou não Discretizar nenhum atributo. Na prática este processo foi utilizado para visar melhores resultados, onde somente não foi aplicado nas Redes Neurais Artificiais; Algoritmos de Fragmentação: Cross-Validation (Folds) que foram testados crescente ou decrescentemente visando uma melhoria das estatísticas, e Split que divide a Base de Dados, parte validando e outra parte treinando; Algoritmo: Algoritmo Escolhido; Acerto: A taxa geral de quanto o algoritmo conseguiu classificações corretas e seguras; Estatística Kappa: Mede o nível da concordância e ligação dos dados; Matriz de Confusão: Apresenta em números a quantidade de classificações corretas e incorretas. A diagonal direita representa os números das instâncias classificadas corretamente, sendo elas A: Quantas tem riscos de desenvolver um Câncer de Mama Benigno (superior esquerda) e B: Quantas tem riscos de desenvolver um Câncer de Mama Maligno (inferior direita). Na diagonal esquerda estão apresentadas as classificações erradas; Segue então as informações obtidas com as aplicações de algoritmos de Regras de Classificação na Base de Dados breast-w: Tabela 2. Tabela Jrip com Folds Tabela 3. Tabela Jrip com Split Em geral se mostrou exato, com uma taxa de acerto quase que 100% nas duas tabelas demonstrando assim uma boa confiabilidade, também com o índice Kappa próximo de 1 que representa a concordância entre os dados, e com a diagonal de erro da Matriz de Confusão com poucas classificações incorretas. Tabela 4. Tabela OneR com Folds Tabela 5. Tabela OneR com Split Mostrou-se correto com índice de acerto maior que 90%, porém a Estatística Kappa atingiu um valor menor do que a do algoritmo Jrip, mas mesmo assim apresentou concordância quase perfeita. Sua Matriz de Confusão também se mostrou muito satisfatória com poucas classificações incorretas. Tabela 6. Tabela ZeroR com Folds Tabela 7. Tabela ZeroR com Split O Algorito ZeroR teve uma taxa de acerto menor se comparada aos outros, pois não possibilitou a visualização da Estatística Kappa, afetando assim seu resultado pela falta de concordância. Segue agora os resultados obtidos com a aplicação de algoritmos de Árvores de Decisão: Tabela 8. Tabela J48 com Folds Tabela 9. Tabela J48 com Split O algoritmo J48 retornou ótimos resultados, contendo a Estatística Kappa superior do que a do algoritmo de Regras de Classificação OneR. Sua Matriz de Confusão se mostrou satisfatória apresentando poucos erros em sua diagonal. Tabela 10. Tabela REPTree com Folds Tabela 11. Tabela REPTree com Split O algoritmo REPTree se mostrou claro em sua aplicação, trazendo assim um índice de acerto levemente maior do que a do algoritmo J48 representando assim maior confiabilidade, porém suas Estatísticas Kappa ficaram muito semelhantes. Sua Matriz de Confusão apresentou uma taxa muito satisfatória em sua diagonal de acerto (direita). Tabela 12. Tabela LMT com Folds Tabela 13. Tabela LMT com Split O algoritmo LMT foi um algoritmo extremamente pesado para se rodar em um computador simples, demorando um pouco para retornar suas estatísticas. Porém como pode ser visto, equiparou seu índice de acerto ao do algoritmo de Regras de Classificação Jrip, e também foi o que melhor retornou a Estatística Kappa dos algoritmos de Árvores de Decisão. A seguir na Tabela 14, 15, 16,17 e 18 serão apresentados as informações obtidas por meio da utilização do algoritmo MultilayerPerceptron (Redes Neurais Artificiais). A tabela de informações apresentada com as Redes Neurais Artificiais será a mesma dos algoritmos de Regras de Classificação e Árvores de Decisão, porém o Algoritmo de Fragmentação será apenas o Cross-Validation (Folds), também será acrescentado o atributo na tabela de resultados chamado Camadas Ocultas, e não será discretizado nenhuma classe. Para padronizar a utilização das Redes Neurais Artificiais, todas as aplicações utilizaram cinco (5) Folders. As Camadas Ocultas são representadas por letras, sendo que cada uma das letras se refere à maneira com que o algoritmo irá trabalhar com a Base de Dados. O Weka possui um help onde ele explica de que forma as Camadas Ocultas irão se aplicar dentro da Base de Dados, sendo eles: A – Se refere aos atributos + classes /2 I – Somente atributos O – Somente classes T – Atributos + classes Tabela 14. Tabela MultilayerPerceptron com Camadas ocultas A Nesta aplicação foi utilizada para se ilustrar uma Rede Neural Artificial a figura gerada pelo software Weka. Segue então a Figura 4: Figura 4: Rede Neural Artificial. Fonte: Adaptação feita a partir do software Weka (2013). Esta aplicação mostrou um acerto de 95%, com a Estatística Kappa com concordância quase perfeita, gerando poucas classificações incorretas na Matriz de Confusão. Sua Camada Oculta é A, desta forma utilizando atributos e classes da Base de Dados, dividindo-os por dois. Tabela 15. Tabela MultilayerPerceptron com Camadas ocultas I A aplicação com a Camada Oculta I mostrou estatísticas levemente abaixo das oferecidas pela Camada Oculta A, continuando assim à apresentar dados confiáveis e uma Matriz de Confusão muito satisfatória. Tabela 16. Tabela MultilayerPerceptron com Camadas ocultas O As estatísticas alcançadas por meio das Camadas Ocultas O, se equipararam quase que identicamente das do A, porém com algumas diferenças em suas Matrizes de Confusão. Tabela 17. Tabela MultilayerPerceptron com Camadas ocultas T A Camada Oculta T também trouxe informações que se equipararam as demais camadas. Tabela 18. Tabela MultilayerPerceptron com Camadas ocultas 50 Neste resultado se estipulou cinquenta (50) Camadas Ocultas com o objetivo de fugir dos padrões para buscar um resultado diferente, retornando assim informações que se equiparam aos demais resultados, porém tendo a melhor Estatística Kappa. A partir desta parte do trabalho, começa-se a aplicação dos algoritmos na Segunda Base de Dados, porém tal se mostrou menos confiável em seus resultados, pelo fato de seus dados estarem menos organizados e agrupados, mas ainda sim pode se obter informações relevantes. Base de dados breast-cancer, aplicação Algoritmos de Regras de Classificação: Tabela 19. Tabela JRip com Folds Tabela 20. Tabela JRip com Split O algoritmo JRip se mostrou eficaz em classificar, teve 75% de Acerto das classificações da Base de Dados, também com uma Estatística Kappa razoável e sua Matriz de Confusão trazendo alguns erros de classificação. A discretização do atributo Tumor-size se implica pela sua importância para com as informações dispostas dentro desta Base de Dados, se mostrando importante pela sua descrição e pelo seu número de ocorrências apresentado estatisticamente pelo software Weka. Tabela 21. Tabela OneR com Folds Tabela 22. Tabela OneR com Split O algoritmo OneR trouxe um índice de acerto menor do que o do algoritmo Jrip, sendo inferior também na Estatística Kappa e na Matriz de Confusão demonstrando uma grande discordância dos dados. Tabela 23. Tabela ZeroR com Folds Tabela 24. Tabela ZeroR com Split O algoritmo ZeroR trouxe uma leve melhora na sua taxa de Acerto em comparação ao algoritmo OneR, porém como este algoritmo não possui a Estatística Kappa e com sua Matriz de Confusão com dados faltantes se torna menos exato que os demais. Segue então a aplicação dos algoritmos de Árvores de Decisão na segunda Base de Dados: Tabela 25. Tabela J48 com Folds Tabela 26. Tabela J48 com Split O algoritmo J48 alcançou um bom número no Acerto ficando próximo do algoritmo Jrip, porém tendo uma Estatística Kappa com leve concordância. Tabela 27. Tabela REPTree com Folds Tabela 28. Tabela REPTree com Split O algoritmo REPTree se mostrou razoável em comparação as informações colhidas dos demais algoritmos, porém se mostrou falho ao retornar a estatística Kappa do atributo Tumor-size que foi Discretizado, retornando valor 0. Sua matriz de Confusão equipara seu resultado aos demais apresentados na segunda Base de Dados. Tabela 29. Tabela LMT com Folds Tabela 30. Tabela LMT com Split O algoritmo LMT foi o melhor no retorno de informações em relação aos outros algoritmos, tanto nos de Regras de Classificação como nos de Árvores de Decisão. Apresentou uma taxa de Acerto em torno de 75% e com sua Estatística Kappa atingindo uma concordância regular. Apresentou também uma Matriz de Confusão levemente melhor em comparação aos outros algoritmos, sendo assim com menos classificações incorretas. Na sequência apresentam-se as informações obtidas com a utilização das Redes Neurais Artificiais para a segunda Base de Dados: Tabela 31. Tabela MultilayerPerceptron com Camadas ocultas A Retornou uma taxa de Acerto de 66%, com a estatística Kappa em 0,16 tendo assim uma concordância de dados regular. Tabela 32. Tabela MultilayerPerceptron com Camadas ocultas I Com as Camadas Ocultas I teve uma taxa de Acerto igual a das Camadas Ocultas A, porém com uma melhora na Estatística Kappa. Tabela 33. Tabela MultilayerPerceptron com Camadas ocultas O A Camada Oculta O apresentou uma ótima estatística, superando aos demais na taxa de Acerto, Estatística Kappa e Matriz de Confusão. Tabela 34. Tabela MultilayerPerceptron com Camadas ocultas T Retornou uma taxa de Acerto em 69%, tendo a Estatística Kappa e Matriz de Confusão regular. Tabela 35. Tabela MultilayerPerceptron com Camadas ocultas 50 Com 50 Camadas Ocultas, apresentou as mesmas estatísticas obtidas com a Camada Oculta O. A aplicação dos algoritmos nas duas Bases de Dados retornou o mesmo tipo de informação de saída, especificando a quantia de pessoas com suas diferentes características podem desenvolver um Câncer Maligno ou um Câncer Benigno. Desta forma, medem a recorrência dos fatores cancerígenos nos diferentes casos relatados nas bases, agrupando e classificando os casos em uma das saídas (Maligno ou Benigno). Como as duas bases têm o mesmo fim, a aplicação nesta área da saúde teria a finalidade de mostrar e dividir os casos de pessoas que foram arquivados, e estatisticamente classificá-los para se dizer quantos casos tem grandes chances de desenvolver um Câncer Maligno e quantos casos têm a chance de desenvolver um Câncer Benigno. Resultados Com a aplicação dos algoritmos de Mineração de Dados fornecidos pode-se ver as diferentes estatísticas e informações levantadas, podendo desta forma ver os algoritmos que melhor se comportaram para esta finalidade, que é classificar os pacientes que podem desenvolver um Câncer de Mama Benigno ou Câncer Maligno. O software Weka se comportou de forma esperada junto às Bases de Dados, trazendo assim informações claras das aplicações de seus diferentes algoritmos e estatísticas, podendo aplicar assim os conteúdos estudados e levantados nas referências bibliográficas em prática. O processo de Discretização que faz parte do Pré-Processamento de Dados pode ser visto utilizado na prática, mostrando assim casos em que trouxe melhorias das estatísticas gerais, aplicado nos atributos chaves das Bases de Dados organizando-os. Dentre o processo de Discretização pode ser visto também em prática a utilização dos Algoritmos de Fragmentação e a sua relevância para o resultado dos algoritmos principais, sendo eles modificados em cada aplicação visando à melhoria dos resultados, também a importância da Taxa de Acerto, Estatística Kappa e Matriz de Confusão, auxiliando o entendimento sobre as aplicações e exatidão das informações levantadas. Em relação à primeira Base de Dados, o algoritmo de Regras de Classificação que apresentou melhores resultados é o JRIP utilizando Split, com Acerto de 97% e Estatística Kappa 0,9479. A Matriz de Confusão que melhor alcançou resultados apresentou 80 pessoas com chances de Câncer de Mama Benigno, e 43 Malignos. O melhor algoritmo de Árvores de Decisão foi o LMT também utilizando Split, alcançando 96% de Acerto, Estatística Kappa chegando a 0,9291. Em sua melhor Matriz de Confusão, classificou 289 casos com chances de desenvolver Câncer de Mama Benigno e 157 Maligno. Com o algoritmo de Redes Neurais Artificiais, seu melhor resultado foi com a utilização de 50 Camadas Ocultas e 5 Folds, com 95% de acerto e chegando á 0,909 de Estatística Kappa. Em sua melhor Matriz de Confusão classificou 439 casos com chance de desenvolver um Câncer de Mama Benigno e 231 Maligno. O algoritmo que menos se mostrou exato em sua aplicação na Base de Dados foi o ZeroR de Regras de Classificação, retornando uma taxa de acerto de 65% e impossibilitando a visualização da Estatística Kappa e Matriz de Confusão. Na segunda Base de Dados não foi possível equiparar os níveis de informações obtidos na primeira Base de Dados, pois seus dados são completamente diferentes, desta forma retornando um padrão diferente de obtenção de resultados. Em relação aos algoritmos de Regras de Classificação na segunda base, o algoritmo JRip apresentou Acerto de 75% utilizando Split, e 0,3889 de Estatística Kappa. Sua melhor Matriz de Confusão apresentou 42 casos com potencial de desenvolvimento de Câncer de Mama Benigno e 8 de Maligno. De Árvores de Decisão o LMT apresentou 75% de Acerto utilizando o Split, com a Estatística Kappa de 0,3496. Sua melhor Matriz de Confusão classificou 63 casos com potencial para Câncer de Mama Benigno e 12 para Maligno. Com o algoritmo de Redes Neurais Artificiais, seu melhor Acerto foi com a Camada Oculta O, que alcançou 74% com 5 Folds, e 0.3516 de Estatística Kappa. Sua melhor Matriz de Confusão classificou 173 casos com potencial para Câncer Benigno e 40 para Maligno. O algoritmo ZeroR continuou sendo o menos confiável, não apresentando a Estatística Kappa nem as classificações da Matriz de Confusão. Considerações Finais A Mineração de Dados vem se mostrando cada vez mais necessária e disseminada nos mais diversos campos e ambientes, facilitando e agilizando o processo de busca de informação útil dentro de grandes quantidades de dados. Com este trabalho foi possível compreender as etapas e conceitos que envolvem a Mineração de Dados, dando ênfase na aplicação dos algoritmos de Regras de Classificação, Árvores de Decisão e Redes Neurais Artificiais e suas estatísticas. A aplicação destes diversos algoritmos é interessante pelo fato de poder assim tentar alcançar melhores resultados com cada um, independente dos dados sendo trabalhados, podendo assim comparar suas estatísticas, identificar os mais exatos e chegar aos resultados mais corretos. Também foi possível ter uma introdução sobre as informações que envolvem a Mineração de Dados e seus conceitos, seguida então da aplicação de vários algoritmos podendo assim ver quais tem o melhor desempenho em se tratando do foco das Bases de Dados, que é a de classificar os atributos e seus tipos de dados informando quantas pessoas estão passíveis de desenvolver um Câncer de Mama Maligno ou Benigno. Como as duas bases têm a mesma finalidade, a aplicação nesta área da saúde com estes tipos de dados visou à classificação de casos de Câncer de Mama que poderiam ser Benignos ou Malignos, desta forma, este tipo de informação levantada apresentado neste trabalho visa estatisticamente mostrar em arquivos de consultórios médicos especializados no assunto, arquivos hospitalares, entre outras, quantas pessoas apresentam fatores de risco que irão determinar o desenvolvimento de um Câncer Benigno ou Maligno, podendo assim estudar estes fatores de risco e assim visar melhorias em seus tratamentos ou prevenção. Referências Amo, Sandra de. Técnicas de Mineração de Dados. Uberlândia, 2009. Disponível em: <http://www.lsi.ufu.br/documentos/publicacoes/ano/2004/JAI-cap5.pdf>. Acesso em: 16/04/13. Amorim, Thiago. Conceitos, técnicas, ferramentas e aplicações de Mineração de Dados para gerar conhecimento a partir de bases de dados. Pernambuco. 2006. Disponível em: <http://www.cin.ufpe.br/~tg/2006-2/tmas.pdf> Acesso em: 03/04/2013. Antonio Carlos Gay, Thomé. Redes Neurais - Uma Ferramenta Para KDD e Data mining. Rio de Janeiro, 2009. Disponível em: <http://funk.on.br/esantos/doutorado/INTELIG%CANCIA%20ARTIFICIAL/T%C9 CNICAS/REDES%20NEURAIS/CURSO%20UFRJ%20de%20RN/22.pdf>. Acesso em: 16/04/13. Bernardes Ribeiro da Costa, Rodrigo. Aplicação do Processo de Mineração de Dados para Auxílio à Gestão do Pronto-Socorro de Clínica Médica do Hospital Universitário de Brasília. Brasília, 2007. Disponível em: <monografias.cic.unb.br/dspace/bitstream/123456789/120/1/RODRIGO_BERNARDES_MONOGRAFIA.pdf>. Acesso em: 01/03/2013 Bertholdo, Leonardo. Técnicas De Mineração De Dados Na Classificação De Ecotoxicidade De Água Para Aplicação Na Gestão De Corpos Hídricos. Campinas, 2012. Disponível em: <http://www.excelenciaemgestao.org/Portals/2/documents/cneg8/anais/T12_0480_2 516.pdf>. Acesso em: 16/04/13. Bonnard Schonhorst, Gustavo. Mineração de Regras de Associação Aplicada à Modelagem dos Dados Transacionais de um Supermercado. Itajubá, 2010. Disponível em: <http://juno.unifei.edu.br/bim/0036319.pdf> Acesso em: 03/04/2013. Bortoleto, Silvio. Aplicação de um sistema para mineração de dados de vendas. Curitiba, 2007. Disponível em: <http://www.aedb.br/seget/artigos07/1405_SetsMiner_V8B.pdf> Acesso em: 03/04/2013. Castro, Dayan. Procedimentos de data mining na definição de valores para as análises de multicritérios como apoio à tomada de decisões e análise espaciais urbanas. Minas Gerais, 2010. Disponível em: <http://www.arq.ufmg.br/SiteLabGeo/Laboratorio_Geo/Artigos/CBC2010_02CT03-1-VF.pdf> Acesso em: 05/06/2013. Costa Cortês, Sérgio da. Mineração de Dados – Funcionalidades, Técnicas e abordagens. Rio de Janeiro, 2002. Disponível em: <ftp://ftp.inf.pucrio.br/pub/docs/techreports/02_10_cortes.pdf> Acesso em: 03/04/2013. Dantas, Eric. O Uso da Descoberta de Conhecimento em Base de Dados para Apoiar a Tomada de Decisões. João Pessoa, 2008. Disponível em: <http://www.aedb.br/seget/artigos08/331_331_Artigo_SEGET_EJDR_Versao_Final _010808.pdf> Acesso em: 03/04/2013. Das Graças J. M. Tomazela, Maria. Aplicação de Técnicas de Mineração de Dados para Caracterização de Grupos de Cidades Produtoras de Cana-De-Açúcar do Estado de São Paulo e Definição de Políticas Especificas. Indaituba, 2009. Disponível em: <http://www.fatecindaiatuba.edu.br/reverte_online/8aedicao/Artigo11.pdf>. Acesso em: 16/04/13. Dos Santos Cabral, Rafael. Mineração De Dados. Brasília, 2005. Disponível em: <http://www.paulotarso.com/Files/FSI/Mineracao%20de%20Dados.pdf>. Acesso em: 16/04/13. Dreyer Galvão, Noemi. Aplicação da mineração de dados em bancos da segurança e saúde pública em acidentes de transporte. São Paulo, 2009. Disponível em: <http://www.saude.mt.gov.br/upload/documento/104/aplicacao-da-mineracao-dedados-em-bancos-da-seguranca-e-saude-publica-em-acidentes-de-transporte-[104180610-SES-MT].pdf>. Acesso em: 03/04/2013. Fátima Marin, Heimar. Técnica de mineração de dados: Uma revisão da literatura. Cuiabá, 2009. Disponível em: <http://www.scielo.br/pdf/ape/v22n5/14.pdf> Acesso em: 03/04/20013. Goldschmidt, Ronaldo. Mineração de dados: Aplicação prática em pequenas e médias empresas. Jacarepaguá, 2011. Disponível em: <http://www.fij.br/revista/arq/vol01_01/datamining.pdf> Acesso em: 03/04/2013. Gomes de Sousa, Douglas. Mineração de Dados para Descoberta de Padrões: Estudo Aplicado à Base de Dados da Delegacia Regional do Trabalho. Pelotas, 2008. Disponível em: <http://www.ufpel.tche.br/prg/sisbi/bibct/acervo/info/2008/mono_douglas_sousa.pdf > Acesso em: 03/04/2013. Halmenschlager, Carine. Um Algoritmo Para Indução De Árvores E Regras De Decisão. Porto Alegre, 2002. Disponível em: <http://www.lume.ufrgs.br/bitstream/handle/10183/2755/000325797.pdf?sequence= 1>. Acesso em: 16/04/13. Han, Jiawei & Kamber, Micheline. Data Mining: Concepts and Techniques, 2nd Ed. Munich, 2006. Disponível em: <http://www.cs.uiuc.edu/~hanj/bk2/> Acesso em: 03/04/2013. Haykin, Simon. Redes Neurais – 2ed. England, 1999. Disponível em: <http://books.google.com.br/books?hl=ptBR&lr=&id=lBp0X5qfyjUC&oi=fnd&pg=PA27&dq=Redes+Neurais:+Princ%C3% ADpios+e+Pr%C3%A1ticas++Simon+Haykin&ots=sxs1dHKA0X&sig=9X1zgdInm_Yg6aXZdUPyb7H69jE> Acesso em: 23/04/13. Instituto Nacional de Câncer José Alencar Gomes da Silva. Estimativa 2012 – Incidência de Câncer no Brasil. Rio de Janeiro, 2012. Disponível em: <http://www.inca.gov.br/rbc/n_57/v04/pdf/13_resenha_estimativa2012_incidencia_d e_cancer_no_brasil.pdf>. Acesso em: 16/04/13. L. Houston, Andrea. Medical Data Mining on the Internet: Research on a Cancer Information System. Netherlands, 1999. Disponível em: <http://citeseerx.ist.psu.edu/viewdoc/download?rep=rep1&type=pdf&doi=10.1.1.9.5 219>. Acesso em: 03/04/2013. Macêdo Marques Gouveia, Roberta. Mineração De Dados Em Data Warehouse Para Sistema De Abastecimento De Água. João Pessoa, 2009. Disponível em: <http://www.lenhs.ct.ufpb.br/html/downloads/serea/teses/teses/dissertacao_roberta.p df> Acesso em: 16/04/13. Maimon, Oded. Introduction To Knowledge Discovery In Databases. Israel, 2009. Disponível em: <http://www.ise.bgu.ac.il/faculty/liorr/hbchap1.pdf>. Acesso em: 16/04/13. Moreira Pitoni, Rafael. Mineração de Regras de Associação nos Canais de Informação do Direto. Porto Alegre, 2002. Disponível em: <ftp://ftp.inf.ufrgs.br/pub/geyer/Alunos/RafaelPitoni/Dissertacao_Pitoni.pdf>. Acesso em: 16/04/13. Oliveira Camilo, Cássio. Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas. Goiás, 2009. Disponível em: <http://www.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_00109.pdf>. Acesso em: 03/04/2013. Pereira Leite Filho, Hugo. Aplicabilidade de memória lógica como ferramenta coadjuvante no diagnóstico das doenças genéticas. Goiânia, 2006. Disponível em: <http://tede.biblioteca.ucg.br/tde_busca/arquivo.php?codArquivo=425>. Acesso em: 03/04/2013. R. Bouckaert, Remco. WEKA—Experiences with a Java Open-Source Project. New Zealand, 2010. Disponível em: <http://www.cs.waikato.ac.nz/~eibe/pubs/bouckaert10a.pdf>. Acesso em: 16/04/13. Simões Pellucci, Paulo Roberto. Utilização de técnicas de Aprendizado de Máquina no reconhecimento de entidades nomeadas no Português. Belo Horizonte, 2011. Disponível em: <http://revistas.unibh.br/index.php/dcet/article/view/305/164> Acesso em: 30/04/13. Souza Vasconcelos, Benitz de. Mineração de Regras de Classificação com Sistemas de Banco de Dados Objeto-Relacional. Campina Grande, 2002. Disponível em: <http://docs.computacao.ufcg.edu.br/posgraduacao/dissertacoes/2002/Dissertacao_B enitzDeSouzaVasconcelos.pdf>. Acesso em: 16/04/13. Swaroop, Prem. Data Mining: Introduction and a Health Care Application. Maryland, 2009. Disponível em: <http://www.rhsmith.umd.edu/faculty/bgolden/classes_links/2009_jan_data%20mini ng_BUDT%20758.pdf>. Acesso em: 03/04/2013. Usama Fayyad, Gregory. From Data Mining to Knowledge Discovery in Databases. Boston, 1996. Disponível em: <http://www.kdnuggets.com/gpspubs/aimag-kddoverview-1996-Fayyad.pdf>. Acesso em: 16/04/13. Apêndices Descrição dos atributos das Bases de Dados o Apêndice A: Descrição de atributos Base de Dados breast-w Atributo Clump_Tchikness Descrição Na sua espessura as células benignas tendem a ser agrupadas nas monocamadas, enquanto que as células cancerosas são muitas vezes agrupadas em multicamadas Tipo de dado Integer (1,10) Cell_Size_Uniformity Cell_Shape_Uniformity Na uniformidade do tamanho as células cancerosas tendem a variar seu tamanho Na uniformidade do tamanho as células cancerosas tendem a variar sua forma Integer (1,10) Integer (1,10) Marginal_Adhesion No caso da aderência das marginais normais as células tendem a ficar juntas, habilidade que células cancerosas tendem a perder, sendo assim um sinal de malignidade Integer (1,10) Single_Epi_Cell_Size As células epiteliais que são significativamente alargadas podem representar uma célula maligna Integer (1,10) Bare_Nuclei Bland_Chromatin Normal_Nucleoli Mitoses Class Os núcleos nus são um termo utilizados para os núcleos que não são rodeados pelo citoplasma (o resto da célula). Aqueles que são tipicamente vistos em tumores benignos A cromatina descreve uma textura uniforme do núcleo visto em células benignas Os nucléolos normais são pequenas estruturas vistas no núcleo. Em células normais, o nucléolo é geralmente muito pequena se visível. Em células cancerosas o nucléolo tornar-se mais proeminente, havendo assim mais deles É o processo em que a célula divide e repetições. Os patologistas podem determinar o grau da anomalia levando em consideração a contagem do número de mitoses Indica com os dados citados acima se o Câncer é benigno ou maligno Integer (1,10) Integer (1,10) Integer (1,10) Integer (1,10) Varchar (benign, malignant) o Apêndice B: Descrição de atributos Base de Dados breast-cancer Atributo age menopause tumor-size inv-nodes node-caps deg-malig breast breast-quad irradiat class Descrição Trata-se da idade do indivíduo Indica se o paciente é pré-ou pós menopausa no momento do diagnóstico O maior diâmetro (em mm) do tumor excisado o número de linfonodos axilares que contêm mama metastático pode ser visível ao exame histológico Mostra se o câncer não metastasise para um linfonodo. No entanto, ao longo do tempo, e com doença mais agressiva, o tumor pode voltar a colocar o nó de linfa e depois penetrar na capsule O grau de malignidade do tumor. Os tumores que são constituídos predominantemente em um grau de células, onde o neo-plástico retêm muitas das suas características comuns. O câncer de mama que pode ocorrer em qualquer mama Quadrante da mama que pode ser dividida em quatro quadrantes, utilizando o bico como um ponto central A radioterapia é um tratamento que utiliza raios-x de alta energia para destruir as células cancerosas Demonstra se os dados recorrem para um Câncer de Mama Benigno ou Maligno Tipo de dado Integer (10-19 até 90-99) Varchar (lt40, ge40, premeno) Integer (0-4 até 55-59) Integer (0-2 até 36-39) Varchar (Yes, No) Integer (1, 2, 3) Varchar (Left, Right) Varchar (Left_up, Left_low, Right_up, Right_low, Central) Varchar (Yes, No) Varchar (No-recurrenceevents e Recurrence-events)