O PAPEL DA MINERAÇÃO DE DADOS NO ESTUDO SOBRE DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES UTILIZANDO ÁRVORE DE DECISÃO Kelton Augusto Pontara da Costa, Atair A. Camargo Junior, Henrique Pachioni Martins, Patricia Bellin Ribeiro Faculdade de Tecnologia de Bauru [email protected] Objetivos Detectar anomalias em redes de computadores, utilizando técnicas inteligentes, mais precisamente uma Árvore de Decisão em uma base denominada SpamBase, através da mineração de Dados e a ferramenta Weka. Métodos/Procedimentos Os experimentos realizados utilizaram a base de dados pública SPAMBASE que contém cinquenta e sete atributos de dados e um atributo de classificação a fim de determinar a normalidade no conteúdo destes [1]. Para análise e quantificação dos tipos de anomalias presente na base de dados SPAMBASE foi utilizado o processo de mineração de dados, realizado através da ferramenta Weka. Mesmo a base SPAMBASE possuindo cinquenta e sete atributos, como cada atributo representa uma palavra e a frequência em que esta aparece no e-mail pode representar um SPAMs normal ou anormal foram utilizados todos os atributos selecionados através de algoritmos de seleção interna ao WEKA, uma vez que todas estas características são relevantes para os testes. Para a realização da mineração de dados foi utilizada a técnica Discretize para a normalização dos dados de entrada. Após o filtro, foi selecionado, o algoritmo (J48), árvore de decisão. Para a avaliação do algoritmo, foi escolhida uma ferramenta padrão da estatística, conhecida como cross validation [2]. Resultados Após a mineração de dados utilizando o algoritmo J48 foi possível obter, com base em um total 4.601 amostras, uma taxa de acerto médio de 92,76%, sendo 89,79% de acerto para classificações do tipo SPAMs normais e 93,34% de SPAMs anormais obtendo Az igual a 0,941. Mesmo utilizando todos os atributos do SPAMBASE como entrada, os testes apresentaram bons resultados. Conclusões Atualmente muitas pesquisas na área da computação, mais precisamente em redes de computadores, estão sendo desenvolvidas utilizando métodos de mineração de dados para identificar o comportamento da rede. A base de dados denominada SPAMBase, que contempla amostras de SPAMs, foi utilizada neste estudo. Neste trabalho propomos a utilização de todos atributos da base citada. Após a utilização do filtro Discretize e o algoritmo de árvores de decisão J48, foi possível obter uma boa taxa de acertos (92,76%) demonstrando assim, a vantagem do uso de técnicas inteligentes em redes de computadores para detecção de SPAMs. Referências Bibliográficas [1] Fogel, J.; Shlivko, S. Weight Problems and Spam E-mail for Weight Loss Products Southern Medical Journal, v. 103, ed. 1, pp 31-36, 2010. [2] Haykin, Simon. Neural Networks and Learning Machines. Editora Prentice Hall, 3a. Edição, p. 936, 2009.