REGRESSÃO LOGÍSTICA – FILTROS DE SPAMS (APOIO UNIP) Aluna: Suzana Souza Orientador: Prof. Dr. Ricardo Leandro Piantola da silva Curso: Ciência da Computação Campus: Alphaville O processo de mineração de dados para a classificação de spams por algoritmos genéticos, que auxiliam a identificar indícios de irregularidades, passa por fases como: limpeza de dados, seleção de atributos e aplicação dos algoritmos de classificação. Técnicas já utilizadas indicam que o algoritmo J48 – uma implementação do algoritmo C4.5 desenvolvido por Ross Quinlan – apresenta eficácia na detecção de fraudes de uma companhia de distribuição de energia e na detecção de spams nas redes dos computadores. Para o primeiro exemplo, devido a consumidores da empresa brasileira de distribuição de energia realizarem conexões irregulares a redes elétricas e não contribuírem com serviços ou taxas, houve necessidade de identificar fraudes. Sabendo que a quantidade de consumidores é muito grande, torna-se necessária a identificação automática de quais pessoas exercem o ato. Utilizase para esse processo algoritmos como o J48, para que seja realizada a mineração de dados e identificação das pessoas. Primeiro é feita a mineração dos dados da companhia (tido como o processo de preparação) e, após, estes são submetidos aos algoritmos de classificação, que possuem parâmetros preestabelecidos por base de informações dos consumidores para realizar a verificação. O algoritmo J48 faz parte de indutores de regras e seu desempenho dá valores de parâmetros já estabelecidos. Os experimentos testados utilizando o algoritmo J48 concluíram sua eficácia. No segundo caso, a mineração dos dados para a classificação de spams em redes de computadores pelo algoritmo J48 na ferramenta Weka define técnicas a serem utilizadas para a localização de padrões predefinidos nos dados a serem analisados. A preparação do processo de classificação inclui: definição do que irá se buscar, definição de conjunto e subconjunto de dados a se pesquisar (necessários para a próxima etapa), pré-processamento, redução dos dados, mineração dos dados, análise dos padrões minerados e implementação do que foi descoberto. Esse processo inicia-se por uma base já existente de spams na qual uma parte é classificada como spams normais e outra parte como spams anormais; a ferramenta Weka auxilia na análise e quantificação dos tipos de spams, por uma base existente chamada “spambase”, criada com objetivo de melhorar os softtwares. O algoritmo J48 constrói um modelo de árvore de decisão baseado em um conjunto de dados de treinamento (modelos de mineração de dados), sendo que esse modelo é utilizado para classificar as instâncias de um conjunto de teste (HAYKIN, 2009; SILVA; SPATTI; FLAUZINO, 2010). Nesta pesquisa, o algoritmo J48 apresentou eficácia após a mineração dos dados, podendo obter uma taxa satisfatória de acerto médio de 92,76%, sendo 89,79% de acerto para classificações de spams normais e 93,34% de spams anormais que são indesejados.