REGRESSÃO LOGÍSTICA – FILTROS DE SPAMS - unip

Propaganda
REGRESSÃO LOGÍSTICA – FILTROS DE SPAMS (APOIO UNIP)
Aluna: Suzana Souza
Orientador: Prof. Dr. Ricardo Leandro Piantola da silva
Curso: Ciência da Computação
Campus: Alphaville
O processo de mineração de dados para a classificação de spams por
algoritmos genéticos, que auxiliam a identificar indícios de irregularidades,
passa por fases como: limpeza de dados, seleção de atributos e aplicação dos
algoritmos de classificação. Técnicas já utilizadas indicam que o algoritmo J48
– uma implementação do algoritmo C4.5 desenvolvido por Ross Quinlan –
apresenta eficácia na detecção de fraudes de uma companhia de distribuição
de energia e na detecção de spams nas redes dos computadores. Para o
primeiro exemplo, devido a consumidores da empresa brasileira de distribuição
de energia realizarem conexões irregulares a redes elétricas e não
contribuírem com serviços ou taxas, houve necessidade de identificar fraudes.
Sabendo que a quantidade de consumidores é muito grande, torna-se
necessária a identificação automática de quais pessoas exercem o ato. Utilizase para esse processo algoritmos como o J48, para que seja realizada a
mineração de dados e identificação das pessoas. Primeiro é feita a mineração
dos dados da companhia (tido como o processo de preparação) e, após, estes
são submetidos aos algoritmos de classificação, que possuem parâmetros
preestabelecidos por base de informações dos consumidores para realizar a
verificação. O algoritmo J48 faz parte de indutores de regras e seu
desempenho dá valores de parâmetros já estabelecidos. Os experimentos
testados utilizando o algoritmo J48 concluíram sua eficácia. No segundo caso,
a mineração dos dados para a classificação de spams em redes de
computadores pelo algoritmo J48 na ferramenta Weka define técnicas a serem
utilizadas para a localização de padrões predefinidos nos dados a serem
analisados. A preparação do processo de classificação inclui: definição do que
irá se buscar, definição de conjunto e subconjunto de dados a se pesquisar
(necessários para a próxima etapa), pré-processamento, redução dos dados,
mineração dos dados, análise dos padrões minerados e implementação do que
foi descoberto. Esse processo inicia-se por uma base já existente de spams na
qual uma parte é classificada como spams normais e outra parte como spams
anormais; a ferramenta Weka auxilia na análise e quantificação dos tipos de
spams, por uma base existente chamada “spambase”, criada com objetivo de
melhorar os softtwares. O algoritmo J48 constrói um modelo de árvore de
decisão baseado em um conjunto de dados de treinamento (modelos de
mineração de dados), sendo que esse modelo é utilizado para classificar as
instâncias de um conjunto de teste (HAYKIN, 2009; SILVA; SPATTI;
FLAUZINO, 2010). Nesta pesquisa, o algoritmo J48 apresentou eficácia após a
mineração dos dados, podendo obter uma taxa satisfatória de acerto médio de
92,76%, sendo 89,79% de acerto para classificações de spams normais e
93,34% de spams anormais que são indesejados.
Download