Chasque Mail e o DSpam Comunicação para a UFRGS Alexandre Marchi Francisco Fialho Guilherme Pezzi Leandro Rey Agenda Vortex X Spam Estrutura em 2004 As pragas O Chasque O DSpam O Maildrop O Webmail Vortex X Spam Spam é a denominação dada, no ambiente da Internet, às mensagens eletrônicas enviadas para um grande número de usuários sem que estes a tenham solicitado, com objetivos diversos: Fazer propaganda de produtos e serviços de todos os tipos; Disseminação de vírus; Correntes da sorte; Boatos; Difamações Vortex X Spam O Spam pode causar problemas para usuários da Internet: Não recebimento de e-mails. Provedores Limitam o tamanho da caixa postal do usuário; Gasto desnecessário de tempo para acesso e leitura; Aumento de custos. Independente do tipo de acesso à Internet; Conteúdo impróprio; Perda de confiança; Exposição a fraudes e vírus Vortex X Spam 2004 - Fim de linha atrasos intoleráveis apagando SPAM para sobreviver mais de 30.000 usuários máximo de 40K mgs/dia Estrutura em 2004 Mails para UFRGS SMTP OUT SMTP IN p/ ADSL Proxy p/ ADSL mail p/ @ufrgs.br Web Mail da UFRGS AV e ASPAM Curly Cassiopéia Moe Mails para UFRGS SMTP OUT Web Mail POP, SMTP Spider Vortex SMTP - OUT p/ UFRGS UFRGS Proxy Estrutura em 2004 • Moe, o amigo do Vortex – elimina vírus – marca SPAMs – apaga SPAMs com pontuação maior que 4 – Compaq ML 330 G2 - PIII 1.1 GHz, 1GB Estrutura em 2004 • Curly, o amigo de todos: – Elimina vírus e marca SPAMs – Compaq ML 330 G2 - PIII 1.1 GHz dual, 1 GB – Domínios atendidos: • cpd.ufrgs.br, if.ufrgs.br, gaya.if.ufrgs.br, orion.ufrgs.br, adufrgs.ufrgs.br,sph.ufrgs.br, coperse.ufrgs.br, decordi.ufrgs.br, prograd.ufrgs.br, propesq.ufrgs.br, propg.ufrgs.br, prorext.ufrgs.br, prorh.ufrgs.br, prorhesc.ufrgs.br, rh.ufrgs.br, hcpa.ufrgs.br, mat.ufrgs.br, famed.ufrgs.br, enq.ufrgs.br, farmacia.ufrgs.br, adm.ufrgs.br, arq.ufrgs.br, bc.ufrgs.br, botanica.ufrgs.br, cbiot.ufrgs.br, dna.cbiot.ufrgs.br, ceue.ufrgs.br, cpgec.ufrgs.br, ct.ufrgs.br, deca.ufrgs.br, demin.ufrgs.br, direito.ufrgs.br, ea.ufrgs.br, lies.edu.ufrgs.br, piaget.edu.ufrgs.br, edu.ufrgs.br, enf.ufrgs.br, engcivil.ufrgs.br, drummond.enq.ufrgs.br, faced.ufrgs.br, merlin.famed.ufrgs.br, calvin.famed.ufrgs.br, faurgs.org.br, fce.ufrgs.br, iepe.ufrgs.br, ifch.ufrgs.br, iph.ufrgs.br, iq.ufrgs.br, lapes.ufrgs.br, mecanica.ufrgs.br, engmec.mecanica.ufrgs.br, museu.ufrgs.br, ndsm.ufrgs.br, niee.ufrgs.br, solaris.niee.ufrgs.br, nsi.ufrgs.br, nuted.edu.ufrgs.br, ppga.ufrgs.br, ppge.ufrgs.br, dns.ppgep.ufrgs.br, ppgep.ufrgs.br, ppgec.ufrgs.br, ppgiph.ufrgs.br, psico.ufrgs.br, leceng.mecanica.ufrgs.br, euler.mat.ufrgs.br, penta.ufrgs.br, pgie.ufrgs.br, querencia.ufrgs.br, vortex.ufrgs.br, ufrgs.br, cap.ufrgs.br, tolkien.nuted.edu.ufrgs.br, gabinete.ufrgs.br, cedep.ifch.ufrgs.br, cme.ufrgs.br, esef.ufrgs.br, procuradoria.ufrgs.br, consun.ufrgs.br, cesup.ufrgs.br As pragas • • • • • Vírus Spyware SPAM Cartões Virtuais ... As pragas e o Moe As pragas e o Moe O Chasque CHASQUE, s. Mensageiro, estafeta, próprio, pessoa que se despacha levando uma mensagem. || Carta, aviso, recado, desafio. » Extraído do Dicionário de Regionalismo do Rio Grande do Sul, dos irmãos Zeno e Rui Cardoso Nunes, editado pela Martins Livreiro. O Chasque O Chasque • Um conjunto de serviços de comunicação para a UFRGS – Chasque Mail: Sistema de Correio Eletrônico – Chasque Disco: Sistema de Disco virtual – Chasque Web: Sistema de Páginas Pessoais O Chasque O Chasque Mail • Os desafios do projeto: – 100.000 usuários – escalável – tolerante a falhas – solução não proprietária – menor custo possível O Chasque Mail • Marcação de SPAM com melhor desempenho – DSpam (Bayesiano, com base única) • Webmail maduro e com interface conhecida Horde/IMP – testados também: Open Webmail, eGroupWare • DSPAM é ltro de emails feito para combater spam usando técnicas avançadas de análises estatísticas. • Foi criado por Jonathan Zdziarski sob a licença GPL, e na linguagem C, para prover o máximo de performance. • DSPAM ltra spams através do aprendizado do que é e o que não é spam. O DSpam • DSPAM vem ganhando muito suporte na Internet nos últimos anos. • Já está sendo usado em implementações em larga escala, alguns sistemas relatados possuem mais de 350.000 usuários. • O mais interessante é que o algoritmo usado confere à ferramenta uma taxa de 99.983% de acertos em sua classificação de SPAM! Histórico do uso do DSpam • O DSpam foi a solução antispam utilizada pelo Chasque Mail desde o princípio. • Programado em C para otimizar o processamento. • Excelente precisão na marcação. • Bastante utilizado e com bom suporte. Histórico do uso do DSpam • Antes de ser colocado em produção, o DSpam foi treinado com cerca de 30 mil emails bons e spams. • A base de dados era estática e global. • O tempo de processamento era excelente. • Problema: Marcação insatisfatória com o passar do tempo (base estática). Primeira Tentativa de Melhorar • Utilizar uma base global dinâmica. • Modo de treinamento: TOE (Train-OnError). • Permite que a base seja atualizada pelos usuários. • Problema: A base não era individual. Marcação não melhora para todos. Segunda Tentativa de Melhorar • Base única global + bases individuais. • Utilizando a opção Merged Groups • Modo de treinamento: TOE (Train-On-Error). • Com base individual para todos, o seu tamanho cresce demais e precisa ser controlado com regras de limpeza pesadas. • Problema: A marcação é ruim por causa da limpeza. O tempo de processamento aumenta. Solução • Individualização da base apenas para usuários que retreinarem. • Modo de treinamento: TOE (Train-On-Error). • Para os que não retreinarem, utiliza base global estática (notrain) pequena. • Algumas alterações no Maildrop e alteração do script de retreinamento. • Problema: Agora depende do usuário otimizar a sua marcação. Patch do Maildrop • Objetivo: Setar uma flag para indicar se o usuário já retreinou. • Criação de tabela para armazenar o Uid dos usuários que já retreinaram. • Alteração relativamente simples no Maildrop para consultar essa tabela e setar a flag. Trabalho do Maildrop • Se a flag DSPAM_RETRAINED é ‘1’ então utilizada a base individual para classificar o email antes de entregar na caixa do usuário. • Se a flag for ‘0’ entrega a mensagem para a base global classificar. Script de Retreinamento • O retreinamento é feito, obrigatoriamente, pelo Webmail da Universidade. • Utiliza recurso para reportar spam já disponível no Horde. • Quando o usuário reporta como spam ou não-spam, é enviado um email para endereços específicos que são tratados pelo script de retreinamento em perl. Script de Retreinamento • Procura os Headers necessários na mensagem: Subject, X-DSPAM-Signature e Delivered-To. • Se o usuário está na tabela dos retreinados então retreina de acordo com a vontade do usuário. • Senão, adiciona o usuário na tabela dos retreinados. • O primeiro retreinamento não funciona efetivamente. Serve para adicionar o usuário na tabela de bases individuais. O WebMail O WebMail Retreinando o DSPAM From: SPAMMER To: [email protected] POSTFIX AMAVIS (SPF+RBLs) MAILDROP Reportar Como Spam Acesso Pelo Webmail Caixa Postal De 99999999 é enviado para [email protected] POSTFIX transfere para dspam_retrain A base Dspam é atualizada DSPAM Base Individual Classificou Como Inocente