Apresentação

Propaganda
Chasque Mail e o DSpam
Comunicação para a UFRGS
Alexandre Marchi
Francisco Fialho
Guilherme Pezzi
Leandro Rey
Agenda
Vortex X Spam
Estrutura em 2004
As pragas
O Chasque
O DSpam
O Maildrop
O Webmail
Vortex X Spam
Spam é a denominação dada, no ambiente da
Internet, às mensagens eletrônicas enviadas para um
grande número de usuários sem que estes a tenham
solicitado, com objetivos diversos:
Fazer propaganda de produtos e serviços de todos
os tipos;
Disseminação de vírus;
Correntes da sorte;
Boatos;
Difamações
Vortex X Spam
O Spam pode causar problemas para usuários da
Internet:
Não recebimento de e-mails. Provedores Limitam o
tamanho da caixa postal do usuário;
Gasto desnecessário de tempo para acesso e leitura;
Aumento de custos. Independente do tipo de acesso à
Internet;
Conteúdo impróprio;
Perda de confiança;
Exposição a fraudes e vírus
Vortex X Spam
2004 - Fim de linha
atrasos intoleráveis
apagando SPAM para sobreviver
mais de 30.000 usuários
máximo de 40K mgs/dia
Estrutura em 2004
Mails para UFRGS
SMTP OUT
SMTP IN p/ ADSL
Proxy p/ ADSL
mail p/ @ufrgs.br
Web Mail
da UFRGS
AV e ASPAM
Curly
Cassiopéia
Moe
Mails para
UFRGS
SMTP OUT
Web Mail
POP, SMTP
Spider
Vortex
SMTP - OUT
p/ UFRGS
UFRGS
Proxy
Estrutura em 2004
• Moe, o amigo do Vortex
– elimina vírus
– marca SPAMs
– apaga SPAMs com pontuação maior que 4
– Compaq ML 330 G2 - PIII 1.1 GHz, 1GB
Estrutura em 2004
• Curly, o amigo de todos:
– Elimina vírus e marca SPAMs
– Compaq ML 330 G2 - PIII 1.1 GHz dual, 1 GB
– Domínios atendidos:
•
cpd.ufrgs.br, if.ufrgs.br, gaya.if.ufrgs.br, orion.ufrgs.br, adufrgs.ufrgs.br,sph.ufrgs.br, coperse.ufrgs.br,
decordi.ufrgs.br, prograd.ufrgs.br, propesq.ufrgs.br, propg.ufrgs.br, prorext.ufrgs.br, prorh.ufrgs.br,
prorhesc.ufrgs.br, rh.ufrgs.br, hcpa.ufrgs.br, mat.ufrgs.br, famed.ufrgs.br, enq.ufrgs.br, farmacia.ufrgs.br,
adm.ufrgs.br, arq.ufrgs.br, bc.ufrgs.br, botanica.ufrgs.br, cbiot.ufrgs.br, dna.cbiot.ufrgs.br, ceue.ufrgs.br,
cpgec.ufrgs.br, ct.ufrgs.br, deca.ufrgs.br, demin.ufrgs.br, direito.ufrgs.br, ea.ufrgs.br, lies.edu.ufrgs.br,
piaget.edu.ufrgs.br, edu.ufrgs.br, enf.ufrgs.br, engcivil.ufrgs.br, drummond.enq.ufrgs.br, faced.ufrgs.br,
merlin.famed.ufrgs.br, calvin.famed.ufrgs.br, faurgs.org.br, fce.ufrgs.br, iepe.ufrgs.br, ifch.ufrgs.br,
iph.ufrgs.br, iq.ufrgs.br, lapes.ufrgs.br, mecanica.ufrgs.br, engmec.mecanica.ufrgs.br, museu.ufrgs.br,
ndsm.ufrgs.br, niee.ufrgs.br, solaris.niee.ufrgs.br, nsi.ufrgs.br, nuted.edu.ufrgs.br, ppga.ufrgs.br,
ppge.ufrgs.br, dns.ppgep.ufrgs.br, ppgep.ufrgs.br, ppgec.ufrgs.br, ppgiph.ufrgs.br, psico.ufrgs.br,
leceng.mecanica.ufrgs.br, euler.mat.ufrgs.br, penta.ufrgs.br, pgie.ufrgs.br, querencia.ufrgs.br,
vortex.ufrgs.br, ufrgs.br, cap.ufrgs.br, tolkien.nuted.edu.ufrgs.br, gabinete.ufrgs.br, cedep.ifch.ufrgs.br,
cme.ufrgs.br, esef.ufrgs.br, procuradoria.ufrgs.br, consun.ufrgs.br, cesup.ufrgs.br
As pragas
•
•
•
•
•
Vírus
Spyware
SPAM
Cartões Virtuais
...
As pragas e o Moe
As pragas e o Moe
O Chasque
CHASQUE, s. Mensageiro, estafeta, próprio,
pessoa que se despacha levando uma
mensagem. || Carta, aviso, recado, desafio.
» Extraído do Dicionário de Regionalismo do Rio
Grande do Sul, dos irmãos Zeno e Rui Cardoso
Nunes, editado pela Martins Livreiro.
O Chasque
O Chasque
• Um conjunto de serviços de comunicação
para a UFRGS
– Chasque Mail: Sistema de Correio Eletrônico
– Chasque Disco: Sistema de Disco virtual
– Chasque Web: Sistema de Páginas Pessoais
O Chasque
O Chasque Mail
• Os desafios do projeto:
– 100.000 usuários
– escalável
– tolerante a falhas
– solução não proprietária
– menor custo possível
O Chasque Mail
• Marcação de SPAM com melhor desempenho
– DSpam (Bayesiano, com base única)
• Webmail maduro e com interface conhecida
Horde/IMP
– testados também: Open Webmail, eGroupWare
• DSPAM é ltro de emails feito para combater
spam usando técnicas avançadas de análises
estatísticas.
• Foi criado por Jonathan Zdziarski sob a licença
GPL, e na linguagem C, para prover o máximo de
performance.
• DSPAM ltra spams através do aprendizado do
que é e o que não é spam.
O DSpam
• DSPAM vem ganhando muito suporte na Internet
nos últimos anos.
• Já está sendo usado em implementações em larga
escala, alguns sistemas relatados possuem mais de
350.000 usuários.
• O mais interessante é que o algoritmo usado confere
à ferramenta uma taxa de 99.983% de acertos em sua
classificação de SPAM!
Histórico do uso do DSpam
• O DSpam foi a solução antispam utilizada
pelo Chasque Mail desde o princípio.
• Programado em C para otimizar o processamento.
• Excelente precisão na marcação.
• Bastante utilizado e com bom suporte.
Histórico do uso do DSpam
• Antes de ser colocado em produção, o
DSpam foi treinado com cerca de 30 mil
emails bons e spams.
• A base de dados era estática e global.
• O tempo de processamento era excelente.
• Problema: Marcação insatisfatória com o
passar do tempo (base estática).
Primeira Tentativa de Melhorar
• Utilizar uma base global dinâmica.
• Modo de treinamento: TOE (Train-OnError).
• Permite que a base seja atualizada pelos
usuários.
• Problema: A base não era individual.
Marcação não melhora para todos.
Segunda Tentativa de Melhorar
• Base única global + bases individuais.
• Utilizando a opção Merged Groups
• Modo de treinamento: TOE (Train-On-Error).
• Com base individual para todos, o seu tamanho
cresce demais e precisa ser controlado com regras
de limpeza pesadas.
• Problema: A marcação é ruim por causa da
limpeza. O tempo de processamento aumenta.
Solução
• Individualização da base apenas para usuários que
retreinarem.
• Modo de treinamento: TOE (Train-On-Error).
• Para os que não retreinarem, utiliza base global
estática (notrain) pequena.
• Algumas alterações no Maildrop e alteração do
script de retreinamento.
• Problema: Agora depende do usuário otimizar a
sua marcação.
Patch do Maildrop
• Objetivo: Setar uma flag para indicar se o
usuário já retreinou.
• Criação de tabela para armazenar o Uid dos
usuários que já retreinaram.
• Alteração relativamente simples no
Maildrop para consultar essa tabela e setar a
flag.
Trabalho do Maildrop
• Se a flag DSPAM_RETRAINED é ‘1’
então utilizada a base individual para
classificar o email antes de entregar na
caixa do usuário.
• Se a flag for ‘0’ entrega a mensagem para a
base global classificar.
Script de Retreinamento
• O retreinamento é feito, obrigatoriamente,
pelo Webmail da Universidade.
• Utiliza recurso para reportar spam já
disponível no Horde.
• Quando o usuário reporta como spam ou
não-spam, é enviado um email para
endereços específicos que são tratados pelo
script de retreinamento em perl.
Script de Retreinamento
• Procura os Headers necessários na mensagem:
Subject, X-DSPAM-Signature e Delivered-To.
• Se o usuário está na tabela dos retreinados então
retreina de acordo com a vontade do usuário.
• Senão, adiciona o usuário na tabela dos retreinados.
• O
primeiro
retreinamento
não
funciona
efetivamente. Serve para adicionar o usuário na
tabela de bases individuais.
O WebMail
O WebMail
Retreinando o DSPAM
From: SPAMMER
To: [email protected]
POSTFIX
AMAVIS
(SPF+RBLs)
MAILDROP
Reportar
Como
Spam
Acesso
Pelo
Webmail
Caixa Postal
De
99999999
é enviado
para
[email protected]
POSTFIX
transfere para
dspam_retrain
A base Dspam
é atualizada
DSPAM
Base
Individual
Classificou
Como
Inocente
Download