sábado, 15 de febrero de 2003

Spam Conference

A mediados del pasado mes de enero se celebró en el MIT la primera
conferencia dedicada al SPAM, centrada en analizar el estado del arte de
la tecnología para detección y eliminación del SPAM.

La conferencia fue organizada por el MIT y se presentaron diversas
ponencias sobre la actualidad en la lucha contra el spam. A continuación
presentamos un resumen de las mismas, facilitando la URL donde está
disponible la presentación.

Para todos aquellos que no tuvimos la oportunidad de asistir en vivo, es
posible ver la totalidad de la conferencia vía Internet, ya que todas
las ponencias fueron registradas en vídeo y están disponibles en formato
Real en la dirección:

http://www.spamconference.org/webcast.html

* Gnus versus Spam
Teodor Zlatanov
> http://lifelogs.com/spam/spam.pdf

Gnus es un lector de correo y newsgroups basado en GNU Emacs. Esta
ponencia se centra en el paquete spam.el, que añade a Gnus la
posibilidad de realizar un filtrado de los mensajes para eliminar
aquellos que son identificados como spam.

* Filtrado de mensajes a partir del análisis del hash polinominal y la
discriminación CRM114
Bill Yerazunis
> http://crm114.sourceforge.net/crm_slides/CRM114_slides.html

La técnica de filtros bayesianos, basada en la estadística, se ha
mostrado muy eficiente para la identificación del spam. En esta ponencia
se presenta una generalización del método bayesiano, basado en el
análisis del hash polinominal que permite la identificación de palabras
y frases modificadas. La aplicación de este sistema permite obtener una
fiabilidad superior al 99,5%, realizando el filtrado en tiempo real.

* Filtrado adaptable del spam
Jason Rennie
> http://www.ai.mit.edu/~jrennie/talks/spam03.pdf

Todas las técnicas existentes en la actualidad para la identificación
del spam adolecen de un problema: no se adaptan a los cambios que
realizan los spammers. Este es un problema común a los sistemas basados
en filtros bayesianos o en listas negras. El autor de esta ponencia
presenta un nuevo método de identificación del spam, basado en el
aprendizaje dinámico de patrones.

* El compendio de los spammers
John Graham-Cumming
> http://popfile.sourceforge.net/SpamConference011703.pdf

Se presente POPFILE, un proxy POP3 que se instala en la máquina del
usurario final y realiza una clasificación bayesiana de los mensajes
entrantes en un número arbitrario de clases. Se trata de un sistema cada
vez más popular para la lucha contra el spam.

La ponencia presenta algunas de las técnicas que utilizan los Spammers
para saltarse este tipo de filtros y cuales son las técnicas que utiliza
POP3FILE para evitar todos estos trucos.

* Siguiendo sus patrones
John Draper

El autor de la ponencia se dedica a analizar el comportamiento de los
spammers. Si bien el comportamiento de los mismos no es del todo
consistente, el análisis de muchos generadores masivos de spam ha
permitido identificar una serie de patrones que pueden ser de interés en
la lucha contra el spam.

* Infraestructura necesaria para la investigación del Spam
Paul Judge
> http://www.ciphertrust.com/resources/presentations/spamconf2003/spamresearch.pdf

La escala y tamaño del spam hace que hoy en día ya pueda clasificarse
como una autentica epidemia y no ya una simple molestia. Se ha
convertido, en definitiva, en un problema de seguridad de la
información.

Para analizar de una forma eficiente este problema, debe disponerse de
una infraestructura adecuada, como archivos estandarizados para la
investigaciones (como los disponibles en SpamArchive.org), herramientas
de investigación y conferencias técnicas.

* Mejor filtrado bayesiano del Spam
Paul Graham
> http://paulgraham.com/better.html

Hace solo un año, Paul Graham presentó un simple algoritmo basado en la
utilización de técnicas bayesianas de estadística que permitía
identificar el 99% del spam, con un porcentaje casi nulo de falsos
positivos. En esta ponencia se presentan algunas mejoras en el
algoritmo, que permiten conseguir un mayor rendimiento.

* eXpurgate, un método diferente para el filtrado del correo y la
detección del Spam
Robert Rothe

eXpurgate es un servicio dirigido a empresas y que les permite una
protección fiable contra el spam. ¿Cómo funciona este servicio? ¿Cuáles
son las técnicas de filtrado utilizadas?

* Filtrado de spam a nivel de red
Matt Sergeant
> http://axkit.org/docs/presentations/spam/SpamConf2003.pdf

El filtrado de mensajes para identificar el spam, cuando se realiza a
nivel de red debe plantearse de una forma diferente el filtrado se
realiza únicamente en una cuenta de correo individualizada.

La ponencia se centra en las consideraciones a realizar cuando el
filtrado se realiza a nivel de red, así como las diferentes tecnologías
existentes. Se discute, también, el nuevo componente bayesiano de
SpamAsssassin.

* Técnicas anti-spam en python.org
Barry Warsaw

Existen actualmente casi un centenar de listas de correo en los
servidores de correo de python y zope. La ponencia presenta las técnicas
utilizadas para evitar la difusión de spam a través de estas listas, que
consisten en reglas de Exim4, la integración con SpamAssassin y las
técnicas anti-spam de Mailman.

La ponencia analiza la efectividad de estas técnicas y también como
afectan a nivel de administración de las listas. Se discuten también los
planes para el futuro.

* SmartLook: clasificador automático de correo para Outlook
Jean-David Ruvini

Se presenta una herramienta para los usuarios de Outlook que permite la
clasificación automática de los mensajes en carpetas, realizando la
predicción de la ubicación donde el usuario desea conservar el mensaje.
Esta posibilidad de clasificación automática, basada en la predicción a
partir del contenido del mensaje, puede utilizarse para filtrar
automáticamente el spam.

* Spam: ¿un peligro o una amenaza? El punto de vista de un ISP
Barry Shein

Desde el punto de vista de un proveedor de acceso a Internet, el spam es
peor de lo que a primera vista puede parecer. Si para la mayoría de la
gente el spam no es otra cosa que una 'molestia', para el ISP se
convierte en un autentica amenaza a su posibilidad de supervivencia.

El ponente discute las razones para considerar el spam como una
autentica amenaza y propone una posible solución al problema (que ya
adelanto no va a gustar a nadie).

* Lecciones de Bogofilter
Eric S. Raymond

Bogofilter es un sistema de filtrado basado en la utilización de
técnicas estadísticas bayesianas, a partir del trabajo de Paul Graham.
En esta ponencia Eric Raymond comenta que ha aprendido en el poco más de
medio año de vida de Bogofilter.

* Filtrado de spam: del laboratorio al mundo real
Joshua Goodman
> http://www.research.microsoft.com/~joshuago/spamconferenceshort.ppt

Esta ponencia discute las técnicas de filtrado de spam que ha
desarrollado Microsoft y las consideraciones a tener en cuenta para
mover un desarrollo del entorno de laboratorio al mundo real, donde será
utilizado por millones de usuarios. ¿Cómo evaluar el funcionamiento de
un filtro de spam?, ¿cómo realizar la evaluación de diversas
alternativas?

* Integración de heurística y n-grams utilizando Bayes y LMMSE
Michael Salib
> http://web.mit.edu/msalib/www/writings/talks/spam-filtering-conference/html/index.html

Si bien los filtros bayesianos disponen en estos momentos de una gran
popularidad, éstos pueden ser mejorados. En la ponencia se describe la
integración de detectores heurísticos de spam, mejorados con la
utilización de n-gram (para permitir la independencia del idioma).

* Cuarenta años de aprendizaje informático para la clasificación del
texto David Lewis
> http://www.daviddlewis.com/publications/slides/lewis-2003-0117-spamconf-slides.pdf

La primera experiencia de aprendizaje informático para la clasificación
de texto data del año 1961 (curiosamente también utilizaba las técnicas
bayesianas hoy tan populares). En esta ponencia se resume todo lo
aprendido en estos cuarenta años, tanto desde el punto de vista
académico como operativo. Para al ponente son mucho más importante las
técnicas utilizadas para la preparación del texto a analizar que no el
algoritmo particular utilizado para el aprendizaje.

* ¿Se pueden utilizar los recursos legales para combatir el spam?
Jon Praed
> http://www.spamconference.org/praed.pdf

Si bien las herramientas tecnológicas son un buen sistema para combatir
el spam, también la aplicación de los recursos legales existentes es un
buen sistema para combatir la difusión masiva de mensajes basura. De
hecho, ya hay mucha jurisprudencia (en Estados Unidos) de ISP que han
utilizado los recursos legales para combatir la utilización de su
infraestructura para el envío de spam. La ponencia analiza la situación
actual y las diversas proposiciones de nuevas normativas que son de
interés en la lucha contra el spam.

* Hace falta, desesperadamente, un consorcio anti-spam
David Berlind

David Berlind es un columnista de CNET que, cada semana escribe un
boletín que es recibido por más de un millón de lectores. Esto convierte
su buzón (donde recibe más de 600 mensajes diarios) en un autentico foco
de recepción de spam. Pero David Berlind no utiliza ningún sistema de
filtrado, para evitar que mensajes legítimos enviados por sus lectores
puedan ser ignorados.

Para el ponente se hace necesario que los diversos actores de la
industria se unan para trabajar conjuntamente en la solución del
problema. Si ya lo han hecho en el pasado, cooperando en las
especificaciones de XML, SOAP, Wi-Fi y Bluetooth, ¿por qué no pueden
hacerlo en la lucha contra el spam?

* Lucha contra el spam en tiempo real
Ken Schneider
> http://www.brightmail.com/press/2003_MIT_Spam_Conference/

El spam es un problema extremadamente dinámico. Los spammers
constantemente utilizan nuevas y cambiantes técnicas y sus herramientas
cada día son más sofisticadas. Además el problema crece y crece: en
septiembre de 2001 sólo el 8% del correo era spam; un año después, el
spam ya representaba un 38% del volumen total del correo.

La identificación del spam en tiempo real tiene un gran impacto en los
usuarios del correo. Esta ponencia presenta las técnicas utilizadas por
Brightmail, una empresa especializada en este tipo de filtrado.


Xavier Caballé
xavi@hispasec.com