octobre 21st, 2009 Posté dans Filtrage du spam | 2 Commentaires »
La semaine dernière, Tamara Gielsen a tweeté un document très intéressant rédigé par Bradley Taylor et publié à l’occasion de la conférence CEAS 2006 intulée : Sender Reputation in a Large Webmail Service. Le document est très utile pour comprendre comment fonctionne un système de filtrage basé sur la réputation chez un opérateur comme Gmail qui gère un volume de boîtes aux lettres conséquent et les différentes problématiques rencontrées pour authentifer les expéditeurs.
Le document décrit comment la mise en place d’un système basé sur la réputation a permis à Gmail d’être beaucoup plus efficace dans le filtrage du spam en prenant les décisions de filtrage en notant les expediteurs plutôt que les contenus envoyés.
Encore une fois, la définition du spam peut être différente et nuancée selon les pays et les lois : certains disent que le spam est un message non-sollicité, certains precisent que celui-ci doit être envoyé en masse, et enfin certains diront qu’il s’agit de message qu’ils ne veulent pas, même s’ ils y ont souscrit. Dans les cas d’une gestion des emails entrants automatisée, le postula du document étant une définition du spam comme étant des messages non-desirés par les internautes, utilisateurs finaux des services de messagerie à satisfaire.
Not everyone agrees what spam is, so there end up being many defnitions of it. Some will say it is any form of unsolicited mail. Some will say only unsolicited bulk mail. Or some will say it is any mail they didn’t want, even if they were subscribed. [...] because the volume of our mail is high and anything manual would be too expensive. [...]. Even detecting that something is bulk is difficult. [...] The easiest definition for us to use is simply unwanted email.
Voici quelques points intéressants à retenir :
- Les systèmes de whitelistes et de blacklistes ne sont pas gérables par pour un webmail comme Gmail : les entrées dans la blackliste peuvent se faire automatiquement grâce à un réseau de spamtrap mais les sorties doivent être gérées manuellement. Pour la whiteliste le problème mentionné est que si Gmail proposait un système de whitelistage, tous les expéditeurs en masse appelleraient pour entrer dans la whiteliste en garantissant qu’ils sont tous de bons expéditeurs et Gmail ne pourrait pas vérifier ceci.
- Le système de réputation est un concept qui implique de scorer un expéditeur. Pour rattacher le score a une entité, la première chose à faire est de définir précisément une façon fiable d’identifier celui-ci. Gmail précise que l’identification de l’expéditeur par l’IP expéditrice a des limites : un même expéditeur n’a pas toujours la même adresse IP. Une IP n’est pas forcément dédiée à un même expéditeur et les problématiques de forward d’email ajoutent de la complexité à l’authentification.
- Gmail utilise le système best-guess SPF pour authentifier les expéditeurs qui n’utilisent pas le SPF. best-guest SPF étant un principe qui considère que le domaine est authentifié si l’IP expéditrice est sur la même range d’IP que l’IP de l’enregistrement A ou de l’enregistrement MX du domaine expéditeur.
- Un score est realisé en fonction de 4 indicateurs : email detecté automatiquement comme des spams, automatiquement comme des nonspam, manuellement comme des spams et manuellement comme des nonspam. Chaque score est rattaché à chacun des éléments authentifiant du message: l’IP emettrice, le SPF, le DomainKey et la décision de filtrage est prise sur un score géneral.
- Le système de calcul de réputation n’utilise pas les remontées de tous les utilisateurs Gmail mais uniquement de ceux jugés comme remontant une information pertinente. Les reports utilisateurs utilisés sont limités à un report par heure.
- Il existe plusieurs systèmes de filtrage basé sur la reputation mais celui de Gmail est un des seul qui se base fortement sur le domaine plutôt que sur l’adresse IP. Je rappelle que ce document est daté de 2006, la situation a evolué depuis.
- Gmail est conscient que certains utilisateurs utilisent le boutton de « report pour spam » pour se désabonner et que ceci impact la réputation des expéditeurs. Pour éviter ceci, Gmail recommande aux expéditeurs de demander régulièrement à leurs membres une confirmation de leur abonnement. Notons que depuis, Gmail a integré la gestion du header List-unsubscribe qui permet une intégration de la procédure de désabonnement dans l’interface du webmail (avec ou sans report pour spam).
Tags:
gmail,
reputation,
webmail
2 Commentaires »