Linux, Base de données Postgresql, développement, Internet, emailing et déliverabilité.

Aller au contenu | Aller au menu | Aller à la recherche

Que peut-on apprendre des filtres anti-spam de Gmail ?


Depuis maintenant quelques mois, Gmail a été pourvu d'une notice explicative sur la raison de la mise en spam des emails. Il est assez intéressant de se pencher sur cette information pour comprendre un peu mieux ce qui se passe du côté de Google, la méthode d'analyse des emails et la manière dont ils sont catégorisés. Qui plus est, vous avez sûrement entendu parlé de Postini, le service de filtre anti-spam de Google Apps, qui maintenant profite également des règles de filtrage de Gmail, et donc s'appliquent aussi à des adresses professionnelles et non plus seulement aux détenteurs d'adresses @gmail.com. Enfin, il est toujours bon d'analyser les méthodes d'un webmail, car souvent les autres outils du marché s'approchent d'un fonctionnement assez identique.

En introduction, je vous parlais de la nouvelle notification de Gmail pour les spam. Pour ceux qui ne passent pas ou plus par leur boite à spam, cela ressemble à cela :

screenshot_gmail_spam.png

Cette notification s'affiche juste après l'entête qui indique le nom de l'expéditeur et la date d'expédition de l'email. Il vous indique donc l'explication de pourquoi cet email est considéré comme un spam et vous propose un lien pour savoir plus.

Il existe aussi des messages plus virulent lorsqu'il s'agit d'un cas de phishing avéré par exemple :

screenshot_gmail_spam2.png

Il y encore d'autres raisons qui sont décrites dans les explications données par Gmail. Mais il en ressort principalement deux principales pour lesquelles un message peut se retrouver dans le dossier spam. La première est que Google considère que le message est un faux ou considérable comme une tentative de phishing. La seconde est que Google considère le message comme un spam. Il y a, naturellement de multiples raisons derrière chacune de ces dispositions, et Google nous fournit quelques détails supplémentaires.

Le phishing (hameçonnage en français) est l'acte d'envoyer un email à un utilisateur en feignant d'être une entreprise légitime, avec pour objectif de l'arnaquer en récupérant ses informations privées et ainsi permettre aux voleurs de réaliser une simple vol d'identité. Les cibles principales sont bien évidemment les services bancaires, mais aussi les fournisseurs d'accès internet et cela va même jusqu'aux programmes de fidélisation. D'un autre côté les emails falsifiés sont des emails dont l'émetteur n'est pas celui qui prétend être. Tous les emails de phishing sont des faux, mais tous les email détectés comme des faux ne sont pas des tentatives de phishing, d'où la distinction dans le système de Gmail.

Si vos emails apparaissent comme de potentiels faux, c'est à dire que Gmail n'a pas été en mesure de contrôler que vous êtes bien l'émetteur de l'email, c'est que vous avez certainement un problème technique ou une infrastructure de routage de vos emails très mal configurée. Les basiques sont naturellement de vérifier que vos DNS (serveurs de nom de domaine) sont bien configurés au niveau des IP utilisées pour router vos emails. Qu'ils permettent de vous identifier clairement, y compris sur les requêtes de reverse qui sont souvent oubliées. Il est plus que recommandé d’adjoindre à cela un ou plusieurs système d'authentification. L'authentification confirme au destinataire que les messages sont réellement envoyés par vous. Il y a trois façons de le faire: DomainKeys Identified Mail (DKIM), qui signe cryptographiquement tous les messages sortants et prouve que le message n'a pas été altéré et a bien été envoyé par qui le déclare. La deuxième méthode est le Sender Policy Framework (SPF), qui définit simplement les serveurs de messagerie qui sont autorisés à envoyer des emails pour votre organisation. Vous devez mettre en œuvre au minimum ces deux technologies. Une dernière méthode vient d’apparaître depuis quelques mois, le DMARC, qui permet un niveau de certification et de contrôle supplémentaire, basé en plus sur le DKIM et le SPF. Le DMARC est de plus en plus utilisé, alors que la norme n'est pas officiellement terminée, et cela ne peut être que positif de l'implémenter.

Bien sur vos contenus doivent être convenablement encodés, et l'architecture de l'email doit se conformer à la RFC adéquat. Ensuite, il convient de contrôler l'adresse email émettrice, ainsi que la configuration de l'adresse de réponse (reply-to). Elles doivent être valides et présentes sur votre domaine. Nom de domaine, dont vous vous devez d'être le propriétaire, et qui se doit de correspondre à la marque utilisée dans votre communication. Cela paraîtra évident pour certains, mais c'est souvent un oubli majeur de ce type qui vous fait basculer dans la boite à spam. C'est aussi souvent la façon la plus simple d'usurper votre identité pour un spammeur, en déposant un nom de domaine proche du votre ou avec une extension simplement différente.

Si vous respectez ces étapes, il y a très peu de chance pour que Gmail et d'autres remettent en cause l'authenticité de vos messages.

Mais Gmail marque également des messages comme Spam parce qu'il estime qu'ils ne sont pas désirés par le destinataire. En général ces messages contiennent des éléments qui sont utilisés de façon classique dans les vrais spam, ou bien simplement leur expéditeur a déjà été marqué comme spammeur par vous même ou par de nombreux autres destinataires.

Si votre message contient des termes usuellement utilisés dans les spam, vous pouvez facilement comprendre pourquoi il est marqué de la même manière. Les filtres sont facilement contournés par les spammeurs en détournant leur communication, ou en abordant des sujets détournés pour vous atteindre. Tant et si bien que les filtres de contenu prennent souvent d'innocents messages pour des spam. Les filtres se sont grandement améliorés depuis les débuts de l'emailing. Ils ne se basent plus sur des filtrages simplistes de mots clés et d'expressions, mais sur un système beaucoup complexe d'analyses statistiques. Ce qui signifie que vous ne serez pas filtré simplement sur un mot ou une phrase, mais sur une séquence de traits statistiques et caractéristiques d'un spam. Une combinaison de contenus peut déclencher le filtrage, via un biais statistique, qui varie en plus dans le temps. Les liens contenus dans vos emails sont aussi souvent une cause simple de la mise en spam. Si un de ces lien utilise un nom de domaine classifié comme spammeur votre message le sera également. Souvent les compteurs de certaines sociétés spécialisées dans le comptage et l'ouverture de campagne ou de simples pages sont assimilés à des liens de spam. La seule solution consiste donc à tester si votre message arrive ou non en spam. Et si c'est le cas, il vous faudra reformuler votre message avec des mots nouveaux.

Si votre adresse email émettrice a été marquée comme spam par des utilisateurs, cela a forcément un impact sur vous. Avec certains fournisseurs de webmail en particulier, vous devez avoir été averti au travers d'une boucle de rétroaction de cette mise en spam, et vous devez donc impérativement retirer ces destinataires de vos listes. En revanche, et c'est le cas de tous les FAI français, à ce jour, ou de Gmail, si il n'y a pas de notification, vous serez toujours, et encore plus considérés comme du spam pour ces destinataires à chaque fois que vous enverrez un nouvel email. Une fois atteint un nombre relativement restreint d'utilisateurs qui vous auront marqué comme spammeur, votre réputation en prend radicalement un coup, et vos emails commencent à migrer progressivement dans la boite à spam par défaut. Et il devient de plus en plus difficile d'en sortir. Cela peut être une bonne raison d'envisager l'élimination progressive à long terme les utilisateurs inactifs.

Naturellement ici nous n'abordons qu'une infime partie de la gestion des filtres de Gmail. Même si Google fait un effort de vulgarisation de ses méthodes d'analyse, on peut se dire que beaucoup de détails ne sont pas exprimés pour les profanes, et surtout Google ne va pas expliquer tous les rouages qui permettraient d'être contournés par les spammeurs professionnels.

Enfin si vous êtes filtré par Gmail, vous pourrez toujours examiner certains des points expliqués et peut-être pourrez-vous remédier à la situation.

Ajouter un commentaire

Le code HTML est affiché comme du texte et les adresses web sont automatiquement transformées.

La discussion continue ailleurs

URL de rétrolien : https://www.footcow.com/index.php/trackback/106

Fil des commentaires de ce billet