Les réseaux bayésiens, meilleurs amis des analystes SSI Jerome Saiz le 11 juin 2014 à 17h23, dans la rubrique Produits & Technologies Commentaires fermés sur Les réseaux bayésiens, meilleurs amis des analystes SSI analyseantispamcyber-intelligencefraude interneintelligence artificielle L’idée lumineuse derrière les réseaux bayésiens est de considérer que les relations entre des causes et leurs effets n’ont pas à être prédéterminées mais peuvent malgré tout être envisagées de manière statistique. Cette approche mathématique formulée bien avant l’apparition de l’informatique, par le pasteur anglais Thomas Bayes au 18eme siècle, permet de s’affranchir du besoin très déterministe et pas très efficace de recenser a priori tous les liens possibles entre des causes et leurs effets. Comme l’on peut s’en douter le concept a vite rencontré un certain succès dans le petit monde de la sécurité informatique : car en faisant de l’incertitude sa matière première l’approche bayésienne a souvent été vendue comme une alternative aux modèles basés sur les signatures, qui nécessitent quant à eux de connaître précisément la menace afin de la détecter. Concrètement, évidement, les choses ne sont pas aussi simples et les applications de ce modèle à des produits de sécurité sont restées moins nombreuses que la détection à base de signatures qu’il est censé corriger. Mais de nouvelles pistes, des études scientifiques publiées ces dernières années et même une application commerciale toute récente laissent imaginer que les systèmes apprenants en général, et les réseaux bayésiens en particulier, seront amenés à jouer un rôle majeur en matière de détection des menaces modernes. Souvent présentés comme « apprenants » , les produits qui mettent en oeuvre une approche bayésienne doivent, sur la base d’un modèle conçu par l’éditeur, être nourris au préalable de décisions spécifiques prises chez le client afin de parvenir à un corpus d’exemples suffisant pour en tirer des conclusions ( « habituellement l’association de telle et telle cause en de telles proportions peut conduire à telle série de conséquences, dont la plus probable dans cas précis, en fonction des observations passées, est celle-ci » ). L’une des premières applications des réseaux bayésiens à la sécurité informatique, et aussi l’une des plus connue, concerne la lutte contre le spam. Il a en effet été compris très tôt qu’il était inutile de vouloir cataloguer tous les mots du vocabulaire des spammeurs tant l’imagination de ces derniers est sans limite lorsqu’il s’agit d’adapter leurs messages pour franchir les filtres. En revanche, si l’on considère qu’un certain nombre de points techniques des courriers reçus (nom de l’expéditeur, adresse IP, sujet, client email utilisé, formatage du texte, etc…) sont des causes et que la décision de l’utilisateur de déplacer ou non le courrier dans les messages indésirables en est une conséquence, les réseaux bayésiens sont tout à fait adaptés à la lutte anti-spam sur le poste client. Mieux, même : plus l’utilisateur reçoit de spams et les déplace à la corbeille, plus la solution « apprend » ce qui est un spam pour cet utilisateur spécifique, et donc s’adapte à ses préférences. Hélas, et comme toujours en informatique, si les données en entrée sont de mauvaise qualité alors celles en sortie ne seront pas meilleures… La qualité d’une telle solution est donc rapidement limitée par la pertinence des choix de l’utilisateur et sa capacité à ne pas se tromper. Or l’on sait bien que ce n’est jamais une très bonne idée que de compter sur l’utilisateur pour prendre la bonne décision. Dans le domaine de l’entreprise, en revanche, cette approche a été adaptée avec succès dans le domaine de l’analyse des risques, et son efficacité a été démontrée à de nombreuses reprises dans le cadre d’expérimentations scientifiques. On a ainsi utilisé des réseaux bayésiens pour détecter le vols d’identifiants pour la connexion au supercalculateur américain du National Center for Supercomputing Applications, en corrélant pour cela des informations issues des logs de systèmes (IDS, Cisco NetFlow) et d’autres liées au profil de l’utilisateur légitime dans son usage quotidien. Une approche similaire à celle de la lutte antispam a également été imaginée, toujours à partir d’un réseau bayésien, afin d’aider à la modération au sein des communautés Internet en détectant les comportements abusifs. Mieux encore : des chercheurs de l’université George Mason, aux Etats-Unis, ont conçu dès 2004 un modèle bayésien destiné à identifier la fraude interne en observant le comportement des utilisateurs sur le réseau. Leur modèle permet de détecter les écarts suspects par rapport à leur usage courant de l’outil informatique (accès à des systèmes ou à des données inhabituels, ou génération de trafic hors-norme pour leur activité). Leurs travaux ont été présentés à l’occasion de la conférence BRIMS (Behavior Representation in Modeling and Simulation), qui s’intéresse précisément à la modélisation des comportements. Et si les travaux présentés à BRIMS sont de nature purement académique, Darktrace, une société créé fin 2013, propose désormais une approche similaire sous la forme d’une appliance à placer sur le réseau de l’entreprise. Fondée par l’ex-CEO d’Autonomy (qui s’appuyait déjà sur des réseaux bayésiens pour trier des données non-structurées) et de travaux issus de l’université de Cambridge, Darktrace applique l’approche bayésienne afin de produire un modèle comportemental des utilisateurs, de leurs machines (y compris les mobiles) et du réseau lui-même. La solution va ensuite permettre de visualiser les écarts à la norme et identifier les comportements suspects sans qu’il ne soit nécessaire d’avoir défini au préalable ce qui représente précisément un tel comportement dit « suspect » (mais pas sans configuration, évidemment, ne serait-ce que pour gérer les exceptions). « Notre solution a par exemple donné l’alerte dans le cas d’un fort volume de données qui quitte soudain l’entreprise depuis le portable de la DRH vers un musée italien« , explique par exemple Emmanuel Meriot, responsable France & Espagne pour Darktrace. L’intérêt de la solution tient également à la visualisation très graphique qu’elle offre tant du trafic que de l’activité, et cela en temps réel. Ainsi, au delà de sa capacité à alerter des comportements suspects, elle permet à l’opérateur d’être intrigué par des liens étranges, des connexions soudaines vers des terminaux inédits ou encore des volumes de données étonnants. Et c’est là une composante essentielle du succès d’une telle solution : le cerveau humain est largement plus doué qu’une solution informatique pour faire des rapprochement entre des événements en apparence décorrélés (nous en parlons plus en détail dans nos articles « Le SIEM, et après ? » et, surtout, « L’Art de la Guerre et la SSI : buzz ou opportunité ?« ). Darktrace est ainsi un bon exemple de la direction que pourraient prendre les solutions de sécurité à l’avenir. Et pas seulement parce qu’elle met en oeuvre une technologie capable de prendre en compte l’incertitude des attaques modernes (sans connaissance a priori de leurs cibles ou de leur vecteur). Mais plutôt parce que son approche même est différente : au lieu d’attendre de la machine qu’elle prenne les décisions automatiquement, la solution s’appuie sur la technologie pour surveiller de vastes quantités de données en temps réel, les filtrer, identifier les violations les plus flagrantes sur un périmètre très large et laisser à l’humain ce qu’il fait de mieux : avoir de l’intuition pour les détails ! En cela le recourt à des systèmes apprenants – bayésiens notamment – couplés à des avancées sur la visualisation des données (Picviz Labs, par exemple) est probablement emblématique d’une nouvelle génération de solutions de sécurité. Vous avez aimé cet article? Cliquez sur le bouton J'AIME ou partagez le avec vos amis! Notez L'article Participez ou lancez la discussion!