Facebook : rencontre avec les ingénieurs qui modèrent les contenus à coups d'algorithmes

Comment distinguer de la marijuana d’un chou de Bruxelles ? Comment savoir si un commentaire désobligeant est drôle ou réellement insultant ? Comment déterminer si la photo d’un téton est pornographique ou non ? Et tout cela à l’échelle de la planète et à la vitesse de la lumière ? Voilà le genre de problèmes que cherchent à résoudre les ingénieurs du pôle « Intégrité de la communauté » chez Facebook.

Des machines et des hommes

Située au 3e étage du nouveau siège londonien de Facebook, cette équipe d’une dizaine d’ingénieurs pilote la modération des contenus de l’ensemble du groupe. Pour la première fois, ils ont ouvert leurs portes à la presse et levé le voile sur leurs outils.

Maintes fois épinglé pour ses manquements et son laxisme, la plate-forme fondée par Mark Zuckerberg s’évertue à mettre en avant ses efforts. Et la team integrity en est la vitrine. Sa principale mission : « minimiser les erreurs ». Un objectif au premier abord plutôt humble, mais qui s’avère en réalité très ambitieux. À l’aide de systèmes intelligents, ils sont chargés de protéger « l’intégrité » des 2, 4 milliards d’utilisateurs dans le monde.

Pour relever ce défi à la démesure du premier réseau social du monde, ces ingénieurs pensent des mécanismes automatisés toujours plus complexes et intelligents. Un processus dans lequel intelligences humaines et artificielles sont indissociables.

Facebook – L’exemple de la différence entre une photo de cannabis et un chou de Bruxelles illustre la complexité du filtrage des contenus.

Protéger la « communauté » Facebook

Leur Bible, ce sont les « Standards de la Communauté ». En six chapitres, ce guide de modération maison divise les contenus non-appropriés à cibler en trois grandes catégories : les acteurs frauduleux, les contenus illicites et les comportements nocifs. Malgré leur caractère formel, ces lignes directrices sont susceptibles d’évoluer pour coller au mieux aux normes et valeurs de la « communauté » Facebook.

« La propagande terroriste, par exemple, c’est zéro tolérance », explique Nicola Bortignon, un des ingénieurs en charge des contenus manifestement violents. « Mais, on a dû adapter notre définition du terrorisme. Avant c’était limité aux organisations identifiées comme terroristes : l’État islamique ou Al Qaida. Aujourd’hui, neuf mois après Christchurch, il a fallu élargir et renforcer notre filtrage. »

2 milliards de spams supprimés en trois mois

Derrière l’évidence du caractère illicite des contenus terroristes -régis par l’Appel de Christchurch– les arbitrages sont souvent à géométrie variable. D’ailleurs, pendant cette journée «portes ouvertes», les thèmes évoqués sont minutieusement choisis. Il ne sera pas question de la gestion des fausses informations, ni de pédopornographie, ni de suicide en ligne. Les ingénieurs du pôle Intégrité sont très prudents. Ils répètent à l’envi qu’ils « n’ont pas toutes les réponses ». La parade face à l’arbitraire reste l’agilité des intelligences artificielles qui appliquent leurs choix.

« Notre combat c’est de réduire un maximum les faux positifs et traquer les contenus qui passent entre les mailles du filet », explicite Simon Cross, le chef du pôle Intégrité. « Nous avons fait d’immenses progrès, même si ce n’est pas suffisant », reconnaît-il.

Selon le rapport sur la transparence publié en novembre 2019, la quantité des contenus terroristes supprimés sur Facebook s’élève à 5,2 millions de juillet à septembre de la même année. Mais, ce n’est rien comparé à la quantité de spams repérés et supprimés, qui s’approche des 2 milliards pendant la même période (voir le graphique ci-dessous).

L’échelle du graphique, en millions, montre la quantité astronomique des contenus à analyser. Les contenus relatifs à la haine en ligne semblent tout à fait minoritaires, alors qu’ils représentent, en réalité, 7 millions de publications.

Des ordinateurs pour des tâches titanesques

« L’avantage d’une machine c’est qu’elle est capable de détecter un million de contenus manifestement illicites immédiatement, en moins d’une seconde, et surtout de ne pas s’arrêter», explique Simon Cross, le chef du pôle Intégrité.

Pour le traitement des images publiées par les utilisateurs, par exemple, les technologies de machine learning sont désormais capables de comprendre les éléments de contexte pour déterminer la nature de la publication. Ce qui n’était pas possible en 2014. Pour reprendre le cas de la marijuana (voir la photo ci-dessus), les IA de Facebook sont capables d’analyser la nature de l’image, sa légende, mais également le contexte global de la publication.

Bilan : les ingénieurs se félicitent des progrès accomplis. La part de contenus modérés de manière proactive, c’est-à-dire que Facebook en interne supprime avant même qu’un usager ne le signale, tend à augmenter. Les publications contenant des armes, par exemple, sont repérées à 94% avant tout signalement. Une courbe ascendante, certes, mais circonscrite aux domaines que pôle Intégrité a bien voulu montrer.

« Un signalement suffit »

En parallèle, l’entreprise de Mark Zuckerberg ne cesse d’inciter ses utilisateurs à réagir. Une fois signalée, la publication fait l’objet d’un double dialogue avec la personne qui a signalé et celle qui a publié la publication signalée. Tous les contenus repérés par les usagers intègrent ensuite le parcours classique décrit plus haut.

« Un signalement suffit pour qu’il soit pris en compte », insiste Sandi Conroy, la data scientist en charge des fonctionnalités estampillées feedback. « Multiplier les signalements n’est pas nécessaire. Le nombre n’influe pas sur la prise en charge. Ce n’est qu’une légende. »

Même logique pour les commentaires, il y a un filtrage a posteriori par les algorithmes de Facebook. Mais si vous insultez délibérément un autre utilisateur, une fenêtre apparaît « Êtes-vous sûr ? ». Une question dérisoire qui trahit, finalement, l’impuissance de cette petite équipe à modérer une foule composée de centaines de millions de personnes…

15 000 modérateurs sur le globe

Si les IA sont efficaces, elles sont souvent stupides. Loin des bureaux londoniens, d’autres humains épaulent nos ingénieurs : une armée de nettoyeurs disséminés aux quatre coins du monde. Ils sont essentiels au travail des machines, explique-t-on chez Facebook. Selon Simon Cross, le chef du pôle Integrité, se passer de cette intelligence humaine est « impensable » à l’heure actuelle. Par un système de navette, les contenus repérés passent les différents filtres, avant d’être supprimés ou non. Dès qu’il y a un doute, la publication épinglée est revue par des modérateurs humains.

Mais à leur sujet, les ingénieurs sont peu bavards. Les informations sur ces travailleurs sont distillées avec parcimonie. En deux ans et demi, leur nombre a doublé. Les human reviewers sont passés de 7 500 en mai 2017 à 15 000 aujourd’hui. En Europe, les centres de modérateurs se situent en Irlande, au Portugal et en Allemagne. Leur nombre face à la dizaine d’ingénieurs en charge du pôle Intégrité de la communauté semble irréel.

Impossible, en revanche, de savoir dans quelle mesure ce sont des sous-traitants, quelle proportion est anglophone, qui voit quoi, s’ils sont suivis par des psychologues, où ils se trouvent exactement, comment ils travaillent, à quelle cadence, s’ils sont bien payés… Les modérateurs révèlent le côté obscur de Facebook, et mieux vaut éviter de trop en dire. L’équipe d’ingénieurs londoniens ne s’en tiendra qu’aux machines.

La chasse aux faux comptes

2,2 milliards de faux comptes ont été supprimés par les services de Facebook entre janvier et mars 2019. Alors que le trimestre d’avant, entre octobre et décembre 2018, ils ne s’élevaient « qu’à » 1,2 milliard. Cette explosion montre la difficulté croissante que rencontre le premier réseau mondial pour s’assurer que les personnes qui créent leur compte sont de vraies personnes. Et encore, si les comptes sont détectés avant même leur création, ils sont bloqués avant même leur activation. Ces faux comptes en gestation ne sont pas comptés dans ces chiffres. Facebook parle en « millions ».
La traque se décline ensuite au niveau des comptes créés, puis au sein des comptes actifs. Par mois, environ 5% des comptes actifs sont qualifiés de faux comptes. Ce qui représente –quand même- 120 millions de profils. Pour cela, Facebook entraîne des intelligences artificielles pour détecter ces utilisateurs fantômes.
La difficulté réside dans le fait de déterminer si le faux compte détecté est une « erreur » ou si au contraire c’est un faux compte créé sciemment. C’est cette catégorie qui mobilise les équipes. Au-delà de ce filtrage, il s’agit aussi de complexifier la création d’un compte pour éviter les robots. Dans ce cadre-là, Facebook expérimente la reconnaissance faciale. Il s’agirait, comme pour le déverrouillage de smartphone, de détecter un visage en mouvement avant la création d’un compte afin d’être sûr que le créateur est humain. L’expérimentation est encore en cours.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Marion Simon-Rainaud