Les ordinateurs font déjà de l’humour, ils vont bientôt être sensibles à l’ironie et au sarcasme. Trois chercheurs de l’université de Jérusalem, en Israël, ont fait un premier pas dans cette direction. Ils ont mis au point un algorithme capable de déceler les commentaires sarcastiques postés par les internautes dans les forums d’évaluation de produits, comme ceux d’Amazon. Leurs travaux viennent d’être publiés dans le cadre d’une conférence internationale qui se tiendra à Washington du 23 au 26 mai prochains.
Le projet, selon les chercheurs, pourrait avoir des applications pratiques. Les marques pourraient ainsi mieux cerner l’opinion des internautes sur leurs marchandises. A l’heure actuelle, les programmes d’évaluation automatique sont incapables de reconnaître les phrases ironiques du type « Ce livre était vraiment bon jusqu’à la page 2 » ou encore « Idée géniale, maintenant réessayez avec une vraie équipe de développement » (au sujet d’une liseuse électronique).
L’algorithme Sasi (pour Semi-supervised Algorithm for Sarcasm Identification), mis au point par les chercheurs, serait quant à lui capable de les repérer dans 77 % des cas. Il a été testé sur une base de 66 000 commentaires relevés sur le site d’Amazon et portant sur divers produits et livres.
Une phase d’apprentissage
Pour parvenir à ce résultat, le procédé inclut naturellement une phase d’apprentissage : plusieurs centaines de phrases ont été évaluées par des êtres humains pour nourrir l’algorithme.
Des tendances se dégagent ainsi de cette étape préliminaire. Logiquement, les commentaires les plus sarcastiques sont très majoritairement associés à des critiques négatives des produits évalués par les internautes. La présence de certains caractères, ?, !, ou de guillemets est aussi un bon indicateur du degré d’ironie d’une phrase.
Le programme est ensuite capable d’établir des modèles qu’il va utiliser pour reconnaître les commentaires sarcastiques. Ceux qui souhaitent connaître tous les détails de cet algorithme peuvent consulter un document PDF passionnant de huit pages évoquant le « pattern extraction » ou encore la validation « 5-fold cross ». Oui, c’est de l’ironie.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.