Passer au contenu

Le traitement des langues, entre linguistique et statistique

Depuis les balbutiements de l’informatique, le langage naturel se frotte aux langages machines. Pour tenter de l’“ encoder ”, les équipes de l’Inria associent informaticiens et linguistes

Les faits

L’Association pour le traitement automatique des langues célèbre cette année son 50e anniversaire. La cinquantaine de chercheurs de l’Inria qui travaillent dans ce domaine font partie de cette association. L’occasion de faire le point sur l’avancée de leurs travaux.

L’analyse

Comme dans d’autres disciplines, Google bouscule les habitudes. Jusqu’à présent, les spécialistes du traitement automatique des langues (TAL) s’évertuaient à embrasser la complexité et les ambiguïtés de la langue. Depuis le début des années 2000, une autre école a fait son apparition : l’approche statistique. Avec Google pour principal acteur dans le domaine historique du TAL qu’est la traduction automatique. Il s’agit, à partir d’algorithmes, de modéliser un très grand nombre de traductions réalisées par des traducteurs professionnels. Aujourd’hui, il y a une volonté de réunir le meilleur de ces deux mondes, à l’image de l’éditeur Systran qui introduit de la statistique dans son moteur de règles linguistiques.

Un moteur de recherche avancé pour l’AFP

C’est aussi le parti pris d’Alpage (Analyse linguistique profonde à grande échelle), la principale équipe de spécialistes du TAL au sein de l’Inria. Associant informaticiens et linguistes, Alpage travaille sur la compréhension automatique de textes à travers une analyse syntaxique phrase par phrase de l’ensemble du texte, puis par une analyse sémantique et discursive (structure du discours). “ Il s’agit de relier les phrases entre elles, en trouvant les relations rhétoriques qui les unissent, explique Laurence Danlos, directrice d’Alpage et professeur de linguistique informatique à l’université Paris 7. On peut calculer, par exemple, la probabilité que deux événements se suivent et en déduire une compréhension d’un texte. ” Alpage associe donc méthodes symboliques et méthodes statistiques. Pour l’approche probabiliste, on procède à la constitution de corpus annotés. “ C’est très coûteux en temps et il en faut un volume important pour dégager des statistiques. Les ressources de la francophonie sont limitées. Les anglophones sont plus en avance ”, reconnaît Laurence Danlos.Entre autres applications d’Alpage, l’équipe développe Scribo, un moteur de recherche avancé pour l’AFP, destiné à fournir un maximum d’informations pour compléter, notamment, une dépêche : par exemple, “ propose-moi, toutes les citations de Dominique de Villepin sur tel sujet en 2009 ”, illustre Laurence Danlos. Ce projet porte sur la création d’un référentiel ontologique et dynamique afin d’offrir aux journalistes et clients de l’agence un accès facilité à l’information. Derrière ces travaux se profile la volonté de se diriger vers une formulation en langage naturel sous forme de questions-réponses, ce qui suppose que le moteur ait “ compris ” la question. Un joli pied de nez à Google qui a fondé son succès sur la première génération de moteurs de recherche à base de mots clés.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Xavier Biseul