L’université Johns Hopkins : pour un système multilingue de reconnaissance vocale
Bill Byrne, chercheur au Center for Language and Speech Processing de l’université Johns Hopkins (Baltimore, Etats-Unis).Habituellement, les systèmes de reconnaissance vocale traitent le problème du multilinguisme en intégrant un module d’identification propre à chaque langue. Pour faire face au grand nombre de langues présent dans les interviews de la Fondation de la Shoah, les chercheurs de l’université Johns Hopkins souhaitent développer un module unique, capable de traiter n’importe quelle langue sans que le logiciel ait besoin d’un long apprentissage. Grâce à l’analyse de 100 heures d’interviews, les chercheurs d’IBM développent un module de reconnaissance en anglais. Ils écoutent et transcrivent les bandes vidéo, et les réponses correspondant à ces 100 premières heures sont données au logiciel. “Cependant, il n’est pas possible de faire la même somme de travail avec chacune des 32 langues, explique Bill Byrne, chercheur à l’université Johns Hopkins. Cela prendrait simplement trop de temps ! Pour la langue tchèque, les chercheurs vont utiliser à peu près 20 heures de traduction pour adapter le module au tchèque. A Johns Hopkins, on aimerait développer des techniques qui vont permettre de formater un système de reconnaissance vocale avec beaucoup moins de données.”
L’université du Maryland : priorité à l’indexation et à la recherche d’information
Douglas Oard, chercheur au College of Information Studies de l’université du Maryland.A l’université du Maryland, on travaille sur la partie “documentation” du projet. Pour l’instant, la Fondation de la Shoah indexe les témoignages vidéo manuellement, en se référant à un répertoire de mots clés. Concrètement, les bénévoles de la fondation visionnent des heures et des heures d’images. Quand un témoin fait allusion à Auschwitz, par exemple, ils notent le code correspondant à ce mot clé. Selon Sam Gustman, directeur de la technologie à la Fondation de la Shoah, “indexer de cette façon un témoignage de 2 heures et demie peut prendre jusqu’à 35 heures “. L’objectif des chercheurs de l’université du Maryland sera donc de mettre au point un système d’indexation automatisé. Première étape importante : la rédaction de nouveaux thésaurus, et le choix des mots clés. Il faudra ensuite intégrer ce système à une interface de recherche accessible à n’importe quel usager. C’est dans ce but ultime que travaillent les différents partenaires du projet Malach.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.