La reconnaissance vocale multilocuteur

Un serveur vocal réussi possède la meilleure ergonomie possible. Celle-ci passe par une optimisation du moteur de reconnaissance vocale pour que le taux de succès des requêtes dépasse les 95 %. Pour cela, le corpus ?” fichier où ont été enregistrées des voix ?” doit être varié. Il comprend entre mille et cinq mille voix différentes, dont quelques-unes enregistrées à travers des téléphones portables, s’il s’agit d’un service mobile. Cela permet au moteur de reconnaître un maximum de phonèmes, c’est-à-dire les sons élémentaires composant le langage ?” le français en comprend trente et un ?” quels que soient son interlocuteur ou son mode de communication.Le dictionnaire doit être suffisamment petit ?” pour que le moteur ne perde pas de temps à identifier des mots ?” et assez grand pour limiter au maximum les risques de confusion et prévoir les différentes phonétisations d’un même terme. Dans le cadre d’un portail ou d’un serveur multilingue, il faut penser à une gestion dynamique des dictionnaires pour basculer rapidement sur celui correspondant au service ou à la langue demandée par le client. Si la requête est incomplète ou incomprise, le scénario d’appel doit comprendre des relances pour obtenir les informations manquantes.A la différence d’un système de reconnaissance mono-utilisateur, la majeure partie du travail d’ergonomie se fait avant la mise en place du service. Même si des ajustements se font durant sa vie, en raison, par exemple, de l’oubli de la phonétisation d’un mot ou encore pour ajouter une nouvelle valeur au dictionnaire.

Comprendre : Une scénarisation de qualité assure une bonne analyse de la voix

1. Numériser la voix humaine

Les communications avec un être humain ?” utilisateur, opérateur du centre d’appel ?” passent par un pilote vocal. Celui-ci transforme l’analogique en numérique et vice-versa.

2. Orchestrer le traitement de l’appel

Le scénario requiert d’abord une traduction de ce que vient de demander le client au moteur de reconnaissance vocale.

3. S’appuyer sur un corpus et des dictionnaires

Le corpus est un fichier qui intègre plus de mille voix. Il permet au moteur de reconnaître les différents phonèmes de la langue, quel que soit l’interlocuteur. Pour un service international mais monolingue, il faudra un corpus par nationalité appelante. Les dictionnaires rassemblent les termes propres au service proposé et les éléments de syntaxe pour comprendre la phrase. Deux systèmes de débruitage permettent d’isoler la parole du bruit ambiant et de détecter quand l’interlocuteur a cessé de parler.

4. Prévoir les cas d’incompréhension

Si la requête n’est pas comprise ?” phrase incomplète, toux, homophonie, etc. ?”, le scénario générera une demande de précision auprès de l’interlocuteur. Ou il dirigera ce dernier vers un être humain.

5. Rechercher l’information

La requête comprise, le scénario cherche la réponse dans une base de données ou un site web. Il la retourne formulée en texte vers le serveur vocal ou renvoie l’interlocuteur vers un être humain ?” dans le cas d’un standard automatique, par exemple.

6. Synthétiser une réponse vocale

Le pilote répond à l’utilisateur avec une voix de synthèse. Parallèlement à cette réponse, le scénario peut générer la confirmation des opérations écoulées, par courrier électronique ou par SMS.

Comprendre : Demain : vers des langages de scénarisation standards

VoiceXML (Voice eXtensible Mark-up Language) a été créé en 1999 par AT&T, IBM, Lucent Technologies et Motorola. Il a pour but de créer un langage de scénarisation indépendant du moteur. Il n’est pas encore aussi perfectionné que les langages propriétaires mais il assure déjà une très bonne gestion des dictionnaires, qu’ils soient contextuels ou dynamiques. Même si les acteurs du marché utilisent de façon préférentielle leurs propres langages, ils ont tous un module compatible avec VoiceXML. Ce standard en est déjà à sa version 2.0. Un autre pourrait pourtant lui faire concurrence : Salt (Speech Application Language Talk). Bien qu’il ne soit quà ses débuts, il compte Cisco, Intel, Microsoft et Speechworks comme supporters.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Stéphanie Chaptal