Passer au contenu

Reconnaissance vocale : la voix de la croissance

Hier cantonnées à des applications de niches, les technologies de reconnaissance vocale permettent, aujourd’hui, de concevoir des solutions d’entreprise ou d’opérateur robustes et économiquement viables.

La reconnaissance vocale a fait d’énormes progrès. L’évolution de ce marché est essentiellement liée à celle de son principal support technologique : les processeurs. À partir de 1995, on assiste à une croissance accélérée de leur puissance. Du Pentium 166 MHz au Pentium 1 GHz, on est passé du traitement d’une centaine de mots à celui de millions de noms. Aujourd’hui, le Cnet (Centre national d’études des télécommunications) propose l’annuaire de la Bretagne (1,4 million de noms) sur une seule machine. En parallèle, l’adaptation des moteurs de reconnaissance à de l’architecture client-serveur a permis de démultiplier ces puissances en donnant la possibilité au serveur, après distribution des tâches de traitement du signal, de se concentrer sur la gestion de l’applicatif.Une solution de reconnaissance vocale procède de l’intégration d’un moteur, d’une couche applicative, d’un modèle acoustique et d’un modèle de langage (dans le cas d’applications fonctionnant en langage naturel) sur une plate-forme technique.

Trois briques pour élaborer l’application

Le moteur de reconnaissance vocale est un modèle statistique issu des laboratoires de recherche publics, à l’instar du CNRS-LIMSI (Laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur), de France Télécom Développement et du MIT ; ou privés, comme celui de Philips.Le modèle statistique le plus répandu est celui de Markov caché, avec lequel les vecteurs acoustiques correspondent à un échantillonnage du signal à une fréquence donnée. Le modèle par segmentation, plus récent, demande, à performances équivalentes, moins de ressources CPU. L’échantillonnage n’y est pas régulier et dépend de la nature du signal.Trois briques sont indispensables à la constitution de l’application finale. Le modèle acoustique est la référence acoustique des mots ou des phrases qui devront être reconnus par la machine. Le modèle de langage inclut les structures grammaticales que la machine doit être capable de reconnaître dans le cas d’un fonctionnement en langage naturel. Pour faire fonctionner un moteur, il s’agit, en effet, de le nourrir de modèles qui pourront lui permettre d’identifier le signal entrant et de rechercher les éléments de la parole correspondants. Tous résultent de longues campagnes d’acquisition sur le terrain, qui consistent en l’analyse des comportements de langage et des accents des zones géographiques concernées par l’application, puis en l’enregistrement de milliers de personnes en situation réelle.Enfin, un travail spécifique de développement informatique est nécessaire pour constituer la couche applicative – la troisième brique – et rendre ainsi l’application finale aussi conviviale que possible. Une bonne ergonomie est une condition essentielle au succès d’une solution de reconnaissance vocale.

Reconnaître la voix, pour quoi faire ?

On distingue trois applications principales de la reconnaissance vocale.La dictée vocale fonctionne sur le principe du Speech-to-text, soit la retranscription écrite de ce qui est dicté oralement. Les applications les plus intéressantes aujourd’hui sont celles à destination d’une population professionnelle précise. La dictée vocale demande d’éduquer la machine. Le système est monolocuteur, c’est-à-dire que l’ordinateur ne peut reconnaître la voix que d’une personne, celle qui a participé à l’apprentissage. Un marketing parfois un peu hâtif a engendré nombre de désillusions. Il n’empêche que le concept et l’attente des utilisateurs sont tels que ce marché a une magnifique revanche à prendre.

Véritable enjeu pour les opérateurs télécoms

La reconnaissance vocale sur systèmes embarqués fait, quant à elle, référence à des outils de commande par la voix. Dans le domaine automobile, Citroën propose cette fonctionnalité embarquée sur ses modèles de haut de gamme. Les applications vont également se développer dans le domaine de la sécurité, avec ce qu’on nomme la signature ou l’authentification vocale, c’est-à-dire la reconnaissance vocale d’un spectre de voix bien particulier et préenregistré.Enfin, nous devrions assister, prochainement, à l’explosion des applications de la reconnaissance vocale sur réseaux téléphoniques. En effet, les enjeux pour les opérateurs télécoms ou leurs clients sont très importants : économies, revenus additionnels, mais surtout fidélisation de la clientèle. On note, par exemple, que dans les centres d’appels la technologie de reconnaissance vocale permet de décrocher, d’identifier et d’orienter la requête, de sélectionner les appels à valeur ajoutée pour le routage vers une personne, et de réduire ainsi les coûts d’exploitation. Les portails vocaux offriront aux opérateurs de télécommunications la possibilité de proposer à leurs abonnés l’accès à un bouquet de services (Bourse, météo, messagerie…) en navigation conviviale. L’assistant téléphonique personnel autorise l’utilisateur à accéder, avec un seul numéro, à l’ensemble de ses messageries (vocale et écrite) et à son agenda. Une application développée par la société française : Holistique Communication.Signalons, enfin, la navigation sur Internet par la voix. En attendant le standard VXML, en cours de spécification par le forum Voice XML créé par Motorola, IBM, Lucent Technologies et AT&T, qui permettra de ” vocaliser ” les sites de contenu du Web, les opérateurs télécoms testent des solutions propriétaires. De même qu’il est actuellement possible de naviguer avec le PC et la souris sur Internet, on pourra prochainement naviguer avec la voix sur des sites vocalisés. Cette solution sera, à notre avis, le principal mode de navigation sur l’Internet mobile (WAP).Gardons toutefois à l’esprit que les solutions de reconnaissance vocale ne sont pas encore vendues tout-en-un, que les effets d’annonce sont encore très nombreux et qu’il n’existe pas, aujourd’hui, de solution universelle. ”

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Par Anne Lamotte-Scohyers, coresponsable de l'offre reconnaissance vocale chez CSC Peat Marwick