Le secteur automobile est considéré comme un marché d’avenir pour les technologies vocales embarquées. L’essor des aides à la navigation de type GPS promeut le recours à la reconnaissance vocale pour indiquer sa destination, et à la
synthèse pour le retour du système. Cela dans le but de ne pas quitter la route des yeux. Mais, côté constructeurs, les grands projets tardent à se mettre en route.Avec déjà deux à trois années d’expérience, les sociétés d’autoroutes françaises sont montées au créneau. Cofiroute, seule société d’autoroute privée en France, a concrétisé son ambition de ‘ rendre les
transports plus intelligents ‘ en créant en juillet 2002 la filiale IT.Tech (pour Intelligent Transport Technologies). Le projet de service vocal est antérieur à sa création.
‘ L’idée est de proposer à l’automobiliste une information personnalisée sur le trafic, indiquant le temps de parcours et l’itinéraire optimal ‘, explique Bernard Matyjasik, chargé d’affaires nouvelles
technologies à Cofiroute et directeur général d’IT.Tech. Il est alors décidé que la voix servira à la fois d’interface d’entrée et de moyen de restitution de l’information dans ce cas, mixée avec des rubriques préalablement enregistrées par
des journalistes. Le service, Traffic One, est accessible par téléphone.
Un service dimensionné pour 240 appels simultanés
Testée dès la mi-2000, c’est la solution de Philips, Speech Pearl 2000, rachetée par Scansoft, qui est retenue. Un choix dicté par ses performances qualifiées d’excellentes en environnements bruyants. Ce n’est toutefois pas une fin en
soi. ‘ En termes de charge de travail et d’investissement, nous avons mis deux ans et demi pour faire aboutir un produit un peu ” casserole “. Et c’est ce qui coûte le plus
cher ‘, reconnaît Bernard Matyjasik.Ainsi sur les 3 millions d’euros d’investissement dans le projet, une grande partie a été consacrée à une année et demie de travail sur l’ergonomie. Une nécessité pour que le service soit viable. ‘ Une
mauvaise ergonomie, empêchant, par exemple, le client de sauter une étape dans l’arborescence, le fait fuir ‘, prévient Bernard Matyjasik. D’où le souci de ne pas tout miser sur la technologie vocale ne serait-ce que
pour ses limites. Car la reconnaissance vocale s’avère plus sûre pour l’usager au volant, mais elle ne fonctionne bien que jusqu’à 80 km/h dans une voiture, en raison du bruit ambiant. Dès l’accueil, le service détecte donc l’environnement
sonore. Et, s’il doit nuire à la reconnaissance, il passe automatiquement en DTMF (Dual Tone Multi Frequency utilisation des touches du téléphone pour la navigation). ‘ Notons que, dans Paris intra-muros, la vitesse moyenne
est de 17 km/h. Ce qui favorise la reconnaissance vocale et nous permet d’atteindre des taux de reconnaissance de 99 % en résultat final ‘, précise Bernard Matyjasik.Ce résultat tient compte des reformulations et demandes opèrées par le serveur vocal. Il s’appuie sur une base de trois mille mots de vocabulaire reconnus, dont deux mille sites géographiques. Le calcul d’itinéraires s’effectue en
entrant vocalement les points de départ et d’arrivée. Ces deux entrées sont confrontées à un calculateur de graphes une base de données de cartographie vectorielle, à laquelle sont combinées des contraintes extraites d’une base de données du
trafic temps réel.La restitution de l’itinéraire est assurée en synthèse vocale par la technologie de Babel. ‘ On limite la synthèse vocale à la confirmation des entrées, à la reformulation et au temps nécessaire pour le trajet.
Le reste des phrases provient d’une base alimentée par la voix d’une comédienne ‘, développe Bernard Matyjasik. La plate-forme vocale de Traffic One est dimensionnée pour traiter deux cent quarante appels simultanés. A cette
fin, soixante-six moteurs de reconnaissance vocale soit onze par serveurs sont mis en ?”uvre. Dans les faits, le service prend en moyenne vingt-cinq appels simultanés pour des volumes de soixante-dix mille à cent mille appels
mensuels.
Développer l’extraction des données sur le trafic
Constante des projets de reconnaissance vocale, le travail sur l’ergonomie représente l’essentiel de l’investissement. Sébastien Bartaud, en charge des services télématiques pour la Sanef (Société des autoroutes de l’Est et du Nord de
la France), minore même l’importance de la technologie : ‘ La synthèse vocale est la partie émergée de l’iceberg. Le c?”ur, c’est le système d’information, qui permet d’alimenter en données textuelles ce que la
technologie va dicter à l’usager. ‘ Le service Eliott de la Sanef utilise la synthèse vocale pour informer les automobilistes sur l’état du trafic la nuit. Cela en remplacement du service de radio de jour. Une relève de
l’humain par la machine, qui a conditionné le choix de la technologie du Toulousain Elan Speech.C’est sur la qualité de la voix en termes de tessiture et de sonorité que les critères de sélection ont été établis. ‘ Lire un texte n’a rien d’innovant, et la synthèse ne fait rien d’autre. En revanche, il nous
a fallu développer l’extraction des informations à partir d’une base de données Oracle. Celle-ci est alimentée par les données concernant les événements de circulation, bouchons, accidents. Et il a fallu traduire la gestion des priorités et le lien
entre les événements ‘, expose Sébastien Bartaud. En bout de chaîne, c’est un texte qui est produit par ce système d’information nommé Sylvia. La solution d’Elan Speech opère la synthèse sur ce texte.
‘ Un projet de synthèse vocale, s’il est pris par le seul prisme vocal, technique, est voué à l’échec ‘, prévient Sébastien Bartaud. Même s’il reconnaît l’importance de cet aspect dans un service
client. ‘ Cela reste le dernier critère sur lequel juge l’auditeur. Et c’est ce qui nous conduit désormais à beaucoup travailler à l’amélioration du rendu audio. ‘
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.