Star de l’I/O 2018, Duplex, l’intelligence artificielle capable d’appeler un coiffeur ou un restaurant pour prendre un rendez-vous ou réserver une table sans intervention humaine, était de retour cette année. Désormais lancée dans quelques villes aux Etats-Unis, elle semble devoir dominer la concurrence et être irrattrapable…
Pourtant, à l’occasion de la GTC de Nvidia, il y a quelques semaines, nous avons eu l’occasion de rencontrer une jeune start-up russe, Dasha AI. Sur un petit stand, à peine encombré de deux sièges et d’un ordinateur portable, Vlad Chernyshov, son PDG et cofondateur, faisait la démonstration de Dasha.
Une IA qui parle pour les pros…
Ce nom aux consonances féminines sert de vitrine à un assistant intelligent vocal.
« Dasha n’est pas un vrai prénom russe, nous explique son cocréateur, mais il donne une impression de douceur, de puissance et de dynamisme ».
Un assistant qui pourrait presque être le pendant de Duplex, car Dasha est pensé autour de deux axes.
Le premier consiste à aider les professionnels. Vous êtes médecin, coiffeur ou même restaurateur et ne voulez pas payer une personne pour gérer vos rendez-vous ou réservations, Dasha est là.
Bien qu’inversée, la promesse est aussi folle que celle de Duplex… et elle est tenue. La démonstration qui nous a été faite est impressionnante. D’autant qu’elle n’a nécessité qu’un smartphone, pour appeler le service via la technologie SIP, et un petit PC portable, pour faire tourner le serveur sur lequel s’ébroue toute la technologie nécessaire pour donner vie à Dasha.
Au fil de cette démo, nous avons pu discuter avec l’assistant, changer d’avis, lui demander un rendez-vous médical pour le lendemain, dire qu’on était finalement pris, lui demander la prochaine disponibilité, revenir en arrière, etc. Aussi alambiquée qu’ait été notre conversation, jamais nous n’aurions pu nous douter qu’il s’agissait d’une intelligence artificielle et d’un moteur de synthèse vocale…
Côté synthèse vocale justement, Dasha utilise une technologie propriétaire qui mélange une voix de synthèse et des éléments préenregistrés afin d’offrir le rendu le plus naturel possible. En définitive, un détail seulement trahit qu’on a à faire à un robot : Dasha est infiniment patiente.
Une IA pour éconduire les gêneurs
Le second axe consiste à demander à Dasha de gérer les appels indésirables sur les smartphones Android. La fonction n’était pas disponible sur iOS, car il faut pouvoir modifier des réglages avancés de transfert d’appel inaccessibles sur le système d’Apple. Comment fonctionne ce service ? Quand vous recevez un appel dont vous n’identifiez pas l’auteur, laisser sonner votre téléphone. Le coup de fil est automatiquement transmis à Dasha qui va interagir avec l’interlocuteur. Si c’est un spam téléphonique, elle éconduira poliment la personne. Si c’est le livreur de pizza que vous attendez, elle le préviendra gentiment qu’elle vous met en ligne.
Dans les scénarios qui nous ont été présentés, Dasha a été capable de faire le tri intelligemment et de faire le bon choix.
Vlad Chernyshov insiste modestement sur le fait que, aussi impressionnante soit la performance, Dasha est capable de réagir intelligemment car elle a été formée à un cadre.
« C’est une mauvaise perception des choses que de penser que l’IA improvise […] les dialogues sont scriptés, pas générés à la volée. L’IA réagit en fonction de nombreux éléments, comme la politesse de l’interlocuteur, son ton, etc. », explique-t-il avant de préciser, comme s’il nous révélait un secret : « Parce qu’en vérité, sur des milliers d’appels, il n’y a que quelques chemins identiques que les utilisateurs suivent toujours. On n’a pas besoin d’une intelligence artificielle générale. ».
Dasha évolue donc dans un contexte connu dans lequel elle a appris à maîtriser les bonnes réactions aux bons scénarios, aux croisements logiques d’une interaction « humaine ».
L’anglais, le russe et quelques autres à venir
Quoi qu’il en soit, ce jour-là, Dasha parlait anglais, parfaitement. Mais elle est également capable de parler russe, l’autre langue qu’elle maîtrise, nous a précisé Vlad Chernyshov, avant d’avancer que les trois prochaines étapes sont le chinois, l’espagnol et le français. De sacrés chantiers !
Les explications du patron de Dasha IA sont assez surprenantes : « en termes de machine learning, une bonne architecture doit être agnostique, elle doit être performante quelle que soit la langue », affirmait-t-il, avant de nuancer son propos au regard de l’expérience d’apprentissage pour l’anglais : « nous pensons que notre approche devrait fonctionner pour le français, mais il est impossible de garantir pour l’heure le taux d’erreur dans cette langue ».
Néanmoins, le plus gros défi sera de réussir à tout faire avec une équipe qui compte moins de quarante personnes au total actuellement.
Mais enrichir le catalogue de langues parlées n’est pas la priorité. Vlad Chernyshov nous a affirmé que Dasha ne deviendra pas trilingue tout de suite. La start-up souhaite d’abord asseoir sa présence aux Etats-Unis avant de chercher à s’attaquer à d’autres marchés. Le David russe va donc essayer de prendre pied sur le territoire du Goliath Google.
Dasha a déjà fait ses preuves
A écouter parler Vlad Chernyshov, tout semble en tout cas simple et à portée de main. Même quand on lui parle de Duplex, il répond, tout en prenant quelques précautions :
« Je ne devrais peut-être pas le dire mais quand Google a fait sa démonstration de Duplex, en mai 2018, nous avions déjà réalisé notre première démo fonctionnelle. C’était en février 2017. Nous avons donc été les premiers, en quelque sorte », s’amuse-t-il, modeste mais pas peu fier du succès de son entreprise.
Une confiance qui s’explique également par deux autres éléments d’importance. Le premier : Dasha n’est pas une démo bancale qui doit faire ses preuves. En Russie, entre octobre 2018 et mars 2019, elle avait déjà géré plus d’un million d’appels pour une vingtaine de grosses entreprises locales. Depuis son premier appel reçu, en février 2017 donc, elle ne fait que s’améliorer et faire la preuve de son efficacité.
Le second point, qui justifie cette confiance inébranlable, tient en deux mots : « une star ». A l’origine de ce projet, on trouve les deux cofondateurs et deux années de recherche dans le cadre d’un doctorat. Mais, les choses se sont précisées et même précipitées quand la jeune équipe a eu la chance de croiser la route d’une véritable star des mathématiques russes : Alexander Dyakonov, désormais directeur scientifique de la start-up.
« C’est lui qui a repensé l’intégralité du système et repris certains éléments de zéro », confiait Vlad Chernyshov avec un respect non feint pour le travail du professeur moscovite qui travaille désormais pour lui.
Vainqueur à plusieurs reprises de la réputée compétition en science des données Kaggle, Alexander Dyakonov a donc largement accéléré le développement de Dasha et il continue à œuvrer à son futur.
Une plate-forme, comme un OS…
Mais Dasha AI ne se contente pas de cette première réussite. L’ambition derrière cette IA est bien plus vaste, pour ne pas dire révolutionnaire. Vlad Chernyshov l’explique par une petite parabole historique.
« Nous pensons que ce que nous observons maintenant dans le domaine des intelligences artificielles conversationnelles est comparable à ce que nous avions dans les années 1980 pour les systèmes d’exploitation. A l’époque quasiment toutes les entreprises concevaient leur OS, avec des pilotes pour les claviers, les cartes graphiques, etc. Ensuite, macOS et Windows sont arrivés et ont rendu cette course obsolète. Aujourd’hui, en 2019, toutes les grosses sociétés tentent de développer leur propre IA conversationnelle et passent leur temps à réinventer la roue. Voilà pourquoi nous voulons proposer une plate-forme sur laquelle les autres sociétés pourront venir agréger leurs propres applications. »
Justement si on compare Dasha à Duplex, avec quelle facilité l’intelligence artificielle russe pourrait-elle apprendre les spécificités d’un nouveau métier ? En d’autres mots ajouter une nouvelle application à son environnement ?
« Avec notre architecture, pour former Dasha à un nouveau domaine, il ne nous faut pas plus de deux jours », nous a-t-il assuré.
Pour l’instant, tout au moins, car à très court terme, d’ici le début de l’année prochaine, la start-up espère être capable de générer des conversations non scriptées, totalement aléatoires, grâce à des objectifs fixés à l’IA conversationnelle. Ce vers quoi la start-up veut tendre serait une IA entraînée à partir d’un déroulé des interactions habituelles, le genre de document très détaillé qu’on fournit à un nouveau salarié pour lui expliquer ce qu’il doit faire.
A partir de ce document structuré, les équipes de Vlad Chernyshov entraîneront alors le modèle d’IA pour qu’il connaisse son but et les étapes potentielles pour y arriver. L’IA pourra alors inférer les bonnes réponses à fournir et les éventuelles questions à poser. Le modèle pourra ensuite être intégré à des applications Android (pas iOS pour l’instant) afin que l’assistant conversationnel puisse fonctionner même hors ligne. Nous voilà tout à coup bien loin d’un petit stand situé dans un coin d’un centre de convention californien…
Un autre horizon
La promesse paraît folle. Irréaliste même, pour bien des raisons. C’est sans doute pourquoi Nvidia avait sélectionné Dasha AI cette année parmi les start-up à suivre lors de sa conférence développeurs.
Dasha pourrait non seulement faire de l’ombre à Google Duplex… Mais aussi devenir la première pierre du premier système d’exploitation de l’intelligence artificielle conversationnelle. Que ce soit le cas ou non, alors que la Google I/O 2019 a fermé tout récemment ses portes, c’est un beau rappel que le futur de l’IA ne se joue pas uniquement en Californie.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.