Moshi : pour son patron, le ChatGPT français est un

Le 3 juillet dernier, Kyutai levait le voile sur Moshi, un modèle d’intelligence artificielle doté de capacités vocales inédites. Le prototype du chatbot a fait ses premiers pas auprès de la presse, mais il est aussi disponible pour tous à cette adresse. La particularité de ce prototype est de pouvoir communiquer à l’oral d’une manière aussi naturelle et expressive que possible, tout en restant à l’écoute de son interlocuteur.

Le modèle multimodal de Moshi peut aussi s’installer en local et fonctionner sans connexion à internet. La fondation Kyutai livre ce modèle en open source, afin de contribuer à la recherche et au développement de l’écosystème IA. Nous avons voulu en savoir plus sur Moshi et le labo avec son CEO, Patrick Perez.

Moshi est un assistant vocal avec des capacités qui dépassent celles de GPT-4o dans certains domaines clé : il parle et écoute simultanément tout en continuant à générer un « flot de pensée », ce qui est parfois déconcertant à l’usage. Est-ce que Moshi est ce qui se rapproche le plus d’une « expérience »de conversation humaine ?

Moshi.chat n’est pas un assistant vocal mais un prototype expérimental construit sur Moshi, un modèle multimodal text-speech généraliste que nous avons développé de zéro. Ce prototype démontre, en effet, des capacités d’interaction orale sans précédent en termes de naturel et de fluidité.

Quels sont les usages possibles de Moshi ? Dans quels domaines vous aimeriez que cette technologie trouve sa place ?

Les applications potentielles de ce modèle multimodal sont nombreuses :

1/ Le dialogue oral naturel avec une IA (assistant ou compagnon) pour l’inclusion et l’accessibilité, l’éducation, le coaching, le jeu, le service client, la recherche d’information, la robotique interactive, etc.

2/ La synthèse vocale expressive et multi-locuteur pour l’accès audio à des contenus écrits, la création d’artefacts culturels et artistiques, le jeu, etc.

3/ la traduction audio simultanée pour la communication et l’accessibilité.

Moshi a demandé six mois de développement à une équipe de 8 personnes, ce qui parait peu, toutes proportions gardées. Est-ce que ça signifie qu’il est relativement facile aujourd’hui de concevoir un assistant comme Moshi ?

C’est en fait un exploit ! Cela demande d’avoir des compétences très pointues et complémentaires, en plus de travailler de façon extrêmement intense et focalisée, et de disposer de moyens de calcul suffisants. Pour le dernier point, nous louons des machines très puissantes chez Scaleway, grâce aux importants dons de nos trois fondateurs.

Moshi comprend de nombreux accents, mais l’assistant ne parle qu’en anglais pour le moment. Est-ce qu’il est prévu à terme d’autres langues et question subsidiaire, est-ce que c’est compliqué de faire apprendre d’autres langues à un LLM ?

Nous prévoyons d’inclure d’autres langues, à commencer par le français et l’espagnol. Ceci étant dit, l’idée est de partager librement nos modèles et les codes permettant de les ré-entraîner tout ou partie. La prise en compte d’autres langues, même si non-triviale à réaliser, pourra donc être faite par d’autres acteurs de l’écosystème disposant des ressources nécessaires (données, savoir-faire, machines) et de cas d’usage idoines.

Helium, le LLM sur lequel repose Moshi, compte 7 milliards de paramètres, ce qui peut sembler beaucoup mais comment est-ce que cela se compare à d’autres LLM (on ignore combien de paramètres pour GPT-4) et surtout, est-ce que la qualité d’un LLM se limite au nombre de paramètres ? Et quelles sont les données d’entraînement que vous avez utilisées ?

C’est un modèle de taille moyenne. Les « petits » modèles sont plutôt autour de 2 à 3 milliards, et les « grands » ont des tailles allant de plusieurs dizaines à plusieurs centaines (voire milliers ?) de milliards de paramètres. La taille ne fait pas tout, mais avec les bonnes données (volume et qualité) et les techniques d’apprentissage les plus récentes, une plus grande taille permet en général d’avoir de meilleures performances sur un éventail plus grand de tâches. Nous utilisons pour le pré-entraînement d’Hélium un mix assez classique de données du web, en particulier issues du projet CommonCrawl. De l’ordre de mille milliard (un billion) de mots écrits.

Le processus d’apprentissage de Moshi a aussi impliqué 100 000 conversations orales et un moteur « Text-to-Speech ». Là, j’ai besoin que vous m’expliquiez comment ça fonctionne !

Hélium « écrit » ces 100 000 dialogues, et une version antérieure de Moshi, permettant de faire de la synthèse vocale avec des voix données, les transforme en conversations audio.

Est-ce qu’il y a quelqu’un derrière la « voix » de Moshi ?

Nous avons travaillé avec une artiste vocale dont les enregistrements faits ensemble ont permis de fixer la voix de l’IA dans les 100 000 conversations évoquées précédemment.

Kyutai a aussi développé une variante de Moshi destiné à un fonctionnement en local, sans connexion à internet donc. Il sera possible de l’utiliser sur son ordinateur personnel via le GPU. Deux questions : pourquoi pas avec le NPU qui équipe de plus en plus de PC et de Mac ? Et est-ce qu’une version type « nano » pour les smartphones est envisageable ?

Nos modèles sont pour l’heure conçus pour être entraînés puis utilisés sur des GPUs de Nvidia. La démonstration d’une version locale compressée s’est donc naturellement faite sur le même type de puce, mais plus petite. En tant que labo de recherche, nous cherchions surtout à démontrer la faisabilité de versions embarquées de nos modèles. Nous espérons que le partage de ces modèles et des codes associés permettra à d’autres d’aller plus loin dans la portabilité, en fonction de leurs besoins. Oui, on peut imaginer à termes un Moshi plus petit et plus spécialisé tournant sur un mobile.

Quand on parle d’IA générative, la question de la sécurité finit par se poser assez rapidement. Comment s’assurer que Moshi ne sera pas utilisé à des fins malveillantes ?

Comme pour les autres IA génératives, une partie du « finetuning » (étape d’apprentissage supervisé qui succède au pré-apprentissage non-supervisé à très grande échelle) est consacrée à renforcer la sécurité en même temps que d’autres capacités. Par ailleurs nous travaillons au marquage invisible des contenus générés par nos modèles, un problème de recherche à la fois difficile et important.

Enfin, nous croyons fermement aux vertus de l’open-source en matière de sécurité (entre autres) : plus d’acteurs peuvent inspecter, évaluer et sécuriser les modèles ainsi partagés. Dans la mesure où l’utilisation malveillante de modèles génératifs toujours plus puissants (en termes de pilotage et de réalisme) et de plus en plus nombreux est impossible à éviter, vulgariser et informer sans relâche sur ces sujets techniques est crucial pour limiter les dommages.

Quel avenir pour Moshi ?

Nous poursuivons son développement pour améliorer certaines de ses capacités (pertinence, expressivité, langues)… et nous avons hâte de voir comment l’écosystème l’utilisera et le modifiera dès que nous aurons partagé modèles, codes et informations techniques (travail en cours).

Kyutai a une position assez unique en France et en Europe finalement, puisque le labo a été financé par Xavier Niel. Est-ce que c’est une sécurité par rapport à d’autres entreprises IA qui ont des investisseurs recherchant d’abord la rentabilité ?

Financé également par Eric Schmidt et Rodolphe Saadé ; les trois sont des donateurs, non des investisseurs (nous sommes une fondation). Donc oui, cela nous assure une grande indépendance dans le choix de nos recherches et dans la constitution de l’équipe, tout en disposant de moyens exceptionnels.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Kyutai Moshi

Mickaël Bazoge