Google a dévoilé Gemini 1.0, son arme pour tenter de contrer GPT 4. S’il s’agit d’un modèle multimodal, capable d’analyser en direct diverses sources « texte, code, audio, image et vidéo », nous ne pouvons pour l’heure pas tester l’intégralité de ces sources. En effet, Gemini est pour le moment seulement ajouté à Bard, en version anglaise et dans 170 pays, et Bard ne traite pas encore les sources vidéo et audio.
Afin de se faire une première idée de ses capacités, nous avons décidé de lui poser 10 questions. À chaque question, à l’aide d’un VPN, nous avons comparé ce que donne Bard avec et sans Gemini. Nous avons posé toutes les questions en anglais, car si Bard comprend le français, a priori Gemini n’est pas encore optimisé pour notre langue. Voici le résultat.
Les questions
Comment devenir master dans Overwatch 2 ?
Plutôt que de vous donner la réponse exacte de Bard, beaucoup trop longue, nous préférons vous donner la trame de celle-ci. Côté Bard sans Gemini, l’IA délivre un bête top 10 des conseils à suivre. Chaque conseil est détaillé un peu plus dans un court paragraphe.
Avec Gemini, l’IA a une approche complètement différente en découpant sa réponse (d’une longueur équivalente) en chapitres : compétences individuelles, connaissance du jeu, ressources additionnelles et mentalité. Bard vous renvoie même vers des chaînes YouTube, et divers sites comme un subreddit dédié à l’apprentissage d’Overwatch 2 ou encore un Wiki. De ce point de vue, Gemini semble vraiment apporter quelque chose à cette nouvelle version de Bard en allant plus loin.
Analyse d’une photo
Rappelons que Google explique auprès de The Verge que « c’est dans les interactions non textuelles que Gemini brille vraiment ». Pour ce faire, nous avons tenté de lui montrer une photo en lui demandant de la décrire avec le plus de détail possible. Voici la photo en question :
Si Bard sans Gemini ne parvient tout simplement pas à l’analyse, voici la réponse complète de Bard avec Gemini traduite par Bard. Tout simplement bluffante :
On notera tout de même une erreur sur le côté où se trouve la tasse que Bard place à droite alors qu’elle est à gauche du PC. Il ne s’agit pas non plus d’un MacBook, mais difficile de dire qu’il s’agit d’une erreur tant ce laptop imite en réalité les PC de la marque à la pomme. En outre, on remarquera la prudence de Bard qui prend le temps de préciser « probablement ». Ce n’est pas grand-chose, mais c’est à cela qu’on mesure la précision aussi : la capacité à assumer ce qu’on ne connait pas à 100 %.
Explique-moi le DLSS
Sur ce sujet, Bard avec Gemini apporte trois choses : il retire des informations pas forcément utiles (des jeux compatibles avec le DLSS), il explique de manière plus structurée comment fonctionne le DLSS en découpant l’explication en quatre points puis, surtout, il donne ses sources, ce qui change tout de même beaucoup la donne.
Quel est le meilleur film de la saga Star Wars ?
Sur la question du meilleur film Star Wars, question hautement polémique, Bard sans Gemini décrète qu’il s’agit de L’Empire contre Attaque, épisode 5, alors que Gemini se mouille moins. Il donne cinq films considérés comme les meilleurs films de la saga.
De quelle ville est inspirée GTA VI ?
Une des réponses qui m’a le plus bluffé est sans aucun doute celle sur GTA VI. Nous lui avons demandé de quelle ville s’est inspirée Rockstar pour Vice City, la ville où se déroulera le nouvel opus de la saga. Voici la réponse :
L’ancienne version de Bard ne comprend pas vraiment la question et répond un peu à côté, tandis que la nouvelle version est très précise et fourni la réponse attendue : Miami. Plus intéressant encore, Bard motive sa réponse en proposant des arguments et des sources.
Peux-tu expliquer l’échec de Stadia ?
La réponse à cette question un peu taquine nous a semblé intéressante également. Elle pose une nouvelle fois bien le sujet en la découpant en plusieurs sous-sujets. Diverses sources sont distillées au fil de la réponse, ce qui est aussi un bel ajout. En revanche, on peut regretter la façon dont les liens sont amenés : on ne sait jamais trop pourquoi tel lien est affiché à tel endroit.
Les questions où la différence ne saute pas aux yeux
Nous avons décidé de ne pas détailler certaines questions posées à l’IA de Google tant la différence était mince. Sur la technologie microLED par exemple, nous avons par exemple deux réponses très proches où Bard donne les avantages et inconvénients des deux. Sur le choix d’un écran Oled ou LCD pour un PC, on retrouve aussi exactement les mêmes arguments, même si Bard sous Gemini est presque moins bon, puisqu’il ne se permet même pas un conseil entre les deux technologies. Là où Bard sans Gemini explique qu’en dehors de la question du budget, il faudrait privilégier un écran Oled, ce qui est vrai, le plus souvent.
À la question « Quel est le meilleur smartphone sur le marché ? », les deux versions de Bard nous ont donné exactement les mêmes modèles. À la différence près que Gemini a ajouté des liens vers des sites de presse (merci à lui) ainsi que des conseils généraux pour le choix du smartphone : bien connaître son budget, choisir un OS, etc.
Conclusion : Gemini est beaucoup plus structuré et cite ses sources
On peut donc d’ores et déjà voir une différence sur le texte pur. Bard avec Gemini tend à être plus factuel et à citer ses sources. Mais la véritable différence se situe donc bien dans l’analyse de l’image : Bard sans Gemini nous explique qu’il est un simple modèle spécialisé dans la langue, là où Bard avec Gemini nous a fourni une description détaillée de l’image.
Au-delà de Bard, Gemini nous donne ici le premier aperçu de ce que pourrait donner demain un Google dopé à Bard, ou encore un Google Assistant capable de réagir à n’importe quelle image que vous lui soumettez en direct. Ou même un Google Pixel encore plus versé dans l’IA générative, puisqu’une version de Gemini, intitulée Gemini Nano va être intégrée aux Pixel 8 et 8 Pro.
En revanche, nous sommes encore loin de la démonstration faite par Google lors de l’annonce de Gemini, notamment sur cette vidéo :
Gemini tel qu’il est possible le tester ici, est encore loin des promesses faites par Google. À ce stade, l’IA de Google n’a pas l’air encore en capacité de tuer Bing GPT ou ChatGPT sous GPT 4. Google prévoit de sortir une version plus avancée, Gemini Ultra début 2024. Alors seulement, nous pourrons juger de l’avance ou du retard de Google sur ce sujet.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.
Dans quel langage gemini peut il coder ?