Test du générateur d'images de ChatGPT : notre avis complet

Sommaire

OpenAI vient d’annoncer l’arrivée d’un nouveau générateur d’images sur ChatGPT. Sobrement baptisé « Images in ChatGPT », il promet de produire des images de meilleure qualité en s’appuyant sur les requêtes fournies par les utilisateurs. Comme l’indique OpenAI sur son site, les images sont « non seulement belles, mais aussi utiles ».

Pour concevoir des images, l’IA ne s’appuie plus sur Dall-E, le générateur d’images d’OpenAI, mais sur GPT-4o, un modèle d’IA annoncé l’an dernier, et ses innombrables capacités multimodales. Nous avions longuement testé le modèle à sa sortie en mai dernier, et les résultats étaient déjà bluffants, notamment en ce qui concerne la compréhension des images. On s’est désormais penché sur le générateur d’images intégré à ChatGPT. Pendant plusieurs jours, on a poussé le modéle dans ses retranchements.

À lire aussi : On a testé Le Chat de Mistral pendant 1 semaine – l’IA française peut-elle faire oublier ChatGPT ?

Un générateur vraiment intelligent

Avec GPT-4o, ChatGPT est désormais capable de produire des visuels léchés, précis et bien construits. On a pu réaliser une pléthore de contenus de qualité avec le chatbot. Dès les premières images, on s’est rendu compte que les images étaient bien plus réussies que celles qu’on a l’habitude de produire avec Dall-E, qui commençait à accumuler son retard sur la concurrence. ChatGPT est surtout beaucoup plus précis dans son travail. Il n’y pas plus d’éléments indistincts, ce qu’on trouvait presque systématiquement sur les images générées par Dall-E.

L’IA générative excelle dorénavant dans la compréhension des styles visuels. On s’est amusé à produire des visuels inspirés de tableaux de la Renaissance, de bandes dessinées, d’affiches de film ou encore du pop art. ChatGPT jouit maintenant d’une solide culture artistique.

De même, ChatGPT se débrouille beaucoup mieux dans la conception d’une image en se basant sur des photos fournies par nos soins. On a pu mettre au point des versions cartoonesques de nos proches et de nos collègues. L’IA excelle dans la compréhension des photos. Toutes les personnes présentes sur les clichés sont facilement reconnaissables sur les productions générées par l’intelligence artificielle. Là encore, ChatGPT fait preuve d’une précision impressionnante. Quand on demande à l’IA de concevoir des portraits basés sur des photos, les rendus visent presque toujours dans le mille.

Chatgpt Selfie

Chatgpt Style Pulp Fiction — © Des portraits façon pop-art et façon Pulp Fiction

Un vrai Photoshop de l’IA

Plus globalement, ChatGPT comprend nettement mieux les différentes requêtes et consignes relatives à la création d’images. De facto, il est beaucoup plus facile d’éditer des images en conversant simplement avec le chatbot. On avait déjà essayé de retoucher des contenus en discutant avec l’IA auparavant, et c’était tout simplement catastrophique. ChatGPT n’arrivait pas à prendre en compte nos consignes les plus précises, et repartait presque à chaque fois de zéro. Dorénavant, on a plutôt l’impression d’avoir affaire à un véritable Photoshop animé par l’IA. Comme l’explique OpenAI, « vous pouvez affiner les images grâce à une conversation naturelle ».

L’IA hérite aussi d’une meilleure mémorisation des consignes. En clair, ChatGPT n’oubliera pas d’inclure un élément évoqué plus haut dans la conversation, ce qui arrivait très régulièrement avec le générateur qui s’appuyait sur Dall-E. Comme l’explique OpenAI, ChatGPT s’est amélioré en matière de « binding », c’est-à-dire la capacité d’une IA générative à comprendre et respecter des instructions complexes et multiples dans une même image.

Creation Images Plusieurs Actes — © 01Net

Avec Dall-E, il arrivait souvent que ChatGPT ne parvienne pas à prendre en compte plusieurs consignes en simultané. Si on demandait un chat rouge avec un chapeau vert, on se retrouvait souvent avec un chat rouge… et sans chapeau. On pouvait aussi se retrouver avec un chat vert, et un chapeau vert. Bref, vous avez compris le principe.

Le modèle avait une habilité limitée à comprendre et à lier précisément les descriptions textuelles à des éléments visuels spécifiques. Avec GPT-4o, les consignes qui partent dans tous les sens ne posent plus trop de problèmes. Pour transformer la photo ci-dessous, on a communiqué une longue liste d’informations à l’IA, concernant le look, l’angle, les couleurs ou encore la typographie. ChatGPT n’a rien oublié, et ne s’est pas emmêlé les pinceaux.

Un problème récalcitrant avec le texte

En théorie, ChatGPT doit être désormais capable d’apposer du texte dépourvu de fautes sur les visuels créés par ses soins. OpenAI a d’ailleurs partagé plusieurs exemples de textes collés sur des images. Jusqu’ici, ChatGPT, comme la plupart des IA, galérait beaucoup à incorporer du texte sur une image en respectant l’orthographe. La plupart du temps, on se retrouvait avec des phrases et des mots complètement incompréhensibles. Des symboles illisibles, des lettres ou des chiffres se glissaient au milieu des mots.

Avec GPT-4o, il y a du mieux. Sur demande, ChatGPT peut ajouter un titre sur vos contenus, ou une courte légende, sur nos images. Sur les textes les plus réduits, l’évolution est nettement perceptible. On a demandé à ChatGPT d’ajouter une foule de titres sur nos créations. Nous n’avons pas trouvé la moindre faute ou la moindre irrégularité au cours de nos expérimentations. ChatGPT réalise notamment d’excellents schémas explicatifs.

Malheureusement, l’IA n’est pas encore infaillible. OpenAI est bien parvenu à mettre au point des petites bandes dessinées avec l’aide de l’IA. Sur les planches utilisées comme exemples par la start-up, il n’y a pas de faute d’orthographe, de syntaxe ou d’éléments incompréhensibles. Nous n’avons pas réussi les mêmes prouesses, du moins en Français. Sur la bande dessinée conçue par ChatGPT sur base de nos requêtes, tous les textes héritent des mêmes erreurs. La planche est illisible. C’est du charabia.

On s’est demandé si ChatGPT ne rencontrait pas des difficultés avec les langues étrangères. Le corpus des données des modèles GPT est en effet essentiellement composé de textes en anglais. De facto, ChatGPT est plus à l’aise dans la langue de Shakespeare. Nous avons donc ordonné à l’IA de réaliser une planche de BD avec du texte anglais pour en avoir le cœur du net. Comme on le soupçonnait, le rendu est presque dénué de fautes. L’IA ne coince que sur un mot ou deux, de manière un peu aléatoire. L’essentiel de la production est lisible et compréhensible.

Chatgpt Bd

Pour des résultats corrects en Français, il a fallu se contenter de planches de BD plus courtes, avec moins de texte. En fait, les résultats sont vraiment aléatoires. Il arrive parfois que l’IA parvienne à aligner du texte sans retomber dans ses travers sur plusieurs productions. La plupart du temps, on s’est retrouvé avec du texte impossible à décrypter à un endroit ou à un autre.

Un générateur un peu plus lent

Enfin, on a remarqué que la génération d’images avec GPT-4o était sensiblement plus lente qu’avec Dall-E. Dans la plupart de nos expérimentations, nous avons été obligés d’attendre plusieurs dizaines de secondes pour obtenir un contenu. Pour certaines requêtes plus complexes, le temps d’attente dépasse la minute. Ce n’est pas la fin du monde, mais ça rend tout le processus plus contraignant qu’auparavant. Mais, en général, les résultats valent largement le temps d’attente.

Par ailleurs, on a rencontré une pléthore de bugs. Bien souvent, les conversations qui traînent en longueur rencontrent de gros problèmes d’affichage, ou la génération d’images se met à dysfonctionner et n’aboutit pas. On sent que les serveurs d’OpenAI sont en surcharge. Quand on multiplie les créations, ChatGPT nous informe qu’il semble que « l’outil de génération d’images soit temporairement indisponible ».

Chatgpt Loukoums

Même avec un abonnement payant, et donc dépourvu de limitations, on tombe souvent sur un message indiquant que « l’outil de génération d’images est actuellement désactivé, donc je ne peux pas réaliser l’image ». L’IA évoque des « mises à jour ou de la maintenance technique ». Parfois, voire souvent, ChatGPT repasse sur le générateur de Dall-E, qui est nettement moins performant. Quand on interroge l’IA sur ce retour à Dall-E, ChatGPT nous assure qu’il s’agit du seul générateur qui soit disponible… Bref, c’est un peu compliqué pour les utilisateurs de s’y retrouver, surtout s’ils ne suivent pas de près les innovations d’OpenAI.

Chatgpt Cartoon Style — © 01Net avec ChatGPT

« Autant de liberté créative que possible »

Par ailleurs, OpenAI indique avoir fait preuve d’un peu plus de souplesse dans la conception de son générateur. La start-up autorise désormais dans une certaine mesure la génération « d’images de personnes réelles », comme des célébrités. Il est théoriquement possible de concevoir des contenus avec des personnes connues, mais OpenAI continue d’imposer « des restrictions renforcées concernant les types d’images pouvant être générées, avec des mesures de protection particulièrement strictes en ce qui concerne la nudité et la violence ».

Dans les faits, nous ne sommes pas parvenus à produire une seule image mettant en scène une célébrité. Tout porte à croire que les limitations restent encore particulièrement strictes. On est loin de la souplesse décomplexée de Grok, le chatbot d’Elon Musk.

De même, de nombreux internautes affirment être parvenus à produire des images copiant des animés produits par des studios célèbres, comme Ghibli. Interrogé par l’AFP, OpenAI explique empêcher « la création de contenu inspiré spécifiquement d’artistes vivants, mais nous le permettons pour le style d’un studio, qui est plus large », afin « d’offrir aux utilisateurs autant de liberté créative que possible ». Malgré nos efforts, et la réutilisation des mêmes requêtes, nous n’avons d’abord eu droit qu’à des refus de la part de ChatGPT. Le bot indiquait que notre demande enfreint sa « politique de contenu » :

« Il semble que le style demandé, combiné au mème spécifique, pose un problème. Vous pouvez essayer de décrire une scène similaire ou un concept qui respecte les directives, et je pourrai tenter de créer une image correspondante ».

Quelques heures plus tard, nous avons réussi à pousser ChatGPT à imiter le style d’animés connus, comme Les Simpsons. Malheureusement, ce n’était que de courte durée. Le lendemain, ChatGPT refusait fermement de reprendre le style des personnages de Matt Groening. On a l’impression qu’OpenAI limite temporairement certaines requêtes face à l’afflux de personnes qui se servent du générateur.

Chatgpt 4o Simpsons — © 01Net avec ChatGPT

À lire aussi : « Décensurer » ChatGPT – OpenAI veut que l’IA puisse « rester neutre »

Notre avis sur le générateur d’images de ChatGPT : un vrai bond en avant

Ce nouveau générateur doit être accessible aux tous les utilisateurs de ChatGPT, y compris ceux qui se contentent d’un compte gratuit. Il n’y aura pas besoin de souscrire à un abonnement payant, comme ChatGPT Plus ou ChatGPT Pro, pour tester la génération d’images avancée.

Face à l’utilisation intensive des internautes, OpenAI a cependant été obligé de couper l’accès du générateur aux utilisateurs gratuits. Pour le moment, seuls les personnes ayant souscrit à un forfait payant peuvent générer des images avec GPT-4o. Dans un avenir proche, OpenAI s’est engagé à rouvrir l’accès à tous les usagers. Néanmoins, les utilisateurs gratuits risquent de se retrouver face à un mur quoi qu’il arrive. L’utilisation de GPT-4o sera en effet limitée pour les internautes qui n’ont pas mis la main au portefeuille. Vous devriez avoir droit à trois images par jour avant d’être bloqué. Ce n’est évidemment pas grand-chose.

Quelques jours plus tard, OpenAI s’est même mis à brider les abonnés payants. Comme on l’a remarqué ce week-end, il n’est plus possible d’enchainer les créations avec ChatGPT. Aprés quelques productions en une poignée de minutes, l’IA vous enverra un message indiquant que vous n’aurez pas accés au générateur pendant un moment.

« Je ne peux pas générer l’image dans le style des Simpsons tout de suite, car j’ai atteint une limite temporaire de génération d’images. Il faut attendre environ 3 minutes avant que je puisse recommencer », nous informe ChatGPT.

Parfois, le chatbot ne peut pas nous dire pourquoi il se retrouve dans l’incapacité de nous obéir. Il pointe trop souvent du doigt une « erreur lors du processus », ou des ralentissements sans cause précise. De son coté, Sam Altman a même demandé aux internautes de « se calmer en générant des images » à cause de l’impact sur les serveurs d’OpenAI, qui seraient « en train de fondre ». C’est dommage d’en venir à restreindre les individus ayant souscrit à un abonnement payant, dont le principal atout est l’absence de restrictions.

A notre humble avis, la génération d’images assistée par ChatGPT vient de faire un nouveau bond en avant. Gageons qu’avec la sortie de GPT-4.5, suivi de GPT-5, l’intelligence artificielle générative aille encore plus loin et corrige les quelques défauts récalcitrants de son générateur.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

chatGPT Open AI

Florian Bayard