Sur Codeforces, il fait déjà parler de lui, en surpassant l’o3-mini d’OpenAI et Gemini 2.5 Pro de Google. La nouvelle génération de modèles d’intelligence artificielle d’Alibaba, dévoilé lundi 27 avril, s’appelle Qwen3 et sa version au plus grand nombre de paramètres (Qwen-3-235B-A22B) atteint des sommets. En regardant dans le détail, nous découvrons qu’elle fait déjà mieux en matière de raisonnement, sur le test BFCL, nouveau juge de paix pour analyser la capacité d’une IA à raisonner sur des problèmes donnés.
En parallèle à DeepSeek, Alibaba marque à nouveau son territoire sur le marché des IA génératives et plusieurs de ses modèles Qwen3 sont disponibles à tous, depuis des plateformes comme Hugging Face et GitHub. La version la plus grande n’est pas encore disponible, mais devrait l’être avec des licences ouvertes. Selon Alibaba, ces modèles sont « hybrides », ils pourront autrement dit répondre présents en matière de rapidité ou bien privilégier la qualité des raisonnements. « Nous avons parfaitement intégré les modes de réflexion et de non-réflexion, offrant aux utilisateurs la flexibilité nécessaire », expliquait l’équipe d’Alibaba responsable de Qwen dans un article de blog.
Introducing Qwen3!
We release and open-weight Qwen3, our latest large language models, including 2 MoE models and 6 dense models, ranging from 0.6B to 235B. Our flagship model, Qwen3-235B-A22B, achieves competitive results in benchmark evaluations of coding, math, general… pic.twitter.com/JWZkJeHWhC
— Qwen (@Alibaba_Qwen) April 28, 2025
Alibaba s’ouvre à l’architecture mixte d’experts (MoE) pour son IA
Dans le détail, les modèles Qwen3 d’Alibaba sont disponibles dans 119 langues, et ont été entraînés sur des données à l’échelle de 36 000 milliards de jetons. Précédemment, Qwen2 ne permettait pas de rivaliser avec les IA américaines disponibles. Avec le modèle Qwen3 le plus grand disponible à tous à l’heure actuelle, il est possible de se rapprocher de R1, du laboratoire chinois DeepSeek. En janvier dernier, Alibaba tentait de concurrencer OpenAI avec Qwen2.5-Max, un modèle avancé comparable à GPT-4 ou encore Claude-3.5-Sonnet d’Anthropic.
Lire aussi En Chine, Apple compte sur l’IA d’Alibaba pour ses iPhone
Pour aller plus loin, Qwen3 a notamment intégré une architecture mixte d’experts (MoE), une véritable percée dans les modèles neuronaux avec une approche modulaire et spécialisée, qui distribue une tâche en plusieurs sous-tâches, qui seront ensuite envoyées en direction de modèles spécialisés – la série « d’experts » – chacun étant conçu pour gérer des types spécifiques de données ou de tâches.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.
Source : Tech Crunch