Google répond à la concurrence : le « meilleur modèle d'IA au monde » est désormais accessible à tous
Il y a à peine une semaine, Google annonçait la disponibilité de son modèle Gemini 2.0 Flash pour tous les utilisateurs, mais cela n'a visiblement pas suffi à réaffirmer son importance (ou sa suprématie ?) dans le domaine de l'IA. Hier, en effet, on ose dire que le géant de la recherche a fait une cascade d'annonces, dont la première concernait la mise à disposition à tous les utilisateurs de son modèle de « raisonnement » , Flash Thinking 2.0 . 2.0 Flash Thinking est défini par BigG comme « le meilleur modèle du monde », car il arrive en tête du classement Chatbot Arena LLM , une plateforme ouverte qui affiche un classement de style ATP/WTA (pour faire une comparaison de tennis) des IA les plus puissantes selon les votes des fans. Par souci d'exhaustivité, nous signalons qu'un classement de la même plateforme basé sur la capacité de développement voit Gemini un peu en retrait (mais nous en parlerons dans le prochain chapitre). Cependant, et aussi peu scientifique que soit cette méthode, Gemini 2.0 Flash Thinking est un modèle basé sur Flash 2.0 et extrêmement puissant. Sa principale caractéristique, pour le dire simplement, est qu'il montre le processus de réflexion , afin que l'utilisateur puisse voir pourquoi il a répondu d'une certaine manière, quelles étaient ses hypothèses et retracer la ligne de raisonnement. Et toutes ces fonctionnalités sont accessibles à tous, gratuitement, depuis les applications Android et iOS (où nous ne les voyons pas encore) et le site Web (où elles sont déjà disponibles). Pour y accéder, cliquez simplement sur le menu déroulant qui dit Gemini en haut et sélectionnez 2.0 Flash Thinking Experimental .
Ici, nous remarquons que Google a introduit une autre nouveauté : Flash Thinking 2.0 Experimental avec des applications , un modèle capable d'interagir avec des applications comme YouTube, Search et Google Maps , tout comme Gemini pouvait le faire auparavant. De cette façon, l'utilisateur peut combiner les capacités de raisonnement du modèle avec les applications Google pour des recherches spécifiques et plus précises. Comme nous l’avons mentionné, ces modèles sont désormais disponibles pour tous les utilisateurs et Google promet de les étendre bientôt aux utilisateurs de Google Workspace Business et Enterprise . Mais Google ne s'est pas arrêté là et a également présenté quelques nouveaux modèles. Le plus intéressant est le Gemini 2.0 Pro Experimental, mais le 2.0 Flash-Lite est également une très bonne alternative à surveiller. Après avoir lancé une première version expérimentale de Gemini 2.0 Experimental Advanced, connue sous le nom de Gemini-Exp-1206 , Google a recueilli les commentaires des développeurs sur ses points forts et a publié la version 2.0 Pro . Selon Google, le modèle offre de meilleures performances de codage , la capacité de gérer des requêtes complexes et une meilleure compréhension , un meilleur raisonnement et une meilleure connaissance du monde que n'importe quel modèle qu'il a « publié jusqu'à présent ». De plus, la fenêtre de contexte (un sujet extrêmement important ) a été augmentée à 2 millions de jetons, ce qui lui permet d’analyser et de comprendre de manière exhaustive de grandes quantités d’ informations. De plus, ce modèle dispose de la capacité intégrée d’interagir avec des outils tels que Google Search et est capable d’exécuter du code.
Mais comment se comporte-t-il sur le terrain ? Selon les tests de Google, il surpasse tous les modèles précédents, voici quelques exemples :
- MMLU-Pro , un test qui évalue les capacités générales car il se compose d'environ 16 000 questions à choix multiples couvrant 57 matières académiques dont les mathématiques, la philosophie, le droit et la médecine : 79,1 % (1,5 Pro a obtenu 75,8 %)
- LiveCodeBench (v5), un benchmark pour évaluer les compétences en programmation : 36 % (1.5 Pro : 24,2 %)
- GPQA, un test pour évaluer les capacités de raisonnement : 64,7 % (1,5 Pro : 59,1 %)
Ce ne sont que quelques exemples, mais pour vous donner une idée. Sur WebDev Arena , plateforme d'évaluation ouverte, la réalité est moins criante : 2.0 Pro Experimental est loin derrière Claude 3.5 Sonnet, DeepSeek-R1 et o3-mini. Dans tous les cas, Gemini 2.0 Pro est désormais disponible en tant que modèle expérimental pour les développeurs dans Google AI Studio et Vertex AI , et pour les utilisateurs de Gemini Advanced dans la liste déroulante des modèles sur ordinateur et mobile. Moins flashy mais peut-être plus impactant pour les utilisateurs est le nouveau Flash-Lite 2.0 , un modèle construit sur les commentaires positifs reçus sur le prix et la vitesse du Flash 1.5. Le nouveau modèle selon Google a une meilleure qualité de Flash 1,5, le surpassant dans la plupart des benchmarks , à la même vitesse et au même coût. Flash 2.0 dispose d'une fenêtre contextuelle d'un million de jetons et d'une entrée multimodale : il peut générer une légende pertinente d'une seule ligne pour environ 40 000 photos uniques , par exemple, pour un coût inférieur à un dollar dans le niveau payant de Google AI Studio. Gemini 2.0 Flash-Lite est disponible dans Google AI Studio et Vertex AI en aperçu public . À ce stade, nous pouvons voir comment les développeurs de modèles d’IA évoluent vers le raisonnement , une technologie qui devrait leur permettre de vérifier les faits, ce qui en théorie les aide à éviter les hallucinations et autres problèmes.
Nous avons déjà fait état des doutes des experts sur cette approche : certains sont convaincus que si c’est un moyen de générer de meilleures réponses, ce n’est pas nécessairement la bonne réponse pour améliorer l’IA. Il y a d'abord la question du coût, puis celle de la « sécurité », comme le rapporte un article dans lequel o1 d'OpenAI « manigance » dans le dos des utilisateurs. Google rassure les utilisateurs en déclarant que la nouvelle gamme Gemini 2.0 a été construite avec « de nouvelles techniques d'apprentissage par renforcement qui utilisent Gemini lui-même pour critiquer ses réponses ». Ils utilisent également une équipe rouge (un groupe indépendant de pirates informatiques pour tester l'IA) pour évaluer les risques de sécurité , y compris ceux posés par les risques d'injection rapide indirecte (un type d'attaque dans lequel les attaquants cachent des instructions malveillantes dans des données qui pourraient être récupérées par un système d'IA). (Lire la suite)