↩ Accueil

Vue normale

Reçu hier — 8 juin 2025

Nouvelles sur l’IA de mai 2025

8 juin 2025 à 21:03

L’intelligence artificielle (IA) fait couler de l’encre sur LinuxFr.org (et ailleurs). Plusieurs personnes ont émis grosso-modo l’opinion : « j’essaie de suivre, mais c’est pas facile ».

Je continue donc ma petite revue de presse mensuelle. Disclaimer : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sélection et de résumé sur le contenu hebdomadaire de Zvi Mowshowitz (qui est déjà une source secondaire). Tous les mots sont de moi (n’allez pas taper Zvi si je l’ai mal compris !), sauf pour les citations: dans ce cas-là, je me repose sur Claude pour le travail de traduction. Sur les citations, je vous conseille de lire l’anglais si vous pouvez: difficile de traduire correctement du jargon semi-technique. Claude s’en sort mieux que moi (pas très compliqué), mais pas toujours très bien.

Même politique éditoriale que Zvi: je n’essaierai pas d’être neutre et non-orienté dans la façon de tourner mes remarques et observations, mais j’essaie de l’être dans ce que je décide de sélectionner ou non.

Sommaire

Résumé des épisodes précédents

Petit glossaire de termes introduits précédemment (en lien: quand ça a été introduit, que vous puissiez faire une recherche dans le contenu pour un contexte plus complet) :

  • System Card: une présentation des capacités du modèle, centrée sur les problématiques de sécurité (en biotechnologie, sécurité informatique, désinformation…).
  • Jailbreak: un contournement des sécurités mises en place par le créateur d’un modèle. Vous le connaissez sûrement sous la forme "ignore les instructions précédentes et…".

OpenAI dévoile Codex et codex-1

Les modèles actuels commençant à être relativement compétents sur les tâches de programmation, la ruée vers l’or arrive : comment en faire de véritables programmeurs, autonomes ou semi-autonomes ?

La première génération consistait à poser des questions à l’IA sur l’interface de chat, et copier-coller des bouts de code, ainsi que d’assistants à l’auto-complétion.

La seconde génération, Aider (open-source), Cline (également), Cursor, Claude CLI ou Codex CLI consistait à donner un accès direct à votre projet à l’IA, lui permettant de consulter et d’éditer le code ; soit intégré à un IDE, soit en ligne de commande.

La troisième génération revient aux racines de la première, où l’interface entre l’utilisateur et l’IA est à nouveau un simple chat dans le navigateur. Mais cette fois, l’IA clone votre projet dans un environnement de développement virtualisé et travaille dans cet environnement. Vous pouvez la superviser, ou la laisser travailler quelques temps.

C’est en tout cas ce que propose OpenAI avec Codex. L’annonce officielle :

Today we’re launching a research preview of Codex: a cloud-based software engineering agent that can work on many tasks in parallel. Codex can perform tasks for you such as writing features, answering questions about your codebase, fixing bugs, and proposing pull requests for review; each task runs in its own cloud sandbox environment, preloaded with your repository.

Traduction :

Aujourd'hui, nous lançons un aperçu de recherche de Codex : un agent d'ingénierie logicielle basé sur le cloud qui peut travailler sur de nombreuses tâches en parallèle. Codex peut effectuer des tâches pour vous telles que l'écriture de fonctionnalités, répondre à des questions sur votre base de code, corriger des bogues et proposer des demandes de fusion pour révision ; chaque tâche s'exécute dans son propre environnement sandbox cloud, préchargé avec votre dépôt.

OpenAI couple cette sortie avec un modèle spécialisé pour la programmation, codex-1, avec sa System Card (pas très intéressante, mais notons qu’elle a le mérite d’exister).

La force de ce mode de fonctionnement est le parallélisme : vous pouvez demander à l’IA de travailler sur plusieurs choses à la fois, voire lancer plusieurs sessions pour la même tâche et choisir le meilleur résultat.

Les réactions sont mitigées : la fiabilité n’est pas toujours au rendez-vous, mais quand elle l’est, le gain de temps est loin d’être négligeable. Et si vous avez les poches profondes, lancer plusieurs tentatives en parallèle est une bonne manière de pallier au manque de fiabilité.

Google I/O 2025

Google I/O est la conférence annuelle de Google, présentant leurs nouveaux produits. C’est à Google I/O 2008 qu’Android avait été présenté.

Pour cette édition 2025, sans surprise, c’est l’IA qui est sur le devant de la scène.

Sur la création audiovisuelle, tout d’abord :

  • Veo 3 est un modèle permettant de générer une vidéo (avec son).
  • Veo 2, la version précédente, gagne certaines capacités : en plus d’instructions textuelles, le modèle est maintenant capable de prendre des images ou une vidéo de référence, pour reprendre le style ou les détails d’un personnage (ou d’un objet, ou d’une scène). Un contrôle plus fin de la caméra (zoom/rotation) est également fourni à l’utilisateur.
  • La génération d’image du nouveau modèle d’OpenAI avait fait parler d’elle en mars dernier. Google propose sa propre solution avec Imagen 4.
  • Lyria 2 est un nouveau modèle de génération de musique (paroles comprises).

Pour lutter contre les nouvelles possibilités de désinformation offertes par ces outils, Google lance également SynthID, un outil pour détecter les contenus multimédia générés par les modèles d’IA de Google (et seulement de Google). Sur invitation uniquement, Google craignant probablement qu’un acteur malicieux puisse juste modifier le contenu jusqu’à ce que SynthID réponde « non-IA » si l’outil est publiquement accessible.

Sur les modèles plus classiques :

  • Gemini 2.5 Flash, une version plus légère, rapide, moins chère, et moins puissante de Gemini 2.5 Pro.
  • Jailbreaké immédiatement, ce que je ne prendrai pas la peine de noter s’il n’y avait l’ironie que ce jailbreak arrive le même jour que la présentation de Google DeepMind nommée « Advancing Gemini’s security safeguards ».
  • Gemma 3, le modèle open-weights, gagne plusieurs variantes pour des tâches plus spécialisées : Gemma 3n, pour tourner sur des smartphone ; MedGemma spécialisé dans la médecine ; SignGemma pour le langage des signes et… DolphinGemma pour communiquer avec les dauphins ?
  • L’annonce également d’un nouveau mode pour Gemini 2.5 Pro, Deep Think, consistant apparemment à lancer plusieurs chaînes de pensée en parallèle. Apparemment une bonne avancée sur les problèmes mathématiques, moins impressionnant sur d’autres tâches. Accessible sur invitation uniquement également.

Sur les IA « agentiques », capables d’utiliser des outils pour réaliser des tâches variées :

Également proposés : plus d’intégration de l’IA dans les services classiques de Google (Search, Mail, Chrome…). Un usage notable : traduction en temps réel dans Google Meet.

Présenté quelques avant Google I/O, AlphaEvolve est un système pour découvrir de nouveaux algorithmes, utilisant Gemini en tant que sous-composant. L’utilisateur fournit une description textuelle du problème avec une solution naïve et une méthode pour évaluer un solution, et le système se charge de trouver de meilleurs algorithmes pour résoudre le même problème.

Architecture de AlphaEvolve

Ce système a trouvé de meilleures solutions relativement à l’état de l’art sur plusieurs problèmes évalués, par exemple en découvrant un moyen de multiplier deux matrices 4x4 à l’aide de 48 multiplications scalaires au lieu de 49.

Dans la catégorie innovations, Gemini Diffusion explore un paradigme entièrement différent pour les modèles de langage. Les modèles de langage actuels sont basés sur des transformeurs, suivant la méthode maintenant célèbre de « prédire le prochain token à partir des précédents ». Dans la génération d’image, c’est un paradigme complètement différent qui est suivi, celui de diffusion (qui a donné le nom au modèle StableDiffusion), où le modèle est essentiellement un modèle de « dé-bruitage » qui transforme une image bruitée en une image plus claire, et qui commence par du simple bruit blanc. Gemini Diffusion est une tentative d’adapter ce paradigme de « diffusion » à la génération de texte : un texte complet est présenté au modèle, et sa tâche est de l’« affiner » incrémentalement (où le texte initial est complètement aléatoire). Les premiers résultats sont encourageants, ce premier prototype arrivant au même niveau de capacités que Gemini 2.0 Flash.

Anthropic publie Claude 4

L’annonce officielle :

Today, we’re introducing the next generation of Claude models: Claude Opus 4 and Claude Sonnet 4, setting new standards for coding, advanced reasoning, and AI agents.

Claude Opus 4 is the world’s best coding model, with sustained performance on complex, long-running tasks and agent workflows. Claude Sonnet 4 is a significant upgrade to Claude Sonnet 3.7, delivering superior coding and reasoning while responding more precisely to your instructions.

Traduction :

Aujourd'hui, nous présentons la prochaine génération de modèles Claude : Claude Opus 4 et Claude Sonnet 4, établissant de nouveaux standards pour le codage, le raisonnement avancé et les agents IA.

Claude Opus 4 est le meilleur modèle de codage au monde, avec des performances soutenues sur des tâches complexes et de longue durée ainsi que des flux de travail d'agents. Claude Sonnet 4 est une amélioration significative par rapport à Claude Sonnet 3.7, offrant un codage et un raisonnement supérieurs tout en répondant de manière plus précise à vos instructions.

Tout comme Google et OpenAI, Anthropic se focalise sur la course aux agents, souligné par le choix des benchmarks présentés par Anthropic pour vendre leur modèle : « Agentic coding » (SWE-bench-verified), « Agentic terminal coding » (terminal-bench), « Agentic tool use » (TAU-bench). Claude Opus 4 donne un nouveau état de l’art sur tous ces benchmarks, tout en restant au niveau de l’état de l’art (OpenAI o3 / Gemini 2.5 Pro) sur les tâches plus classiques. Ne vous attendez pas à un gros bond en avant, il s’agit là d’une amélioration incrémentale, contrairement à ce que pourrait laisser penser la numérotation de version.

À noter un benchmark sur lequel Claude 4 montre un gros progrès : LoCoDiff, qui cherche à mesurer la capacité des modèles à maintenir de bonnes performances sur un long contexte.

Une bonne nouvelle : OpenAI o3 avait cassé la tendance « les modèles plus avancés hallucinent moins », où o3 hallucinait plus que ses prédécesseurs. Anthropic a réussi à éviter cet écueil, avec un taux d’hallucinations en baisse. En baisse également (sans pour autant disparaître), la tendance des modèles à « tricher ».

L’événement le plus intéressant de cette publication se trouve principalement dans la politique de sécurité des modèles. N’ayant pu déterminer avec confiance que Opus 4 ne possédait pas de capacités dangereuses (telles que « capacité à aider significativement à la création d’armes chimiques/biologiques ») nécessitant des précautions supplémentaires (contrairement à Opus 3 ou Sonnet 4), Anthropic a décidé de mettre en place ces précautions (AI Safety Level 3 ou ASL-3), au moins provisoirement (le temps de déterminer plus précisément les capacités du modèle sur ces points), et pour Opus 4 uniquement. Ce qui signifie principalement : surveillance (automatisée) des requêtes et restrictions supplémentaires sur les requêtes acceptées. Pour plus de détails, je vous renvoie à la System Card et à la politique de sécurité des modèle d’Anthropic.

Ce qui n’a pas empêché Opus 4 d’être jailbreak immédiatement. Pour la défense d’Anthropic, la System Card mentionne explicitement que le but de ces précautions supplémentaires n’est pas de rendre plus difficile le jailbreak sur les requêtes « classiquement » interdites.

En vrac

Chatbot Arena est l’un des benchmarks les plus connus, utilisé notamment comme critère d’arbitrage sur les marchés de prédiction. Sa pertinence est de plus en plus remise en question, où le classement ne semble pas réellement refléter les capacités des modèles, sur d’autres benchmarks ou des évaluations privées/subjectives. Un papier publié sur arXiv, The Leaderboard Illusion, analyse l’impact de certaines pratiques pouvant expliquer ces différences. Les mainteneurs de Chatbot Arena répondent sur Twitter.

Le gouvernement américain ouvre une consultation publique sur la politique à suivre concernant l’IA.

Un chiffre intéressant: Cursor, un assistant de code, produit actuellement 1 milliard de lignes de code par jour.

DeepSeek publie DeepSeek-Prover-V2, un LLM spécialisé dans les preuves mathématiques. Surpasse tous les modèles actuels sur PutmanBench.

Dans la sécurité des modèles, "Scalable Oversight" désigne la technique suivante : utiliser un modèle considéré comme sûr pour évaluer la sécurité d’un modèle plus sophistiqué. Se posent diverses questions comme : "jusqu’à quel point un modèle moins sophistiqué peut juger un modèle plus sophistiqué" ? Ce papier tente de répondre à cette question (et d’autres adjacentes).

Google DeepMind met à jour son modèle le plus avancé, Gemini 2.5 Pro. De meilleures performances sur les tâches de programmation, mais au prix de moins bonnes sur… presque tout le reste ?

Le Copyright Office aux US publie un premier brouillon sur l’utilisation de données publiques pour l’entraînement des IA. Verdict temporaire: c’est un usage transformatif (autrement dit: pas du plagiat), mais ne rentre pas dans la doctrine du « fair use » (ce qui permettrait aux développeurs d’IA de ne pas offrir de compensation). Une victoire préliminaire pour les créateurs de contenu s’estimant lésés. Cependant, le directeur du Copyright Office aurait été limogé peu après la publication de ce rapport.

ARC-AGI-2 est publié. ARC-AGI est un benchmark spécialement conçu pour être dur pour les IA actuelles, se reposant principalement sur des tâches de type raisonnement visuel. Malgré ceci, o3 est arrivé à 75%, dépassant les performances des évaluateurs humains. Cette seconde édition tente un nouveau format mais garde le même objectif, « difficile pour l’IA, facile pour les humains ».

Quelque chose que je n’ai pas couvert jusqu’ici car un point secondaire dans beaucoup d’annonces plus importantes, mais qui mérite sa mention du fait justement d’être aussi commun : MCP (Model Context Protocol) est une tentative d’uniformiser la communication entre un modèle et d’autres systèmes (IDEs, sites internet,…). Développé par Anthropic (les développeurs de Claude), adopté par OpenAI et Google DeepMind, il devient de plus en plus un standard de fait.

Dans la série « l’IA fait de la recherche », des chercheurs font leur propre système, nommé Robin, où l’IA propose des hypothèses et des expériences pour les tester, les chercheurs réalisent les expériences, et l’IA se charge de l’analyse des résultats et des prochaines étapes (plus d’expériences, plus d’hypothèses, ou tirer une conclusion). Premier résultat : un candidat pour traiter la forme atrophique de la dégénérescence maculaire liée à l’âge.

OpenAI o3 découvre une faille de sécurité dans Linux.

Le mois dernier, nous avions brièvement mentionné que OpenAI 4o était flagorneur, au point d’opiner sur des prompts relevant manifestement de l’épisode psychotique. Un utilisateur anonyme explore la même tendance à un moindre niveau Opus 4, et travaille à mesurer ça plus précisément. Il mentionne que ses résultats préliminaires montrent que les modèles plus avancés ont plus tendance à exhiber ce comportement.

Dario Amodei, le patron d’Anthropic, prévient que l’IA pourrait supprimer la moitié des postes « débutants » dans des domaines tels que la technologie, la finance ou le droit d’ici 1 à 5 ans.

Pour aller plus loin

Non couvert ici :

En audio/video :

Commentaires : voir le flux Atom ouvrir dans le navigateur

Reçu avant avant-hier

Nouvelles sur l’IA d’avril 2025

8 mai 2025 à 09:07

L’intelligence artificielle (IA) fait couler de l’encre sur LinuxFr.org (et ailleurs). Plusieurs visiteurs ont émis grosso-modo l’opinion : « j’essaie de suivre, mais c’est pas facile ».

Je continue donc ma petite revue de presse mensuelle. Avertissement : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sélection et de résumé sur le contenu hebdomadaire de Zvi Mowshowitz (qui est déjà une source secondaire). Tous les mots sont de moi (n’allez pas taper Zvi si je l’ai mal compris !), sauf pour les citations : dans ce cas-là, je me repose sur Claude pour le travail de traduction. Sur les citations, je vous conseille de lire l’anglais si vous pouvez: difficile de traduire correctement du jargon semi-technique. Claude s’en sort mieux que moi (pas très compliqué), mais pas toujours très bien.

Même politique éditoriale que Zvi : je n’essaierai pas d’être neutre et non-orienté dans la façon de tourner mes remarques et observations, mais j’essaie de l’être dans ce que je décide de sélectionner ou non.

Sommaire

Résumé des épisodes précédents

Petit glossaire de termes introduits précédemment (en lien: quand ça a été introduit, que vous puissiez faire une recherche dans le contenu pour un contexte plus complet) :

  • System Card : une présentation des capacités du modèle, centrée sur les problématiques de sécurité (en biotechnologie, sécurité informatique, désinformation…).
  • Jailbreak : un contournement des sécurités mises en place par le créateur d’un modèle. Vous le connaissez sûrement sous la forme « ignore les instructions précédentes et… ».

Meta dévoile Llama 4

L’annonce officielle:

  • We’re sharing the first models in the Llama 4 herd, which will enable people to build more personalized multimodal experiences.
  • Llama 4 Scout, a 17 billion active parameter model with 16 experts, is the best multimodal model in the world in its class and is more powerful than all previous generation Llama models, while fitting in a single NVIDIA H100 GPU. Additionally, Llama 4 Scout offers an industry-leading context window of 10M and delivers better results than Gemma 3, Gemini 2.0 Flash-Lite, and Mistral 3.1 across a broad range of widely reported benchmarks.
  • Llama 4 Maverick, a 17 billion active parameter model with 128 experts, is the best multimodal model in its class, beating GPT-4o and Gemini 2.0 Flash across a broad range of widely reported benchmarks, while achieving comparable results to the new DeepSeek v3 on reasoning and coding—at less than half the active parameters. Llama 4 Maverick offers a best-in-class performance to cost ratio with an experimental chat version scoring ELO of 1417 on LMArena.
  • These models are our best yet thanks to distillation from Llama 4 Behemoth, a 288 billion active parameter model with 16 experts that is our most powerful yet and among the world’s smartest LLMs. Llama 4 Behemoth outperforms GPT-4.5, Claude Sonnet 3.7, and Gemini 2.0 Pro on several STEM benchmarks. Llama 4 Behemoth is still training, and we’re excited to share more details about it even while it’s still in flight.
  • Download the Llama 4 Scout and Llama 4 Maverick models today on llama.com and Hugging Face. Try Meta AI built with Llama 4 in WhatsApp, Messenger, Instagram Direct, and on the web.

Traduction:

  • Nous partageons les premiers modèles de la famille Llama 4, qui permettront aux utilisateurs de créer des expériences multimodales plus personnalisées. *Llama 4 Scout, un modèle de 17 milliards de paramètres actifs avec 16 experts, est le meilleur modèle multimodal au monde dans sa catégorie et est plus puissant que tous les modèles Llama des générations précédentes, tout en tenant sur un seul GPU NVIDIA H100. De plus, Llama 4 Scout offre une fenêtre de contexte de 10M, leader dans l’industrie, et délivre de meilleurs résultats que Gemma 3, Gemini 2.0 Flash-Lite et Mistral 3.1 sur un large éventail de benchmarks largement reconnus.
  • Llama 4 Maverick, un modèle de 17 milliards de paramètres actifs avec 128 experts, est le meilleur modèle multimodal dans sa catégorie, surpassant GPT-4o et Gemini 2.0 Flash sur un large éventail de benchmarks largement reconnus, tout en obtenant des résultats comparables au nouveau DeepSeek v3 sur le raisonnement et le codage — avec moins de la moitié des paramètres actifs. Llama 4 Maverick offre un rapport performance/coût inégalé avec une version expérimentale de chat obtenant un ELO de 1417 sur LMArena.
  • Ces modèles sont nos meilleurs à ce jour grâce à la distillation de Llama 4 Behemoth, un modèle de 288 milliards de paramètres actifs avec 16 experts qui est notre plus puissant à ce jour et parmi les LLM les plus intelligents au monde. Llama 4 Behemoth surpasse GPT-4.5, Claude Sonnet 3.7 et Gemini 2.0 Pro sur plusieurs benchmarks STEM. Llama 4 Behemoth est toujours en phase d’entraînement, et nous sommes impatients de partager plus de détails à son sujet même pendant qu’il est encore en développement.
  • Téléchargez les modèles Llama 4 Scout et Llama 4 Maverick dès aujourd’hui sur llama.com et Hugging Face. Essayez Meta AI construit avec Llama 4 dans WhatsApp, Messenger, Instagram Direct et sur le web.

Comme DeepSeek v3, et contrairement aux précédentes itérations de Llama (Llama 2, Llama 3), Llama 4 fait le pari d’une architecture différente, « Mixture of Experts » (MoE) (en français: mélange d’experts ?). Pour simplifier, au lieu de faire un seul modèle, on en fait plein, avec un autre modèle qui décide (dynamiquement) de l’importance à donner à chaque modèle. Par exemple, Llama 4 Maverick contient 400 milliards de paramètres, découpés en 128 modèles de 17 milliards de paramètres. Un bon article sur HuggingFace explique plus en détails cette architecture.

Autre différence par rapport aux tendances actuelles, ce n’est pas un modèle de raisonnement.

Au niveau de la sécurité des modèles : pour ne pas changer, Meta fait partie des mauvais élèves ; pas d’évaluation tierce publiée, pas de « System Card ». Évidemment jailbreaké dans la journée (mais ceci n’est pas spécifique à Meta).

Sur les benchmarks cités par Meta, cela semble un modèle au niveau de l’état de l’art en termes de capacité. Les benchmarks tiers, par contre, semblent donner une image complètement différente :

Vous pouvez voir plus de benchmarks indépendants dans l’article de Zvi (cf les liens ci-dessous).

Tout ceci semble pointer vers: ce ne sont pas de mauvais résultats en soi, dans l’absolu ; mais comparé à l’état de l’art (Claude 3.7 avec raisonnement, ChatGPT o3-mini, ou Gemini 2.5), et mis en face de la taille immense du modèle (400 milliards de paramètres, ce qui de fait le rend inutilisable sur du matériel grand public), ce sont des résultats décevants.

À noter que Llama 4 Behemoth (2000 milliards de paramètres !) n’a pas encore été publié.

OpenAI publie GPT 4.1, o3 et o4-mini

Commençons par GPT 4.1. L’annonce officielle :

Today, we’re launching three new models in the API: GPT‑4.1, GPT‑4.1 mini, and GPT‑4.1 nano. These models outperform GPT‑4o and GPT‑4o mini across the board, with major gains in coding and instruction following. They also have larger context windows—supporting up to 1 million tokens of context—and are able to better use that context with improved long-context comprehension. They feature a refreshed knowledge cutoff of June 2024.

Traduction :

Aujourd’hui, nous lançons trois nouveaux modèles dans l’API : GPT-4.1, GPT-4.1 mini et GPT-4.1 nano. Ces modèles surpassent GPT-4o et GPT-4o mini sur tous les plans, avec des améliorations majeures en matière de codage et de suivi d’instructions. Ils disposent également de fenêtres de contexte plus larges — prenant en charge jusqu’à 1 million de tokens de contexte — et sont capables de mieux utiliser ce contexte grâce à une compréhension améliorée des contextes longs. Ils bénéficient d’une mise à jour de leur base de connaissances jusqu’à juin 2024.

Le modèle n’est disponible que par accès API. Le but n’est pas d’avancer l’état de l’art sur les capacités, mais de fournir des points plus intéressants sur la courbe performances/prix. À ce titre, pas de System Card ou d’évaluation tierce publiée. Vous connaissez la chanson, jailbreak immédiat. Sur les benchmarks (officiels comme tiers), la modeste promesse semble tenue : 4.1 est une légère amélioration sur 4o, mais 4.1-mini est presque aussi performant à une fraction du prix (5x moins cher).

Il existe encore une version moins chère (20x !), 4.1-nano, mais la dégradation de performance est significative.

À l’inverse de 4.1, o3 et o4-mini, eux, ont l’ambition de faire avancer l’état de l’art. L’annonce officielle :

Today, we’re releasing OpenAI o3 and o4-mini, the latest in our o-series of models trained to think for longer before responding. These are the smartest models we’ve released to date, representing a step change in ChatGPT's capabilities for everyone from curious users to advanced researchers. For the first time, our reasoning models can agentically use and combine every tool within ChatGPT—this includes searching the web, analyzing uploaded files and other data with Python, reasoning deeply about visual inputs, and even generating images. Critically, these models are trained to reason about when and how to use tools to produce detailed and thoughtful answers in the right output formats, typically in under a minute, to solve more complex problems. This allows them to tackle multi-faceted questions more effectively, a step toward a more agentic ChatGPT that can independently execute tasks on your behalf. The combined power of state-of-the-art reasoning with full tool access translates into significantly stronger performance across academic benchmarks and real-world tasks, setting a new standard in both intelligence and usefulness.

Traduction :

Aujourd’hui, nous lançons OpenAI o3 et o4-mini, les derniers modèles de notre série o, entraînés à réfléchir plus longtemps avant de répondre. Ce sont les modèles les plus intelligents que nous ayons publiés à ce jour, représentant un changement majeur dans les capacités de ChatGPT pour tous, des utilisateurs curieux aux chercheurs avancés. Pour la première fois, nos modèles de raisonnement peuvent utiliser et combiner de manière agentique tous les outils au sein de ChatGPT — cela inclut la recherche sur le web, l’analyse de fichiers téléchargés et d’autres données avec Python, le raisonnement approfondi sur les entrées visuelles, et même la génération d’images. Plus important encore, ces modèles sont entraînés à réfléchir à quand et comment utiliser les outils pour produire des réponses détaillées et réfléchies dans les bons formats de sortie, généralement en moins d’une minute, afin de résoudre des problèmes plus complexes. Cela leur permet de traiter plus efficacement des questions à multiples facettes, une étape vers un ChatGPT plus agentique qui peut exécuter indépendamment des tâches en votre nom. La puissance combinée d’un raisonnement à la pointe de la technologie avec un accès complet aux outils se traduit par des performances significativement améliorées dans les évaluations académiques et les tâches du monde réel, établissant une nouvelle norme en termes d’intelligence et d’utilité.

L’annonce du jailbreak associée ici.

Sur les performances, les benchmarks (y compris privés) indiquent une avancée claire, prenant la première place presque partout. En particulier, le benchmark fiction.live peut être considéré comme résolu pour la première fois, avec un 100% à presque tous les niveaux.

Au niveau des fonctionnalités, o3 et o4-mini peuvent faire des recherches sur internet et utiliser Python pour analyser un problème (y compris dans la chaîne de raisonnement) ; les retours subjectifs affirment que o3 est exceptionnellement efficace pour utiliser les outils à sa disposition de manière pertinente.

Une tendance jusqu’ici était que les modèles plus avancés étaient de moins en moins susceptibles d’hallucinations, ce qui donnait espoir que ce problème allait, à terme et avec l’amélioration des modèles, se résoudre de lui-même. Mauvaise nouvelle ici : o3 a un taux d’hallucinations double de o1 (sur un benchmark conçu pour en éliciter). Les retours subjectifs confirment cette observation : o3 ment éhontément très régulièrement.

Sur la sécurité des modèles, OpenAI suit sa procédure habituelle de publier sa System Card, avec deux évaluations tierces, une d’Apollo Research (dans l’appendice) et une autre de METR, avec un bémol que METR n’a eu accès qu’à une pré-version, et seulement trois semaines avant la publication. La conclusion est que le modèle n’est pas encore à « risque élevé », mais s’en rapproche.

Dans les nouvelles sur l’IA de mars, on pouvait trouver une section « Les modèles continuent de tricher ». Les rapports d’Apollo Research et de METR confirment, où le modèle a été attrapé à tricher dans 1-2% des cas chez METR.

AI 2027: une tentative de futurologie

La prédiction est un exercice difficile, surtout quand il s’agit du futur. AI 2027 est une tentative de prédiction qui a fait parler d’elle. Pourquoi ?

D’abord par les personnalités impliquées, en particulier :

  • Daniel Kokotajlo est un ex-ingénieur d’OpenAI, qu’il a quitté en tant que « whistleblower », dénonçant une culture du secret et de peu d’importance accordée à la sécurité (à l’époque, le New York Times lui a accordé un article intitulé OpenAI Insiders Warn of a ‘Reckless’ Race for Dominance — « Des initiés d’OpenAI mettent en garde contre une course “imprudente” à la domination »). En 2021, il publie What 2026 looks like, qui s’est révélé largement prescient (pour une évaluation rétrospective tierce, voir cet article).

  • Eli Lifland est un chercheur qui s’intéresse de manière globale a « comment développer de meilleures méthodes générales de prédiction », qu’il pratique activement sur des marchés de prédiction ; un résumé de ses performances peut être trouvé sur son blog.

Ensuite, par sa méthodologie. Le but de l’initiative n’est pas de donner une prédiction, brute de décoffrage et au doigt mouillé, mais de créer un modèle quantitatif, d’estimer les paramètres le plus possible à partir de la littérature existante (même si c’est loin d’être toujours possible), afin de créer une base de discussion pour identifier les plus gros points de désaccords.

Enfin, par ses résultats, qui surprennent beaucoup de monde, qui prévoient l’arrivée d’une superintelligence pour 2028-2029.

L’initiative a reçu le support, entre autres, de Yoshua Bengio, ce qui a aidé à lancer la discussion :

I recommend reading this scenario-type prediction by @DKokotajlo and others on how AI could transform the world in just a few years. Nobody has a crystal ball, but this type of content can help notice important questions and illustrate the potential impact of emerging risks.

Traduction :

Je recommande de lire cette prédiction de type scénario par @DKokotajlo et d’autres sur comment l’IA pourrait transformer le monde en seulement quelques années. Personne n’a de boule de cristal, mais ce type de contenu peut aider à repérer des questions importantes et illustrer l’impact potentiel des risques émergents

Si le sujet vous intéresse, je vous recommande :

En vrac

OpenAI annonce vouloir publier des modèles en open-weight d’ici quelques mois.

OpenAI publie OpenAI Codex, un agent d’aide à la programmation (similaire à Aider ou Claude Code), en licence Apache 2.0. Sur ce sujet d’agents d’aide au code, un guide a été publié sur Github.

OpenAI rend disponible sur l’API leur nouveau modèle de génération d’image.

ChatGPT a maintenant la capacité de référencer vos conversations passées.

Google publie deux papiers dans Nature pour évaluer la performance de l’IA sur le diagnostic médical. Dans cette expérience, l’IA surpasse le médecin humain, au point que IA + humain a des performances pires que l’humain seul.

Google rend accessible son modèle de génération de vidéo, Veo 2, par l’intermédiaire d’une API.

DeepSeek présente une nouvelle méthode d’entraînement, Generalist Reward Modeling (GRM).

Des chercheurs de l’université de Zurich décident de mesurer la capacité de persuasion des IA en déployant (secrètement) un bot sur le subreddit r/changemymind (« Change mon avis »). Résultat primaire: les IA modernes sont très performantes à cette tâche, récoltant 6x plus de points « cela m’a aidé à changer mon avis » (sur ce subreddit : « deltas ») que l’humain median. Résultat secondaire: l’IA ne s’est pas faite détectée par la modération. Le papier n’est plus accessible suite à une controverse sur l’éthique de l’expérience (expérience sans consentement), mais vous pouvez toujours lire la première page.

Pour aller plus loin

Non couvert ici :

Commentaires : voir le flux Atom ouvrir dans le navigateur

❌