La productivité des développeurs semble baisser quand ils utilisent l’IA générative
l'artifice surestimé

Les entreprises d’IA générative promettent à leurs utilisateurs un gain de productivité. Des chercheurs d’un laboratoire privé ont mesuré, au contraire, une perte de productivité en comparant le travail de 16 développeurs expérimentés avec ou sans IA.
Les chercheurs du laboratoire privé METR montrent, « de façon surprenante », que l’IA générative rendrait les développeurs « plus lents » : « ils prennent 19 % plus de temps que sans », expliquent ces chercheurs dans un billet de blog vulgarisant leur travail.
Une promesse de productivité non prouvée
Pourtant, c’est LA promesse de l’intelligence artificielle : augmenter la productivité du travail. Par exemple, pour promouvoir son récent plan « Osez l’IA » conçu pour accélérer l’adoption de l’IA en entreprise, le gouvernement ose affirmer que « l’IA est un levier de compétitivité » et promet aux entreprises « 20% de productivité en plus par entreprise ». Il s’appuie, pour ça, sur un rapport de McKinsey d’il y a plus d’un an (le cabinet préfère lui-même renvoyer à un rapport plus récent) et dans lequel on peine à trouver cette affirmation.
Dans son rapport de 2024, McKinsey expliquait que 46 des 876 répondants affirmaient qu’une partie significative de leur bénéfice avant intérêts et impôts (earnings before interest and taxes, EBIT, en anglais) était attribuable à l’IA générative. Mais « 42 % de ces entreprises très performantes [affirmaient] que plus de 20 % de leur EBIT est attribuable à leur utilisation d’IA analytique et non générative ». Bref, il est encore difficile de savoir si l’IA générative est réellement un boost pour la productivité.
Une étude qualitative sur des développeurs expérimentés et des tâches réelles
Le METR a donc mis en place une expérience pour tester si les produits d’IA générative de 2025 comme Cursor Pro avec Claude 3.5/3.7 Sonnet boostaient la productivité des développeurs. Ils ont mis en ligne un article décrivant leur démarche sur la plateforme de preprint arXiv. Prévenons tout de suite les fans des études quantitatives, celle-ci est effectuée sur 16 développeurs. Ceux-ci ne sont pas représentatifs de tous les développeurs, mais l’étude ne le prétend pas.
Elle teste, par contre, qualitativement, à l’échelle de ces 16 personnes, les conséquences de l’utilisation de l’IA générative sur leur productivité. Le METR explique avoir pioché les participants dans son réseau professionnel et dans les contributeurs de projets populaires sur GitHub. « Les développeurs sont des ingénieurs logiciels expérimentés (généralement plus d’une décennie d’expérience) et contribuent régulièrement à des dépôts que nous utilisons – en moyenne, ils ont 5 ans d’expérience sur leur dépôt, ce qui représente 59 % de la durée de vie du dépôt, au cours de laquelle ils ont effectué 1 500 modifications », expliquent les chercheurs du METR. En toute transparence, ils expliquent avoir payé chaque développeur 150 dollars de l’heure pour le motiver à participer à l’expérience.
En contradiction avec les prédictions des économistes, des experts en machine learning et des développeurs eux-mêmes
Et ils expliquent, qu’au final, « de manière surprenante, [ils constatent] qu’autoriser l’utilisation de l’IA augmente en fait le temps d’exécution de 19 % ». Le constat contredit les experts en économie interrogés par les chercheurs, qui prédisaient en moyenne une productivité améliorée de 39 %, mais aussi les experts en machine learning qui prédisaient une augmentation de 38 % de cette productivité.

Ce résultat contredit aussi ce que les développeurs qui ont participé pensent eux-mêmes. Avant l’expérience, ils pensaient que l’IA générative leur permettait une augmentation de 24 % de leur productivité. Mais, même après avoir participé, ils sont encore persuadés que ces outils leur permettent d’augmenter de 20 % leur productivité.
Remarquons que ces 19 % sont une moyenne dans un écart très important. Mais, dans cette expérience, la productivité avec les outils d’IA générative reste, au mieux, aussi élevée que sans. Au pire, elle baisse de 40 %.
Moins efficace surtout sur les tâches longues
Pour élaborer ces tests, le METR a demandé à ces développeurs de lui fournir une liste de problèmes à résoudre existants vraiment dans les dépôts sur lesquels ils travaillent et de les trier en fonction du temps qu’ils estimaient devoir prendre pour les résoudre (avec et sans assistance d’une IA).
Puis ils les ont laissés travailler, parfois avec assistance d’une IA (136 problèmes), parfois sans (110 problèmes), et soumettre leur travail à leurs collègues comme d’habitude avec un « pull request » dans les dépôts sur lesquels ils travaillent. Chaque développeur a donné le temps utilisé pour effectuer chaque tâche.
Finalement, ils ont globalement mis plus de temps (1,34 fois plus) pour corriger les problèmes quand ils étaient autorisés à utiliser les outils d’IA générative que quand ils ne l’étaient pas. Remarquons qu’ils avaient pourtant prévu que ce temps diminuerait en utilisant l’IA :

En plongeant un peu plus dans les données, on peut voir que, pour les tâches ne dépassant pas une heure, ils ont mis autant de temps avec ou sans IA. Mais que pour des tâches qui leur ont pris entre 1 et 6 heures, ils allaient finalement plus vite sans outil d’IA générative :

Le METR fournit aussi des données sur le temps passé pour chaque « activité » durant ce temps de développement :

Cette étude ne montre pas que l’IA générative n’augmente jamais la productivité des développeurs. Mais ses résultats suggèrent que les développeurs très expérimentés perdent du temps lorsqu’ils utilisent des outils d’IA générative pour coder, même s’ils pensent qu’ils vont améliorer leur productivité.