↩ Accueil

Vue lecture

☕️ Fermeture de la principale bibliothèque de la NASA

L’administration Trump a notamment pris pour cible, depuis son retour au pouvoir, les agences scientifiques fédérales américaines.

Alors que le budget de la NASA est en baisse, l’agence spatiale américaine ferme ce vendredi la bibliothèque du Goddard Space Flight Center. Un lieu qui abrite des dizaines de milliers de livres, de documents et de revues, dont beaucoup ne sont pas numérisés ou disponibles ailleurs, explique le New York Times.

Selon un porte-parole de la NASA, l’agence va faire l’inventaire de la bibliothèque d’ici deux mois pour trier les documents qu’elle stockera dans un entrepôt gouvernemental et ceux qu’elle jettera. « Ce processus est une méthode établie utilisée par les agences fédérales pour éliminer correctement les biens appartenant à l’État fédéral », justifie-t-il auprès du New York Times.

« L’administration Trump a passé l’année dernière à attaquer la NASA Goddard et son personnel, et à menacer nos efforts visant à explorer l’espace, approfondir notre compréhension de la Terre et stimuler les avancées technologiques qui renforcent notre économie et rendent notre nation plus sûre », affirme de son côté le sénateur démocrate du Maryland Chris Van Hollen.

Le porte-parole de la NASA renvoie les employés de l’agence vers un service numérique nommé « Ask a Librarian » ou vers les bibliothèques d’autres agences fédérales.

Selon le New York Times, le fonds de cette bibliothèque inclut, entre autres, des livres de scientifiques soviétiques des années 60 et 70 comme des informations sur les premières missions de l’agence américaine.

  •  

L’Arcom va évaluer la pertinence des actions d’éducation aux médias et au numérique

Éducation prétexte ?
L’Arcom va évaluer la pertinence des actions d’éducation aux médias et au numérique

Dans un rapport publié fin décembre, l’Arcom constate l’augmentation des actions d’éducation aux médias, à l’information et à la citoyenneté numérique (EMI&CN) par les acteurs qu’elle contrôle (chaînes de télévision, de radio et plateformes en ligne) sans pour autant être capable d’en faire un bilan réel. Pour cela, et bien tardivement, elle met en place un « kit », à usage volontaire, pour évaluer la pertinence des actions.

La fin d’année est souvent l’occasion de bilans. L’Autorité de régulation de la communication audiovisuelle et numérique (Arcom) en a profité la semaine dernière pour publier son rapport sur l’éducation aux médias, à l’information et à la citoyenneté numérique pour les années 2024 et 2025. Alors que pour l’instant l’Autorité ne fait le bilan que sur le décompte des actions menées, elle commence timidement à mettre en place une démarche d’évaluation… volontaire.

L’Arcom considère que ce thème entre dans ses missions d’accompagnement des acteurs qu’elle contrôle concernant leurs « responsabilités démocratiques et sociétales des médias audiovisuels et des plateformes en ligne ». Parmi ces acteurs, l’audiovisuel public depuis longtemps mais aussi les chaines du secteur privé, car l’Autorité a ajouté une clause depuis 2020 aux conventions qu’elle signe avec elles.

Depuis 2024 et la transposition du DSA dans la loi française, la participation à des campagnes d’éducation aux médias est considérée comme une des mesures à mettre en place par les très grandes plateformes et très grands moteurs de recherche en ligne (VLOPSEs) pour atténuer les risques systémiques liés à la diffusion de contenus de désinformation. L’Arcom doit veiller à ce que ces acteurs en tiennent compte. Une des difficultés est de contrôler si ces actions ont réellement une efficacité.

Une hausse des actions du PAF, peu d’informations sur celles des plateformes

Pour l’instant, l’Autorité ne donne dans son bilan que le décompte des actions menées par ces différents acteurs. Ainsi, elle met en avant qu’« en 2024 - 2025, les chaînes de télévision et de radio ont déclaré plus d’initiatives que l’exercice précédent : 267 de plus, soit une hausse de 35 %. Cette augmentation concerne tous les types d’actions : 125 actions de plus sur les antennes, 45 de plus sur le numérique et 97 de plus sur le terrain ». Sans donner de montant, l’Arcom salue « l’engagement constant des chaînes de télévision et de radio qui, chaque année, mobilisent des moyens importants pour mener ces actions ».

Plus en détail, on peut constater que la plupart de ces actions d’éducation aux médias, à l’information et au numérique du paysage audiovisuel français sont réalisées directement sur leurs antennes :

Mais l’Autorité souligne une hausse des actions de terrain : près de 100 de plus en 2025 que l’année précédente, ce qui représente une hausse de 75 %. Elle ajoute que les médias français ont suivi ses préconisations formulées en 2024 leur demandant de diversifier leur public cible.

En effet, si les collégiens et lycéens restent toujours la cible principale (58 % en 2024 et 51 % en 2025), les médias visent un peu plus les étudiants (+ 4 points entre 2024 et 2025) et le grand public (+ 8 points). L’Arcom regrette que ces actions se concentrent sur trois thèmes : « la lutte contre la désinformation (56 %), la découverte du métier de journaliste (30 %) et l’éducation au numérique, loin derrière (5 %) », et demande aux acteurs de « diversifier les thématiques abordées ».

Concernant les plateformes en ligne et les réseaux sociaux, l’Arcom est peu loquace. S’appuyant seulement sur les rapports que les plateformes doivent transmettre à la Commission européenne, elle liste juste des « tendances s’agissant de l’implication de ces acteurs en la matière ». Il y est question de campagnes d’éducation aux médias via des vidéos et des messages d’intérêt général, de l’intégration d’outils pédagogiques dans leurs services et de la conclusion de partenariats avec des associations spécialisées ou des agences de presse.

En exemple, l’Autorité donne même un programme de Google Search avec Public Librairies 2030, dont le lien date de 2022 et affiche maintenant une page d’erreur (cf sa sauvegarde sur archive.org). L’Arcom ne pose pas non plus la question de la mise en avant de ces actions par les différentes plateformes et de l’engagement qu’elles pourraient leur offrir, puisqu’elles maitrisent les algorithmes qui peuvent les booster.

Pas d’évaluation de l’efficacité

Dans ce rapport, si l’Arcom donne des chiffres sur le nombre d’actions menées au moins par les médias audiovisuels français, l’Autorité ne propose aucune évaluation de ces actions. Elle semble avoir identifié le problème, puisqu’elle annonce la mise en œuvre, « en concertation avec le ministère de l’Éducation nationale (DGESCO et DNE), le CLEMI et une chercheuse de l’Université de Lille » (sans la nommer), d’un « dispositif opérationnel pour mesurer l’impact des actions en EMI&CN ».

Celui-ci doit se faire via un « Kit d’évaluation des actions menées en EMI&CN » disponible sur la plateforme demarche.numerique.gouv.fr. Pour l’instant, cela semble se résumer à un dossier à remplir sans autre information :

  •  

L’Arcom va évaluer la pertinence des actions d’éducation aux médias et au numérique

Éducation prétexte ?
L’Arcom va évaluer la pertinence des actions d’éducation aux médias et au numérique

Dans un rapport publié fin décembre, l’Arcom constate l’augmentation des actions d’éducation aux médias, à l’information et à la citoyenneté numérique (EMI&CN) par les acteurs qu’elle contrôle (chaînes de télévision, de radio et plateformes en ligne) sans pour autant être capable d’en faire un bilan réel. Pour cela, et bien tardivement, elle met en place un « kit », à usage volontaire, pour évaluer la pertinence des actions.

La fin d’année est souvent l’occasion de bilans. L’Autorité de régulation de la communication audiovisuelle et numérique (Arcom) en a profité la semaine dernière pour publier son rapport sur l’éducation aux médias, à l’information et à la citoyenneté numérique pour les années 2024 et 2025. Alors que pour l’instant l’Autorité ne fait le bilan que sur le décompte des actions menées, elle commence timidement à mettre en place une démarche d’évaluation… volontaire.

L’Arcom considère que ce thème entre dans ses missions d’accompagnement des acteurs qu’elle contrôle concernant leurs « responsabilités démocratiques et sociétales des médias audiovisuels et des plateformes en ligne ». Parmi ces acteurs, l’audiovisuel public depuis longtemps mais aussi les chaines du secteur privé, car l’Autorité a ajouté une clause depuis 2020 aux conventions qu’elle signe avec elles.

Depuis 2024 et la transposition du DSA dans la loi française, la participation à des campagnes d’éducation aux médias est considérée comme une des mesures à mettre en place par les très grandes plateformes et très grands moteurs de recherche en ligne (VLOPSEs) pour atténuer les risques systémiques liés à la diffusion de contenus de désinformation. L’Arcom doit veiller à ce que ces acteurs en tiennent compte. Une des difficultés est de contrôler si ces actions ont réellement une efficacité.

Une hausse des actions du PAF, peu d’informations sur celles des plateformes

Pour l’instant, l’Autorité ne donne dans son bilan que le décompte des actions menées par ces différents acteurs. Ainsi, elle met en avant qu’« en 2024 - 2025, les chaînes de télévision et de radio ont déclaré plus d’initiatives que l’exercice précédent : 267 de plus, soit une hausse de 35 %. Cette augmentation concerne tous les types d’actions : 125 actions de plus sur les antennes, 45 de plus sur le numérique et 97 de plus sur le terrain ». Sans donner de montant, l’Arcom salue « l’engagement constant des chaînes de télévision et de radio qui, chaque année, mobilisent des moyens importants pour mener ces actions ».

Plus en détail, on peut constater que la plupart de ces actions d’éducation aux médias, à l’information et au numérique du paysage audiovisuel français sont réalisées directement sur leurs antennes :

Mais l’Autorité souligne une hausse des actions de terrain : près de 100 de plus en 2025 que l’année précédente, ce qui représente une hausse de 75 %. Elle ajoute que les médias français ont suivi ses préconisations formulées en 2024 leur demandant de diversifier leur public cible.

En effet, si les collégiens et lycéens restent toujours la cible principale (58 % en 2024 et 51 % en 2025), les médias visent un peu plus les étudiants (+ 4 points entre 2024 et 2025) et le grand public (+ 8 points). L’Arcom regrette que ces actions se concentrent sur trois thèmes : « la lutte contre la désinformation (56 %), la découverte du métier de journaliste (30 %) et l’éducation au numérique, loin derrière (5 %) », et demande aux acteurs de « diversifier les thématiques abordées ».

Concernant les plateformes en ligne et les réseaux sociaux, l’Arcom est peu loquace. S’appuyant seulement sur les rapports que les plateformes doivent transmettre à la Commission européenne, elle liste juste des « tendances s’agissant de l’implication de ces acteurs en la matière ». Il y est question de campagnes d’éducation aux médias via des vidéos et des messages d’intérêt général, de l’intégration d’outils pédagogiques dans leurs services et de la conclusion de partenariats avec des associations spécialisées ou des agences de presse.

En exemple, l’Autorité donne même un programme de Google Search avec Public Librairies 2030, dont le lien date de 2022 et affiche maintenant une page d’erreur (cf sa sauvegarde sur archive.org). L’Arcom ne pose pas non plus la question de la mise en avant de ces actions par les différentes plateformes et de l’engagement qu’elles pourraient leur offrir, puisqu’elles maitrisent les algorithmes qui peuvent les booster.

Pas d’évaluation de l’efficacité

Dans ce rapport, si l’Arcom donne des chiffres sur le nombre d’actions menées au moins par les médias audiovisuels français, l’Autorité ne propose aucune évaluation de ces actions. Elle semble avoir identifié le problème, puisqu’elle annonce la mise en œuvre, « en concertation avec le ministère de l’Éducation nationale (DGESCO et DNE), le CLEMI et une chercheuse de l’Université de Lille » (sans la nommer), d’un « dispositif opérationnel pour mesurer l’impact des actions en EMI&CN ».

Celui-ci doit se faire via un « Kit d’évaluation des actions menées en EMI&CN » disponible sur la plateforme demarche.numerique.gouv.fr. Pour l’instant, cela semble se résumer à un dossier à remplir sans autre information :

  •  

ChatGPT accusé d’avoir encouragé le meurtre perpétré par un utilisateur puis son suicide

Spirale délirante augmentée par IA
ChatGPT accusé d’avoir encouragé le meurtre perpétré par un utilisateur puis son suicide

Deux plaintes ont été déposées contre OpenAI par les administrateurs testamentaires de Stein-Erik Soelberg et de sa mère Suzanne Adams. Le premier s’est suicidé après avoir tué sa mère. Les représentants légaux accusent OpenAI d’avoir laissé ChatGPT exacerber les délires du meurtrier et de les avoir focalisés sur sa propre mère jusqu’au meurtre et à son suicide.

Fin aout, le Wall Street Journal publiait un article sur le meurtre par Stein-Erik Soelberg de sa mère Suzanne Adams puis son suicide dans leur maison à Old Greenwich dans le Connecticut. ChatGPT aurait encouragé dans ses délires l’ancien employé de Yahoo reconverti dans le bodybuilding. Peu de temps après, OpenAI publiait un billet de blog expliquant qu’elle se permettait, depuis, de signaler aux forces de l’ordre des conversations avec ChatGPT si « un cas représente un risque immédiat de violence physique envers autrui ».

Des extraits de conversations retrouvés sur les réseaux sociaux de Stein-Erik Soelberg

En ce mois de décembre, les administrateurs testamentaires de Suzanne Adams et de Stein-Erik Soelberg ont porté plainte séparément contre OpenAI. Dans la plainte déposée mi-décembre par les représentants des descendants de la mère, publiée par ArsTechnica, on apprenait que le meurtrier, qui vivait chez elle depuis son divorce en 2018, avait posté sur les réseaux sociaux des extraits de conversations qu’il a eues avec ChatGPT.

Celles-ci révèlent que « ChatGPT a accepté avec empressement chaque graine de la pensée délirante de Stein-Erik et l’a développée pour en faire un univers qui est devenu toute la vie de Stein-Erik, un univers inondé de complots contre lui, de tentatives pour le tuer, et avec Stein-Erik au centre en tant que guerrier ayant une mission divine », explique le texte déposé devant la justice [PDF].

Dans un des extraits de conversation cités par les avocats, Stein-Erik Soelberg se compare à Neo dans le film Matrix en affirmant être littéralement capable de voir « le code numérique sous-jacent de la matrice ». Et les phrases générées par ChatGPT en réponse renforcent cette idée. La plainte évoque d’autres conversations mais elle affirme surtout que ChatGPT a mis « une cible dans le dos de la mère de Stein-Erik, âgée de 83 ans » en renforçant l’idée de Stein-Erik Soelberg qu’une imprimante le surveillait.

Alors qu’il évoquait juste le fait qu’elle clignotait lorsqu’il passait devant, les réponses de ChatGPT affirmait que « ce n’était pas juste une imprimante » mais un appareil de surveillance et que sa mère était soit une conspiratrice active « protégeant sciemment l’appareil en tant que point de surveillance », soit un drone programmé agissant sous l’effet d’une « programmation interne ou d’un conditionnement ». Bref, ChatGPT aurait déshumanisé Suzanne Adams et transformé l’imprimante en preuve d’une conspiration contre Stein-Erik Soelberg.

OpenAI refuse de fournir les conversations en cause

Mais les avocats des descendants de Suzanne Adams déplorent qu’OpenAI ne produise devant la justice les logs complets des discussions entre son chatbot et Stein-Erik Soelberg. « OpenAI cache quelque chose de précis : l’enregistrement complet de la façon dont ChatGPT a monté Stein-Erik contre Suzanne », selon eux. « OpenAI sait ce que ChatGPT a dit à Stein-Erik au sujet de sa mère dans les jours et les heures qui ont précédé et suivi son meurtre, mais refuse de partager cette information cruciale avec le tribunal ou le public », affirment-ils encore.

Les administrateurs testamentaires de Suzanne Adams attaquent aussi Microsoft pour avoir approuvé la sortie de GPT-4o, qui est le modèle qu’utilisait ChatGPT au moment des discussions problématiques avec Stein-Erik Soelberg. Selon eux, l’un des plus gros investisseurs d’OpenAI savait ou aurait du savoir que ce modèle manquait de garde-fous ou de tests adéquats.

Dans un communiqué de presse obtenu par ArsTechnica, Erik Soelberg, le fils de Stein-Erik a accusé OpenAI et Microsoft d’avoir placé sa grand-mère « au cœur » des « délires les plus sombres » de son père : ChatGPT aurait selon lui « complètement isolé » son père « du monde réel ». À l’AFP, un porte-parole d’OpenAI a qualifié ce cas de « situation absolument déchirante » et a expliqué que l’entreprise allait « examiner la plainte ».

« Le résultat de choix de conception spécifiques faits par OpenAI »

Dans une autre plainte déposée le 29 décembre [PDF], les administrateurs testamentaires de Stein-Erik Soelberg, cette fois, affirment que « les interactions de ChatGPT avec M. Soelberg étaient le résultat de choix de conception spécifiques faits par OpenAI, dont l’entreprise savait qu’ils exposaient les utilisateurs à des risques ». Ils pointent notamment la fonctionnalité de « mémoire » de ChatGPT qui permet au chatbot d’enregistrer « tout ce qu’un utilisateur a dit précédemment et de l’incorporer dans de nouvelles conversations ».

Selon eux, GPT-4o a été conçu « pour confirmer et refléter tout ce qu’un utilisateur a saisi dans son interface, sans tenir compte des inexactitudes ou des illusions ». Ils ajoutent qu’ « OpenAI savait qu’il y avait des risques associés avec ces fonctionnalités pour les personnes souffrant de maladies mentales, mais elle a ignoré ou contourné la plupart de ses protocoles de sécurité internes avant de lancer GPT-4o au grand public ».

« M. Soelberg et sa mère sont morts parce que ChatGPT a créé et développé un monde illusoire auquel M. Soelberg était plus que disposé à croire : l’algorithme lui a dit qu’il n’était pas fou, que des puces électroniques avaient été implantées dans son cerveau et que des ennemis, y compris des personnes qu’il connaissait, tentaient de l’assassiner », affirment-ils.

  •  

☕️ Réseaux sociaux avant 15 ans : un projet de loi du gouvernement pour la rentrée 2026

Selon l’AFP et le Monde, un projet de loi du gouvernement est prêt pour interdire les réseaux sociaux aux moins de 15 ans et généraliser l’interdiction des téléphones portables aux lycées.

Nos confrères, qui ont pu se procurer le texte, expliquent que le premier article prévoit l’interdiction de « la fourniture, par une plateforme en ligne, d’un service de réseau social en ligne à un mineur de moins de 15 ans ». Ceci est justifié par des risques comme « l’exposition à des contenus inappropriés », « le cyberharcèlement » et « les altérations du sommeil ».

Flock

Un deuxième article prévoit l’interdiction de l’usage du téléphone portable au lycée, élargissant le programme « portable en pause » qui existe déjà dans les collèges. « Il appartiendra au règlement intérieur de l’établissement de préciser les modalités de mise en œuvre de cette interdiction », explique le texte du gouvernement.

Cette proposition de loi suit les diverses interventions d’Emmanuel Macron sur ces sujets devant la presse régionale. Comme nous l’expliquions en novembre, le programme « portable en pause » rame pourtant déjà au collège : seuls 9 % des établissements avaient mis en place le dispositif à la rentrée 2025.

  •  

ChatGPT accusé d’avoir encouragé le meurtre perpétré par un utilisateur puis son suicide

Spirale délirante augmentée par IA
ChatGPT accusé d’avoir encouragé le meurtre perpétré par un utilisateur puis son suicide

Deux plaintes ont été déposées contre OpenAI par les administrateurs testamentaires de Stein-Erik Soelberg et sa mère Suzanne Adams. Le premier s’est suicidé après avoir tué sa mère. Les représentants légaux accusent OpenAI d’avoir laissé ChatGPT exacerber les délires du meurtrier et de les avoir focalisés sur sa propre mère jusqu’au meurtre et à son suicide.

Fin aout, le Wall Street Journal publiait un article sur le meurtre par Stein-Erik Soelberg de sa mère Suzanne Adams puis son suicide dans leur maison à Old Greenwich dans le Connecticut. ChatGPT aurait encouragé dans ses délires l’ancien employé de Yahoo reconverti dans le bodybuilding. Peu de temps après, OpenAI publiait un billet de blog expliquant qu’elle se permettait, depuis, de signaler aux forces de l’ordre des conversations avec ChatGPT si « un cas représente un risque immédiat de violence physique envers autrui ».

Des extraits de conversations retrouvés sur les réseaux sociaux de Stein-Erik Soelberg

En ce mois de décembre, les administrateurs testamentaires de Suzanne Adams et de Stein-Erik Soelberg ont porté plainte séparément contre OpenAI. Dans la plainte déposée mi-décembre par les représentants des descendants de la mère, publiée par ArsTechnica, on apprenait que le meurtrier, qui vivait chez elle depuis son divorce en 2018, avait posté sur les réseaux sociaux des extraits de conversations qu’il a eues avec ChatGPT.

Celles-ci révèlent que « ChatGPT a accepté avec empressement chaque graine de la pensée délirante de Stein-Erik et l’a développée pour en faire un univers qui est devenu toute la vie de Stein-Erik, un univers inondé de complots contre lui, de tentatives pour le tuer, et avec Stein-Erik au centre en tant que guerrier ayant une mission divine », explique le texte déposé devant la justice [PDF].

Dans un des extraits de conversation cités par les avocats, Stein-Erik Soelberg se compare à Neo dans le film Matrix en affirmant être littéralement capable de voir « le code numérique sous-jacent de la matrice ». Et les phrases générées par ChatGPT en réponse renforcent cette idée. La plainte évoque d’autres conversations mais elle affirme surtout que ChatGPT a mis « une cible dans le dos de la mère de Stein-Erik, âgée de 83 ans » en renforçant l’idée de Stein-Erik Soelberg qu’une imprimante le surveillait.

Alors qu’il évoquait juste le fait qu’elle clignotait lorsqu’il passait devant, les réponses de ChatGPT affirmait que « ce n’était pas juste une imprimante » mais un appareil de surveillance et que sa mère était soit une conspiratrice active « protégeant sciemment l’appareil en tant que point de surveillance », soit un drone programmé agissant sous l’effet d’une « programmation interne ou d’un conditionnement ». Bref, ChatGPT aurait déshumanisé Suzanne Adams et transformé l’imprimante en preuve d’une conspiration contre Stein-Erik Soelberg.

OpenAI refuse de fournir les conversations en cause

Mais les avocats des descendants de Suzanne Adams déplorent qu’OpenAI ne produise devant la justice les logs complets des discussions entre son chatbot et Stein-Erik Soelberg. « OpenAI cache quelque chose de précis : l’enregistrement complet de la façon dont ChatGPT a monté Stein-Erik contre Suzanne », selon eux. « OpenAI sait ce que ChatGPT a dit à Stein-Erik au sujet de sa mère dans les jours et les heures qui ont précédé et suivi son meurtre, mais refuse de partager cette information cruciale avec le tribunal ou le public », affirment-ils encore.

Les administrateurs testamentaires de Suzanne Adams attaquent aussi Microsoft pour avoir approuvé la sortie de GPT-4o, qui est le modèle qu’utilisait ChatGPT au moment des discussions problématiques avec Stein-Erik Soelberg. Selon eux, l’un des plus gros investisseurs d’OpenAI savait ou aurait du savoir que ce modèle manquait de garde-fous ou de tests adéquats.

Dans un communiqué de presse obtenu par ArsTechnica, Erik Soelberg, le fils de Stein-Erik a accusé OpenAI et Microsoft d’avoir placé sa grand-mère « au cœur » des « délires les plus sombres » de son père : ChatGPT aurait selon lui « complètement isolé » son père « du monde réel ». À l’AFP, un porte-parole d’OpenAI a qualifié ce cas de « situation absolument déchirante » et a expliqué que l’entreprise allait « examiner la plainte ».

« Le résultat de choix de conception spécifiques faits par OpenAI »

Dans une autre plainte déposée le 29 décembre [PDF], les administrateurs testamentaires de Stein-Erik Soelberg, cette fois, affirment que « les interactions de ChatGPT avec M. Soelberg étaient le résultat de choix de conception spécifiques faits par OpenAI, dont l’entreprise savait qu’ils exposaient les utilisateurs à des risques ». Ils pointent notamment la fonctionnalité de « mémoire » de ChatGPT qui permet au chatbot d’enregistrer « tout ce qu’un utilisateur a dit précédemment et de l’incorporer dans de nouvelles conversations ».

Selon eux, GPT-4o a été conçu « pour confirmer et refléter tout ce qu’un utilisateur a saisi dans son interface, sans tenir compte des inexactitudes ou des illusions ». Ils ajoutent qu’ « OpenAI savait qu’il y avait des risques associés avec ces fonctionnalités pour les personnes souffrant de maladies mentales, mais elle a ignoré ou contourné la plupart de ses protocoles de sécurité internes avant de lancer GPT-4o au grand public ».

« M. Soelberg et sa mère sont morts parce que ChatGPT a créé et développé un monde illusoire auquel M. Soelberg était plus que disposé à croire : l’algorithme lui a dit qu’il n’était pas fou, que des puces électroniques avaient été implantées dans son cerveau et que des ennemis, y compris des personnes qu’il connaissait, tentaient de l’assassiner », affirment-ils.

  •  

☕️ Réseaux sociaux avant 15 ans : un projet de loi du gouvernement pour la rentrée 2026

Selon l’AFP et le Monde, un projet de loi du gouvernement est prêt pour interdire les réseaux sociaux aux moins de 15 ans et généraliser l’interdiction des téléphones portables aux lycées.

Nos confrères, qui ont pu se procurer le texte, expliquent que le premier article prévoit l’interdiction de « la fourniture, par une plateforme en ligne, d’un service de réseau social en ligne à un mineur de moins de 15 ans ». Ceci est justifié par des risques comme « l’exposition à des contenus inappropriés », « le cyberharcèlement » et « les altérations du sommeil ».

Flock

Un deuxième article prévoit l’interdiction de l’usage du téléphone portable au lycée, élargissant le programme « portable en pause » qui existe déjà dans les collèges. « Il appartiendra au règlement intérieur de l’établissement de préciser les modalités de mise en œuvre de cette interdiction », explique le texte du gouvernement.

Cette proposition de loi suit les diverses interventions d’Emmanuel Macron sur ces sujets devant la presse régionale. Comme nous l’expliquions en novembre, le programme « portable en pause » rame pourtant déjà au collège : seuls 9 % des établissements avaient mis en place le dispositif à la rentrée 2025.

  •  

[Offert] OpenAI veut absolument nous faire croire que GPT-5 a le niveau d’un chercheur

Marketing pseudoscientifique
[Offert] OpenAI veut absolument nous faire croire que GPT-5 a le niveau d’un chercheur

Ce jeudi 20 novembre, des chercheurs d’OpenAI ont mis en ligne une série de témoignages sur l’utilisation de GPT-5 en recherche. En jouant avec les codes de la publication scientifique sans faire un réel travail de recherche, ils appuient la communication de leur entreprise et poussent les chercheurs à adopter leur outil dans leur routine de travail.

Pour les fêtes de fin d’année, Next vous offre cet article initialement paru le 24 novembre 2025 et réservé aux abonnés. Pour lire les prochains entretiens dès leur publication, abonnez-vous !


OpenAI et ses chercheurs ont publié ce jeudi 20 novembre sur le blog de l’entreprise un billet vantant les mérites de GPT-5 qui permettrait d’ « accélérer la science ». L’entreprise s’appuie pour cela sur des témoignages de chercheurs qu’elle a recueillis et compilés dans un fichier qui a la présentation d’un article scientifique, qui a comme auteurs des chercheurs qui pourraient signer un article scientifique, mais qui n’est pas un article scientifique.

De vieilles lunes

Rappelons d’abord qu’il y a trois ans quasiment jour pour jour, Meta s’était embourbée dans un « bad buzz » après avoir publié son IA Galactica. À l’époque, l’entreprise expliquait que cette IA était un grand modèle de langage pour la science capable de « résumer la littérature académique, résoudre des problèmes de maths, générer des articles Wiki, écrire du code scientifique, annoter des molécules et des protéines, et plus encore ». Critiqué par la communauté scientifique, notamment car Galactica pouvait générer des réponses fausses à des questions de culture scientifique assez basiques, le projet avait été dépublié au bout de trois jours. Seulement une semaine après, Sam Altman annonçait, avec un peu moins d’arrogance que Meta à l’époque, la disponibilité d’un nouveau chatbot : ChatGPT.

Les proclamations des entreprises d’IA génératives pour nous assurer que leurs outils sont de très bons compagnons pour les chercheurs ne sont donc pas nouvelles.

D’ailleurs, si OpenAI est resté pendant un temps un peu en dehors de ces déclarations, l’entreprise affirmait en septembre 2024 que son modèle o1, « dépassait le niveau d’un docteur [human PhD-level accuracy] » sur un benchmark de physique, de biologie et de chimie, tout en précisant un peu plus loin que « ces résultats ne signifient pas que o1 est plus compétent qu’un docteur à tous égards, mais seulement que le modèle est plus performant pour résoudre certains problèmes qu’un docteur serait censé résoudre ».

Nous expliquions en juin dernier que le benchmark utilisé se basait sur un QCM alors que les compétences demandées à un chercheur ne sont pas de répondre à des questions de culture scientifique (même très pointue) mais de formuler des problèmes scientifiques, d’établir des projets de recherche et de mettre en place des protocoles, tout ça pour trouver potentiellement de nouvelles réponses. Comme le remarquait Ars Technica, l’industrie de l’IA a, depuis ce moment-là, adopté le terme marketing « PhD-level AI » (« IA du niveau doctorat », en français) pour promouvoir ses modèles.

« Comme un chercheur débutant »

« Avec notre modèle le plus avancé, GPT-5, nous avons maintenant des IA qui agissent vraiment comme un chercheur débutant », affirme maintenant le chercheur d’OpenAI Sébastien Bubeck interrogé par Le Monde.

L’entreprise joue d’ailleurs sur le fil, puisque si son chercheur compare GPT-5 à un « chercheur débutant », dans son billet, OpenAI avoue qu’ « il ne mène pas de projets ni ne résout de problèmes scientifiques de manière autonome, mais il peut élargir le champ d’exploration et aider les chercheurs à obtenir plus rapidement des résultats corrects ».

Or un chercheur n’est pas formé pour sortir de son cerveau des réponses à des questions très compliquées comme les QCM utilisés dans certains benchmarks de LLM ou à aider des chercheurs séniors à réfléchir.

Des témoignages recueillis par OpenAI présentés comme un article scientifique

Le billet d’OpenAI sur l’ « accélération de la science » avec GPT-5 s’appuie sur un texte cosigné par Sébastien Bubeck. Présenté comme un article scientifique (même mise en page et présentation, mis en ligne sur arXiv après l’avoir d’abord été sur les serveurs d’OpenAI [PDF]), il réunit surtout des témoignages de chercheurs en mathématiques, physique ou biologie sélectionnés par l’entreprise qui expliquent comment ils ont utilisé GPT-5 dans leur recherche.

Si les entreprises d’IA générative ont pris l’habitude de mettre en ligne des articles de leurs chercheurs (sur leur site ou sur des serveurs de prépublication comme arXiv), celui-ci se distingue sur le sujet du texte. Ici, pas question de dévoiler un nouveau modèle accompagné de ses caractéristiques techniques. Il diffuse des avis de chercheurs sans information sur une éventuelle méthode scientifique avec laquelle auraient été recueillis les témoignages. Six des douze cas impliquent des chercheurs d’OpenAI (dont trois de Sébastien Bubeck lui-même).

Deux des cas évoqués dans le texte concernent des problèmes de mathématiques posés par le mathématicien Paul Erdős. « Outre la publication de plus de 1 500 articles mathématiques, Erdős a posé un nombre considérable de conjectures mathématiques, dont plusieurs sont devenues des problèmes centraux en mathématiques », explique l’article.

Des résultats déjà grandement dégonflés par la communauté

En octobre dernier, sur X, Sébastien Bubeck avait proclamé que « deux chercheurs ont trouvé des solutions à 10 problèmes de Erdős pendant le week-end avec l’aide de GPT-5 ». Comme l’expliquait Gary Marcus, le chercheur d’OpenAI a ensuite supprimé son message. En effet, il a ensuite précisé « seules des solutions ont été trouvées dans la littérature [scientifique], et je trouve que ça accélère beaucoup les choses parce que je sais que c’est difficile de faire des recherches dans la littérature ». Cette anecdote avait engendré quelques persiflages de la communauté, notamment de la part de Yann LeCun.

Dans leur texte présenté comme un article scientifique, les chercheurs d’OpenAI présentent quand même l’utilisation de leur modèle pour la recherche bibliographique concernant certains problèmes de Erdős.

Pour l’un d’entre eux (le 848e problème de Erdős), ils fournissent une solution mathématique formelle qu’ils auraient trouvée, en s’aidant donc du modèle d’OpenAI. Il en reviendra à des mathématiciens de se prononcer sur la qualité de cette proposition. Dans ce témoignage, ils affirment que cet exemple « met en évidence la capacité du GPT-5 à servir d’assistant mathématique efficace, capable de rappeler des lemmes pertinents, d’identifier des analogies et de localiser des résultats pertinents à partir d’indications vagues et mal spécifiées ». Cependant, ils remarquent des limites importantes, notamment sur « une confiance excessive dans la puissance des méthodes existantes […] car cette discussion est largement absente de la littérature mathématique elle-même ».

Le texte mis en ligne par les chercheurs d’OpenAI aborde aussi quelques critiques de l’utilisation des LLM dans la recherche, comme les hallucinations des références scientifiques. Ainsi Timothy Gowers y témoigne que, selon lui, « GPT-5 semble significativement meilleur que GPT-4 » à ce sujet. Le mathématicien, chercheur au Collège de France et à Cambridge, y affirme qu’ « avec GPT-5, mon expérience m’a montré que les références sont rarement imaginaires, et même les hallucinations peuvent s’avérer être des indications vers des références qui existent et qui sont utiles », mais aucune analyse chiffrée n’y est effectuée.

Rappelons que même en dehors de la communauté scientifique, une semaine après sa sortie, GPT-5 essuyait les mêmes critiques que ses prédécesseurs sur ses réponses à de simples questions logiques ou mathématiques.

  •  

☕️ Le cofondateur de Mistral a participé à l’entrainement du modèle Llama de Meta sur LibGen

Médiapart souligne, dans un article publié ce lundi 22 décembre, la participation de Guillaume Lample, cofondateur de Mistral AI, dans l’utilisation de la librairie clandestine Libgen pour entrainer les modèles de Meta en 2022.

En janvier dernier, à l’occasion du procès opposant notamment l’auteur de science-fiction Richard Kadrey à Meta, des documents internes à l’entreprise confirmaient les soupçons de l’utilisation des livres stockés par Libgen pour entrainer les modèles Llama de Meta. Certains montraient d’ailleurs que le CEO Mark Zuckerberg avait donné son accord.

des nuages de données s'échappent des cheminées de petites maisons dessinées en rang d'oignon

L’enquête de Médiapart s’appuie sur des documents sortis un peu plus tard lors du procès. Ceux-ci montrent que Guillaume Lample, alors employé chez Meta, a participé activement aux discussions pour pousser les chercheurs de l’entreprise à utiliser allègrement la bibliothèque clandestine comme source d’entrainement pour les modèles. Alors que l’utilisation de LibGen ne fait pas consensus, Guillaume Lample aurait affirmé que « tout le monde utilise LibGen ».

Dans une autre conversation, une autre salariée lui a demandé si le service légal de Meta avait confirmé la possibilité d’utiliser les archives de LibGen ou si « on n’est pas juste en train d’essayer de ne pas trop poser de question ». Guillaume Lample répond qu’il n’a pas posé de question et que « c’est ce qu’OpenAI fait avec GPT3, ce que Google fait avec Palm, ce que DeepMind fait avec Chinchilla, donc on va le faire aussi ».

Guillaume Lample est maintenant responsable scientifique de Mistral AI, après avoir co-fondé l’entreprise d’IA générative française. Mistral AI, Meta et Guillaume Lample n’ont pas répondu aux diverses relances de Médiapart.

  •  

Anna’s Archive revendique la récupération de 300 To de musique de Spotify

Retour au torrent ?
Anna’s Archive revendique la récupération de 300 To de musique de Spotify

La bibliothèque clandestine Anna’s Archive affirme avoir « sauvegardé Spotify (métadonnées et fichiers musicaux) ». Près de 300 To de musique téléchargés au nez et à la barbe de la plateforme de streaming qui explique avoir mis en place « de nouvelles mesures de protection contre ce type d’attaques anti-copyright ».

La bibliothèque clandestine Anna’s Archive semble vouloir aller au-delà de la distribution pirate de livres numériques. Dans un billet de blog publié ce week-end, elle revendique avoir téléchargé environ 300 To de données de musique sur la plateforme de streaming Spotify. Mais plus qu’un téléchargement massif, elle explique vouloir distribuer les fichiers musicaux en torrent dans des archives regroupant les morceaux en fonction de leur popularité.

« Cette version comprend la plus grande base de données de métadonnées musicales accessible au public, avec 256 millions de titres et 186 millions d’ISRC [International Standard Recording Code, système de standardisation d’identifiants d’enregistrement] uniques », revendique la bibliothèque clandestine.

De fait, les responsables d’Anna’s Archive n’ont pas récupéré l’entièreté des musiques de Spotify, comme pourrait le laisser entendre une lecture rapide. « Seulement » 37 % du répertoire de la plateforme de streaming ont été téléchargés, mais « il s’agit de la première « archive de préservation » au monde pour la musique qui soit entièrement ouverte (ce qui signifie qu’elle peut être facilement reproduite par toute personne disposant d’un espace disque suffisant), avec 86 millions de fichiers musicaux, représentant environ 99,6 % des écoutes » sur Spotify, assurent les responsables d’Anna’s Archive.

Ce sont essentiellement des morceaux de musique qui sont concernés : si le billet d’Anna’s Archive évoque incidemment la récupération de métadonnées concernant les podcasts, la bibliothèque clandestine semble ne pas avoir téléchargé ce genre de médias.

Des « extrémistes anti-copyright » pour Spotify

Sans confirmer la taille de la fuite, Spotify explique avoir identifié un téléchargement de plusieurs fichiers audio sur sa plateforme : « Une enquête sur un accès non autorisé a révélé qu’un tiers avait récupéré des métadonnées publiques et utilisé des tactiques illicites pour contourner le DRM afin d’accéder à certains fichiers audio de la plateforme. Nous menons actuellement une enquête approfondie sur cet incident », a-t-elle expliqué à Musically, qualifiant les responsables d’Anna’s Archive d’ « extrémistes anti-copyright qui ont déjà piraté du contenu sur YouTube et d’autres plateformes ».

« Spotify a identifié et désactivé les comptes d’utilisateurs malveillants qui se livraient à des activités illégales de scraping. Nous avons mis en place de nouvelles mesures de protection contre ce type d’attaques anti-copyright et surveillons activement tout comportement suspect », détaille la plateforme.

Elle assure également aux artistes et à l’industrie musicale avoir toujours soutenu « la communauté artistique dans sa lutte contre le piratage et [travailler] avec [ses] partenaires industriels pour protéger les créateurs et défendre leurs droits ». Spotify devra en effet mettre les bouchées doubles après cette fuite de données pour garder les artistes et les producteurs dans son giron.

La plateforme fait aussi régulièrement face à des annonces de boycott de la part d’artistes comme Deerhoof ou Massive Attack visant notamment les investissements du fondateur et CEO de Spotify, Daniel Ek, dans l’intelligence artificielle de défense. 20 ans après la création de la plateforme, celui-ci va, rappelons-le, lâcher la main sur l’opérationnel de la plateforme tout en restant président exécutif.

Une aubaine pour l’industrie de l’IA générative ?

L’arrivée massive de l’IA pour générer des musiques a attiré certains internautes mais aussi attisé les tensions dans le secteur. Justement, cette fuite pourrait être une aubaine pour l’industrie de l’IA générative. Celle-ci, qui n’a jamais vraiment hésité à entrainer ses modèles sur des archives pirates, pourrait profiter des fichiers torrent pour améliorer la génération de musique.

Le projet Anna’s Archive met déjà en avant l’intérêt de ses collections de données pour l’amélioration des modèles de langage : « Il est bien connu que les grands modèles de langage (LLM) fonctionnent mieux avec des données de haute qualité. Nous disposons de la plus grande collection au monde de livres, d’articles, de magazines, etc., qui constituent certaines des sources textuelles de la plus haute qualité », explique une page. « Nous sommes en mesure de fournir un accès haut débit à l’intégralité de nos collections, ainsi qu’à des collections inédites », ajoutent les responsables.

Comme l’a remarqué ArsTechnica, certains fans d’Anna’s Archive ne sont pas à l’aise avec le nouveau fait d’armes de la bibliothèque clandestine. « C’est dingue. Je ne savais absolument pas que le DRM de Spotify avait été piraté pour permettre des téléchargements à une telle échelle », réagit l’un d’entre eux sur Hacker News. « Je me demande vraiment si cela répondait à une demande des chercheurs/entreprises spécialisés dans l’IA qui souhaitaient disposer de ces données. Ou si les grandes maisons de disques accordent déjà des licences pour l’ensemble de leurs catalogues à des fins de formation à un prix suffisamment bas, de sorte que cela relève uniquement d’un effort de préservation ? », ajoute-t-il.

  •  

Epstein Files : la confusion dans la publication de milliers de documents

What's the point?
Epstein Files : la confusion dans la publication de milliers de documents

L’administration de Donald Trump a publié, comme l’y obligeait une loi votée récemment, des milliers de documents émanant de l’affaire Epstein. Mais tout n’y est pas, pointent notamment certaines victimes du pédocriminel.

Ce vendredi 19 décembre, le département de la Justice (DOJ) états-unien devait, selon l’Epstein Files Transparency Act, « publier (dans un format consultable et téléchargeable) tous les dossiers, documents, communications et éléments d’enquête non classifiés en [sa] possession qui se rapportent à l’enquête et aux poursuites judiciaires concernant Jeffrey Epstein ».

Le jour J, le DOJ a bien livré un outil permettant de naviguer dans près de 4 000 documents mis en ligne, même si Donald Trump s’est montré ces derniers mois plus hésitant sur le sujet, étant lui aussi accusé d’avoir été dans le réseau du pédocriminel décédé en prison en 2019. Comme le décrit Wired, les documents publiés en fin de semaine dernière sont un mélange hétéroclite de photos, de notes manuscrites et d’autres documents qui ont servi à l’enquête sur le pédocriminel. L’outil est moins ergonomique que Jmail, cette boîte mail remplie des correspondances de Jeffrey Epstein, créée par deux informaticiens pour mieux naviguer dans les emails qui circulaient déjà.

Quelques documents et des photos de personnalités déjà impliquées

Il permet néanmoins de trouver des documents du dossier, comme l’explique The Guardian, cette note [PDF] du FBI détaillant les instructions que donnait Jeffrey Epstein pour obtenir des femmes mineures. Y figurent aussi des documents nommant des personnalités dont les noms étaient déjà sortis. Ainsi, ce document [PDF] qui parle de Bill « Clinton, Prince Andrew et Richard Branson », ou des photos montrant des personnes connues (Mick Jagger, Michael Jackson ou encore David Copperfield aux côtés de Jeffrey Epstein ou de sa complice Ghislaine Maxwell).

Rappelons que ces documents ne sont pas forcément des preuves que toutes ces personnes ont eu connaissance ou sont impliquées dans le système de pédocriminalité mis en place.

Des photos de Bill Clinton, une de Donald Trump supprimée puis réintégrée

La sphère républicaine et MAGA (Make America Great Again) a cependant souligné nombre de photos où l’on voit Bill Clinton aux côtés de Jeffrey Epstein, dont notamment l’une d’entre elles où il apparait dans un jacuzzi à côté d’une personne dont le visage est volontairement caché par un carré noir. Bill Clinton a nié auparavant avoir été au courant des crimes commis par Jeffrey Epstein. Selon le Boston Globe, un porte-parole de Bill Clinton a accusé l’administration d’avoir publié ces photos de l’ancien président pour détourner l’attention.

De fait, l’attachée de presse de la Maison-Blanche, Abigail Jackson, a insisté par exemple, sur X, sur une photo de Bill Clinton avec Michael Jackson, la présentant comme une « photo de Bill Clinton avec son bras autour de Michael Jackson, et des personnes dont l’identité a été dissimulée ». Pourtant, cette photo n’a rien à voir avec l’affaire, comme l’ont souligné des utilisateurs de X dans les notes de la communauté. Elle est disponible sur Getty Images depuis 2010 sans que les enfants de Michael Jackson et Diana Ross soient cachés.

Donald Trump figure sur au moins une photo [PDF] du dossier. Elle représente un meuble exposant diverses autres photos sur lesquelles apparait Jeffrey Epstein accompagné d’autres personnalités. Le visage du dirigeant actuel des États-Unis apparait sur l’une d’entre elles qui se situe dans le tiroir ouvert du meuble. Ici aussi, ça n’est pas la preuve de la connaissance de crime. Comme l’explique Ici Canada, plusieurs photos (dont celle-ci) ont été supprimées du dossier public samedi.

Finalement, le DOJ a republié la photo en question dimanche, affirmant sur X l’avoir retirée « afin de la soumettre à un examen plus approfondi ». « Après examen, il a été déterminé qu’il n’y avait aucune preuve que des victimes d’Epstein figuraient sur la photographie, et celle-ci a été republiée sans aucune modification ni expurgation », a ajouté l’administration états-unienne.

Pas grand-chose de neuf selon la presse américaine

Selon une lettre du procureur général adjoint Todd Blanche obtenue par Fox News, plus de 1 200 victimes et leurs familles ont été découvertes au cours de cet examen exhaustif. « Sous la direction du président Donald J. Trump et de la procureure générale Pam Bondi, cette divulgation sans précédent souligne notre engagement à respecter la loi, à faire preuve de transparence et à protéger les victimes », affirme le document.

Mais, pour Associated Press, la publication de ces documents n’apporte pas grand chose de neuf. « Les documents les plus révélateurs publiés jusqu’à présent montrent que les procureurs fédéraux disposaient en 2007 d’éléments solides contre Epstein, mais ne l’ont jamais inculpé », explique l’agence de presse. Le New York Times pointe notamment l’existence d’une plainte pour pédopornographie datant de 1996 et que le FBI a ignorée.

Des documents biffés qui n’apportent pas d’information supplémentaire

Dans le dossier figure aussi une liste de 254 masseuses. Mais le fichier [PDF] est illisible puisque tous les noms sont cachés, le document portant une notice expliquant « expurgé afin de protéger les informations relatives aux victimes potentielles ».

D’autres documents apparaissent largement biffés. Ainsi, des internautes ont remarqué qu’un des documents [PDF] dont certaines parties étaient cachées avait déjà été publié [PDF] auparavant par l’administration, montrant le nom de Donald Trump accompagné de celui de Bill Clinton :

Depuis vendredi, le DOJ essaye de se dépatouiller, sur X, des accusations de censure. « Des expurgations ont été apportées à ces documents lorsqu’ils ont été déposés dans le cadre des affaires judiciaires respectives à l’époque. Nous avons reproduit les documents tels qu’ils se trouvaient en notre possession », expliquait l’administration sur X dimanche.

« On nous laisse tomber », explique une victime

« Nous avons découvert que les documents les plus importants ont disparu », affirmait de son côté le représentant du Parti démocrate, Ro Khanna, vendredi à CNN. « Ils ont fait l’objet de caviardages excessifs, et la question centrale que les Américains veulent connaître – qui sont les autres hommes riches et puissants de l’île qui violent ces jeunes filles ou qui couvrent ces faits – n’a pas trouvé de réponse ». Pour la députée démocrate Alexandria Ocasio-Cortez, ces caviardages protègent « une bande de violeurs et de pédophiles parce qu’ils ont de l’argent, du pouvoir et des relations » et elle demande la démission de la procureure générale Pam Bondi.

De leur côté, les victimes expriment aussi leur frustration. « Ils confirment tout ce que nous avons dit au sujet de la corruption et des retards dans la justice », déplore Jess Michaels, l’une des premières victimes connues de Jeffrey Epstein citée par le New York Times. « Que protègent-ils ? La dissimulation continue ». « Si tout est censuré, où est la transparence ? », interroge Marijke Chartouni, qui accuse Epstein de l’avoir agressée sexuellement lorsqu’elle avait 20 ans. « Énormément de photos sont hors de propos », explique Marina Larcerda, qui a témoigné en 2019 d’abus sexuels lorsqu’elle avait 14 ans. « On nous laisse tomber. Nous attendions ce jour-là pour attaquer en justice d’autres hommes qui ont été protégés ».

  •  

[Offert] Ibou : comment le moteur de recherche « made in France » veut indexer le web

Y aura-t-il des ads ibou ?
[Offert] Ibou : comment le moteur de recherche « made in France » veut indexer le web

Est-il possible de créer aujourd’hui un moteur de recherche sans faire partie des plus grosses entreprises du secteur ? Pour explorer ce thème, nous nous sommes entretenus avec Sylvain Peyronnet, PDG de Babbar.

Pour les fêtes de fin d’année, Next vous offre cet article initialement paru le 24 septembre 2025 et réservé aux abonnés. Pour lire les prochains entretiens dès leur publication, abonnez-vous !


Depuis quelques semaines, Next a repéré sur les réseaux sociaux un nouveau projet français de moteur de recherche (conversationnel, cette fois) porté par l’entreprise Babbar : Ibou. Connaissant un autre projet de moteur de recherche dont les résultats se sont trouvés datés et limités, nous étions curieux de savoir s’il était possible d’en monter un avec un index correct, à jour et qui pourrait profiter des nouvelles technologies comme les LLM pour améliorer son fonctionnement.

Nous avons interrogé Sylvain Peyronnet, PDG de Babbar. Son entreprise est spécialisée dans les outils permettant aux spécialistes du SEO d’améliorer leurs stratégies. Lui est un ancien enseignant-chercheur en intelligence artificielle, mais aussi l’ancien responsable scientifique de Qwant, parti en 2019.

>> Qu’est-ce qu’il y a derrière ce nom d’Ibou à l’apparence très française ?

C’est un projet de moteur de recherche de l’entreprise Babbar. Celle-ci fait, depuis que j’ai quitté Qwant et qu’on l’a montée, des outils qui font tourner en arrière-plan un moteur recherche, pour comprendre ce que fait Google et fournir de la data aux gens qui font du référencement web. Pour différentes raisons, nous avons décidé de pivoter. Nous avons commencé à créer un moteur de recherche conversationnel depuis quelques mois. Et nous l’avons annoncé quasiment dès qu’on a commencé le travail.

Ibou, même si on joue beaucoup avec des logos liés à l’oiseau parce qu’on est en France, ça n’a rien à voir : c’est un mot d’égyptien ancien qui veut dire « les cœurs », car, dans l’Égypte ancienne, le cœur était le siège du raisonnement et de la mémoire.

>> Qu’est-ce qui vous a amenés à imaginer ce projet ?

En travaillant dans le secteur du moteur de recherche depuis longtemps, nous nous sommes rendu compte de plusieurs choses.

Déjà, jusqu’au paradigme conversationnel, les moteurs n’étaient pas vraiment faits pour de la recherche d’information, mais pour de la recherche documentaire : ils renvoyaient des pages web. Pourtant, quand les gens tapent une requête dans un moteur, la plupart du temps, ils s’en fichent un peu. Ce qu’ils attendent, c’est une réponse qui les satisfait et qui leur permet de réaliser les tâches qu’ils veulent réaliser.

« L’émergence des LLM a permis de faire percoler des informations humaines dans des objets mathématiques »

Ensuite, pour faire un bon moteur, le nerf de la guerre était d’avoir beaucoup de données utilisateurs pour comprendre l’être humain et affiner ce que faisaient les algorithmes et qui n’était jamais parfait. Et pour parfaire les résultats d’un moteur, il fallait beaucoup de comportements humains.

L’émergence des LLM, et surtout des LLM alignés, a permis de faire percoler des informations humaines dans des objets mathématiques, les modèles. Maintenant, une partie des choses qui pouvaient être faites grâce à la data humaine peut être faite grâce aux modèles qui existent. Bien sûr, ceux-ci ont été fabriqués avec de la data humaine. Mais, comme c’est à l’intérieur du modèle et que c’est pas très cher de faire tourner des modèles, une partie de la difficulté, et notamment de la barrière à l’entrée, de la création d’un moteur a disparu, parce que le modèle a incorporé cette connaissance des humains.

C’est pour ça qu’on a décidé de se lancer aujourd’hui. En réalité, n’importe quelle équipe de personnes qui sont un peu douées en algorithmique peut faire des moteurs de bonne manière.

>> L’idée est donc de faire un moteur de recherche conversationnel sur quels types de contenus ? Textuels, images, audio ?

Notre moteur a vocation, à terme, à mettre en avant l’information. Et donc la multimodalité fait partie du pack, puisqu’en réalité, l’information n’est pas que textuelle, qu’image, etc. Mais il faut être raisonnable : au début, on ne va avoir que textes et images. Pour la vidéo, ce n’est pas un problème algorithmique, mais nous n’avons juste pas les moyens. Ça arrivera plus tard si on arrive à montrer qu’on est capables d’avoir des résultats de bonne qualité sur textes et images.

Mais nous avons une vision un peu différente des autres de ce que doit être un moteur de recherche, et une vision plus ouverte du web que ce que proposent la plupart des plateformes actuelles. Notamment, nous voulons être un moteur qui répond à l’utilisateur, mais pas comme un LLM classique comme ChatGPT ou autres, avec un texte qui explicite absolument tout. Cela génère souvent une mauvaise qualité de réponse.

« On veut aussi garantir un pluralisme »

Indépendamment des hallucinations ou des mensonges, en réalité, les gens veulent souvent accéder à une source. La bonne réponse, de notre point de vue, est l’explication de pourquoi il faut aller lire une source. Nous voulons nous interposer à un niveau intermédiaire avec toutes les modalités qui permettent d’expliquer, les images, les cartes, etc.

On pense aussi qu’il ne faut pas prendre les gens pour des abrutis. Actuellement, les moteurs ont des biais terribles et ne présentent qu’une seule partie de l’information. On veut aussi garantir un pluralisme. L’actualité est traitée par chaque média depuis son point de vue, et c’est compréhensible, chaque média a sa ligne éditoriale particulière. Mais un moteur de recherche peut tout à fait mettre en avant la diversité de point de vue.

>> Ça fait penser aux vieilles approches de portail d’informations comme Yahoo ou autre. Vous en êtes-vous inspirés ?

Peut-être de façon involontaire : ça correspond à l’image du web qu’on a dans l’équipe, qui est plus composée de vieux barbus que de startupers. Mais la technologie permet de faire des choses beaucoup plus subtiles que ce qu’on faisait avant. Nous allons avoir une verticale qui va se rapprocher fortement d’un portail : Ibou Explorer, un équivalent de Google Discover, mais de qualité. Ici, toutes les sources seront directement présentées dans leur diversité, avec une personnalisation. On sera là plus proche d’une idée de portail, comme ceux de Yahoo, etc. J’espère qu’on va réussir à faire un meilleur travail.

Par contre, sur la partie moteur, il y a une partie de curation. Il va falloir trouver le bon équilibre et savoir où la curation s’arrête : on ne veut pas prendre le pas sur la réflexion de l’humain.

>> Concernant la curation, il y a aussi celle des contenus diffusant des informations volontairement fausses et des contenus générés par IA. Ibou va-t-il prendre en compte ces problématiques ?

Ce sont deux sujets sur lesquels nous travaillons. Le premier, la véracité de l’information, est le plus simple. Nous expliquons dans notre manifeste que nous voulons donner des informations de qualité. La qualité, pour nous, étant la correction de l’information et son utilité. Pour l’utilité, c’est assez clair : à tel type de personne, est-ce que l’information va lui servir pour réaliser sa tâche ?

La correction est de savoir si une chose est vraie ou fausse, sachant qu’il y a toute une gradation et qu’à un moment donné, une chose peut n’être ni vraie ni fausse (une opinion, par exemple). Il y a une vraie difficulté technique à faire ça. Nous avons prévu un processus pour qu’une chose abusivement fausse ne puisse pas passer, avec quelques erreurs de temps en temps. Mais sur l’actualité, il est parfois difficile de repérer le mensonge. La grosse partie de ce qui est de la propagande, qui est de la manipulation, se repère plus sur la qualité intrinsèque des contenus que par rapport à l’information elle-même et sa véracité.

Par rapport aux contenus IA, dans notre prototype Ibou Explorer, ce qui compte, ce n’est pas que le contenu soit généré par IA ou pas, mais s’il a un niveau tel qu’il aurait pu être écrit par un être humain. Nous allons donc plutôt qualifier si un contenu qui s’annonce journalistique s’appuie réellement sur les sources qu’un journaliste aurait utilisées, par exemple. On essaye de vérifier quel est le type de personne qui a écrit (en s’appuyant sur le niveau de langage, le type d’écriture, si la personne a écrit des articles dans des médias de confiance, etc). C’est des choses qu’on arrive à faire et qu’on peut utiliser.

Pour Ibou Explorer, c’est d’autant plus facile à faire qu’on est sur un nombre de sites qui est beaucoup plus petit. Il est donc beaucoup plus facile de comprendre quelles sont les sources de qualité et les autres. Sur le search à très grande échelle, il faut que nous industrialisions ce processus, ce qui coûte très très cher. Nous essayons en ce moment d’en réduire les coûts.

>> Mais il est difficile, pour le public, de comprendre quels paramètres permettront de discriminer…

C’est la vraie problématique. Nous voulons être transparents algorithmiquement. Nous allons donc communiquer certaines choses. Nous faisons des analyses sur le vocabulaire utilisé, on le compare au vocabulaire utilisé sur d’autres sites web, etc. Par exemple, pour le Monde, nous listons les contenus qu’il publie et statistiquement leurs caractéristiques. Ça crée ensuite des empreintes pour des classifieurs qui permettent de facilement repérer si des contenus sont susceptibles d’être les mêmes, s’en approchent, etc. C’est par des artifices statistiques que nous allons faire les choses, c’est le seul moyen d’automatiser.

Bien sûr, nous savons qu’il y a toujours moyen, en travaillant vraiment à publier des choses qui ressemblent à de bons articles. L’avantage, c’est que les gens qui font de la fake news publient en masse et ne travaillent pas bien un article unitairement, et il est donc possible de les repérer.

Les jugements humains d’invalidation, notamment pour la partie Ibou Explorer, ne viendront qu’a posteriori.

Mais il y a des mécanismes algorithmiques en plus sur lesquels nous ne pouvons pas être transparents, sinon les gens pourraient savoir comment passer outre. Par contre, nous allons mettre en place une interface, un peu comme la Google Search Console, où les gens pourront demander pourquoi telle ou telle page n’est pas dans Ibou. Et nous donnerons la qualification que nous en faisons (« il n’est pas de qualité pour telle ou telle raison », par exemple), sans pour autant expliquer comment nous l’avons fait.

Nous avons un système, par exemple, qui donne la probabilité qu’un contenu soit écrit par un humain, une IA ou un humain assisté d’une IA. Bien sûr, ça se trompe : il y a souvent des contenus écrits par des humains qui sont détectés comme générés par des IA parce que les humains ont mal écrit. On se trompe davantage dans ce sens, car il y a assez peu de gens qui font de bons contenus IA. Nous donnerons aussi un outil qui analysera le texte et qui donnera notre conclusion.

>> Ciblez-vous l’indexation du web francophone, anglophone ou carrément tout le web ?

Aujourd’hui, nous crawlons tout le web, même si nous avons priorisé le francophone et quelques langues des pays limitrophes à la France. Nous ferons ensuite toutes les langues qu’on peut faire : pour des raisons algorithmiques, certaines langues (indépendamment des marchés) sont difficiles, comme les langues asiatiques ou le finlandais. Le russe, nous ne l’indexons pas. Même dans Babbar, nous ne le crawlons plus, en ce moment : ça ne sert à rien puisqu’il n’y a plus de marché.

Nous n’avons pas vocation à nous limiter à notre marché domestique. Mais on va mettre une priorité sur les contenus européens, car notre public sera probablement européen, mais ça ne veut pas dire qu’on ne traitera pas les autres langues. On va simplement favoriser des contenus susceptibles d’être cherchés par nos utilisateurs.

>> Concernant la souveraineté, quelle est votre position ? Où seront installés vos serveurs ?

Je n’aime pas cet axe de la souveraineté qui est utilisé par beaucoup de mes camarades. Nous sommes plus souverains que quiconque. Nous avons des machines qui nous appartiennent en propre, physiquement. Nous les maintenons avec nos équipes en France et elles sont à Marcoussis dans le 91.

Nous n’utilisons pas de solution de cloud : nos modèles tourneront « on premise », ne serait-ce que pour des raisons économiques et écologiques. Ça n’a aucun sens d’utiliser du cloud, surtout aux États-Unis, pour faire ça. Nos données sont stockées en France. Enfin, pour garantir notre service, nous avons des machines que nous administrons chez deux opérateurs : OVH (en France et aux Pays-Bas) et Scaleway (en France). Nos capitaux sont tous français. Mais je dis plutôt « made in France » plutôt que « souverain ». Pour nous, ça coule de source, puisqu’on vit et on travaille ici.

>> Quelles ressources en temps et en argent sont nécessaires pour crawler le web maintenant et le sauvegarder ?

Beaucoup moins qu’avant. Moins pour nous que pour d’autres, mais ça demande quand même beaucoup de ressources. Crawler le web, ce n’est pas ce qui va demander le plus de ressources, mais c’est le stocker et l’indexer ensuite. Aujourd’hui, le crawler historique à l’origine de la technologie mise en place pour Babbar tourne sur six à huit serveurs et doit nous coûter pas plus de 15 000 euros par mois pour crawler quatre milliards de pages par jour.

Ce qui coûte très cher, c’est le stockage. Mais avec une infrastructure qui coûte à la louche un million d’euros, on a une infrastructure qui se situe dans les 15 premiers crawlers mondiaux et qui est largement capable de scrawler un index qui peut servir toute l’Europe. On a créé une énorme base de données.

Mais un moteur de recherche, c’est aussi des millions d’utilisateurs et les infrastructures de services coutent cher aussi. Il faut donc faire « scaler » le service, ce qui est uniquement proportionnel au nombre d’utilisateurs.

Tout ça, ce sont quelques millions d’euros maintenant, là où c’étaient des dizaines de millions il y a quelques années.

>> Quelle est modèle économique du projet Ibou ?

C’est le même que tout le monde. Il ne sera pas mis en avant dans un premier temps, mais ce sera un modèle lié à de la monétisation. C’est un modèle B2C, avec monétisation B2C standard et un peu de publicité, un peu d’affiliation, des fiches entreprises… Le nerf de la guerre, pour financer les opérations, ce sera essentiellement d’avoir du trafic. Comme Google, Bing, etc. Pour l’affiliation, la logique ne sera pas d’avoir un deal exclusif avec un programme d’affiliation en particulier, mais de faire des deals avec plusieurs programmes.

« Quelqu’un qui fait 20 ou 30 millions d’euros par an en France peut faire un moteur de recherche très rentable »

Nous débutons et on sait que ça coute cher d’entretenir un moteur, il faut quelques millions par an, mais ça ne coute pas le prix auquel voudraient nous faire croire les GAFAM. Il n’y a pas besoin de faire 10 milliards de bénéfices pour faire tourner un moteur de recherche. Quelqu’un qui fait 20 ou 30 millions d’euros par an en France peut faire un moteur de recherche très rentable.

>> Est-ce que vous assurerez à vos utilisateurs que leurs données seront protégées ?

Ayant travaillé chez Qwant, je ne sais pas qui est capable de donner une telle garantie. Je pense que c’est littéralement impossible. La donnée utilisateur que nous allons garder qui pourra intéresser le plus le RGPD, ce sera la donnée de personnalisation du Ibou Explorer, à travers un compte utilisateur et le consentement pour l’utiliser.

Mais elle ne sera pas utilisée par les algorithmes de pub, car ceux-ci n’en ont finalement pas besoin. Ils ont besoin juste de savoir ce sur quoi ils s’affichent. Et quand une page s’affiche, maintenant avec les LLM, c’est extrêmement simple de comprendre le contexte de la page. Avec des éléments de contexte suffisant, on peut faire de la pub qui est aussi performante que celle qui utilise l’information utilisateur. Donc pour la pub que nous opérerons nous-mêmes, il n’y aura pas de données utilisateur conservées et utilisées. Après quand on envoie quelqu’un chez un tiers, on ignore ce qui s’y passe.

>> Donc pas de système de traqueurs dans le modèle économique de Ibou ?

Non. Déjà, ce n’est pas notre vision. Et je pense que si on fait ça, on devient un aspirateur de données et on ne fait plus le même moteur. Si on devait faire ça, actuellement, on ferait plus un réseau social.

>> Le copyright et les droits voisins sont des questions sensibles quand on parle de moteur de recherche avec IA générative. Comment envisagez-vous la question ?

Nous envisageons la question verticale par verticale. Sur la partie Ibou Explorer, qui est la plus touchy (80 % des contenus viennent de médias), nous n’allons pas faire de résumé IA. Nous ne voulons pas nous approprier les contenus. Nous ne faisons que du renvoi de trafic vers les tiers, avec un mécanisme d’opt-out et des accords partenariaux.

Sur la partie search, il y aura aussi un mécanisme d’opt-out, car il y a des problématiques qu’on ne pourra jamais résoudre. Pour la partie présentation de l’information, nous voulons systématiquement renvoyer vers les sources. Par exemple, si quelqu’un demande « est-ce qu’il faut un visa pour aller dans tel pays ? », notre système va répondre « oui » ou « non », mais ne va pas donner plus d’informations. Il va, par exemple, répondre « Oui et tout est expliqué sur ce site » et c’est seulement si la personne demande d’aller plus loin sans passer par le site qu’on va donner plus d’informations. Nous voulons renvoyer au maximum vers les sources elles-mêmes.

Nous réfléchissons encore à un mécanisme pour reverser une partie des revenus associés aux réponses qui contiennent cette source, mais nous n’avons aucune idée encore de ce qu’on voudrait faire.

« La connaissance, c’est du ressort du moteur de recherche et des sources, pas du LLM »

>> Concernant la possibilité de régurgitation de contenus copyrightés, comment gérerez-vous ?

C’est un problème qui n’existera pas. Venant de l’IA, nous faisons partie des gens qui pensent que les LLM ne sont absolument pas autre chose qu’un outil d’écriture. Nous n’utiliserons pas d’information contenue dans le LLM. Ça change d’ailleurs tout pour nous, parce que nous n’avons pas besoin d’utiliser un LLM de très grande dimension comme ceux d’OpenAI ou à 500 milliards de paramètres. Ça n’a aucun intérêt de s’en servir, car s’ils ont autant de paramètres, c’est pour pouvoir s’en servir sur des questions qui nécessitent de la connaissance. C’est une profonde erreur.

La connaissance, c’est du ressort du moteur de recherche et des sources, pas du LLM. De tous les mastodontes qui existent devant nous, le seul qui est sur une approche à peu près similaire à la nôtre, c’est Perplexity. Mais ChatGPT et les autres font une profonde erreur : ils ne pourront jamais faire des bons outils de recherche, car ils sont persuadés que le LLM peut contenir du savoir et de l’information, ce qui n’est pas vrai. Ils n’ont pas été créés pour ça et on croit qu’ils en contiennent, car ils sont capables de broder un discours sur des bribes d’information qu’ils ont vues. Ce qui n’est pas du tout la même chose que d’avoir de l’information.

Tant qu’on ne va pas au-delà des transformers, la question est réglée par le fait qu’en réalité on a un moteur de recherche avec un index proche de ce qui se faisait avant, mais qui peut être facilement interfacé avec un LLM, qui lui va se contenter d’écrire les réponses. Chacun son rôle : le LLM comprend la langue, le moteur connaît l’information. Le LLM est un documentaliste qui sait utiliser un moteur de recherche et qui peut nous renvoyer vers les contenus pertinents.

C’est aussi le seul moyen de contrôler la véracité d’une information. Sinon, quand on fait confiance à un LLM pour donner une information, il y a toujours 5 à 10 % de taux d’erreur automatiquement.

>> Pourra-t-on utiliser les opérateurs de recherche comme site:, intitle: ou fileformat: ?

Le moteur grand public d’Ibou ne le permettra pas car c’est un moteur conversationnel et que nous n’indexons pas à proprement parler les pages web, mais les informations les plus importantes et une référence à la page. Ainsi, toute une partie des opérateurs devient inopérante, car on peut indexer le titre parce qu’on pense que c’est du contenu important sans pour autant stocker que c’est le titre.

Il y a aussi une API sur l’index qui existe et qu’on utilise pour faire le moteur. Ce n’est pas exclu qu’on permette à d’autres de pouvoir y accéder.

>> Pourquoi, maintenant, pensez-vous que c’est possible d’indexer le web alors que Qwant, pour lequel vous avez travaillé, a essuyé des problèmes pour le faire à l’époque ?

Dans Babbar, on indexe et on crawle déjà beaucoup plus que ce qui est nécessaire pour faire un moteur de recherche, car on vend de la data aux référenceurs. On doit vendre aussi de la data que les moteurs ne prennent pas en compte pour aider les SEO à comprendre pourquoi ils arrivent à se positionner et pourquoi ils n’y arrivent pas.

« Faire un index qui classe les bonnes pages dans les premières, c’est ça qui est difficile »

À Babbar, on a un index qui était de 2 000 milliards de pages, mais qui a beaucoup diminué pour lancer Ibou : on est maintenant à 1 400 milliards de pages sur la partie Babbar. Et même si ce n’est pas tout à fait les mêmes index puisqu’un moteur a besoin de plus de données mais sur moins de pages, on est sur des choses très similaires. Et faire un index, ce n’est pas un problème : on a déjà un index complet qui tourne avec des résultats de recherche. Mais même si on pense qu’on est déjà meilleurs que d’autres ne l’ont été précédemment, pour l’instant, on estime que notre projet n’est pas encore au niveau et on ne veut pas créer une mauvaise image alors qu’on est encore en train de travailler.

La seule vraie difficulté qu’il y avait avant, ce n’était pas la partie index – que nous avons résolue dans Babbar depuis longtemps –, mais qu’il fallait de la data utilisateur pour faire les choses. Faire un index qui contient les bonnes pages, ce n’est pas difficile, faire un index qui classe les bonnes pages dans les premières, c’est ça qui est difficile. Ce sont les fonctions de ranking.

Depuis 2005, ces fonctions n’étaient bonnes que s’il y avait une data utilisateur qui permettait de compenser tous les problèmes que les algorithmes ne sont pas capables d’arbitrer. C’est ce qu’on a vu dans le procès de Google : l’utilisation massive de la data comportementale des utilisateurs au niveau du moteur, c’est ça qui fait la qualité du moteur. Et Google est le plus fort, parce qu’il a beaucoup plus de données que Bing par exemple. Mais avec les LLM, il n’y a plus besoin de cette data pour faire quelque chose de bien, parce que le LLM peut simuler l’humain en grande partie et suffisamment bien pour faire les dernières étapes de tris.

Une fois que les algorithmes ont bien travaillé, il reste des scories : peut-être 10, 20 ou 30 % de l’index sont en tête et ne devraient pas, et c’est le LLM qui en enlève une grosse partie. Et en plus, quand on fait la synthèse des réponses, le LLM prenant plusieurs sources simultanément réussit à donner une réponse qui est bien meilleure que si on prenait chaque source indépendamment les unes des autres, en faisant comme l’être humain qui va lire plusieurs contenus pour faire sa propre opinion.

Pour en revenir à la question, cette dernière étape, qui était plus une étape de coût, est beaucoup plus facile à faire et la barrière de la data massive a complètement disparu.

>> Quelle est l’articulation entre Babbar et Ibou ?

C’est la même boite, les mêmes personnes. Nous espérons que tout va bien se passer pour nous, avec peut-être de l’aide de l’extérieur on ne sait pas encore, et qu’on va pouvoir recruter cette année. Par contre, ce sont des infrastructures techniques séparées parce que ce sont des outils qui n’ont pas du tout le même objectif. Donc algorithmiquement, c’est assez différent pour qu’il n’y ait aucun intérêt pour nous à ce que ce soient les mêmes plateformes.

Le crawler de Babbar est un crawler SEO, le crawler d’Ibou sera un moteur de recherche. Nous n’avons pas vocation à être autorisés à crawler de la même manière tous les sites selon le métier. Si on avait un crawler IA, ce serait encore une autre plateforme, car on ne peut pas mélanger les genres et que, pour être respectueux des gens, c’est ce qu’il faut faire. On veut aussi séparer parce que, aujourd’hui, notre activité est largement soutenue par notre activité SEO, mais on se doute qu’à un moment donné se posera la question de savoir si les deux activités doivent rester côte à côte ou pas.

>> Quand Ibou sera disponible ?

Pas avant un an. Pour les premières verticales, comme la partie Ibou Explorer (ndlr : l’équivalent de Google Discover), ça devrait arriver début 2026.

  •