↩ Accueil

Vue lecture

Pour son procès contre OpenAI, le New York Times va analyser les logs supprimés de ChatGPT

Pour son procès contre OpenAI, le New York Times va analyser les logs supprimés de ChatGPT

Dans l’affaire opposant le journal étasunien à l’entreprise d’IA générative, le New-York Times a obtenu la possibilité d’analyser tous les logs de ChatGPT afin de trouver d’éventuelles preuves de violation de copyright.

Aux États-Unis, le procès intenté par le New-York Times contre OpenAI pour violation de copyright continue depuis la plainte déposée en décembre 2023.

Le journal va finalement pouvoir fouiller dans les logs du Chatbot d’OpenAI à la recherche de preuves de violation du copyright des articles publiés sur son site, selon ArsTechnica.

En mai, le juge en charge de l’affaire a ordonné à OpenAI de préserver « tous les journaux de sorties qui devraient normalement être supprimés » et ce « jusqu’à nouvel ordre de la Cour ». Cela concerne toutes les données que l’entreprise d’IA générative supprime d’habitude, « que ces données soient supprimées à la demande d’un utilisateur ou en raison de « nombreuses lois et réglementations sur la protection de la vie privée » qui pourraient exiger qu’OpenAI le fasse », précisait-il.

L’entreprise avait publié un billet affirmant que cette décision allait « fondamentalement à l’encontre des engagements que [elle a] pris envers [ses] utilisateurs en matière de protection de la vie privée. Elle abandonne des normes de longue date en matière de respect de la vie privée ».

Un dilemme pour OpenAI

Si officiellement, OpenAI veut « continuer de se battre », la seule possibilité de contrer cette demande aurait de faibles chances d’aboutir, selon ArsTechnica. Le problème de l’entreprise d’IA générative est d’être prise dans un dilemme : soit elle continue la bataille et garde pendant longtemps des données qu’elle considère sensibles, soit elle laisse le journal accéder à certaines données de ses utilisateurs.

Pour autant, le New-York Times ne pourra pas accéder à l’entièreté de la base de données d’OpenAI. Les deux entreprises vont devoir se mettre d’accord sur un processus pour que le journal accède à certaines données qui lui permettent d’illustrer des cas manifestes d’infraction au copyright. Ainsi, l’équipe juridique du média devrait par exemple pouvoir faire des recherches sur certains mots clés ou certaines informations. De même, les données resteront sur les serveurs d’OpenAI et seront anonymisées.

À la recherche de preuves de concurrence déloyale

Rappelons que la plainte du New York Times concerne l’utilisation par OpenAI et Microsoft de millions de ses articles pour entraîner leur famille de grands modèles de langage (Large language models, LLM) GPT utilisée par ChatGPT, Bing Chat et Copilot. Elle accuse les entreprises de lui faire ainsi une concurrence déloyale en renvoyant les contenus de ses articles à leurs utilisateurs.

Le journal cherche donc dans les logs des preuves que le chatbot d’OpenAI est utilisé massivement pour accéder aux contenus dont il a le copyright. Toute cette histoire autour de l’accès aux journaux d’OpenAI pourrait permettre au New York Times d’argumenter contre la logique du fair use.

Celui-ci peut tenir face aux accusations d’utilisation de contenus copyrightés, comme le montrent deux décisions de la justice étasunienne récentes. Mais dans l’un de ces cas, l’un des juges a expliqué qu’à ses yeux, la concurrence déloyale pouvait être un argument « potentiellement gagnant ».

  •  

Pour son procès contre OpenAI, le New York Times va analyser les logs supprimés de ChatGPT

Pour son procès contre OpenAI, le New York Times va analyser les logs supprimés de ChatGPT

Dans l’affaire opposant le journal étasunien à l’entreprise d’IA générative, le New-York Times a obtenu la possibilité d’analyser tous les logs de ChatGPT afin de trouver d’éventuelles preuves de violation de copyright.

Aux États-Unis, le procès intenté par le New-York Times contre OpenAI pour violation de copyright continue depuis la plainte déposée en décembre 2023.

Le journal va finalement pouvoir fouiller dans les logs du Chatbot d’OpenAI à la recherche de preuves de violation du copyright des articles publiés sur son site, selon ArsTechnica.

En mai, le juge en charge de l’affaire a ordonné à OpenAI de préserver « tous les journaux de sorties qui devraient normalement être supprimés » et ce « jusqu’à nouvel ordre de la Cour ». Cela concerne toutes les données que l’entreprise d’IA générative supprime d’habitude, « que ces données soient supprimées à la demande d’un utilisateur ou en raison de « nombreuses lois et réglementations sur la protection de la vie privée » qui pourraient exiger qu’OpenAI le fasse », précisait-il.

L’entreprise avait publié un billet affirmant que cette décision allait « fondamentalement à l’encontre des engagements que [elle a] pris envers [ses] utilisateurs en matière de protection de la vie privée. Elle abandonne des normes de longue date en matière de respect de la vie privée ».

Un dilemme pour OpenAI

Si officiellement, OpenAI veut « continuer de se battre », la seule possibilité de contrer cette demande aurait de faibles chances d’aboutir, selon ArsTechnica. Le problème de l’entreprise d’IA générative est d’être prise dans un dilemme : soit elle continue la bataille et garde pendant longtemps des données qu’elle considère sensibles, soit elle laisse le journal accéder à certaines données de ses utilisateurs.

Pour autant, le New-York Times ne pourra pas accéder à l’entièreté de la base de données d’OpenAI. Les deux entreprises vont devoir se mettre d’accord sur un processus pour que le journal accède à certaines données qui lui permettent d’illustrer des cas manifestes d’infraction au copyright. Ainsi, l’équipe juridique du média devrait par exemple pouvoir faire des recherches sur certains mots clés ou certaines informations. De même, les données resteront sur les serveurs d’OpenAI et seront anonymisées.

À la recherche de preuves de concurrence déloyale

Rappelons que la plainte du New York Times concerne l’utilisation par OpenAI et Microsoft de millions de ses articles pour entraîner leur famille de grands modèles de langage (Large language models, LLM) GPT utilisée par ChatGPT, Bing Chat et Copilot. Elle accuse les entreprises de lui faire ainsi une concurrence déloyale en renvoyant les contenus de ses articles à leurs utilisateurs.

Le journal cherche donc dans les logs des preuves que le chatbot d’OpenAI est utilisé massivement pour accéder aux contenus dont il a le copyright. Toute cette histoire autour de l’accès aux journaux d’OpenAI pourrait permettre au New York Times d’argumenter contre la logique du fair use.

Celui-ci peut tenir face aux accusations d’utilisation de contenus copyrightés, comme le montrent deux décisions de la justice étasunienne récentes. Mais dans l’un de ces cas, l’un des juges a expliqué qu’à ses yeux, la concurrence déloyale pouvait être un argument « potentiellement gagnant ».

  •  

CC signals : Creative Commons propose un cadre pour l’utilisation des contenus par les IA

Creative Commons 2.0
CC signals : Creative Commons propose un cadre pour l’utilisation des contenus par les IA

L’association derrière les licences Creative Commons se lance dans les débats sur l’utilisation des contenus par les IA. Elle propose ce qu’elle appelle rien de moins qu’un « nouveau contrat social à l’ère de l’IA » : les CC Signals.

Creative Commons a récemment lancé un cadre pour permettre aux auteurs et autrices de contenus, que ça soit des images, des vidéos ou du texte, de spécifier comment ceux-ci peuvent être réutilisés par des machines, par exemple lors de l’entrainement de modèles d’IA générative.

Les licences Creative Commons sont devenues, au cours des années, une institution dans le paysage de l’internet. Les artistes comme les chercheurs ou les entreprises les ont adoptées. Mais elles ont été conçues dans un monde dans lequel les modèles de langage n’existaient pas.

Certaines entreprises d’IA générative n’ont pas hésité à entrainer leurs modèles en utilisant notamment des contenus sous la licence Creative Commons by-sa comme ceux de Wikipédia. Celle-ci pose pourtant des conditions pour la réutilisation des œuvres : l’attribution et le partage dans les mêmes conditions, même lorsqu’il s’agit d’une transformation.

Mais Creative Commons s’est bien rendu compte que les licences n’étaient pas l’outil approprié pour indiquer aux éventuels réutilisateurs ce que les auteurs les autorisent ou pas à faire de leurs contenus.

Quatre signaux pour affirmer les conditions de réutilisation par les machines

L’association a donc lancé un nouveau chantier : les CC Signals. La semaine dernière, elle y consacrait un billet de blog, qui explique notamment que « fondés sur les mêmes principes que ceux qui ont donné naissance aux licences CC et aux dizaines de milliards d’œuvres sous licence ouverte en ligne, les CC signals permettront aux détenteurs d’ensembles de données d’indiquer leurs préférences quant à la manière dont leur contenu peut être réutilisé par des machines, sur la base d’un ensemble d’options limitées mais significatives, façonnées dans l’intérêt du public ».

Elle affirme que ce cadre est destiné à être à la fois un outil technique mais aussi légal, et une proposition sociale : « un appel à un nouveau pacte entre ceux qui partagent les données et ceux qui les utilisent pour entrainer des modèles d’IA ».

Pour l’instant, ce « nouveau pacte social » n’en est qu’à ses débuts. Dans son TL;DR, l’association admet que « c’est un défi extrêmement complexe et les enjeux sont énormes ». Dans son rapport [PDF] sur le sujet, elle détaille quatre ce qu’elle appelle des « signal elements » qu’elle a « conçus pour refléter les éléments essentiels du thème général de la réciprocité ». Ces éléments sont l’équivalent des conditions des licences Creative Commons :

Crédit : vous devez donner le crédit approprié en fonction de la méthode, des moyens et du contexte de votre utilisation.

Contribution directe : vous devez apporter un soutien financier ou en nature à la partie déclarante pour le développement et l’entretien des contenus, sur la base d’une évaluation de bonne foi tenant compte de votre utilisation des contenus et de vos moyens financiers.

Contribution à l’écosystème : vous devez apporter une aide financière ou en nature à l’écosystème dont vous bénéficiez, sur la base d’une évaluation de bonne foi tenant compte de l’utilisation que vous faites des contenus et de vos moyens financiers.

Ouverture : le système d’IA utilisé doit être ouvert. Par exemple, les systèmes d’IA doivent satisfaire à la classe II du cadre d’ouverture des modèles (MOF), à la classe I du MOF ou à la définition de l’IA à source ouverte (OSAID).

Implémentation dans les fichiers robots.txt et les headers HTTP

L’association indique que tout cela reste encore au stade de brouillon et n’est donc pas gravé dans le marbre. Concernant la contribution directe, elle précise que l’idée des CC signals ne doit pas être vue comme un outil sur lequel faire reposer un modèle économique « ni même comme un moyen de récupérer les coûts de manière fiable ».

Sur la contribution à l’écosystème, elle souligne que, « bien que la formulation initiale soit très ouverte, [elle espère et attend] que des normes, des bonnes pratiques et même de nouvelles structures collectives se développent autour de cette notion dans différents secteurs et pour différents types de réutilisations ».

Comme pour les licences, les signaux CC peuvent être combinés. Pour l’instant, l’association a imaginé quatre combinaisons possibles :

  • Crédit
  • Crédit + contribution directe
  • Crédit + contribution à l’écosystème
  • Crédit + ouverture

Pour l’implémentation, Creative Commons a partagé ses réflexions sur GitHub. Pour l’instant, l’idée serait d’insérer les signaux dans le fichier robots.txt et dans l’en-tête HTTP Content-Usage.

Dans le robots.txt, on pourrait avoir une déclaration du genre :

User-Agent: *
Content-Usage: ai=n;exceptions=cc-cr
Allow: /

Et le header HTTP pourrait ressembler à :

200 OK
Date: Mon, 09 Jun 2025 12:42:03 UTC
Content-Type: text/plain
Content-Usage: genai=n;exceptions=cc-cr-ec

Pas besoin de signal Creative Commons si on ne veut pas du tout partager avec les IA

Dans son billet, l’association se disait ouverte aux critiques. Une semaine après, celles-ci semblent avoir été massives, puisqu’elle a publié un billet de mise à jour pour faire le point. Les griefs porteraient notamment sur le fait que Creative Commons mette le pied dans la gestion de l’utilisation des contenus par les entreprises d’IA.

Dans son nouveau billet, l’association s’est sentie obligée de préciser qu’elle pense « que les pratiques actuelles des entreprises d’IA constituent une menace pour l’avenir des biens communs ». « Ce sentiment ne nous surprend pas » affirme l’association, « nous le ressentons également. En fait, c’est la raison pour laquelle nous réalisons ce projet ».

Elle ajoute que « de nombreux créateurs et communautés de la connaissance se sentent trahis par la manière dont l’IA est développée et déployée. Le résultat est que les gens se tournent, à juste titre, vers la fermeture ». Et commente : « à terme, nous craignons que les gens ne veuillent plus du tout partager publiquement ».

Elle précise donc que « les créateurs qui souhaitent sortir totalement de la réutilisation par les machines n’ont pas besoin d’utiliser un signal CC. Les signaux CC sont destinés à ceux qui veulent continuer à partager, mais avec certaines conditions ».

  •  

CC signals : Creative Commons propose un cadre pour l’utilisation des contenus par les IA

Creative Commons 2.0
CC signals : Creative Commons propose un cadre pour l’utilisation des contenus par les IA

L’association derrière les licences Creative Commons se lance dans les débats sur l’utilisation des contenus par les IA. Elle propose ce qu’elle appelle rien de moins qu’un « nouveau contrat social à l’ère de l’IA » : les CC Signals.

Creative Commons a récemment lancé un cadre pour permettre aux auteurs et autrices de contenus, que ça soit des images, des vidéos ou du texte, de spécifier comment ceux-ci peuvent être réutilisés par des machines, par exemple lors de l’entrainement de modèles d’IA générative.

Les licences Creative Commons sont devenues, au cours des années, une institution dans le paysage de l’internet. Les artistes comme les chercheurs ou les entreprises les ont adoptées. Mais elles ont été conçues dans un monde dans lequel les modèles de langage n’existaient pas.

Certaines entreprises d’IA générative n’ont pas hésité à entrainer leurs modèles en utilisant notamment des contenus sous la licence Creative Commons by-sa comme ceux de Wikipédia. Celle-ci pose pourtant des conditions pour la réutilisation des œuvres : l’attribution et le partage dans les mêmes conditions, même lorsqu’il s’agit d’une transformation.

Mais Creative Commons s’est bien rendu compte que les licences n’étaient pas l’outil approprié pour indiquer aux éventuels réutilisateurs ce que les auteurs les autorisent ou pas à faire de leurs contenus.

Quatre signaux pour affirmer les conditions de réutilisation par les machines

L’association a donc lancé un nouveau chantier : les CC Signals. La semaine dernière, elle y consacrait un billet de blog, qui explique notamment que « fondés sur les mêmes principes que ceux qui ont donné naissance aux licences CC et aux dizaines de milliards d’œuvres sous licence ouverte en ligne, les CC signals permettront aux détenteurs d’ensembles de données d’indiquer leurs préférences quant à la manière dont leur contenu peut être réutilisé par des machines, sur la base d’un ensemble d’options limitées mais significatives, façonnées dans l’intérêt du public ».

Elle affirme que ce cadre est destiné à être à la fois un outil technique mais aussi légal, et une proposition sociale : « un appel à un nouveau pacte entre ceux qui partagent les données et ceux qui les utilisent pour entrainer des modèles d’IA ».

Pour l’instant, ce « nouveau pacte social » n’en est qu’à ses débuts. Dans son TL;DR, l’association admet que « c’est un défi extrêmement complexe et les enjeux sont énormes ». Dans son rapport [PDF] sur le sujet, elle détaille quatre ce qu’elle appelle des « signal elements » qu’elle a « conçus pour refléter les éléments essentiels du thème général de la réciprocité ». Ces éléments sont l’équivalent des conditions des licences Creative Commons :

Crédit : vous devez donner le crédit approprié en fonction de la méthode, des moyens et du contexte de votre utilisation.

Contribution directe : vous devez apporter un soutien financier ou en nature à la partie déclarante pour le développement et l’entretien des contenus, sur la base d’une évaluation de bonne foi tenant compte de votre utilisation des contenus et de vos moyens financiers.

Contribution à l’écosystème : vous devez apporter une aide financière ou en nature à l’écosystème dont vous bénéficiez, sur la base d’une évaluation de bonne foi tenant compte de l’utilisation que vous faites des contenus et de vos moyens financiers.

Ouverture : le système d’IA utilisé doit être ouvert. Par exemple, les systèmes d’IA doivent satisfaire à la classe II du cadre d’ouverture des modèles (MOF), à la classe I du MOF ou à la définition de l’IA à source ouverte (OSAID).

Implémentation dans les fichiers robots.txt et les headers HTTP

L’association indique que tout cela reste encore au stade de brouillon et n’est donc pas gravé dans le marbre. Concernant la contribution directe, elle précise que l’idée des CC signals ne doit pas être vue comme un outil sur lequel faire reposer un modèle économique « ni même comme un moyen de récupérer les coûts de manière fiable ».

Sur la contribution à l’écosystème, elle souligne que, « bien que la formulation initiale soit très ouverte, [elle espère et attend] que des normes, des bonnes pratiques et même de nouvelles structures collectives se développent autour de cette notion dans différents secteurs et pour différents types de réutilisations ».

Comme pour les licences, les signaux CC peuvent être combinés. Pour l’instant, l’association a imaginé quatre combinaisons possibles :

  • Crédit
  • Crédit + contribution directe
  • Crédit + contribution à l’écosystème
  • Crédit + ouverture

Pour l’implémentation, Creative Commons a partagé ses réflexions sur GitHub. Pour l’instant, l’idée serait d’insérer les signaux dans le fichier robots.txt et dans l’en-tête HTTP Content-Usage.

Dans le robots.txt, on pourrait avoir une déclaration du genre :

User-Agent: *
Content-Usage: ai=n;exceptions=cc-cr
Allow: /

Et le header HTTP pourrait ressembler à :

200 OK
Date: Mon, 09 Jun 2025 12:42:03 UTC
Content-Type: text/plain
Content-Usage: genai=n;exceptions=cc-cr-ec

Pas besoin de signal Creative Commons si on ne veut pas du tout partager avec les IA

Dans son billet, l’association se disait ouverte aux critiques. Une semaine après, celles-ci semblent avoir été massives, puisqu’elle a publié un billet de mise à jour pour faire le point. Les griefs porteraient notamment sur le fait que Creative Commons mette le pied dans la gestion de l’utilisation des contenus par les entreprises d’IA.

Dans son nouveau billet, l’association s’est sentie obligée de préciser qu’elle pense « que les pratiques actuelles des entreprises d’IA constituent une menace pour l’avenir des biens communs ». « Ce sentiment ne nous surprend pas » affirme l’association, « nous le ressentons également. En fait, c’est la raison pour laquelle nous réalisons ce projet ».

Elle ajoute que « de nombreux créateurs et communautés de la connaissance se sentent trahis par la manière dont l’IA est développée et déployée. Le résultat est que les gens se tournent, à juste titre, vers la fermeture ». Et commente : « à terme, nous craignons que les gens ne veuillent plus du tout partager publiquement ».

Elle précise donc que « les créateurs qui souhaitent sortir totalement de la réutilisation par les machines n’ont pas besoin d’utiliser un signal CC. Les signaux CC sont destinés à ceux qui veulent continuer à partager, mais avec certaines conditions ».

  •  

☕️ Les chercheurs pourront bientôt accéder aux données des très grandes plateformes

La Commission européenne vient de mettre en ligne le portail d’accès aux données du DSA qui permet aux chercheurs de demander un accès aux données des très grandes plateformes en ligne.

En effet, l’article 40 du règlement sur les services numériques (DSA) adopté fin 2022 prévoit un mécanisme permettant aux chercheurs d’accéder aux données des plateformes comme X, Google, TikTok, l’App Store qui sont listées par la Commission.

IA Act

La Commission a adopté ce 2 juillet l’acte délégué qui précise les modalités permettant aux chercheurs d’y accéder. Ils pourront analyser l’impact de ces plateformes sur leurs utilisateurs et sur les débats au sein de l’Union européenne, par exemple. Ce texte permet de palier la fermeture des api gratuites que proposaient il y a quelques années des plateformes comme Twitter tout en élargissant le spectre d’analyse à toutes les très grandes plateformes.

L’acte délégué adopté prévoit que les chercheurs demandent un agrément sur le portail d’accès aux données du DSA. Cette demande sera évaluée par l’un des coordonnateurs des services numériques. En France, c’est l’Arcom qui a été désigné comme tel.

Dans un communiqué, celle-ci affirme qu’elle « entend œuvrer à la pleine appropriation de ce nouveau mécanisme par les chercheurs ».

  •  

☕️ Les chercheurs pourront bientôt accéder aux données des très grandes plateformes

La Commission européenne vient de mettre en ligne le portail d’accès aux données du DSA qui permet aux chercheurs de demander un accès aux données des très grandes plateformes en ligne.

En effet, l’article 40 du règlement sur les services numériques (DSA) adopté fin 2022 prévoit un mécanisme permettant aux chercheurs d’accéder aux données des plateformes comme X, Google, TikTok, l’App Store qui sont listées par la Commission.

IA Act

La Commission a adopté ce 2 juillet l’acte délégué qui précise les modalitésqui permet aux chercheurs d’y accéder. Ils pourront analyser l’impact de ces plateformes sur leurs utilisateurs et sur les débats au sein de l’Union européenne, par exemple. Ce texte permet de palier la fermeture des api gratuites que proposaient il y a quelques années des plateformes comme Twitter tout en élargissant le spectre d’analyse à toutes les très grandes plateformes.

L’acte délégué adopté prévoit que les chercheurs demandent un agrément sur le portail d’accès aux données du DSA. Cette demande sera évaluée par l’un des coordonnateurs des services numériques. En France, c’est l’Arcom qui a été désigné comme tel.

Dans un communiqué, celle-ci affirme qu’elle « entend œuvrer à la pleine appropriation de ce nouveau mécanisme par les chercheurs ».

  •  

Google a multiplié par 2 sa consommation électrique entre 2020 et 2024

Google a multiplié par 2 sa consommation électrique entre 2020 et 2024

En 2024, la consommation électrique du géant du numérique a encore augmenté par rapport à 2023. On ne constate toujours pas de plateau de consommation depuis l’avènement des modèles de langage, mais plutôt une augmentation constante des besoins en énergie de Google.

Google, comme ses concurrents Meta ou Microsoft, consomme toujours plus d’énergie d’année en année. L’entreprise a publié la semaine dernière son dernier rapport « environnemental » détaillant notamment sa consommation énergétique. Comme le relève Techcrunch, Google a doublé sa consommation en électricité entre 2020 et 2024.

En 2024, Google a consommé 32 179 900 MWh d’électricité

Dans un récent article sur les consommations des géants du Net en eau et électricité, nous avions rappelé qu’en 2020 la dépense électrique de Google/Alphabet était de 15 592 000 MWh. En 2024, selon ce nouveau rapport environnemental de l’entreprise, sa consommation électrique est de 32 179 900 MWh.

Depuis des années, la consommation électrique de Google vient essentiellement de ses data centers. C’est, sans surprise, encore le cas en 2024 avec 95,8 % de sa consommation qui vient des besoins de ses centres de données. Avec un petit calcul sur les récents chiffres publiés par Google, Techcrunch montre que les data centers de l’entreprise consomment 7 fois plus d’électricité qu’en 2014. Et l’entreprise dirigée par Sundar Pichai ne semble pas prévoir de plateau ou de baisse dans sa consommation.

L’espoir de la fusion ?

D’ailleurs, Google est à la recherche de solutions qui produisent de l’énergie le plus efficacement. Quitte à financer un projet comme celui de Commonwealth Fusion Systems. Comme son nom l’indique, cette entreprise étasunienne promet de créer des centrales de fusion nucléaire.

Pour rappel, c’est seulement en 2022 que des chercheurs du Laboratoire national Lawrence Livermore (LLNL) ont réussi à obtenir « la première réaction de fusion en laboratoire qui a produit plus d’énergie qu’il n’en a fallu pour la déclencher ». Mais l’expérience, dans sa globalité, était encore largement déficitaire, la fusion en elle-même affichant un gain de 1,5. Il faudrait un gain de 10 de façon robuste et répétitive « pour produire de l’énergie de manière économique et rentable », selon Daniel Vanderhaegen, directeur du Programme Simulation de la Direction des Applications Militaires (DAM) du CEA.

Ça n’empêche pas d’y croire pour Google, apparemment, puisque l’entreprise a pré-acheté à Commonwealth Fusion Systems 200 megawatts, expliquait CNN récemment. « C’est un signe de l’appétit des grandes entreprises technologiques pour une source pratiquement illimitée d’énergie propre, qui ne sera pas disponible avant plusieurs années », commentait notre consœur de CNN.

Google investit aussi dans le développement, par Commonwealth Fusion, d’un tokamak de démonstration. Cette technologie n’est pas neuve puisqu’elle a été inventée dans les années 1950 par les physiciens soviétiques Igor Tamm et Andreï Sakharov.

Aucune des deux entreprises n’a communiqué sur les montants investis tout en estimant que c’était « une étape majeure vers la commercialisation de la fusion ». C’est même « le plus grand accord d’achat pour la fusion » selon le CEO de Commonwealth Fusion, Bob Mumgaard. Il a quand même tempéré son propos en affirmant qu’ « il est difficile de dire exactement dans quelle mesure cela l’accélère », mais explique que ça permettra à son entreprise d’effectuer les développements de ses projets en parallèle plutôt qu’en séquentiel.

  •  

Google a multiplié par 2 sa consommation électrique entre 2020 et 2024

Google a multiplié par 2 sa consommation électrique entre 2020 et 2024

En 2024, la consommation électrique du géant du numérique a encore augmenté par rapport à 2023. On ne constate toujours pas de plateau de consommation depuis l’avènement des modèles de langage, mais plutôt une augmentation constante des besoins en énergie de Google.

Google, comme ses concurrents Meta ou Microsoft, consomme toujours plus d’énergie d’année en année. L’entreprise a publié la semaine dernière son dernier rapport « environnemental » détaillant notamment sa consommation énergétique. Comme le relève Techcrunch, Google a doublé sa consommation en électricité entre 2020 et 2024.

En 2024, Google a consommé 32 179 900 MWh d’électricité

Dans un récent article sur les consommations des géants du Net en eau et électricité, nous avions rappelé qu’en 2020 la dépense électrique de Google/Alphabet était de 15 592 000 MWh. En 2024, selon ce nouveau rapport environnemental de l’entreprise, sa consommation électrique est de 32 179 900 MWh.

Depuis des années, la consommation électrique de Google vient essentiellement de ses data centers. C’est, sans surprise, encore le cas en 2024 avec 95,8 % de sa consommation qui vient des besoins de ses centres de données. Avec un petit calcul sur les récents chiffres publiés par Google, Techcrunch calcule que les data centers de l’entreprise consomment 7 fois plus d’électricité qu’en 2014. Et l’entreprise dirigée par Sundar Pichai ne semble pas prévoir de plateau ou de baisse dans sa consommation.

L’espoir de la fusion ?

D’ailleurs Google est à la recherche de solutions qui produisent de l’énergie le plus efficacement. Quitte à financer un projet comme celui de Commonwealth Fusion Systems. Comme son nom l’indique, cette entreprise étasunienne promet de créer des centrales de fusion nucléaire.

Pour rappel, c’est seulement en 2022 que des chercheurs du Laboratoire national Lawrence Livermore (LLNL) ont réussi à obtenir « la première réaction de fusion en laboratoire qui a produit plus d’énergie qu’il n’en a fallu pour la déclencher ». Mais l’expérience, dans sa globalité, était encore largement déficitaire, la fusion en elle-même affichant un gain de 1,5. Il faudrait un gain de 10 de façon robuste et répétitive « pour produire de l’énergie de manière économique et rentable », selon Daniel Vanderhaegen, directeur du Programme Simulation de la Direction des Applications Militaires (DAM) du CEA.

Ça n’empêche pas d’y croire pour Google, apparemment, puisque l’entreprise a pré-acheté à Commonwealth Fusion Systems 200 megawatts, expliquait CNN récemment. « C’est un signe de l’appétit des grandes entreprises technologiques pour une source pratiquement illimitée d’énergie propre, qui ne sera pas disponible avant plusieurs années », commentait notre consœur de CNN.

Google investit aussi dans le développement, par Commonwealth Fusion, d’un tokamak de démonstration. Cette technologie n’est pas neuve puisqu’elle a été inventée dans les années 1950 par les physiciens soviétiques Igor Tamm et Andreï Sakharov.

Aucune des deux entreprises n’a communiqué sur les montants investis tout en estimant que c’était « une étape majeure vers la commercialisation de la fusion ». C’est même « le plus grand accord d’achat pour la fusion » selon le CEO de Commonwealth Fusion, Bob Mumgaard. Il a quand même tempéré son propos en affirmant qu’ « il est difficile de dire exactement dans quelle mesure cela l’accélère », mais explique que ça permettra à son entreprise d’effectuer les développements de ses projets en parallèle plutôt qu’en séquentiel.

  •  

☕️ Automattic a abandonné la migration de Tumblr vers WordPress

En aout 2024, Automattic avait annoncé vouloir migrer Tumblr sur le logiciel libre WordPress. Rappelons qu’Automattic est l’entreprise dirigé par Matthew Mullenweg, co-créateur du logiciel WordPress. Elle gère aussi la plateforme de blogs WordPress.com et a racheté Tumblr en 2019.

À l’époque, l’entreprise affirmait déjà que « ce ne sera pas facile. Tumblr héberge plus d’un demi-milliard de blogs. Il s’agit de l’une des plus grandes migrations techniques de l’histoire de l’internet. Certains pensent que c’est impossible. Mais nous disons : « défi accepté » ».

Il semble que le défi soit trop difficile, en tout cas pour l’instant. Comme l’a repéré Techcrunch, Matt Mullenweg a déclaré dans un podcast de Wired que cette migration était « en pause » pour une période indéfinie. « Ce que nous avons décidé, c’est de nous concentrer autant que possible sur les choses qui seront perceptibles pour les utilisateurs et que ces derniers demandent », a-t-il affirmé. « Il s’agissait davantage d’une question d’infrastructure, une sorte de grande ré-architecture. Je veux toujours le faire. C’est juste plus propre. Mais pour l’instant, nous n’y travaillons pas ».

Ce changement d’architecture aurait permis, entre autres, à Tumblr de profiter d’une compatibilité avec le fediverse, puisque WordPress a rapidement intégré ce protocole.

Matt Mullenweg a aussi confirmé que Tumblr n’était toujours pas rentable.

  •  

Cloudflare va bloquer les crawlers des IA par défaut

Humains, non-humains
Cloudflare va bloquer les crawlers des IA par défaut

La récupération sauvage de contenus en ligne pour entrainer les IA génératives va devenir plus compliquée. Cloudflare a décidé d’activer par défaut ses outils qui permettent de bloquer les bots des IA sur les sites de ses clients. L’entreprise teste en parallèle un programme permettant de les débloquer moyennant finance.

Face au sérieux problème créé par les crawlers d’IA sur l’accès aux sites web, Cloudflare vient d’annoncer qu’elle passait à l’offensive. Après avoir développé des outils pour les bloquer et avoir donné la possibilité de les utiliser gratuitement, l’entreprise passe à la vitesse supérieure en les activant par défaut sur tous les sites qui utilisent ses solutions.

Des sites qui vacillent à cause du trafic généré par les crawlers

Il faut dire que la question devient de plus en plus problématique pour les responsables de sites web. En passant très régulièrement sur les différentes pages à l’affût de la moindre information nouvelle, les crawlers mettent en péril de nombreux sites web, ceux de projets scientifiques, de logiciels libres et ont même de fortes répercussions sur les activités de Wikimédia.

Un trafic artificiel qui prend le pas sur le trafic humain

En plus de l’infrastructure que cette augmentation soudaine de trafic artificiel implique, les outils qui utilisent ces crawlers ont de moins en moins tendance à renvoyer de visiteurs réels aux sites. Le 19 juin, lors d’un événement organisé à Cannes par Axios, le CEO de Cloudflare, Matthew Prince expliquait cette rapide évolution.

Il y a 10 ans, pour un visiteur qui visitait un site depuis le moteur de recherche de Google, les robots de Google parcouraient 2 pages.

Il y a seulement six mois, selon lui, ce ratio était de :

  • 1 visiteur pour 6 pages parcourues par les robots de Google
  • 1 visiteur pour 250 pages parcourues par les robots d’OpenAI
  • 1 visiteur pour 6 000 pages parcourues par les robots d’Anthropic.

Mais, toujours selon Matthew Prince, maintenant ce ratio est passé à :

  • 1 visiteur pour 18 pages parcourues chez Google
  • 1 visiteur pour 1 500 pages parcourues chez OpenAI
  • 1 visiteur pour 60 000 pages parcourues chez Anthropic

Comme il le résume, « les gens ne lisent plus les notes de bas de page ».

Son entreprise a encore fait des mesures la semaine d’après (du 19 au 26 juin). Et ces chiffres ont encore gonflés. Dans un billet de blog publié ce mardi 1er juillet, elle montre que le ratio mesuré pour Anthropic était de 70 900 pages parcourues par les robots d’Anthropic pour un visiteur qui cliquait sur le lien vers l’article original.

Des outils par défaut et une option pour un blocage uniquement sur les pages comportant des pubs

Cloudflare explique dans un autre billet de blog qu’elle fournit maintenant deux outils pour ses clients. Le premier permet de gérer de façon fine la rédaction du fichier robots.txt qui indique aux différents robots s’ils peuvent ou pas parcourir le site et ses différentes sections. C’est une première étape, mais si le respect de ce fichier est une bonne pratique, les responsables de robots sans vergogne peuvent passer outre.

Le deuxième outil proposé par Cloudflare permet de bloquer le parcours du site par tous les robots. L’entreprise propose deux options : soit de bloquer les robots sur toutes les pages, soit de les bloquer seulement sur celles qui contiennent des publicités.

Une arme de négociation pour les éditeurs

Concernant la fiabilité du blocage, « je suis convaincu à 100 % que nous pouvons les empêcher d’accéder au contenu », a affirmé Matthew Prince au New York Times. Ajoutant, « et s’ils n’ont pas accès au contenu, leurs produits seront moins bons ». L’idée étant d’amener les entreprises d’IA génératives à négocier, notamment avec les éditeurs des sites les plus importants.

« Jusqu’à présent, les entreprises d’IA n’avaient pas besoin de payer pour obtenir des licences de contenu, car elles savaient qu’elles pouvaient les prendre sans conséquences », explique à Wired le CEO de The Atlantic. « Désormais, elles devront négocier, et cela deviendra un avantage concurrentiel pour les entreprises d’IA qui parviendront à conclure des accords plus nombreux et de meilleure qualité avec des éditeurs plus nombreux et de meilleure qualité ».

  •  

Un consortium serait prêt à racheter TikTok US

Tic, tac, tic, tac...
Un consortium serait prêt à racheter TikTok US

Donald Trump a annoncé ce week-end avoir trouvé un acheteur pour TikTok US alors que depuis janvier, il repousse le couperet de la loi spécialement votée pour que ByteDance abandonne sa filiale étasunienne. On en sait un peu plus sur le consortium qui s’est positionné.

« Nous avons un acheteur pour TikTok, au fait », a déclaré Donald Trump lors d’une interview à Fox News dimanche dernier. Cette annonce a quand même été ponctuée par le dirigeant étasunien : « Je pense que j’aurai probablement besoin de l’approbation de la Chine. Je pense que le président Xi le fera probablement ».

Des « personnes très riches »

Le 19 juin dernier, il avait encore accordé 90 jours de sursis à TikTok. Cinq mois et demi après la date fatidique du 19 janvier à laquelle une loi spéciale prévoyait que l’entreprise soit fermée si aucun rachat n’était effectué, TikTok est toujours détenue par l’entreprise chinoise ByteDance.

Dans cette interview, Donald Trump décrit les possibles acheteurs comme des « personnes très riches » mais affirme qu’il ne révèlera leurs noms que dans deux semaines, son unité de temps favorite comme le souligne le New York Times.

Le 19 juin, il avait présenté, dans un message publié sur son réseau social Truth (en anglais, la Vérité), une « première réflexion » sur le montage qui pourrait être mis en place : « une coentreprise entre les propriétaires actuels et/ou les nouveaux propriétaires, dans laquelle les États-Unis détiendraient 50 % des parts d’une coentreprise créée entre les États-Unis et l’acheteur de notre choix ».

Oracle en caution technique

Mais, selon Bloomberg, le consortium qui serait sur le point de racheter TikTok US est déjà connu : il inclurait notamment Oracle, le fonds d’investissement Blackstone et l’entreprise de capital-risque Andreessen Horowitz. Et ce groupe d’investisseurs ne serait pas nouveau dans cette histoire : il aurait déjà fait une offre en avril, mais celle-ci aurait été bloquée par les tensions commerciales entre les États-Unis et la Chine provoquées par les décisions du dirigeant étasunien à propos des droits de douane.

Dans le deal négocié à l’époque, toujours selon les sources de Bloomberg, il était prévu que ces nouveaux investisseurs prennent 50 % des activités de TikTok US. Les 50 % restants devaient quant à eux être répartis entre les actionnaires étasuniens déjà présents au capital de Bytedance, à hauteur de 30 %, le groupe chinois conservant les 20 % restants. Cet accord était compatible avec la loi votée expressément pour ce démantèlement. Oracle aurait une place significative en assurant notamment des garanties de sécurité pour les données des utilisateurs étasuniens.

Sur fond d’apaisement entre la Chine et les États-Unis

Interrogés par nos confrères, ni Oracle, ni ByteDance, ni TikTok n’ont voulu commenter. La Maison-Blanche se contente d’affirmer que les discussions avec la Chine se poursuivent « à un haut niveau » et que la nouvelle prolongation de 90 jours est bien là « pour continuer à travailler sur cet accord et s’assurer que TikTok reste en service pour le peuple américain ».

La nouvelle annonce pourrait cependant être la bonne. En effet, les tensions entre la Chine et les États-Unis sur les droits de douane semblent s’être apaisées, selon la chronologie publiée par le Time. Donald Trump a annoncé jeudi 26 juin que les deux pays avaient signé un accord sans pour autant en dévoiler les détails et, le lendemain, le ministère du commerce chinois a confirmé.

  •  

☕️ Microsoft va bientôt supprimer l’accès aux mots de passe dans son Authenticator

Début mai, Microsoft a annoncé qu’elle allait débarrasser son application Authenticator de la gestion des mots de passe.

Le calendrier était assez serré : depuis juin les utilisateurs de son application ne peuvent plus ajouter ou importer de nouveaux mots de passe ; à partir de juillet, la fonction autofill qui permet de remplir automatiquement les champs de mots de passe n’est plus active et les informations de paiement sont supprimées ; enfin, dès août, les utilisateurs ne pourront plus du tout accéder aux mots de passe qu’ils ont stockés dans l’application.

L’éditeur explique que les mots de passe ne seront pour autant pas perdus, étant synchronisés sur le compte Microsoft de l’utilisateur. L’entreprise n’abandonne en effet pas cette fonctionnalité, contrairement au stockage des informations de paiement, mais la bascule dans son navigateur Edge.

Pour celles et ceux qui voudraient passer vers une autre solution, Microsoft propose une solution pour exporter les mots de passe.

Microsoft Authenticator n’aura intégré la synchronisation des mots de passe que pendant 4 ans et demi. En effet, c’est en décembre 2020 que l’entreprise faisait la bascule inverse de Edge vers son application d’authentification.

  •  

La vision par ordinateur sert avant tout la surveillance (pas les voitures intelligentes)

Big Bro... AI
La vision par ordinateur sert avant tout la surveillance (pas les voitures intelligentes)

La vision par ordinateur, domaine de R&D super cool où les chercheurs et les ingénieurs aident à construire des voitures autonomes et à créer des moteurs de recherche d’images ? Des scientifiques montrent que la plupart des travaux se focalisent sur des thématiques de surveillance.

La vision par ordinateur (en anglais, computer vision) est souvent présentée aux étudiants comme un domaine fun et qui peut rendre service dans la vie de tous les jours. Par exemple, la présentation du livre (reconnu dans le milieu) « Computer Vision: Algorithms and Applications » de Richard Szeliski affirme qu’il décrit « des applications concrètes stimulantes où la vision est utilisée avec succès, à la fois dans des applications spécialisées telles que la recherche d’images et la navigation autonome, mais aussi pour des tâches amusantes et grand public que les étudiants peuvent appliquer à leurs propres photos et vidéos ».

Pourtant, l’actualité montre qu’elle est fréquemment utilisée pour la surveillance, notamment couplée à des caméras.

Une équipe de cinq chercheurs et chercheuses en informatique montre justement, dans un article publié dans la revue Nature, que la plupart des travaux dans ce domaine servent à mettre en œuvre des technologies de surveillance.

Des racines historiques dans la surveillance

« La vision par ordinateur fait référence à l’IA qui se concentre sur la mesure, l’enregistrement, la représentation et l’analyse du monde à partir de données visuelles telles que des images et vidéos », expliquent-ils. Ces chercheurs et chercheuses affirment qu’un flou est entretenu dans le domaine sur les réelles applications des recherches mises en place. Robotique, véhicules autonomes mais aussi design de nouvelles protéines, arts créatifs et modélisation sur le changement climatique sont souvent mis en avant.

Mais ils rappellent que les « racines historiques » du domaine se trouvent « dans la surveillance militaire et carcérale, où elle a été développée pour identifier des cibles et recueillir des renseignements dans des contextes de guerre, d’application de la loi et d’immigration ». Ils s’appuient notamment sur le livre « The Birth of Computer Vision » publié récemment par James E. Dobso.

Avant tout de l’analyse de données biométriques humaines

Mais où en est-on ? En analysant plus de 19 000 articles scientifiques du domaine et 23 000 brevets qui découlent de la recherche publiée entre 1990 et 2021, ils montrent qu’une part très importante est utilisée pour la surveillance.

Ainsi, la plupart des données analysées dans les articles de recherche font référence à des corps humains dans leur ensemble (37 %) ou à des parties du corps (31 %, notamment de l’analyse faciale). Et 17 % autres données se réfèrent à des informations sur des espaces utilisés par les humains (comme des maisons, des bureaux, des rues).

Sur le suivi du corps humain au sens large, les articles scientifiques et brevets ciblent « souvent des personnes en pleine activité quotidienne (par exemple, en marchant, en faisant des achats ou en participant à des événements de groupe), et les objectifs cités comprenaient la détection, le suivi et le comptage des corps, ainsi que la surveillance de la sécurité et la reconnaissance de l’activité humaine », expliquent les chercheurs.

En eux-mêmes, ces chiffres ne sont pas des preuves d’une utilisation massive de ce champ pour de la surveillance des humains. En effet, on peut argumenter, par exemple, que, dans le cas du véhicule autonome, la détection de piéton est importante. Mais l’est-elle beaucoup plus que la détection d’un autre véhicule ou d’un animal ?

Une augmentation de la proportion des brevets dans cette thématique

Mais l’analyse des brevets amène d’autres chiffres. On y voit par exemple une augmentation significative de la proportion des brevets permettant la surveillance depuis 1990. Mais aussi un changement de vocabulaire. Ainsi, les termes « identification » et « person » sont beaucoup plus utilisés dans les titres des articles publiés dans les années 2010 que dans les années 1990.

Dans leur article, les chercheurs expliquent qu’il y a une normalisation de la surveillance par IA dans le domaine et que celle-ci se fait notamment par l’influence des différents financeurs de la recherche.

En premier lieu, on voit que Microsoft est l’entité qui dépose le plus de brevets découlant de recherche dans le domaine. Et les trois quarts concernent des applications de surveillance. On retrouve un peu près la même proportion pour les dix plus importantes institutions qui financent le domaine.

Sur la répartition géographique, on peut constater que les institutions étasuniennes (entreprises comme universités ou état) sont les principaux financeurs de ce genre de brevets. La Chine apparait en deuxième position.

  •  

☕️ L’ANSSI et la CNIL lancent un projet de bibliothèque logicielle pour l’audit des modèles d’IA

PANAME, pour Privacy Auditing of AI Models. C’est le nom d’un nouveau projet visant à développer un outil pour auditer la confidentialité des modèles d’IA.

Lancée par la CNIL en partenariat avec l’ANSSI, mais aussi le Pôle d’expertise de la régulation numérique (PEReN) et le projet Ipop, l’idée est de fournir une bibliothèque logicielle « disponible toute ou partie en source ouverte, destinée à unifier la façon dont la confidentialité des modèles est testée », explique leur communiqué.

des petits lapins face à de multiples pièges et dangers sournois
Flock

Rappelons que le comité européen de la protection des données (CEPD) a publié en décembre 2024 un avis [PDF] sur le RGPD et les modèles d’IA. Dans celui-ci, il précise que les développeurs de modèles doivent mettre en place des procédures pour « empêcher ou limiter la collecte des données à caractère personnel utilisées pour l’entrainement, pour réduire leur identifiabilité, pour empêcher leur extraction ou pour donner l’assurance que l’état de l’art résiste aux attaques ».

PANAME devrait donc être une réserve d’outils à ces fins.

Les rôles des quatre partenaires se répartissent ainsi :

  • le PEReN sera principalement en charge du développement de la bibliothèque ;
  • l’ANSSI apportera son expertise cyber, notamment sur les contextes d’attaques sur les systèmes informatiques ;
  • Le Projet IPoP assurera la direction scientifique du projet ;
  • La CNIL assurera le pilotage du projet ainsi que le cadrage juridique.
  •  

Le CNRS veut guider l’expression publique de ses chercheurs

Neutralité ? Intégrité ? Transparence ?
Le CNRS veut guider l’expression publique de ses chercheurs

Dans un contexte de critiques et parfois de défiance envers les chercheurs, le CNRS veut « outiller les scientifiques du CNRS qui souhaitent s’exprimer publiquement » en publiant un guide. Celui-ci apporte des conseils et contient la position de la direction du centre comme celle de son comité d’éthique.

Pour aider les personnels scientifiques dans leur prise de parole médiatique, le CNRS vient de publier un guide [PDF]. Dans un contexte de crise climatique, de pandémie de covid-19, d’accroissement des inégalités, de développement de l’intelligence artificielle ou des technologies de surveillance, la question de l’engagement public des chercheurs est prégnante. D’autant que les réseaux sociaux peuvent exacerber les tensions : on a vu qu’en facilitant la désinformation, Twitter a fait fuir scientifiques et défenseurs de l’environnement.

En juillet 2023, le comité d’éthique du CNRS (COMETS) publiait un avis dans lequel il insistait sur les « notions de fiabilité, de quête d’objectivité, d’intégrité et de rigueur de la démarche scientifique, et de transparence sur les valeurs » plutôt que sur celle de la neutralité. « Dans le respect de ces conditions, il n’y a aucune incompatibilité avec l’engagement public du chercheur », ajoutait-il.

Rappelons que le comité d’éthique y prenait position sur la place de la direction du centre dans ce genre de débat : « La direction du CNRS n’a pas vocation à s’immiscer dans ces questions qui relèvent au premier chef du débat scientifique entre pairs », affirmait-il. Il expliquait que, si le CNRS « prenait publiquement des positions normatives sur des sujets de société, le COMETS considère qu’il devrait respecter les règles qui s’appliquent aux chercheurs ».

Il y proposait aussi à la direction du CNRS d’« élaborer avec les personnels de la recherche un guide de l’engagement public » ainsi que des formations.

Un guide en co-construction

Deux ans après, ce guide est donc disponible. On y trouve le rappel du cadre juridique de l’expression publique des chercheurs, des « règles d’or », des conseils pour s’exprimer dans le débat public et interagir avec les journalistes, et des conseils en cas de cyberharcèlement. Le guide semble avoir été bâti en prenant en compte les positions de la direction du CNRS comme du COMETS, qui sont parfois en désaccord.

C’est le PDG du CNRS, Antoine Petit, qui y signe l’édito. « J’ai bien conscience que cette démarche pourrait être critiquée », explique-t-il. « Il nous est notamment souvent reproché de ne pas intervenir quand un scientifique du CNRS prend publiquement une position controversée (souvent sur un sujet polémique) », ajoute-t-il.

Il en profite donc pour répondre à ce reproche : « il est rare en effet que le CNRS le fasse. J’observe que lorsqu’un scientifique prend position, c’est le plus souvent au nom de son travail de recherche et de l’expertise qui en résulte. Je pense que notre guide doit aider tous les personnels du CNRS à trouver un juste équilibre entre la liberté d’expression des scientifiques, le devoir de rigueur qui s’impose à eux, la préservation de l’image de l’institution et la qualité du débat public ». Mais le guide contient aussi des extraits de l’avis du COMETS évoqué ci-dessus.

Transparence sur les liens d’intérêts

Ce document affirme que « l’honnêteté et l’impartialité dans le travail de recherche exigent que les scientifiques fassent preuve de transparence quant à leurs éventuels liens d’intérêts ». Il explique que ces liens « pourraient en effet introduire des biais dans la recherche, orienter les résultats et in fine créer un conflit avec la mission scientifique confiée de produire des connaissances de manière impartiale ».

Il ajoute que cette déclaration « concerne non seulement les liens financiers, mais aussi tous ceux qui sont susceptibles d’affecter l’impartialité des scientifiques dans la réalisation ou la communication de leurs recherches (participation financière dans une entreprise, consultation pour une entreprise, relation familiale, etc.) ».

Situer son propos

Dans ses règles d’or, outre la vérification des droits et obligations des chercheurs avant de s’exprimer, le guide conseille aux personnels scientifiques de considérer « l’impact de [leur] intervention pour le public, [leur] communauté, le CNRS et [eux]-mêmes » et de s’interroger sur « sur [leur] légitimité à [s’] exprimer en tant que scientifique, surtout si ce n’est pas dans [leur] champ de compétence ».

Il leur est aussi demandé de situer leur propos en indiquant « à chaque occasion [s’ils s’expriment] en tant que scientifique spécialiste de telle question, au nom de [leur] institution (en l’occurrence le CNRS) ou comme citoyen ou citoyenne dans un domaine plus ou moins éloigné de [leur] domaine d’expertise ».

Remarquons qu’être dans son domaine ou en dehors présente parfois une frontière poreuse : une chercheuse en cryptologie peut être tout à fait compétente pour parler d’algorithmie alors que ce n’est pas son domaine de publication.

Enfin, le guide donne quelques conseils en cas de cyberharcèlement, d’injure ou de diffamation. Il rappelle aussi que les agents publics ont accès à la « protection fonctionnelle » qui leur permet « d’être protégés par leur administration en cas d’attaques matériellement établies (diffamation, injure, cyberharcèlement, etc.) ou de poursuites civiles ou pénales liées à l’exercice de leurs fonctions ».

  •  

Reddit envisage de vérifier ses utilisateurs avec l’outil de scan d’iris de Sam Altman

Sam Altman des deux côtés de la bataille
Reddit envisage de vérifier ses utilisateurs avec l’outil de scan d’iris de Sam Altman

Alors que pendant les dernières années Reddit a parié sur l’IA générative, son co-fondateur Steve Huffman affirme vouloir sanctuariser le réseau social comme « clairement humain ». Et pour cela, il est prêt à utiliser le service de vérification biométrique World ID d’une startup co-créée par Sam Altman, le CEO d’OpenAI.

Reddit a du mal à se positionner depuis la vague de l’IA générative amorcée par l’arrivée de ChatGPT fin 2022. Source importante d’entrainement des grands modèles de langage (LLM) depuis le début, elle tâtonne entre l’opportunité d’appuyer son modèle économique sur cette vague et le danger de disparaitre, emportée par le tsunami des contenus générés par IA et de leur piètre qualité.

Surtout que les publicitaires y ont vu une opportunité pour apparaitre dans les résultats des IA génératives. Ainsi, le réseau social voit dans l’outil de vérification d’identité de World ID un moyen de se débarrasser des bots. Ironiquement, cette entreprise, créée autour d’un système biométrique qui scanne l’iris de ses utilisateurs, a été fondée par le CEO actuel de l’entreprise d’IA générative OpenAI, Sam Altman.

Reddit veut rester « clairement humain »

« Là où le reste de l’internet semble être alimenté, écrit ou résumé par l’intelligence artificielle, Reddit est clairement humain », affirme le CEO de la plateforme, Steve Huffman, au Financial Times : « c’est l’endroit où l’on va quand on veut entendre les gens, leurs expériences, leurs points de vue, leurs recommandations. Reddit est synonyme de communautés, de curation humaine, de conversation et d’authenticité ».

En effet, le réseau social a un problème avec le contenu généré par IA. Comme nous le racontions l’année dernière, de nombreuses entreprises essayent d’insérer de la publicité sur Reddit via des messages générés par IA. Des entreprises se sont même spécialisées dans la vente de publications de messages sur la plateforme.

Une lutte contre les messages générés par IA toujours d’actualité

La lutte engagée l’année dernière contre ce genre de publicité clandestine n’a pas atteint son but. En effet, le Financial Times rapporte que de nombreux responsables rencontrés lors du festival de la publicité à Cannes lui rapportent que les marques veulent se créer des comptes professionnels sur la plateforme, poster de nombreux commentaires, et ainsi augmenter la probabilité que leurs publicités apparaissent dans les réponses des chatbots.

En avril, Reddit a aussi envoyé une demande juridique à des chercheurs qui avaient lancé secrètement une expérimentation. Un avocat de Reddit a qualifié celle-ci d’ « inappropriée et hautement contraire à l’éthique ». En effet, ils ont créé plusieurs robots dont les profils étaient celui d’une personne ayant subi des agressions sexuelles, d’un conseiller en traumatologie ou encore d’un homme noir opposé à Black Lives Matter.

Une vérification par le scan de l’iris fourni par une entreprise de Sam Altman

En réaction, Steve Huffman assure que Reddit met en place un plan de vérifications strictes pour assurer les utilisateurs de la plateforme que seuls des humains puissent publier des messages sur ses canaux. Pour ça, Reddit envisage donc d’utiliser le scan de l’iris de ses utilisateurs pour s’assurer de leur humanité, un projet révélé par Semafor ce vendredi 20 juin.

Et ce scan de l’iris devrait se faire via le système de World ID, qui se présente comme une « une preuve anonyme d’humanité pour l’ère de l’IA ». Ironiquement, World ID est un service de World, une startup financée par Sam Altman et dont le but semble s’inspirer de celui de l’ « everything app » qu’Elon Musk espère atteindre avec X.

Au Financial Times, Steve Huffman déplore que ça soit « une course aux armements » depuis longtemps et une « bataille sans fin » dans laquelle est lancée Reddit depuis longtemps et dont l’IA n’est qu’une nouvelle étape.

Il relativise aussi le sujet en expliquant que le problème n’est pas nouveau : « Depuis 20 ans, nous luttons contre les personnes qui veulent être populaires sur Reddit », explique-t-il au Financial Times :

« Nous sommes très bien indexés dans les moteurs de recherche. Si vous voulez apparaître dans les moteurs de recherche, vous essayez d’être bien placé sur Reddit, et maintenant concernant les LLM, c’est pareil. Si vous voulez figurer dans les LLM, vous pouvez le faire par le biais de Reddit. »

  •  

noyb accuse Bumble de partager des données avec OpenAI sans consentement

Céder n’est pas consentir
noyb accuse Bumble de partager des données avec OpenAI sans consentement

L’application de rencontre Bumble a introduit une fonctionnalité appelée « brise-glace » (ou icebreaker) proposant des messages générés par IA en partenariat avec OpenAI. Problème pour noyb et l’utilisatrice qu’elle accompagne dans cette plainte, Bumble affiche un pop-up d’acceptation de cette fonctionnalité tant qu’elle n’est pas validée.

noyb, l’association de Max Schrems qui lutte pour la protection de la vie privée, a annoncé dans un communiqué ce jeudi 26 juin avoir déposé plainte auprès de la DPA (l’autorité de protection des données autrichienne) contre Bumble pour diverses violations du RGPD via sa fonctionnalité « Icebreaker ».

Bumble a été créée par Whitney Wolfe Herd, co-fondatrice de Tinder, entreprise qu’elle a quitté en 2014 en l’attaquant en parallèle pour discrimination et harcèlement sexuel.

Comme la plupart des entreprises du secteur du numérique, Bumble a cherché une manière d’introduire de l’IA dans son service. Fin 2023, l’entreprise ajoute une fonctionnalité nommée « Icebreaker » à la section « Bumble For Friends ».

Celle-ci, pensée pour les rencontres amicales, propose aux utilisateurs de l’application des messages pré-formatés pour les accompagner dans leurs discussions. Mais pour casser la glace entre ses utilisateurs, Bumble a signé un partenariat avec OpenAI.

Un dark pattern obligeant à accepter

Pour ça, explique noyb dans sa plainte [PDF], Bumble indique que les données du profil de l’utilisateur sont analysées par l’intelligence artificielle d’OpenAI, qui crée ensuite un message basé sur les données des deux protagonistes de la conversation.

Pour informer ses utilisateurs, Bumble affiche une pop-up dont le texte est : « L’IA brise la glace. Nous utilisons l’IA pour vous aider à démarrer la conversation. Cela vous permet de poser des questions qui correspondent aux informations du profil de nos membres », accompagné d’un bouton « Okay » et d’un lien vers une FAQ.

Pop-up de présentation de la fonction « Ice breaker » en allemand présent dans la plainte de noyb

Cette FAQ est qualifiée de « minimaliste » par l’association. Selon elle, son texte explique ce qu’est l’IA, que les données du profil sont utilisées par OpenAI pour créer des prompts. En fermant la FAQ, le pop-up réapparait. De même, il réapparait régulièrement à l’ouverture de l’appli et tant que l’utilisateur n’a pas cliqué sur le bouton « OK », mais n’est utilisable par un utilisateur dans une conversation que si les deux ont cliqué sur OK.

Consentement ou intérêt légitime ?

La fonctionnalité fournie par OpenAI ne tourne pas sur les serveurs de Bumble mais sur ceux de l’entreprise d’IA générative. Il faut donc que Bumble transmette ces données à OpenAI. Or, pour noyb, cette simple pop-up ne permet pas de recueillir le consentement des utilisateurs. C’est le principal reproche de la plainte de l’association contre l’entreprise : elle ne recueillerait pas le consentement qui lui est indispensable pour transmettre ces données à OpenAI.

Du côté de Bumble, l’entreprise a répondu à l’utilisatrice accompagnée par noyb qu’elle a « un intérêt légal à transmettre les données des utilisateurs à OpenAI afin de mettre la fonction Icebreaker à la disposition des utilisateurs ». Dans sa plainte, noyb suppose que l’entreprise veut dire par là qu’elle considère qu’elle a un intérêt légitime, au sens de l’article 6 du RGPD, pour transmettre ces données.

Dans la plainte, noyb soulève d’autres problèmes de compatibilité de Bumble avec le RGPD : le manque de transparence, le transfert de données sensibles à OpenAI sans base légale ainsi que le manque d’information sur les destinataires des données.

« Bumble impose ses fonctionnalités d’IA à des millions d’utilisateurs européens sans jamais leur demander leur consentement. Au lieu de cela, leurs données personnelles sont envoyées à OpenAI et introduites dans les systèmes d’IA de l’entreprise », résume Lisa Steinfeld, l’une des avocates de noyb.

Elle ajoute que « le fait que Bumble propose à ses utilisateurs de dire “Ok” aux IA Icebreakers est trompeur. Cela crée un faux sentiment de contrôle sur vos propres données. En réalité, Bumble prétend avoir un soi-disant intérêt légitime à utiliser vos données sans aucun consentement ».

  •  

Copyright : les entreprises d’IA gagnent plusieurs manches judiciaires, mais pas toutes

Copyright : les entreprises d’IA gagnent plusieurs manches judiciaires, mais pas toutes

Dans leurs procès respectifs, Meta et Anthropic ont vu leurs arguments validés sur plusieurs points importants contre des auteurs de livres qui les accusaient d’avoir enfreint leurs droits en utilisant leurs œuvres pour entrainer leurs modèles. Mais ces décisions ne figent pas de jurisprudence globale : dans les deux cas, les juges ont laissé des angles d’attaque possibles, dont notamment l’utilisation des bibliothèques clandestines pour accéder aux œuvres.

Coup sur coup, deux juges étasuniens ont rendu leur décision dans deux affaires opposant des entreprises d’IA génératives et des auteurs de livres sur des enjeux de violation de Copyright. Et coup sur coup, ils ont tranché en grande partie en faveur de ces entreprises.

Le droit d’entrainer sur des livres achetés et scannés

Lundi 23 juin, le juge du district nord de Californie William Alsup a rendu sa décision [PDF] sur le cas opposant Anthropic à l’autrice Andrea Bartz et les auteurs Charles Graeber et Kirk Wallace Johnson. Dans celle-ci, il affirme notamment qu’Anthropic avait le droit d’entrainer ses modèles sur les livres de ces auteurs qu’elle avait achetés en version papier puis scannés, considérant que « l’utilisation pour l’entrainement est incluse dans le fair use [usage raisonnable accepté par le droit étasunien] ». C’était l’argument principal de l’entreprise. Celle-ci considérait que l’entrainement permet de « transformer » l’œuvre sans s’y substituer. La jurisprudence du fair use prévoit notamment que dans ce cas, l’usage de l’œuvre est licite. Comme le souligne Wired, le juge a même commenté cette décision en affirmant que « la technologie en question était l’une des plus transformatrices que beaucoup d’entre nous verrons au cours de notre vie ».

Interrogé par nos confrères, l’avocat Chris Mammen du cabinet étasunien Womble Bond Dickinson affirme que cette décision sur le caractère transformateur de l’entrainement s’applique « même en cas de mémorisation importante ». Selon lui, le juge « a notamment rejeté l’argument selon lequel ce que font les humains lorsqu’ils lisent et mémorisent est différent de ce que font les ordinateurs lorsqu’ils entrainent un LLM ».

Par contre, le juge William Alsup n’avalise pas l’utilisation de bibliothèques clandestines par les entreprises d’IA pour collecter les livres numériques. « Anthropic a téléchargé plus de sept millions de copies pirates de livres, n’a rien payé et a conservé ces copies pirates dans sa bibliothèque même après avoir décidé qu’elle ne les utiliserait pas pour entraîner son IA (du tout ou plus jamais) », décrit-il, « les auteurs soutiennent qu’Anthropic aurait dû payer pour ces copies piratées ». Ici, William Alsup se dit en accord avec les auteurs des livres. Et il annonce dans ses conclusions : « Nous aurons un procès sur les copies pirates utilisées pour créer la bibliothèque centrale d’Anthropic et les dommages qui en découlent ».

Une concurrence déloyale non prouvée

Deux jours plus tard, dans le même district, le juge Vince Chhaabria rendait lui aussi sa décision [PDF] concernant l’affaire opposant Meta notamment à une douzaine d’auteurs dont celui de science-fiction Richard Kadrey. Celui-ci visait justement l’utilisation de bibliothèque clandestine par Meta pour entrainer ses modèles Llama. « La Cour n’a d’autre choix que d’accorder [son] jugement à Meta sur l’allégation des plaignants selon laquelle l’entreprise a violé la loi sur le copyright en entrainant ses modèles à l’aide de leurs livres », écrit-il.

Mais il ajoute que sa décision « confirme seulement que ces plaignants ont avancé les mauvais arguments et n’ont pas réussi à constituer un dossier à l’appui des bons arguments ». Notamment, ce juge fait remarquer qu’ « en ce qui concerne l’argument potentiellement gagnant, à savoir que Meta a copié leurs œuvres pour créer un produit qui inondera probablement le marché avec des œuvres similaires, entraînant une dilution du marché, les plaignants accordent à peine une attention particulière à cette question et ne présentent aucune preuve de la manière dont les résultats actuels ou attendus des modèles de Meta dilueraient le marché de leurs propres œuvres ».

Dans sa décision, le juge Chhaabria a aussi commenté celle de son collègue, expliquant que « le juge Alsup s’est fortement concentré sur la nature transformatrice de l’IA générative tout en balayant les préoccupations concernant le préjudice qu’elle peut infliger au marché des œuvres sur lesquelles elle est entraînée ».

Commentant la position du juge Alsup, selon laquelle « il ne s’agit pas du type de déplacement concurrentiel ou créatif qui relève de la loi sur le copyright », le juge Chhaabria affirme que « en ce qui concerne les effets sur le marché, l’utilisation de livres pour apprendre aux enfants à écrire n’est pas du tout comparable à l’utilisation de livres pour créer un produit qu’un seul individu pourrait utiliser pour générer d’innombrables œuvres concurrentes avec une fraction minuscule du temps et de la créativité que cela nécessiterait autrement. Cette analogie inopportune ne permet pas d’écarter le facteur le plus important de l’analyse du fair use ».

Le débat sur le fair use pour entrainer les IA est donc loin encore d’être refermé.

  •  

☕️ Vers une nouvelle législation européenne sur l’espace pour remplacer les droits nationaux

La Commission européenne a annoncé ce mercredi 25 juin avoir proposé une nouvelle législation qui couvrirait le secteur spatial. L’idée est de refonder cette partie du droit car « les règles européennes en matière d’espace sont actuellement fragmentées, avec de nombreuses approches nationales différentes », selon le communiqué de la commission. « Ce patchwork freine l’innovation, réduit la part de marché européenne et engendre des coûts supplémentaires », ajoute-t-elle.

Cette nouvelle législation harmoniserait donc le droit des pays de l’UE sur trois domaines : la sécurité dans l’espace, la résilience et l’environnement.

Espace et pollution : illustration parodiant une scène du film E.T avec un camion poubelle

Sur la sécurité, la commission met en avant le problème de la congestion des orbites, avec 11 000 satellites déjà dans l’espace et 50 000 autres à venir d’ici 10 ans. Mais aussi le problème des débris : « plus de 128 millions de débris circulent déjà dans l’espace, augmentant fortement le risque de collision », souligne-t-elle.

Quand la Commission parle de résilience, c’est pour évoquer l’augmentation des menaces cyber et des interférences électroniques qui ciblent les satellites mais aussi les stations terrestres et les liens de communications entre eux. « La législation européenne sur l’espace exigera donc de tous les opérateurs spatiaux qu’ils procèdent à des évaluations approfondies des risques tout au long du cycle de vie d’un satellite, en appliquant des règles de cybersécurité et de signalement des incidents adaptées au secteur spatial », affirme la commission.

Enfin, elle veut mettre en place des règles communes concernant la mesure des conséquences de cette industrie sur l’environnement. « Ces règles garantiront la cohérence des données vérifiées et encourageront l’innovation dans des domaines tels que l’entretien dans l’espace pour prolonger la durée de vie des satellites et réduire les débris », assure-t-elle.

« Le leadership de l’Europe dans l’espace doit être ancré dans la souveraineté, la sécurité et la prévoyance stratégique. Avec la loi européenne sur l’espace, nous prenons une mesure audacieuse pour garantir la résilience de notre infrastructure spatiale, renforcer notre écosystème d’innovation et assurer notre autonomie en matière de technologies essentielles pour les générations à venir », estime Henna Virkkunen, vice-présidente de la Commission européenne à la Souveraineté technologique, à la Sécurité et à la Démocratie.

  •  

Les datacenters d’IA sont aussi un enjeu de souveraineté

SouverainetAI
Les datacenters d’IA sont aussi un enjeu de souveraineté

Projet Stargate, multiples annonces d’implantations de data centers pour l’IA en France, l’année 2025 marque la volonté des décideurs économiques comme politiques d’accélérer l’installation d’énormes data centers à travers le monde consacrés à l’IA, que ça soit pour de l’entrainement ou de l’inférence. Des chercheurs constatent déjà des disparités importantes à travers le monde.

On l’a vu en février dernier à l’occasion du « Sommet pour l’action sur l’IA », la France veut accélérer l’installation de datacenters sur son territoire. Elle suit notamment le mouvement lancé par le projet américain « Stargate » qui s’appuie sur des centaines de milliards de dollars d’investissement. Les nations qui ont déjà investi dans l’IA projettent d’y investir encore plus massivement. Mais l’accès à ces infrastructures est déjà très inégal, constatent des chercheurs d’Oxford dont le New York Times a repéré les travaux.

La chercheuse Zoe Jay Hawkins et ses collègues ont mis en ligne sur la plateforme de preprints SSRN vendredi 20 juin un article (non relu par des pairs et pas encore accepté par une revue scientifique) qui fait le recensement des offres privées dans le monde de « régions de cloud » (des datacenters proches et interconnectés) accessibles au public.

Ce sont les infrastructures utilisées lorsqu’une entreprise achète un service de calculs dédiés à l’IA. Elle peut notamment choisir en fonction des puces utilisées, mais aussi de la région où se situent les data centers qu’elle va utiliser. Ces infrastructures peuvent être optimisées soit pour l’entrainement de modèles, soit pour leur inférence.

En faisant ce travail de recensement, ils ont voulu réfléchir sur la souveraineté des uns et des autres concernant la puissance de calculs pour l’IA. Ils précisent que cette notion de « souveraineté de calcul » peut s’aborder sous plusieurs niveaux : la juridiction qui couvre les data centers, les entreprises qui les possèdent et celles qui fournissent les puces.

Analyse de la répartition des neuf entreprises les plus importantes du secteur

Pour les États-Unis, la Chine et l’Europe, ils ont analysé la répartition des « régions de cloud » des trois plus importantes entreprises locales (recensement fait en novembre 2024).

Ces neuf entreprises ont mis en place 132 « régions de cloud » à travers le monde : 22 sont situées en Chine, 26 aux États-Unis et 27 en Europe.

Ces neuf géants mondiaux ont un rayonnement international (surtout les américains), mais n’assurent qu’un service minimum en Afrique et en Amérique du Sud.

Deux « régions de cloud » au Brésil (une pour l’entrainement, une pour l’inférence) et quatre en Afrique du Sud (deux pour l’entrainement, deux pour l’inférence), qui est le seul pays de son continent à en héberger.

Les chercheurs ont détaillé dans leur article pour chaque pays la répartition de ces trois puissances. Sans surprise, les entreprises étasuniennes dominent.

Les puces : le monopole NVIDIA pas prêt d’être ébranlé

Enfin, sur les puces, le constat est encore plus radical. Ce n’est d’ailleurs pas nouveau, comme nous l’expliquions dans notre antisèche sur la guerre froide des semi-conducteurs (USA vs Asie vs Europe). Les chercheurs rappellent que NVIDIA, entreprise étasunienne, domine 80 à 95 % du marché.

Ils font cependant remarquer que « certains fournisseurs chinois de cloud hyperscale ont introduit leurs propres modèles de puces d’accélération de l’IA en interne ». La Chine est pour rappel sous embargo américain concernant certaines puces, notamment les haut de gamme de NVIDIA. Le pays développe donc des alternatives en parallèle d’un marché noir.

Mais ça ne suffit pas pour faire bouger les lignes concernant ces « régions de cloud ». Ainsi, « sur les 132 régions […], seules six proposent des accélérateurs Huawei Ascend, dont trois régions en Chine et trois régions en France, à Singapour et aux Émirats arabes unis ».

Au final, 95,5 % de « régions de cloud » sont équipées avec des puces appartenant à des entreprises étasuniennes.

Enfin, dans leur analyse, les chercheurs font un tableau des pours et des contres le fait d’héberger ce genre de régions sur son territoire :

Notons dans les pours, par exemple, une faible latence et une bande passante efficace. Ils soulignent aussi la capacité à avoir un contrôle juridique sur les données. Ces régions pousseraient aussi le secteur privé à investir dans des énergies renouvelables.

Par contre, on peut aussi souligner une consommation importante de ressources de terrains, en énergie et en eau qui rentre en conflit direct avec la consommation domestique. Ils soulignent aussi que, si l’infrastructure est détenue par une entreprise étrangère, la dépendance du pays à cette infrastructure peut être utilisée comme une arme.

  •