↩ Accueil

Vue normale

Reçu aujourd’hui — 13 novembre 2025 1.1 🖥️ Technologie

Steam Machine, Steam Frame et nouveau Steam Controller : Valve présente sa collection 2026 !

Valve a sacrément bien joué le coup et très peu de choses ont fuité les jours précédant l'annonce, alors qu'on découvre que bien du monde était en réalité dans la confidence. C'est ainsi que, dans la quasi-surprise générale, l'entreprise a dévoilé hier, le 12 novembre 2025, trois nouveaux appareils...

Sony annonce une PS5 moins chère, mais uniquement au Japon

13 novembre 2025 à 13:10
ps5-digital-edition-825-go

Sony a profité de son "State of Play Japan" pour annoncer une nouvelle PS5. Il s'agit d'une Digital Edition 825 Go, vendue 55 000 yens (environ 300 €), qui sortira le 21 novembre 2025. Le hic ? Cette console moins chère est une exclusivité totale pour le marché japonais, où la PS5 peine face à Nintendo, et elle sera verrouillée par région.

IBM dévoile deux nouvelles puces quantiques pour atteindre la « suprématie quantique » d’ici 2026

13 novembre 2025 à 13:00

IBM accélère sa course vers la suprématie quantique avec la présentation de deux nouvelles puces, Nighthawk et Loon. Ces processeurs de nouvelle génération visent à atteindre – d’ici à peine la fin 2026 – le fameux « quantum advantage », soit la capacité d’un ordinateur quantique à résoudre des problèmes …

Lire la suite

Aimez KultureGeek sur Facebook, et suivez-nous sur Twitter

N'oubliez pas de télécharger notre Application gratuite iAddict pour iPhone et iPad (lien App Store)


L’article IBM dévoile deux nouvelles puces quantiques pour atteindre la « suprématie quantique » d’ici 2026 est apparu en premier sur KultureGeek.

L’Epic Games Store vous offre trois jeux cette semaine, c’est Noël avant l’heure

13 novembre 2025 à 13:00

N'oubliez pas d'aller faire un tour cette semaine sur l'Epic Games Store. La plateforme vidéoludique met à votre disposition trois jeux gratuits qui ne demandent qu'à être récupérés.

L’article L’Epic Games Store vous offre trois jeux cette semaine, c’est Noël avant l’heure est apparu en premier sur Toms Guide.

full

thumbnail

La fin de l’iPhone ultra-fin : peu d’espoir pour un successeur

13 novembre 2025 à 13:00

Quelques semaines seulement après le lancement de la nouvelle génération d'iPhone, Apple met apparemment fin aux plans de développement d'un successeur à l'iPhone Air. La production touche à sa fin et ceux qui veulent acheter ce modèle ultrafin ne devraient pas attendre longtemps.

Der Beitrag La fin de l’iPhone ultra-fin : peu d’espoir pour un successeur erschien zuerst auf nextpit.

La plupart des benchmarks de LLM ne s’appuient pas sur une méthode fiable

13 novembre 2025 à 12:41
Pseudoscience de la comparaison
La plupart des benchmarks de LLM ne s’appuient pas sur une méthode fiable

Les benchmarks de LLM pullulent mais aucun, ou presque, ne semble s’appuyer sur un travail réellement scientifique, analysent des chercheurs. Ils appellent à une plus grande rigueur.

À chaque publication d’un nouveau modèle pour l’IA générative, l’entreprise qui l’a conçu nous montre par des graphiques qu’il égale ou surpasse ses congénères, en s’appuyant sur des « benchmarks » qu’elle a soigneusement choisis.

Plusieurs études montraient déjà qu’en pratique, ces « bancs de comparaison » n’étaient pas très efficaces pour mesurer les différences entre les modèles, ce qui est pourtant leur raison d’être.

Un nouveau travail scientifique, mené par 23 experts, a évalué 445 benchmarks de LLM. Il a été mis en ligne sur la plateforme de preprints arXiv et sera présenté à la conférence scientifique NeurIPS 2025 début décembre.

Une faible majorité s’appuie sur une méthode théorique robuste

Déjà, une faible majorité (53,4 %) des articles présentant ces 445 benchmarks proposent des preuves de leur validité conceptuelle, expliquent les chercheurs. 35 % comparent le benchmark proposé à d’autres déjà existants, 32 % à une référence humaine et 31 % à un cadre plus réaliste, permettant de comprendre les similitudes et les différences.

Avant de mesurer un phénomène avec un benchmark, il faut le définir. Selon cette étude, 41 % des phénomènes étudiés par ces benchmarks sont bien définis, mais 37 % d’entre eux le sont de manière vague. Ainsi, quand un benchmark affirme mesurer l’ « innocuité » d’un modèle, il est difficile de savoir de quoi on parle exactement. Et même 22 % des phénomènes étudiés par ces benchmarks ne sont pas définis du tout.

16 % seulement utilisent des tests statistiques pour comparer les résultats

De plus, les chercheurs montrent que la plupart de ces benchmarks ne produisent pas des mesures valides statistiquement. Ainsi, 41 % testent exclusivement en vérifiant que les réponses d’un LLM correspondent exactement à ce qui est attendu sans regarder si elles s’en approchent plus ou moins. 81 % d’entre eux utilisent au moins partiellement ce genre de correspondance exacte de réponses. Mais surtout, seulement 16 % des benchmarks étudiés utilisent des estimations d’incertitude ou des tests statistiques pour comparer les résultats. « Cela signifie que les différences signalées entre les systèmes ou les affirmations de supériorité pourraient être dues au hasard plutôt qu’à une réelle amélioration », explique le communiqué d’Oxford présentant l’étude.

Enfin, les chercheurs expliquent qu’une bonne partie des benchmarks ne séparent pas bien les tâches qu’ils analysent. Ainsi, comme ils le spécifient dans le même communiqué, « un test peut demander à un modèle de résoudre un casse-tête logique simple, mais aussi lui demander de présenter la réponse dans un format très spécifique et compliqué. Si le modèle résout correctement le casse-tête, mais échoue au niveau du formatage, il semble moins performant qu’il ne l’est en réalité ».

« « Mesurer ce qui a de l’importance » exige un effort conscient et soutenu »

Dans leur étude, les chercheurs ne font pas seulement des constats. Ils ajoutent des recommandations. Ils demandent notamment à ceux qui établissent des benchmarks de définir clairement les phénomènes qu’ils étudient et de justifier la validité conceptuelle de leur travail.

Pour eux, les créateurs de benchmarks doivent s’assurer de « mesurer le phénomène et uniquement le phénomène » qu’ils étudient, de construire un jeu de données représentatif de la tâche testée et d’utiliser des méthodes statistiques pour comparer les modèles entre eux. Enfin, ils leur conseillent de mener, après avoir conçu leur benchmark, une analyse des erreurs « qui permet de révéler les types d’erreurs commises par les modèles », ce qui permet de comprendre en quoi le benchmark en question est réellement utile.

« En fin de compte, « mesurer ce qui a de l’importance » exige un effort conscient et soutenu de la part de la communauté scientifique pour donner la priorité à la validité conceptuelle, en favorisant un changement culturel vers une validation plus explicite et plus rigoureuse des méthodologies d’évaluation », concluent-ils.

« Les benchmarks sous-tendent presque toutes des affirmations concernant les progrès de l’IA », explique Andrew Bean, dans le communiqué, « mais sans définitions communes et sans mesures fiables, il devient difficile de savoir si les modèles s’améliorent réellement ou s’ils en donnent simplement l’impression ».

RETEX : Sapphire B850M Nitro+

Par :NHU9B
13 novembre 2025 à 12:19

Sapphire B850M Nitro+

Comme tout le monde, il nous arrive d’acheter des composants et mécaniquement, pas ce biais, nous nous retrouvons à les tester. Cependant, difficile dans ce cadre de les intégrer dans des protocoles de test, c’est pourquoi nous proposons un petit RETEX, un retour d’expérience lié à l’utilisation desdits composants. Cette fois-ci, nous allons nous concentrer […]

L’article RETEX : Sapphire B850M Nitro+ est apparu en premier sur Overclocking.com.

Fusion de trous noirs “impossible” : les scientifiques ont désormais une explication

13 novembre 2025 à 11:45

En 2023, les collaborations LIGO Scientific Collaboration-Virgo-KAGRA ont détecté un signal de fusion gravitationnelle baptisé GW231123, issu de deux trous noirs d’environ 137 et 103 fois la masse du Soleil. Le trou noir résultant — estimé à plus de 200 masses solaires — s’inscrit dans une zone dite …

Lire la suite

Aimez KultureGeek sur Facebook, et suivez-nous sur Twitter

N'oubliez pas de télécharger notre Application gratuite iAddict pour iPhone et iPad (lien App Store)


L’article Fusion de trous noirs “impossible” : les scientifiques ont désormais une explication est apparu en premier sur KultureGeek.

Moins, c’est plus ? Le Minimal Phone est disponible dès maintenant

13 novembre 2025 à 10:00

Le marché des smartphones est saturé, mais la plupart d'entre eux se ressemblent en termes de design et de fonctions. L'entreprise Minimal Company emprunte une autre voie. En faisant des concessions sur certains points, on est récompensé par plus de valeur ajoutées sur d'autres.

Der Beitrag Moins, c’est plus ? Le Minimal Phone est disponible dès maintenant erschien zuerst auf nextpit.

Apple lance Digital ID pour le passeport dans l'iPhone

13 novembre 2025 à 12:30
apple-digital-id-wallet-passeport

Avec Digital ID, les détenteurs de passeports américains vont pouvoir enregistrer une version numérique de leur document d'identité directement dans l'application Wallet d'Apple. Pour une présentation de cette identité avec l'iPhone ou l'Apple Watch.

❌