L’IA ne raisonne pas comme un humain : la preuve par la couleur des bananes

Les chatbots d'intelligence artificielle peuvent fournir des réponses convaincantes, tout en demeurant largement incompris de l’intérieur. Pour déconstruire cette « boîte noire », des chercheurs d’Anthropic développent des méthodes d’interprétabilité mécaniste, qui cartographient certains mécanismes internes des modèles de langage.




















