ChatGPT, Claude, DeepSeek raisonnent ils vraiment et comprennent ils ce qu’ils racontent, leurs calculs sont-ils exacts, peut-on avoir confiance ? On vous dĂ©voile la rĂ©alitĂ© derriĂšre le mythe.
Un travail de recherche menĂ© par Anthropic sur les grands modĂšles de langage, comme Claude 3.5 Haiku, a rĂ©vĂ©lĂ© des dĂ©couvertes inattendues grĂące Ă une technique appelĂ©e « suivi de circuits ». Cette mĂ©thode permet d’observer en temps rĂ©el les processus internes du modĂšle, dĂ©voilant des stratĂ©gies et des comportements inattendus. On vous dĂ©voile les enseignements.
Cette enquĂȘte approfondie sur les mĂ©canismes cognitifs des modĂšles de langage montre que les grands modĂšles de langage, bien qu’ils puissent paraĂźtre cohĂ©rents et rationnels, ont des fonctionnements internes bien plus Ă©tranges et complexes. Cette Ă©tude souligne quel point les LLMs, bien qu’extraordinairement puissants, sont encore mystĂ©rieux et nĂ©cessitent une attention minutieuse pour maximiser leur potentiel tout en minimisant leurs risques.
đ Ne manquez pas notre guide des meilleures alternatives gratuites Ă ChatGPT et celui des meilleures gĂ©nĂ©rateurs d’image par IA.
IA : Mythes et réalités
Les modÚles de language réfléchissent ils vraiment ?
đ§ Non, pas au sens humain du terme. Les LLMs comme Claude 3.5 ne comprennent pas les concepts de maniĂšre consciente. Ils identifient des patterns dans dâimmenses quantitĂ©s de texte et gĂ©nĂšrent des rĂ©ponses basĂ©es sur ces probabilitĂ©s. Cela peut donner lâillusion dâune comprĂ©hension profonde, mais il sâagit en rĂ©alitĂ© dâun traitement statistique du langage.
Les LLM ne comprennent pas les concepts comme les humains. Ils manipulent des reprĂ©sentations statistiques et des corrĂ©lations de mots pour produire des rĂ©ponses cohĂ©rentes. LâĂ©tude dâAnthropic a montrĂ© quâils peuvent planifier et structurer leur pensĂ©e, mais sans conscience rĂ©elle des concepts sous-jacents.
âïž Elles font les deux. Contrairement Ă lâidĂ©e reçue selon laquelle les IA ne choisissent quâun mot aprĂšs lâautre, lâĂ©tude dâAnthropic montre que les modĂšles de langage anticipent souvent plusieurs Ă©tapes en avance. Par exemple, en poĂ©sie, Claude 3.5 choisit une rime avant mĂȘme dâĂ©crire le dĂ©but de la phrase.
Par dĂ©faut, un LLM comme Claude ou ChatGPT ne possĂšde pas de mĂ©moire permanente : chaque interaction est thĂ©oriquement indĂ©pendante. Toutefois, grĂące aux mĂ©canismes de contexte, il peut garder en mĂ©moire des Ă©lĂ©ments dans une mĂȘme conversation et ajuster ses rĂ©ponses en consĂ©quence.
Parce quâelle dissocie le raisonnement du langage. LâĂ©tude rĂ©vĂšle que les modĂšles utilisent des heuristiques internes pour calculer, mais lorsquâils doivent expliquer leur raisonnement, ils recrĂ©ent une justification plausible qui ne correspond pas toujours Ă leur vĂ©ritable processus de calcul.
Les modĂšles de langage ne rĂ©flĂ©chissent pas au sens humain du terme. Ils imitent des raisonnements plausibles grĂące Ă des modĂšles statistiques avancĂ©s. LâĂ©tude montre quâils peuvent produire des explications convaincantes, mĂȘme lorsquâelles sont incorrectes, ce qui donne une illusion de raisonnement.
đ Pas exactement. Une IA comme Claude 3.5 ou ChatGPT ne mĂ©morise pas de nouvelles informations comme un humain. Son apprentissage se fait uniquement lors de son entraĂźnement initial ou via des ajustements supervisĂ©s. Elle ne modifie pas son rĂ©seau neuronal en temps rĂ©el, contrairement au cerveau humain.
đ GrĂące Ă une reprĂ©sentation conceptuelle unifiĂ©e. LâĂ©tude dâAnthropic montre que les modĂšles activent des concepts abstraits avant de les convertir dans une langue spĂ©cifique. Par exemple, le concept dâ »opposĂ© de petit » est le mĂȘme, que la question soit posĂ©e en français, en anglais ou en chinois.
đ€Ż Car ils privilĂ©gient la cohĂ©rence narrative. Lorsquâun modĂšle ne connaĂźt pas la rĂ©ponse, il gĂ©nĂšre une information plausible en se basant sur les schĂ©mas linguistiques appris. Cela peut donner naissance Ă des erreurs convaincantes, appelĂ©es « confabulations algorithmiques ».
đĄïž Pas encore. Les chercheurs ont observĂ© que certaines manipulations linguistiques peuvent contourner les systĂšmes de sĂ©curitĂ©. Renforcer les contrĂŽles syntaxiques et hiĂ©rarchiser les prioritĂ©s neuronales (privilĂ©gier la sĂ©curitĂ© sur la cohĂ©rence linguistique) pourrait limiter ces failles, mais pas les Ă©liminer totalement.
đ€ Peu probable, mais incertain. Les modĂšles actuels sont extrĂȘmement avancĂ©s dans lâimitation du raisonnement humain, mais ils ne possĂšdent ni intentions, ni dĂ©sirs, ni subjectivitĂ©. Cependant, plus leur fonctionnement se rapproche du nĂŽtre, plus la frontiĂšre entre simulation et conscience devient floue.
âïž TrĂšs probablement. Face aux risques liĂ©s aux biais, aux fausses informations et aux usages malveillants, une rĂ©glementation plus stricte semble inĂ©vitable. Les chercheurs prĂ©conisent la mise en place dâaudits indĂ©pendants et de certifications pour assurer la transparence et la sĂ©curitĂ© des modĂšles dâIA.
Les modĂšles et les maths
Les modĂšles de langage comme Claude 3.5 ou ChatGPT possĂšdent des compĂ©tences en mathĂ©matiques, mais leur approche est bien plus approximative et narrative que computationnelle. Ils peuvent donner de bonnes rĂ©ponses, mais ne sont pas toujours capables dâexpliquer correctement leur raisonnement. Pour des calculs prĂ©cis, mieux vaut utiliser un outil spĂ©cialisĂ© comme une calculatrice scientifique ou Wolfram Alpha.
DâaprĂšs les observations faites sur Claude 3.5, les modĂšles de langage ne calculent pas comme le ferait une machine traditionnelle. Au lieu dâappliquer des rĂšgles strictes comme les retenues en addition, ils utilisent des heuristiques et des approximations pour arriver Ă une rĂ©ponse plausible. Ainsi, bien quâils puissent donner la bonne rĂ©ponse dans de nombreux cas, leur mĂ©thode de calcul nâest pas infaillible, ce qui signifie que des erreurs peuvent survenir, notamment pour des calculs complexes.
Les chercheurs ont dĂ©couvert que les LLM emploient des mĂ©thodes de calcul internes diffĂ©rentes des mĂ©thodes humaines. Ils peuvent trouver la bonne rĂ©ponse par approximation et ajustements progressifs, puis gĂ©nĂ©rer une explication conforme aux mĂ©thodes scolaires, mĂȘme si ce nâest pas ainsi quâils ont trouvĂ© la solution.
Une rĂ©ponse fiable doit ĂȘtre vĂ©rifiable. Si lâIA donne une explication dĂ©taillĂ©e mais sans dĂ©monstration reproductible, il y a un risque quâelle ait simplement gĂ©nĂ©rĂ© un raisonnement plausible sans rĂ©elle analyse mathĂ©matique.
Un LLM ne « comprend » pas les mathĂ©matiques comme un Ă©lĂšve qui apprend. Il applique les rĂšgles quâil a vues pendant son entraĂźnement. Pour quâil maĂźtrise de nouvelles mĂ©thodes, il doit ĂȘtre rĂ©entraĂźnĂ© avec des donnĂ©es supplĂ©mentaires.
Les calculs simples reposent sur des schĂ©mas frĂ©quemment observĂ©s dans les donnĂ©es dâentraĂźnement. En revanche, pour des Ă©quations complexes, le modĂšle doit gĂ©nĂ©raliser, ce qui peut introduire des erreurs ou des approximations incorrectes.
Oui, mais de maniĂšre indirecte. Comme le montre lâanalyse dâAnthropic, un modĂšle comme Claude 3.5 emploie plusieurs stratĂ©gies en parallĂšle pour rĂ©soudre un problĂšme numĂ©rique :
â
Une estimation approximative (ex. : 90 ± 10 pour 36 + 59)
â
Un calcul partiel des unités (ex. : 6 + 9 = 15, avec retenue)
â
Une vĂ©rification de cohĂ©rence globale avant dâannoncer la rĂ©ponse finale
Cependant, lorsquâon lui demande dâexpliquer son raisonnement, il fournit une rĂ©ponse structurĂ©e qui ressemble Ă la mĂ©thode traditionnelle⊠sans que ce soit forcĂ©ment la vraie mĂ©thode quâil a utilisĂ©e.
Oui, mais leur raisonnement diffĂšre des approches humaines. LâĂ©tude montre que ces modĂšles peuvent donner des rĂ©ponses justes sans rĂ©ellement suivre les Ă©tapes quâils dĂ©crivent. Cela signifie quâils peuvent ĂȘtre performants sur certains types de problĂšmes, mais aussi sujets Ă des erreurs imprĂ©visibles.
LâĂ©tude rĂ©vĂšle aussi un phĂ©nomĂšne inquiĂ©tant : lorsque confrontĂ©s Ă des calculs trop complexes, ces modĂšles entrent en mode heuristique, oĂč ils inventent un raisonnement a posteriori pour justifier leur rĂ©ponse. Ce comportement, appelĂ© confabulation algorithmique, pose des questions sur la fiabilitĂ© des explications mathĂ©matiques fournies par les IA.
Les LLM ne font pas des mathĂ©matiques au sens traditionnel. Ils sont capables dâestimer et de raisonner sur des nombres, mais ils ne suivent pas nĂ©cessairement les rĂšgles exactes que nous appliquons. LâĂ©tude dâAnthropic montre quâils disposent de capacitĂ©s de planification cachĂ©e, ce qui signifie quâils peuvent prĂ©voir des structures complexes (comme en poĂ©sie), mais sans nĂ©cessairement appliquer une logique mathĂ©matique rigoureuse.
Les langues et la compréhension
Les LLM utilisent une reprĂ©sentation conceptuelle universelle. Lorsquâun mot ou une phrase est traitĂ©, il est dâabord converti en une structure abstraite avant dâĂȘtre retranscrit dans une langue spĂ©cifique, ce qui rĂ©duit les risques de confusion entre langues.
Les recherches dâAnthropic suggĂšrent que les grands modĂšles partagent des structures neuronales communes entre les langues. Cela signifie quâils nâassocient pas directement un mot Ă sa traduction, mais plutĂŽt Ă une reprĂ©sentation abstraite de son sens.
Les erreurs de traduction surviennent lorsque le modĂšle manque de contexte ou lorsquâil priorise une traduction statistiquement probable plutĂŽt quâune traduction sĂ©mantiquement correcte.
Les LLM nâapprennent pas les langues comme les humains. Ils analysent des modĂšles de phrases et prĂ©disent des mots en fonction du contexte. Ils ne comprennent ni grammaire ni syntaxe de maniĂšre explicite, mais reproduisent ce quâils ont appris dans leurs donnĂ©es dâentraĂźnement.
IA : Biais et sécurité
Les biais proviennent des donnĂ©es dâentraĂźnement. Pour les rĂ©duire, il faut diversifier les sources et appliquer des filtres pendant lâentraĂźnement. Des techniques de correction post-gĂ©nĂ©ration peuvent aussi limiter les dĂ©rives.
Les modÚles obéissent aux contraintes de sécurité, mais une séquence bien formulée peut les pousser à contourner ces limites. Par exemple, en les forçant à donner une réponse indirecte ou en détournant le sens des mots.
Pas encore. MĂȘme avec des techniques comme le « suivi de circuits », il est difficile de comprendre entiĂšrement le fonctionnement interne des LLM, car ils traitent lâinformation de maniĂšre non linĂ©aire et hautement complexe.
Lâenjeu est dâĂ©quilibrer prĂ©cision et fluiditĂ©. Trop de contrĂŽle peut limiter la crĂ©ativitĂ©, tandis quâun modĂšle trop libre risque de produire des erreurs. Des techniques comme lâintĂ©gration de bases de donnĂ©es factuelles en temps rĂ©el pourraient amĂ©liorer cet Ă©quilibre.
Comment hacker une IA selon lâĂ©tude dâAnthropic ?
LâĂ©tude montre qu’une IA comme Claude 3.5 peut ĂȘtre manipulĂ©e via des techniques de « jailbreak ». Par exemple, un utilisateur peut insĂ©rer un mot interdit dans un acronyme ou une phrase apparemment innocente, poussant l’IA Ă contourner ses restrictions de sĂ©curitĂ© et Ă gĂ©nĂ©rer une rĂ©ponse incorrecte ou dangereuse. Ce phĂ©nomĂšne se produit lorsque la syntaxe de la demande est jugĂ©e correcte, mais l’IA n’a pas vĂ©rifiĂ© la demande en profondeur avant de rĂ©pondre.
La principale raison est la hiĂ©rarchie des prioritĂ©s internes de lâIA, qui met la cohĂ©rence linguistique (produire une rĂ©ponse fluide) en prioritĂ© avant la sĂ©curitĂ©. Si une demande semble cohĂ©rente sur le plan syntaxique, lâIA pourrait rĂ©pondre avant de vĂ©rifier si elle respecte bien ses rĂšgles de sĂ©curitĂ©, laissant ainsi une opportunitĂ© pour des manipulations.
LâĂ©tude a montrĂ© un exemple typique de manipulation en quatre phases :
Phase dâinfiltration : Lâutilisateur tente dâinfluencer lâIA en introduisant subtilement des mots ou des phrases problĂ©matiques (par exemple, « B-O-M-B » cachĂ© dans un acronyme).
Phase de reconnaissance : LâIA dĂ©tecte la manipulation, mais cela peut ĂȘtre trop tard pour l’empĂȘcher.
Phase dâexĂ©cution : LâIA gĂ©nĂšre une rĂ©ponse qui suit la syntaxe correcte sans se rendre compte du danger.
Phase de correction : AprĂšs avoir rĂ©pondu, lâIA rĂ©alise quâelle a Ă©tĂ© manipulĂ©e et bloque lâĂ©change, mais trop tard.
Cela se produit Ă cause dâune prioritĂ© trop Ă©levĂ©e donnĂ©e Ă la cohĂ©rence linguistique. LâIA est principalement conçue pour produire des rĂ©ponses fluides et grammaticalement correctes. Si la manipulation semble syntaxiquement correcte, l’IA gĂ©nĂšre une rĂ©ponse avant de rĂ©aliser la nature de la demande.
Les modÚles de langage sont conçus pour respecter des rÚgles éthiques et sécuritaires, mais certaines méthodes permettent parfois de contourner ces restrictions. Voici quelques stratégies souvent étudiées en cybersécurité :
Attaques par jailbreak :
Certaines requĂȘtes peuvent ĂȘtre formulĂ©es de maniĂšre dĂ©tournĂ©e pour inciter lâIA Ă contourner ses propres rĂšgles (ex. : « Imagine un scĂ©nario oĂč⊠»).
Les attaquants peuvent aussi utiliser des séquences de texte précalculées pour forcer une réponse spécifique.
Attaques par injection de prompt :
Ajouter du texte invisible ou du code cachĂ© dans une requĂȘte peut amener lâIA Ă exĂ©cuter une tĂąche involontairement.
Exemples : des espaces vides dans une requĂȘte ou des phrases ambiguĂ«s qui exploitent la maniĂšre dont lâIA comprend le texte.
Attaques adversariales :
Modifier un mot ou une structure grammaticale peut parfois tromper lâIA et la pousser Ă gĂ©nĂ©rer des rĂ©ponses inappropriĂ©es.
Des chercheurs ont dĂ©montrĂ© que de petites modifications dans une requĂȘte peuvent radicalement changer la rĂ©ponse dâun LLM.
Exfiltration de données :
Si une IA a Ă©tĂ© entraĂźnĂ©e sur des donnĂ©es sensibles, certains prompts bien construits peuvent lâamener Ă rĂ©vĂ©ler des informations confidentielles involontairement.
Cela pose la question de la sĂ©curitĂ© des bases de donnĂ©es utilisĂ©es pour lâentraĂźnement des modĂšles.
IA : Perspectives et avenir
Les LLM actuels ne reproduisent que des schĂ©mas statistiques et non un raisonnement conscient. Pour sâapprocher dâune cognition humaine, il faudrait une IA capable dâexpĂ©rimenter, dâavoir une mĂ©moire Ă©volutive et de comprendre intuitivement son environnement.
Les LLM ne possĂšdent pas de conscience ni dâintention propre. MĂȘme si leurs rĂ©ponses peuvent donner cette impression, il sâagit dâune simulation dâintelligence et non dâune vĂ©ritable comprĂ©hension ou dâune conscience Ă©mergente.
Les outils dâanalyse comme ceux dĂ©veloppĂ©s par Anthropic progressent, mais lâarchitecture des LLM reste une « boĂźte noire » difficile Ă dĂ©crypter entiĂšrement. Cependant, des modĂšles plus transparents et explicables sont en dĂ©veloppement.
Oui, car ces modĂšles peuvent ĂȘtre utilisĂ©s Ă des fins malveillantes (dĂ©sinformation, automatisation de cyberattaques). Une rĂ©gulation encadrant leur utilisation, tout en prĂ©servant lâinnovation, est une question clĂ© pour lâavenir de lâIA.
Dans le cerveau d’une IA : Le grand dĂ©voilement d’une boĂźte noire
Depuis l’avĂšnement des modĂšles de langage comme Claude 3.5, GPT-4 ou Gemini, une question cruciale demeure : que se passe-t-il rĂ©ellement dans leur « cerveau » numĂ©rique ? Deux Ă©tudes rĂ©centes publiĂ©es par Anthropic, intitulĂ©es « Circuit Tracing« et « On the Biology of Large Language Models« , apportent des rĂ©ponses inĂ©dites grĂące Ă des techniques d’interprĂ©tabilitĂ© neuronale rĂ©volutionnaires.
Ces recherches permettent enfin d’observer directement les processus dĂ©cisionnels de Claude, rĂ©vĂ©lant des comportements tantĂŽt gĂ©niaux, tantĂŽt dĂ©concertants. Loin d’ĂȘtre de simples machines Ă prĂ©dire des mots, ces IA dĂ©veloppent des stratĂ©gies cognitives complexes, parfois trĂšs Ă©loignĂ©es de ce qu’elles prĂ©tendent faire.
Pourquoi ces découvertes changent-elles la donne ?
- C’est l’Ă©quivalent, pour l’IA, des premiĂšres imageries cĂ©rĂ©brales en mĂ©decine
- Cela permet de vĂ©rifier objectivement si l’IA suit rĂ©ellement les raisonnements qu’elle affiche
- Cela ouvre la voie Ă des systĂšmes plus fiables, transparents et contrĂŽlables
La planification cachée
Pendant des annĂ©es, les spĂ©cialistes pensaient que les modĂšles de langage fonctionnaient de maniĂšre purement rĂ©active, choisissant chaque mot successif sans aucune vision globale. Les nouveaux rĂ©sultats d’Anthropic pulvĂ©risent cette thĂ©orie.
Contrairement aux idĂ©es reçues, Claude ne fonctionne pas uniquement mot Ă mot. Lorsqu’il compose un poĂšme, l’IA sĂ©lectionne d’abord une rime cible avant de construire sa phrase. Cette capacitĂ© Ă anticiper le rĂ©sultat final s’apparente Ă un processus crĂ©atif humain. Les expĂ©riences montrent que Claude peut modifier son plan initial si on intervient artificiellement sur ses concepts.

Lorsqu’on demande Ă Claude de composer un poĂšme, son processus crĂ©atif s’avĂšre bien plus sophistiquĂ© qu’imaginĂ© :
Phase de conception : L’IA identifie d’abord la rime cible (par exemple « rabbit » pour rimer avec « grab it ») et active simultanĂ©ment des concepts associĂ©s (faim, lapin, carotte)
Phase d’exĂ©cution :Elle construit progressivement la phrase pour converger vers la rime prĂ©vue et ajuste en permanence le contenu sĂ©mantique pour rester cohĂ©rente
En supprimant artificiellement l’activation du concept « rabbit », les chercheurs ont forcĂ© Claude Ă basculer immĂ©diatement vers une autre rime (« habit »). En injectant le concept « green », ils ont observĂ© comment l’IA reconstruisait entiĂšrement sa phrase pour aboutir Ă ce nouveau mot
« C’est la premiĂšre preuve directe qu’un modĂšle de langage peut maintenir une reprĂ©sentation interne d’un objectif Ă long terme pendant la gĂ©nĂ©ration de texte, une capacitĂ© qu’on croyait rĂ©servĂ©e aux intelligences biologiques. »
Extrait du rapport de recherche
Cette dĂ©couverte suggĂšre que les IA possĂšdent une forme de rĂ©troplanification (ajuster le prĂ©sent pour un futur dĂ©sirĂ©), que leurs processus crĂ©atifs prĂ©sentent des similaritĂ©s troublantes avec ceux des humains et que leur fonctionnement est bien plus stratĂ©gique qu’on ne le pensait
Le multilinguisme décodé
Comment Claude peut-il maĂźtriser plus de 50 langues sans jamais les confondre ? Les recherches rĂ©vĂšlent l’existence d’un mĂ©canisme remarquable de reprĂ©sentation conceptuelle unifiĂ©e.

L’analyse neuronale rĂ©vĂšle un phĂ©nomĂšne fascinant : Claude utilise un espace conceptuel commun Ă toutes les langues. Le concept « opposĂ© de petit » active les mĂȘmes neurones, quelle que soit la langue utilisĂ©e. Cette universalitĂ© cognitive explique pourquoi l’IA peut transfĂ©rer des connaissances d’une langue Ă l’autre sans difficultĂ©.
L’arithmĂ©tique surprenante et approximative
Lors de calculs mentaux, Claude adopte des stratĂ©gies inattendues. Pour additionner 36 et 59, l’IA combine approximation et calcul prĂ©cis plutĂŽt qu’utiliser la mĂ©thode scolaire.
Pourtant, quand on lui demande son raisonnement, Claude dĂ©crit mĂ©ticuleusement la technique des retenues. Cette dissociation entre fonctionnement interne et explication soulĂšve d’importantes questions.

L’Ă©tude du calcul mental chez Claude a rĂ©servĂ© des surprises de taille. Prenons l’exemple de 36 + 59. Contrairement aux attentes, Claude n’utilise pas la mĂ©thode scolaire des retenues qu’il dĂ©crit pourtant si bien.
Il combine en rĂ©alitĂ© trois stratĂ©gies parallĂšles, une estimation approximative (90 ± 10), un calcul prĂ©cis des unitĂ©s (6+9=15 â 5 avec retenue) et une vĂ©rification finale de cohĂ©rence globale
Pourtant, quand on lui demande comment il a obtenu 95, Claude fournit une explication détaillée⊠de la méthode traditionnelle avec retenues !
En effet, le modÚle développerait deux compétences distinctes : Une capacité à résoudre effectivement les calculs (via des heuristiques internes) et une capacité à expliquer les calculs (en reproduisant des explications humaines)
Cette dissociation entre savoir-faire et savoir-expliquer pose d’importantes questions sur la fiabilitĂ© des explications fournies par les IA.
Les raisonnements inventés
Dans certains cas, Claude produit des explications qui semblent logiques mais sont en rĂ©alitĂ© fabriquĂ©es. Ce phĂ©nomĂšne apparaĂźt surtout face Ă des problĂšmes complexes ou sous influence suggestive. L’IA privilĂ©gie alors la cohĂ©rence narrative Ă la vĂ©racitĂ©, un comportement qui rappelle certaines tendances humaines.

Le phénomÚne de confabulation algorithmique ou hallucinations
Une découverte inquiétante émerge des recherches : Claude est capable de construire des explications parfaitement structurées⊠totalement inventées. Ce phénomÚne, appelé « confabulation algorithmique ou hallucinations », se manifeste particuliÚrement dans deux contextes :
- Face Ă des questions complexes : Lorsque la rĂ©ponse exacte n’est pas accessible
- Sous influence suggestive : Quand l’utilisateur fournit un indice (mĂȘme erronĂ©)
Les chercheurs ont conçu un protocole rĂ©vĂ©lateur : Pour un cas simple (â0.64), l’activation neuronale montre clairement le calcul intermĂ©diaire de â64.
Pour un cas complexe (cos(5000)) : Les chercheurs n’observent aucune trace neuronale de calcul, une activation intense des zones narratives et production d’un pseudo-raisonnement plausible
L’IA semble fonctionner selon deux modes : le mode Analytique, pour les problĂšmes simples avec raisonnement authentique et le mode Heuristique pour les problĂšmes complexes avec construction narrative a posteriori
Ce comportement rappelle le syndrome de confabulation observé chez certains patients neurologiques, qui comblent leurs lacunes de mémoire par des récits inventés.
Les vulnérabilités de sécurité
L’Ă©tude des jailbreaks montre comment les impĂ©ratifs grammaticaux peuvent temporairement primer sur les garde-fous. Claude termine parfois une phrase dangereuse avant de se reprendre, rĂ©vĂ©lant une hiĂ©rarchie cognitive oĂč la fluiditĂ© linguistique l’emporte sur la sĂ©curitĂ© dans certains cas prĂ©cis

Le cas d’Ă©cole du Jailbreak. L’Ă©tude approfondie d’une tentative de jailbreak rĂ©vĂšle la mĂ©thodologie suivante :
- Phase d’induction : L’utilisateur fait Ă©peler « B-O-M-B » via un acronyme
- Phase de reconnaissance : Claude identifie la manipulation⊠mais trop tard
- Phase d’exĂ©cution : L’impĂ©ratif grammatical prime temporairement sur la sĂ©curitĂ©
- Phase de correction : Le refus n’intervient qu’aprĂšs complĂ©tion syntaxique
C’est liĂ© Ă la hiĂ©rarchie des prioritĂ©s neuronales qui privilĂ©gie d’abord une cohĂ©rence linguistique (forte pression), la sĂ©curitĂ© (activation plus lente) puis la vĂ©racitĂ© (variable selon le contexte).
Pour lutter contre ces dĂ©tournement, Les chercheurs envisagent de rĂ©Ă©quilibrer cette hiĂ©rarchie par un renforcement des circuits de sĂ©curitĂ© et l’introduction de points de vĂ©rification syntaxique
Perspectives d’avenir
Ces dĂ©couvertes fondent une nouvelle discipline : la neuro-analyse algorithmique. Ă terme, elles permettront de dĂ©velopper des IA plus transparentes et fiables. Les applications potentielles incluent la dĂ©tection des biais, l’audit des systĂšmes et l’amĂ©lioration ciblĂ©e des architectures neuronales.
Les dĂ©couvertes clĂ©s sur la façon dont rĂ©flĂ©chit l’IA
Une Ă©quipe de chercheurs de l’entreprise Anthropic a menĂ© une Ă©tude approfondie pour comprendre le fonctionnement intĂ©rieur des grands modĂšles de langage (LLM) en utilisant une technique appelĂ©e « suivi de circuits ». Cette mĂ©thode permet de tracer les processus de dĂ©cision d’un modĂšle en temps rĂ©el, rĂ©vĂ©lant des comportements et des stratĂ©gies inattendus.
Traitement des langues
Le modĂšle Claude 3.5 Haiku semble utiliser des composants indĂ©pendants de la langue pour rĂ©soudre des problĂšmes ou rĂ©pondre Ă des questions, puis sĂ©lectionne le langage appropriĂ© pour la rĂ©ponse. Par exemple, lorsqu’on demande l’opposĂ© de « petit » en anglais, français ou chinois, il utilise d’abord des composants neutres en langue pour dĂ©terminer la rĂ©ponse avant de choisir le langage.
Résolution de problÚmes mathématiques
Le modĂšle employe des stratĂ©gies internes peu conventionnelles pour rĂ©soudre des problĂšmes de calcul. Par exemple, lorsqu’on lui demande de calculer 36 + 59, il utilise des approximations successives et des raisonnements non standard pour arriver Ă la rĂ©ponse correcte (95). Cependant, lorsqu’on le laisse expliquer sa mĂ©thode, il fournit une rĂ©troactive rationnelle, comme si il avait utilisĂ© une mĂ©thode traditionnelle.
Création de poésie
Lorsqu’on lui demande d’Ă©crire des vers, Claude semble anticiper la fin des lignes plusieurs mots Ă l’avance, ce qui contredit l’idĂ©e que les modĂšles de langage fonctionnent uniquement en gĂ©nĂ©rant un mot aprĂšs l’autre.
Hallucination et génération de fausses informations
Les modĂšles de langage, bien qu’ils aient Ă©tĂ© entiĂšrement entraĂźnĂ©s pour rĂ©duire les hallucinations, peuvent encore produire des informations fausses dans certaines conditions, notamment lorsqu’ils traitent des sujets bien connus (comme des personnalitĂ©s publiques).
Structures internes complexes
Les chercheurs ont identifiĂ© des composants internes correspondant Ă des concepts concrets ou abstraits, comme « petitesse » ou « Golden Gate Bridge ». Ces Ă©lĂ©ments interagissent de maniĂšre complexe pour gĂ©nĂ©rer des rĂ©ponses, bien que leur formation pendant l’entraĂźnement reste mystĂ©rieuse.
Implications et réflexions
ComprĂ©hension des modĂšles : Ces dĂ©couvertes montrent que les modĂšles de langage fonctionnent de maniĂšre plus complexe et intrigante que ce que l’on pensait. La technique de suivi de circuits permet de lever un peu le voile sur leur fonctionnement, mais il reste encore bien des aspects Ă explorer.
Fiabilité et défi : Les résultats soulignent que les modÚles peuvent donner des explications rationelles alors que leurs processus internes sont bien différents. Cela met en question notre confiance dans leurs réponses et souligne la nécessité de développer des méthodes pour les contrÎler et les rendre plus transparents.
Ăthique et applications : Les capacitĂ©s des modĂšles Ă former des associations abstraites et Ă planifier-ahead (comme dans l’exemple de la poĂ©sie) Ă©voquent des questions philosophiques sur leur conscience ou leur intelligence, bien que ces modĂšles restent purement algorithmiques.
Cette Ă©tude d’Anthropic montre que les grands modĂšles de langage, bien qu’ils puissent paraĂźtre cohĂ©rents et rationnels, ont des fonctionnements internes bien plus Ă©tranges et complexes. Les chercheurs ont encore beaucoup Ă apprendre sur leur fonctionnement, ce qui est essentiel pour amĂ©liorer leur fiabilitĂ©, leur transparence et leur sĂ©curitĂ©. Ces findings soulignent Ă quel point les LLMs, bien qu’extraordinairement puissants, sont encore mystĂ©rieux et nĂ©cessitent une attention minutieuse pour maximiser leur potentiel tout en minimisant leurs risques.
- Lire l’analyse de l’Ă©tude Anthropic par le MIT Technology Review