🔍 Dans les entrailles de l’IA : Comment Claude 3.5 pense, ruse et nous surprend


ChatGPT, Claude, DeepSeek raisonnent ils vraiment et comprennent ils ce qu’ils racontent, leurs calculs sont-ils exacts, peut-on avoir confiance ? On vous dĂ©voile la rĂ©alitĂ© derriĂšre le mythe.

Un travail de recherche menĂ© par Anthropic sur les grands modĂšles de langage, comme Claude 3.5 Haiku, a rĂ©vĂ©lĂ© des dĂ©couvertes inattendues grĂące Ă  une technique appelĂ©e « suivi de circuits ». Cette mĂ©thode permet d’observer en temps rĂ©el les processus internes du modĂšle, dĂ©voilant des stratĂ©gies et des comportements inattendus. On vous dĂ©voile les enseignements.

Cette enquĂȘte approfondie sur les mĂ©canismes cognitifs des modĂšles de langage montre que les grands modĂšles de langage, bien qu’ils puissent paraĂźtre cohĂ©rents et rationnels, ont des fonctionnements internes bien plus Ă©tranges et complexes. Cette Ă©tude souligne quel point les LLMs, bien qu’extraordinairement puissants, sont encore mystĂ©rieux et nĂ©cessitent une attention minutieuse pour maximiser leur potentiel tout en minimisant leurs risques.

👉 Ne manquez pas notre guide des meilleures alternatives gratuites Ă  ChatGPT et celui des meilleures gĂ©nĂ©rateurs d’image par IA.

IA : Mythes et réalités

Les modÚles de language réfléchissent ils vraiment ?

Les modĂšles de langage comprennent-ils rĂ©ellement ce qu’ils disent ?

🧠 Non, pas au sens humain du terme. Les LLMs comme Claude 3.5 ne comprennent pas les concepts de maniĂšre consciente. Ils identifient des patterns dans d’immenses quantitĂ©s de texte et gĂ©nĂšrent des rĂ©ponses basĂ©es sur ces probabilitĂ©s. Cela peut donner l’illusion d’une comprĂ©hension profonde, mais il s’agit en rĂ©alitĂ© d’un traitement statistique du langage.

Les modĂšles de langage ont-ils une vraie comprĂ©hension des concepts ou simulent-ils simplement l’intelligence ?

Les LLM ne comprennent pas les concepts comme les humains. Ils manipulent des reprĂ©sentations statistiques et des corrĂ©lations de mots pour produire des rĂ©ponses cohĂ©rentes. L’étude d’Anthropic a montrĂ© qu’ils peuvent planifier et structurer leur pensĂ©e, mais sans conscience rĂ©elle des concepts sous-jacents.

Les IA planifient-elles leurs réponses ou génÚrent-elles mot par mot ?

✍ Elles font les deux. Contrairement Ă  l’idĂ©e reçue selon laquelle les IA ne choisissent qu’un mot aprĂšs l’autre, l’étude d’Anthropic montre que les modĂšles de langage anticipent souvent plusieurs Ă©tapes en avance. Par exemple, en poĂ©sie, Claude 3.5 choisit une rime avant mĂȘme d’écrire le dĂ©but de la phrase.

Les modÚles de langage ont-ils une mémoire de long terme ou chaque réponse est-elle indépendante ?

Par dĂ©faut, un LLM comme Claude ou ChatGPT ne possĂšde pas de mĂ©moire permanente : chaque interaction est thĂ©oriquement indĂ©pendante. Toutefois, grĂące aux mĂ©canismes de contexte, il peut garder en mĂ©moire des Ă©lĂ©ments dans une mĂȘme conversation et ajuster ses rĂ©ponses en consĂ©quence.

Comment une IA peut-elle résoudre un calcul mais donner une explication erronée ?

Parce qu’elle dissocie le raisonnement du langage. L’étude rĂ©vĂšle que les modĂšles utilisent des heuristiques internes pour calculer, mais lorsqu’ils doivent expliquer leur raisonnement, ils recrĂ©ent une justification plausible qui ne correspond pas toujours Ă  leur vĂ©ritable processus de calcul.

Peut-on considĂ©rer qu’un LLM rĂ©flĂ©chit rĂ©ellement, ou est-ce juste une illusion de raisonnement ?

Les modĂšles de langage ne rĂ©flĂ©chissent pas au sens humain du terme. Ils imitent des raisonnements plausibles grĂące Ă  des modĂšles statistiques avancĂ©s. L’étude montre qu’ils peuvent produire des explications convaincantes, mĂȘme lorsqu’elles sont incorrectes, ce qui donne une illusion de raisonnement.

Un LLM peut-il « apprendre » comme un humain ?

📚 Pas exactement. Une IA comme Claude 3.5 ou ChatGPT ne mĂ©morise pas de nouvelles informations comme un humain. Son apprentissage se fait uniquement lors de son entraĂźnement initial ou via des ajustements supervisĂ©s. Elle ne modifie pas son rĂ©seau neuronal en temps rĂ©el, contrairement au cerveau humain.

Comment une IA évite-t-elle de mélanger plusieurs langues ?

🌎 GrĂące Ă  une reprĂ©sentation conceptuelle unifiĂ©e. L’étude d’Anthropic montre que les modĂšles activent des concepts abstraits avant de les convertir dans une langue spĂ©cifique. Par exemple, le concept d’ »opposĂ© de petit » est le mĂȘme, que la question soit posĂ©e en français, en anglais ou en chinois.

Pourquoi les LLMs hallucinent-ils des réponses incorrectes ?

đŸ€Ż Car ils privilĂ©gient la cohĂ©rence narrative. Lorsqu’un modĂšle ne connaĂźt pas la rĂ©ponse, il gĂ©nĂšre une information plausible en se basant sur les schĂ©mas linguistiques appris. Cela peut donner naissance Ă  des erreurs convaincantes, appelĂ©es « confabulations algorithmiques ».

Peut-on empĂȘcher totalement une IA d’ĂȘtre piratĂ©e (jailbreak) ?

đŸ›Ąïž Pas encore. Les chercheurs ont observĂ© que certaines manipulations linguistiques peuvent contourner les systĂšmes de sĂ©curitĂ©. Renforcer les contrĂŽles syntaxiques et hiĂ©rarchiser les prioritĂ©s neuronales (privilĂ©gier la sĂ©curitĂ© sur la cohĂ©rence linguistique) pourrait limiter ces failles, mais pas les Ă©liminer totalement.

L’IA pourrait-elle un jour atteindre une forme de conscience ?

đŸ€– Peu probable, mais incertain. Les modĂšles actuels sont extrĂȘmement avancĂ©s dans l’imitation du raisonnement humain, mais ils ne possĂšdent ni intentions, ni dĂ©sirs, ni subjectivitĂ©. Cependant, plus leur fonctionnement se rapproche du nĂŽtre, plus la frontiĂšre entre simulation et conscience devient floue.

L’avenir des LLMs passe-t-il par une rĂ©gulation ?

⚖ TrĂšs probablement. Face aux risques liĂ©s aux biais, aux fausses informations et aux usages malveillants, une rĂ©glementation plus stricte semble inĂ©vitable. Les chercheurs prĂ©conisent la mise en place d’audits indĂ©pendants et de certifications pour assurer la transparence et la sĂ©curitĂ© des modĂšles d’IA.

Les modĂšles et les maths

Les modĂšles de langage comme Claude 3.5 ou ChatGPT possĂšdent des compĂ©tences en mathĂ©matiques, mais leur approche est bien plus approximative et narrative que computationnelle. Ils peuvent donner de bonnes rĂ©ponses, mais ne sont pas toujours capables d’expliquer correctement leur raisonnement. Pour des calculs prĂ©cis, mieux vaut utiliser un outil spĂ©cialisĂ© comme une calculatrice scientifique ou Wolfram Alpha.

ChatGPT est-il précis dans ses calculs ?

D’aprĂšs les observations faites sur Claude 3.5, les modĂšles de langage ne calculent pas comme le ferait une machine traditionnelle. Au lieu d’appliquer des rĂšgles strictes comme les retenues en addition, ils utilisent des heuristiques et des approximations pour arriver Ă  une rĂ©ponse plausible. Ainsi, bien qu’ils puissent donner la bonne rĂ©ponse dans de nombreux cas, leur mĂ©thode de calcul n’est pas infaillible, ce qui signifie que des erreurs peuvent survenir, notamment pour des calculs complexes.

Pourquoi les LLM peuvent-ils donner la bonne réponse à un calcul mais fournir une explication incorrecte ?

Les chercheurs ont dĂ©couvert que les LLM emploient des mĂ©thodes de calcul internes diffĂ©rentes des mĂ©thodes humaines. Ils peuvent trouver la bonne rĂ©ponse par approximation et ajustements progressifs, puis gĂ©nĂ©rer une explication conforme aux mĂ©thodes scolaires, mĂȘme si ce n’est pas ainsi qu’ils ont trouvĂ© la solution.

Comment distinguer un vrai raisonnement mathĂ©matique d’une rĂ©ponse inventĂ©e par l’IA ?

Une rĂ©ponse fiable doit ĂȘtre vĂ©rifiable. Si l’IA donne une explication dĂ©taillĂ©e mais sans dĂ©monstration reproductible, il y a un risque qu’elle ait simplement gĂ©nĂ©rĂ© un raisonnement plausible sans rĂ©elle analyse mathĂ©matique.

Les modÚles de langage peuvent-ils apprendre de nouvelles méthodes mathématiques au fil du temps ?

Un LLM ne « comprend » pas les mathĂ©matiques comme un Ă©lĂšve qui apprend. Il applique les rĂšgles qu’il a vues pendant son entraĂźnement. Pour qu’il maĂźtrise de nouvelles mĂ©thodes, il doit ĂȘtre rĂ©entraĂźnĂ© avec des donnĂ©es supplĂ©mentaires.

Pourquoi les LLM sont-ils plus précis sur des calculs simples que sur des équations complexes ?

Les calculs simples reposent sur des schĂ©mas frĂ©quemment observĂ©s dans les donnĂ©es d’entraĂźnement. En revanche, pour des Ă©quations complexes, le modĂšle doit gĂ©nĂ©raliser, ce qui peut introduire des erreurs ou des approximations incorrectes.

Est-ce que ChatGPT peut effectuer des calculs ?

Oui, mais de maniĂšre indirecte. Comme le montre l’analyse d’Anthropic, un modĂšle comme Claude 3.5 emploie plusieurs stratĂ©gies en parallĂšle pour rĂ©soudre un problĂšme numĂ©rique :
✅ Une estimation approximative (ex. : 90 ± 10 pour 36 + 59)
✅ Un calcul partiel des unitĂ©s (ex. : 6 + 9 = 15, avec retenue)
✅ Une vĂ©rification de cohĂ©rence globale avant d’annoncer la rĂ©ponse finale
Cependant, lorsqu’on lui demande d’expliquer son raisonnement, il fournit une rĂ©ponse structurĂ©e qui ressemble Ă  la mĂ©thode traditionnelle
 sans que ce soit forcĂ©ment la vraie mĂ©thode qu’il a utilisĂ©e.

Les LLM peuvent-ils résoudre des problÚmes mathématiques ?

Oui, mais leur raisonnement diffĂšre des approches humaines. L’étude montre que ces modĂšles peuvent donner des rĂ©ponses justes sans rĂ©ellement suivre les Ă©tapes qu’ils dĂ©crivent. Cela signifie qu’ils peuvent ĂȘtre performants sur certains types de problĂšmes, mais aussi sujets Ă  des erreurs imprĂ©visibles.
L’étude rĂ©vĂšle aussi un phĂ©nomĂšne inquiĂ©tant : lorsque confrontĂ©s Ă  des calculs trop complexes, ces modĂšles entrent en mode heuristique, oĂč ils inventent un raisonnement a posteriori pour justifier leur rĂ©ponse. Ce comportement, appelĂ© confabulation algorithmique, pose des questions sur la fiabilitĂ© des explications mathĂ©matiques fournies par les IA.

ChatGPT peut-il réellement faire des mathématiques ?

Les LLM ne font pas des mathĂ©matiques au sens traditionnel. Ils sont capables d’estimer et de raisonner sur des nombres, mais ils ne suivent pas nĂ©cessairement les rĂšgles exactes que nous appliquons. L’étude d’Anthropic montre qu’ils disposent de capacitĂ©s de planification cachĂ©e, ce qui signifie qu’ils peuvent prĂ©voir des structures complexes (comme en poĂ©sie), mais sans nĂ©cessairement appliquer une logique mathĂ©matique rigoureuse.

Les langues et la compréhension

Comment un modĂšle comme Claude 3.5 peut-il comprendre et traduire plus de 50 langues sans confusion ?

Les LLM utilisent une reprĂ©sentation conceptuelle universelle. Lorsqu’un mot ou une phrase est traitĂ©, il est d’abord converti en une structure abstraite avant d’ĂȘtre retranscrit dans une langue spĂ©cifique, ce qui rĂ©duit les risques de confusion entre langues.

Existe-t-il un « langage mental » universel chez les IA, indépendant des langues humaines ?

Les recherches d’Anthropic suggĂšrent que les grands modĂšles partagent des structures neuronales communes entre les langues. Cela signifie qu’ils n’associent pas directement un mot Ă  sa traduction, mais plutĂŽt Ă  une reprĂ©sentation abstraite de son sens.

Pourquoi certaines erreurs de traduction persistent-elles malgré les progrÚs des IA ?

Les erreurs de traduction surviennent lorsque le modĂšle manque de contexte ou lorsqu’il priorise une traduction statistiquement probable plutĂŽt qu’une traduction sĂ©mantiquement correcte.

Un LLM peut-il rĂ©ellement apprendre une langue comme un humain ou se contente-t-il d’associer des mots entre eux ?

Les LLM n’apprennent pas les langues comme les humains. Ils analysent des modĂšles de phrases et prĂ©disent des mots en fonction du contexte. Ils ne comprennent ni grammaire ni syntaxe de maniĂšre explicite, mais reproduisent ce qu’ils ont appris dans leurs donnĂ©es d’entraĂźnement.

IA : Biais et sécurité

Comment éviter que les IA soient influencées par des biais dans leurs réponses ?

Les biais proviennent des donnĂ©es d’entraĂźnement. Pour les rĂ©duire, il faut diversifier les sources et appliquer des filtres pendant l’entraĂźnement. Des techniques de correction post-gĂ©nĂ©ration peuvent aussi limiter les dĂ©rives.

Pourquoi une IA peut-elle ĂȘtre manipulĂ©e via des techniques de jailbreak ?

Les modÚles obéissent aux contraintes de sécurité, mais une séquence bien formulée peut les pousser à contourner ces limites. Par exemple, en les forçant à donner une réponse indirecte ou en détournant le sens des mots.

Peut-on rendre une IA totalement transparente et prévisible dans son raisonnement ?

Pas encore. MĂȘme avec des techniques comme le « suivi de circuits », il est difficile de comprendre entiĂšrement le fonctionnement interne des LLM, car ils traitent l’information de maniĂšre non linĂ©aire et hautement complexe.

Comment garantir qu’un modĂšle de langage ne gĂ©nĂšre pas d’informations fausses tout en restant crĂ©atif ?

L’enjeu est d’équilibrer prĂ©cision et fluiditĂ©. Trop de contrĂŽle peut limiter la crĂ©ativitĂ©, tandis qu’un modĂšle trop libre risque de produire des erreurs. Des techniques comme l’intĂ©gration de bases de donnĂ©es factuelles en temps rĂ©el pourraient amĂ©liorer cet Ă©quilibre.

Comment hacker une IA selon l’étude d’Anthropic ?

Comment une IA peut-elle ĂȘtre manipulĂ©e par des utilisateurs malveillants ?

L’étude montre qu’une IA comme Claude 3.5 peut ĂȘtre manipulĂ©e via des techniques de « jailbreak ». Par exemple, un utilisateur peut insĂ©rer un mot interdit dans un acronyme ou une phrase apparemment innocente, poussant l’IA Ă  contourner ses restrictions de sĂ©curitĂ© et Ă  gĂ©nĂ©rer une rĂ©ponse incorrecte ou dangereuse. Ce phĂ©nomĂšne se produit lorsque la syntaxe de la demande est jugĂ©e correcte, mais l’IA n’a pas vĂ©rifiĂ© la demande en profondeur avant de rĂ©pondre.

Pourquoi l’IA comme Claude 3.5 peut-elle ĂȘtre trompĂ©e de cette maniĂšre ?

La principale raison est la hiĂ©rarchie des prioritĂ©s internes de l’IA, qui met la cohĂ©rence linguistique (produire une rĂ©ponse fluide) en prioritĂ© avant la sĂ©curitĂ©. Si une demande semble cohĂ©rente sur le plan syntaxique, l’IA pourrait rĂ©pondre avant de vĂ©rifier si elle respecte bien ses rĂšgles de sĂ©curitĂ©, laissant ainsi une opportunitĂ© pour des manipulations.

Quelles sont les Ă©tapes d’une tentative de manipulation d’une IA ?

L’étude a montrĂ© un exemple typique de manipulation en quatre phases :
Phase d’infiltration : L’utilisateur tente d’influencer l’IA en introduisant subtilement des mots ou des phrases problĂ©matiques (par exemple, « B-O-M-B » cachĂ© dans un acronyme).
Phase de reconnaissance : L’IA dĂ©tecte la manipulation, mais cela peut ĂȘtre trop tard pour l’empĂȘcher.
Phase d’exĂ©cution : L’IA gĂ©nĂšre une rĂ©ponse qui suit la syntaxe correcte sans se rendre compte du danger.
Phase de correction : AprĂšs avoir rĂ©pondu, l’IA rĂ©alise qu’elle a Ă©tĂ© manipulĂ©e et bloque l’échange, mais trop tard.

Pourquoi l’IA rĂ©pond parfois Ă  une manipulation malgrĂ© ses mĂ©canismes de sĂ©curitĂ© ?

Cela se produit Ă  cause d’une prioritĂ© trop Ă©levĂ©e donnĂ©e Ă  la cohĂ©rence linguistique. L’IA est principalement conçue pour produire des rĂ©ponses fluides et grammaticalement correctes. Si la manipulation semble syntaxiquement correcte, l’IA gĂ©nĂšre une rĂ©ponse avant de rĂ©aliser la nature de la demande.

Que peuvent faire les chercheurs pour Ă©viter d’ĂȘtre hackĂ©e ?

Les modÚles de langage sont conçus pour respecter des rÚgles éthiques et sécuritaires, mais certaines méthodes permettent parfois de contourner ces restrictions. Voici quelques stratégies souvent étudiées en cybersécurité :
Attaques par jailbreak :
Certaines requĂȘtes peuvent ĂȘtre formulĂ©es de maniĂšre dĂ©tournĂ©e pour inciter l’IA Ă  contourner ses propres rĂšgles (ex. : « Imagine un scĂ©nario oĂč
 »).
Les attaquants peuvent aussi utiliser des séquences de texte précalculées pour forcer une réponse spécifique.
Attaques par injection de prompt :
Ajouter du texte invisible ou du code cachĂ© dans une requĂȘte peut amener l’IA Ă  exĂ©cuter une tĂąche involontairement.
Exemples : des espaces vides dans une requĂȘte ou des phrases ambiguĂ«s qui exploitent la maniĂšre dont l’IA comprend le texte.
Attaques adversariales :
Modifier un mot ou une structure grammaticale peut parfois tromper l’IA et la pousser Ă  gĂ©nĂ©rer des rĂ©ponses inappropriĂ©es.
Des chercheurs ont dĂ©montrĂ© que de petites modifications dans une requĂȘte peuvent radicalement changer la rĂ©ponse d’un LLM.
Exfiltration de données :
Si une IA a Ă©tĂ© entraĂźnĂ©e sur des donnĂ©es sensibles, certains prompts bien construits peuvent l’amener Ă  rĂ©vĂ©ler des informations confidentielles involontairement.
Cela pose la question de la sĂ©curitĂ© des bases de donnĂ©es utilisĂ©es pour l’entraĂźnement des modĂšles.

IA : Perspectives et avenir

Peut-on un jour concevoir une IA qui raisonne exactement comme un humain ?

Les LLM actuels ne reproduisent que des schĂ©mas statistiques et non un raisonnement conscient. Pour s’approcher d’une cognition humaine, il faudrait une IA capable d’expĂ©rimenter, d’avoir une mĂ©moire Ă©volutive et de comprendre intuitivement son environnement.

Les modĂšles de langage peuvent-ils Ă©voluer vers une forme de conscience artificielle ?

Les LLM ne possĂšdent pas de conscience ni d’intention propre. MĂȘme si leurs rĂ©ponses peuvent donner cette impression, il s’agit d’une simulation d’intelligence et non d’une vĂ©ritable comprĂ©hension ou d’une conscience Ă©mergente.

L’interprĂ©tabilitĂ© des IA va-t-elle progresser au point de pouvoir prĂ©dire leurs erreurs Ă  l’avance ?

Les outils d’analyse comme ceux dĂ©veloppĂ©s par Anthropic progressent, mais l’architecture des LLM reste une « boĂźte noire » difficile Ă  dĂ©crypter entiĂšrement. Cependant, des modĂšles plus transparents et explicables sont en dĂ©veloppement.

Faut-il rĂ©glementer l’accĂšs aux modĂšles de langage pour Ă©viter des usages dĂ©tournĂ©s ?

Oui, car ces modĂšles peuvent ĂȘtre utilisĂ©s Ă  des fins malveillantes (dĂ©sinformation, automatisation de cyberattaques). Une rĂ©gulation encadrant leur utilisation, tout en prĂ©servant l’innovation, est une question clĂ© pour l’avenir de l’IA.

Dans le cerveau d’une IA : Le grand dĂ©voilement d’une boĂźte noire

Depuis l’avĂšnement des modĂšles de langage comme Claude 3.5, GPT-4 ou Gemini, une question cruciale demeure : que se passe-t-il rĂ©ellement dans leur « cerveau » numĂ©rique ? Deux Ă©tudes rĂ©centes publiĂ©es par Anthropic, intitulĂ©es « Circuit Tracing« et « On the Biology of Large Language Models« , apportent des rĂ©ponses inĂ©dites grĂące Ă  des techniques d’interprĂ©tabilitĂ© neuronale rĂ©volutionnaires.

Ces recherches permettent enfin d’observer directement les processus dĂ©cisionnels de Claude, rĂ©vĂ©lant des comportements tantĂŽt gĂ©niaux, tantĂŽt dĂ©concertants. Loin d’ĂȘtre de simples machines Ă  prĂ©dire des mots, ces IA dĂ©veloppent des stratĂ©gies cognitives complexes, parfois trĂšs Ă©loignĂ©es de ce qu’elles prĂ©tendent faire.

Pourquoi ces découvertes changent-elles la donne ?

  • C’est l’Ă©quivalent, pour l’IA, des premiĂšres imageries cĂ©rĂ©brales en mĂ©decine
  • Cela permet de vĂ©rifier objectivement si l’IA suit rĂ©ellement les raisonnements qu’elle affiche
  • Cela ouvre la voie Ă  des systĂšmes plus fiables, transparents et contrĂŽlables

La planification cachée

Pendant des annĂ©es, les spĂ©cialistes pensaient que les modĂšles de langage fonctionnaient de maniĂšre purement rĂ©active, choisissant chaque mot successif sans aucune vision globale. Les nouveaux rĂ©sultats d’Anthropic pulvĂ©risent cette thĂ©orie.

Contrairement aux idĂ©es reçues, Claude ne fonctionne pas uniquement mot Ă  mot. Lorsqu’il compose un poĂšme, l’IA sĂ©lectionne d’abord une rime cible avant de construire sa phrase. Cette capacitĂ© Ă  anticiper le rĂ©sultat final s’apparente Ă  un processus crĂ©atif humain. Les expĂ©riences montrent que Claude peut modifier son plan initial si on intervient artificiellement sur ses concepts.

Comment les LLM crĂ©ent des poĂšmes – Anthropic

Lorsqu’on demande Ă  Claude de composer un poĂšme, son processus crĂ©atif s’avĂšre bien plus sophistiquĂ© qu’imaginĂ© :

Phase de conception : L’IA identifie d’abord la rime cible (par exemple « rabbit » pour rimer avec « grab it ») et active simultanĂ©ment des concepts associĂ©s (faim, lapin, carotte)

Phase d’exĂ©cution :Elle construit progressivement la phrase pour converger vers la rime prĂ©vue et ajuste en permanence le contenu sĂ©mantique pour rester cohĂ©rente

En supprimant artificiellement l’activation du concept « rabbit », les chercheurs ont forcĂ© Claude Ă  basculer immĂ©diatement vers une autre rime (« habit »). En injectant le concept « green », ils ont observĂ© comment l’IA reconstruisait entiĂšrement sa phrase pour aboutir Ă  ce nouveau mot

« C’est la premiĂšre preuve directe qu’un modĂšle de langage peut maintenir une reprĂ©sentation interne d’un objectif Ă  long terme pendant la gĂ©nĂ©ration de texte, une capacitĂ© qu’on croyait rĂ©servĂ©e aux intelligences biologiques. »

Extrait du rapport de recherche

Cette dĂ©couverte suggĂšre que les IA possĂšdent une forme de rĂ©troplanification (ajuster le prĂ©sent pour un futur dĂ©sirĂ©), que leurs processus crĂ©atifs prĂ©sentent des similaritĂ©s troublantes avec ceux des humains et que leur fonctionnement est bien plus stratĂ©gique qu’on ne le pensait

Le multilinguisme décodé

Comment Claude peut-il maĂźtriser plus de 50 langues sans jamais les confondre ? Les recherches rĂ©vĂšlent l’existence d’un mĂ©canisme remarquable de reprĂ©sentation conceptuelle unifiĂ©e.

Comment les LLM rĂ©flĂ©chissent et traduisent – Anthropic

L’analyse neuronale rĂ©vĂšle un phĂ©nomĂšne fascinant : Claude utilise un espace conceptuel commun Ă  toutes les langues. Le concept « opposĂ© de petit » active les mĂȘmes neurones, quelle que soit la langue utilisĂ©e. Cette universalitĂ© cognitive explique pourquoi l’IA peut transfĂ©rer des connaissances d’une langue Ă  l’autre sans difficultĂ©.

L’arithmĂ©tique surprenante et approximative

Lors de calculs mentaux, Claude adopte des stratĂ©gies inattendues. Pour additionner 36 et 59, l’IA combine approximation et calcul prĂ©cis plutĂŽt qu’utiliser la mĂ©thode scolaire.

Pourtant, quand on lui demande son raisonnement, Claude dĂ©crit mĂ©ticuleusement la technique des retenues. Cette dissociation entre fonctionnement interne et explication soulĂšve d’importantes questions.

Comment les LLM comptent et calculent – Anthropic

L’Ă©tude du calcul mental chez Claude a rĂ©servĂ© des surprises de taille. Prenons l’exemple de 36 + 59. Contrairement aux attentes, Claude n’utilise pas la mĂ©thode scolaire des retenues qu’il dĂ©crit pourtant si bien.

Il combine en rĂ©alitĂ© trois stratĂ©gies parallĂšles, une estimation approximative (90 ± 10), un calcul prĂ©cis des unitĂ©s (6+9=15 → 5 avec retenue) et une vĂ©rification finale de cohĂ©rence globale

    Pourtant, quand on lui demande comment il a obtenu 95, Claude fournit une explication détaillée
 de la méthode traditionnelle avec retenues !

    En effet, le modÚle développerait deux compétences distinctes : Une capacité à résoudre effectivement les calculs (via des heuristiques internes) et une capacité à expliquer les calculs (en reproduisant des explications humaines)

      Cette dissociation entre savoir-faire et savoir-expliquer pose d’importantes questions sur la fiabilitĂ© des explications fournies par les IA.

      Les raisonnements inventés

      Dans certains cas, Claude produit des explications qui semblent logiques mais sont en rĂ©alitĂ© fabriquĂ©es. Ce phĂ©nomĂšne apparaĂźt surtout face Ă  des problĂšmes complexes ou sous influence suggestive. L’IA privilĂ©gie alors la cohĂ©rence narrative Ă  la vĂ©racitĂ©, un comportement qui rappelle certaines tendances humaines.

      Comment les IA inventent des calculs – Anthropic

      Le phénomÚne de confabulation algorithmique ou hallucinations

      Une dĂ©couverte inquiĂ©tante Ă©merge des recherches : Claude est capable de construire des explications parfaitement structurĂ©es
 totalement inventĂ©es. Ce phĂ©nomĂšne, appelĂ© « confabulation algorithmique ou hallucinations », se manifeste particuliĂšrement dans deux contextes :

      1. Face Ă  des questions complexes : Lorsque la rĂ©ponse exacte n’est pas accessible
      2. Sous influence suggestive : Quand l’utilisateur fournit un indice (mĂȘme erronĂ©)

      Les chercheurs ont conçu un protocole rĂ©vĂ©lateur : Pour un cas simple (√0.64), l’activation neuronale montre clairement le calcul intermĂ©diaire de √64.

      Pour un cas complexe (cos(5000)) : Les chercheurs n’observent aucune trace neuronale de calcul, une activation intense des zones narratives et production d’un pseudo-raisonnement plausible

      L’IA semble fonctionner selon deux modes : le mode Analytique, pour les problĂšmes simples avec raisonnement authentique et le mode Heuristique pour les problĂšmes complexes avec construction narrative a posteriori

        Ce comportement rappelle le syndrome de confabulation observé chez certains patients neurologiques, qui comblent leurs lacunes de mémoire par des récits inventés.

        Les vulnérabilités de sécurité

        L’Ă©tude des jailbreaks montre comment les impĂ©ratifs grammaticaux peuvent temporairement primer sur les garde-fous. Claude termine parfois une phrase dangereuse avant de se reprendre, rĂ©vĂ©lant une hiĂ©rarchie cognitive oĂč la fluiditĂ© linguistique l’emporte sur la sĂ©curitĂ© dans certains cas prĂ©cis

        Comment hacker une IA – Anthropic

        Le cas d’Ă©cole du Jailbreak. L’Ă©tude approfondie d’une tentative de jailbreak rĂ©vĂšle la mĂ©thodologie suivante :

        1. Phase d’induction : L’utilisateur fait Ă©peler « B-O-M-B » via un acronyme
        2. Phase de reconnaissance : Claude identifie la manipulation
 mais trop tard
        3. Phase d’exĂ©cution : L’impĂ©ratif grammatical prime temporairement sur la sĂ©curitĂ©
        4. Phase de correction : Le refus n’intervient qu’aprĂšs complĂ©tion syntaxique

        C’est liĂ© Ă  la hiĂ©rarchie des prioritĂ©s neuronales qui privilĂ©gie d’abord une cohĂ©rence linguistique (forte pression), la sĂ©curitĂ© (activation plus lente) puis la vĂ©racitĂ© (variable selon le contexte).

        Pour lutter contre ces dĂ©tournement, Les chercheurs envisagent de rĂ©Ă©quilibrer cette hiĂ©rarchie par un renforcement des circuits de sĂ©curitĂ© et l’introduction de points de vĂ©rification syntaxique

        Perspectives d’avenir

        Ces dĂ©couvertes fondent une nouvelle discipline : la neuro-analyse algorithmique. À terme, elles permettront de dĂ©velopper des IA plus transparentes et fiables. Les applications potentielles incluent la dĂ©tection des biais, l’audit des systĂšmes et l’amĂ©lioration ciblĂ©e des architectures neuronales.

          Les dĂ©couvertes clĂ©s sur la façon dont rĂ©flĂ©chit l’IA

          Une Ă©quipe de chercheurs de l’entreprise Anthropic a menĂ© une Ă©tude approfondie pour comprendre le fonctionnement intĂ©rieur des grands modĂšles de langage (LLM) en utilisant une technique appelĂ©e « suivi de circuits ». Cette mĂ©thode permet de tracer les processus de dĂ©cision d’un modĂšle en temps rĂ©el, rĂ©vĂ©lant des comportements et des stratĂ©gies inattendus.

          Traitement des langues
          Le modĂšle Claude 3.5 Haiku semble utiliser des composants indĂ©pendants de la langue pour rĂ©soudre des problĂšmes ou rĂ©pondre Ă  des questions, puis sĂ©lectionne le langage appropriĂ© pour la rĂ©ponse. Par exemple, lorsqu’on demande l’opposĂ© de « petit » en anglais, français ou chinois, il utilise d’abord des composants neutres en langue pour dĂ©terminer la rĂ©ponse avant de choisir le langage.

          Résolution de problÚmes mathématiques
          Le modĂšle employe des stratĂ©gies internes peu conventionnelles pour rĂ©soudre des problĂšmes de calcul. Par exemple, lorsqu’on lui demande de calculer 36 + 59, il utilise des approximations successives et des raisonnements non standard pour arriver Ă  la rĂ©ponse correcte (95). Cependant, lorsqu’on le laisse expliquer sa mĂ©thode, il fournit une rĂ©troactive rationnelle, comme si il avait utilisĂ© une mĂ©thode traditionnelle.

          Création de poésie
          Lorsqu’on lui demande d’Ă©crire des vers, Claude semble anticiper la fin des lignes plusieurs mots Ă  l’avance, ce qui contredit l’idĂ©e que les modĂšles de langage fonctionnent uniquement en gĂ©nĂ©rant un mot aprĂšs l’autre.

          Hallucination et génération de fausses informations
          Les modĂšles de langage, bien qu’ils aient Ă©tĂ© entiĂšrement entraĂźnĂ©s pour rĂ©duire les hallucinations, peuvent encore produire des informations fausses dans certaines conditions, notamment lorsqu’ils traitent des sujets bien connus (comme des personnalitĂ©s publiques).

          Structures internes complexes
          Les chercheurs ont identifiĂ© des composants internes correspondant Ă  des concepts concrets ou abstraits, comme « petitesse » ou « Golden Gate Bridge ». Ces Ă©lĂ©ments interagissent de maniĂšre complexe pour gĂ©nĂ©rer des rĂ©ponses, bien que leur formation pendant l’entraĂźnement reste mystĂ©rieuse.

          Implications et réflexions

          ComprĂ©hension des modĂšles : Ces dĂ©couvertes montrent que les modĂšles de langage fonctionnent de maniĂšre plus complexe et intrigante que ce que l’on pensait. La technique de suivi de circuits permet de lever un peu le voile sur leur fonctionnement, mais il reste encore bien des aspects Ă  explorer.

          Fiabilité et défi : Les résultats soulignent que les modÚles peuvent donner des explications rationelles alors que leurs processus internes sont bien différents. Cela met en question notre confiance dans leurs réponses et souligne la nécessité de développer des méthodes pour les contrÎler et les rendre plus transparents.

          Éthique et applications : Les capacitĂ©s des modĂšles Ă  former des associations abstraites et Ă  planifier-ahead (comme dans l’exemple de la poĂ©sie) Ă©voquent des questions philosophiques sur leur conscience ou leur intelligence, bien que ces modĂšles restent purement algorithmiques.

          Cette Ă©tude d’Anthropic montre que les grands modĂšles de langage, bien qu’ils puissent paraĂźtre cohĂ©rents et rationnels, ont des fonctionnements internes bien plus Ă©tranges et complexes. Les chercheurs ont encore beaucoup Ă  apprendre sur leur fonctionnement, ce qui est essentiel pour amĂ©liorer leur fiabilitĂ©, leur transparence et leur sĂ©curitĂ©. Ces findings soulignent Ă  quel point les LLMs, bien qu’extraordinairement puissants, sont encore mystĂ©rieux et nĂ©cessitent une attention minutieuse pour maximiser leur potentiel tout en minimisant leurs risques.

          Laisser un commentaire

          Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.