Ce que font réellement les grands modèles de langage, des probabilités et des tokens aux fenêtres de contexte et à la prédiction de motifs, et pourquoi tant de gens interprètent la sortie comme une véritable compréhension
Par Martin-Patrick Larouche
Avant de pouvoir dire qu'un système n'est pas intelligent, nous devons nous entendre sur ce que le mot promettait au départ.
Un grand modèle de langage produit un texte fluide et utile sans comprendre aucun de ses éléments. Il fait une chose mécanique extrêmement bien, et cette chose n'est pas de penser.
Donnez-lui tout le crédit. Ces systèmes rédigent, traduisent, résument et écrivent du code à un niveau qui relevait de la science-fiction il y a dix ans.
Une calculatrice est utile et personne ne la qualifie d'intelligente. Capacité et compréhension sont des questions distinctes.
Savoir comment l'outil fonctionne vous rend meilleur pour l'utiliser. L'objectif ici est un modèle mental précis, et la précision rapporte.
Par intelligent, cette présentation entend le sens humain de la compréhension ancrée, du raisonnement intentionnel et de la conscience, plutôt que la capacité brute. Elle se concentre sur les modèles de langage textuel, bien que beaucoup de ses principes s'appliquent aussi aux systèmes d'image et audio construits de la même manière.
Quand nous qualifions quelque chose d'intelligent, trois éléments accompagnent ce mot. Un modèle de langage retient une version mince et non fondée de chacun, ce qui explique pourquoi le résultat peut ressembler à la réalité.
Nous supposons que les mots se connectent à des choses réelles. Un modèle basé uniquement sur le texte apprend comment les mots se rapportent entre eux à partir du texte, sans sens et sans contact vécu avec ce qu'ils décrivent.
Nous supposons qu'un objectif se cache derrière les mots. Il y a un processus qui sélectionne le texte probable, sans but propre.
Nous supposons qu'il suit ce qui est vrai. Il construit des abstractions internes qui se comportent comme une carte partielle du monde, sans moyen de les vérifier par rapport à la réalité.
Un modèle de langage prédit le prochain morceau de texte, encore et encore, basé sur les motifs qu'il a absorbés à partir d'énormes quantités d'écrits. Tout le reste qu'il semble faire découle de cette boucle unique.
Prédire autant de texte correctement force le modèle à absorber la grammaire, les faits, les styles et les habitudes de raisonnement.
Il optimise pour des continuations plausibles. Plausible et vrai se chevauchent souvent, mais pas toujours.
De l'extérieur, une prédiction fluide ressemble exactement à de la compréhension. Le reste de la présentation sépare les deux.
Le modèle ne travaille pas avec des mots ou des lettres. Il travaille avec des tokens, et ce simple fait explique un nombre surprenant de ses bizarreries.
Avant toute prédiction, votre texte est découpé en tokens. Un token est un segment commun de caractères, souvent un mot, parfois une partie d'un mot, parfois juste un espace et une lettre.
Les tokens proviennent de la fréquence d'apparition des séquences de caractères dans le texte d'entraînement, donc " the" et "ing" deviennent des tokens parce qu'ils sont partout.
Chaque token est associé à un entier. Le modèle ne lit et n'écrit que des listes de ces nombres, qui se transforment ensuite en texte pour vous.
En français, un token compte en moyenne environ quatre caractères, donc 1 000 tokens représentent environ 750 mots. D'autres langues peuvent coûter beaucoup plus cher.
"La tokenisation n'est pas de l'intelligence."
┌──────┬─────────┬─────┬────┬───────────────┬───┐
│ Token│ ization │ isn │ 't │ intelligence │ . │
└──────┴─────────┴─────┴────┴───────────────┴───┘
6 tokens, un mot commun divisé en deux morceaux
le modèle ne voit que leurs ID, jamais les lettres :
24038 2065 6315 956 11478 13
Remarquez que "Tokenization" est devenu deux tokens tandis que "intelligence" est resté entier, simplement à cause de la fréquence d'apparition de chaque chaîne dans l'entraînement. Le modèle ne voit jamais les lettres à l'intérieur d'un token comme des éléments séparés.
Une fois que vous savez que le modèle lit des tokens et non des lettres, plusieurs échecs célèbres cessent d'être mystérieux.
Demandez combien de « r » il y a dans « strawberry » et il peut trébucher. Le mot est quelques tokens, et les lettres individuelles n'ont jamais été visibles.
Renverser une chaîne de caractères ou épeler un mot à l'envers est difficile pour la même raison. Cela mélange des blocs de tokens, pas des caractères.
Les nombres se fragmentent en morceaux de tokens maladroits, ce qui en fait partie. La raison plus profonde est qu'il prédit à quoi ressemble une réponse au lieu de faire un calcul.
Au cœur, le modèle fait une seule chose en boucle. Il regarde tout ce qui précède et devine ce qui vient ensuite.
Rien dans cette boucle ne vérifie si le résultat est vrai. Elle optimise pour ce qui est susceptible de venir ensuite, et ce qui est probable n'est pas la même chose que ce qui est correct.
Ouvrez la boîte du modèle de la dernière diapositive. Le design qui a rendu ces systèmes puissants s'appelle le transformeur, et il repose sur une idée appelée attention.
Les réseaux antérieurs traitaient le texte un mot à la fois et avaient tendance à oublier le début d'un long passage une fois arrivés à la fin.
Chaque token peut évaluer tous les autres tokens de l'entrée en même temps, donc le modèle relie un pronom à son nom ou une question à son contexte précédent directement.
Faire cela en parallèle a rendu l'entraînement sur des données énormes pratique. Plus de données et des modèles plus grands ont continué de rapporter, c'est pourquoi les capacités ont bondi.
Le même design basé sur l'attention sous-tend maintenant les modèles d'image, d'audio et de vidéo, donc une grande partie de ce qui suit s'applique bien au-delà du texte.
Étant donné la phrase inachevée « Je me suis versé une tasse de », le modèle attribue une probabilité à chaque prochain token possible. Voici les favoris.
S'il choisissait toujours la barre la plus haute, il serait répétitif et ennuyeux. Alors il lance des dés pondérés sur les meilleurs candidats, et quelques réglages contrôlent à quel point ce lancer est aventureux.
Un cadran sur l'aléatoire. Une température basse s'en tient au token le plus sûr, une température élevée répartit les chances et invite à la surprise.
Cela réduit le bassin de candidats aux tokens les plus probables avant de lancer les dés, ce qui permet au modèle de rester sur la bonne voie tout en variant.
Exécutez le même prompt deux fois et vous pouvez obtenir deux réponses différentes. Les deux sont des continuations plausibles. Aucune n'a été vérifiée ou confirmée.
Le modèle écrit un token, l'ajoute au texte, puis prédit à nouveau avec ce token maintenant partie de l'entrée. Alimenter la sortie dans l'entrée s'appelle l'autorégression.
étape 1 Le étape 2 Le chat étape 3 Le chat est étape 4 Le chat est assis étape 5 Le chat est assis sur étape 6 Le chat est assis sur le tapis
Parce que chaque token dépend de ceux qui le précèdent, une erreur précoce est amplifiée plutôt que corrigée. Le modèle s'engage dans sa propre erreur et continue d'élaborer avec confiance.
La connaissance apparente du modèle a été intégrée lors de l'entraînement puis figée. Cela explique à la fois son ampleur et ses angles morts.
L'entraînement montre au modèle des quantités stupéfiantes de texte et lui demande, encore et encore, de prédire le prochain token. Chaque erreur ajuste légèrement des milliards de chiffres internes, les poids, un peu plus près.
Livres, code, articles, forums et bien plus encore. Des centaines de milliards de mots d'écrits humains.
Un ensemble fixe de poids. Aucune copie du texte n'est stockée, seulement les motifs statistiques extraits de celui-ci.
Prédire tout ce texte correctement nécessite d'absorber la grammaire, les faits et les habitudes de raisonnement. La connaissance est un effet secondaire du jeu de devinettes.
Les gens imaginent un moteur de recherche avec un modèle ajouté après coup. La réalité se rapproche plus d'un musicien improvisant dans un style qu'il a absorbé.
Il trouve l'enregistrement exact stocké et le renvoie mot pour mot. Qu'il ait raison ou tort, il répète quelque chose de spécifique qui existe.
Il reconstruit une réponse probable à partir de motifs qui se chevauchent à chaque fois. Les faits communs ressortent de manière fiable parce que les motifs sont forts et cohérents.
C'est pourquoi il cloue les faits bien documentés et invente des faits obscurs avec une confiance égale. Les deux réponses sont générées de la même manière, et seule la force du motif sous-jacent diffère.
Prédire le prochain token semble trivial. Le faire correctement à travers tout l'internet est extrêmement difficile, et le résultat est bien plus riche qu'une table de consultation.
Pour bien prédire, le modèle construit une structure interne. La recherche sur l'interprétabilité trouve des caractéristiques qui suivent le sentiment, la position, et même des cartes approximatives de lieux dont il n'a fait que lire.
Des compétences comme la traduction et la résolution de problèmes étape par étape n'ont jamais été programmées. Elles sont apparues à mesure que les modèles se développaient, comme un sous-produit d'une meilleure prédiction.
La règle est facile à énoncer. Le comportement qu'elle produit est véritablement sophistiqué et mérite d'être pris au sérieux plutôt que d'être écarté comme un simple autocomplétion.
Voici la nuance qui compte. Le modèle n'a pas de compréhension humaine ancrée, et il est aussi bien plus qu'un simple tour de passe-passe. Les deux sont vrais en même temps.
Brut de l'entraînement préalable, le modèle continue simplement le texte. L'assistant de chat utile avec qui vous parlez est une seconde couche d'entraînement par-dessus.
Apprend le langage et les connaissances en prédisant les prochains tokens à travers tout le corpus. Produit une capacité brute sans manières.
Entraîné sur des exemples de suivi de demandes, donc il répond aux questions au lieu de simplement les continuer.
Les gens classent les réponses, et le modèle est orienté vers celles qui sont préférées. Cela façonne le ton, l'utilité et les refus.
Tout cela se passe avant même que vous n'écriviez un mot. Une fois déployés, les poids sont figés. Le modèle n'apprend pas de votre conversation et il oublie tout dès que la fenêtre se vide.
Tout ce que le modèle peut utiliser en ce moment doit tenir dans sa fenêtre de contexte. En dehors de cette fenêtre, pour le modèle, rien n'existe.
Quand on dit qu'un chatbot « se souvient » de la conversation, l'application colle la transcription dans cette fenêtre à chaque tour. Le modèle lui-même ne retient rien entre les requêtes.
Chaque requête commence à froid. Le modèle n'a ni journal, ni notes d'hier, ni conscience que vous avez déjà parlé.
La transcription complète pertinente est réintroduite à chaque fois. La continuité est l'application qui rejoue le texte, pas le modèle qui s'en souvient.
Les produits qui "se souviennent" de vous enregistrent des faits dans une base de données et les injectent discrètement dans la fenêtre. Utile, et entièrement à l'extérieur du modèle.
Rien de ce que vous avez dit ne persiste dans le modèle. Il ne peut pas se souvenir d'une conversation passée qu'il n'a jamais tenue.
Une fenêtre plus grande aide, et elle n'est ni gratuite ni uniforme. L'endroit où vous mettez l'information change son impact.
Les modèles ont tendance à bien utiliser le début et la fin d'un long contexte et à survoler le milieu. Un fait clé enfoui au milieu d'un document risque d'être ignoré.
Les règles du système, l'historique, les documents et votre question se disputent tous la même limite de tokens. Ajoutez-en plus d'un et vous comprimez le reste.
Dépassez la limite et les tokens les plus anciens disparaissent, souvent sans avertissement. Le modèle répond alors comme s'ils n'avaient jamais été là.
Une citation inventée n'est pas le système qui se brise. C'est le moteur de prédiction qui fait exactement ce qu'il fait toujours.
Une hallucination est une réponse confiante, fluide, mais erronée, produite par le même processus qui produit des réponses correctes. Le modèle génère toujours la continuation la plus plausible, et parfois le texte le plus plausible n'est tout simplement pas vrai.
Rien dans la boucle ne compare la sortie à la réalité. La plausibilité est la seule cible qu'elle a.
Le modèle porte en lui un certain signal de son incertitude, mais il est faible et peu fiable. L'entraînement pour des réponses confiantes et utiles tend à enfouir le doute qui est présent.
La confiance dans le résultat est surtout une propriété du style d'écriture. La prose autoritaire remplit les données d'entraînement, et l'entraînement pour l'utilité peut récompenser un langage confiant, donc le modèle tend naturellement vers cela.
Une fausse référence qui semble réaliste obtient un score plus élevé qu'un honnête « Je ne suis pas sûr », parce que l'hésitation est plus rare dans le texte dont il a appris.
Demandez quelque chose qu'il connaît à moitié et il complète le modèle avec des détails inventés qui correspondent à la forme d'une vraie réponse.
Formulez une question comme si un fait existait et que la continuation la plus probable était de fournir ce fait, vrai ou non.
Un cas concret. En 2023, un avocat a déposé un mémoire judiciaire basé sur des précédents qu'un chatbot avait inventés, avec des noms, des rapports et des citations réalistes, dont aucun n'existait. Le libellé ressemblait à une véritable jurisprudence, c'est exactement pourquoi cela est passé inaperçu.
| Déclencheur | Pourquoi cela se produit | Ce que vous voyez |
|---|---|---|
| Faits obscurs | Des schémas faibles et minces dans l'entraînement | Détails confiants, spécifiques, erronés |
| Événements récents | Après la coupure de l'entraînement, plus de données | Suppositions plausibles présentées comme des faits actuels |
| Citations & références | Il reconstruit la forme d'un vrai | Sources qui semblent réelles mais n'existent pas |
| APIs de code de niche | Il fusionne plusieurs bibliothèques similaires | Fonctions et indicateurs qui n'ont jamais été réels |
| "Êtes-vous sûr?" | L'accord est un motif commun | Il retourne sa réponse dans un sens ou dans l'autre |
Aucun de ces éléments n'est aléatoire. Chaque ligne est un endroit où le motif le plus fort disponible s'éloigne de la vérité.
S'il ne fait que prédire du texte, pourquoi est-il si facile de croire qu'il y a un esprit derrière ? La réponse est en partie liée au modèle et en grande partie à nous.
Tout au long de notre histoire, un langage fluide et cohérent était un signe fiable d'un esprit pensant. Le modèle brise ce lien, et nos instincts n'ont pas encore suivi.
Des phrases fluides et correctes garantissaient autrefois un auteur humain. Nous lisons encore la compétence comme de la compréhension.
Quand les idées se connectent à travers les paragraphes, nous en déduisons un processus de raisonnement. Le modèle produit ces connexions de manière statistique.
La chaleur, l'hésitation et l'excuse dans le texte sont perçues comme des émotions. Ce sont des schémas stylistiques appris sans rien derrière.
Beaucoup de l'intelligence que nous percevons est apportée par le lecteur. Nous sommes aussi des reconnaisseurs de motifs, prêts à trouver des esprits partout.
Dans les années 1960, les gens se sont ouverts à un script trivial qui ne faisait que reformuler leurs phrases. Le désir de voir un esprit dans un texte réactif est profondément ancré.
Nous nommons nos voitures et nous excusons auprès des meubles. Un système qui dit "Je pense" se voit instantanément attribuer une personnalité.
Étant donné une sortie fluide, nous générons la lecture charitable, lissons les erreurs et créditons le modèle de notre propre inférence.
Il aide à séparer la surface du mécanisme. La même réponse peut être décrite de deux façons, et les deux sont exactes.
Les deux colonnes décrivent le même événement. L'écart entre elles est l'endroit où le mot « intelligent » s'insère discrètement.
Les modèles de raisonnement plus récents semblent réfléchir avant de répondre, et ils sont vraiment meilleurs pour les problèmes difficiles. Le mécanisme reste la prédiction du prochain token, avec plus de marge de manœuvre.
Ils génèrent une longue chaîne de tokens intermédiaires avant la réponse finale. Travailler à travers les étapes en texte augmente vraiment la précision.
Chaque étape de cette chaîne est prédite de la même manière que n'importe quel autre token. Il n'y a pas de moteur logique distinct activé.
Le raisonnement visible est lui-même un texte généré. Un modèle peut produire une explication soignée pour une réponse qu'il a atteinte pour d'autres raisons.
Rien de tout cela ne rend l'outil moins précieux. Cela le rend prévisible. Voici comment le modèle mental se concrétise en pratique.
Reformulez le modèle comme un moteur de motifs rapide et fluide, et ses forces s'alignent clairement. Ce sont les tâches où plausible et utile sont la même chose.
Résumer, reformuler, traduire, reformater. La source est dans la fenêtre, donc il a peu à inventer.
Premiers brouillons, variations et idées pour réagir. Vous êtes l'éditeur, et plausible est exactement ce que vous voulez.
Modèles préétablis, conversions et extraits bien connus. Les modèles forts et communs sont là où il est le plus fiable.
La seule habitude qui vous protège est de lire la sortie comme un brouillon confiant d'un stagiaire brillant mais peu fiable. Utilisez-le, puis vérifiez-le.
Une référence réelle peut être vérifiée. Considérez toute citation comme non confirmée tant que vous ne l'avez pas vue vous-même.
Plus les enjeux sont élevés, plus la confirmation doit être indépendante. Enjeux faibles, approche plus légère.
Le modèle peut éclairer un jugement. Il ne devrait pas être celui qui le prend lorsque le coût de l'erreur est réel.
C'est la bonne façon d'utiliser un outil qui optimise pour un texte plausible, et cela vous coûte très peu une fois que cela devient une habitude.
Un mécanisme, une poignée de conséquences, et un modèle mental que vous pouvez emporter avec vous.
Il lit et écrit des morceaux de texte sous forme de chiffres, pas de mots entiers.
Il évalue le prochain token et en échantillonne un, puis répète la boucle.
Ses capacités sont des motifs figés extraits d'un immense corpus de texte.
Il ne voit que ce qui rentre dans la fenêtre en ce moment, et rien d'autre.
La sortie est la continuation probable, sans vérification de la vérité.
Les mauvaises réponses arrivent avec la même fluidité que les bonnes.
Chaque session commence à froid, sauf si une application rejoue le texte pour lui.
La fluidité combinée à nos instincts crée l'impression de compréhension.
Un moteur de motifs rapide qui rédige magnifiquement sans pouvoir garantir un mot de ce qu'il produit.
Tout ce qu'il produit vise à sonner juste. Vous fournissez la partie qui vérifie si c'est juste.
Confiez-lui le travail de modèle, gardez le jugement et vérifiez tout ce qui compte. Alors, c'est vraiment puissant.
Il prédit extrêmement bien. La compréhension est quelque chose que vous apportez encore à la table.
Un modèle de langage est un moteur de motifs remarquable qui transforme la probabilité en texte fluide. Traitez la sortie comme un brouillon probable, vérifiez ce qui compte, et il trouve sa place. La fluidité est réelle. La compréhension est à vous d'ajouter.