Actualités culturelles

L’IA générative : les modèles de langage, et l’émergence sémantique

Publié le 15 mai 2024

Par Pierre Bourgeois, professeur de mathématiques

Ce 3e article de la série proposée cette année par la NRP s’intéresse aux « grands modèles de langage », dont ChatGPT est l’exemple emblématique. On ne peut comprendre le succès remporté par cette IA générative dès sa mise en ligne en novembre 2022 que si l’on revient sur une avancée théorique de 2017 qui permet aux réseaux neuronaux de « comprendre » le langage naturel. Le dialogue homme/machine peut enfin commencer.

La puissance de ChatGPT

Il n’a fallu que deux mois au programme de la firme OpenAI pour atteindre les cent millions d’utilisateurs. En comparaison, la plateforme de streaming Netflix a dû attendre trois ans et demi pour en avoir autant. C’est la qualité inattendue des réponses fournies qui enthousiasme une partie des utilisateurs de ChatGPT, capable non seulement de répondre correctement mais aussi d’accomplir des tâches annexes liées au traitement du langage naturel : résumer, reformuler, créer du contenu original, traduire des textes simples, engager des conversations, simuler le langage de personnages fictifs…

Avant de voir comment l’émergence d’une telle technologie a été possible, donnons deux exemples récents qui prouvent que les IA génératives remodèlent déjà, chaque jour, nos sociétés.

Le 2 novembre dernier, 53 ans après leur séparation, les Beatles sortent leur toute dernière chanson « Now and then ». Le titre accède rapidement à la première place au hit-parade britannique. Un clip vidéo où l’on voit le groupe interpréter la chanson est mis en ligne. À partir d’une courte bande audio d’époque, de très mauvaise qualité, retravaillée et nettoyée par un programme d’IA générative, la voix de John Lennon a pu être reconstruite en respectant à s’y méprendre le timbre et l’intonation de l’artiste disparu depuis un demi-siècle.

Pour les images et les vidéos, les productions ont atteint un tel niveau de sophistication qu’il suffit de formuler la requête par une simple phrase et l’IA génère le reste. En avril dernier, le photographe allemand Boris Eldagsen refuse le « Sony World Photography Award » qu’il vient pourtant de remporter. L’artiste avoue que la photographie primée qui représente deux femmes en noir et blanc n’est pas un cliché, mais une image générée par l’intelligence artificielle générative, DALL-E d’Open-AI. Il explique qu’il a voulu « faire un test, pour voir si le monde de la photographie était prêt à gérer l’intrusion de l’IA dans les concours internationaux. »

Comment ChatGPT comprend-il mes questions ? Est-ce seulement grâce à son pré-entraînement qui lui a fait ingurgiter une quantité énorme de données textuelles ? Y a-t-il autre chose ? La réponse est à trouver dans les « Large Langage Model » (LLM, cf. encadré). Mais avant de voir ce qui a permis aux LLM de « comprendre » le langage naturel, il nous faut expliquer sommairement ce qu’est un réseau de neurones.

Les réseaux de neurones : des boîtes noires

ChatGPT est un réseau de neurones, de dernière génération, ultra-performant, c’est-à-dire un modèle informatique inspiré par le fonctionnement du cerveau humain. Ce n’est qu’un immense tableau, des cases remplies de nombres. Peu importe l’ingénierie mathématique qui sous-tend son fonctionnement, l’important est de savoir qu’il peut apprendre, ou plus exactement distinguer, différencier, étiqueter.

Un réseau de neurones doit d’abord être entraîné sur un jeu de données, ensuite être testé sur un deuxième jeu de données pour valider son apprentissage, et une fois ces deux phases accomplies, la magie opère : il a appris, et on peut lui proposer de nouvelles données, il saura faire. L’exemple historique a été la reconnaissance d’images, dont la motivation économique était de pouvoir reconnaître le montant manuscrit d’un chèque afin d’en automatiser le traitement. Ce qu’il faut retenir, c’est que ces réseaux de neurones sont des sortes de boîtes noires. Parmi les couches qui les composent, seules celles d’entrée et de sortie sont accessibles, ce qui se passe dans les couches internes demeure caché. C’est pour cela qu’on parle de deep learning, d’apprentissage profond.

Pour ceux qui veulent briller dans les dîners en ville, cet apprentissage profond est basé sur deux principes mathématiques appelés « la descente de gradient » et « la rétropropagation de l’erreur ». Les centaines de millions de paramètres qui relient les neurones des couches cachées sont délicatement modifiés lors de la phase de pré-entraînement pour minimiser, dans un espace très abstrait, la distance entre la réponse fournie et la réponse attendue. Osons une comparaison : imaginez que vous visez une cible. Évidemment, lorsque vous vous entraînez, vous la ratez. Mais dans le cas des réseaux de neurones, c’est un peu comme si vous pouviez reprendre à l’envers votre essai, remonter de la cible à votre main, en modifiant des milliers de petits paramètres pour qu’au coup suivant, l’essai soit meilleur.

L’attention et les LLM, un saut qualitatif

Les deux décennies précédentes ont été marquées par les succès des réseaux neuronaux : AlphaGo, développé par Deep-Mind, a battu le champion du monde du jeu de go, montrant la capacité des réseaux de neurones à maîtriser des jeux stratégiques.

Les réseaux de neurones dits convolutifs ont atteint des performances exceptionnelles dans la reconnaissance d’images. Les réseaux de neurones sont utilisés dans les domaines de la santé tels que la détection précoce de maladies et l’analyse d’images médicales. Les réseaux de neurones profonds sont utilisés pour la perception et la prise de décision dans les véhicules autonomes contribuant à la détection d’objets et à la reconnaissance de panneaux de signalisation.

Pourtant, malgré toutes ces performances prodigieuses, les réseaux de neurones butaient sur la compréhension du langage naturel humain ; ils excellaient face à de petits textes, mais le sens global d’une phrase, dès qu’elle était un peu longue, leur était inaccessible. En fait, la prise en compte simultanée de deux mots éloignés se perdait dans les profondeurs cachées des couches de neurones. Or, quand on dit : « Après des années de dur labeur et de sacrifices, elle a finalement atteint le sommet de sa carrière, devenant une référence dans son domaine », c’est le rapprochement entre « dur labeur » et « atteint le sommet » qui donne le sens, associant les efforts soutenus et le succès professionnel. Ce problème identifié prend le joli nom de « problème de l’évanescence du gradient ». C’est un peu comme une personne qui parle beaucoup et qui soudain, par manque d’attention, ne sait plus ce qu’elle voulait dire.

La solution théorique est arrivée en 2017 dans un article intitulé « Attention is all you need » du chercheur américain Ashish Vaswani. l’IA devient plus « attentive » et repère mieux les liens entre deux mots éloignés dans une phrase. Pour la petite histoire, ces réseaux de neurones sont appelés « Transformers » (le T de ChatGPT vient de là), terme qui vient de la gamme de jouets « Transformers » où un robot peut se transformer en véhicule. Et ça marche au-delà des prévisions : cette nouvelle plasticité permet au réseau de « comprendre » le contexte d’une phrase.

On raconte que « l’émergence sémantique », quand tout à coup la machine a montré pour les premières fois qu’elle « comprenait » le sens global d’une phrase, est apparue dans ses réseaux de neurones de façon non prévue. Un chercheur d’OpenAI, entraînant un réseau de neurones de type « Transformeur » pour qu’il apprenne à deviner le mot suivant (en fait, juste la lettre suivante) dans un avis de client d’Amazon, se rend alors compte que la machine a suffisamment « compris » le contexte de l’avis pour l’étiqueter « avis positif » ou « avis négatif ». Un autre chercheur, pré entraînant un réseau de neurones à prédire la prochaine occurrence d’un signe de ponctuation, se rend compte que le réseau « comprend » le sens global et le contexte du texte analysé. Avant, les prédictions ne fonctionnaient que dans des cas simples : « L’été, je déguste des … à la vanille », la réponse qui s’impose est « glaces » ou « sorbets ».

Aujourd’hui, pour n’importe quelle question, un LLM fournit une réponse qui montre qu’il a compris le sens de la question. Il peut donner une réponse plausible, et peut également en inventer toute une série et créer des mondes nouveaux sous forme de textes ou d’images. L’intelligence artificielle est devenue générative (c’est le G de GPT).

La polysémie, qui fut longtemps un obstacle, n’en est définitivement plus un. Je lui ai posé la question suivante : Comment procèdes-tu, cher ChatGPT, pour différencier le sens des deux mots « particulier »  et «  affaire » dans la phrase suivante : « j’ai fait des affaires lucratives, hier, en particulier, j’ai vendu à un particulier mes affaires de ski. » 

Voici sa réponse : Je comprends que la distinction entre les deux occurrences des mots « particulier » et « affaires » dans la phrase que vous avez fournie peut sembler subtile et dépend du contexte. L’analyse contextuelle dans le modèle GPT-3.5 est basée sur des mécanismes d’attention qui prennent en compte les mots qui entourent chaque occurrence d’un terme donne. La capacité du modèle à effectuer cette distinction repose sur son exposition a des milliards de phrases pendant l’entrainement, lui permettant d’apprendre des modèles linguistiques et de comprendre comment les mots interagissent dans différents contextes. Cependant, il est important de noter que la compréhension du modèle est basée sur des schémas statistiques et contextuels plutôt que sur une compréhension profonde ou une connaissance explicite du sens des mots.

Dans cette dernière phrase ChatGPT reconnaît qu’il ne comprend pas grand-chose, il génère simplement la réponse la plus probable. ChatGPT est un peu comme un acteur déclamant un texte magnifique sans aucune conscience de la signification de ce qu’il raconte.

Si la plupart du temps ces réseaux fournissent les réponses attendues, il est important d’avoir à l’esprit que ChatGPT peut se tromper, et parfois à un tel point qu’on parle, dans ce cas d’« hallucinations ». Il est donc toujours recommandé de vérifier les informations critiques auprès de sources fiables, surtout si des décisions importantes doivent être prises en fonction de ses réponses. La collaboration homme/machine va nous imposer une certaine vigilance.

Sitographie

LLM et réseaux « Transformers »

LLM est l’acronyme de « Large Langage Model », expression qui peut se traduire par « grand modèle de langage » ou « modèle de langage de grande taille » ou encore « modèle massif de langage ». L’avenir et l’usage diront quelle terminologie française prendra le dessus sur les autres.Un LLM est un réseau de neurones de type « Transformer » entraîner sur des milliers ou des millions de giga-octets de texte. Son apprentissage en profondeur sur des données non nécessairement structurées est accompagné d’une analyse probabiliste et lui permet de « comprendre » un texte ou une question et d’y répondre correctement.