L'IA à la loupe : démystifier les modèles génératifs
Vous vous demandez comment fonctionnent vraiment les modèles d'intelligence artificielle générative ? Dans cet épisode, c’est Paul-Alexandre Réaud, CTO chez Virteem, qui vous éclaire sur ce sujet complexe. LLM, open source, AI Act, hallucinations… on fait le point ensemble pour rester pédagogique et expliquer le fonctionnement de l’IA générative en termes simples. Paul-Alexandre partage son expertise et ses expériences professionnelles, notamment l'utilisation des LLM pour des applications sécurisées en entreprise. Plongez avec nous dans les coulisses de l'IA et découvrez les secrets des algorithmes qui façonnent notre avenir technologique.
Paul-Alexandre Réaud, diplômé d’une école de commerce avec une spécialisation en finance, voit sa carrière orientée par sa passion pour la technologie et la programmation.Initialement attiré par l'IA pour développer des algorithmes de trading, il explore ensuite le NLP et l'IA générative pour traiter de manière rapide mais sécurisée des informations confidentielles lors de son passage dans un fonds de VC.C’est à ce moment qu'il rencontre Kevin Soler et qu'il rejoint Virteem en tant qu’associé pour développer Virteem Companion, un outil d'IA générative 100% hébergé en France et sécurisé, qui permet aux employés d'obtenir les réponses à leurs questions en s’appuyant exclusivement sur la base de connaissance de l'entreprise.
Paul-Alexandre Réaud
COO
Julien Redelsperger : « Et pour cela, j'ai le plaisir d'être accompagné par Paul-Alexandre Réaud, qui est CTO chez Virteem, entreprise niçoise spécialisée dans la réalité virtuelle et l'intelligence artificielle. Aujourd'hui avec Paul-Alexandre, nous allons revenir aux fondamentaux de l'IA générative pour parler ensemble des différents modèles existants et de leur fonctionnement. Bonjour Paul-Alexandre, merci de participer à cet épisode d'AI Experience. Comment vas-tu ? »
Paul-Alexandre Réaud : « Bonjour Julien, très content d'être là, ça va très bien et encore une fois, merci pour l'invitation. »
Julien Redelsperger : « Avec grand plaisir. Alors, Paul-Alexandre, tu es un peu un expert qui s'est formé sur le tas, qui a acquis énormément de connaissances en matière d'IA générative. On va parler de tout ça, on va revenir un peu aux fondamentaux, on va essayer d'être très pédagogiques. D'accord. Quand on parle d'IA générative, ma première question pour toi, c'est de se dire qu'on entend beaucoup parler du terme LLM. LLM, ça veut dire en anglais Large Language Model. Est-ce que tu peux expliquer en termes simples ce que c'est et surtout à quoi ça sert ? »
Paul-Alexandre Réaud : « D'accord. LLM, c'est un modèle, c'est un algorithme qui est conçu pour comprendre et pour rédiger du texte à la manière d'un humain. C'est un réseau de neurones qui va être entraîné sur énormément de quantités de textes. On parle de milliards et de milliards de mots et qui va permettre, par une séquence de mots donnés, de donner une autre séquence de mots. Typiquement, on a l'habitude, le plus gros cas qu'on ait vu, c'est GPT-3, GPT-4, etc. sur ChatGPT. Quand on va lui poser une question, on va avoir en sortie une autre réponse et c'est comme ça que ça fonctionne, c'est-à-dire que ça va être capable d'analyser le texte et la façon dont parlent les humains. »
Julien Redelsperger : « Ça veut dire que chaque modèle d'intelligence artificielle dispose de son propre LLM, c'est ça ? »
Paul-Alexandre Réaud : « Exactement. En fait, ce qu'il faut bien voir, c'est que quand on parle de ChatGPT, on parle d'un outil qui est complet. Ce n'est pas uniquement LLM, c'est un outil où vous allez avoir une fonctionnalité d'historique, vous allez avoir des fonctionnalités pour envoyer des messages, etc. Et derrière, les modèles qu'on retrouve chez ChatGPT, ça va être GPT-3, GPT-3.5, GPT-4 et maintenant GPT-4.0. Et donc, on va pouvoir sélectionner le modèle qui est derrière, qui est au cœur de la machine et c'est à lui qu'on va aller poser des questions. Et chacun de ces modèles a des spécificités qui dépendent de leur dataset d'entraînement et sur quoi est-ce qu'ils ont été spécialisés. »
Julien Redelsperger : « D'accord. Et donc, j'imagine que la puissance ou la taille du LLM varie selon les modèles et du coup, plus le LLM est important, gros ou entraîné, plus les résultats vont être meilleurs, j'imagine. C'est ça ? »
Paul-Alexandre Réaud : « Oui, donc il y a deux choses qui sont liées à la taille du LLM. Plus un LLM est gros, plus généralement il est entraîné sur une quantité de data qui est très importante et plus il va être généraliste. En fait, c'est l'exemple parfait, c'est ChatGPT et GPT-4. On a un modèle qui est gigantesque, qui fait 1,8 trillion de paramètres, donc c'est colossal et il va être très général, il va être excellent pour répondre à des questions du quotidien ou des questions historiques, par exemple, parce qu'il a emmagasiné énormément d'informations. Par contre, on a des usages de l'IA qui nécessitent d'avoir des modèles qui sont spécialisés et en fait, la plupart des modèles, même plus petits, une fois qu'ils ont été entraînés sur des tâches spécialisées, ce qu'on appelle le fine tuning, ils vont être bien meilleurs à la réalisation de cette tâche qu'un modèle qui est généraliste. Ça, ça a été prouvé sur des benchmarks. Aujourd'hui, on a des modèles qui sont bien plus petits, des modèles open source ou pas d'ailleurs. Je pense par exemple à Liama, le modèle de Meta, qui une fois entraîné sur des tâches spécifiques va être bien meilleur en tout cas qu'un GPT-4 sur cette tâche. »
Julien Redelsperger : « Tu peux donner quelques exemples d'un LLM entraîné sur des modèles spécifiques, juste qu'on comprenne bien la différence entre des LLM généralistes type ChatGPT et puis des LLM peut-être un peu plus précis ? »
Paul-Alexandre Réaud : « Alors en fait, tous les LLM peuvent être spécialisés. Je m'explique, quand on a un LLM, il a eu un entraînement de base, c'est-à-dire qu'on va donner tout un tas d'informations à ce LLM qu'il va digérer, avoir une quantité d'informations qui est définie et ensuite, on va pouvoir le fine-tuner. On parle donc, le fine-tuning, c'est quoi ? C'est tout simplement permettre au LLM de s'améliorer sur des tâches qui sont précises et d'orienter ses réponses. Typiquement, nous chez Virteem, on utilise Mistral comme LLM de base et on l'a fine-tuné sur un dataset qui est propriétaire. Pourquoi ? Pour s'appliquer dans l'usage qu'on a, c'est-à-dire d'aller chercher de l'information dans des documents, de les reformuler et de faire de la synthèse. Donc, il va être excellent pour faire de la synthèse sur des documents qui sont des documents type entreprise par exemple. Ça va être possible de fine-tuner un modèle sur, par exemple, des domaines comme le droit. On va être capable de les améliorer sur certaines choses. Le code et les maths, c'est aussi un très bon exemple. Mistral qui a sorti très récemment CodeStral par exemple, qui est un modèle qui est spécialisé dans la rédaction de code informatique. »
Julien Redelsperger : « D'accord. Donc, en fait, de la manière dont tu entraînes ton LLM dépend la qualité de la sortie derrière, quand tu l'interroges, c'est ça ? »
Paul-Alexandre Réaud : « Exactement. En fait, la data, c'est vraiment l'enjeu de l'IA. C'est la qualité de la data en entrée et à l'entraînement qui va permettre d'avoir un LLM et un modèle qui est très précis. D'accord. Donc, là, on a des démarches itératives sur comment raffiner ces datasets-là pour avoir un modèle le plus précis avec le moins de taille possible parce qu'il y a aussi évidemment une question d'efficience là-dedans. »
Julien Redelsperger : « Et je disais en introduction, donc toi tu es CTO chez Virteem. Comment est-ce que vous travaillez en interne avec tes équipes sur justement ces LLM ? Tu peux nous expliquer, nous donner peut-être quelques exemples ? »
Paul-Alexandre Réaud : « Alors, nous, c'est assez simple. À la base, on a un modèle qui s'appelle Mistral. Mistral, 7 milliards de paramètres, qui est un modèle open source français qui a été publié par Mistral, la société du même nom. Et nous, notre rôle, ça va être de le fine-tuner sur notre cas d'usage. C'est-à-dire que Héloïse, qui est notre directrice de la R&D, va avoir un dataset qu'on a constitué au fil du temps avec des documents et des paires de questions-réponses qui correspondent à notre cas d'usage, c'est-à-dire la recherche dans les documents et le monde professionnel en général. Et elle va le faire s'entraîner là-dessus. Et donc, on va avoir un modèle qui, en sortie, est une version modifiée de Mistral, qui est bien plus performante sur les cas d'usage sur lesquels on l'utilise et qui va du coup être beaucoup plus précis. Et ça va éviter tout un tas d'hallucinations ou de phrases qui sortiraient du contexte et qui n'auraient pas de sens dans ce cas d'usage-là. »
Julien Redelsperger : « D'accord. OK. Alors, si on revient un peu sur l'IA générative, on va dire de manière globale, est-ce que tu peux nous expliquer concrètement comment ça fonctionne ? Quels sont les mécanismes et qu'est-ce qu'il se passe en arrière quand j'écris, quand je demande quelque chose à ChatGPT et que j'appuie sur la touche Enter ? »
Paul-Alexandre Réaud : « Alors, en fait, une IA, en tout cas l'IA générative comme on la connaît aujourd'hui, c'est des modèles qui sont des réseaux de neurones. Ces réseaux de neurones, on les appelle "transformers". C'est une technologie qui a été introduite en 2017 par Google dans un papier qui s'appelle "Attention is all you need". Et globalement, ça va permettre à ces neurones-là, quand ils vont constater une phrase qui va être entrée par l'utilisateur, ils vont être capables de traiter chaque mot avec le contexte global de la phrase. Et donc, du coup, l'attention, c'est ça, c'est d'être capable de dire tel mot est en relation avec tel mot et de faire en fait une pondération de l'importance des mots et donc de reconstituer comme ça le sens d'une phrase. Et le but, comme je l'ai expliqué tout à l'heure, c'est de dire on a une séquence en entrée, c'est du sec tout sec, donc une séquence en entrée qui va produire une séquence en sortie. Et donc, la séquence en sortie, c'est la réponse qu'on va avoir de ChatGPT. »
Paul-Alexandre Réaud : « Après, c'est aussi important de préciser que ChatGPT, ce n'est pas uniquement LLM, en fait, c'est tout un produit qui va autour. Et quand on voit, par exemple, un ChatGPT-4 qui est capable de produire du code, faire des recherches sur Internet, etc., en fait, il va avoir à sa disposition non seulement un LLM, mais aussi tout un tas d'outils de type recherche sur le web, génération de code pour GPT-4.0, création d'images. Et en fait, c'est ce qu'on appelle un agent d'IA, donc c'est un système agentique. C'est-à-dire que quand l'utilisateur va poser une question, l'IA, elle va lire cette question, déterminer quel est le bon outil à utiliser, s'il faut utiliser la connaissance du LLM, s'il faut plutôt aller chercher sur Internet, etc. Et donc, produire le contenu qui est le plus pertinent. »
Julien Redelsperger : « D'accord. On parle parfois des IA multimodales. Ça veut dire quoi ? Tu peux expliquer rapidement ce concept d'IA multimodale ? »
Paul-Alexandre Réaud : « Alors, l'IA multimodale, c'est une IA qui va être capable d'avoir en entrée, pas uniquement du texte, mais aussi de l'image. Ça peut être de la voix, du son ou de la vidéo. La plupart du temps, on a des modèles qui sont spécialisés sur la voix. On a des modèles qui sont spécialisés sur la vidéo. Et quand on est face à un GPT-4.0 qui est multimodal, en fait, ça va être un branchement de plusieurs modèles. C'est là où, entre guillemets, ils trichent un peu et c'est un peu compliqué de les comparer à d'autres LLM. C'est qu'en réalité, c'est un agrégat de modèles qui ont tous des fonctionnalités différentes et notamment un pour générer de l'image et un pour récupérer du son, etc. Donc, la multimodalité, c'est la capacité à traiter différents types de formats et de médias, c'est ça ? Du texte, de l'image, de la vidéo, de la voix, etc. Qui sont traités par plusieurs modèles différents, qui sont imbriqués les uns aux autres par ce système d'agent. »
Julien Redelsperger : « Alors, ChatGPT, c'est un modèle, ce qu'on appelle propriétaire, qui a été développé par OpenAI. À l'inverse, on a d'autres modèles comme Liama, qui appartient à Meta, qui lui est plutôt un modèle open source. Exactement. C'est quoi la différence fondamentale entre un modèle open source et un modèle propriétaire ? Comment ça fonctionne et est-ce que tu peux donner quelques exemples ? »
Paul-Alexandre Réaud : « Alors, bien sûr. Dans la partie modèle propriétaire, on a tous les modèles d'OpenAI, paradoxalement avec le nom, passé GPT-3, donc GPT-3.5, GPT-4. On a aussi les modèles de Google, par exemple Gemini. Ça fait partie de ces modèles qui sont propriétaires, dans le sens où on n'a pas accès au code qui a servi à constituer l'IA. On n'a pas accès aux données d'entraînement. Et le seul moyen d'interagir avec, c'est via une API, donc on est contrôlé dans l'usage, la fonctionnalité, etc. Un modèle open source, c'est surtout une question de licence. Qu'est-ce qu'on a le droit de faire avec ce modèle-là ? Le bon exemple, c'est les modèles de Meta comme Liama ou alors Mistral, qui a sorti certains modèles également en open source et qui vont permettre aux utilisateurs de la communauté de le modifier, l'enrichir, l'adapter et de s'en servir pour un usage soit pour de la recherche, soit pour un usage qui peut être commercial. Donc, on est sur une question principalement de droit. Qui a le droit d'utiliser quoi ? Au site d'explicabilité, parce que le modèle d'OpenAI est extrêmement opaque. On n'a pas d'informations sur... On a des estimations sur la taille, les données qui ont servi à l'entraîner, mais au final, on n'a rien de concret. Là où un Mistral et un Meta vont donner tout ou en tout cas partie de ce qui a servi à l'entraîner et vont permettre en tout cas de créer une surcouche sur ces modèles. »
Paul-Alexandre Réaud : « Et c'est extrêmement important. Pourquoi ? Parce qu'on est dans un moment qui est vraiment clé et charnière sur l'utilisation de l'IA. On est dans une phase où il y a un quasi-monopole de la part de OpenAI et où donc une utilisation massive d'une IA comme ça peut engendrer plein de problèmes différents du type, si j'utilise uniquement ChatGPT pour avoir accès à mes informations, je vais avoir un point de vue différent. Donc, en fait, si on veut une pluralité de points de vue, théoriquement, il nous faudrait une pluralité de LLM. Et c'est ça aussi qui peut être intéressant. Je pense qu'il y a aussi un bon exemple concernant la pluralité d'opinion, c'est Grok, qui est le modèle d'Elon Musk qui a été fait par Twitter et qui a une patte, on va dire, un peu plus pincante. Des fois, il est capable de faire de l'humour, voire même de l'humour noir, là où un ChatGPT va être très polissé, très politiquement correct. Donc, en fait, le fait d'avoir ces différents modèles, ça va permettre à la fois d'éviter une situation de monopole, d'accélérer la recherche avec un système collaboratif et d'être utilisé par des sociétés qui n'auraient pas l'argent, parce que ça peut être extrêmement cher d'entraîner un modèle, pour créer des modèles propriétaires. »
Julien Redelsperger : « Est-ce qu'on peut dire qu'un peu chaque modèle a sa propre ligne éditoriale ? Tu parlais un peu de Grok et le ChatGPT. »
Paul-Alexandre Réaud : « C'est presque ça. Il y a plusieurs choses qui changent. En fait, comme le dataset d'entraînement est différent, il va avoir accès à une connaissance qui est différente. Et donc, à ce moment-là, s'il a été orienté plutôt sur un tel type de contenu, il aura plus telle vision et telle ligne éditoriale. »
Julien Redelsperger : « Et pour une entreprise qui souhaite utiliser des modèles existants d'intelligence artificielle pour développer des logiciels ou autres, ce que vous faites par ailleurs chez Virteem. Pourquoi est-ce que c'est plus intéressant d'aller vers un modèle plutôt qu'un autre ? Pourquoi vous, vous avez choisi Mistral plutôt que ChatGPT, par exemple ? »
Paul-Alexandre Réaud : « Alors, la différence entre Mistral et ChatGPT, pour nous, ce qui était important, c'est qu'on voulait un modèle qui puisse être hébergé 100% en France et avec une question de gouvernance et de cybersécurité qui était très forte. D'accord. On travaille principalement avec des grands groupes, qui sont des grands groupes français, et où les directions de services informatiques ont des exigences sur la sécurité et l'hébergement des données, qui est très importante. Il faut voir que quand on envoie de l'information à ChatGPT, c'est comme si on l'a publiée sur Internet. C'est-à-dire que c'est une entreprise qui est privée, certes, mais qui va se servir de ces données-là pour entraîner ses futurs modèles. Et donc, demain, je fais fuiter dans OpenAI et dans GPT-4 un mail avec, par exemple, un numéro de téléphone ou un email en bas de page. Potentiellement, cette information va se retrouver plus tard dans le modèle et on pourra l'extraire par tout un tas de méthodes. Donc, nous, on voulait vraiment avoir un contrôle à 100% sur le modèle et son utilisation. C'est pour ça qu'on a décidé de partir sur Mistral et de le fine-tuner. »
Paul-Alexandre Réaud : « Finalement, le choix entre des modèles open source et des modèles propriétaires, c'est un premier choix. Ensuite, il faut faire le choix entre les différents modèles open source. Et là, on fait des benchmarks, c'est-à-dire qu'on va faire toute une série de tests à ces différents modèles pour estimer lequel est le meilleur. Typiquement, Mistral, on l'a choisi parce qu'il a une capacité à répondre en français qui est probablement la meilleure du marché. Et c'était beaucoup plus facile pour nous de l'entraîner sur du contenu français que d'autres modèles. »
Julien Redelsperger : « Mais est-ce qu'on peut dire aussi que les modèles open source sont plutôt gratuits et les modèles propriétaires sont plutôt payants ? C'est toujours vrai ça ou pas ? »
Paul-Alexandre Réaud : « Alors, ce n'est pas toujours vrai. La plupart des modèles open source sont gratuits, utilisables commercialement. Après, ça dépend des licences et le nombre d'utilisateurs. C'est-à-dire que si vous faites un produit qui cartonne et qui a plus de 70 millions d'utilisateurs, par exemple, Liama est en droit de vous vendre une licence derrière pour que vous puissiez utiliser son modèle, ce qui est normal. Il y a aussi beaucoup de modèles open source qui ne sont pas utilisables commercialement, mais qui ne sont dédiés qu'à la recherche, par exemple, pour aider le monde universitaire et pour faire avancer la science, mais pas forcément pour une utilisation qui entraîne ensuite une exploitation monétaire. La plupart des modèles privés sont évidemment payants et on y accède via une API. Donc, en l'appelant et directement en mettant le message en entrée, en recevant une sortie, sans savoir en fait tout ce qui se passe au milieu. Donc, il y a aussi ce côté opaque du modèle privé. »
Julien Redelsperger : « Donc, quand une entreprise propose un logiciel ou un chatbot sur son site web qui est nourri à l'intelligence artificielle, côté client, en fait, on n'a aucune idée de ce qui se passe. On ne sait pas quel modèle est utilisé, quelle techno, si c'est open source ou propriétaire et où vont les données. C'est ça le problème. »
Paul-Alexandre Réaud : « Exactement. Ça peut être opaque. Alors, c'est quelque chose qui va être amené à changer avec l'AI Act qui a été voté par l'Europe. Donc, on va être obligé de spécifier, en tout cas dans un document qui va être donné aux régulateurs, les différents types de documents d'entraînement, ce qu'il y a derrière et d'ouvrir un petit peu plus, qu'on ait des informations sur ce qui se passe. Par contre, c'est vrai que pour l'utilisateur, il ne sait pas forcément quel modèle il a derrière. Nous, on communique beaucoup sur notre modèle parce qu'on veut être le plus transparent possible et on a cette importance de la gouvernance et de la cybersécurité qui est vraiment au cœur de notre produit. Mais on peut tout à fait imaginer que je ne cite pas, par exemple, le modèle qu'on a derrière et l'utilisateur ne s'en rendra pas compte. Donc, voilà un petit peu comment ça se passe sur un outil. Et en fait, il faut voir un truc, c'est que quand on crée un produit autour de l'IA, la plupart du temps, on ne fait pas de l'IA pour de l'IA, on est là pour répondre à une problématique. Et donc, il y a des sociétés qui n'estiment que ce n'est pas forcément important de mettre en avant leur modèle, mais plutôt de mettre en avant l'agrément d'utilisation, l'expérience utilisateur et donc de ne pas forcément insister sur quel modèle il y a derrière. »
Julien Redelsperger : « D'accord, ok. Alors, tu disais tout à l'heure, effectivement, chaque solution d'IA générative a un peu ses propres versions. Tu parlais de GPT-3.5, 4, 4.0. Pour Meta, on parle de Liama 2, Liama 3. Est-ce qu'il y a vraiment des grosses différences entre ces modèles et surtout, comment est-ce qu'on fait pour choisir le bon modèle selon le bon cas d'usage ? Est-ce que tu as quelques conseils, bonnes pratiques à partager ? »
Paul-Alexandre Réaud : « Exactement. Alors, quand on a pour choisir entre un Liama 2, un Liama 1 ou un Liama 3, en général, la dernière version est la meilleure. C'est souvent comme ça. Donc, en général, par exemple, chaque GPT, chaque nouveau GPT améliore de quasiment 20% la pertinence des réponses. Donc, à chaque fois, on est sur un modèle qui est de plus en plus pertinent, de plus en plus précis, de plus en plus gros souvent et avec un entraînement qui est assez fin. Après, quand on va chercher une utilisation qui est particulière de ces modèles-là, le mieux, ça reste encore de faire des benchmarks. Quand on en a besoin, comme nous, par exemple, dans un cas d'usage qu'on appelle du RAG, Retrieval Augmented Generation, on va avoir besoin d'un modèle qui va très facilement comprendre qu'on veut synthétiser du texte et ensuite formater le texte et sa réponse d'une certaine manière. Donc, il y a des modèles qui sont meilleurs à ça que d'autres. Il y a plein d'exemples. On a Coer, par exemple, qui est une entreprise qui a développé Command R+, qui est très fort pour faire du choix dans tout ce qui va être… Je donne une requête et ça va transformer ça en requête API, donc de transformer une demande en texte en demande informatique. Donc, est-ce que je vais aller chercher de l'image ? Est-ce que je vais aller chercher du texte ? Est-ce que je vais aller sur Internet ? Et de prendre des choix comme ça. Donc, on a des modèles qui sont spécialisés, encore une fois, selon le cas d'usage, sur du code, la génération d'images ou autre. Donc, ça va être ça, les différentes versions vont correspondre à la fois à un niveau de qualité et un standard de qualité et à la fois à un cas d'usage qui est spécifique. Et ça peut même être sur des langues différentes, par exemple. »
Julien Redelsperger : « Donc, on voit qu'il y a des différences assez fortes entre les deux. Est-ce qu'on peut dire que plus le modèle est gros, plus il est lent ? C'est toujours vrai ça ou pas ? Parce que j'ai l'impression que le dernier GPT-4.0 est plutôt rapide alors qu'il a l'air plus gros. »
Paul-Alexandre Réaud : « Alors, il y a plusieurs choses qui rentrent en compte sur la vitesse d'exécution d'un modèle. Déjà, la première, c'est que GPT-4 et GPT-4.0 sont des mixtures of expertise, c'est-à-dire qu'en fait, c'est un gros modèle qui va en combiner plusieurs petits. Et donc, quand il va être appelé, ce qu'on appelle l'inférence, il ne va pas utiliser 100% de ses capacités. Donc, en fait, s'il n'a besoin que de 25%, on va dire, de sa connaissance, il va être capable d'aller beaucoup plus vite puisqu'il va utiliser beaucoup moins de capacités. Ce qui va aussi être un facteur limitant, ça va être l'infrastructure. Et aujourd'hui, c'est vraiment un des sujets au cœur de l'IA, c'est comment est-ce qu'on va être capable d'héberger ces modèles aussi gros et de les faire tourner extrêmement vite pour une demande en temps réel avec le public. Là, en l'occurrence, OpenAI ont des énormes baies de serveurs avec des cartes graphiques, ce qu'on appelle des GPU, qui vont accélérer la vitesse de réponse du modèle. Donc, si on a un énorme serveur avec d'énormes GPU, on va être capable de faire tourner des modèles extrêmement gros. Mais évidemment, il y a aussi une question d'efficience, d'impact climatique également. Et donc, d'avoir un plus petit modèle spécialisé, ça veut souvent dire moins de capacités de calcul, donc moins d'impact et surtout une exécution qui est plus rapide. »
Julien Redelsperger : « Ok, alors quand on parle d'IA, il y a un sujet, tu en as parlé très rapidement au début de l'entretien, c'est le sujet des hallucinations. Alors, pour expliquer très rapidement une hallucination, c'est quoi ? C'est simplement le modèle d'IA qui crée une information qui est fausse, mais de manière très convaincante. Il peut inventer des personnages, des dates, des événements, etc. Comment ça fonctionne ? Est-ce que tu peux expliquer un peu la problématique autour de ces hallucinations ? Comment vous, chez Virteem, vous faites pour les traiter ? Et surtout, est-ce que c'est facile à détecter ? Et comment on peut vraiment faire en sorte de ne pas se faire piéger quand on est une entreprise ? »
Paul-Alexandre Réaud : « Alors, ce n'est pas évident. L'hallucination, c'est quand même un vaste sujet. Globalement, quand on a un modèle de langage, c'est un modèle qui est probabiliste. J'ai le chat chasse dans la cuisine. Il y a une forte probabilité que ce soit la souris, le mot qui manque. Sauf qu'en fait, si c'était chasse le mulot ou chasse le renard, j'en sais rien, l'IA n'a aucun moyen de le savoir parce qu'elle n'a pas le contexte suffisant. C'est pour ça que nous, des fois, on va avoir sur des modèles qui sont généralistes, comme j'ai dit, des réponses qui sont parfois approximatives ou avec des erreurs. Il va toujours privilégier d'avoir une réponse à la question qui est demandée puisque la probabilité d'avoir une réponse est plus importante à la probabilité de ne pas en avoir, depuis la quantité de documents qu'il a. Et donc, du coup, il va mettre en avant une réponse qui est parfois fausse, partiellement fausse ou avec des faux positifs. »
Paul-Alexandre Réaud : « Donc nous, comment est-ce qu'on arrive à gérer ça chez Virteem ? On a un cas d'usage déjà qui est assez particulier. On fait ce qu'on appelle du RAG. Et donc, comme je l'ai dit au Retrieval Augmented Generation, on va nourrir l'IA d'un bout de texte, enfin plusieurs bouts de texte qui proviennent de documents qui ont été publiés par l'entreprise sur notre plateforme. Donc à partir de là, en fait, le travail de l'IA va être surtout de reformuler l'information. Elle ne va pas avoir un travail de dire je récupère dans mon savoir pour fournir une information sur le tas. Donc déjà, ça enlève une grande partie des erreurs et ça permet de dire cette information provient de documents. On a les sources, ça c'est aussi très important. On affiche les sources qui sont consultables de ce qui a servi en fait à répondre à la question. Et en fait, on a aussi tout un tas de guardrails qui font qu'on est capable de dire voilà est-ce qu'il est en train de dire quelque chose qui est partiellement faux ? Est-ce qu'on a l'information suffisante dans les documents pour pouvoir le dire ? Et ça, ça va se faire en fait par la similarité sémantique, donc la similarité dans le sens des mots entre le texte qui a été publié par l'entreprise, typiquement ça peut être une convention collective, et la question qui est posée par l'utilisateur et la réponse. Et donc du coup, comme ça, on va être capable de réduire à quelques pourcents l'erreur et les hallucinations. Il faut savoir qu'un GPT-4 aujourd'hui, on estime qu'il a en fait 95 à 96% de bonnes réponses. Ça fait quand même 4% d'hallucinations et ça peut être assez grave. Donc je donne un exemple, mais dans un milieu professionnel, si demain on se sert de l'IA pour aider dans la manutention, si je dois redémarrer une machine qui est potentiellement dangereuse et que je tombe sur ce 4% d'hallucinations, je peux potentiellement perdre un doigt ou ça peut être grave. Et c'est pour ça que c'est très important dans des applications business, surtout quand il y a un impact qui peut être important sur la sécurité. Nous, on travaille beaucoup avec des groupes industriels sur de la procédure et ce qu'on appelle de la QSE. Donc c'est important pour nous d'avoir quelque chose qui est véridique et avec des sources qui peuvent être vérifiées par le collaborateur. »
Julien Redelsperger : « D'accord. Et donc si je t'entends bien, le taux d'hallucination a tendance à diminuer quand on demande à l'IA de travailler à partir d'un contenu existant qu'on lui fournit, c'est-à-dire de reformuler, de résumer, de réexpliquer, plutôt que de créer ex nihilo un contenu. C'est ça ? »
Paul-Alexandre Réaud : « Exactement. En fait, c'est comme si on disait à quelqu'un "Récite-moi quelque chose que tu as appris" ou au contraire, qu'on lui donnait la feuille avec tout ce qu'il faut marquer et lui dire "Fais-moi un résumé de cette feuille-là". Il y a beaucoup plus de chances qu'il se trompe s'il le récite par cœur plutôt que de dire "Je prends ce qu'il y a sur la feuille et je la reformule". Là, en l'occurrence, on n'arrive pas avec juste une feuille avec l'information, on arrive avec plein de bouts de texte qui viennent de documents différents. Et donc, du coup, il a ce travail de reformulation-là à faire. »
Julien Redelsperger : « Est-ce que tu sais si les entreprises communiquent sur le taux d'hallucination, que ce soit OpenAI, que ce soit Mistral, Google ou Meta ? »
Paul-Alexandre Réaud : « C'est assez rare, surtout sur les modèles fermés. Sur les modèles ouverts, c'est très facile de faire des benchmarks et on a aujourd'hui des protocoles de test qui vont permettre de voir si la réponse est bonne ou pas, notamment des évaluations humaines. C'est tout bête, mais on va lui poser 500, 1000, 2000 questions et on va demander à quelqu'un de dire "Est-ce que cette réponse te paraît bonne ? Est-ce qu'elle ne te paraît pas bonne ?" etc. Basé sur de l'information, on va être capable comme ça de détecter l'erreur et aussi sur des paires de questions-réponses qui sont déjà préenregistrées, où on va faire comme un texte à trous. On va chercher la réponse au modèle et si la réponse est la bonne, on va estimer qu'il a raison. Donc à partir de là, on va être capable de mettre un pourcentage, un score sur la capacité qu'il a à délivrer de l'information qui est véridique. »
Julien Redelsperger : « Ok. Alors toi, tu es donc, je le disais, un CTO dans une startup qui utilise l'IA générative. Quels sont les challenges, quels sont les défis techniques auxquels tu fais face dans ton métier quand on parle d'intelligence artificielle ? »
Paul-Alexandre Réaud : « Évidemment, des défis, on en a plein. Tu fais bien de mentionner le défi humain. C'est vrai que c'est des compétences aujourd'hui qui sont assez rares pour trouver des développeurs et des ingénieurs qui sont spécialisés sur l'IA. Il y en a de plus en plus, mais c'est une vraie guerre des talents. Donc ça, c'est important de le souligner aussi. On a de la chance d'avoir Eloïse qui est une des rares PhD en IA et en cybersécurité en France. Ensuite, c'est un milieu qui bouge très vite et qui bouge beaucoup. Donc on est toujours en train de se remettre en question, de changer de modèle. Pendant le développement de Virteem Companion, on a déjà changé trois fois de modèle et c'est aussi notre rôle en tant que prestataire de pouvoir dire on a cette agilité de changer, d'améliorer le modèle au fur et à mesure. Là où une entreprise qui va le développer pour elle-même va sûrement faire moins de repasses et d'évolution continue. »
Paul-Alexandre Réaud : « Après, les grands enjeux qui sont liés à l'IA, moi j'en vois deux gros, principalement l'infrastructure. Aujourd'hui, ça coûte très cher de faire fonctionner de l'IA. Alors on estime quand même que ça coûte deux fois moins cher tous les 16 mois. Donc ça avance assez vite. Mais l'infrastructure, ça reste quelque chose de... c'est un gros pôle de dépense et c'est quelque chose d'extrêmement important pour faire tourner ces modèles qui sont très gourmands. Et également, on a une question sur la data. Le facteur limitant aujourd'hui, ce n'est pas vraiment la technologie, qu'on maîtrise plutôt bien la technologie des LLM. Comme je l'ai dit, ça date de 2017 et même avant, on avait déjà d'autres formes de LLM. Mais c'est d'avoir une quantité de data qui est suffisamment grande et suffisamment détaillée pour améliorer finalement les modèles. Aujourd'hui, un GPT-4 a été entraîné sur quasiment l'intégralité du contenu disponible publiquement sur Internet. Donc ça fait énormément, énormément de data. Mais au final, c'est assez peu quand on compare par exemple à ce qu'expérimente un humain dans la vraie vie. »
Paul-Alexandre Réaud : « Donc aujourd'hui, il va falloir les entraîner avec de la vidéo, du son, d'autres sources finalement pour qu'ils deviennent de plus en plus performants et surtout avec des sources de qualité. Parce que si on commence à les entraîner sur du contenu qui est généré par d'autres IA, en fait, on arrive vite à un plafond de verre. Ça a été la mode pendant un petit moment quand il y a eu la sortie de GPT-3.5 de dire on fait des modèles et on les entraîne sur des datasets créés par GPT-3.5. En fait, on a rattrapé le niveau de GPT-3.5 très vite, mais on avait toujours ce petit plafond d'écart entre les modèles qui faisait que c'était difficile de les dépasser. Donc la data est vraiment au cœur de notre sujet. Nous, on travaille vraiment au quotidien pour améliorer notre dataset et toujours améliorer le modèle. »
Paul-Alexandre Réaud : « Et ensuite, on a une question aussi sur l'explicabilité des modèles. Je pense que ça aussi, c'est quelque chose sur lequel on va faire un gros pas en avant dans les prochains mois. Aujourd'hui, finalement, c'est assez compliqué d'expliquer pourquoi un modèle donne cette réponse et pas une autre. Donc, ça nous oblige à mettre en place tout un tas de guardrails pour éviter qu'il ait des propos qui sont injurieux ou alors de lui faire dire des choses qu'il ne devrait pas dire en fonction de la question. »
Julien Redelsperger : « Alors toi, ça fait plusieurs mois que tu travailles évidemment sur ce sujet, que tu connais bien, mais ce n'est pas le cas de toutes les entreprises. Quel conseil est-ce que tu pourrais donner à une organisation qui débute avec ce sujet de l'IA DLLM pour développer ou intégrer une solution d'IA générative ? »
Paul-Alexandre Réaud : « Alors, quand on parle des sociétés qui n'ont pas pour vocation de devenir des sociétés d'IA, c'est-à-dire produire vraiment des outils IA et les vendre. Quand on parle de n'importe quelle société qui souhaiterait développer des outils pour de l'interne, pour résoudre un vrai problème, je conseillerais de faire pareil que quand on choisit une solution logicielle classique. Typiquement, il faut identifier un besoin qui est un besoin réel, qui remonte souvent des équipes métiers, que ce soit des besoins sur du RH, de la formation, que ce soit sur de l'aide à la vente par exemple, et qu'en fait on identifie ces pain points-là et qu'on soit capable de dire si oui ou non une solution IA apporterait un ROI qui est suffisant pour justifier l'investissement dans de telles technologies. »
Paul-Alexandre Réaud : « Aujourd'hui, l'IA, ça coûte cher. Si demain j'ai un cas d'usage qui est trop précis et qui ne va pas générer assez de cash par rapport à l'investissement qu'on a mis dans une solution d'IA, ce n'est peut-être pas le moment de le faire. L'IA va devenir de moins en moins chère, on va avoir des cas d'usage qui vont exploser dans tous les sens et l'IA va devenir une commodité. Donc il y en aura partout, mais aujourd'hui il faut prioriser sur les cas avec des ROI les plus intéressants. Typiquement, nous, notre cheval de bataille avec Virteem, c'est de faire gagner du temps aux collaborateurs dans la recherche d'informations. Il y a une étude de McKinsey qui montre que les collaborateurs perdent en moyenne 1,8 heures à chercher de l'information propre à l'entreprise dans la journée. Donc en fait, nous, notre ROI, il est très simple. C'est-à-dire que les gens perdent deux heures. Si on arrive à leur faire gagner à tous 20 minutes, multipliées par le nombre de collaborateurs dans une entreprise de plus de 300 personnes, à ce moment-là, le ROI, il est plutôt facile à calculer. Si on est sur d'autres types de sujets, typiquement sur du SAV, pareil, le ROI est extrêmement simple à calculer parce qu'on fait gagner du temps aux gens et on fait gagner en productivité. Donc voilà, je pense que le mieux pour commencer dans l'IA générative, c'est d'abord d'identifier des points qui sont des pain points, voir si le ROI est direct et ensuite aller chercher soit le meilleur prestataire, soit les meilleurs talents pour développer des solutions qui sont le plus agile possible et le plus modulable parce qu'on sait qu'on va avoir énormément d'innovations dans le futur et dans les mois qui suivent. Donc, c'est important d'avoir cette capacité de rebondir assez vite. »
Julien Redelsperger : « D'accord. Pour une DSI, pour une direction des systèmes d'information, on va dire classique, traditionnelle, qui n'est pas forcément acculturée à l'IA, est-ce que c'est compliqué de faire ce switch ? Est-ce que c'est compliqué de passer en mode IA, d'implémenter des systèmes ou est-ce qu'il vaut mieux externaliser cette partie-là ? »
Paul-Alexandre Réaud : « Alors, ça dépend de la taille de la DSI. Parce qu'il y a une grosse partie formation, il y a une partie recrutement, aller chercher des bons talents, se former, etc. Il y a une grosse partie formation, il y a une grosse partie d'acculturation aussi à l'usage de l'IA et toutes les DSI ne sont pas forcément prêtes à y aller. Nous, on travaille avec des grands groupes, donc on a souvent en face des DSI qui sont très bien équipés en termes de ressources humaines. Mais c'est vrai qu'il n'y a pas toujours les talents à disposition sur des sujets qui sont finalement assez neufs. Donc, ça peut être compliqué de ce côté-là. »
Paul-Alexandre Réaud : « D'un autre côté, passer par un prestataire externe, ça permet d'éviter de se mettre dans une phase de développement continu sur des produits qui ne le nécessitent pas forcément et de bénéficier des innovations et des dernières innovations du marché sans avoir à chaque fois à réallouer des budgets de développement, de suivi, de gestion de projet, etc. Donc, ça peut leur enlever énormément de poids et se concentrer vraiment pour eux sur leur vertical métier et ce qui leur apporte de l'argent. Donc, voilà un peu comment je vois les choses par rapport à ça. »
Julien Redelsperger : « D'accord. Et si on se projette dans le futur, comment est-ce que tu vois l'évolution des LLM et de l'IA générative en général dans un an, trois ans, cinq ans ? À quoi ça va ressembler ? »
Paul-Alexandre Réaud : « C'est une très bonne question. Je pense qu'il va y avoir un gros changement. Ça va être la généralisation des systèmes d'agent dont je parlais tout à l'heure, c'est-à-dire qu'on va être capable de brancher les modèles de langage à de plus en plus d'outils différents et donc se rapprocher de ce qu'on appelle aujourd'hui l'intelligence artificielle générale. C'est un grand mot et qui ne veut pas forcément toujours dire grand-chose, mais en fait, l'intelligence artificielle générale, c'est surtout la capacité d'un LLM d'appeler d'autres outils. Techniquement, c'est comme ça en tout cas que ça se représente. Et donc là, on va être capable, grâce à des LLM, demain, de brancher tout un tas d'outils métiers, de brancher des réseaux sociaux, de la publication, de la gestion de paie. Ça peut être aussi des virements. En fait, on va être capable, grâce à l'IA et grâce à la commande vocale ou le langage naturel, de faire tout un tas de tâches qui aujourd'hui nous demandent d'utiliser notre souris, d'aller sur des logiciels spécialisés, de faire des manipulations, etc. Donc, je pense que le gros changement que va entraîner l'IA générative, ça va être le changement de méthode avec laquelle on interagit avec la technologie. »
Paul-Alexandre Réaud : « Potentiellement, alors on ne parle pas forcément d'un futur très proche, mais le système clavier-souris-écran qu'on connaît aujourd'hui va être amené à évoluer. Par exemple, avec des lunettes de réalité virtuelle où on peut parler et communiquer avec l'IA directement ou autre. Ce qui va aussi être intéressant dans les prochains mois à venir, je pense, c'est que l'IA va devenir une commodité. Donc, on va en retrouver dans absolument tous les produits qui sont des produits logiciels ou autres. Et c'est déjà une des grosses avancées qui va arriver là-dessus. Évidemment, des modèles toujours plus spécialisés, toujours plus fins, qui vont permettre d'être toujours plus précis sur des tâches. Après, je tiens quand même à dire qu'il va y avoir une limite sur la technologie qu'on utilise. Pourquoi ? Parce qu'encore une fois, c'est une limite de la data. C'est-à-dire qu'on n'arrivera probablement pas avec les systèmes de transformers qu'on a aujourd'hui à émuler finalement le monde réel parfaitement comme le ferait un humain. Donc, je crois que c'est assez parlant, en fait, le GPT-4, GPT-4.0, à l'équivalent en termes de connaissances a été entraîné sur l'équivalent de données que représente la vie d'un enfant de 4 ans. C'est-à-dire qu'arrivé à 4 ans, on a vu X montants de données, ce qui représente l'entraînement de GPT-4. Donc, en fait, c'est dur de parler vraiment d'intelligence. C'est plus finalement une capacité à retrouver l'information extrêmement rapidement et à comprendre ce qu'on lui dit. Et c'est là vraiment la force du LLM, c'est d'être capable de comprendre l'intention de l'humain pour ensuite le rediriger vers des outils qui sont spécifiques. Et j'ai un peu de mal à croire en une IA qui serait un LLM, un super LLM et qui résoudrait tous les problèmes business ou pas, ou personnels de tout le monde. Donc, voilà comment je vois en tout cas l'évolution future de LLM. »
Julien Redelsperger : « D'accord. Dernière question pour toi, Paul-Alexandre. Est-ce qu'il y a des secteurs d'activité qui, selon toi, bénéficieraient plus que d'autres des avantages liés à l'IA générative ? Est-ce qu'on peut développer l'IA générative dans tous les domaines, que ce soit, je ne sais pas, les services, par exemple, la logique, mais également, je ne sais pas, le BTP, l'agriculture ? Est-ce qu'il y a des secteurs ou des professions qui seraient plus touchés que d'autres ? »
Paul-Alexandre Réaud : « Alors, je pense que l'IA générative va toucher de près ou de loin tous les secteurs. Ça, c'est absolument certain. Effectivement, tout ce qui va être emploi de bureau, ça va être touché en premier, ça c'est sûr. On l'a vu, le SAV, la gestion de la connaissance, la rédaction de code, ça va faire partie des choses qui vont être le plus facilement touchées par l'IA générative. Après, quand on parle de métier manuel, ça peut être fait de manière un peu différente sur l'IA générative, mais plutôt sur tout ce qui va être computer vision, donc sur les entrepôts par exemple, ou dans l'agriculture. Typiquement, toutes ces datas-là, quand on va devoir faire des actions manuelles vont être automatisées par de l'IA et ça va être une aide, on va dire en plus, aux gens qui travaillent sur des métiers manuels. »
Paul-Alexandre Réaud : « Après, je pense que tous les secteurs seront touchés et la différence, c'est l'impact et surtout ce qui sera touché en premier, c'est les cas d'usage, comme j'ai dit, où il y aura un ROI qui sera le plus intéressant et où donc il faudra investir le plus dans l'IA générative. »
Julien Redelsperger : « D'accord, parfait. Écoute, merci beaucoup Paul-Alexandre, c'était très riche et très pédagogique. Merci pour ça. Alors, à la fin de chaque épisode, l'invité du jour doit répondre à une question posée par l'invité précédent. En attendant d'écouter la tienne, je te laisse écouter celle de Gabriel Dabi-Schwebel, qui est fondateur et directeur de l'agence de marketing 1minute30. On écoute sa question. »
Gabriel Dabi-Schwebel : « Est-ce qu'au-delà de ce que fait l'IA de façon évidente au premier niveau, typiquement ça aide à produire des contenus, est-ce qu'il anticipe l'effet de niveau 2 de l'émergence de l'IA ? Je redonne l'exemple, si tout le monde produit beaucoup de contenus grâce à l'IA, contenus qui mettent moins de temps à être produits qu'à être plus, quelle est la conséquence de cette saturation et comment on adresse cette saturation et comment on inverse les choses ? »
Paul-Alexandre Réaud : « Écoute, c'est une excellente question. Je pense que la prolifération de contenus rédigés par l'IA, ce que ça va engendrer, c'est surtout qu'on va avoir une saturation totale, on ne va pas être capable de lire des articles qui seront meilleurs que d'autres. Donc, on va changer la façon dont on va lire ces articles-là. Typiquement, aujourd'hui, on utilise quasiment tous Google pour aller chercher ces articles. Demain, on va être amené à utiliser d'autres IA, typiquement de ChatGPT, pour répondre à des questions. En fait, on ne va pas aller chercher un article précis, on va aller chercher une information. Et à ce moment-là, c'est l'IA qui va faire remonter les informations qu'elle trouve le plus pertinentes. Alors comment ? Par la qualité du contenu qui est rédigé et par aussi la validation des gens qui ont pu lire ce contenu. Et ça va changer notre façon d'interagir réellement avec l'information. Après, le deuxième effet de niveau 2, finalement, c'est qu'à force de produire du contenu sur Internet qui est rédigé par l'IA, les IA finissent par s'entraîner sur du contenu qui a été aussi rédigé par l'IA. Et donc, on le comprend, elles ne gagnent plus vraiment le meilleur que peut apporter l'intelligence humaine, mais elles finissent par plafonner à un niveau de contenu qui est un niveau qui est médiocre tout au plus, puisqu'il a été rédigé finalement sans intelligence humaine et uniquement en recrachant du contenu déjà existant. Donc, elles vont finir par s'entraîner elles-mêmes. Et à ce moment-là, il faudra trouver un autre moyen de récupérer cette data. Et je pense que la prolifération de contenu, ça va surtout engendrer un changement de paradigme dans la façon dont on accède à cette information-là. Le search actuel va complètement disparaître. Je renvoie d'ailleurs nos auditeurs à un article du New York Times qui est sorti il y a quelques semaines, qui parle de données synthétiques. C'est-à-dire quand les IA génèrent du contenu qui entraîne d'autres IA et ainsi de suite, on rentre dans un espèce de cercle un peu vicieux où la donnée n'est plus humaine, comme tu le disais, mais effectivement synthétiquement créée par l'IA. Et ça soulève bon nombre de questions. Et tout le monde utilise de la donnée synthétique pour entraîner de l'IA. C'est quelque chose qui se fait et qui est très courant aujourd'hui. Nous aussi, on le fait et on va lui demander de faire des contenus de plus en plus spécialisés. Et c'est comme ça qu'on va réussir à entraîner aussi de l'IA. »
Julien Redelsperger : « OK, parfait. C'est bien noté. Alors à toi à présent, Paul-Alexandre, quelles questions est-ce que tu aimerais poser aux prochains invités ? »
Paul-Alexandre Réaud : « Alors, on a beaucoup parlé de technique. Maintenant, j'aimerais qu'on aborde un sujet peut-être un peu plus philosophique. Moi, je vois très, très bien les impacts que peuvent avoir l'IA sur la partie business. Maintenant, j'aimerais savoir comment est-ce que vous pensez que l'IA va influencer notre compréhension de la créativité et de l'originalité ? Et à quel point une machine pourra un jour être véritablement créative et produire, pourquoi pas, de l'art ? En tout cas, ce qu'on perçoit comme de l'art aujourd'hui. »
Julien Redelsperger : « Parfait. C'est bien noté. Merci beaucoup de ta participation. Paul-Alexandre, je rappelle que tu es CTO chez Virteem. Merci d'avoir participé à ce podcast. »
Paul-Alexandre Réaud : « Merci Julien. Merci encore pour l'invitation. »
Cette transcription a été réalisée par un outil d'intelligence artificielle. Elle n'est peut être pas 100% fidèle au contenu d'origine et peut contenir des erreurs et approximations.