L’IA et le traitement automatique du langage : automatiser pour mieux régner
Comment l'intelligence artificielle et le traitement automatique du langage révolutionnent-ils notre façon de traiter l'information ? Dans cet épisode d'AI Experience, nous plongeons au cœur de ces questions avec Gilles Moyse, entrepreneur et président de reciTAL, pour explorer les frontières de l'automatisation et de la souveraineté numérique. Découvrez comment l'IA transforme non seulement notre manière de travailler mais aussi notre approche de la gestion des données et de la communication. Gilles nous offre un aperçu de l'avenir de l'automatisation, où capturer, analyser et rechercher l'information deviennent des tâches optimisées par des technologies avancées. Si vous vous interrogez sur l'impact de l'IA dans le monde professionnel et sur la façon dont elle façonne notre futur numérique, cet épisode est fait pour vous.
Gilles Moyse est entrepreneur, président de reciTAL, une société d'intelligence artificielle spécialisée dans le traitement automatique des documents. Il est également l'auteur de "Donnerons-nous notre langue au ChatGPT ?", préfacé par Etienne Klein et publié en 2023 aux éditions du Robert.Gilles Moyse est docteur en Intelligence Artificielle de l'Université Paris Sorbonne. Il a enseigné l’IA à Sciences Po et à ESCP Europe. Il a fait partie de la délégation du G20 des Entrepreneurs et a reçu le prix AI Awards Paris.
Gilles Moyse
Entrepreneur, auteur et président
On va parler d'IA évidemment, on va parler d'automatisation, de documents, de souveraineté numérique, beaucoup de sujets importants. Alors pour commencer, toi qui suis les évolutions de l'IA depuis quand même très longtemps, première question simple, pourquoi est-ce que selon toi c'est un bon moment pour s'intéresser au sujet de l'intelligence artificielle ?
« Avant tout parce qu'il y a un moment "Chat GPT" qui a remis l'intelligence artificielle sur le devant de la scène. On en parlait déjà pas mal de l'IA. En fait, l'intelligence artificielle, on a recommencé à en parler à partir de 2010. Pourquoi ? Parce qu'en 2010, on a les réseaux de neurones profonds, le deep learning, qui a des résultats extraordinaires et même surhumains, c'est-à-dire meilleurs que les humains, sur des tâches de vision par ordinateur. A l'époque, on avait un gros dataset, mais qui est toujours utilisé, qui s'appelle l'image net, et sur lequel on demandait à la machine de dire ce qu'il y a dans telle image, ce qu'il y a dans telle image, est-ce que c'est un camion, est-ce que c'est un bateau, est-ce que c'est un oiseau, etc. Et en pratique, à partir de 2008 pour être précis, les réseaux de neurones profonds de Geoffrey Hinton, de Yann Le Cun, de Yoshua Bengio ont eu des performances qui étaient meilleures que celles qu'on obtenait quand on demandait à des humains de faire la même chose. Et là, ça a été l'explosion d'un point de vue scientifique et d'un point de vue financement, évidemment, parce que ces réseaux de neurones étaient sponsorisés par Facebook, qui s'appelait encore Facebook à l'époque, et Google notamment, qui recherchait énormément là-dedans. »
Donc il s'est passé quasiment 10 ans, plus 12 ans on va dire, entre ces premières découvertes et la sortie de ChatGPT et cette vague autour de l'IA générative.
« Exactement, parce que ça à l'époque, c'était pas de l'IA générative, c'était pour faire des classifications d'images. Et en fait, la révolution du deep learning, elle est vraiment arrivée dans le langage en 2017, avec l'arrivée du modèle de transformer proposé par Google. »
Et toi qui t'intéresses à l'IA, est-ce que tu as vu venir ChatGPT quand il est sorti en novembre 2022 ? Est-ce que tu as été surpris ? Est-ce que tu t'y attendais ? C'était quoi ta réaction ?
« Alors j'ai été surpris, mais c'est des choses que je regardais depuis très longtemps. Moi, ma thèse, je l'ai commencé en 2011 sur la génération automatique de textes. Donc si tu veux, le sujet n'était pas complètement étranger. Nous-mêmes chez ReciTAL, on fait du génératif depuis au moins, en fait depuis l'apparition des transformers. Parce que dès les transformers, on a pu commencer à faire du génératif. Et d'ailleurs, c'est ce qu'a fait OpenAI, c'est en 2018 ou en 2019 qu'il sort GPT1. Et GPT1, c'est en fait la même architecture, à quelques pouillèmes près, mais en tout cas c'est le même principe, c'est-à-dire de la génération de textes avec un décodeur seul, et qui sera améliorée sur GPT2 et sur GPT3, avec notamment plus d'attention, plus de tête et plus de données. Mais donc, GPT3 en 2019, nous effectivement on voit ça, on se rend compte qu'il se passe quelque chose. Mais effectivement, personne, et je pense même OpenAI, ne pouvait imaginer le boom ChatGPT. Et en ce sens-là, oui, ça m'a surpris comme tout le monde. D'ailleurs, j'entendais Bill Gates qui discutait avec Sam Altman il y a quelques jours, il disait, même Bill Gates, quelqu'un qui suit ça, disait "j'ai été complètement surpris, complètement pris par la vague". »
Alors, on te sent passionné par l'IA, tu expliquais, tu as fait une thèse, tu es docteur sur le sujet. Pourquoi est-ce que c'est intéressant l'IA ? Ça vient d'où cette passion pour l'intelligence artificielle, sans rentrer dans la technique ?
« Oui, en fait ça vient de très longtemps, en fait ça vient de ma passion pour les ordinateurs. Moi, je suis tombé dans l'informatique vraiment jeune, parce que j'avais la chance d'avoir un ordinateur à la maison, à l'époque c'était pas si courant que ça. Et puis, comme j'adorais les jeux vidéo et que mon père trouvait ça trop cher, il m'a dit que j'allais les faire moi-même. Alors, j'ai jamais fini de faire un jeu vidéo, mais j'ai appris la programmation. Et en fait, ce qui est rigolo, c'est que l'informatique et l'IA c'est très proche. Et c'est marrant parce que même Alan Turing, qui est l'inventeur de la machine de Turing, qui est en fait l'idée de l'ordinateur, et bien en fait même lui, dans son premier papier de 1936, commence à parler d'intelligence automatique. Et pourquoi ? Parce qu'en fait, quand il créait sa machine de Turing, il l'a créée pour répondre à un problème de maths très abstrait qui avait été posé par David Hilbert, et qui disait "est-ce qu'avec un algorithme, avec une méthode systématique, on pourrait démontrer tous les théorèmes démontrables ?" Et Turing dit déjà que non, mais en plus, pour montrer que non, Gödel l'avait déjà fait quelques années avant, mais avec une autre manière, pour montrer que c'était impossible, il créait la machine de Turing. Il dit "imagine cette machine, et bien cette machine ne peut pas prouver que ça". Du coup, en créant ça, il dit "mais si j'ai quand même malgré tout créé une fonction, une machine qui crée toutes les fonctions calculables, et que la pensée est une fonction, comme le pensait Hume, ou comme le pensait Leibniz, alors peut-être que ma machine peut penser". Et donc en fait, c'est très rigolo, tu vois, je m'éloigne un peu de ta question, mais finalement on s'y retrouve, c'est-à-dire que ce qui est rigolo, c'est que l'informatique et l'IA sont liés dès la naissance de l'informatique, de l'informatique telle qu'on la connaît, et ensuite on peut remonter à avant pour trouver des automates calculatoires, etc. Mais l'informatique telle qu'on la connaît, en fait, dès le début, elle est pensée avec l'intelligence artificielle. Et moi c'est marrant, à mon petit niveau, quand j'ai fait de l'informatique et quand j'ai programmé des machines, et bien c'est vrai que je me disais "mais finalement ce comportement, ou cet algorithme-là, ou ce que fait l'ordinateur dans ce cas-là, c'est intelligent d'une certaine manière". En fait, on est toujours, quand on programme, en train de simuler de l'intelligence, et donc on est toujours en train de faire de l'intelligence artificielle. D'ailleurs, l'intelligence artificielle des débuts, à l'époque des systèmes experts, à l'époque des systèmes de règles, etc., c'était juste coder des règles dans des machines. Donc aujourd'hui, coder des règles dans des machines, c'est ce qu'on appelle de la programmation. C'est "if", "si", "alors", "tant que", "pour i = 1 à 5", tout ça, c'était de l'IA. Donc en fait, l'intérêt que j'ai pour l'IA, c'est l'intérêt que j'ai pour l'informatique, parce qu'en fait, l'IA et l'informatique, c'est d'une certaine manière la même chose. »
D'accord. Et alors, sur le plan professionnel, tu n'as pas créé de jeux vidéo, en revanche, tu as créé une start-up, qui s'appelle reciTAL. Est-ce que tu peux nous la présenter en quelques mots ? Quelle est son activité et à qui s'adresse-t-elle ?
« Alors, reciTAL, c'est une entreprise, c'est un éditeur de logiciels B2B. Donc on s'adresse à des entreprises. Et en fait, on utilise des algorithmes d'intelligence artificielle pour faire ce qu'on appelle du traitement automatique de documents. Alors en anglais, on appelle ça "intelligent document processing". Et en gros, l'objectif de ces logiciels, on propose une plateforme à nos clients qui leur permet de traiter des mails, de traiter des documents, d'envoyer les mails aux bonnes personnes, d'analyser les documents, d'extraire de l'information dans ces documents, que ce soit des bilans comptables, des factures, des cartes d'identité, tout ce que tu veux, d'aller les mettre au bon endroit dans leur CRM, d'aller mettre telle information dans leur ERP, dans leur système de gestion documentaire, etc. Vraiment, on automatise une partie, je dirais la partie un peu laborieuse du back-office. »
On n'est pas sur la génération d'images ou de vidéos ou ce genre de choses ?
« Non, non, non. On analyse l'information, on utilise des modèles de deep learning, évidemment, là-dessus, mais on ne génère pas d'images, de textes ou de vidéos. On analyse et on automatise. »
Ça sert à quoi ? Est-ce que tu peux me donner un exemple concret ou quelques cas d'usage ?
« Trois exemples. Le premier, les tribunaux de commerce français, qui reçoivent tous les bilans comptables des entreprises françaises. C'est 50 millions de pages par an. Et bien, ça, il faut l'analyser, il faut le comprendre et il faut le structurer dans des sortes de gros fichiers Excel qui sont ensuite téléchargeables par n'importe qui. Eh bien, ça, ils utilisent notre solution pour automatiser cette tâche-là. Donc, nous, l'année dernière, on a lu tous les bilans comptables des entreprises françaises, enfin, notre solution. Il les a analysés et on a mis ça dans tous les comptes comptables. C'est une opération qui est assez complexe parce que les formats ne sont pas du tout standards. Chacun peut s'exprimer comme il veut, etc. Et ça, c'est une opération qui est infaisable sans notre outil. Deuxième exemple, Crédit Agricole, qui utilise notre plateforme pour analyser toute sa documentation client et la rendre disponible dans une sorte de moteur de recherche. Aujourd'hui, notre solution est utilisée comme moteur de recherche des 80 000 collaborateurs du groupe. »
Donc, la documentation client, ça va être, par exemple, si un produit financier est mis en vente, on explique un peu en quoi ça consiste, pour qui il est concerné, etc. ?
« Exactement. Donc, ça va être à usage des conseillers, des gestionnaires, des gens en agence qui vont avoir tout un tas de questions sur des assurances, des produits bancaires, des adresses, des procédures, etc. Et eux, grâce à notre analyse de documents, vont pouvoir trouver l'information très, très rapidement. Alors d'ailleurs, aujourd'hui, évidemment, tu parlais de génération, évidemment, on travaille sur des grands modèles de langues pour voir comment est-ce qu'on peut aller encore une étape plus loin pour automatiser la réponse et pas uniquement présenter les bons paragraphes à l'utilisateur. Et puis, enfin, troisième cas d'usage, ce sont des assurances comme AG2R, qui utilisent, ou Safran, donc tu vois, même dans l'industriel, tu vois, c'est pas forcément sectoriel, qui utilisent notre solution pour traiter leurs plus de 250 000 mails annuels et les analyser, analyser les pièces jointes et faire suivre ça à la bonne équipe ou à la bonne personne. »
D'accord, donc on est vraiment sur de l'automatisation de documents pour le back-office pour rendre les choses plus claires, plus lisibles, plus cherchables et pour gagner du temps, j'imagine.
« Exactement, ça gagne du temps, ça permet de produire plus, ça permet de répondre plus vite aux clients. C'est même, comment dire, nous les utilisateurs sont même, comment dire, extrêmement contents d'avoir ça parce que ça fait un peu le sale boulot, ça prépare les mails pendant le week-end, ça fait plein plein de choses. Il y a toujours un humain dans la boucle, ça toujours, pour des raisons réglementaires, mais aussi pour des raisons de qualité, c'est à dire que si tu commences à laisser la machine répondre toute seule, en fait tu as des risques d'erreur. Donc l'humain a toujours le dernier clic, mais en revanche le travail qui le précède est déjà fait. »
Est-ce que tu as des chiffres clés sur le gain de temps ou d'efficacité ou de ce que ça apporte, la solution que tu commercialises ?
« Oui, alors typiquement chez un de nos clients, ils nous disent que grâce à la solution, ils arrivent à répondre à trois fois plus de prospects. Donc en fait, il y a trois fois plus de devis envoyés. Côté assurance, ils ne nous ont pas donné de chiffres précis, mais quand on a fait une montée de version, il y a eu une difficulté technique de leur côté et ils ont dû recruter en urgence cinq personnes. Et puis enfin, côté analyse automatique de bilan, ça on n'a même pas de chiffres parce que de toute façon, ça n'est pas possible sans. C'est-à-dire qu'il y a trop de pages et donc en fait avant, ils le faisaient mais avec des armées de gens. »
D'accord, ok. Donc ça remplace, c'est plus efficient, plus rapide et tout ça, ça se base sur le traitement automatique du langage. C'est le TAL de reciTAL. Tu peux expliquer vraiment très simplement ce que c'est et quels sont ces impacts ?
« Alors en pratique, effectivement, c'est le TAL de recitTAL, Traitement Automatique du Langage. Ce qu'on appelle le traitement automatique du langage, c'est une des branches de l'intelligence artificielle qui consiste à comprendre et générer du langage. On parle de NLU pour Natural Language Understanding et NLG pour Natural Language Generation. Ce sont les deux branches du NLP, Natural Language Processing. Quand on parle de langage naturel, c'est le langage humain par opposition au langage de programmation. Donc ça, je dirais, c'est les grands principes. Nous, en pratique, on va un tout petit peu plus loin que le NLP, donc que le TAL, parce qu'en plus du langage, on analyse également la forme des documents. Autrement dit, dans des formulaires, dans des cartes d'identité, dans des documents officiels, dans tout un tas de documents qu'on va appeler semi-structurés, la position des mots a aussi une importance. Ce n'est pas juste une page de texte brut, en fait. Il va y avoir, je ne sais pas, prenons une facture, en haut à droite, tu vas avoir le nom, le prénom, l'adresse du client. En bas à gauche, tu vas avoir le contact de la société. Tout en bas, dans le pied de page, tu vas avoir le numéro SIREN et le numéro de TVA. Ces informations de localisation sur la page sont finalement aussi importantes que le texte en lui-même. Et donc, c'est pour ça qu'on va un peu plus loin que le traitement automatique du langage. C'est pour ça qu'on parle du traitement automatique du document, c'est-à-dire qu'on va faire ce qu'on appelle de l'IA multimodale, qui est un mot très à la mode aujourd'hui, c'est-à-dire qu'on ne va pas prendre en compte qu'une seule modalité, ici le texte. On va aussi prendre en compte la modalité de ce qu'on appelle de layout, c'est-à-dire de position sur la page, mais également la modalité d'image, c'est-à-dire les pixels qui représentent ce mot. Et ce qui est très intéressant, c'est que quand tu mélanges ces modalités, tu as des modèles qui sont très nettement plus puissants que ceux qui sont basés sur le texte uniquement. »
Donc c'est-à-dire que si tu vois un graphique, un diagramme, un tableau, ton système est capable de comprendre ce que ça veut dire, quels sont les messages clés par rapport à simplement capturer du texte brut qui n'aurait pas forcément de sens.
« Exactement, et ça c'est un domaine qui est encore ouvert. Même OpenAI avec son GPT-4 Vision ne résout pas complètement le problème. Nous évidemment on a fait des tests et on se rend compte que sur les documents complexes qu'on a, il n'arrive pas à lire précisément les choses. C'est très performant, mais c'est quand même moins performant que les systèmes qui sont vraiment faits pour ça. »
Et comment s'intègre reciTAL dans les systèmes existants ? Tu disais que ça se connectait avec des CRM, avec des ERP, etc. Est-ce que c'est du plug and play ou c'est vraiment très complexe derrière ?
« Non, en fait ce qui se passe c'est que les workflows qui sont en production chez nos clients sont eux-mêmes souvent assez complexes. Pourquoi ? Parce qu'ils vont recevoir des mails, ils vont recevoir des informations de leur site web, ils vont recevoir dans certains cas du courrier. Et donc déjà tout ça il faut le récupérer, il faut le mettre au même endroit. Ils ont aujourd'hui des chaînes de traitement qui existent. Donc effectivement nous notre solution elle s'intègre dans ces chaînes de traitement. Tout est APIsé, on travaille avec les grands acteurs du marché type Kofax. Kofax c'est typiquement des gens qui font des moteurs de workflow avec lesquels on peut s'intégrer. Il y a des gens là en ce moment qui nous intègrent sur Salesforce. Donc quels que soient les éléments de la chaîne de production que tu as, on peut s'y intégrer. Mais donc effectivement c'est une intégration qui prend le temps qu'il faut à ces grands groupes d'intégrer du logiciel. Donc ça peut être un peu long. Maintenant ça dépend. Nous on travaille avec des acteurs plus petits, en deux semaines c'est fait. Et puis il y a des acteurs plus gros, il va falloir trois, quatre mois. »
Et à titre d'exemple tout à l'heure tu parlais du Crédit Agricole, tu parlais des assurances, tu parlais des tribunaux de commerce. Il y a des données confidentielles, il y a des données personnelles. Comment est-ce que reciTAL justement aborde ces sujets en matière de confidentialité, de cybersécurité ? Et comment vous faites pour traiter des données aussi sensibles ?
«Alors on a de toute façon deux offres. On a une offre SaaS qui est donc hébergée par nous, et une offre on-prem qui est hébergée par le client. Donc pour les données extrêmement sensibles ou pour les environnements particulièrement contraints, ils peuvent prendre notre logiciel et le déployer chez eux. Pourquoi ? Parce qu'on est, comment dire, maître de toutes les briques de notre logiciel. Ce sont des réseaux de deep learning qu'on entraîne nous-mêmes, que d'ailleurs l'utilisateur peut entraîner, sur des infras qu'on héberge, etc. On n'utilise pas des services managés, c'est nous qui gérons le truc. Ça fait qu'effectivement, on peut donner notre image à un client qui du coup héberge lui-même. Ça, pour les environnements les plus contraints en termes de sécurité, c'est ce qu'on fait. Pour les environnements qu'ils sont un peu moins, on héberge tout nous-mêmes. En France, ça c'est hyper important aussi pour tout un tas de clients. Et effectivement, on gère notre prod, alors évidemment tout est sur Kubernetes. On a du service manager, mais uniquement sur Kubernetes et sur les bases de données. Et ça, c'est hébergé par un acteur français en France. »
D'accord. Tu as abordé à l'instant la question de la souveraineté numérique, l'importance d'héberger les données en France. Pourquoi est-ce que selon toi c'est important quand on parle d'IA, de parler de souveraineté numérique ?
« Parce qu'avec l'IA viennent les données. Et en fait, les données, elles peuvent être confidentielles, sous droit d'auteur, personnelles. Et donc, en fait, pour toutes ces raisons-là, il faut faire attention avec ces données. Il faut faire attention à ce qu'on en fait. Et effectivement, d'ailleurs on voit bien en ce moment avec le procès New York Times et OpenAI, que la question des données, là en l'occurrence sous copyright, est encore complètement ouverte. »
Juste pour vous préciser, contextualiser, le New York Times a porté plainte contre OpenAI pour avoir entraîné son modèle d'intelligence artificielle sur toutes les archives du grand journal américain, sans autorisation, sans paiement, sans rien du tout.
« Exactement. Et en fait, on sait très bien aujourd'hui que toutes les personnes qui proposent des grands modèles de langues utilisent de la donnée sous copyright. Ça c'est sûr. Parce que, alors, un, parce que de toute façon il faut tellement d'informations pour entraîner ces modèles que de toute façon il y en a qui est sous copyright. Et deux, parce qu'en plus il existe des moyens assez simples de retrouver des morceaux d'informations sous copyright, puisque ce sont des modèles qui ne font que compléter du texte. Il suffit de donner un début de texte sous copyright, et ensuite, quand il génère la suite, ça veut dire qu'il l'a lu quelque part avant. »
Donc ça veut dire qu'une donnée en Europe ou en France est mieux protégée qu'une donnée en Chine, aux Etats-Unis ou ailleurs ?
« Alors, plus qu'en France, c'est en fait surtout la nationalité de l'entreprise qui l'héberge, qui est importante. Pourquoi ? Parce que quand on met une donnée chez Microsoft, même si le serveur de Microsoft est en France, même si c'est dans un data center en France, comme c'est une entreprise américaine, en vertu du Cloud Act, les autorités américaines peuvent demander à avoir accès à ces informations-là. Donc c'est effectivement une forme d'extraterritorialité qui est donnée par le Cloud Act et qui ne va pas du tout en diminuant. En gros, la question c'est sur quel réseau, chez qui, on met la donnée ? Ça c'est hyper important. »
Donc ça c'est vraiment un sujet clé, et d'ailleurs quand on parle d'IA, on parle de Google, on parle de Microsoft, on parle de Meta, ex-Facebook, Amazon, voire IBM, ils sont quand même tous américains. Où sont les acteurs français, voire européens ? Et est-ce que tu as le sentiment qu'en Europe ou en France, on est un peu en retard sur le sujet ? Ou est-ce que c'est juste un faux débat qui est prompt à alimenter des polémiques ?
« Oui, on est en retard. Alors sur le sujet, ça dépend ce qu'on appelle le sujet. Scientifiquement, on n'est pas en retard parce que, ben voilà, on parle de Mistral, on parle de LightOn, mais même des acteurs publics comme l'INRIA sont absolument à la pointe, au CNRS aussi, enfin voilà, moi j'ai fait ma tête à Sorbonne Université, il n'y a aucun souci. Et d'ailleurs, si les grands acteurs américains s'installent en France, c'est aussi parce qu'il y a d'excellents chercheurs sur le sujet. Donc d'un point de vue scientifique, on n'est pas en retard. Par ailleurs, c'est une recherche qui est quand même très largement partagée, je dirais qu'il n'y a pas de retard là-dessus. D'un point de vue entrepreneurial, alors ça c'est sûr, d'un point de vue grandes entreprises, ça c'est sûr, mais c'est finalement plus sur les sujets, je dirais, de hardware et de cloud qu'on est en retard que sur les sujets d'IA. Et d'ailleurs, tant qu'on parle de souveraineté, moi je pense que le gros sujet en matière de souveraineté, c'est beaucoup plus d'avoir des téléphones européens et des data centers européens que d'avoir une boîte d'IA européenne. C'est-à-dire qu'en fait, la souveraineté aujourd'hui est beaucoup plus portée par qui produit le matériel et qui héberge les données que qui propose le dernier modèle, notamment parce que ces modèles sont majoritairement open source. »
Et en matière de développement technique, technologique, est-ce que tu vois la France émerger, notamment dans le domaine entrepreneurial ? Par rapport à d'autres pays, est-ce qu'il y a un écosystème qui est vraiment dynamique et qui se développe en France ?
« Oui, il y a un écosystème évidemment de start-up qui est très dynamique, la French Tech c'est très très dynamique, il n'y a pas de discussion là-dessus. Maintenant, au niveau des hébergeurs, au niveau des clouds, il y a OVH qui continue à grossir, qui devrait atteindre le milliard d'euros de chiffre d'affaires cette année, ce qui est bien. Donc évidemment, c'est petit par rapport à un AWS, un GCP ou un Azure, ça c'est sûr, mais néanmoins ça grossit, ça reste le premier hébergeur européen. En France, il y a Scaleway de chez Iliad, Xavier Niel investit beaucoup dedans, donc ça grossit également. Il y a Outscale côté Dassault Systèmes, donc il y a quand même des acteurs qui se mettent en place. NumSpot plus récemment, mais qui sont microscopiques par rapport aux acteurs américains. Je pense qu'effectivement, il va falloir vraiment inciter les acteurs européens à aller sur ces clouds-là si on veut leur permettre de se développer, mais c'est parce que sinon effectivement, Microsoft et Amazon ont tellement investi depuis plus longtemps que c'est vrai qu'autrement dit, je pense que la réglementation va aussi servir à rediriger les utilisateurs européens sur les solutions européennes. Donc oui, il y a des acteurs, mais c'est sûr que d'un point de vue capitalistique ou en termes de taille d'entreprise, il n'y a aucun qui arrive à la cheville des big tech américains. »
Alors toi, tu travailles un peu dans une bulle autour de l'IA, de la tech, évidemment. Est-ce que tu penses que nos décideurs, les pouvoirs publics, voire les entreprises en général, ont suffisamment conscience des changements qui sont amenés par l'intelligence artificielle et est-ce qu'ils sont prêts ?
« Alors, je pense qu'ils en ont conscience. Je pense même qu'on est un peu dans un FOMO actuellement, c'est-à-dire qu'ils ont très très peur de passer à côté du truc. Moi, je travaille pas mal avec le gouvernement, sur ces sujets-là. J'ai échangé avec des ministres qui sont tout à fait au courant de la vague de l'IA générative, qui d'ailleurs déjà ont mis en place des systèmes de chatbots pour les agents de la fonction publique qui fonctionnent bien. Les premiers retours sont positifs dessus, ça c'est bien. Je trouve qu'on est un peu trop à courir après la hype, alors qu'en fait, l'IA générative, c'est très bien, mais c'est qu'en fait, c'est une partie du deep learning qui lui-même est une partie de l'IA. Autrement dit, il y a plein de choses qu'on peut déjà mettre en place pour faire gagner du temps aux gens qui ne nécessitent pas forcément de génératifs. Donc, moi c'est plutôt une sorte de FOMO que je vois. Ça c'est au niveau des dirigeants. Dans toutes les grandes entreprises françaises, tout le monde se pose la question du génératif, de l'IA, qu'est-ce qu'on va faire, etc. C'est pour ça que d'ailleurs le livre que j'ai sorti fonctionne bien. Il y a plein de gens qui viennent chercher de l'information là-dedans, qui viennent s'acculturer et qui disent "comment est-ce que je fais pour en savoir plus ?" Voilà. Ça, c'est au niveau des dirigeants. Au niveau de la population, plus généralement, je saurais pas trop dire parce que ça représente beaucoup de monde, j'ai l'impression qu'il y a quand même une prise de conscience, mais surtout de l'inquiétude en fait. C'est-à-dire qu'il y a cette impression de l'IA qui va remplacer tout le monde, et ça, ça fait très peur. Moi je pense que c'est absolument pas justifié. Ça ne veut pas dire que ça n'aura aucun impact, mais c'est pas la technologie qui crée le chômage, c'est pas vrai. Il suffit de voir aujourd'hui, on n'a jamais été aussi technologiquement avancé, il y a des pans entiers de la société qui n'arrivent pas à recruter, dans l'hôtellerie, dans le tourisme, dans la restauration, en médecine. Donc voilà, ça n'est pas la technologie qui crée le chômage. Et vraiment, justement pendant que j'écrivais le livre, je me suis un peu intéressé à la question. Il y avait un très bon article qui résumait ça, qui disait franchement, ça fait 100 ans qu'on devrait tous être au chômage. Et je trouve que ça résume assez bien le truc, c'est-à-dire qu'il y a eu des vagues d'automatisation, et en fait ça remonte aux métiers à tisser de jacquard, au 18e et 19e siècle, où les gens cassaient les métiers à tisser. On se souvient des canu et des luddites en Angleterre, parce qu'ils disaient "ces machines-là vont nous voler notre emploi", et en fait, non, de l'emploi il y en a toujours. Localement, les gens qui font exactement ce que le nouvel outil fait, évidemment, sont remplacés par cet outil. Mais là aussi, je trouve une très bonne phrase pour résumer ça, c'est "ChatGPT ne va pas remplacer les gens, mais les gens qui utilisent ChatGPT vont remplacer ceux qui ne l'utilisent pas". »
D'accord, c'est intéressant, parce que justement, comment est-ce qu'on se prépare à cette révolution, à ce changement de paradigme dans le monde professionnel, dans l'entreprise ? Parce que les choses vont vite quand même, internet ça a mis 10-15 ans à se démocratiser, là, notamment l'IA générative, on a l'impression que ça s'est fait comme ça en un an et demi, deux ans max ?
« On va la voir arriver. Pourquoi ? Parce qu'en 2024, on va voir arriver dans Outlook, dans Word, dans Excel, dans PowerPoint, dans les applications Google, pour ceux qui sont sur Google Workspace, on va voir arriver des agents. C'est-à-dire qu'on aura un petit assistant, je ne sais pas trop quelle forme il va prendre, il sera en haut à droite, en bas à gauche, je ne sais pas où, on cliquera dessus et on lui dira "Est-ce que tu peux me reprendre mes slides d’il y a deux semaines et mettre les chiffres à jour avec le tableau Excel que je te donne en pièce jointe ?" Et là, il va mouliner ça, il va nous régénérer des choses. On va pouvoir lui dire "Est-ce que tu peux me préparer un mail pour mon patron, pour lui demander des congés, je ne sais pas quoi, etc." Et donc, il y aura en quelque sorte toujours un brouillon de prêt. On n'aura plus de page blanche. On pourra toujours demander une première version du document à cette espèce de petit assistant. Et de la même manière, ça sera la revanche de Siri, d'une manière plus générale. C'est-à-dire que l'interaction avec les machines et avec les téléphones portables, avec les ordinateurs, avec les objets connectés qu'on a à la maison par exemple, va se faire beaucoup plus de manière vocale. Parce que ce qu'apporte vraiment un outil comme ChatGPT, c'est qu'il comprend ce qu'on lui demande. Il est capable de répondre quelque chose qui est cohérent, qui est intelligent par rapport à ce qu'on lui demande. Et donc ça, cette révolution-là, comment on s'y prépare ? En fait, on n'a pas vraiment besoin d'y préparer puisqu'elle arrive malgré nous. Ça, on l'aura dans nos devices, on l'aura dans nos applications bureautiques, on l'aura dans nos ordinateurs. Au niveau de chacune des entreprises, il faut effectivement voir est-ce que l'utilisation de ChatGPT ou de GPT-4 fait gagner en performance. Il y a d'excellentes études qui ont été publiées, dont une par Harvard Business Review et BCG en fin d'année dernière, qui montrent que ceux qui utilisent GPT-4 sont plus productifs tant qu'ils sont sur ce qu'ils appellent le périmètre de compétence de GPT-4. Mais quand ils en sortent, ils sont moins productifs parce que GPT-4 leur répond de manière aussi certaine, mais c'est faux. Et ce qu'ils expliquent, c'est qu'il faut être en mesure de savoir ce qu'il sait faire et de savoir ce qu'il sait pas faire. Et le problème, c'est que c'est pas du tout clair. Parfois, deux questions qui vont nous sembler très similaires ne vont pas être similaires pour la machine. Donc une fois il a raison, une fois il leur a tort. C'est vrai qu'aujourd'hui, il faut encore quand même des humains qui sont capables de voir si ce qui leur est proposé est réaliste et vraisemblable. Mais si oui, alors évidemment, ils gagnent énormément de temps en rédaction. Deuxième chose qui a été vue dans les premières expériences qui ont été faites, c'est qu'en fait, ce sont plutôt les employés les moins performants qui gagnent avec l'outil, parce que l'outil est quand même plutôt meilleur dans tout un tas de choses. En revanche, les employés qui sont plutôt surperformants n'ont pas besoin d'utiliser les outils parce qu'en quelque sorte, ça les ramènerait vers la moyenne. Donc en fait, ChatGPT augmente le niveau de l'entreprise. Ceux qui étaient au-dessus du niveau, ça change rien. Ceux qui étaient en dessous, ils gagnent. »
Dernière question pour toi, Gilles, est-ce que tu penses qu'il y a des métiers en danger qui peuvent disparaître, voire muter drastiquement en raison de l'usage de l'intelligence artificielle en entreprise ?
« Oui, il y a des métiers effectivement dont on parle classiquement. C'est évident que les métiers de traducteur, mais ça fait déjà un bout de temps qu'ils sont largement chamboulés par des outils comme Google Translate. Et là, avec un outil comme ChatGPT, effectivement, on peut imaginer qu'on fasse de la traduction automatique en masse d'excellente qualité. Ce qu'on appelle le copywriting en anglais. Alors, je ne sais pas comment est-ce que... »
La rédaction.
« Oui, la rédaction. Voilà. Ça, c'est vrai qu'effectivement, quand on fait de la rédaction, je dirais un peu à la ligne, un peu au volume, sans forcément beaucoup de réflexion derrière, c'est vrai que ChatGPT, ça, il peut très bien le faire. Certaines formes de journalisme pas forcément très exigeantes, où on est plus dans le volume et la volonté d'essayer d'obtenir du clic, ça c'est sûr qu'ils vont être, enfin, comment dire, bousculés par ChatGPT. »
Et des métiers du type comptable, business consultant, etc. ?
« Ça, c'est moins clair parce que... Alors, c'est vrai que sur tout ce qui est consulting, là encore, je pense que ça ne va pas les remplacer, ça va les rendre plus efficaces. C'est vraiment le truc, ceux qui l'utilisent vont remplacer ceux qui ne l'utilisent pas. Et de toute façon, par exemple, dans la comptabilité, il faut valider. Et ça, pour l'instant, c'est quand même vraiment un humain qu'on va laisser ce rôle-là. Parce que finalement, la validation automatique de la comptabilité, on aurait pu se poser la même question quand on a sorti les ERP dans les années 80-90 avec SAP, avec Oracle, etc. Puisque tout était stocké dans des bases de données, il suffisait de vérifier que l'actif et le passif avaient la même valeur et puis on validait automatiquement le truc. En fait, les comptables, ils ont toujours autant de boulot aujourd'hui parce que, dans certains cas, ce type de dépense ne peut pas être imputé comme ça. Et ça, si on le passe en facture à émettre, ça peut être perçu comme de l'évasion fiscale, etc. Et en fait, il y a toute une connaissance qui fait qu'aujourd'hui, ils ne peuvent pas être remplacés. Par contre, ils peuvent gagner un temps considérable dans la rédaction de leurs rapports, dans la rédaction de leurs audits avec ce type d'outils. Il faut toujours relire, corriger, faire évoluer, modifier. »
Parfait, très bien. Merci beaucoup Gilles. Alors, à la fin de chaque épisode, l'invité du jour doit répondre à une question posée par l'invité précédent. En attendant d'écouter la tienne, je te laisse écouter celle de Stéphane Nachez, qui est directeur de la publication de la revue ActuIA. On l'écoute.
« On voit qu'il est très difficile de mettre en avant la parole scientifique. On a pu voir notamment à l'époque du Covid, qui n'est pas si lointaine, que la parole scientifique était vraiment questionnée par le grand public, à juste titre ou non, c'est une autre question. Mais comment réussir justement à la faire rayonner et à faire en sorte que le public y adhère ? »
C'est une vraie question, c'est une question complexe. D'ailleurs, aujourd'hui, on n'a pas de réponse définitive à cette question, puisqu'on sait que effectivement les fake news se répandent, puisqu'on sait que ces fake news ont une importance considérable dans les processus démocratiques. On en a beaucoup parlé depuis le début de l'année, il y a 40% de l'humanité qui va voter cette année. Et donc, on sait que les campagnes de désinformation sur les réseaux sociaux, mais pas que, vont aller bon train. Et donc, effectivement, il faudra surveiller ça. Concernant la parole scientifique plus spécifiquement, moi, je pense que la meilleure manière de la diffuser, mais également d'en garantir la véracité, c'est l'éducation. C'est toujours l'éducation. Moi, c'est pour ça que j'ai fait ce livre, d'ailleurs. Je voulais un livre de vulgarisation pour que tout le monde puisse s'équiper avec les concepts nécessaires à la compréhension de comment ça fonctionne. Parce que quand on sait comment les choses fonctionnent, alors on est quand même beaucoup mieux protégé, beaucoup mieux équipé pour répondre ou pour être capable de séparer ce qui est vrai de ce qui ne l'est pas, parce qu'on sait comment ça fonctionne. Donc moi, je crois vraiment qu'expliquer dans des termes simples le fonctionnement de ces outils technologiques est hyper important, notamment pour s'assurer que tout et n'importe quoi n'est pas raconté à tout bout de champ. »
D'accord, donc les vulgarisateurs ne vont pas voir leur emploi supprimé par l’IA et ChatGPT ?
« Non, il ne faut surtout pas. Alors, juste quand même pour remonter là-dessus, certes, il faut toujours vérifier ce que dit ChatGPT. Néanmoins, sur des informations qui sont très classiques, et notamment, moi je vois pas mal d'élèves, par exemple en troisième, qui disent "ah j'ai pas bien compris le cours sur le théorème de Pythagore", etc. Le théorème de Pythagore, c'est de la donnée hyper connue, hyper classique. Et bien ça, ils peuvent tout à fait utiliser ChatGPT pour avoir un petit cours particulier là-dessus. Et ça, pour moi, c'est vraiment un des usages de ça, et très souvent, même dans l'immense majorité des cas, ils répondent correctement. Et donc, du coup, il est patient, disponible 24 heures sur 24, et prêt à aider tout le temps. Donc, moi je crois vraiment que, comment dire, comme deuxième rideau éducatif, ça peut être vraiment efficace ces systèmes-là. Faut faire très attention à ce qu'il raconte, faut vraiment mettre des garde-fous. Mais une fois que ces garde-fous sont en place et qu'ils fonctionnent, ils sont très très bien en assistant un prof particulier. »
Merci beaucoup Gilles pour ta réponse. Alors maintenant à toi, quelles questions aimerais-tu poser au prochain invité ?
« Alors la question que j'aimerais lui poser, et c'est une question pour le... enfin seul l'avenir nous en donnera la réponse, mais est-ce que l'IA générative est une révolution profonde ou une nouvelle bulle technologique ? »
Parfait, je garde la question, je ne manquerai pas de la poser, je te tiendrai informé de la réponse. Merci beaucoup de ta participation. Gilles Moyse, je rappelle que tu es auteur, fondateur de la startup reciTAL. Merci beaucoup d'avoir participé à ce podcast.