Le 14 novembre, j’ai eu l’occasion de participer à une journée de conférences autour de l’information et de l’intelligence artificielle organisée par Archimag. Lors de cette journée j’a été convié à intervenir et à donner mon opinion en tant que professionnel de l’information sur l’Intelligence Artificielle et son apport aux métiers de la veille mais aussi potentiellement ses limites.
Si l’intelligence artificielle est apparue il y a déjà longtemps dans les offres commerciales et dans les fonctions logicielles liées aux métiers de l’information (documentation, veille, knowledge management et d’innombrables autres métiers), son intérêt, sa rentabilité, ses performances étaient trés discutables et aussi trés variables selon son application.
L’arrivée d’Open AI et l’apparition de nombreux LLM (large Language Model / Grands modèles de Langages) a accéléré l’innovation en Intelligence Artificielle particulièrement sur les aspects génératifs. Au-delà de l’aspect un peu bluffant de ces nouveaux outils j’ai essayé de présenter les fonctions clés qui permettent à ces outils de répondre aux problématiques bien spécifiques des veilleurs.
L’IA et les gains de productivité
La veille internationale
De nombreux veilleurs sont amenés à travailler sur des sources internationales dont certaines dont ils maîtrisent peu voire pas du tout la langue. En intégrant des fonctions de traduction les outils d’IA viennent compléter la panoplie d’outils de traduction déjà existant tels que Google Translate, Deepl, ou bien encore Systran (qui d’ailleurs est désormais passé sous le giron de Chaps Vision qui a également fait l’acquisition de Qwam et de Bertin IT et donc de la solution AMI, un éditeur bien connu des veilleurs.)
Toutefois, à ce stade, le gain de qualité sur la traduction apportée par les LLM n’est pas flagrante. Etant donné toutefois la jeunesse des LLM et leur capacité à s’auto-améliorer, l’on peut espérer à terme un gain de qualité également.
L’on notera que les outils de traduction automatique (Google Translate, Deepl, Systran) ainsi que les LLM proposent tous les deux des accès en mode API qui permettent d’y recourir sans passer par une interface et de les intégrer pleinement dans leur interface utilisateurs comme par exemple l’a fait Cikisi de manière parfaitement transparente pour les veilleurs.
L’avantage du choix d’intégration d’une IA LLM VS des outils de traduction plus anciens repose sur les points suivants:
- Si la qualité de traduction des IA est à ce jour peu ou prou équivalent à celle des outils existants l’on peut espérer des progrès significatifs dans les années qui viennent tant l’on peut constater la vitesse d’amélioration des LLM en quelques mois sur leurs fonctions génératives au sens large.
- L’intégration d’une IA dans un processus ou carrément au sein d’un logiciel de veille permet de se reposer sur l’intégration d’une seule technologie mais qui sera également à même de proposer des fonctionnalités de résumé documentaire, d’aide à l’analyse ou d’exploration de corpus documentaires. L’amortissement des coûts d’intégration devient ainsi plus rapide et par ailleurs selon les business models des LLM, l’on peut espérer des économies d’échelle en les utilisant pour un nombre de requêtes supérieur.
L’inconvénient principal que je vois surtout est également celui des outils de traduction automatiques en général. Si une traduction non-humaine apporte un premier niveau de qualité suffisante pour savoir si une information est intéressante ou pas, il est toutefois parfois difficile de saisir des nuances ou d’éviter tout contresens lorsque les tournures de phrase sont un peu ambigües.
Enfin les LLM et leurs capacités sont liés aussi aux bases et sources qui leur servent d’entrainement avant leur lancement mais tout au long de leur vie, et les IA LLM s’appuient souvent fortement sur des contenus anglophones entraînant un biais culturel sur leur compréhension de contenus et leurs capacités génératives.
Synthèse d’information
Concernant la synthèse d’information au moins de premier niveau sur des phases exploratoires, les LLM n’avaient jusque là pas d’équivalent et offrent un niveau de qualité et un gain considérable dans certaines configurations.
Comme tous les outils logiciels (mais aussi pour toutes les intelligences en générales, humaines ou artificielles), le principe du trash in – trash out est de mise. Si l’on alimente l’IA avec des corpus de documents hétéroclites, de qualités variables, et incluant potentiellement de fausses informations, du spam ou de la publicité , il ne faudra pas s’attendre à une synthèse de qualité. Mais pour un veilleur qui voudrait appliquer des outils génératifs reposant sur des LLM à des corpus documentaires déjà nettoyés, soigneusement sélectionné, alors l’IA permettra de gagner un temps précieux en produisant une synthèse de bonne qualité.
Les interrogations successives et la capacité des IA à se placer dans un dialogue avec le veilleur permettra d’affiner la synthèse, de cibler, de filter d’explorer plus en profondeur certains aspects par une succession de prompts et le tout dans un temps court.
Le recours au LLM se révèlera particulièrement pertinent sur des sujets sur lesquels le veilleur à une connaissance superficielle pour en défricher les contours et aller rapidement à l’essentiel.
Pour un veilleur plus expérimenté sur un sujet, le gain de productivité sera réalisé particulièrement sur des phases de rédaction et le gain sera d’autant plus important que bien souvent, le veilleur n’aura pas besoin de vérifier les informations sous-jacentes à la synthèse car il en maîtrise les sujets et sera capable d’écarter les risques de mésinterprétation de l’IA.
C’est par ailleurs un risque majeur lié à l’IA pour la synthyèse documentaire: lors de la réalisaton d’une synthèse documentaire, le contenu restitué se touve souvent assez loin du contenu original ce qui rend la vérification de la synthèse parfois assez lourde.
L’IA souffre par ailleurs des mêmes biais cognitifs liés au conditionnement. Plus l’IA sera soumise à une information plus, comme le cerveau humain, elle aura une tendance naturelle à la considérer comme importante et à lui accorder une importance élevée dans la synthèse. Cela entraîne qu’elle aura tendance à survaloriser les contenus de types spam ou publi-reportages qui matraquent les médias, d’où l’importance de l’appliquer à des corpus maîtrisés.
Un des points par ailleurs qui me semble problématique est qu’en recourant systématiquement à l’IA pour rédiger ses synthèses le veilleur perde peu à peu le contact avec le contenu originel et que sa connaissance sectorielle s’appauvrisse et l’amène à ne plus travailler que sur du contenu pré-digéré par l’IA et qu’à terme il devienne incapable d’en évaluer la crédibilité ou la qualité.
Aide à l’analyse
Un des gros atouts de l’IA pour l’analyse est sa capacité à ingérer et à traiter un nobmre trés élevé de documents.
Un des biais analytique survient dans des phases trés amont de l’analyse dont celle de la constitution du corpus qui servira de base à l’analyse. Dans ce cas précis à l’inverse de générer un biais l’IA va permettre de lever le biais inhérent à la sélection réalisée par le veilleur ou l’analyste, qui ayant une capacité d’assimilation limitée sera poussé à limiter le volume de documents sur lesquels il fera reposer son analyse.
Dans ce cas précis et comme évoqué précédemment l’IA peut toutefois avoir tendance à privilégier les signaux forts et récurrents du corpus. Le recours aux techniques de conversation avec l’IA devrait pouvoir permettre d’éliminer les signaux forts de et de générer des sous analyses permettant l’apparition de signaux émergents ou de signaux faibles.
L’IA et le droit d’auteur
Une des problématiques récurrrentes de la veille est de répondre à la délicate équation qui est de fournir un contenu suffisamment riche et détaillé aux veilleurs et à leurs utilisateurs tout en étant en conformité avec le droit d’auteur.
Le temps ou les documentalistes ou même veilleurs rédigeaient à la main, des synthèses des articles et depuis longtems révolu et ils n’ont guère plus le temps, ni les budgets pouvant être alloués à la réécriture intégrale des contenus partagés qui permettait justement d’atteindre ce fragile équilibre entre information et conformité.
Les coûts afférents à la redistribution d’articles in extenso pour en rémunérer les auteurs reposent par ailleurs des business models qui n’ont pas beaucoup évolués ces dernières années comme cela a pû être le cas a contrario pour la musique qui a basculé sur un modèle de rémunération à l’abonnement illimité et majoritairement adopté par tous les musiciens.
L’IA apporte des solutions rélles à ces problématiques en offrant les fonctions de:
- Traduction
- Réécriture, de synthèse et d’abstracts pouvant remplacer les châpeaux
- Création de visuels
Ces outils de synthèse sont d’ailleurs en cours d’intégration ou déjà intégrés chez différents éditeurs de logiciels de veille tels que Curebot ou Cikisi ou encore Sindup.
J’insiste toutefois sur la vigilance à apporter sur ce cas d’usage.
En effet, plusieurs publications insistent sur la tendance des LLM à reproduire parfois in extenso des passages importants d’articles originaux exposant ainsi le veilleur à des infractions au droit d’auteur sans même que ce dernier en ait conscience.
Les concepteurs de LLM s’attachent par ailleurs dernièrement à apprendre à leurs modèles la meilleure façon de respecter jsutement ce droit d’auteur d’autant plus que les actions en justice se multiplient par les ayants droits ou leurs représentants.
Intégration de l’IA dans les logiciels de veille
Comme évoqué, l’IA peut apporter une réelle efficacité pour les tâches quotidiennes du veilleur toutefois un des prérequis qui nous semble essentiel est qu’elle soit pleinement intégrée dans le workflow de veille.
Le succès des plateformes de veille historique telles que Digimind, KB Crawl, AMI ou Sindup vient de leur capacité à intégrer à l’intérieur d’une seule interface et d’un seul outil les différentes phases du cycle de l’information (collecte, traitement, diffusion et parfois analyse même si cette dernière phase se déroule majoritairement en dehors de ces plateformes.)
L’IA revêt un réel intérêt dans l’hypothèse où cette dernière s’intègre de façon ergonomique voire transparente dans les dits outils afin de maximiser les gains d’efficacité.
Le souci est que certaines de ces technologies de veille sont un peu datées et que leur différentes versions et évolutions n’ont pas forcément facilitées l’intégration de technologies tierces et le recours à différentes API.
Enfin, les éditeurs de veille lorsqu’ils intègrent des fonctions repposant sur les LLM le font en limitant le choix des modèles. Il est ainsi impossible à l’utilisateur et client d’une plateforme de veille de choisir Open AI ou Copilot ou d’autres modèles.
L’intégration de ces technologies d’IA sur des plateformes de veille stratégique et concurrentielles doit par ailleurs amener à se poser la question de la confidentialité. En effet l’utilisation d’une API signifie que des données vont être envoyées à une solution tierce à la plateforme de veille, être processée par l’IA qui pourra fournir le résultat attendu qu’il s’agisse d’une traduction, d’un résumé ou d’une analyse.
Les éditeurs de logiciels de veille font ainsi principalement le choix de se reposer sur des IA open sources telles que BERT ou Llama par exemple.
IA et Business Model
L’IA produirera toute sa valeur lorsqu’elle est pleinement intégrée aux outils et aux processus. Cela signifie des coûts de développement logiciels, du temps homme et des coûts de formation ainsi qu’une certaine inertie, comme pour tout nouvel outil, avant d’être au pic de son efficacité.
Il s’agit donc d’un investissement non négligeable à la fois pour les entreprises et pour les éditeurs.
Or avec seulement quelques années d’existence (ou en tout cas de déploiement marrché), le business model de ces éditeurs reste encore flou.
Pour l’instant chaque LLM essaie de se tailler une part de marché avec des stratégies diverses: certains LLM, comme Open AI et son GPT-4o ou o1, jouent la carte de l’omniscience en essayant de fournir des services liées à la génération d’image, la génération de textes, à la recherche d’information, et d’autres se spécialisent pour tenter de démontrer rapidement leur efficacité sur certains segments de marchés en ciblant l’entraînement de leur IA et en leur permettant de monter en connaissance trés rapidement sur un spectre limité tel que Yseop dans le secteur pharma.
Mais quid de demain ?
Dans un monde dans lequel la question du développement durable et de l’écologie est de plus en plus présente à quoi s’attendre demain en termes de contraintes réglementaires et donc d’impact sur le coût de ces technologies ?
Par ailleurs tout simplement, une fois le marché consolidé, comment ne pas imaginer une hausse de prix conséquente une fois que les entreprises seront captives de cees technologies après avoir investi d’importants montants à leur intégration.
Malheureusement la courte histoire du digital nous a montré que les deux modèles les plus viables jusque là étaient:
- Le passage au modèle payant permettant d’amortir coûts fixes et coûts variables ce qui est TRES loin d’être le cas aujourd’hui pour Open AI par exemple qui projette une perte nette de 5 milliards de dollars en cette fin d’année ce qui indique clairement qu’à ce jour le coût facturé n’est pas le coût réel du service.
- Le recours au modèle publicitaire ce qui semble peu probable en tout cas pour les usages professionnels.
L’augmentation du coût de l’énergie consommée massivement par ces technologies, les contraintes environnementales de plus en plus omniprésentes, la sous facturation actuelle des abonnements et les investissements colossaux nécessaires à l’innovation continue laissent augurer une hausse plus que conséquente des abonnements (déjà + 10 % pour Chat GPT en 2024).
Enfin à la différence de la plupart des logiciels pour lesquels une fois les coûts de développement, de maintenance et d’évolution sont absorbés, le coût marginal à l’utilisateur reste limité, pour les solutions d’IA la structure des coûts est trés différente puisque chaque prompt est consommateur de consommation énergétique élevée et donc de coûts variables importants et proportionnels à l’utilisation. L’équation semble ainsi dangereuse: plus les utilisateurs seront formés, plus la solution sera performante, plus un utilisateur maximisera l’utilisation de son abonnement et génèrera donc des coûts variables élevés limitant la marge réalisée sur chacun des abonnements.
L’on comprend alors le choix de certaines sociétés de se tourner vers des solutions d’IA Open Source, peut être moins performance que les leaders du marché des LLM propriétaires mais qui permettent de limiter le risque de dérive financière.
L’IA et les auteurs
Je finirai en développant deux autres points.
Tout d’abord la question de la propriété intellectuelle. Jusque là pour entrainer leurs modèles les IA se sont largement servis de contenus accessibles en ligne. Or bien qu’elles ne rediffusent pas ce contenu en l’état, elles exploitent un contenu original, sans en rémunérer les auteurs, pour elles mêmes générer des contenus et en tirer un profit.
L’on comprend dès lors que les auteurs commencent à chercher à se défendre contre ces nouvelles technologies qu’elles considèrent comme des parasites venant s’enrichir de leur travail pour les transformer en monnaie sonnante et trébuchante sans se soucier de la juste rétribution de ceux qui ont permis à ces IA d’être ce qu’elles sont.
L’on citera ainsi le Times qui a engagé des poursuites contre Open AI et Microsoft AI ou bien encore la société des auteurs pointe du doigt les éditeurs de LLM pour le non-respect du droit d’auteur.
Les procès se multiplient et laissent penser que de nombeux auteurs, éditeurs, ayants droits ou représentants des ayants droits envisagent de bloquer leurs contenus par des moyens aussi bien technologiques que juridique.
A termes, les IA devraient disposer d’une moindre quantité de contenus pour apprendre ou en tout cas des contenus de moindre qualité… Or une IA entraînée avec des contenus de moindre qualité ne saurait être aussi performante et s’appauvrirait.
En synthèse
Les LLM ont fait des progrés spectaculaires en termes de qualité et de capacité à générer des contenus d’une qualité acceptable pour un usage professionnel ciblé dont certaines tâches inhérentes aux métiers de la veille.
Comme toute technologie les coûts d’intégration et les temps d’appropriation nécessaires aux professionnels doivent être pris en compte et ne pas être négligés. Avant de constater un réel gain de productivité l’investissement en temps et en budget peut être important d’autant plus que les coûts de ces technologies est probablement destiné à augmenter de façon importante.
Enfin si les technologies d’IA permettent aujourd’hui jsutement de répondre à des besoins de conformité dans les livrables de veille, c’est aussi leurs talons d’Achille. En s’appropriant le contenu des auteurs pour entraîner leurs logiciels et s’enrichir sans imaginer en amont une rémunération équitable, les Big Tech et éditeurs AI se sont attirés leur ire tout comme Google News en avait fait les frais à l’époque, sachant à contrario que Google News était quand même générateur de traffic pour les sites de presse ce qui n’est pas forcément le cas de ces IA.
Bonus
Mon intervention avec Mickaël Réault de Sindup lors de cette journée Archimag
Mon support de présentation