J’étais cordialement convié cette année à participer à la conférence / table ronde intitulée « Entre outils gratuits et outils payants, quelles nouvelles méthodes efficaces de recherche sur le web visible et invisible ? Trucs et astuces pour effectuer des recherches avancées dans le web ? » qui se tenait lors d’i-Expo.
L’occasion ici de vous partager les questions qui étaient posées aux intervenants et les éléments de réponse que j’ai pu y apporter sur un timing serré.
Question : Factiva, dans l’une de ses communications déclarait : “c’est gratuit mais vous en avez pour votre argent”. Quelle est votre réaction ?
“Si c’est gratuit c’est que vous êtes le produit.” L’adage n’est pas nouveau, il est difficile d’y attribuer une paternité, mais il n’a jamais été aussi vrai particulièrement dans les métiers de la veille.
La gratuité est une vue de l’esprit et après plus de 20 ans de Web nous connaissons les tenants et les aboutissants : qu’il s’agisse de publicité et de temps perdu à lutter contre, qu’il s’agisse d’une pérennité qui n’arrivera jamais dans un produit et des coûts de sortie de cette solution, ou bien encore de l’évolution à termes vers un modèle premium, toute solution gratuite a un coût.
Et si nous parlons de l’information nous voyons bien, plus que jamais, à cette époque de fake news et de manipulation de l’information, l’importance de disposer de médias financés par leurs lecteurs pour la qualité de l’information et non pas par un parti politique ou par des industries pour véhiculer des messages qui leur seraient utiles.
Question : Quelle distinction faites vous entre veille et recherche d’information ?
Bien qu’effectivement les outils de veille et de recherche soient de plus en plus entremêlés de par leur fonctionnalités, j’ai tendance à résumer la différence entre veille et recherche d’information à une dichotomie relativement simple : la recherche d’information permet de trouver une réponse grâce à un stock d’information. La veille permet de détecter de nouvelles informations par les variations d’information dans un périmètre surveillé.
Les technologies clés sous-jacentes sont donc à mon sens relativement différentes.
Les technologies liées à la recherche d’information vont être celles liées à la réduction de la friction entre celui qui cherche l’information et celui qui la met à disposition. Traitement automatique du langage naturel, speech to text et text to speech, technologies lexicales et sémantiques, traduction, deep learning, intelligence artificielle. L’objectif de ces couches technologiques est de permettre la meilleure compréhension par la machine d’un corpus de documents et la meilleure compréhension de la requête effectuée.
La veille se heurte principalement à des contraintes techniques liées à l’extraction de l’information (crawlers, scrapeurs), à sa structuration (liens documentaires, méta données, extractions de concepts et d’entités nommées), et à sa rediffucion (éditorialisation et livrables).
Question : Quelle distinction faites vous entre outils et contenus ?
La différence contenus / outils est aujourd’hui absolument essentielle pour bien comprendre ce qui se joue sur le marché des éditeurs d’outils et de fournisseurs d’information. Tout producteur et revendeur de contenus “payants” doit assurer la gestion de la diffusion de ces contenus et la rémunération des auteurs (et intermédiaires). Un outil (de veille) s’appuie sur un interstice juridique permettant certaines choses (droit de copie technique, liberté de liens, dédouanement de l’hébergeur dans le cadre de la LCEN) avec des contenus massivement protégés par le droit d’auteur (NB : un article de blog est protégé par le droit d’auteur) payants pour certaines. Dans cette lutte pour l’accès à l’information chacune des parties ouvre ou verrouille son système, ses données, en fonction de l’évolution des rapport de force et des possibilités offertes par le business model mis en place par les uns et les autres. Aujourd’hui dans le monde la veille, il est certains que les producteurs de contenus essaient de reprendre la main sur leur matière première et l’on voit ainsi des éditeurs / agrégateurs / Bases de données professionnelles développer leurs système de push et leur offres de veille aussi bien technologique que de services.
Question : Quelle est votre typologie outils gratuits/payants, en détaillant bien les fonctionnalités ?
Attention !!! Le listing ci-dessous n’est ni exhaustif ni contextualisé. Ces outils sont des outils que j’apprécie pour leurs qualités intrinsèques et leur rapport qualité / prix. Pour chacun des projets de veille il faut prendre soin de choisir les bons outils pour le contexte (utilisateurs / informatique / enjeux)
- Outils de veille gratuit : mes favoris sont les lecteurs RSS disposant de fonctionnalités de filtre / requêtes et j’utilise personnellement Inoreader en SaaS et en desktop FeedDemon (mais de moins en moins). Cela peut être complété par des outils d’alertes par emails ou RSS. La base pour moi reste la possibilité de générer des RSS fiables et multilingues à partir de Google News et en compléments des systèmes tels qu’Alerti, Google Alerts.
- Outils de veille payants : J’utilise sur les projets où je suis impliqué principalement Digimind, KB Crawl et Sindup en fonction des attentes du client. Je garde un oeil sur Contify, en Inde, et le tout nouveau Cikisi, nouvel acteur Belge, qui me semblent être l’un des rares que j’ai pu détecter dernièrement sur le scope potentiellement CI. Sur les aspects social media monitoring Brandwatch, Talkwalker and Visibrain. Je surveille de près les outils tels que Radian 6 (Salesforce) qui traverse pour moi un passage à vides, Mention, Sprinklr sur le module listening.
Question : Concrètement, en entreprise, comment mettre en place un outil de veille performant (REX) , gratuit ou payant ?
Les avantages du déploiement de solutions de veille sont multiples pour les clients qui en général décident de franchir le pas lorsqu’ils ont été confrontés aux limites des outils gratuits.
Les outils payants permettent plus aisément la collaboration entre les veilleurs et les experts d’un sujet. Ils intègrent également la chaîne de traitement spécifique à nos métiers : paramétrage des sources, des collectes (parcours de crawl, ciblage de zone), filtrage par mots clés / expressions booléennes, aide à la validation, aide à la modification, aide à la classification / organisation, publication, partage, accessibilité à posteriori.
Difficile de trouver l’intégralité de cette chaîne de traitements dans un seul outil même s’il est possible de parvenir à des combinaisons gratuites ou peu onéreuses sur des bases de RSS + CMS + Module newsletter.
Seul bémol : la couverture des solutions payantes et des packages de sources proposés reste parfois problématique car il est difficle de maintenir un package de sources complet. Qu’il s’agisse des solutions de Social Media Listening totalement opaques sur leur sourcing ou des solutions de veille ne permettant pas la collecte de façon satisfaisante de certains sites, le veilleur devra parfois (souvent) avoir recours à des solutions complémentaires. Et là j’avoue qu’en solution passe partout Website Watcher est mon favori. Un crawler techniquement satisfaisant pour des volumes de plusieurs milliers de pages, paramétrable à souhait le tout pour 100 euros… Que demander de plus.
Question : Quels sont à votre avis les évolutions des fonctionnalités dans les outils de veille et de recherche gratuits et payants ?
- Dans les outils payants l’intégration des API des principaux fournisseurs d’information tels que Twitter (avec des fois le firehose) et Facebook (via les channels), l’intégration de la recherche d’image à partir d’une image (détection de logo, détection de contrefaçon), le speech to text qui se heurte encore beaucoup à des problématiques de puissance de traitement nécessaire et d’imprécisions lorsque le fond sonore est mauvais. Paradoxalement je trouve que la sémantique est clairement sous intégrée y compris les couches lexicale les plus basiques telles que l’extraction d’entités nommées. L’on se trouve souvent face à de pauvres nuages de mots inutilisables ou sans intérêt.
- Dans les outils gratuits (principalement de recherche car à ma connaissance il y a peu d’outils de veille réellement gratuits hormis les lecteurs RSS) l’intégration du sémantique est une des orientations clés de Google et globalement l’on retrouve cela dans les outils de search payants : qu’il s’agisse d’IA, de machine learning ou d’outils de traitement du langage naturel, d’outils linguistiques et sémantiques divers et variés, les moteurs cherche à comprendre la question et son contexte de la façon la plus efficace, à limiter les frictions entre celui qui publie et celui qui cherche en organisant informations et questions dans une base commune de connaissances et d’informations et non plus dans un lexique inversé. (L’on pourra par exemple regarder la très récente vidéo de Emmanuel Mogenet, Directeur Google Research Europe, sur le deep learning chez Google.)
Question : Sur la chaîne de valeur de l’information, comment placer les différents outils ? Comment situer le gratuit et le payant ? Quels sont les bons curseurs ?
Dans un processus de veille professionnel avec un minimum d’acteurs impliqué les outils de veille professionnels de type plateforme sont souvent au coeur du système. Les outils gratuits sont souvent utilisés comme des compléments de contrôle ou bien sur des unités qui n’ont pas de moyen financiers pour accéder à une solution plus coûteuse.
De plus en plus je note toutefois que les outils de veille pros sont complétés fonctionnellement par des outils d’aide à l’analyse, des outils d’analyse textuelle, des outils de cartographie.
Le rôle de l’analyste qui se contentait autrefois de simples alertes informationnelles ou de newsletters internes + externes pour construire ses analyses est aujourd’hui complété par des briques l’aidant à faire face à la masse d’information, y compris après un premier filtre “veille”.
Question : Quid de la maîtrise des outils et des sources ?
Le sourcing est au coeur du métier ef force est de constater qu’à ce jour il est de plus en plus difficile pour le veilleur de disposer d’un sourcing maîtrisé et fiable. Entre les sourcings plus que partiels des bouquets de sources fournis par les éditeurs qu’il s’agisse de competitive intelligence ou de Social Media Listening, des problèmes de paramétrage pour cibler l’information que l’on souhaite et uniquement celle que l’on souhaite, de la guerre menée par certains sites webs contre les éditeurs de logiciels de veille ou les crawlers, la maîtrise du sourcing est devenue très complexe et participe à cette nécessité d’envisager de disposer de plusieurs outils et de les faire cohabiter intelligemment. La mise en place de mécanismes de contrôle est elle aussi essentielle.
Question : comment voyez vous l’avenir sur l’évolution des outils gratuits/payants ?
Je suis relativement inquiet pour les outils de veille payants ou gratuits. L’on voit bien que les éditeurs de contenus et les majors tels que Facebook, et LinkedIn verrouillent de plus l’accès à leurs informations et à leurs fonctionnalités via les API. Il est clair que les éditeurs d’information, les bases de données et les GAFA se battent aujourd’hui pour maîtriser toute la chaîne de production, de commercialisation et de consommation de l’information soit à travers une croissance interne (développement de fonctionnalités, ouverture au monde l’entreprise, …), une croissance externe (rachat de nombreuses start ups dans l’IA, le machine learning, etc) soit par des fusions-acquisitions ou partenariats.
PS : merci infiniment à Anne-Marie Libman, de FLA Consultants, qui m’a proposé d’intervenir sur cette table ronde
Crédits photo : Frédéric Martinet. Toute utilisation ou reproduction interdite sans autorisation préalable.