« Google est ton ami ». Cette expression est passée à la postérité : le moteur de recherche est un outil surpuissant qui n’a laissé que des miettes à ses concurrents. On ne cherche plus sur internet, on google. Google s’installe également dans tous les aspects de nos vies : santé, domotique, navigation GPS…
Et le veilleur dans tout ça ?
Le veilleur d’aujourd’hui s’appuie de plus en plus sur Google pour couvrir un specter large, international, sans avoir à paramétrer des sources de façon unitaire. Cela lui permet en phase amont de projet de veille de compléter rapidement son sourcing et de détecter des informations diffusées par des sources ouvertes, plus généralistes. En complément de cela, bien évidemment, la veille quotidienne est assurée majoritairement par des solutions dans lesquelles le veilleur détermine son corpus de source et en assure une surveillance précise, sans intermédiaire. Les équipes d’Actulligence ne font pas exception à la règle et Google est l’un des outils que nous utilisons dans nos projets. Loin d’être notre outil principal il nous permet toutefois de sécuriser la veille surtout sur des phases de démarrage avec une détection d’information par mots clés sur le périmètre de l’index de Google, modulo la boîte noire de son algorithme.
De récentes évolutions dans l’algorithme Google nous pousse à refaire un point sur les possibilités offertes pour la veille, et vous aider à programmer simplement vos alertes Google, pour atteindre de meilleurs résultats.
Pourquoi utiliser Google Alerts ?
Google dispose aujourd’hui d’une couverture inégalée, et d’après les derniers chiffres disponibles sur le sujet en 2016, 130 trillions de pages ont été indexées par Google. Jusqu’en 2016, Google tenait le compte des pages indexées sur son site, jouant avec Yahoo au jeu de celui qui a le plus gros index à coups de communiqués officiels. Estimant que la taille n’était plus un critère pertinent, et qu’il avait pris sur ce point, et sur d’autres, une avancée suffisante sur son plus crédible concurrent, Google décida de cesser la diffusion officielle de la taille de son index.
Google News, un des services phares du géant de Mountain View, dispose quant à lui d’un corpus de 50000 sources d’actualités, venant du monde entier. Le service génèrerait un chiffre d’affaires de 4.7 milliards de dollars.. Un gâteau dont le partage reste un point de litige récurrent avec les éditeurs de presse, le plus récent en date nous venant d’Australie. Un chiffre à prendre avec des pincettes, mais il est clair que le volet actualités de Google revêt une importance stratégique.
Google est de fait un acteur incontournable de l’information et donc de la veille. Il n’est d’ailleurs pas étonnant de voir des acteurs du monde de la veille et de la recherche d’information s’appuyer en partie sur les APIs de Google, tels que le nouveau venu Geotrend.
Même les solutions moins onéreuses telles que Inoreader peuvent proposer directement l’accès à des news issues de Google dans leur interface.
Google Alerts pour la veille : retour d’expérience
En 2014, j’avais écrit un billet de référence sur Google News. A l’époque, j’expliquais la façon de transformer les actualités Google en fils RSS, Google ayant subitement supprimé le bouton permettant l’accès à ces dits flux après des hésitations auxquelles l’Ogre nous a malheureusement habitué.
Partant d’une requête telle que ebola AND (vaccine OR immunization), la transformation en fil RSS permettait de capter les infos sur le sujet au cours de la dernière journée. Une simple programmation dans un lecteur RSS et c’était parti ! Une façon simple et peu coûteuse de se tenir informé.
A la fin de l’année 2018, comme beaucoup de veilleurs, nous avons constaté un changement critique dans l’algorithme de Google News, impactant le tri des informations, notamment par date. Pendant quelques semaines, nous avons eu des remontées d’informations intempestives, anciennes parasitant les résultats quotidiens. Même avec l’œil avisé du veilleur, certaines infos passaient pour toutes fraîches alors qu’elles avaient parfois plusieurs semaines. La faute à Google qui sur le flux RSS et dans certaines de ses interfaces Google News ne proposait tout simplement plus l’option de tri par date mais uniquement par pertinence. Même avec l’œil avisé du veilleur, certaines infos passaient pour toutes fraîches alors qu’elles avaient parfois plusieurs semaines et quoui qu’il en soit ce changement impactait lourdement les temps de lecture.
Malgré les messages laissés sur le forums développeurs, ou Google users, aucune solution. La seule solution a consisté pour nous à basculer sur Google alerts ce qui n’est d’un point de vue productivité et mutulaisation peu satisfaisant car nécessitant de se connecter à l’interface dédiée pour l’administration des alertes.
Paramétrer les Google Alerts
S’ile st possible de paramétrer des Google alertes par mail sans disposer de compte Google dédié, par contre la récupération de ces alertes au format RSS requière impérativement un compte idoine qui permettra de se connecter à l’interface : https://www.google.com/alerts
Quelques remarques générales sur les requêtes et leur rédaction
- Les oéprateurs booléens standards OR, AND, « » et – restent en vigueur sur quasiment tous les index.
- Les opérateurs sont bien ceux ci-dessus et pour le AND et OR doivent être en majuscules. Non, si on les met en minuscules cela ne « marche » pas. Ca peut sembler marcher mais c’est juste parce qu’il y aura assez de résultats mais l’opérateur ne sera pas traité en tant que tel s’il est en minuscules. Le « NOT » est traduit en « – » (moins) et accolé au mot à ignorer. L’opérateur « + » n’existe plus depuis longtemps et à été remplacé par « mot à mot ». Et les guillemets sont à utiliser pour les expressions exactes mais toutefois ne dispensent pas Google de se livrer à une certaine interprétation des termes entre parenthèse.
- Certains opérateurs spécifiques peuvent être utilisés je pense par exemple ou filetype: si et seulement si vous paramétrez vore alerte sur l’index correspondant (pour ce cas précis Google Web). En effet Google alertes permet de générer des alertes news mais d’intégrer d’autres indexs tels que le web et les vidéos comme nou sle détaillerons plus loin dans ce billet.
- Il est possible d’utiliser le parenthésage. La documentation fournit par Google est peu explicite sur le sujet mais cela fonctionne si l’on prend soin de ne pas les imbriquer et surtout d’avoir une requête qui ne dépasse pas la taille maximale de 32 mots. Si le seuil de 32 mots est dépassé, Google vous avertira »xxxxx » et les mots qui le suivent ont été ignorés : les requêtes sont donc limitées, comme on peut le constater dans la capture d’écran ci-contre. (cf ci-dessous). Dans l’hyptohése où vous auriez mis des parenthèses et qu’elles aint été coupées à la fin, votre requête peut alors devenir complètement erratique. Prenez donc bien soin de vérifier le respect de ce seuil et si besoin de splitter vos Google Alertes.
Prenons un exemple de requête pour illustrer un paramétrage détaillé.
Admettons que vous souhaitez suivre les dernières innovations de Google en intelligence artificielle.
Exemple typique d’une requête :
- google AND (« artificial intelligence » OR « machine learning » OR « digital twin »)
Vous devez paramétrer plusieurs éléments :
- Fréquence : ici vous n’avez pas le choix. Quand vous paramétrez la requête pour un flux RSS, vous aurez obligatoirement « quand le cas se présente ». Dans le cas dun abonnement par mail vous pourrez choisir la fréquence.
- Sources : Automatique/Blogs/Actualités/Web (+autres services Google). Nous prenons le parti de sourcer sur actualités. Il s’agit des index de Google. Pour automatique Google ira piocher dans ses différents index pour vous faire une sélection. La partie Blogs se focalise sur ce que Google identifie comme des blogs, la chose n’étant plus très claire étant donné que Google a supprimé son moteur de recherche spécifique blogs. Le web représente l’index des sites du moteur généraliste. Et News… les news. Nous prendrons le parti de se focaliser sur les news sur cette partie de l’article. Les alertes webs peuvent être intéressantes mais sont souvent parasitées par des documents mis à jours.
- Langue : Anglais. Pour des raisons évidentes : la majeure partie des informations primaires dans le domaine qui nous intéresse seront en anglais. Nous conseillons vivement de ne pas utiliser les paramètres « toutes langues » mais plutôt de faire une alerte par langiue qui vous intéresse. Les alertes « toutes langues » auront tendance à privilégier les news de la langue dans laquelle votre profil Google est paramétré.
- Région : toutes les régions. Vous augmentez ainsi votre périmètre de veille sur les sources UK, indiennes, canadiennes, australiennes etc. Dans le cas de Google en intelligence artificielle, par exemple il est très intéressant de scanner les sources indiennes, car l’Inde en termes de marché, de recherche est très dynamique sur les sujets d’IA.
- Nombre de résultats : tous les résultats/seulement les meilleurs résultats. Dépendamment du sujet, vous risquez d’être inondé d’informations. Dans le cas où le domaine surveillé est en soit assez peu traité dans les médias, il est préférable de sélectionner tous les résultats. Chez Actulligence, nous privilégions « tous les résultats » car nous ne connaissons pas réellement les critères selon lesquels sont sélectionnés les « meilleurs résultats ». Nous estimons qu’il pourrait s’agir d’un classement en fonction du nombre de partages ou de « réputation » (backlincks entre autre) de la source. La fiabilité de ce critère reste discutable…
Une fois ce paramétrage fait, vous pouvez constater l’aperçu de l’alerte. Si rien n’apparaît c’est qu’il y a peut-être une erreur (ou pas de résultats):
- Les guillemets oubliés sont la cause la plus fréquente, ou un mauvais positionnement des opérateurs booléens.
- Il s’agit peut être d’une formule trop restrictive. Pour schématiser l’opérateur OR est votre meilleur allié, élargissant le corpus, alors que AND doit être utilisé avec plus de parcimonie, ce dernier permettant de restreindre le corpus.
- Ou tout simplement que le sujet suivi n’est pas traité dans l’actualité immédiate.
Une fois l’alerte créée, vous êtes dirigé vers la liste des Google Alerts, triées par ordre alphabétique :
Un simple clic droit sur l’icône RSS pour copier l’adresse du lien, et vous aurez l’adresse du flux RSS de la forme : https://www.google.com/alerts/feeds/xxxxxxxx/xxxx
Un ajout dans votre lecteurs de flux RSS ou dans votre logiciel de veille et vous êtes prêt. Attention toutefois, il peut être nécessaire d’attendre plusieurs heures et jusqu’à 24 h avant de voir apparaître les premieres résultats dans votre flux RSS.
Les conseils du veilleur
N’hésitez pas à développer, dans la limite de 32 mots hors opérateurs booléens, les champs sémantiques dans vos requêtes. Dans le cas qui nous intéresse l’IA chez Google, nous pouvons développer ajouter dans la requête :
- (Google OR alphabet OR verily OR fitbit) : ici nous avons ajouté la holding de Google et des filiales qui ont ou auront des projets en IA. Votre connaissance de votre métier vous aidera naturellement à étoffer vos requêtes et bien évidemment votre processus de veille doit intégrer une routine de mise à jour de ces alertes et des mots clés qu’elles contiennent.
Contournez le problème du spam
Au cours de l’année 2019, nous avons vu émerger des articles spams, plutôt faciles à repérer. C’est une vraie chienlit qui pourrit littéralement l’index de Google et Google semble réellement dépassé par ce phénomène. Les stratégies de communiqué de presse automatisés et de sites satellites + name dropping de ces sociétés éditrices de contenu nous rappellent les heures les plus sombres du black hat SEO. Ces contenus se présentent en général avec un titres alléchant et un contenu en général sans aucun intérêt. Exemples ci-après.
- Vaccines Market by Technology (Live, Toxoid, Recombinant), Disease (Pneumococcal, Influenza, DTP, Rotavirus, TT, Polio, MMR, Varicella, Dengue, TB, shingles, Rabies), Route (IM, SC, ID, Oral), Patient (Pediatric, Adult), Type – Global Forecast to 2024
- Lockable Gas Spring Market Size Growth Segment by Application (2020-2025)
Un des moyens pour limiter la casse est encore une fois d’utiliser les possibilités de requêtage de Google. Ajoutez à votre requête des motifs d’exclusion . Attention toutefois à manier avec précaution pour ne pas passer à côté de résultats pertinents. L’équilibre peut-être délicat à trouver entre silence et bruit…
- (Google OR alphabet OR verily OR fitbit) AND (« artificial intelligence » OR « machine learning » OR « digital twin ») -“market report” -“cagr”
- « - » qui tient lieu d’opérateur d’exclusion sur Google premert ainsi d’exclure les termes génériques liés à ce genre de site. Cela ne représente pas une grande perte au niveau de votre veille, par exemple le CAGR est une notion comptable peu utilisée dans la presse classique.
- Vous pouvez également repérer le nom des sites en question et l’ajouter aux motifs d’exclusion, mais ces sites vont et viennent sous différentes formes, URL etc. et on ne peut pas ajouter des sites à l’infini.
Les Google alertes pour les documents webs
Les GA ne se cantonnent pas à Google News. Votre alerte peut être orientée « web ». Il suffit pour cela de paramétrer en conséquence dans le formulaire Source : Web. Il est par exemple possible de veiller l’appartion de documents financiers, notamment en pdf. Dans votre requêtage, la recherche par type de fichier, « filetype » fonctionne. Cela fonctionne proprement dans un lecteur de flux RSS. Pour d’autres solutions de crawl plus poussées qui récupèrent le fichier pdf, il se peut que la lourdeur du fichier impacte la récupération d’information.
Elargissez votre veille avec Google Scholar
Vous avez la possibilité de créer des alertes sur Google Scholar. Petite piqûre de rappel : Google Scholar est un service inventoriant 389 millions de publications scientifiques et en général favorisant l’accès aux sources scientifiques (sites universitaires, laboratoires de recherche, etc), et il serait dommage de passer outre dans votre veille. Bien sûr, l’intérêt de surveiller des publications scientifiques dépend de votre sujet, mais l’utilisation de cet outil permet souvent de faciliter l’accès à l’information primaire (NDLR : de nombreux articles seront en accès payants si vous souhaitez un accès en texte intégral).
Google Scholar est très simple d’utilisation. A l’image de tous les services Google, la recherche se fait via les opérateurs booléens classiques.
Les informations obtenues peuvent être triées en fonction de plusieurs critères parmi lesquels la date et la pertinence. Nous préférons le tri par date, en raison du fait que la pertinence est un critère moins objectif, et surtout que dans la veille l’activité est focalisé sur les flux d’information récents plus que sur le stock d’information.
Malheureusement pour Google Scholar , pas d’option RSS (et pourtant nous avons creusé…) l’envoi d’alertes par mail est possible, au contraire de grands agrégateurs de sources scientifiques de référence comme Pubmed qui proposent de créer des feeds RSS personnalisés basé sur vos recherches.
Il faudra donc se contenter d’être notifié par mail, à moins d’utiliser un des multiples services promettant de transformer votre mail en flux RSS. Soyons francs, la qualité de ces services est assez inégale, mais un d’entre eux a retenu notre attention : Notifier.in
Le service génère pour vous une adresse mail en @notifier.in qui fera office de boîte de réception pour vos alertes Google Scholar. Notifier.in envoie ensuite les alertes à un flux RSS personnalisé programmable dans votre lecteur RSS ou dans votre logiciel de veille. Nous avons testé, les résultats ne sont pas tout à fait convaincants, l’outil notifiant tout de même à minima l’arrivée d’alertes. Un service à suivre, tant nous sommes convaincus que le format RSS est la meilleure façon de collecter les nouvelles, sans pour autant être inondé par des mails toujours plus envahissants !
Les agrégateurs de flux RSS et leur fonction Google News intégrée, attention aux pièges !
De nombreux outils ont bien saisi la pertinence de l’utilisation de Google News. Ainsi les agrégateurs RSS suivants proposent de surveiller directement des requêtes :
Ironie de l’histoire, cet agrégateur de flux RSS a été créé en 2012, par deux développeurs voulant anticiper la possible fermeture de l’agrégateur Google Reader. Bien leur en a pris puisque Inoreader est devenu un outil de référence pour tout veilleur, et Google Reader a bel et bien fermé un an plus tard.
La fonction Google News intégrée semble intéressante au premier abord : il suffit d’établir les requêtes que vous souhaitez et vous obtenez instantanément le flux RSS. Des statistiques assez poussées dans la version gratuite permettent d’établir la volumétrie d’information sur le sujet souhaité, ce qui vous permet de moduler votre suivi.
Toutefois, à l’heure où nous mettons sous presse, Inoreader fait toujours face à deux problèmes majeurs :
- La gestion du spam : à moins de faire des motifs d’exclusion soi-même, l’outil n’est pas en mesure de détecter le spam (trash in trash out malheureusement…)
- La nouveauté des informations : il arrive qu’Inoreader présente des informations comme arrivée la veille alors qu’elle date de plusieurs mois.
Nous avons essayé de voir avec Feedly si on arrive à contourner les écueils d’Inorader.
Feedly a intégré la fonction Google News et donne la possibilité de créer soi-même les requêtes et de choisir la zone géographique d’où proviendront les actualités. Le service permet d’établir une estimation de la volumétrie d’information sur un sujet, ce qui est très cohérent : on veut savoir si nos requêtes vont tourner ! (image ci-dessous).
Tout comme Inoreader, suivre des Google News via Feedly requiert d’upgrader vers une version pro. Nous avons testé la solution avec les mêmes requêtes utilisées avec Inoreader, et il nous semble que les résultats sont plus « propres » et plus conformes à l’affichage de Google. Pendant notre phase de tests, nous avons été exemptés de vieilles informations qui remontent. En tout cas, les dates affichées par Feedly ont été conformes aux dates des articles.
Malgré tout, nous ne sommes pas en mesure d’établir avec certitude que Feedly est fidèle à Google News à 100% : tout dépendra des sujets suivis, du pays d’où vous vous connectez, et des serveurs où sont localisés les agrégateurs. Tous les résultats seront biaisés d’une façon ou d’une autre, mais en utilisant ces agrégateurs « web-based », vous pourrez avoir une vue d’ensemble intéressante et actionnable dans votre métier.
Et le collaboratif dans tout ça ?
Dans des projets de veille internationaux, il est commun que la veille soit basée sur des centaines, voire des milliers de sources, des centaines d’informations arrivant quotidiennement. Il faut trier les informations, les classer et faire en sorte qu’elles soient accessibles à un nombre important d’utilisateurs.
Les grands groupes, avec leurs équipes SI intégrées prennent souvent le parti de faire publier les informations sur une plateforme, développée en interne ou fournie clé en mains par un fournisseur (pour ne pas les citer en veille par exemple KB Crawl, Digimind, Sindup, Cikisi, Qwam, Ixxo,…) Ainsi un maximum de collaborateurs a accès à la veille du groupe, et une vision globale de ce qui se passe en interne. Le collaborateur au profil commercial peut avoir accès aux informations sur les concurrents ou clients, le juriste peut avoir accès à la réglementation et à ses évolutions, etc. L’intelligence collective de l’entreprise s’en trouve nettement améliorée.
Les organisations d’aujourd’hui tendent à penser collaboratif, et c’est une grande avancée. Pour rendre disponible votre veille au plus grand nombre en interne, nous vous proposons des solutions abordabes de « chaînage . Les lecteurs du blog d’Actulligence penseront notamment à IFTTT ou à Zapier, mais Microsoft s’est engouffré dans la brèche avec un certain brio.
- Microsoft Flow avec Microsoft Teams
Microsoft Flow (ou Power Automate selon les régions) permet de créer des workflows basés sur évènements déclencheurs (trigger events) pour les dispatcher une ou plusieurs différentes applications de l’environnement Microsoft.
Flow prévoit la possibilité d’établir un « workflow » sur la base de flux RSS et d’envoyer les résultats vers une application Microsoft de votre choix.
Microsoft Teams est pour nous l’outil le plus intéressant car il permet de collaborer avec vos équipes via des canaux thématiques, que vous pouvez créer à votre guise et par ailleurs Teams connaît dernièrement une croissance assez fulgurante en termes de déploiements.
Une fois paramétré, vous n’avez plus à y penser, c’est là tout l’intérêt de la solution. Vos collaborateurs ayant accès à Teams pourront donc naviguer à travers les différents canaux, et se faire une idée de ce qui se passe selon les différents périmètres de veille.
Plus simple encore, vous pouvez tout simplement ajouter vos Google Alerts RSS dans les canaux de Teams via les connecteurs d’apps, chose très facile à mettre en place : il suffit d’assigner le flux RSS à un canal teams, et définir la périodicité à laquelle les alertes seront envoyées. Le résultat en sera l’envoi périodique d’un digest avec liens cliquables.
- Les Google Alerts avec Slack
Très en vogue dans les milieux des start-ups et autres entreprises digitales, Slack est un outil collaboratif qui gère l’information collective via des canaux matérialisés par des hashtags. On peut utiliser Slack comme un simple outil permettant de savoir les tâches en cours et leur degré de réalisation, mais avec il peut être aussi vu comme un outil de veille. Slack propose l’intégration de flux RSS, et de façon général, Slack est très similaire à Teams (ou Teams similaire à Slack…)
Assigner un flux RSS Google Alerts (ou autre) à un canal Slack relève du jeu d’enfants. On peut toutefois regretter que la périodicité des alertes ne soit pas réglable dans la version de base que nous avons testée.
- Les autres solutions colaboratives ou de partage
Il y en a pléthore et l’objectif de ce billet n’est pas de les détailler toutes mais l’on pourra imaginer des couplages avec un Worpress maison, avec Facebook Workplace, ou tout simplement à travers une version upgradée collaborative de Inoreader. Pensez à ce qui existe déjà dans cotre entreprise et favorisez le rattachement à une solution déjà adoptée en interne et déjà maîtrisée par ses utilisateurs et attchez vous à l’alimenter en information pertinente et fraîche.
Notre conclusion
Nous recommandons vivement l’utilisation des Google Alerts pour votre veille, en complément de vos outils existants. A ce jour malheureusement peu d’outils peuvent se vanter d’offrir un accès aussi vaste à l’information internationale. La facilité d’utilisation et de mise en place de cette solution vous permettra d’être opérationnel assez rapidement. Attention toutefois à être vigilant, tant il est vrai qu’on est à la merci de la bonne volonté de Google qui pourrait décider unilatéralement d’arrêter les RSS pour Google Alerts. Ce ne serait pas une première malheureusement. On peut espérer que Google viendra à bout des spams à l’avenir, mais pour l’heure des gestes simples permettent de vous débarrasser de 90% d’entre eux, et pour les 10% restants c’est votre œil aguerri qui vous permettra de les éliminer. Petite revanche de l’homme sur la machine : même une entreprise telle que Google semble avoir du mal à trier le grain de l’ivraie parfois.