Le 23 novembre 2010 se tenait le Co-Lab Sémantique à la cantine, organisé par X-Wiki et Silicon Sentier avec pour sponsor le consortium Scribo qui regroupe différents acteurs autours de projets sémantiques : l’Epita, Nuxeo, Proxem, l’INRIA, X-Wiki, le CEA, Tagmatica, et Mandriva.
Lors de cette journée, Jérôme Charron et moi-même avions été conviés pour donner notre point de vue sur l’état actuel de la recherche d’information.
Jérôme est bien placé pour parler sur le sujet puisqu’il est le fondateur de la liste de diffusion Motrech qui est aussi devenu aujourd’hui un « blog » qui tourne sous Posterous et auquel l’hyperactive Emilie Ogez et moi-même avons l’occasion de collaborer.
Nous avons donc pendant trois quarts d’heure un peu courts évoqué :
- La taille des index et les types de fichiers indexés
- L’ergonomie des moteurs de recherche
- La pertinence des moteurs de recherche
- Le search et le sémantique
Bien évidemment nous avons parlé beaucoup de Google. Sans être partisan du quasi monopole de Google dans la recherche d’information en ligne, il nous était difficile de minimiser le rôle qu’a pu jouer Google dans notre conception de la recherche d’information.
1) La taille des index et les types de fichiers
Il est loin le temps où Google et Yahoo se livraient à une guerre d’affichage sur leur page de résultats pour devancer son concurrent direct dans la guerre de la taille.
Mais le temps de jouer à celui qui avait le plus gros index s’en est allé en 2005. Google dans un geste de dédain décidait de ne pas annoncer son nouveau chiffre bien supérieur à celui de Yahoo (8 fois comme il l’annonçait lors d’un communiqué de presse / communication officielle). A cette époque la taille de l’index de Google était de plus de 8 milliards de page.
En 2005 le ton était donné. Les acteurs crédibles du search grand public avait atteint une taille d’index suffisante pour que la lutte ne se livre plus uniquement sur ces aspects là. Par ailleurs on pourrait considérer que la taille de cet index envoyait un signal ambigüe vers les utilisateurs : Comment pourraient ils trouver le bon résultat à travers 50 milliards de documents indexés ? Etait-ce d’ailleurs si important alors que lors d’une recherche rares sont les internautes qui vont consulter les résultats au delà de la première page.
Aller plus loin : Yahoo : 19 milliards de pages ? par Jean Véronis et Taille des index : Google enterre la hache de guerre sur AbondanceD’ailleurs aujourd’hui combien d’entre vous savent qu’il est impossible d’accéder à plus de 1000 résultats d’une requête même si Google vous annonce 144 000 résultats?
Une des conclusions partielles de cette partie était donc de l’admettre : la taille n’est pas un critère aujourd’hui qui permet de différencier les principaux acteurs du search.
Toutefois, la taille reste un critère important.
Pour les nouveaux acteurs du search ou les acteurs innovants elle reste d’ailleurs un facteur important d’échec.
L’infrastructure nécessaire à l’alimentation d’un index de plusieurs milliards de pages et au maintien à jour de ce dernier ainsi qu’à la capacité à répondre aux requêtes des utilisateurs reste un facteur induisant une forte barrière à l’entrée sur le marché du search.
On le constate d’ailleurs, les acteurs innovants du search pour limiter le poids de cette infrastructure se limite souvent en termes de langues indexées, l’objectif étant pour eux souvent de faire la démonstration de leurs innovations.
Concernant les types de fichiers indexés, là encore les acteurs se livrent une lutte importante et ce depuis le début des années 2000.
Google dans la mission qu’il annonçait de rendre la plus grande partie du Web accessible indexait successivement en 2002 les fichiers Excel et puis Access, avec comme effet colatéral la diffusion par milliers de mots de passe que les webmasters avaient omis de sécuriser.
Aujourd’hui encore il ne se passe pas quelques mois sans que l’on annonce que tel ou tel format sera mieux indexé. Dernièrement Google annonçait une meilleurs indexation des fichiers Flash qui historiquement ont toujours posés des problèmes aux moteurs de recherche.
Dans les problèmes de formats de fichiers ou tout du moins de technologie actuellement utilisés qui posent des problèmes demeurent quelques épines dans les pieds des géants.
Le javascript propriétaire pose des soucis majeurs d’indexation, brisant la chaîne des robots qui, même s’ils ont appris à composer avec les fonctions javascript de liens standards, se heurtent aux fonctions propriétaires avancées renvoyant par exemple des données en POST.
L’Ajax, comprenant une forte composante javascript pose donc d’important soucis aux moteurs de recherche.
Il en pose également un autre : celui des contenus mélangés.
Les moteurs de recherche ne savent pas composer avec les layers et les index z qui masquent ou affichent de contenus déjà chargés dans le code source. Ainsi le contenu en ajax mélange parfois les thématqiues à l’intérieur d’une même page web qui pourtant semblent des pages différentes pour l’internaute.
Quels nouveaux autres défis pour le search ?
En ligne de mire le multimédia. Speech to text, reconnaissance de sons, reconnaissance de formes.
Si l’on peut considérer que le match est quasiment terminé pour les grands acteurs du Web sur la recherche textuelle, il reste une marge de progrès considérable sur les contenus multimédias et par ailleurs les enjeux économiques sont importants.
On le voit clairement Google brûle de pouvoir proposer de la publicité contextuelle sur les vidéos de YouTube et cela prend encore une autre dimension si l’on considère les récentes annonces faites autour de la Google TV.
Quant à Yahoo, avec sa base d’images Flickr, l’intégration d’une technologie d’indexation d’images basée sur la reconnaissance des formes, des couleurs ou une recherche par similarité, ne serait pas de refus pour en optimiser son accessibilité.
On voit de nombreux essais technologiques à ce jour sur ces aspects là mais pour l’instant l’intégration dans les principaux moteurs de recherche reste résiduelle : reconnaissance du format portrait, filtres sur la couleur, … mais pas encore de compréhension fine des contenus multimédias.
On pourra toutefois évoquer le cas de Like.com, racheté l’an dernier si ma mémoire est bonne et qui intégrait des algorithmes avancés de reconnaissance de forme même si la technologie de démonstration reposait sur un nombre de produits indexés limité.
Le projet Quaero se positionne clairement également sur ces innovations technologiques même si le nombre de démonstrateurs technologique issus de Quaero reste encore limité.
Aller plus loin : Le site tineye.com permet de retrouver des images qui ont été faites à partir d’un même fichier à partir de la « signature » numérique d’un fichier image. Le démonstrateur Retrievr quant à lui repose sur la technologie de reconnaissance de formes et de couleurs. Plus complexe il s’applique de façon plus limité au seul index de Flickr. A lire aussi sur Actulligence un petit florilège de liens.2) L’ergonomie
Google a conditionné fortement ce que les utilisateurs considèrent comme une ergonomie efficace voire agréable pour la recherche d’information.
Boîte de recherche aux alentours dégagé, liste de résultats comprenant un nombre limité de champs : titre, description, URL.
Pendant de nombreuses années cette interface est restée très dégagée pour le leader de la recherche. D’ailleurs elle a inspiré de nombreux moteurs et les dissidents, considérés pourtant parfois par la presse spécialisée comme intéressants, ont bien eu de la peine à faire accepter leur ergonomie en colonne (Cuil, le pseudo Google Killer) ou sous forme de vignettes ou bien encore de cartographies (Kartoo).
Il aura fallu attendre 2008 pour commencer à voir se transformer considérablement l’interface de Google, cette évolution s’accélérant en 2010.
Afin de répondre à une taille croissante des pages indexées Google et d’autres moteurs de recherche ont du segmenter leurs index par type de contenus (blogs, news, articles scientifiques, brevets,…) clairement identifiables par les internautes.
Dans le même instant l’ergoinomie de la page de résultat s’est transformée elle aussi afin de relever les défis du Universal Search : proposer à l’intérieur d’un seul et même espace – la première page – une liste cohérente et lisible de résultats de natures parfois très variées : actualités, résultats temps réel (micro blogging), vidéos, images.
Et maintenant das cette même page apparaissent les vignettes.
C’est intéressant de constater que c’est presque un constat d’échec de la part de Google et des interfaces légères : le retour à une interface de plus en plus complexe et délicate à appréhender marque un retour en arrière d’une bonne dizaine d’années. Pour certains nostalgiques, on se croirait presque revenu au temps des AltaVista et consorts. Seule différence peut être : l’utilisateur a un peu mûri. Et je dis bien un peu.
Restons toutefois réaliste, pour la plupart des recherches, l’internaute ne tapera qu’une paire de mots et se limitera à consulter les tous premiers résultats. Pour ceux là, la présentation de Google a peu d’impacts.
Jérôme a par ailleurs souligné l’importance que Google accorde aux A/B testing proposant ses nouvelles innovations ergonomiques à une seule partie des utilisateurs pour évaluer l’impact de l’implantation de ces innovations.
Il rappelait également que Google n’est peut être plus une société si innovante que cela : qu’il s’agisse de la proposition des requêtes en cours de frappe ou de l’instant search, tout cela existait avant que Google décide de l’implanter dans ses services.
3) La pertinence
Fin des années 90 : Le search se porte relativement mal. Les grands acteurs du moment peinent à indexer un web qui croit trop vite pour leurs moyens financiers. en manque de moyens financiers et peut-être aussi technologique, ils ont bâti leurs algorithmes sur une logique de méta balises massivement détournée par les spamdexeurs.
La « pertinence » des résultats est à réinventer et ce ce que fait Google en développant une architecture technique et une structure d’index plus robuste lui permettant de crawler non pas le début d’une page mais toute la page, mais également en introduisant le page rank, véritable recommandation d’un résultat qui limite l’impact du webmaster sur son propre site.
Mais qu’est ce que la pertinence ? A t’on vraiment une légitimité à parler de la pertinence des moteurs de recherche ?
La pertinence est à mon sens un point de vue purement humain. Une information est pertinente pour un utilisateur qui est souvent le seul à même d’en juger.
Un moteur de recherche type Yahoo ou Google, repose sur un algorithme de classement des résultats qui seront classés par adéquation décroissante avec la requête.
Le processus de recherche est quelque chose de complexe qui comporte plusieurs biais :
- Un biais purement humain et psychologique à l’expression de la requête. L’utilisateur ne connaît parfois pas bien ce qu’il recherche lui même. Et parfois quant il le sait il ne connaît pas les mots nécessaires ou souffre d’un ensemble de blocages pour exprimer correctement sa requête : syndrome de l’expert qui ne détaille pas assez par exemple.
- Un biais lors de la formulation : l’utilisateur ne connaît pas forcément les meilleurs moyens technologiques ou syntaxiques pour exprimer sa requête. Une bonne formulation reposerait sur une connaissance approfondie du moteur de recherche utilisé ce qui est parfois délicat (mode d’emploi imprécis ou erroné, algorithmes tenus secrets,…)
- Un biais dans la diffusion du contenu : les webmasteurs ou éditeurs ne vont pas mettre en place les meilleurs moyens pour diffuser leurs contenus. Pas de sitemap par exemple, ou alors contenus non indexables. Ils peuvent également utiliser des termes qui seront en décalage par rapport à ceux qui pourraient chercher l’information et en avoir besoin.
- Un biais algorithmique : l’algorithme de classement des résultats est fatalement subjectif et découle d’un processus humain. le développeur indique ce que lui pense être comme plus important dans le poids d’un résultat et affecte des coefficients de pondération : notoriété globale du site, mot clés présent dans l’URL ou le titre, taux de densité des mots clés…
De fait l’on voit bien que l’on ne peut parler de classement par pertinence en tout cas lorsqu’il s’agit d’un moteur de recherche.
Jérôme a par ailleurs souligné que des tests de « pertinence » de certains moteurs de recherche existaient. Lors de l’événement annuel TREC (Textual Retrieval Conference) les moteurs de recherche souhaitant participés sont évalués et confrontés à la pertinence humaine qui a préqualifié un ensemble de résultats sur des requêtes. Malheureusement les grands du search grand public n’y participent pas.
4) Le sémantique
Web 2 puis Web 3 maintenant. On parle de structurer le web qui est foncièrement déstructuré.
Le sémantique est il le nouvel enjeu du Web?
Il existe des travaux en cours depuis de nombreuses années et aussi des normalisations en cours à travers la définition des composantes OWL, véritable framework du web sémantique.
En dehors du OWL, microformats et micro datas sont en cours d’implantation et de développement.
Mais est ce vraiment un plus pour la recherche d’information ?
Jérôme précise avec justesse qu’imposer la structuration du web pour en faciliter sa compréhension c’est revenir aux problèmes posés par les métabalises. Les plus performants et plus manipulateurs risquent de tirer profit de cette nouvelle opportunité pour structurer leurs contenus à leur avantage.
On voit bien que Google a aujourd’hui un pouvoir important sur le Web. Il a ainsi imposer le format sitemap comme première brique de structuration du Web. Format communément adopté par les grands moteurs.
En imposant cette structuration du web aux webmasters et aux éditeurs de CMS les risques ne sont ils pas pour lui de s’exposer à des fraudes importantes ?
Il n’est pas possible aujourd’hui de répondre à cette question mais l’on constate que les tentatives de structuration à la volée du Web, type Google Squared, sont difficilement applicables sur des corpus aussi importantes et hétéroclites que ceux d’aujourd’hui.
A suivre donc…
Et pour suivre justement je vous propose de télécharger la petite présentation que nous avons réalisé avec Jérôme à l’occasion de cette petite session. Quelques « slides » seulement. Pour égayer nos propos et divertir le chaland. L’occasion aussi pour nous de tester un bien bel outil, Prezi, même si la version gratuite est loin de comporter toutes les fonctionnalités que nous aurions aimées utiliser.
Pour aller plus loin également nous vous invitons bien sur à lire le blog de Motrech. Une liste de discussion puis un site sur lequel Jérôme s’est toujours beaucoup investi. Un site qu’Emilie l’a aidé à alimenter et que auquel je suis ravi de contribuer (trop peu à mon goût) aujourd’hui.
Pour aller plus loin :
Vous pourrez consulter les riches interventions qui oint été mises en ligne suite à la journée du Co-Lab sémantique dont celles des membres du consortium Scribo autour du sémantique et de ses applications.
- Fabio Mancinelli de X-Wiki sur l’extraction semi-automatique de connaissances à partir de texte avec Scribo
- Guillaume Lazzara de l’EPITA, sur l’extraction semi-automatique de connaissances à partir d’images
- Gil Francopoulo de Tagmatica sur l’extraction d’entités nommées en anglais, français et espagnol
- François Régis Chaumartin, CEO de la société Proxem, sur les apports du sémantique dans la valorisation de l’information au sein de l’entreprise.