Digimind a publié début novembre un très court PDF [inscription obligatoire] avec 4 images afin d’expliciter ce qu’est le web invisible.
Digimind précise que la définition première est : tous les documents non indexés ou partiellement indexés par les moteurs de recherche.
Cela recouvre donc :
- les pages sécurisées
- les documents trop volumineux
- les pages orphelines
- les pages générées dynamiquement
- les formats mal reconnus
Les pages sécurisées comprennent toutes les bases de données professionnelles, les sites nécessitant un login / password, un abonnement, et les profils de réseaux sociaux type Facebook accessibles uniquement lorsque vous disposez d’un compte et / ou que vous êtes coopté.
Elles comprennent aussi les pages pour lesquelles le webmaster utilise le fichier robots.txt ou bien encore les commandes de type « no follow ».
Les document trop volumineux sont principalement des documents types bureautiques dont la taille en Mo dépasse un certain volume et Google (et les autres moteurs n’indexent donc que partiellement le contenu afin de ne pas surcharger leur index.)
Les pages orphelines sont des pages vers lesquelles aucune autre page accessible par les moteurs de recherche ne fait de lien.
Les pages générées dynamiquement ne sont pas à proprement parler non indexées par les moteurs de recherche (Google en tête). En effet aujourd’hui, ce qu’on appelle pages dynamiques est généralement indexé par Google. En effet tous les CMS, blogs et autres sont ce qu’on appelle dynamiques, c’est à dire que la page résultante est générée et interprétée à la volée et qu’elle n’est pas un fichier statique. Mais toutefois, certaines pages dynamiques ne sont pas accessibles facilement via les moteurs de recherche. En effet, historiquement, Google n’aime pas particulièrement les URL à rallonge comportant un nombre important de paramètres (ce qui suit un point d’interrogation dans une URL) et par ailleurs, les pages résultant d’un formulaire de requête en POST (formulaires d’interrogation de bases de données par exemple).
De plus, les formats de fichiers ne sont pas encore indexés par les moteurs de recherche qui se partagent le marché du search online…même si ces derniers se font de plus en plus rare…
On peut ensuite rajouter à ce web invisible tous les fichiers que les moteurs de recherche blacklistent pour cause de non respect de leurs règles : duplicate content (plusieurs fois le même contenu ou presque derrière plusieurs URL), de cloaking (renvoyer une version différente de page à un moteur de recherche et à un internaute), ou de spamdexing (multiplication de mots clés cachés de façon à berner les moteurs de recherche).
Le web invisible comporte aussi des barrières plus locales : en effet certains sites ne sont accessibles que si vous vous connectez d’un certain pays. Typiquement Google vous renvoie des résultats différents selon l’endroit d’où vous vous connectez…. Exemple aussi, certains sites gouvernementaux américains ne sont accessibles que si vous vous connectez d’un proxy en sol américain.
Côté multimédia, et bien que cela progresse, les vidéos et images sont accessibles mais souvent par rapport au contenu textuel qui les entourent. On a donc un web invisible partiel sur ce type de documents puisque c’est l’environnement qui en est indexé et non pas le contenu audio et vidéo. A noter, Google risque de réduire le web profond sur la partie images étant donné qu’il va se mettre à océriser les images et pdf ne disposant pas d’une couche texte.
De même les contenus émanant de technologies propriétaires ou exotiques (javascript de liens complexes, contenu AJAX, mais aussi contenu Flash – quoique..)
Enfin, le web invisible ou web profond, pour résumer on ne sait pas tout ce que c’est puisque par définition le contenu est difficilement accessible et que par ailleurs les moteurs de recherche n’ont pas forcément tendance à communiquer sur ce qu’ils n’inexent pas. Je me permets aussi de rester sceptique sur toute évaluation de taille du web visible et invisible… Déjà la taille du web visible n’est pas simple à estimer….alors du web invisible…je ne suis pas Madame Irma.