Rechercher
Fermer ce champ de recherche.
Blog

Nos articles

Cartographie : ne laissez pas votre cerveau à la consigne en vous appuyant sur des outils

Cartographie Intelligence Economique ViadeoNous traversons actuellement une période dans laquelle l’information et ceux qui la consomment se situent dans l’instantanéité.

Instantanéité d’absorption, en intégrant à sa réflexion, à son jugement une information captée à la volée, non analysée, non vérifiée.
Instantanéité de consommation également : la capitalisation de l’information dans son propre système de connaissance est de plus en plus fugace, le flux d’information occupant une trop grande partie des capacités cognitives de ceux qui la perçoivent.

C’est à juste titre donc que, fidèle à la trop célèbre phrase « un dessin vaut mieux qu’un long discours », le professionnel de l’information s’intéresse aux services en lignes et logiciels qui proposent des solutions de cartographie.

Mais revenons d’abord sur le terme cartographie. Nous aborderons ici la cartographie de  l’information bien évidemment.

Mais même en ce qui concerne cette cartographie de l’information, les modes de représentations sont quasi infinis et le mode de représentation constitue en lui-même un message, une information .

Nous dégagerons quelques champs, non exhaustifs, d’application  de la cartographie de l’information :

  • La carte heuristique qui permet de représenter des relations entre des idées, des entités. Dans son acception première la carte heuristique est accessoirement illustrée, dessinée, partant justement du principe que l’illustration facilite l’appropriation des messages que transmet la carte heuristique.
  • Le text mining qui permet par des analyses sémantique et / ou, morhopsyntaxiques et statistiques de visualiser des relations entre les termes saillants, ou au contraire « cachés » (signaux faibles) d’un corpus de documents structuré ou non structuré. Le text mining en lui-même n’est pas un type de cartographie mais son application permet de dégager des clusters dans des corpus de documents qui peuvent être représentés dans un espace multidimensionnel.
  • La topographie Web : je parle ici de topographie plus que de cartographie car le web a cette particularité de présenter des liens « physiques » entre les documents (pages) et donc les entités que représentent ces pages (par exemple un profil Facebook a une URL qui est attribuée à une personne, et il existe des liens physiques hypertextes entres les pages d’un cercle d’amis). La topographie Web est actuellement un champ d’investigation qui capte l’intérêt de nombreux acteurs économique d’autant plus qu’elle reflète partiellement les liens ou interactions réelles entre des entités (individus et sociétés).

Il ne reste plus grand-chose à apprendre aujourd’hui de la carte heuristique. Cette dernière n’est par ailleurs en rien liée à la maîtrise d’un outil.

Il existe toutefois un leader sur le marché de la carte heuristique pour les entreprises MindManager de Mindjet qui en est à sa 9ème version et à intégrer depuis la version 8 des fonctions collaboratives relativement poussées. On trouve par ailleurs de nombreuses solutions gratuites mais, pour la plupart d’entre elles, leur manque d’esthétisme vient en contradiction avec la notion même de carte heuristique. Côté solution SaaS on trouve quelques acteurs plus intéressants permettant eux aussi le partage tels que Mindomo. Leur seul inconvénient par rapport à la concurrence est la limite des interactions qu’ils peuvent avoir avec le poste de travail (ndlr : le pack Office).

Le text mining est un outil intéressant mais complexe à manier. Reposant sur une couche importante de linguistique la qualité de ses résultats peut être liée à la qualité du corpus étudié et de la sous couche lexicale intégrée spécifiquement pour un client, un métier, une industrie.

Venons-en au coeur de cet article : la cartographie du Web et j’entends par là la également la cartographie de réseaux à partir du Web (réseaux humains, activisme thématique,…).

Quelle est la première difficulté à surmonter lorsque l’on veut cartographier le Web ?

Il s’agit tout d’abord de savoir ce que l’on souhaite cartographie. Le Web est trop vaste. Certains sites en eux-mêmes sont trop vastes, comptent trop d’utilisateurs, trop de liens.

Il faudra donc faire des choix !

Lors de ce premier choix vous devriez définir un périmètre que l’on pourrait caractériser selon certains éléments :

  • Une liste d’URL. On pourra éventuellement définir des « patterns » d’URL, c’est-à-dire des lots d’URLs caractérisés par leur forme ou bien alors se tenir à des URLs qui comportent à l’intérieur des mots clés, ou bien des encore URLs qui sont relatives à un type d’entités (entreprise, individus, …) (1)
  • Une langue ou des langues
  • Un niveau de profondeur (le nombre de clics minimal entre 1 document lambda et un document faisant partie d’une liste arrêtée)…
  • Etc…

Cela peut sembler simple mais la définition de ce corpus de départ conditionnera fortement la capacité que vous aurez à construire une cartographie qui puisse apporter du sens à ce corpus.

Deuxième étape : l’extraction.

Si nous partons du principe que l’armée de stagiaires est un outil potentiellement économiquement viable, nous oserons aussi postuler qu’il est peut être humainement plus intéressant d’éviter à vos dits stagiaires une luxation de l’index.

L’extraction de données Web n’est pas simple. Elle se heurte à plusieurs difficultés.

  • Certaines des données que vous aimeriez avoir sont inaccessibles (espaces privés par exemple). Mais normalement si vous êtes malin vous avez exclu ce type d’information lors de la première étape.
  • Malheureusement le web est relativement non structuré et à l’intérieur d’une page les données sont « mélangées » . Or si nous parlons ici d’un mode d’extraction non humain et non sémantique, l’étape d’extraction peut se révéler délicate. Cela est d’autant plus vrai qu’à priori les éditeurs de sites Web ne vont pas forcément vous faciliter la tâche (anti-robots, redirections multiples, identifiants de sessions,…) (2) Il vous faudra ici découper bout par bout les données à l’intérieur d’une page (ce que l’on retrouve parfois sous la dénomination Web scraping ou Web harvesting.) (3)
  • Une fois l’extraction effectuée vous allez devoir restructurer la donnée, c’est-à-dire la stocker dans un format exploitable par un outil de cartographie (et tant qu’à faire dans un format qui vous permette l’exploitation de ces données par d’autres solutions logicielles de traitement de l’information.)

Dans cette étape d’extraction il faudra également inclure des mécanismes de contrôle de cohérence des données extraites qui vous permettent de vérifier que les données correspondent à vos contraintes initiales.

Troisième étape : les métriques.

Il s’agit d’une étape délicate qui influencera grandement votre cartographie.
En cartographie web, il existe souvent plusieurs possibilités d’exploiter des métriques pour la représentation. L’on peut coupler une métrique à  une entité ou à un lien entre des entités.

Si votre cartographie représente différents types d’entités vous pourrez utiliser des métriques différentes pour chacune d’elles par exemple un chiffre d’affaires pour une entreprise, et l’âge pour une personne. Idem pour les liens entre les métriques.

Une autre possibilité offerte par de nombreux logiciels et de faire correspondre la taille d’une entité aux nombre de liens entrants ou sortants qu’elle entretient avec un autre type d’entités ou des entités de même type (par exemple le nombre de personnes qui m’ont enregistrées comme contact dans Viadeo ou bien le nombre d’articles qu’un blogueur a publié sur une thématique.)
Maintenant cette étape est celle, et l’on s’en aperçoit trop souvent, qui comporte le plus d’écueils.

Il est impératif de suivre ces quelques règles essentielles dans les métriques :

  • Vous devez pouvoir disposer de la métrique pour toute ou presque toutes les entités.
  • Votre métrique doit être fiable : évitez donc d’agréger des chiffres, de vous appuyer sur des données peu fiables émanant d’organismes douteux. (N’additionnez pas les choux et les carottes et ne divisez surtout pas par l’âge du capitaine en somme.) Essayez de remonter le plus amont possible dans le processus de collecte de ces métriques pour voir si elles ne comportent pas des biais indirects par exemple dans la construction d’un échantillon initial.
  • Votre métrique doit être simple et compréhensible. Ne perdez jamais de vue ce que représente l’indicateur que vous avez retenu. Si vous avez effectué des filtres pour éliminer certaines entités (par exemple les valeurs aberrantes situées aux extrêmes), ne l’oubliez pas lors de l’analyse.

Phase suivante : l’intégration

Il vous faut choisir désormais un logiciel pour travailler ces données et ces métriques collectées ou qui seront calculées.
Concernant le logiciel retenu il vous faudra considérer les points suivants :

  • Certains logiciels sont calibrés pour cartographier des réseaux homogènes c’est-à-dire des réseaux qui ne comportent qu’un seul type d’entités et des liens entre ces entités.
  • Certains logiciels peuvent manipuler des données à travers des notions d’héritage. Par exemple sommer les chiffres d’affaires de filiales pour le faire apparaitre globalement au niveau du siège.
  • Certaines logiciels de cartographie intègrent une base de données sur laquelle vous pouvez interagir à travers l’interface de visualisation et de manipulation, d’autres ne permettent que d’importer des données et en comportent pas de liaison bidirectionnelle avec la source.
  • Les algorithmes disponibles  de positionnement des entités sont importants : certains  algorithmes sont plus adaptés à la représentation des réseaux humains par exemple et d’autres plus à la représentation de données chiffrées.

Dernière étape enfin, l’analyse.

On entend trop souvent qu’une cartographie est un résultat en soi. La cartographie telle que nous l’avons détaillée ici n’est pas un résultat en soi.
D’ailleurs pour comprendre une même thématique il vous faudra peut-être construire plusieurs cartographies qui vous aideront à aborder la complexité d’un réseau, de liens sous différents angles.
L’exercice de la cartographie se rapproche d’ailleurs du (trop) fameux cycle de l’information. Cercle vertueux, la première de vos cartographies ainsi que les premiers éléments d’analyse que vous tirerez vous permettront de disposer d’une meilleure compréhension de l’écosystème observé.
Avec ces nouveaux éléments vous pourriez être amené à reconsidérer la façon dont vous avez construit votre corpus de départ voire même à reconsidérer vos métriques appliquées aux différents types d’entités.

L’exercice de cartographie est un travail d’analyste en soi.

A chacune des étapes décrites ci-dessus la connaissance de la thématique de l’écosystème observé permettra de créer des cartographies plus parlantes, plus « interprétables ».

Enfin, la connaissance de l’analyste qui construit et observe l’écosystème lui permet de disposer de points de contrôle et de détecter les aberrations ou bien encore de nuancer les interprétations des points saillants mis en évidence par la cartographie.

Quel que soit l’outil, quelle que soit la vue générée, c’est l’analyste qui devra interagir avec ou tout du moins être étroitement impliqué dans sa conception.
L’exercice de cartographie, et toute la méthode de construction doit se borner à éviter les erreurs, les biais, optimiser la collecte des informations, permettre le traitement d’information en masse ou à des niveaux de profondeurs important pour permettre à l’analyste de valider ce qu’il sait et de découvrir ce qu’il peut déduire.

Notes :

(1) Pour définir des patterns d’URLs on utilise en général soit des opérateurs de troncature soit des REGEX

(2) De nombreux sites Web proposant des données structurées pouvant potentiellement faire l’objet d’une exploitation commerciale (collecte de données personnelles, sites d’appels d’offres,…) se protègent de processus de collecte automatisés. si un « visiteur » se connecte à partir de l a même adresse IP simultanément à différentes pages webs du site ou s’il visite trop un nombre important de pages rapidement, il est détecté et renvoyé vers une page spécifique. Les moteurs de recherche passent à travers de ce process de protection en étant reconnu à partir de leur signature. (Il existe d’autre moyens de protection déployés par les éditeurs de sites Web.)

(3) Web Harvest est par exemple un outil gratuit et open source intéressant d’extraction et de structuration des données Web quoi que complexe à prendre en main et nécessitant la connaissance des REGEX et du langage XPATH et XML. Google à travers ses Labs a fait montré un exemple de ce que pourrait être un outil de structuration à la volée de données issues de pages Webs mais qui à ce jour reste toutefois moins performant que des extracteurs sur mesure développés source par source. (Google Squared | exemple)

Partager cet article

Autres articles

à consulter