Rechercher
Fermer ce champ de recherche.
Blog

Nos articles

Démonstration de web scraping

On a beaucoup parlé de cartographie sur Actulligence ces derniers mois.
La raison est simple : j’ai beaucoup travaillé sur ces aspects là et mobilisé beaucoup d’énergie.

J’ai testé différentes solutions, j’ai partagé avec de nombreuses personnes et je continue à échanger d’ailleurs avec eux.
En plus l’actualité m’a fourni l’occasion et surtout m’a poussé à prendre le temps de montrer ce que l’on peut faire en cartographie afin de prouver que l’on peut faire des choses intéressantes.

Dans les points que j’ai abordés et sur lesquels je tiens absolument à revenir car ils me semblent vraiment essentiels, il y a tout d’abord le fait que la cartographie n’est pas un « outil magique ». Ce n’est pas en poussant un bouton que l’on construit une cartographie qui vous dévoilera les secrets de l’univers concurrentiel ou d’influence.
Chaque étape de conception de la cartographie doit être réfléchie, cadrée afin d’éviter les biais et les erreurs, pensée également peut-être pour être actualisée. Le choix des indicateurs visuels est importants, la vérification des informations essentielle, etc.

Deuxième point et qui fera l’objet plus précisément de ce court billet aujourd’hui, l’extraction de l’information peut et même doit être automatisée.
Il devient quasiment impossible sauf sur des marchés de niche avec une très faible activité informationnelle d’extraire de la donnée automatisée.

Nombre de cette donnée peut se trouver sur le Web mais l’extraction en est difficile, tout du moins en attendant la généralisation des microformats…

J’avais présenté quelques outils sur le sujet qui sont plus ou moins simples à appréhender dont Web Harvest en Java mais qui nécessite quand même de solides connaissances en XQuery et XPath.

Dernièrement au fil d’un commentaire Amine a évoqué également l’outil Scrapy qui est en python et qui est plus une bibliothèque de scripts, un framework permettant de paramétrer de l’extraction de contenus issus du web de façon précise.

Maintenant je voulais vous montrer ce que cela peut donner technologiquement une fois que c’est fonctionnel.

La petite vidéo ci-après est issue de la technologie qu’a développé Sam et qui m’a aidé sur la conception de la cartographie de l’intelligence économique.
C’est lui qui a développé ce petit extracteur en technologie Ruby.

On le voir ici lancer une extraction des résultats d’une requête faîte sur se loger.
Cette extraction lui permet d’extraire en quelques minutes le prix, l’agence immobilière, le type du bien + sa surface, le téléphone et l’URL.

Le tout lui est restitué dans un beau fichier Excel (mais on pourrait imaginer d’autres formats comme un dump MySQL par exemple…) voir une alimentation directe en base de données.

Maintenant ne rêvez pas non plus. Ce que l’on ne voit pas derrière c’est le paramétrage de la solution qui doit être fait pour chaque site.

L’extraction de ces données, bien qu’elles soient publiques, doit se faire de façon méthodique et « chirurgicale », avec une grande précision.

Dans le cadre de l’analyse des réseaux (nombre de liens, intensité des liens, etc), il est d’autant plus nécessaire de mener cette extraction de données de façon méthodique, tout en conservant les liens entre ces dernières.

Aujourd’hui nous avons testé cette solution et paramétré différents modules d’extraction sur Twitter, Facebook, Viadeo, LinkedIn et cela fonctionne particulièrement bien en exploitation surtout pour l’analyse des réseaux humains mais également pour permettre de décrypter les écosystèmes d’influence, des communautés.

Partager cet article

Autres articles

à consulter