Rechercher
Fermer ce champ de recherche.
Blog

Nos articles

Veille sur Internet & furtivité : enfin la vérité…

Dans la veille on est souvent connecté avec des logiciels à Internet. Souvent même.

Et parfois l’on utilise des logiciels de veille.

Et dans certains cas, des clients se posent des questions sur les problématiques de l’anonymat ou plus précisément de ce que nous pourrions appeler « furtivité ». En gros, que votre action de veille soit la plus invisible possible pour les sites qui en sont l’objet qu’il s’agisse de vos concurrents ou d’autres.

La problématique est vaste et comporte certains aspects techniques qui je l’espère n’effraieront pas la plupart d’entre vous. (Lecteur, j’ai confiance en toi!)

Il y a par ailleurs maintenant plusieurs mois à l’époque où je travaillais pour un éditeur de logiciel de veille, j’avais apporté quelques réponses concrètes à ce sujet en étant le plus objectif possible.

Vous pourrez bien évidemment consulter le message en question sur la sacro-sainte liste Veille à l’adresse ci-après :
http://fr.groups.yahoo.com/group/veille/message/23394

A l’époque c’était déjà assez solide comme réponse mais là je vais essayer de donner dans la pédagogie.

Bon reprenons maintenant depuis le début.

Tout d’abord en veille on distingue deux types de logiciels :

  • le logiciel installé chez le client sur un poste utilisateur dans le cas d’un logiciel monoposte ou sur un serveur « mutualisé » (hébergeant plusieurs applications ») ou sur un serveur dédié.
  • un logciel en SaaS, c’est à dire hébergé chez l’éditeur ou hébergé par l’éditeur chez un prestataire d’hébergement (et là aussi on distingue les deux types mutualisé et dédié (Oui : ne vous leurrez pas, des fois certaines de vos données confidentielles sont hébergées sur le même serveur que d’autres clients du dit éditeur même si vous ne le voyez pas forcément…)

Quelles sont les traces que vous laissez lorsque vous êtes hébergé chez vous et que vous faites de la veille sur Internet ?

1) La première trace est celle de votre proxy. Le proxy étant la machine qui connecte l’entreprise à Internet (sachant que les ordinateurs d’une même entreprise partagent le même proxy souvent). Dans le meilleur des cas ce proxy porte un nom générique, ou « bidon » ou bien il permet juste de voir l’adresse IP du proxy. Dans le pire des cas il portera le nom de l’entreprise, voire précisera l’établissement dont il s’agit. Et pour illustrer le tout quelques screenshots ci-après tirés de mes logs:

Donc en gros là je peux voir clairement de nombreuses entreprises qui se connectent à mon site web… Y a tout un tas d’application directes : prospection commerciale (ce ce que je ne fais pas encore), détection de plagiat, …

Mais bon, ne noircissons pas le tableau tout de même… c’est pas encore interdit d’aller visiter tous les jours les sites de ses concurrents et que ce dernier le sache. Il est pas stupide non plus et ne vas pas mettre des données sensibles (enfin normalement).

Paradoxalement les PME / TPE sont pour le coup souvent beaucoup plus furtives car elles passent par un abonnement Internet parfois grand public et leur proxy est en gros la plaque ADSL du coin qui permet de connecter plusieurs milliers de personnes.

Dans ce cas là on a un proxy du style : « bstou254 toulouse bloc 1 »  qui à part la zone géographique de connexion ne nous en dit pas trop.

2) La seconde trace c’est celle de votre parcours…
Prenons ci-dessus l’expemple du Ministère de l’Intérieur. Force est de constater qu’ils apprécient mon site et qu’il vont y lire certains billets…
On saura par exemple qu’ils s’intéressent à ma société et que le billet Mikados la petite faiblesse qui vous perdra a également fait partie de leur playlist plutôt deux fois qu’une…bizarrement.

On verra aussi le nombre de visites, de pages et les articles et le temps passé sur chacun d’eux ci-dessous pour BNP Paribas.

On voit bien déjà que c’est beaucoup plus parlant : rubriques surveillées, éventuellement le nombre de visites sur chacun des articles qui vous permettraient de voir s’il y a eu un fort impact chez votre concurrent, etc.

3) La troisième c’est les mots clés qui vous ont menés ici. Concrètement si dans votre logiciel de veille vous avez paramétré une requête Google ou autre moteur et que vous la mettez en surveillance, ces mots clés sont récupérés par le logiciel de stats (ici en l’occurrence Google Analytics). ET pour se marrer on continue et on croise les données stats entre elles pour recouper quelles sociétés demandent quel mots clés.
Ci-après on verra par exemple qu’une personne au Ministère de l’intérieur s’intéresse à une « licence veille » mais aussi à la recherche « intelligence economique » et enfin à « Actulligence Consulting » (moi aussi je vous aime) et que les personnes de chez Alma Consulting Group s’intéressent à un de leur concurrents ACIES qui grâce à moi jouissent d’une formidable visibilité sur les moteurs de recherche.

Bon alors. Qu’est ce qui pourrez encore vous faire dire « la vache c’est flippant quand même !!! »

4) Imaginons que de votre logiciel de veille vous copiez un contenu vers un support interne : intranet, extranet, ged, ou autre. Pas de chance dans ce billet vos incluez un lien vers l’article original. et là vous êtes flashé. Oui : le destinataire obtient les URL de certaines de vos applications qui a priori n’ont pas à être publiques… tout simplement parce que la le site web de destination enregistre votre URL de provenance, on appelle ca le referrer.
Par exemple dans le screenshot ci-dessous je sais que deux sites avec une URL un peu spécifique ont inclus du contenu avec un lien vers mon site. Par la même occasion on déterminera les URL d’accès à deux plateformes de veille et on captera le nom d’un client du dit éditeur. On apprend donc que la société Ami Software a pour client Meyer Partenaires.

Donc voilà pour la partie concernant les logiciels de veille intégrés chez le client.
(Sachant que certains points se recoupent avec la suite.)

Maintenant en ce qui concerne les solutions de veille SaaS.

Que dévoilent-t’elles de vous  et de quelles façon ?

1) D’abord elles dévoileront surtout qu’un logiciel de veille est passé sur un site… et parfois dans le pire des cas elles feront la même erreur que les proxys d’entreprise en donnant un nom explicite à votre plateforme (cf le dernier point de la partie précédente…)

2) les plateformes de  veille SaaS se comportent comme des hôtes (elles encapsulent du trafic)  mais ne cachent pas tout. Par exemple ci-après j’ai croisé l’hôte Digimid-Evolution avec le fournisseur d’accès et on voit bien que j’ai des connexions émanant du Crédit Agricole,de Scor, de SmithKline, … à l’intérieur d’une plateforme Digimind (et on peut bien sur appliquer les mêmes croisements sur les URL visitées and so on.)

Dernier point abordé et valable pour les deux, il est des fois possible de faire des requêtes complexes avec plein de mots clés sur certains sites…. : sachez que tous ces mots clés, tous ces paramètres sont visible par le site que vous surveillez… Ne soyez jamais donc trop précis.

Voilà.

Et pour conclure, je serais tenté de vous dire de bien veiller à tous ces aspects.
Il se fait un peu tard mais j’évoquerai dans un prochain billet les possibilités pour pallier à certains de ces problèmes.

Coming soon, stay tuned !

NB 1 : Pour l’intégralité de ce billet j’ai utilisé uniquement les logs statistiques fournis gratuitement par Google Analytics. Pour mémoire les logs de visites de sites ne sont pas des données nominatives. J’ai veillé à prendre des exemples parlants mais pas trop « gênants » (je n’ai par exemple pas exploité les recherches internes faites directement sur mon site mais uniquement celles effectuées via Google) et je n’ai exploité qu’une petite partie des possibilités fournies par cet outil. Les reccherches internes faites sur un site couplées au nom du proxy reste une donnée souvent très parlante… à bon entendeur…

NB 2 : quelques soient les exemples pris, il me semble bon de rappeler que la veille sur Internet est à priori totalement légale, ne constituant qu’à exploiter des données publiques. La façon de le faire peut toutefois dévoiler des choses importantes liées à vos centres d’intérêt surtout à partir du moment où la collecte est massive, répétée et où vous n’en maîtrisez pas bien la plupart des maillons informatiques (logiciels et matériels.)

Partager cet article

Autres articles

à consulter