La semaine dernière se tenait à Neuchâtel la journée de la veille organisée par la Haute Ecole de Gestion de Genève, la Haute Ecole Arc Gestion de Neuchâtel et l’Université de Besançon.
Cette édition était consacrée à l’information grise et j’étais convié à en faire l’introduction, c’est à dire présenter ce qu’est l’information grise et à évoquer quelques pistes pour accéder à cette information en me focalisant plus particulièrement sur les réseaux numérique qui, comme vous le savez, restent plutôt ma spécialité.
Je vous propose donc ci-après le contenu PDF de cette présentation ainsi que l’article associé.
L’information Grise : qu’est-ce donc ?
(slide3) L’information grise est définie par l’ADBS comme une :
« information licitement accessible mais caractérisée par des difficultés dans la connaissance de son existence ou de son accès. »
C’est d’ailleurs également l’information retenue par l’AFNOR dans sa norme expérimentale XP-X-50-053 (une norme expérimentale et qui donc ne réglemente rien du tout étant donnée qu’elle n’est pas une norme obligatoire et que par ailleurs elle est également peu usitée ou citée par les gens de métier.)
Le Fascicule Documentaire émis par ailleurs plus récemment par l’AFNOR ne redéfinit pas cette notion d’information grise (cf FD-X50-052 : Management de l’innovation et de l’intelligence stratégique.)
Une autre définition de la littérature grise (nuance subtile mais faisant une grande différence) selon l’AFNOR est mentionnée sur Wikipédia mais sans être sourcée précisément : tout « document dactylographié ou imprimé, souvent à caractère provisoire, reproduit et diffusé à un nombre d’exemplaire inférieur au millier, en dehors des circuits commerciaux de l’édition et de la diffusion ». On se limite dans cette dernière définition à l’information écrite rédigée
Autant dire que tout est dit mais que l’on y voit pas vraiment plus clair (jeu de mot … ) sur ce qu’est l’information grise. On y voit d’autant moins clair que l’information grise se définit par sa difficulté d’accès et donc potentiellement se définit par son absence.
Allons plus loin et donnons quelques exemples de ce qu’est l’information grise :
(slide 6) Tout d’abord, l’information grise se caractérise par la valeur qu’elle a pour celui qui la détient et se définit encore plus par la valeur qu’elle peut représenter pour celui qui pourrait en avoir l’utilité (par exemple un concurrent direct).
L’information grise est une information dont le détenteur ne prend pas forcément conscience de sa valeur. C’est aussi pourquoi, nous le verrons, l’un des biais d’acquisition de l’information grise est la défaillance humaine.
L’information grise peut prendre toute forme verbale, visuelle, chiffrée, textuelle, structurée, non structurée. Elle se différencie de la littérature grise qui est strictement formelle.
Finalement la définition initiale est fort juste : ce qui caractérise l’information grise c’est sa difficulté d’accès. La première difficulté est de savoir que l’information existe. Le fait de ne pas être certain de son existence et de l’endroit où elle se trouve en complique d’autant plus l’accès.
(slide 4) Le deuxième point qui limite l’accès à l’information grise est les moyens que l’on est prêt à mettre en place pour acquérir cette information.
La question de l’éthique est prégnante dans l’accès à l’information grise. Moins d’éthique ouvre le champ des possibles. Et la question doit être posée ouvertement. Alors qu’il n’existe pas en France une association d’intelligence économique qui ne prône pas l’éthique, ne sommes nous pas en droit de nous demander si être plus rigide que le droit ne limite pas le champ des possibles et si le fait de se fixer des limites éthiques (par ailleurs extrêmement complexes à définir de par la subjectivité même de l’éthique) ne fait pas du spécialiste en intelligence économique un simple veilleur / documentaliste.
Autre notion liée à l’information grise, et il s’agit là d’un tout autre type d’information, : l’information déduite, l’information calculée, l’information découlant de la construction d’un modèle analytique et ou prévisionniste. L’information grise se définirait alors par les moyens mis en œuvre pour la construire. Moyens parfois considérables et limitant de fait le nombre des heureux élus.
(slide 7) Par extension nous pourrons dire que l’information grise, dans cet univers du tout numérique, peut aussi se situer dans des espaces privatifs ou semi-privatifs sur le Web et également, c’est un point majeur selon moi, à travers les espaces non indexés par LE moteur de recherche (…enfin politiquement-correctement nous dirons les moteurs de recherche.) On parlera dans ce derniers cas de Web invisible. Vous pourrez alors lire en complément cet ancien article « Le web invisible ou le web profond : c’est quoi? »
L’information grise à travers les espaces sociaux
(slide 8) Les réseaux sociaux sont de plus en plus nombreux à régler leurs paramètres de confidentialité pour les nouveaux utilisateurs en « privé ». Nous assistons à la fin d’un web en tant que média hypertextualisé et nous dirigeons vers ce qu’Olivier définit comme des enclosures informationnelles. Avec cette débauche de publication sur des espaces « privés » – en tout cas c’est l’impression que veulent imposer ces immenses usines à données personnelles – l’individu se décrit, se dévoile et livre son âme et accessoirement certains passages de sa vie professionnelle. On côtoie dans ces espaces des dizaines, parfois des centaines de « proches »… En sommes nous si proches ? Les connaissons nous tous si bien ?
L’information riche, indiscrète est là, à portée de main d’un faux profil. Et rappelons le, en France en tout cas, l’usage d’une fausse identité n’est pas un délit en soi. L’usurpation si.
Qui ne s’est pas posé la question, en travaillant dans la veille, l’intelligence économique, un jour, de créer une fausse identité pour accéder à un groupe de discussion privé sur LinkedIn ?
Si la tentative de piratage (pénétrer illégalement à l’intérieur d’un système de traitement automatisé des données) est illégale, alors l’éthique est la seule qui saura répondre à la question des limites de l’exploitation des réseaux sociaux.
Google, le Web invisible et l’information grise
(slide 9, 10 et 11) En occident, Google est le moteur de recherche dominant. Une domination écrasante d’ailleurs à travers le monde si l’on omet la Chine qui a construit ses propres outils (Baidu, Sohu, …) à la qualité d’ailleurs très discutable, et la Russie avec Yandex. (Il y en a d’autres.)
Google est un outil puissant mais il est particulièrement important de rappeler en quoi Google également, s’il favorise l’accès à l’information blanche est aussi un mur d’opacité par certains aspects, favorisant l’opacité de certaines informations.
Tout d’abord Google est mauvais sur certains pays et particulièrement ceux en langues asiatiques. Par ailleurs la sale habitude que Google a de vous renvoyer systématiquement vers des résultats de votre langue (NDLR : celle de votre ordinateur) et de votre pays est horripilante dans le meilleur des cas, handicapantes dans le pire.
Une norme internationale, robots.txt (ainsi que certains attributs tels que le NOFOLLOW) permettent à un webmaster d’interdire l’indexation de certaines parties de son site à Google. Le moteur qui lave plus blanc que blanc devient alors gênant en étant très respectueux des normes internationales. En dehors du fait que la simple lecture du fichier robots.txt devient alors une véritable bible d’information, vous pourrez également vouloir vous tourner vers des moteurs plus « undergrounds » ou de moindre qualité, non respectueux de ces normes et de cette éthique.
Dernièrement la montée des résultats supprimés de l’index de Google car ayant fait l’objet d’une demande dans le cadre du Digital Millenium Copyright Act, mais plus récemment également la demande de retrait d’informations gênantes (cf droit à l’oubli) montrent que Google privilégie une information propre, lisse, blanche.
Enfin il est bon de rappeler que : sur une requête vous ayant donné 1,245 millions de résultats vous ne pourrez de toute façon avoir accès à un maximum de 1.000 (si vous ne me croyez pas, essayez…), ce qui nous laisse une web invisible du bout de la lorgnette Google qui est loin d’être anecdotique.
Soyons clair toutefois ! Ces informations existent. Elles demeurent sur le web à leurs adresses, mais les portes d’accès sont difficiles. Pour les moteurs de recherche, ces pages n’existent plus et il faut donc inventer de nouveaux moyens de les retrouver: retour aux métamoteurs de recherche, crawlers dédiés permettant d’explorer par capilarité des territoires numériques en fonction d’un champ lexical, ..
Je listais enfin les progrès technologiques restant à effectuer sur le speech to text et la reconnaissance de formes et d’objets sur les contenus multimédias. Si un nom est prononcé dans une vidéo YouTube, si ce dernier n’apparaît pas dans le contenu textuel de la page, vous avez peu de chance de relever l’information. Cela nous laisse donc encore quelques péta-octets de données grises et des derniers sont d’autant plus important que l’information peut parfois être à très forte valeur. Il y a certes eu des essais de la part de Google (Google Audio Indexing) et d’autres mais ces technologies sont lourdes et coûteuses à faire sur des flux vidéos massifs et à al qualité audio parfois discutables. L’on se limite alors souvent par nécessité aux flux d’information des journaux télévisés.
Quelques exemples d’information grise difficiles à trouver par les outils traditionnels de recherche :
- vous prenez la photo de votre tout nouveau bureau réaménagé en oubliant de mettre votre écran en veille. Un petit zoom et le tour est joué.
- 1er jour d’embauche et quelle plus grande fierté que de filmer son usine avec ces belles machines outils et ces lignes de production. Partageons là sur Facebook en oubliant ces anciens collègues que nous avons quittés et qui travaillent encore chez un concurrent.
Les exemples pleuvent mais grâce à l’information grise due aux spécificités des contenus multimédias, ce type d’information reste difficile d’accès. (cf définition de l’information grise…)
L’information noyée
(slide 12) Google lui-même vous renvoie des millions de résultats à chaque requête et pourtant ne vous y donne pas accès. Les mails sont probablement la 8ème plaie d’Egypte. Le coût sans cesse décroissant du téraoctet ne nous aide pas à être raisonnable. Chaque jour l’infobésité nous rend nauséeux et nous nous apercevons que quelque soit la mutation du travailleur 3.0 opérée, nos capacités cognitives et d’absorption de l’information sont loin de suivre. La duplication et multiplication de l’information, la curation, l’agrégation, rend parfois même délicat d’accéder à une information que l’on sait exister, même en en connaissant des descripteurs essentiels (titres, ensemble de mots clés.)
Comment obtenir de l’information grise ?
(slide 14) Si l’information grise se définit par sa difficulté d’accès, parions sur les défaillances de l’être humain pour faire la moisson. Le problème se situe bien souvent entre la chaise et le clavier lorsqu’il s’agit de fuites d’informations… Un apéro un peu trop arrosé dans un milieu truffé de concurrents, un égo taille 58 qui ne demande qu’à s’exprimer et à sortir de ce corps ces informations que l’on vous a demandé en toute confiance de ne pas dévoiler, la fatigue, un malheureux mail envoyé trop vite avec l’auto complétion, ces clés USB trop pleines que l’on prête…et ces managers / dirigeants qui ne forment pas, ne sensibilisent pas et n’équipent pas les salariés. Soyez patients et attendez la faute ou bien provoquez là en offrant verre sur verre ou bien en jouant sur les cordes sensibles. Elles sont bien connues. Argent, sexe, ego, compromission, idéologie…
(slide 15 et 18) L’informatique n’est pas en reste et si la protection générale des réseaux et des postes utilisateurs a clairement progressé dans les grandes entreprises, le niveau est perfectible dans de nombreuses PME / startups. Quelques nouveaux vices viennent faciliter les fuites informatiques fortuites : NFC, Bring Your Own Device, Connected Devices, cloud abusivement utilisé,… (rappelons que l’intrusion dans un système d’information par un tiers non autorisé est illégal…même s’il n’y a pas piratage. Il suffit de savoir que l’on n’a pas à être là, ce que la jurisprudence Bluetouff récente vient de nous rappeler). Bref, quelques petites requêtes Google avisées (filetype / inurl:documents / inurl:private / inurl:admin, etc…) voire l’utilisation d’outils plus spécialisés tels que ceux permettant la détection de faille de sécurité, peuvent être efficaces tant que vous avez conscience des limites à ne pas dépasser et que tout ce que vous faites c’est accéder à de l’information non sécurisée mais difficilement accessible avec de simplistes recherches sur Google.
(slide 16) En bref, les trucs non éthiques sont légions : faire les poubelles, privilégier les restaurants au pied des bâtiments de vos concurrents pour déjeuner, fumer sa cigarette en bas des immeubles voisins, alcooliser ses interlocuteurs, proposer des offres d’emploi bidons et recevoir des salariés des concurrents – qui n’en doutons pas ne diront absolument rien de ce qui se passe dans leur entreprise étant donné que s’ils sont chez vous c’est que tout va bien… (<= ironie), réaliser des sites pots de miel en posant des combinaisons de mots clés parlantes et en regardant quelles entreprises s’y connectent et avec quelle requête ou source de referrer.
Le big data et la dataviz à l’aide de l’intelligence économique
(slide 24 à 27) La masse de données offre aujourd’hui d’immenses opportunités d’analyses et de croisements et j’aime beaucoup citer cette approche et cette vision du Web 2 (Framework du Web 2.0) qui rappelle que ce qui fait l’intérêt du Web 2.0 ce n’est pas les informations prises séparément mais l’interaction des ces informations, leurs confrontations et tous les mécanismes qui permettent de la combiner, de la consolider.
C’est exactement l’approche Big Data que devrait y voir un analyse en intelligence économique. La donnée aussi pauvre soit elle peut être parlante si elle est massive, diverses dans son producteur voir son vecteur.
De nombreuses entreprises se sont ainsi attachées à travailler sur des modèles prédictifs : quelles variations du cours de bourse d’un titre en fonction des publications sur Twitter / Boursorama ? Où aura lieu le prochain crime en fonction de l’historique que nous possédons des méfaits et des données exogènes (densité, climat, traffic sur zone, …) L’analyse des discours des dirigeants a aussi fait les frais d’analyses visant à détecter le mensonge ou à décrire le champ lexical utilisé pour en déduire des postures et décisions stratégiques associées.
L’individu est aujourd’hui l’objet de toutes les attentions : les informations si nombreuses qu’il publie sur les médias sociaux, les endroits d’où il les publie, les mots utilisés, les requêtes qu’il réalise sur les moteurs de recherches ou les pages qu’il visite à partir de son entreprise… Or l’individu est un salarié la plupart du temps.
L’exemple choisit slide 26 montre par exemple le cluster rose qui apparait comme calculé de façon atypique en slide 25. Sa structure montre des anormalités sévères ressemblant fortement à une stratégie de « ring » bien connue des référenceurs. Le calcul statistique et la dataviz mettent en évidence l’exploitation de faux comptes et la stratégie de contenu dupliqué visant à faire monter de façon artificielle l’activité de certains comptes Twitter. Comment aurions nous pu déceler cela dans les millions de tweets qui ont été traités ici ?
(Slide 28) La dimension géographique est-elle aussi essentielle pour accroître la lisibilité d’une information. L’individu s’inscrit dans un espace dans le quel ses relations professionnelles sont importantes : lieu de travail principal, déplacement clients, etc.. Ce qui passerait inaperçu par mot clé ressort si l’on regarde l’endroit de publication. Le démonstrateur proposé par Ubisoft pour le lancement de son jeu Watchdogs peut faire froid dans le dos… Tweets, instagram, feux tricolores, vélos disponibles, position des rames, données démographiques. Imaginons ajouter les localisations Facebook, les photos Flickr, les mentions de lieu dans la presse. L’espace matériel est éclairé et mis en perspective par des flux d’information immatériels.
Le social engineering
Le social engineering consiste à appuyer là où ça fait mal : les failles des individus. Attention toutefois le social engineering est majoritairement utilisé de façon noire. Nous nous en tiendrons à la version soft. Le social engineering consiste à faire l’acquisition de données individuelles permettant d’usurper une identité, de pénétrer dans un système d’information, etc. [NDLR : c’est une définition approximative du social engineering à l’ère du numérique. Je fais clairement à travers cette définition des choix didactiques. Elle peut être efficacement complété en regardant les notions d’OSINT, de HUMINT.)
J’ai retenu quelques exemples qui sont principalement liés à l’utilisation d’une fausse identité. Le cas Robin Sage, du spécialiste en sécurité qui crée un faux profil d’une demoiselle sur-compétente et séduisante (sans être outrancièrement provocante) et qui a pu ainsi montrer à quel point même des militaires et des spécialistes de la sécurité avaient tendances à un peu trop parler eux aussi. (Petite bouffée d’optimisme quand même : assez vite son manège a été détecté et dénoncé par certains).
Je me suis permis de prendre ainsi dans les slides 32 et 33 quelques exemples des invitations régulières que je reçois… Sans les accepter bien sûr. Des faux profils tous. Féminins, plus ou moins « aguicheuses ». Des CV souvent vides ou presque avec quelques photos. Les objectifs ici sont plus souvent financiers : chantage au dialogue compromettant voire à la photo, tentative d’acquisition de coordonnées bancaires, etc…
Des règles pourtant simples : n’acceptez pas des invitations de n’importe qui et dîtes vous que derrière un écran, vous ne pouvez pas savoir qui il y a. Et si vous avez des doutes n’hésitez pas à essayer les quelques trucs et astuces de cet excellent article pour détecter un faux profil (Facebook par exemple) : « How to identify Fake Profiles on Facebook in 2 minutes »
Des règles de protection et d’action
J’ai donc édicté des pratiques courantes et il est évident que certaines sont illégales, d’autres non éthiques et de toute façon que l’information grise s’acquière souvent de manière peu glorieuse si l’on omet l’information calculée et déduite….
Si vous êtes tentés un jour de laisser votre éthique de côté retenez toutefois quelques principes essentiels :
- Dans la plupart des cas mentir n’est pas un crime
- De plus en plus les juges en France, jugent sur l’intention et non pas uniquement sur l’infraction en tant que telle. Ainsi le parasitisme économique et l’abus de confiance sont des notions, des cadres juridiques qui laissent la part belle au juge sur l’interprétation et sur la subjectivité. Dites vous donc que ce qui est toléré bien que non éthique aujourd’hui peut ne pas l’être demain.
- En tous les cas respectez la loi et suivez attentivement la jurisprudence !
En conclusion j’aimerais retenir » points :
- Avant de courir après l’information grise essayez déjà de traiter l’information blanche. Ca devrait vous occuper un moment et probablement être productif si vous ne considérez pas qu’une simple requête en deux mots sur Google est suffisante pour tout trouver.
- Évitez les approches border lines et utilisez la technologie pour faire parler vos données.
- Enfin si vous voulez faire de l’information grise, sortez, buvez et surtout offrez des verres, fréquentez les trains, les avions et si possible le plus proche de vos concurrents…
Voilà, ce sera tout pour aujourd’hui mais toutefois avant de vous quitter :
- Je tiens à remercier les organisateurs de cette journée riche ! Toujours trop courte malheureusement et difficile de trouver assez de temps à la pause déjeuner pour discuter et échanger avec toutes les personnes intéressantes présentes ! Mais bon le web aidant mes coordonnées sont facilement trouvables.
- Une remarque également pour dire qu’en France on ferait bien de se bouger un petit peu plutôt que donner la paroles à ces institutionnels qui sont en train de transformer l’intelligence économique en une abstraction rébarbative et sécuritaire à outrance là où cela devrait être un outil et une approche entreprise. Avant de globaliser et de penser état, essayons de raisonner au niveau des acteurs de la vie économique.
- La revue de presse de cet événement est accessible sur le site de JVeille. Nous avons droit bien sûr à une titraille bling bling mais à des articles moins mauvais qu’habituellement en France…
Et enfin je ferais un bien mauvais commercial si je ne vous disais pas qu’Actulligence peut vous proposer des formations haut de gamme sur la recherche d’information et la veille pour rester dans la légalité et même l’éthique en vous aidant déjà à vous servir de Google comme un pro et à creuser le web profond.
—
Crédits photo : SmallResearch.be