Il y a déjà plus d’un an, Facebook faisait évoluer ses API et bloquait l’accès aux posts publics. La compréhension des interactions des utilisateurs et du contenu qu’ils créaient sur Facebook était déjà fortement limité par l’accessibilité limitée des données partagé en « privé » mais désormais même les posts publics des profils utilisateurs échappent à la compréhension. Se reposer sur des solutions de social media monitoring uniquement pour détecter les bad buzz est donc particulièrement risqué si l’on omet de mettre en place des dispositifs spécifiques de surveillance sur Facebook.
Explication des limites d’accès aux informations issues de Facebook.
1) Les limites d’accès aux informations privées
Chaque individu sur le réseau social Facebook peut décider de partager ses contenus avec des personnes en
particulier selon plusieurs critères :
– Les amis : le contenu est alors partagé avec tous ses amis
– Ses amis mais pas ses « connaissances » : pour chaque individu dans son réseau d’ami, le titulaire
d’un compte peut décider qu’une des personnes n’est pas un ami mais plutôt une simple
connaissance. L’individu est alors une « acquaintance ». Il est ajouté à une liste préparamétrée qui se retrouve dans différentes sélections lors du partage.
– Des partages sur mesure : lors de chaque partage le titulaire d’un compte peut choisir de partager
nominativement à une personne ou plusieurs personnes et peut également décider de les exclure
du partage.
– Des listes sur mesure : chaque titulaire peut créer ses listes d’amis sur mesure : amis proches,
famille, collègues, etc. Il en gère le nombre, l’intitulé et les personnes à l’intérieur. Et lors d’un
partage il peut décider de partager avec une ou plusieurs listes mais également d’exclure l’un ou
plusieurs listes d’un partage.
– Public : les contenus partagés sont potentiellement visibles par tous lors d’une recherche sur le
moteur et bien évidemment visibles par tous les ami(e)s de la personne sans restriction et par tous les
amis des personnes qui vont interagir avec ce contenu.
Concernant les outils de veille et de social media listening, de toutes dates aucun des contenus partagés autre qu’en mode public n’étaient accessibles aux outils de social media monitoring. Cette donnée a toujours été protégée et n’a jamais été redistribuée à des tiers, revendus, ou accessibles via les APIS permettant d’interroger directement la base de données des posts au sein de l’infrastructure de Facebook.
Seules des données de typestatistiques pouvaient potentiellement être accessibles. Par exemple une marque pouvait avoir des statistiques sur les profils de personnes citant un produit, un mot clé mais n’avaient accès qu’à des données statistiques agrégées et jamais au contenu en texte intégral des posts partagés en mode privé.
Pendant plusieurs années toutefois les contenus publics étaient accessibles en partie via les APIs : texte
intégral, émetteur, nombres de likes, etc.
Depuis le 30 avril 205 : aucun développeur, aucune application, aucun revendeur ne peut avoir accès via les APIs de façon simple et structurée aux contenus publics postés par ses utilisateurs rendant leur monitoring extrêmement difficile.
2) Concept du « edge rank »
(NDLR : Inutile de chipoter, je sais que l’algorithme ne s’appelle plus vraiment comme cela mais le concept reste vrai)
Dans le point 1) nous mentionnions qu’avant la version 2.0 des API de Facebook, une partie des contenus
publics étaient accessibles. En effet, même lorsqu’un contenu était public, il pouvait ne pas remonter dans le moteur de recherche ni dans les API.
Il est essentiel de comprendre cela aujourd’hui car même lorsqu’un utilisateur, par exemple le community
manager d’une marque, effectue une requête avec son compte personnel, ou le compte de la marque sur
Facebook, il n’aura pas forcément accès à tout le contenu qui contient le mot clé de sa requête.
En effet, afin de faire le choix dans les contenus qu’affiche Facebook dans une timeline d’un utilisateur (le flux des informations publiés par ses amis mais aussi par les pages qu’il aime, Facebook calcul pour chaque post un « edgerank » (NDLR : la formule initiale du edgerank a clairement largement évolué mais il faut surtout en retenir que Facebook utilise un algorithme désormais complexe pour savoir comment ses contenus sont affichés sur une timeline, lors d’une recherche, etc.)
Pour qu’un contenu d’affiche dans une recherche il faut que ce dernier ait une certaine valeur pour Facebook et cette valeur est relative pour chaque individu. Ainsi lors d’une recherche Facebook sur un mot clé vous verrez apparaître en premier les contenus de vos amis, ceux ensuite publiés par des amis de vos amis. D’autres critères rentrent en ligne de compte comme le taux d’interaction avec vos amis, mais également leur nombres d’amis, etc.
Les contenus publics sont également disponibles lors de cette recherche mais c’est avant tout les contenus de vos amis qui sont valorisés.
Facebook communique peu sur cet algorithme et sur les critères de calcul.
Les conclusions importantes sont :
– Lorsque vous faîtes une recherche Facebook, sachez que vous avez peu de chance de voir apparaître tous les résultats publics concernant un mot clé.
– Seuls les contenus publics émanant de personnes actives, suivies, éventuellement proches de votre réseau d’amis vont apparaître.
– Les contenus des pages Facebook tenues par les marques, ou bien les groupes, peuvent
également apparaître.
– Il est aujourd’hui impossible d’avoir accès à tout le contenu publié publiquement par un utilisateur
sur le réseau en recherchant par mot clé directement sur l’interface Facebook.
L’on comprendra que le risque est de ne pas identifier un contenu critique.
Quelques exemples de recherche :
• Derniers posts (le mode de recherche le plus exhaustif et qui remonte le plus de contenus)
• Le mode top ne ramène que les contenus scorés le plus haut par Facebook et inclus des profils, des
posts.
3) La surveillance de channels
La seule chose que permet Facebook aujourd’hui via ses APIS pour accéder à des posts publics est de s’abonner directement à des pages voire même à des profils. Ceci est faisable avec la plupart des solutions de social media listening du marché telles que Brandwatch, Digimind Social, Radian 6, …
Ainsi afin de maximiser le monitoring sur un secteur d’activité il peut être intéressant de faire un vrai travail d’identification des pages Facebook sur un secteur d’activité et de les intégrer comme une source à surveiller directement.
Il s’agit là d’un point de paramétrage essentiel d’un outil de S2M et le seul permettant d’avoir accès à des
posts publiés sur des pages ou des profils Facebook de façon publique.
NDLR : Tous les outils de social media listening sont confrontés aux même contraintes et apportent le même type de solution : surveiller page par page.
Afin d’améliorer le paramétrage de la solution de Social Media Listening il peut être intéressant de faire le tour donc des pages Facebook des parties prenantes autour de votre marque et de vos produits. Ce paramétrage ne vous prémunira toutefois pas d’une bad buzz qui prendrait racine chez des utilisateurs « clients finaux » de la solution qui ne disposeront pas de page publique. Vous parviendrez toutefois à améliorer la surveillance de vos marques et produits sur Facebook.
4) Monitorer les contenus publics sans passer par une surveillance page par page dans un outil de SML
A plusieurs égards il est interdit de crawler des contenus de facebook avec des automates :
– Selon les termes de service sous l’article 10 de la partie safety qui mentionne par exemple : « You will not do anything that could disable, overburden, or impair the proper working or appearance of Facebook, such as a denial of service attack or interference with page rendering or other Facebook functionality. » Or un robot peut être considéré comme un outil portant atteinte au bon focntionnement du site.
Ainsi certains développeurs ayant développé des crawlers ont pu être poursuivis en
justice par Facebook : https://petewarden.com/2010/04/05/how-i-got-sued-byfacebook/
– Le robots.txt de Facebook vient rappeler cela de façon clairement explicite : tout crawler n’ayant
pas une autorisation expresse ne peut collecter de données sur Facebook.
– Enfin bien évidemment la législation sur les données personnelles est également restrictive et
implique à minima une déclaration à la Cnil pour la France (législation variable en fonction des
pays et complexe car dans le cadre d’une extraction de données internationales une donnée
devrait être effectuée dans chaque pays.)
Le seul moyen strictement légal de surveiller des posts publics sur Facebook par une recherche par mots clés est de se connecter avec son compte utilisateur et de régulièrement effecteur la requête pour détecter des contenus. Bienvenue au Moyen-Age donc.
L’intégration des channels dans un outil de Social Media Listening est une approche complémentaire ciblée.
Enfin l’on peut également se servir du moteur de recherche Google en effectuant une recherche ciblée de
type : site:facebook.com MOTCLE et filtrer par date pour avoir des contenus récents. Cette requête remonte toutefois une faible partie des contenus car Facebook est très mal indexé par Google (y compris en raison du fichier robots.txt qui interdit par exemple l’accès aux posts de type photos ce qui peut souvent être le cas pour un bad buzz). Cette requête peut être automatisée avec une Google Alerte mais sans certitude de fonctionnement, le service Google Alerte étant clairement peu fiable.