Lorsque l’on effectue une recherche sur Google, l’inconvénient est que l’on ne connaît pas le corpus de pages webs et de documents qui le composent.
Les sources composant ainsi le fonds documentaires ne sont pas "qualifiées". On le sait, la logique des moteurs de recherche est aujourd’hui d’indexer tout ce qu’il est possible d’indexer. Seuls les sites essayant éhontément de leurrer Google à travers diverses techniques de "Black Hat" (réfrencement de pages satellites, farm links…) sont sortis de l’index de Google c’est à dire blacklistés ou mis dans le "bac à sable".
On le voit donc bien, une sélection de sites et de ressources privilégiant l’exhaustivitéà la qualité.
Mais il existe désormais des moyens pour utiliser les technologies de pointe de vos moteurs de recherche préférés tout en maîtrisant les sources dans lesquels ils vont piocher.
Je prendrai aujourd’hui l’exemple de Google Custom Search.
Google Custom Search fait partie de cette nouvelle vague de moteurs personnalisables et collaboratifs.
Pour créer votre moteur de recherche Google Coop ou Google CS, il vous faudra d’abord créer un compte. Je ne peux que conseiller de gréer un compte Gmail à partir duquel vous pourrez gérer la totalité de vos services Google (Google Alertes, Google Coop, Gmail, Gcalendar…)
Une fois ce compte créé, connectez vous sur Google Custom Search Engine.
On vous propposera alors de commencer à créer votre moteur de recherche personnalisé, et pour cela vous pouvez passer rapidement l’assistant de départ et vous rendre sur la page de gestion de vos moteurs de recherche.
En cliquant sur "New" en haut à gauche, vous parviendrez sur un formulaire qui vous demandera de saisir différents éléments :
- Le nom que vous allez donner à votre nouveau moteur de recherche
- Sa description, qui permettra à d’autres utilisateurs de le retrouver via le moteur de recherche dédié à cet efet
- Les mots clés qui le définissent le mieux
- La langue de votre moteur ( utile dans le cas où vous vous en tiendriez à une seule langue sur vos sources.)
- Là où vous voulez que le moteur recherche, c a d soit le web en entier – intérêt relativement limité… -, soit le web en entier mais avec une priorité pour les sites que vous allez spécifier dans vos sources, soit uniquement les sources que vous allez lister.
- Les sources sus nommées (Sites webs)
- La possibilité d’enlever les pubs adwords sur les résultats de votre moteur de recherche.
Revenons à l’essentiel du moteur que vous souhaitez construire, les sources.
L’avantage de ce nouveau type d’outils est bien de pouvoir rechercher uniquement dans des sources que vous avez qualifiées au préalable. Si vous êtes une documentaliste ou un veilleur vous vous reposez probablement sur un bookmarks de sources privilégiant les organismes de référence dans votre secteur, des blogs d’experts, etc, c’est le moment ou jamais de les exploiter grâce à Google.
Vous échapperez ainsi à tout le contenu commercial du web souvent beaucoup mieux positionné et surtout vous trouverez plus facilement l’information passant pour la même recherche de 10,000,000 millions de résultats à une centaine.
Quelques petits trucs et astuces et surtout une nouveauté bien intéressante sur le Google Custom Search…
Vous vous dites probablement que cela va être trés long de paramétrer votre moteur de recherche, et d’ajouter vos sites webs un à un. Il existe une fonction bien pratqiue désormais de Google CSE : vous pouvez choisir d’ajouter un site ou une page et d’ajouter par la même occasion touts les sites vers lesquels cette page fait des liens.
On comprendra alors tout l’intérêt de trouver des pages types "ressources" ou "rubriques d’annuaires" afin de se constituer en rajoutant uniquement une ou deux adresses un moteur de recherche thématique.
Si vous voulez par exemple vous constituer un moteur de recherche relatif à la finance/banque/bourse pourquoi ne pas commencer à intégrer cette page ainsi que cette page avec l’option "extract link"?!!!
En dehors de l’ajout simple de site, Google CSE vous permet aussi d’ajouter des schémas spécifiques d’URL. Par exemple si vous souhaitez surveiller tous les documents qui sortent sur l’espace institutionnel du site de Total, pourquoi ne pas rajouter à votre Google CSE toutes les URL du type (patterns) :
http://www.total.com/static/fr/medias/topic*/* ? En effet, comme on peut le constater, tous les documents sont publiés sous la forme : http://www.total.com/static/fr/medias/topicnumerodutopic/nomdudocument.
La pattern ci-dessus vous permettra donc de rechercher dans tous les documents de l’espace publications du site institutionnel de Total.
Si toutefois même avec ces trucs et astuces vous avez toujours la flemme de construire votre propre Google CS vous pourrez trouver des Google CS réalisés par d’autres utilisateurs en allant à l’adresse :
http://google.com/coop/cse/examples/GooglePicks
Vous pourrez par exemple trouver des moteurs dédiés à : l’intelligence économique, la finance, les arts, ou bien encore l’immobilier.
Google CS Apparaît définitivement comme un service indispensable aux veilleurs et chercheurs d’information mais aussi aux webmasters qui pourront ainsi proposer des moteurs de recherches thématiques à leurs internautes. On notera par ailleurs qu’il permet d’ouvrir le moteur à d’autres utilisateurs afin qu’ils puissent proposer d’autres sources qui viendront enrichir votre moteur. A l’intérieur même d’une entreprise, sur des thématiques non confidentielles bien évidemment, on pourra donc envisager la mise en place d’un moteur sur le coeur de métier mis à jour par tous les utilisateurs…ou tout du moins par les plus motivés.
PS : c’est un bref extrait des fonctionnalités proposées par Google CSE qui vous permettra aussi de faire de l’argent en le liant à un compte Adsense de pub google, de l’ajouter sur n’importe quelle page web, de proposer de la recherche par clustering (ce que ne fait pas Google pour l’instant), d’exclure certains noms de domaine de la recherche … Toutes ces options se gérant dans le "control panel" de vos moteurs de recherche.
PS 2 : pour aller plus loin : Le blog de Google Custom Search, et le groupe de discussion.
PS3 : Si ce que vous souhaitez c’est uniquement rechercher sur deux ou trois sites particuliers vous pouvez toujours essayer des équations de recherche Google du type : site:www.actulligence.com OR site:www.verbalkint.net google