Google : merci de ne pas indexer une partie du contenu

En début de semaine, j'ai renseigné Google via les GWT sur l'existence du Bloc-notes et leur robot a commencé son crawl.

Je viens de consulter les mots clés qu'il a indexé et la surprise est de taille : le premier mot indexé est heavy.
Comment lui dire que je ne veux pas qu'il indexe certains mots ou certaines parties de mes pages ?

Sur mon blog de rédacteur, je n'ai que rarement publié d'extrait de code CSS, PHP ou autres. Mais c'est le cas ici. Ces portions de code sont dans leurs balises pre et code. Si ces lignes ne sont pas interprétées elles font partie du contenu et à cet égard, sont indexées.
En publiant cet article sur la création d'une lettrine utilisant une police embarquée (grâce à @font-face des CSS3), le nom de la police Proclamate Heavy Heavy était répété à différents endroits et sacrément indexé. Heavy, non ?

• • •

Comment contrôler la façon dont Google explore les différentes pages de votre site ?

En vrac :

  • les instructions dans le fichier Robots.txt...
  • les attributs Nofollow dans les liens...
  • les instructions dans la balise Meta pour les robots...
  • les directives par le fichier .htaccess...
  • les commandes pour les En-têtes HTTP...
  • etc.

Etc.
Okey. Mais ces commandes ne sont pas toujours efficaces et elles ne répondent pas la question :

Comment exclure de Google des portions du contenu ou des mots seuls ?

Eh bien c'est facile. Google nous offre en effet 2 tags : googleon et googleoff.
Quand le petit robot qui se promène sur la page rencontre l'instruction googleoff, il s'arrête d'indexer jusqu'à ce qu'il rencontre googleon.
La mise en oeuvre est simplissime :

Le gentil robot de Google indexe ici mon contenu.
!--googleoff: all--
Au Crédit Agricole d'Orgeval ça bricole avec l'argent des clients. Mais Google ne le saura pas.
!--googleon: all--
Le petit robot repart indexer la suite.

Tout cela est totalement théorique mais ces instructions sont bien réelles.
Seront-elles efficaces ?
Nous verrons.

Source :

Le robot Google bot n'obéit pas à son maître

Dresseur de bot c'est un métier que pratique les sympathiques voyous du Blackhat SEO et que j'ai cru un moment maîtriser en appliquant les directives de Google :

Excluding Unwanted Text from the Index
There may be Web pages that you want to suppress from search results when users search on certain words or phrases. For example, if a Web page consists of the text "the user conference page will be completed as soon as Jim returns from medical leave," you might not want this page to appear in the results of a search on the terms "user conference."

You can prevent this link from being indexed using googleoff/googleon tags. By embedding googleon/googleoff tags with their flags in HTML documents, you can disable:
* The indexing of a word or portion of a Web page
* The indexing of anchor text
* The use of text to create a snippet in search results

On se dit que si Google dit qu'il ne va pas indexer le contenu (un mot, une portion de texte) c'est qu'il va respecter ses propres consignes. Eh bien non !
Regardez ce code :


<!--googleoff: all-->
<p>Sans aucun doute mais ça va prendre un certain temps comme disait Fernand Raynaud.<br />
<!--googleon: all-->HTML 5 vient de naître et ses papas balbutient avec le bébé.
L'usage de certaines balises qu'ils préconisent est parfois confus, voire
incompréhensible... c'est encore un brouillon.</p>

Il est issu de l'article sur HTML5 et le référencement. En principe Google n'aurait pas dû indexer la première phrase. Eh bien c'est loupé :
Fernand Raynaud, HTML5 et le référencement c'est du pareil au même pour Google.
Google j'ai un mot à te dire : « Don't be débile. »
Et pour reprendre les mots de la mémé dans le sketch de Fernand sur la prévention routière (« y'a un moteur qui nous suit »), avec Google, y'a un moteur qui ne nous suit pas.




Commentaires :

Mathieu||#1
Mathieu
Il me semble que ces instructions ne s'appliquent qu'à Google Search Appliance, la solution de recherche pour les entreprises.
Je ne crois pas que cela soit respecté par le crawler web...
Philippe||#2
Philippe
Et tu as complètement raison Mathieu ! De la merde dans mes yeux. Je pars immédiatement voir l'ophtalmo.
Gael||#3
Gael
Et les balises pour Yahoo ? :)
Non... je plaisante ;)
Gael
Philippe||#4
Philippe
Gael... spécialiste du référencement... ça se voit d'ailleurs : tu as un PR aussi gelé que le mien. ;-)

Les commentaires pour ce billet sont fermés