HTML5 vient de naître et ses papas balbutient avec le bébé. L'usage de certaines balises qu'ils préconisent est parfois confus, voire incompréhensible... c'est encore un brouillon.
Mais les concepteurs de sites Web vont s'y atteler. Tout du moins pour un maquettage, car passer un site en HTML5 doit s'envisager avec circonspection, le problème étant que la base installée de navigateurs trop anciens pour lire convenablement du HTML5 et CSS3 est si importante que le mouvement vers la modernité va être lent.
Le webmestre prudent pourra néanmoins y aller moderato et utiliser (avec le bon Doctype) la syntaxe (HTML ou XHTML) en récupérant tout ce qui provient d' HTML4, et quelques conteneurs sémantiques sur lesquels je ne vois pas le W3C revenir, pour y aller, plus tard, allegro quand les têtes pensantes du consortium nous auront pondu des specs dignes de ce nom (fin 2010, sans précision).
• • •Si du point de vue d'un néophyte, HTML5 semble s'orienter vers un langage de programmation (voir l'article très technique d'Olivier Croisier sur HTML5 et les API), il n'en est rien : HTML5 demeure un langage de description.
Les nouvelles balises d'HTML5 paraissent de prime abord plus complexes que celles d'HTML4 ? HTML5 n'est pourtant pas si différent de HTML4. HTML5 n'est pas une refonte complète du cahier des charges d'HTML. Pas de panique donc : il ne sera pas nécessaire de repartir à zéro dans la refonte du site que vous envisagez. Voyons pourquoi :
HTML4 et HTML5
Avec HTML4 et CSS2 les webmestres avertis 1
codent depuis un bon moment déjà les pages Web de manière moins archaïque. Les tables, les font, les br sans fins sont passés aux oubliettes.
Ils structurent aussi leurs documents d'un point de vue sémantique :
<div id="news">
<div class="section">
<div class="article">
<div class="header">
<h1>HTML4</h1>
<p class="date">32 décembre 2009</p>
</div>
<div class="content">
<p>Sed ut perspiciatis, unde omnis iste...</p>
<p>Ut enim ad minima veniam, ...</p>
<p>At vero eos et accusamus et iusto</p>
</div>
<div class="footer">
<p>Tagadas : HMTL, code, latin</p>
</div>
</div>
<div class="aside">
<div class="header">
<h2>Cartouche d'infos complémentaires</h2>
</div>
<div class="content">
<p>At vero eos et accusamus et iusto</p>
<p>Temporibus autem quibusdam</p>
<p>....</p>
</div>
<div class="footer">
<p>Tagadas : HMTL, code, latin</p>
</div>
</div>
</div>
</div>
Avec HTML5 le code est simplifié et apporte aux conteneurs de la page une valeur sémantique :
<article>
<header>
<h1>HTML5</h1>
<abbr>
<time class="entry-date published"
datetime="2009-32-18T12:00:00+00:00">
32 décembre 2009
</time>
</abbr>
</header>
<p>Sed ut perspiciatis, unde omnis iste...</p>
<p>Ut enim ad minima veniam, ...</p>
<p>At vero eos et accusamus et iusto</p>
<footer>
<p>Tagadas : HMTL, code, latin</p>
</footer>
</article>
<aside>
<header>
<h2>Cartouche d'infos complémentaires</h2>
</header>
<p>At vero eos et accusamus et iusto</p>
<p>Temporibus autem quibusdam</p>
<p>....</p>
<footer>
<p>Tagadas : HMTL, code, latin</p>
</footer>
</aside>
Comme vous pouvez le voir, HTML5 permet de remplacer notre multitude de div par des balises dotées de sens. Celles-ci améliorent non seulement la signification du code de nos pages Web, mais nous permet aussi d'éliminer bon nombre de class et d'id qui étaient auparavant nécessaires pour cibler nos feuilles de styles. En fait, HTML5 et CSS3 permettent d'éliminer pratiquement tous les id et class.
Avec HTML5, on a donc un contrôle précis de la structure des pages ; avec la puissance de CSS3, c'est une véritable révolution pour les interfaces Web qui pointe son nez.
Revenons maintenant au sujet principal qui intéresse les référenceurs : HTML5 va t-il améliorer le référencement de vos pages Web ?
HTML5 et le référencement
Tous les experts du référencement naturel vont devoir se pencher sur HTML5 pour mesurer l'impact que son balisage sémantique pourrait bien avoir sur le positionnement dans les SERP.
Les moteurs de recherche sont de plus en plus évolués et il y a fort à parier que leurs robots savent distinguer les blocs composant la page.
Cette division de la page en blocs (un en-tête, des menus, des titres, des blocs latéraux, un pied de page, des sections de liens, des headings propres aux blocs, etc.) permet aux robots de les traiter comme des entrées distinctes. Aujourd'hui le Web, du point de vue du code et de la structure des pages Web, doit être un enfer pour les robots.
Comment les moteurs de recherche peuvent-ils s'y retrouver pour appréhender la structure des pages ? — je m'interroge.
Mais grâce à HTML5 et la segmentation de la page ça va changer : vous allez comprendre pourquoi.
Regardons d'un peu plus près quelles sont ces nouvelles balises HTML5 d'importance pour le référencement et projetons-nous dans l'avenir :
- La balise
section: elle doit être utilisée pour définir des blocs distincts de l'article et des autres balises sémantiques sur une page comme la balisedivde not' bon vieux temps. De ce point de vue elle sert la division de la page et n'a d'intérêt que pour la mise en page sur le plan visuel. - La balise
article: la nouvelle balisearticleest sans aucun doute pour le référenceur la balise la plus intéressante. Elle permet de marquer des entrées distinctes dans une publication en ligne, comme un blog ou un journal.articlerendra le code HTML plus propre par l'élimination des balisesdiv. Sans doute aucun les moteurs de recherche porteront plus d'attention sur le contenu enserré par cette balise que sur les autres parties de la page. - La balise
aside: elle doit être utilisée à l'intérieur de l'article (comme un cartouche dans la page d'un livre, d'un journal) pour apporter une information complémentaire au sujet. Au même titre que le tagarticle, on peut parier que les moteurs de recherche vont porter une attention soutenue au contenu de cette balise.MAJ - La balise
header:header(à ne pas confondre avechead) est du pain bénit pour les experts du référencement car elle offre énormément de possibilités. Elle est similaire à la baliseh1mais c'est un conteneur qui peut regrouper d'autres éléments tels des titres et sous-titresh1,h2etc. que l'on regroupera alors dans une autre balise,hgroup, des paragraphes entiers de texte, des liens sûrs codés en dur ou toute autre information que vous voulez mettre sous le nez des moteurs de recherche. - La balise
footer:footerjoue le même rôle et doit être prise en compte pour l'optimisation du référencement. Les balisesheaderetfooterpeuvent être utilisées plusieurs fois et à différents endroits de la même page. Vous pouvez ainsi disposer d'unfooterdifférend pour chaque bloc et y placer du contenu pertinent. - La balise
nav: Ce n'est pas aux pros que je vais l'apprendre, les liens internes et leur structure sont un facteur essentiel de la réussite du référencement d'un site Web.navpeut être utilisée, par exemple, pour désigner une série de liens vers d'autres pages. Indiquer clairement aux robots des moteurs de recherche les liens de navigation dans le site en les distinguant des autres liens de la page servira le crawling et l'indexation des pages. - La balise
hr /: En HTML4 cette balise était purement visuelle (certains, pourtant, lui accordent — à mon avis, à tort — une valeur sémantique). Avec cette autre nouveauté HTML5hr /indique une rupture de sujet dans le contenu. Si les robots la prennent en compte elle leur permettra de mieux diviser la page encore.
D'autres balises essentielles telles que audio et video ou bien dialog[Ah ben non ; pas dialog : le tag a disparu de la norme HTML5] serviront aussi l'identification de la nature du contenu par les moteurs de recherche.
Il existe aussi de nombreuses autres balises mais d'un intérêt moindre pour le référenceur.
HTML5, le webmestre et le référenceur
HTML5 est encore balbutiant disais-je dans mon avant-propos mais il est déjà exploitable. Pour que son impact sur le référencement soit mesurable il faut que les webmestres et référenceurs s'y collent sans tarder : plus il y aura de pages codées en HTML5, plus les moteurs de recherche vont leur accorder d'attention. C'est seulement quand un nombre important de sites seront codés ainsi qu'il sera possible de savoir exactement comment les moteurs de recherche traitent les pages HTML5.
Mais il ne faut pas se leurrer : l'adoption massive de HTML5 ne se fera pas de si tôt. Il faudra un « certain temps » pour que les navigateurs s'adaptent ce qui retardera encore le déploiement de sites en HTML5.
Il est inéluctable que HTML5 sera le standard dominant dans les années à venir et c'est pourquoi, webmestres et référenceurs, vous devez dès aujourd'hui intégrer les balises HTML5 dans vos sites.
Vous pouvez ranger vos missels.
-
Ce billet fait suite à un discussion très animée sur l'avenir d'HTML5 avec le jeune et talentueux webmestre d'une grosse organisation et son responsable.
Le webmestre avait des certitudes sur l'échec du déploiement d'HTML5 et ses arguments ont convaincu son patron d'un wait and see...
J'ai donc rassemblé ici des réponses que vous devez considérer avec prudence.?
Impact du référencement d'HTML5
Oh ! 1er pour cette page sur les Datacenters de Google pour la requête referencement HTML5.
Une mise à jour dans la mise à jour [mercredi 20 janvier] :
Un lecteur mien vient très gentiment de m'adresser un courriel — et m'éviter ainsi de sombrer dans le ridicule — pour me signaler que cette page avait disparu de l'index de Google. Eh eh... c'est donc la noyade dont je parlais un peu plus bas. Un Google Quality Rate serait-il passé ici ? Google Bot n'aurait pas supporté d'être comparé à un poisson ? Trop d'optimisation ? Il me semblait pourtant avoir encore pied.
Si un expert passe par là (mais faudrait-il déjà qu'il puisse trouver cette page) peut-être aura t-il une réponse ? À suivre...
Fin de la mise à jour
Ça surprend certes, mais qui s'intéresse à l'impact de la structure et du balisage d'une page codée en HTML5 ? Pas grand monde sinon les collègues du SEO, les référenceurs.
C'est tout de même intéressant d'avoir une mesure des moteurs de recherche. De tous les moteurs de recherche ? Non ! Google seul.
Yahoo! pour lequel je n'ai pas fait grand chose d'ailleurs me place très très loin (en 89e position aujourd'hui). Bing, pareil. Je vais m'en occuper...
Sur l'une de mes pages j'ai procédé à une optimisation du code pour le référencement de cette page sur les mots clés, HTML5 et référencement. Optimisation peu orthodoxe qui a produit l'effet voulu : propulser cette page au top des résultats de Google. Ce test a prouvé d'une part que Google ne respectait pas ses propres directives [voir à ce propos Google : merci de ne pas indexer une partie du contenu] et, d'autre part, qu'à l'instar de la pêche à la mouche ou au brochet (mon loisir préféré), on peut pratiquer le référencement comme un sport, pourvu que l'on reste en eaux claires, sinon, c'est la noyade assurée.
Si ces considérations vous paraîssent absconses c'est normal, je vous rassure. Seuls des référenceurs comprendront à l'examen du site et du code de certaines pages ce dont je veux parler.
Google et la balise aside
Tous les rédacteurs Web, tous les référenceurs le savent : la rédaction de contenus pour le référencement organique (c.a.d. pour les robots des moteurs de recherche) impose une écriture sèche, sans fioritures.
Les figures de rhétorique du type : métaphores, ellipses, comparaisons, euphémismes, litotes etc. sont à bannir.
Elles génèrent de la confusion chez les robots les empêchant d'appréhender le sujet clairement. Elles sont toutefois bien utiles parfois pour tester le référencement.
Illustration :
Dans cette page même j'ai volontairement placé 2 syntagmes métaphoriques dans des balises HTML5 différentes pour tester la réaction de Google.
La première est dans le corps de l'article ; la seconde dans la balise aside. Dans mon idée aside c'était cette relance [voir sur mon blog pro : Comment construire une page Web] qui met en exergue dans un cartouche, une phrase forte extraite de l'article ou des compléments d'information.
Pour le lecteur humain ce cartouche offre un premier niveau de lecture qui permet, après la lecture du titre et du chapô de saisir immédiatement de quoi il retourne. Dans ma petite tête chercheuse j'imaginais donc que les big headed engineers de Google auraient le même raisonnement et ordonneraient à Google bot de s'intéresser tout particulièrement au contenu de cette balise.
J'avais tout faux.
La première métaphore — celle dans le corps de l'article — sort dans les premiers résultats tandis que la seconde se ballade dans la 3e page des SERP (en 38e position aujourd'hui).
J'ai vérifié le traitement d'aside par Google dans un autre test, mais sur une page seule cette fois : les mots-clés ou syntagmes-clés que j'ai placé dans les balises article sont mieux considérés que ceux placés dans aside.
Ça m'apprendra à raisonner Print !
Conclusion temporaire : si la balise aside est reliée à son conteneur (en la plaçant à l'intérieur même de l'article) et est en relation directe avec son sujet, elle doit recevoir un contenu de second niveau auquel Google — aujourd'hui — accorde une moindre importance.
Commentaires :
Merci pour l'article.
Très sincèrement je ne peux encore affirmer que le codage ici en HTML5 (sans espace, c'est ainsi qu'on doit l'écrire) est la raison de ce positionnement dans Google — si cette page a obtenu le 1er prix du positionnement sur Google ce n'est d'ailleurs que temporaire.
Qu'elle est obtenue ces lauriers j'en suis moi-même extrêmement surpris et je n'en connais pas véritablement la raison. Ne croyant plus au PR Noël (d'ailleurs pourquoi Santa Google n'a t-il rien déposé dans ma cheminée alors qu'un export du Pagerank a eu lieu le 31 décembre ?) j'imagine que c'est le robot qui a mal digéré son réveillon de la St Sylvestre.
eh eh... il semble, je dis bien : il semble, que Google fait une grosse différence entre le contenu d'un article et les textes des cartouches dans la balise aside.
Je termine les tests ce weekend.
Fallait pas désespérer.
C'est le Tag référencement qui est placé en 4e. La page n'est plus là.
Quand on donne un coup de main à Google on n'aimerait bien que ça ne soit pas à sens unique, non ?
Merci d'avoir lu l'article. Merci de me l'avoir signalé Vic.
Mais petit bémol, sous safari, la mise en page est très brouillons. Et impossible de lire les commentaires.
Si besoin, je peut vous envoyer des captures d'écran.
Config: MacOSX 10.6.2, safari 4.0.4, toutes mise à jour faite.
Si la page est brouillonne sous Mac avec Safari, je veux bien le croire.
Et ce n'est pas de leurs fautes mais de la mienne.
Ce n'est pas le code HTML5 qui doit poser problème mais la CSS3 pour laquelle je n'ai fait d'optimisations que pour Opera, IE et Chrome qui sont présents sur mes machines et sous différents OS, sauf... Mac !
C'est peut-être aussi lié à des scripts mal interprétés.
Déjà je vais installer Safari et regarder de quoi il retourne.
En espérant que vous si revenez un jour tout sera d'équerre.
Il y a du boulot en perspective.
le jour ou le GoogleBot favorisera les sites HTML5 qui lui auront prémaché le travail, il va y avoir un gros rush sur la sémantique HTML5. Heureusement qu'il y a déjà la première étape du boulot qui semble facilement mettable en prod :
Édition :
Et hop ! Une belle ancre pour JP :
Migrer un site de production vers un markup HTML5
Vaut mieux s'en tenir encore aux recettes du passé à mon avis.
Il y a des centaines de milliers de pages avec de multiples h1 et, si ce n'était pas la meilleure pratique, je te l'accorde, ce n'était pas pour autant un frein au référencement.
Il faut bien que les moteurs fassent avec ce qu'ils trouvent : le pire ou le meilleur.
Bravo et merci.
Je pense bien que les outils de recherche ont commencer a se pencher sur le souci HTML5 mais il y a encore si peu de site codé de cette facon pour le moment que je ne vois pas bien comment ils font le tri. Malheureusement on ne peut meme pas dire que ton positionnnement est un gage de reussite vis a vis de ce probleme precis dans la mesure ou la concurrence sur "referencement HTML5" n'est pas enorme (compte tenu du potentiel de ton site).
Bref, c'est une histoire a suivre
On peut s'interroger sur la manière dont les moteurs vont interpréter ces nouvelles divisions de pages. En particulier en ce qui concerne tous ces H1.
Je pige bien que cette structure le permette mais je ne voudrais pas être pénalisé par Google pour cela. Je vais donc attendre tes résultats. Je suis courageux mais pas téméraire... et puis s'il y en a d'autres comme toi qui prennent les risques et qui racontent aussi bien leurs aventures je les lirais. ;)
Et après j'appliquerais les recettes. Merci en tout cas de nosu éclairer.
Chacune des sections de la page vit sa vie de son côté pour un robot.
Que chacune reçoive son H1, pour le robot, c'est très logique.
Examinons, ou plus tôt, essayons de comprendre comment il va appréhender la structure :
il débarque :
« Bonjour. C'est codé avec quel langage ? En HTML5 ?
Bon. Et c'est hiérarchisé comment ? »
Il fait sa balade... et repère qu'il y a des sections bien distinctes qui possèdent chacune leurs propres balises d'en-têtes.
Il voit que le contenu principal (un article par exemple) ne se répète nulle part ailleurs et se trouve situé dans la balise qu'il faut. C'est la balise
article.Elle dispose de son propre H1 qui est unique.
Il est content :
« Ah ! mais c'est bien foutu tout ça...
Si je comprends bien ce que ce zozo veut me dire c'est que sa 1ère balise d'en-tête c'est celle que je trouve quand je débarque sur une page.
Donc il veut que celle-ci ait plus d'importance que toutes les autres ?
Okey okey : quand je suis sur une page je vais traiter la balise H1 de son article comme étant celle qui compte. Celles des autres sections seront oubliés ou considérées comme des balises d'en-tête de plus bas niveau (H4, H5, H6). »
C'est comme ça que j'accueille les robots et je n'ai pas l'impression qu'ils s'en plaignent pour l'instant.
C'est d'abord le contenu qui fait le référencement et ensuite le nombre de liens externes qui pointent vers le site.
La structure sémnantique de la page ? Tu le dis déja : les robots savent reconnaître les zones à indexer alors je vois pas en quoi ça va changer grand chose.
Mais a part ça l'article est très bien ;-)
Bien sûr le contenu prime.
Comment pourrait-il en être autrement ?
Ce contenu il faut bien l'organiser et qu'il soit bien organisé. C'est la vertu d'HTML5 que de mieux le structurer.
Pour s'en convaincre il suffit de faire une recherche avec Google sur un mot clé (« code HTML5 » par exemple) et voir comment ce blog se positionne. J'en suis moi-même surpris étant donné qu'il possède très peu de backlinks.
Merci d'avoir partagé cette analyse très instructive.
Merci aussi pour l'article très instructifs.
Voici comment j'utilise les balises hn :
h1 : titre du site
h2 : Titres des articles (donc utilisation multiple)
h3 : Sous-Titre
En tout cas cet article est très intéressant et je te souhaite une bonne réussite !
Cet article vient à point nommé expliquer mon propos :
HTML5 And The Document Outlining Algorithm
"having multiple h1 tags on a page is fine..." (oct 2010).
C'est le moment ou jamais de se pencher sur le HTML5, donc, si j'ai bien compris ! ^^
Savez-vous déjà par avance quelles fonctionnalités seront implémentées en natif dans le "futur HTML5" final ?
-------
Hyrodia : Creation de site web - Création website par un étudiant de l'école SUPINFO, leader français de l'ingénierie informatique.
Quelles fonctionnalités ? Si tu veux parler de l’interprétation future du comportement de certaines balises par les moteurs de rendu, c’est encore en discussion.
Le site d’HTML5 Doctor donne des indications sur ce qui a changé ou sur ce qui pourrait changer, balise par balise, dans son Index des éléments HTML5.
Bonne lecture.
Si HTML5 permet de mieux découper la page c'est certain que les moteurs de recherche comprendront mieux le contenu à extraire.
Pour le référencement naturel je suis certain qu'HTML5 apporte un GROS +.
Merci pour cet article et pour les autres aussi d'ailleurs.
Il serait intéressant d'effectuer des tests pour mesurer le poids de certaines balises clées du Html5 par ex en y incorporant des mots clés et liens...
A ce titre nous développons des thèmes de CMS bien connus en html5.
Si vous connaissez de bons tests déjà réalisés, sommes intéressés !