Auteur :
Florian Karmen : Bien que très connus des webmasters, les plans de sites au format XML (ou sitemap xml) proposent des fonctionnalités avancées inconnues de nombreux éditeurs de sites web. Voici un rappel des fondamentaux :
Le sitemap XML est un fichier destiné aux moteurs de recherche, il contient la liste des pages du site ainsi que des informations concernant les différentes pages comme la priorité de crawl, la fréquence de mise à jour, etc.
L’objectif est d’indiquer aux moteurs les différentes pages du site pour lui faciliter l’indexation de l’ensemble des pages du site. La soumission de ce dernier peut se faire via les outils pour les webmasters de Google, mais il est également possible d’indiquer la présence du sitemap dans le fichier robots.txt.
Les légendes urbaines autour du sitemap
Bien que destiné à faciliter l’indexation totale des pages d’un site, le sitemap ne garantit en aucun cas l’indexation de l’ensemble des pages d’un site, d’autant plus si certaines pages sont bloquées par une balise meta robots.
De nombreux novices imaginent que la création d’un sitemap leur permettra de gagner des positions dans les résultats. Que nenni : indexation ne signifie pas positionnement !
La création d’un sitemap ne remplace pas le crawling ‘normal’ d’un site, de fait, privilégiez votre linking interne ainsi que l’architecture de votre site plutôt que de perdre du temps sur le sitemap.
Le format des fichiers sitemaps
Les sitemaps xml, comme leur nom l’indiquent sont des fichiers XML qui contiennent plusieurs informations. Les sitemaps les plus basiques contiennent obligatoirement les informations suivantes :
- urlset : qui limite l’ensemble des pages du plan de site,
- url : qui délimite chacune des pages,
- loc : qui définit l’adresse de chaque page.
Ces informations sont indispensables lors de la création d’un fichier sitemap au format XML, toutefois d’autres informations existent et peuvent être ajoutées lors de la création du fichier comme la priorité de crawl, la fréquence de mise à jour de la page et la date de dernière modification du fichier. En témoigne cette capture d’écran de sitemap :

Les erreurs les plus fréquentes
Chaque URL indiquée dans le fichier sitemap doit l’être de façon absolue et non relative. De fait, toutes les URLs doivent commencer par
http et non par
../dossier/page-1.html.
Toutes les adresses présentes dans un sitemap doivent être situées dans le même répertoire que le sitemap lui-même, ou dans un répertoire de niveau inférieur.
Il convient donc de placer ce fichier à la racine d’un site pour que le webmaster puisse y indiquer l’ensemble des pages du site. En effet, il n’existe aucun répertoire supérieur à la racine du site. En revanche, tous les sous-répertoires peuvent être pris en compte.
Il est toutefois possible de créer plusieurs sitemaps qui seraient spécifiques à des répertoires internes. En effet, un fichier sitemap ne peut contenir que 50.000 pages, il faut donc segmenter les sitemaps au niveau des répertoires pour les très gros sites.
En revanche, il faudra créer un sitemap ‘
global‘ nommé
sitemap_index.xml qui listera les sitemaps spécifiques à chaque répertoire.
Il en est de même pour les sous-domaines, en effet, Google considère chaque sous-domaine comme un site différent, il est donc essentiel de créer un sitemap spécifique à chacun des sous-domaines d’un site.
La création et la soumission d’un sitemap dans Google
La création d’un sitemap est une étape assez aisée puisqu’il existe de nombreux outils permettant d’automatiser cette tache. Il existe des outils en ligne comme
Google Sitemap Generator ainsi que des solutions logicielles gratuites comme
GSite Crawler pour Windows et
Integrity pour Mac que je vous ai déjà présenté sur le blog.
La soumission d’un sitemap peut se faire via les outils pour les webmasters de Google et Bing. Sur Google Webmaster Tools il suffit de cliquer sur ‘Envoyer un Sitemap’ pour déclarer votre (ou vos) fichiers.
Il est ensuite possible de connaître le nombre d’adresses fournies et de comparer ce chiffre avec le nombre de pages effectivement indexées par le moteur. Par ailleurs, le webmatser peut savoir à quelle date le fichier a été lu la dernière fois par Google.
L’adresse du sitemap peut également être précisée dans le fichier robotx.txt qui permet de bloquer l’indexation de certaines pages de votre site par les différents moteurs.
(source)