Tutoriels techniques 5 min de lecture

Sitemap et robots.txt : les 2 fichiers que Google adore

Laurent

Laurent

11 June 2026

Vous avez un site, vous publiez du contenu, mais Google n'indexe pas tout, ou met des semaines à voir vos nouvelles pages. Le coupable, dans 8 cas sur 10, ce sont deux petits fichiers méconnus qui pilotent comment Google explore votre site : le sitemap.xml et le robots.txt. Bien configurés, ils accélèrent l'indexation et orientent Google vers vos pages stratégiques. Mal configurés, ils peuvent bloquer toute votre visibilité. Voici tout ce qu'un non-développeur doit savoir.

Le rôle du sitemap.xml

Le sitemap, c'est un fichier qui liste toutes les pages de votre site que vous souhaitez voir indexées par Google. C'est comme un plan d'usine qu'on remettrait à un visiteur : "voici toutes les pièces, voilà l'ordre dans lequel les visiter, voilà la dernière mise à jour de chacune". Sans sitemap, Google découvre vos pages au fil des liens — c'est plus lent, et il peut en oublier.

Concrètement, un sitemap.xml ressemble à ça :

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://votresite.fr/</loc>
    <lastmod>2026-04-15</lastmod>
  </url>
  <url>
    <loc>https://votresite.fr/services</loc>
    <lastmod>2026-04-10</lastmod>
  </url>
</urlset>

Vous n'avez (presque) jamais à l'écrire à la main : la quasi-totalité des CMS modernes le génèrent automatiquement.

ℹ️ Le saviez-vous ?

Les sites avec un sitemap soumis à Google indexent leurs nouvelles pages 3 à 7 jours plus vite, en moyenne. Pour un blog ou un site e-commerce qui publie souvent, c'est un gain significatif.

Comment générer un sitemap (selon votre CMS)

  • WordPress : un plugin gratuit comme Yoast SEO ou Rank Math génère le sitemap automatiquement à votresite.fr/sitemap_index.xml.
  • Wix, Squarespace, Webflow : sitemap automatique à votresite.fr/sitemap.xml, rien à configurer.
  • Shopify : sitemap automatique à votresite.fr/sitemap.xml.
  • Site sur mesure / framework : votre développeur configure ça en 1 heure. Demandez-le si vous ne l'avez pas.

Pour vérifier qu'il existe : tapez votresite.fr/sitemap.xml dans votre navigateur. Si une page XML s'affiche avec une liste d'URL, c'est bon.

Soumettre son sitemap à Google

Une fois votre sitemap en place, déclarez-le officiellement à Google via Google Search Console, menu "Sitemaps". Vous y collez l'URL et cliquez sur "Envoyer". Google le re-explore quotidiennement et vous indique combien de pages il a découvertes et indexées.

Le rôle du robots.txt

Le robots.txt, c'est l'inverse du sitemap : c'est le fichier qui dit à Google ce qu'il NE doit PAS explorer. Pages d'administration, pages de test, doublons, paniers d'achat... Tout ce qui ne doit pas finir dans les résultats de recherche.

Un robots.txt typique pour un site PME ressemble à :

User-agent: *
Disallow: /admin/
Disallow: /panier
Disallow: /search?
Allow: /

Sitemap: https://votresite.fr/sitemap.xml

Le fichier doit obligatoirement se trouver à la racine : votresite.fr/robots.txt. Pour vérifier, tapez cette URL dans votre navigateur.

⚠️ Attention

L'erreur la plus catastrophique : un robots.txt contenant Disallow: /. Cette ligne unique bloque l'exploration de TOUT votre site par Google. Résultat : votre site disparaît progressivement des résultats. Cela arrive parfois suite à une mauvaise migration : vérifiez votre robots.txt après chaque refonte.

Les 5 règles d'or du robots.txt

  1. Toujours lister votre sitemap dans le robots.txt avec la ligne Sitemap: https://.... C'est une bonne pratique reconnue.
  2. Bloquer les pages techniques : /wp-admin/ sur WordPress, /admin/, /cart, /checkout.
  3. Ne JAMAIS bloquer les fichiers CSS et JavaScript. Google a besoin d'y accéder pour rendre la page comme un visiteur.
  4. Ne JAMAIS bloquer les images si vous voulez du trafic depuis Google Images.
  5. Tester avant publication : Google Search Console propose un "testeur de robots.txt" qui vous dit si une URL est bloquée ou pas.

Cas d'usage avancés

Bloquer un répertoire de test

Vous avez une version de pré-production sur preprod.votresite.fr ? Bloquez-la entièrement dans son propre robots.txt avec Disallow: /, OU mieux, protégez-la par mot de passe HTTP (encore plus efficace).

Bloquer les paramètres d'URL

Les URL avec paramètres (?couleur=rouge&taille=M) créent des pages quasi-identiques que Google peut juger comme du contenu dupliqué. Bloquez-les avec Disallow: /*? en complément des balises canoniques.

Empêcher l'indexation de pages "merci" ou de remerciement

Les pages de confirmation (après formulaire envoyé, après commande passée) ne doivent pas apparaître dans Google. Soit vous les bloquez via robots.txt, soit (mieux) vous y mettez la balise <meta name="robots" content="noindex">.

Vérifier que tout fonctionne

  1. Dans Search Console, vérifiez le rapport "Sitemaps" : combien de pages soumises, combien indexées ?
  2. Dans le rapport "Pages", regardez les pages exclues : la raison "Bloquée par robots.txt" doit ne concerner QUE les pages volontairement bloquées.
  3. Utilisez l'outil "Inspection d'URL" pour tester individuellement vos pages stratégiques.

💡 Conseil

Faites une vérification rapide chaque trimestre : tapez votresite.fr/robots.txt et votresite.fr/sitemap.xml. Vérifiez que les fichiers existent, ne contiennent rien d'anormal, et que le sitemap liste vos pages les plus récentes. 5 minutes par trimestre.

Cas particulier des données structurées

Si vous utilisez des données structurées Schema.org, votre robots.txt ne doit pas bloquer les fichiers JSON-LD. Vérifiez aussi que le sitemap n'oublie aucune page importante : Google s'appuie sur ces deux fichiers pour comprendre la structure de votre site.

Vous voulez savoir où en est VOTRE site ?

Notre audit gratuit analyse votre référencement en 2 minutes et vous donne les corrections prioritaires.

Audit gratuit personnalisé en 2 min

Article rédigé par Laurent, fondateur de Diagnostic Web · Voir tous ses articles

En résumé

Sitemap.xml et robots.txt sont les deux fichiers que Google adore — quand ils existent et sont propres. Vérifiez que votre CMS les génère, soumettez le sitemap à Search Console, ne bloquez rien d'important dans le robots.txt, mentionnez le sitemap dedans. 30 minutes de configuration, des semaines d'indexation gagnées. C'est le ratio impact / effort le plus élevé du SEO technique.

sitemap robots.txt crawl indexation SEO technique
Partager :