Sitemap et robots.txt : les 2 fichiers que Google adore
11 June 2026
Vous avez un site, vous publiez du contenu, mais Google n'indexe pas tout, ou met des semaines à voir vos nouvelles pages. Le coupable, dans 8 cas sur 10, ce sont deux petits fichiers méconnus qui pilotent comment Google explore votre site : le sitemap.xml et le robots.txt. Bien configurés, ils accélèrent l'indexation et orientent Google vers vos pages stratégiques. Mal configurés, ils peuvent bloquer toute votre visibilité. Voici tout ce qu'un non-développeur doit savoir.
Le rôle du sitemap.xml
Le sitemap, c'est un fichier qui liste toutes les pages de votre site que vous souhaitez voir indexées par Google. C'est comme un plan d'usine qu'on remettrait à un visiteur : "voici toutes les pièces, voilà l'ordre dans lequel les visiter, voilà la dernière mise à jour de chacune". Sans sitemap, Google découvre vos pages au fil des liens — c'est plus lent, et il peut en oublier.
Concrètement, un sitemap.xml ressemble à ça :
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://votresite.fr/</loc>
<lastmod>2026-04-15</lastmod>
</url>
<url>
<loc>https://votresite.fr/services</loc>
<lastmod>2026-04-10</lastmod>
</url>
</urlset>
Vous n'avez (presque) jamais à l'écrire à la main : la quasi-totalité des CMS modernes le génèrent automatiquement.
ℹ️ Le saviez-vous ?
Les sites avec un sitemap soumis à Google indexent leurs nouvelles pages 3 à 7 jours plus vite, en moyenne. Pour un blog ou un site e-commerce qui publie souvent, c'est un gain significatif.
Comment générer un sitemap (selon votre CMS)
- WordPress : un plugin gratuit comme Yoast SEO ou Rank Math génère le sitemap automatiquement à votresite.fr/sitemap_index.xml.
- Wix, Squarespace, Webflow : sitemap automatique à votresite.fr/sitemap.xml, rien à configurer.
- Shopify : sitemap automatique à votresite.fr/sitemap.xml.
- Site sur mesure / framework : votre développeur configure ça en 1 heure. Demandez-le si vous ne l'avez pas.
Pour vérifier qu'il existe : tapez votresite.fr/sitemap.xml dans votre navigateur. Si une page XML s'affiche avec une liste d'URL, c'est bon.
Soumettre son sitemap à Google
Une fois votre sitemap en place, déclarez-le officiellement à Google via Google Search Console, menu "Sitemaps". Vous y collez l'URL et cliquez sur "Envoyer". Google le re-explore quotidiennement et vous indique combien de pages il a découvertes et indexées.
Le rôle du robots.txt
Le robots.txt, c'est l'inverse du sitemap : c'est le fichier qui dit à Google ce qu'il NE doit PAS explorer. Pages d'administration, pages de test, doublons, paniers d'achat... Tout ce qui ne doit pas finir dans les résultats de recherche.
Un robots.txt typique pour un site PME ressemble à :
User-agent: *
Disallow: /admin/
Disallow: /panier
Disallow: /search?
Allow: /
Sitemap: https://votresite.fr/sitemap.xml
Le fichier doit obligatoirement se trouver à la racine : votresite.fr/robots.txt. Pour vérifier, tapez cette URL dans votre navigateur.
⚠️ Attention
L'erreur la plus catastrophique : un robots.txt contenant Disallow: /. Cette ligne unique bloque l'exploration de TOUT votre site par Google. Résultat : votre site disparaît progressivement des résultats. Cela arrive parfois suite à une mauvaise migration : vérifiez votre robots.txt après chaque refonte.
Les 5 règles d'or du robots.txt
- Toujours lister votre sitemap dans le robots.txt avec la ligne
Sitemap: https://.... C'est une bonne pratique reconnue. - Bloquer les pages techniques :
/wp-admin/sur WordPress,/admin/,/cart,/checkout. - Ne JAMAIS bloquer les fichiers CSS et JavaScript. Google a besoin d'y accéder pour rendre la page comme un visiteur.
- Ne JAMAIS bloquer les images si vous voulez du trafic depuis Google Images.
- Tester avant publication : Google Search Console propose un "testeur de robots.txt" qui vous dit si une URL est bloquée ou pas.
Cas d'usage avancés
Bloquer un répertoire de test
Vous avez une version de pré-production sur preprod.votresite.fr ? Bloquez-la entièrement dans son propre robots.txt avec Disallow: /, OU mieux, protégez-la par mot de passe HTTP (encore plus efficace).
Bloquer les paramètres d'URL
Les URL avec paramètres (?couleur=rouge&taille=M) créent des pages quasi-identiques que Google peut juger comme du contenu dupliqué. Bloquez-les avec Disallow: /*? en complément des balises canoniques.
Empêcher l'indexation de pages "merci" ou de remerciement
Les pages de confirmation (après formulaire envoyé, après commande passée) ne doivent pas apparaître dans Google. Soit vous les bloquez via robots.txt, soit (mieux) vous y mettez la balise <meta name="robots" content="noindex">.
Vérifier que tout fonctionne
- Dans Search Console, vérifiez le rapport "Sitemaps" : combien de pages soumises, combien indexées ?
- Dans le rapport "Pages", regardez les pages exclues : la raison "Bloquée par robots.txt" doit ne concerner QUE les pages volontairement bloquées.
- Utilisez l'outil "Inspection d'URL" pour tester individuellement vos pages stratégiques.
💡 Conseil
Faites une vérification rapide chaque trimestre : tapez votresite.fr/robots.txt et votresite.fr/sitemap.xml. Vérifiez que les fichiers existent, ne contiennent rien d'anormal, et que le sitemap liste vos pages les plus récentes. 5 minutes par trimestre.
Cas particulier des données structurées
Si vous utilisez des données structurées Schema.org, votre robots.txt ne doit pas bloquer les fichiers JSON-LD. Vérifiez aussi que le sitemap n'oublie aucune page importante : Google s'appuie sur ces deux fichiers pour comprendre la structure de votre site.
Vous voulez savoir où en est VOTRE site ?
Notre audit gratuit analyse votre référencement en 2 minutes et vous donne les corrections prioritaires.
Audit gratuit personnalisé en 2 minArticle rédigé par Laurent, fondateur de Diagnostic Web · Voir tous ses articles
En résumé
Sitemap.xml et robots.txt sont les deux fichiers que Google adore — quand ils existent et sont propres. Vérifiez que votre CMS les génère, soumettez le sitemap à Search Console, ne bloquez rien d'important dans le robots.txt, mentionnez le sitemap dedans. 30 minutes de configuration, des semaines d'indexation gagnées. C'est le ratio impact / effort le plus élevé du SEO technique.
Articles similaires
Mobile-first : pourquoi votre site doit être pensé pour le smartphone
63% des recherches Google se font sur mobile. Depuis 2019, Google indexe la version mobile en priorité. Comprenez ce que ça change pour votre site et comment vérifier qu'il est conforme.
Tutoriels techniquesRecherche vocale et SEO local : préparer "OK Google, [métier] près de chez moi"
27% des recherches mobiles sont vocales. La requête "plombier près de chez moi" demande une optimisation différente du SEO classique. Voici comment vous y préparer dès aujourd'hui.
Tutoriels techniquesOptimiser ses photos pour le SEO local (Google Business + site)
Une fiche Google avec photos reçoit 42% de demandes d'itinéraire en plus. Format, nom de fichier, géolocalisation, fréquence... Voici la méthode photo qui boost votre SEO local.