in

Google sur la console de recherche NOINDEX a détecté des erreurs


John Mueller de Google a répondu à une question sur Reddit sur une erreur de tête http « Noindex apparemment fausse dans l'erreur Http en tête X-Robots-Tag signalée dans la console de recherche de Google pour les pages qui n'ont pas ce X-Robots-Tag spécifique ou toute autre directive ou bloc connexe. Mueller a suggéré quelques raisons possibles, et plusieurs Redditors ont fourni des explications et des solutions raisonnables.

NOINDEX détecté

La personne qui a commencé le Discussion Reddit a décrit un scénario qui peut être familier à beaucoup. Google Search Console rapporte qu'il n'a pas pu indexer une page car il n'a pas été bloqué en indexant la page (qui est différente de l'emprise de rampe). La vérification de la page ne révèle aucune présence d'un élément NOINDEX Meta et il n'y a pas de robots.txt bloquant la rampe.

Voici ce que le décrit comme leur situation:

  • « GSC montre » NOINDEX détecté dans X-Robots-Tag HTTP Header « pour une grande partie de mes URL. Cependant:
  • Impossible de trouver NOINDEX dans la source HTML
  • Pas de noindex dans robots.txt
  • Pas de noindex visible dans les en-têtes de réponse lors du test
  • Le test en direct dans GSC affiche la page comme indexable
  • Le site est derrière CloudFlare (nous avons vérifié les règles de page / WAF, etc.) »

Ils ont également signalé qu'ils avaient essayé de l'usurper Googlebot et testé diverses adresses IP et demandant des en-têtes et ne trouvaient toujours aucun indice pour la source du X-Robots-Tag

CloudFlare suspecté

L'un des Redditors a commenté cette discussion pour suggérer le dépannage si le problème est originaire de CloudFlare.

Ils ont offert des instructions complètes étape par étape sur la façon de diagnostiquer si CloudFlare ou quoi que ce soit d'autre empêchait Google d'indexer la page:

«Tout d'abord, comparez le test en direct vs page rampante dans GSC pour vérifier si Google voit une réponse obsolète. Ensuite, inspectez les règles de transformation de CloudFlare, les en-têtes de réponse et les travailleurs pour les modifications. Utilisez Curl avec l'agent utilisateur Googlebot et le contournement de Cache (Cache-Control: No-Cache) pour vérifier les réponses du serveur. Si vous utilisez WordPress, désactivez les plugins SEO pour exclure les en-têtes dynamiques. Aussi, enregistrez les demandes Googlebot sur le serveur et vérifiez si X-Robots-Tag apparaît. Si tout échoue, contournez CloudFlare en pointant DNS directement vers votre serveur et reteste. »

L'OP (affiche originale, celui qui a commencé la discussion) a répondu qu'ils avaient testé toutes ces solutions mais n'ont pas pu tester un cache du site via GSC, uniquement le site en direct (du serveur réel, pas CloudFlare).

Comment tester avec un véritable googlebot

Fait intéressant, l'OP a déclaré qu'ils n'étaient pas en mesure de tester leur site à l'aide de Googlebot, mais il existe en fait un moyen de le faire.

Le testeur de résultats riches de Google utilise l'agent utilisateur Googlebot, qui provient également d'une adresse IP Google. Cet outil est utile pour vérifier ce que Google voit. Si un exploit fait que le site affiche une page camoureuse, le testeur de résultats riches révélera exactement ce que Google indexte.

Un Google Page d'assistance riche en résultats riches Confirme:

« Cet outil accède à la page comme Googlebot (c'est-à-dire non utiliser vos informations d'identification, mais en tant que Google). »

401 Réponse d'erreur?

Ce qui suit n'était probablement pas la solution, mais c'est un morceau intéressant de connaissances techniques de référencement.

Un autre utilisateur a partagé l'expérience d'un serveur répondant avec une réponse d'erreur 401. Une réponse 401 signifie «non autorisée» et cela se produit lorsqu'une demande de ressource manque des informations d'authentification ou les informations d'identification fournies ne sont pas les bonnes. Leur solution pour créer les messages bloqués d'indexation dans la console de recherche Google a été d'ajouter une notation dans les robots.txt pour bloquer la rampe des URL de la page de connexion.

L'erreur John Mueller sur Google sur GSC

John Mueller est tombé dans la discussion pour offrir son aide à diagnostiquer le problème. Il a dit qu'il avait vu ce problème se poser par rapport aux CDN (réseaux de livraison de contenu). Une chose intéressante qu'il a dit a été qu'il a également vu cela se produire avec de très vieilles URL. Il n'a pas développé ce dernier, mais cela semble impliquer une sorte de bogue d'indexation lié aux anciennes URL indexées.

Voici ce qu'il a dit:

«Heureux de jeter un coup d'œil si vous voulez me faire cingler quelques échantillons. Je l'ai vu avec des CDN, je l'ai vu avec des rampes vraiment anciennes (quand le problème était là il y a longtemps et qu'un site a juste beaucoup d'URL anciennes), peut-être qu'il y a quelque chose de nouveau ici… »

Prise à emporter: Index de console de recherche Google NOINDEX détecté

  • Google Search Console (GSC) peut signaler «NOINDEX détecté dans l'Ex-Robots-Tag HTTP Header» même lorsque cet en-tête n'est pas présent.
  • Les CDN, tels que CloudFlare, peuvent interférer avec l'indexation. Des étapes ont été partagées pour vérifier si les règles de transformation de CloudFlare, les en-têtes de réponse ou le cache affectent la façon dont Googlebot voit la page.
  • Les données d'indexation obsolètes du côté de Google peuvent également être un facteur.
  • Le testeur Rich Results de Google peut vérifier ce que Googlebot voit car il utilise l'agent utilisateur et IP de Googlebot, révélant des écarts qui pourraient ne pas être visibles en usurpant un agent utilisateur.
  • 401 Les réponses non autorisées peuvent empêcher l'indexation. Un utilisateur a partagé que son problème concernait des pages de connexion qui devaient être bloquées via Robots.txt.
  • John Mueller a suggéré que les CDN ont suggéré des URL raffinés comme des causes possibles.

What do you think?

0 points
Upvote Downvote

Written by manuboss

Récapitulatif quotidien du forum de recherche: 27 février 2025

Reddit – plongez dans n'importe quoi