Budget de crawl : comment l’optimiser pour le référencement

Vous avez entendu parler des robots d’exploration Web, des araignées et de Googlebot, mais savez-vous que ces robots d’exploration ont des limites à ce qu’ils peuvent et ne peuvent pas explorer sur un site Web ? Continuez à lire pour en savoir plus sur cet important budget au sein du SEO (optimisation pour les moteurs de recherche).

Le budget d’exploration est le nombre de pages que Googlebot (et d’autres robots d’exploration des moteurs de recherche) peuvent explorer en un laps de temps donné. La gestion de votre budget de crawl peut prendre en charge l’indexation globale de votre site.

💡 Se souvenir! Pour que Googlebot explore votre site Web, vous devez vous assurer qu’il est autorisé à explorer votre fichier Robots.txt.

Bien qu’il soit rare que Google explore et indexe chaque page de votre site, nous voulons nous assurer que toutes nos pages importantes sont indexées et capables d’apparaître dans les SERP. Malheureusement, nous ne contrôlons pas à 100 % les pages explorées par Google. Google identifie les pages les plus importantes et les liste par ordre de priorité. Certains des facteurs en jeu sont la structure de liens internes, les plans de site XML et l’autorité du site Web/du site.

Un moyen facile de comprendre le budget de crawl SEO est avec ces deux exemples :

Petite entreprise: Vous possédez une petite entreprise qui vend des plantes et votre site Web a 100 pages et un budget de crawl de 1 000 pages (ce qui signifie que vous pouvez toujours respecter votre budget de crawl si vous créez 900 nouvelles pages !). Vous pouvez optimiser votre budget de crawl pour une efficacité accrue et vous préparer si le nombre total de pages dépasse votre budget actuel.
Commerce électronique: Vous possédez une entreprise internationale de commerce électronique où vous avez 100 000 pages et un budget de crawl de 90 000 pages. Le problème réside dans votre budget de crawl car il y a 10 000 pages qui ne seront pas explorées ou indexées. Bien que certaines de ces pages puissent avoir un balise noindexvous risquez de perdre de la visibilité dans les pages de résultats des moteurs de recherche (SERP), ainsi que des clients qui ne sont pas indexés.

Ne me souviens pas de la différence entre crawling vs indexation vs classement? Ne vous inquiétez pas, nous avons ce qu’il vous faut!

Qu’est-ce que le taux de crawl ?

Google Search Console définit le taux de crawl comme « combien de requêtes par seconde Googlebot effectue sur votre site lorsqu’il l’explore : par exemple, 5 requêtes/seconde. »

Bien que vous ne puissiez pas augmenter le nombre de requêtes par seconde effectuées par Googlebot lors de son exploration, ça peut être limité, si besoin. Vous pouvez également demander à Google de réexplorer une page. Voici quelques raisons pour lesquelles vous voudrez peut-être réexplorer une page :

La page est nouvelle et n’a pas encore été explorée
Le contenu ou les métadonnées de la page ont été mis à jour
La page n’a pas été correctement indexée lors du dernier crawl

Comment puis-je vérifier si ma page a été explorée ?

Afin de vérifier quand votre page a été explorée pour la dernière fois, rendez-vous sur Google Search Console. Après avoir navigué jusqu’à votre propriété, vous insérerez votre URL dans la barre de recherche en haut de la page. Ensuite, vous serez dirigé vers l’inspection d’URL qui vous aidera à comprendre quand votre page a été explorée, quelle était l’URL de référence, tout problème survenu lors de l’indexation, et plus encore !

Dans l’inspection d’URL, Google Search Console vous dira si votre URL est dans l’index de Google. S’il n’est pas indexé, il pourrait y avoir une variété de problèmes qui doivent être examinés. Cela peut être aussi simple que la page n’est pas encore explorée/indexée, ou peut être aussi grave qu’un problème avec le fichier Robots.txt ou une action manuelle. Vous pouvez également voir comment votre page est vue par Googlebot en utilisant le « Tester l’URL en direct » fonctionnalité.

N’oubliez pas ! Bien que vous puissiez demander à Google de réexplorer une page, demander plusieurs fois l’indexation ne donne pas la priorité à votre exploration.

Pour en savoir plus sur votre page et les détails de l’exploration, ouvrez l’onglet Couverture. C’est là que vous identifiez si votre page a été indexée, soumise dans un sitemap, si une exploration ou un index est autorisé dans votre fichier Robots.txt et quel agent utilisateur a exploré la page.

Assurez-vous de vérifier l’URL de référence, car il s’agit de la page qui a conduit Google à explorer votre page. Votre page peut être trouvée via une variété de sources telles que des liens internes/externes ou une demande d’exploration.

Pour voir plus de détails comme le type de robot et l’heure du dernier crawl, concentrez-vous sur la section crawl. Bien qu’il existe deux types de robots d’exploration Googlebot (mobile et ordinateur), à mesure que nous continuons à évoluer vers l’optimisation et la convivialité pour les mobiles, votre site Web sera très probablement exploré exclusivement par un smartphone Googlebot, s’il ne l’est pas déjà.

Une chose importante à noter dans la section d’exploration est de savoir si une page peut être explorée et indexée. Moz a identifié qu’il existe également des cas où une page est explorée, mais pas indexée, ce qui signifie que la page n’a pas (encore) été incluse dans la bibliothèque d’index et n’est donc pas éligible pour être affichée dans les résultats de recherche. .

Si votre page n’est pas autorisée à être explorée ou indexée, souvent affichée par « désactiver l’agent utilisateur », revérifiez votre code source ou connectez-vous avec un développeur Web.

Vous voulez vous assurer que si votre page bloque un robot d’exploration, c’est intentionnel et non un accident dans le code.

Google n’a pas besoin d’indexer certaines pages ou zones de votre site : certaines raisons pour lesquelles vous ne souhaitez peut-être pas que Google indexe vos pages, également appelées balises noindex, sont :

Pages de connexion
Résultats de la recherche interne
pages de remerciement
Pages de soumission de formulaire

Il existe également quelques méthodes que vous pouvez utiliser pour empêcher l’ajout de pages à l’index:

onglet sans index
x-robots
Robots.txt (si la page n’a pas encore été explorée/indexée)
Outil de suppression GSC

Où puis-je trouver mon budget de crawl ?

Il existe quelques outils utiles que vous pouvez utiliser pour en savoir plus sur les statistiques d’exploration de votre site ou pour voir combien de pages de votre site Google explore par jour.

Dans Google Search Console, vous pouvez accéder à votre propriété de domaine > paramètres > statistiques d’exploration et cela vous montrera le nombre de demandes d’exploration, le temps de téléchargement et les temps de réponse moyens des pages. Ce rapport de statistiques de crawl peut être utile lorsque vous travaillez pour optimiser votre budget de crawl, que nous aborderons un peu plus tard.

Nous pouvons également consulter les journaux du serveur pour voir EXACTEMENT ce que Googlebot explore. Découvrez ces outils qui offrent tous des solutions d’analyse des fichiers journaux :

Nous avons donc identifié les bases et indiqué où vérifier les statuts d’exploration – mais vous vous demandez peut-être pourquoi devrais-je m’en soucier et est-ce vraiment important pour le référencement ?

Lorsque nous créons une nouvelle page ou mettons à jour une ancienne, nous voulons que les individus la voient ! Que l’utilisateur soit quelqu’un qui envisage d’acheter un vélo personnalisé ou une personne à la recherche d’un programme d’études auquel s’inscrire, nous voulons que ces pages soient accessibles aux utilisateurs, de préférence sur la première page de leur moteur de recherche.

Si notre budget de crawl ne couvre que 50 % de notre site Web (100 000 pages, 50 000 allouées dans le budget de crawl), 50 % de notre site Web ne sera pas détectable dans les résultats de recherche. Et oui, quelqu’un pourrait être capable de trouver votre URL en la tapant mot pour mot, mais ce n’est pas toujours le cas – et très franchement, ce n’est pas un risque que les référenceurs sont prêts à prendre quand nous pouvons travailler pour optimiser notre budget de crawl !

Maintenant, optimiser votre budget de crawl n’est pas une tâche d’un jour. Vous pourriez être frustré en cours de route, mais nous sommes là pour vous aider !

Pour commencer, examinons ce que nous pouvons faire pour vous aider à améliorer votre budget de crawl :

Vitesse du site

La vitesse du site est importante pour diverses raisons. Nous voulons que les pages se chargent en temps opportun pour les utilisateurs afin qu’ils interagissent avec notre site, mais nous voulons également qu’il soit rapide afin que Googlebot puisse explorer notre contenu le plus rapidement possible.

N’aimes-tu pas ce que tu ressens en attendant qu’une minute passe en faisant une planche… ? Ouais, nous n’aimons pas ce sentiment non plus!

Nous voulons également éviter cette longue attente pour Googlebot, car plus nos pages se chargent rapidement, plus Googlebot peut explorer et indexer nos pages rapidement.

Bien que nous n’augmentions pas le budget de crawl, si nous pouvons charger 10 pages en une minute par rapport au chargement d’une page en une minute, nous verrons des améliorations visuelles.

Liens internes

Les liens internes et externes sont un élément clé de toute stratégie de référencement. Les liens internes, qui sont des liens pointant vers différentes pages du même domaine, sont extrêmement importants à la fois pour l’expérience utilisateur et la structure du site.

Pour commencer, si le blog A comprend un SUIVRE balise, GoogleBot POUVEZ accéder au lien interne et accéder au blog B et l’explorer.

Si le blog A a un PAS DE SUIVI balise activée dans le code source de ce lien, GoogleBot peut voir que le lien existe, mais NE FERA PAS naviguer vers ou explorer le blog B. Ne vous inquiétez pas, nous pouvons en savoir plus sur liens non suivis une autre fois.

Vous vous demandez peut-être pourquoi ai-je besoin de connaître les liens internes pour mon budget de crawl ? Parce que l’activation des liens no-follow ou do-follow est une autre façon d’aider à optimiser le budget de crawl ! Si vous créez un lien interne vers une page qui n’apporte aucune valeur à Google et que vous n’avez pas besoin qu’elle se classe dans les SERP, comme une page de remerciement, pourquoi gaspillerez-vous votre précieux budget qui pourrait être consacré à l’exploration de pages qui aident à conduire ROI ?

Il est également important d’identifier les pages orphelines qui pourraient persister sur votre site. Une page orpheline est une page qui ne contient pas de lien ou qui n’a aucun lien interne pointant vers elle. La seule façon de les explorer est de demander manuellement leur indexation, car Google ne pourra pas les trouver naturellement.

💡 Se souvenir! Si vous êtes en train de créer un nouveau site Web ou de refaire la structure de votre site, assurez-vous d’éviter de créer des pages orphelines. Si vous remarquez trop tard que ces pages flottent sans aucun lien pour les maintenir à flot, créez un lien interne pour aider GoogleBot à les atteindre plus facilement lors de la prochaine exploration de votre site.

Contenu dupliqué

Si vous avez du contenu en double qu’il est impératif de conserver sur votre site, utilisez une balise canonique pour vous assurer que Googlebot n’explore que la page prioritaire.

Conseil canonique ! Supposons que vous ayez une paire de chaussures de tennis en bleu, rouge et jaune. Bien que vous souhaitiez que les utilisateurs puissent trouver les chaussures en bleu, taille 12, ou en jaune, taille 4, vous n’avez besoin que de GoogleBot pour explorer la page principale du produit. En supprimant toutes les différentes variations (taille, couleur, etc.) et en utilisant une balise canonique, vous pouvez réduire les peluches inutiles qui doivent être explorées et indexées.

Centre de recherche Google identifié ce qui peut négativement affecter le budget de crawl :

« Selon notre analyse, le fait d’avoir de nombreuses URL à faible valeur ajoutée peut avoir un impact négatif sur l’exploration et l’indexation d’un site. Nous avons constaté que les URL à faible valeur ajoutée entrent dans ces catégories, par ordre d’importance :

Le gaspillage des ressources du serveur sur des pages comme celles-ci drainera l’activité d’exploration des pages qui ont réellement de la valeur, ce qui peut retarder considérablement la découverte d’un contenu de qualité sur un site.

– Blog de la centrale de recherche Google

Alors que certains des problèmes comme le contenu dupliqué peuvent être résolus avec une redirection 301 ou un audit, certains des facteurs comme les pages piratées nécessitent une plongée plus profonde pour résoudre le problème racine à portée de main. En plus d’optimiser le budget de crawl, vous voulez vous assurer d’adresser et d’ajouter des URL à faible valeur ajoutée identifiées par Google.

Besoin d’aide supplémentaire pour optimiser votre budget de crawl ? Dois savoir comment corriger les erreurs d’exploration? Vous souhaitez identifier d’autres domaines qui pourraient bénéficier d’une optimisation supplémentaire ? Contactez-nous pour apprendre comment le Référencement technique L’équipe de Seer peut vous aider !

What do you think?

Log In

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections