Le budget d’exploration correspond à la vitesse et au nombre de pages qu’un moteur de recherche souhaite explorer sur votre site. Il est affecté par la quantité de ressources qu’un robot d’exploration souhaite utiliser sur votre site et la quantité d’exploration prise en charge par votre serveur.
Plus d’exploration ne signifie pas que vous serez mieux classé, mais si vos pages ne sont pas explorées et indexées, elles ne seront pas classées du tout.
La plupart des sites n’ont pas à se soucier du budget de crawl, mais il y a peu de cas où vous voudrez peut-être jeter un coup d’œil. Examinons certains de ces cas.
Vous n’avez généralement pas à vous soucier du budget de crawl sur les pages populaires. Ce sont généralement des pages qui sont plus récentes, qui ne sont pas bien liées ou qui ne changent pas beaucoup et qui ne sont pas explorées souvent.
Le budget d’exploration peut être une préoccupation pour les nouveaux sites, en particulier ceux qui contiennent beaucoup de pages. Votre serveur peut prendre en charge davantage d’exploration, mais comme votre site est nouveau et n’est probablement pas encore très populaire, un moteur de recherche ne voudra peut-être pas beaucoup explorer votre site. Il s’agit principalement d’une déconnexion dans les attentes. Vous souhaitez que vos pages soient explorées et indexées, mais Google ne sait pas si cela vaut la peine d’indexer vos pages et peut ne pas vouloir explorer autant de pages que vous le souhaitez.
Le budget d’exploration peut également être une préoccupation pour les sites plus importants avec des millions de pages ou des sites fréquemment mis à jour. En général, si de nombreuses pages ne sont pas explorées ou mises à jour aussi souvent que vous le souhaitez, vous pouvez envisager d’accélérer l’exploration. Nous parlerons de la manière de procéder plus tard dans l’article.
Si vous voulez voir un aperçu de l’activité d’exploration de Google et des problèmes qu’ils ont identifiés, le meilleur endroit pour regarder est le Rapport sur les statistiques d’exploration dans la console de recherche Google.
Il existe divers rapports ici pour vous aider à identifier les changements de comportement d’exploration, les problèmes d’exploration et vous donner plus d’informations sur la façon dont Google explore votre site.
Vous voulez certainement examiner n’importe quel statuts d’exploration signalés comme ceux montrés ici :
Il existe également des horodatages indiquant quand les pages ont été explorées pour la dernière fois.
Si vous voulez voir les hits de tous les robots et utilisateurs, vous aurez besoin d’accéder à vos fichiers journaux. Selon l’hébergement et la configuration, vous pouvez avoir accès à des outils tels que Awstats et Webalizer, comme on le voit ici sur un hôte partagé avec cPanel. Ces outils affichent certaines données agrégées de vos fichiers journaux.
Pour les configurations plus complexes, vous devrez accéder et stocker des données à partir des fichiers journaux bruts, éventuellement de plusieurs sources. Vous pouvez également avoir besoin d’outils spécialisés pour des projets plus importants tels qu’un WAPITI (elasticsearch, logstash, kibana) qui permet le stockage, le traitement et la visualisation des fichiers journaux. Il existe également des outils d’analyse de logs tels que Splunk.
Toutes les URL et requêtes sont décomptées de votre budget de crawl. Cela inclut des URL alternatives telles que CHA ou pages m-dot, hreflang, CSS, et JavaScript, y compris XHR demandes.
Ces URL peuvent être trouvées en explorant et en analysant des pages, ou à partir de diverses autres sources, notamment des plans de site, RSS flux, en soumettant des URL pour l’indexation dans Google Search Console ou en utilisant le indexage API.
Il y a aussi plusieurs Googlebots qui partagent le budget de crawl. Vous pouvez trouver une liste des différents robots Google explorant votre site Web dans le rapport Crawl Stats dans SGC.
Chaque site Web disposera d’un budget d’exploration différent, composé de quelques entrées différentes.
Demande d’exploration
La demande d’exploration correspond simplement à la quantité que Google souhaite explorer sur votre site Web. Les pages les plus populaires et les pages qui subissent des changements importants seront davantage explorées.
Les pages populaires, ou celles avec plus de liens vers elles, auront généralement la priorité sur les autres pages. N’oubliez pas que Google doit donner la priorité à vos pages pour l’exploration d’une manière ou d’une autre, et les liens sont un moyen simple de déterminer quelles pages de votre site sont les plus populaires. Il ne s’agit pas seulement de votre site, mais de toutes les pages de tous les sites Internet que Google doit déterminer comment prioriser.
Vous pouvez utiliser le Meilleur par les liens dans Site Explorer pour indiquer les pages susceptibles d’être explorées plus souvent. Il vous indique également quand Ahrefs a exploré vos pages pour la dernière fois.
Il y a aussi un concept d’obsolescence. Si Google constate qu’une page ne change pas, il l’explorera moins fréquemment. Par exemple, s’ils explorent une page et ne voient aucun changement après une journée, ils peuvent attendre trois jours avant de recommencer, dix jours la prochaine fois, 30 jours, 100 jours, etc. mais cela deviendra plus rare avec le temps. Cependant, si Google constate des changements importants sur le site dans son ensemble ou un déplacement de site, ils augmenteront généralement la vitesse d’exploration, au moins temporairement.
Limite du taux d’exploration
La limite du taux d’exploration est la quantité d’exploration que votre site Web peut prendre en charge. Les sites Web ont une certaine quantité d’exploration qu’ils peuvent prendre avant d’avoir des problèmes avec la stabilité du serveur comme des ralentissements ou des erreurs. La plupart des robots d’exploration arrêteront l’exploration s’ils commencent à voir ces problèmes afin qu’ils ne nuisent pas au site.
Google ajustera en fonction de la santé du crawl du site. Si le site fonctionne correctement avec une exploration plus poussée, la limite augmentera. Si le site rencontre des problèmes, Google ralentira la vitesse d’exploration.
Vous pouvez faire plusieurs choses pour vous assurer que votre site peut prendre en charge l’exploration supplémentaire et augmenter la demande d’exploration de votre site. Examinons certaines de ces options.
Accélérez votre serveur / augmentez les ressources
La façon dont Google explore les pages consiste essentiellement à télécharger des ressources, puis à les traiter de leur côté. La vitesse de votre page, telle qu’un utilisateur le perçoit, n’est pas tout à fait la même. Ce qui aura un impact sur le budget d’exploration, c’est la vitesse à laquelle Google peut se connecter et télécharger des ressources, ce qui a davantage à voir avec le serveur et les ressources.
Plus de liens, externes & interne
N’oubliez pas que la demande de crawl est généralement basée sur la popularité ou les liens. Vous pouvez augmenter votre budget en augmentant le nombre de liens externes et/ou de liens internes. Les liens internes sont plus faciles puisque vous contrôlez le site. Vous pouvez trouver des suggestions de liens internes dans le Opportunités de lien rapport dans Site Audit, qui comprend également un didacticiel expliquant son fonctionnement.
Correction des liens cassés et redirigés
Garder actifs les liens vers des pages brisées ou redirigées sur votre site aura un faible impact sur le budget de crawl. En règle générale, les pages liées ici auront une priorité assez faible car elles n’ont probablement pas changé depuis un certain temps, mais le nettoyage des problèmes est bon pour la maintenance du site Web en général et aidera un peu votre budget d’exploration.
Vous pouvez trouver facilement des liens cassés (4xx) et redirigés (3xx) sur votre site dans le Pages internes rapport dans Site Audit.
Pour les liens rompus ou redirigés dans le plan du site, vérifiez le Tous les problèmes rapport pour « 3XX rediriger dans le plan du site » et « 4XX page dans le plan du site ».
Utiliser OBTENIR à la place de PUBLIER où vous pouvez
Celui-ci est un peu plus technique dans la mesure où il implique HTTP Méthodes de demande. Ne pas utiliser PUBLIER demandes où OBTENIR demande du travail. C’est fondamentalement OBTENIR (tirer) vs PUBLIER (pousser). PUBLIER les requêtes ne sont pas mises en cache, elles ont donc un impact sur le budget d’exploration, mais OBTENIR les requêtes peuvent être mises en cache.
Utiliser l’indexation API
Si vous avez besoin que les pages soient explorées plus rapidement, vérifiez si vous êtes éligible pour Google Indexage API. Actuellement, cela n’est disponible que pour quelques cas d’utilisation comme les offres d’emploi ou les vidéos en direct.
Bing dispose également d’un Indexage API qui est accessible à tous.
Ce qui ne fonctionnera pas
Il y a quelques choses que les gens essaient parfois qui ne vous aideront pas vraiment avec votre budget de crawl.
- Petits changements sur le site. Apporter de petits changements aux pages, comme mettre à jour les dates, les espaces ou la ponctuation dans l’espoir que les pages soient explorées plus souvent. Google est assez bon pour déterminer si les changements sont significatifs ou non, donc ces petits changements ne sont pas susceptibles d’avoir un impact sur l’exploration.
- Directive de délai d’exploration dans robots.txt. Cette directive ralentira de nombreux bots. Cependant, Googlebot ne l’utilise pas, il n’aura donc pas d’impact. Nous respectons cela chez Ahrefs, donc si jamais vous avez besoin de ralentir notre exploration, vous pouvez ajouter un délai d’exploration dans votre fichier robots.txt.
- Suppression de scripts tiers. Les scripts tiers ne sont pas pris en compte dans votre budget d’exploration, donc les supprimer n’aidera pas.
- Pas de suivi. D’accord, celui-ci est incertain. Auparavant, les liens nofollow n’utilisaient pas le budget d’exploration. Cependant, le nofollow est désormais traité comme un indice afin que Google puisse choisir d’explorer ces liens.
Il existe quelques bonnes façons de ralentir l’exploration de Google. Il existe quelques autres ajustements que vous pouvez techniquement faire, comme ralentir votre site Web, mais ce ne sont pas des méthodes que je recommanderais.
Réglage lent, mais garanti
Le contrôle principal que Google nous donne pour ramper plus lentement est un limiteur de débit dans la console de recherche Google. Vous pouvez ralentir la vitesse d’exploration avec l’outil, mais cela peut prendre jusqu’à deux jours pour prendre effet.
Ajustement rapide, mais avec des risques
Si vous avez besoin d’une solution plus immédiate, vous pouvez profiter des ajustements de taux d’exploration de Google liés à la santé de votre site. Si vous fournissez à Googlebot les codes d’état « 503 Service non disponible » ou « 429 Too Many Requests » sur les pages, l’exploration commencera plus lentement ou pourrait cesser temporairement d’explorer. Vous ne voulez pas faire cela plus de quelques jours, sinon ils peuvent commencer à supprimer des pages de l’index.
Dernières pensées
Encore une fois, je tiens à rappeler que le budget d’exploration n’est pas un problème pour la plupart des gens. Si vous avez des inquiétudes, j’espère que ce guide vous a été utile.
Je ne l’examine généralement que lorsqu’il y a des problèmes avec les pages qui ne sont pas explorées et indexées, je dois expliquer pourquoi quelqu’un ne devrait pas s’en inquiéter, ou je vois quelque chose qui me préoccupe dans le rapport des statistiques d’exploration dans Google Search Console .
Avoir des questions? Faites-moi savoir sur Twitter.