Aumentare il Crawl Budget

Un crawl budget ottimizzato migliora la SEO

Autore: Andrea Pacchiarotti
Ultimo aggiornamento: 05 Maggio 2023
Categoria: Web Marketing SEO Crawl budget

Crawl Budget
Aumentare il Crawl Budget

Il crawl budget è un valore che Google assegna a un sito. Più è alto meglio è.
Gary Illyes ha pubblicato sulle pagine ufficiali di Google un articolo in lingua inglese che riguarda il Crawl Budget di Google e, tra le altre cose, ha dichiarato che tale parametro è meno importante per chi amministra un sito web di piccole dimensioni perché Googlebot gestisce in maniera efficace le risorse da assegnare e non ha problemi a fare crawling per la maggior parte dei siti. Il crawl budget è dunque un argomento che dovrebbe interessare per lo più grandi siti web, quelli con decine di migliaia di URL. In tal caso è d'aiuto per il crawling ridurre il numero di risorse embedded necessarie per effettuare il render di una pagina. Allora, vuoi sapere i metodi per aumentare il crawl budget e migliorare la SEO?

Sommario Crawl budget

La nozione di Crawl Budget è scomponibile in:

Googlebot

Google usa dei robot software (bot) per scansionare i siti web in Rete, essi leggono il contenuto di una pagina web e saltano al contenuto successivo servendosi dei collegamenti in essa contenuti.
Il Crawl Budget può essere descritto come la quantità di URL che il bot di Google è in grado e desidera scansionare e anche se non è un fattore SEO diretto, incide sulla visibilità di un sito in SERP. Se Googlebot scansiona spesso un sito significa che lo considera buono e che non riscontra problemi di scansione.

Di norma Googlebot scansiona direttamente un URL quando da Google Search Console viene:

Se non diversamente specificato nel file robots.txt e se non sono presenti errori di scansione (visualizzabili dalla Google Search Console andando su Scansione Errori di scansione), lo spider scansionerà l’intero sito, ma se nelle singole pagine incontrerà dei metatag robots potrebbe:

Per trovare il numero di pagine del sito che Google dovrebbe indicizzare si possono scansionare le pagine con Screaming Frog o Visual SEO e conteggiare gli status code 200. Le pagine noindex e le 3xx, 4xx e 5xx possono essere ignorate dato che non verrebbero indicizzate.
Per trovare il numero di pagine indicizzate da Google (oltre l’operatore site:www.nomesito.it, non proprio preciso) si usa la voce Indice Google Stato dell’indicizzazione di Google Search Console.
Per sapere quanti URL vengono inviati a Google tramite sitemap.xml si usa la già citata voce Scansione Sitemap.

Crawl budget

Googlebot per scansionare un sito investe tempo ed energie e ciò si traduce in un costo monetario, bisogna quindi fare in modo che il crawl budget assegnato al proprio sito web richieda poche risorse al motore di ricerca. I crawler dei search engine consumano infatti risorse tangibili come ad esempio corrente e server. Per tale motivo un sito nuovo ha normalmente un basso crawl budget, cioè un numero relativamente ristretto di pagine scansionabili.
Se il crawler investe tempo su file insignificanti consumerà il numero di pagine da scansionare, con il rischio di tralasciare quelle importanti da posizionare; ciò significa che se la struttura di un sito consuma crawl budget su contenuti non fondamentali è una cosa negativa.
È possibile capire le statistiche di scansione dalla Search Console di Google, infatti selezionando la propria proprietà e andando su Scansione Statistiche di scansione si troveranno 3 grafici per ognuno dei quali si avrà a fianco il valore più alto, medio e basso degli ultimi 90 giorni e per i quali sarà possibile analizzare:

Crawl Budget Statistiche di scansione
Crawl Budget: statistiche di scansione da Google Search Console

Il rapporto di scansione o Crawl ratio è dato da (media pagine scansionate al giorno pagine totali del sito web) moltiplicato 100 e indica quanto Google è interessato a fare la scansione di un sito. Sopra l’80% è già ottimo.

Il rapporto di indicizzazione o Index ratio è dato da (pagine indicizzate pagine totali del sito web) moltiplicato 100 e indica lo stato di indicizzazione cioè le pagine del sito indicizzate da Google. Sopra l’80% è già buono, sopra il 100% può significare varie cose: indicizzazione di file presenti nel server ma non linkati dal sito, canonical errati, ecc.

Il rapporto di indicizzazione della sitemap.xml o Sitemap ratio è dato da (pagine inserite in sitemap.xml pagine totali del sito web) moltiplicato 100. Sotto il 100% significa una sitemap incompleta, sopra vuol dire che la scansione è errata o che la sitemap include URL che non dovrebbe avere (ad esempio file con attributo noindex).

Migliorare il crawl budget

Conclusioni

La scansione fatta da Googlebot è uno degli argomenti più sottovalutati della Search Console anche se dà preziose informazioni sulle attività che Google attua su un sito web e consente di capire che reputazione ha il sito per Google.
Specialmente nei siti con più di 10.000 URL è necessario porre attenzione al crawl budget adottando tutte le migliorie elencate in modo tale da far scansionare il proprio sito ogni giorno, o più volte al giorno, segnale certo che le pagine piacciono a Google. Fare in modo che non ci siano dispersioni del budget (che è limitato) darà certamente una mano determinante sotto l’aspetto SEO.

Se i metodi per aumentare il crawl budget e migliorare la SEO ti è piaciuto, condividi l'articolo!


Per saperne di più sul Web Marketing potrebbero interessarti questi libri:

Se vuoi approfondire alcuni dei temi trattati, visita la pagina con le mie pubblicazioni cartacee e online

Segui l'hashtag #AndreaPacchiarotti