Crawl budget di Google: cos’è e come gestirlo per la SEO

crawl budget di Google
Se possiedi un sito internet molto strutturato, come ad esempio un grande progetto editoriale o un E-Commerce composto da più di 500 pagine, per quanto riguarda l'ottimizzazione e il posizionamento sui motori di ricerca, c'è una domanda che dovresti porgerti: "Come farà Google ad analizzare il mio sito web?". È proprio qui che interviene il crawl budget di Google.

L'idea dietro il crawl budget è semplice: Google mira a limitare la dimensione del suo indice con dei contenuti (quindi pagine HTML) che non hanno alcun interesse specifico. Per questo, spesso limita la ricerca per indicizzazione, vale a dire la copia del contenuto nei suoi data center, passando una parte di essi in un indice "secondario", che rifiuta di indicizzare determinati contenuti.

Il problema con questo limite è che, a volte, Google rifiuta di indicizzare contenuti di grande importanza lato SEO, mentre il suo indice è pieno di pagine che non apportano alcun valore all’utente finale.

Fatte queste importanti premesse, mi presento: sono Giulio Stella, consulente SEO presso gstar seo milano e ringrazio Piergiorgio per avermi offerto la possibilità di scrivere sul suo blog SEO e web marketing.

Quindi è necessario disporre di una strategia per scegliere autonomamente quali pagine conservare nell'indice e quali escludere. Ad esempio, se Google indicizza le 12 versioni dello stesso prodotto (ad esempio, la versione blu, rossa, verde, ecc.), è probabile che alcune pagine categoria importanti per il nostro sito non si prendano la giusta attenzione da parte del motore di ricerca, in quanto preferisce andare a scansionare anche altre pagine.

crawl budget: cosa indicizzare

Indicizzazione di un sito su Google: quali contenuti scegliere?

In che modo Google sceglie quali contenuti indicizzare e quali no? Le regole seguite dal motore su questo argomento non sono sempre chiare, ma possiamo identificare 3 categorie principali di pagine che Google considera inutile e potrebbe tranquillamente non indicizzare.
  1. Pagine con canonical duplicati (di solito una variante dello stesso prodotto o servizio). Per usare l'esempio sopra, se hai diverse versioni dello stesso prodotto su un sito di e-commerce, devi indicare a Google un URL "canonico", vale a dire l'URL in cui si trova la versione "principale" o "predefinita" di un prodotto. Per questo, su ogni pagina corrispondente a una variante del prodotto, va aggiunto un link chiamato canonical
  2. Pagine contenenti contenuti duplicati come ad esempio le varianti secondarie. Questo è ad esempio il caso in cui offri un prodotto o un servizio collegato a una geolocalizzazione specifica (Lezioni di pianoforte a Milano, corso di violino a Bari ecc...). Spesso questi siti provano a posizionarsi per tutte le parole chiave su moltissime città. Una sola parola varia da pagina a pagina e non c’è un vero e proprio valore aggiunto che viene offerto a chi legge. Spesso cambia una sola parola nel h1, per il resto si tratta di contenuti duplicati a manetta. In questo caso, la soluzione è quella di creare contenuti unici senza testi ripetuti e copiati in tutte le pagine
  3. Pagine "vuote". Nella maggior parte dei casi, i proprietari dei siti non sanno che ci possono essere delle pagine vuote o quasi vuote su un sito. Tuttavia, più casi possono portare a questo tipo di risultato. Facciamo un esempio: se usiamo wordpress, è possibile che ogni immagine che carichiamo nel CMS generi la creazione di una pagina (un URL pulito) che comprenda semplicemente l'immagine, il resto è vuoto e presenta il menu e gli articoli di navigazione. Tutto ciò crea un collo di bottiglia non necessario nel crawl budget e non serve a nulla, poiché non è che quell’immagine trarrà benefici dall’avere una pagina dedicata
Se scrivi spesso sul tuo blog, probabilmente ti ritrovi a trattare un unico argomento, con articoli diversi, il che porta allo spreco delle risorse che Google utilizza per scansionare il tuo sito web. A questo punto c’è bisogno di rivedere la strategia dei contenuti per fare in modo che il budget allocato sia ben distribuito tra le pagine del sito, quindi apriamo la nostra piattaforma di Google Analytics andiamo in “Acquisizione” > fonti di traffico > dimensione secondaria > landing page.

Ciò ci consente di visualizzare le pagine del sito, posizionate da quella che genera più traffico grazie a Google, a quella che ne genera meno. Ora mettiamo in ordine le pagine dalla meno visitata alla più visitata, facendo clic su "sessioni" (prima colonna, nella parte grigia). 

Tutte le pagine che hanno poche visite (tra 1 e 10 visite al mese, ad esempio, sono chiaramente pagine che possiamo togliere dall’indice.

 Il modo più sicuro per annullare l'indicizzazione delle pagine è effettuare le seguenti operazioni:

Come risparmiare crawl budget in altri modi

Infine, per ottimizzare il crawl budget che Google ci assegna è importante risolvere problemi un po’ più tecnici che possono fare una grande differenza, come ad esempio:
  • Le pagine 404: se ce ne sono troppe, le pagine 404 possono danneggiare l'indicizzazione di Google e inviare un segnale negativo ai motori di ricerca
  • Se il sito è in HTTP, passarlo in HTTPS
  • Verificare che sia presente una sola versione di ciascuna pagina; ad esempio, una pagina può esistere con www. o senza il www. Se esistono 2 versioni, dobbiamo mantenere quella la cui home page ha il miglior flusso di traffico
  • Pagine generate dinamicamente. Se le tue pagine vengono generate in modo dinamico, è possibile che l'indicizzazione della maggior parte dei tuoi contenuti sia impossibile o casuale

Conclusioni sul crawl budget di Google

Oltre ad aggiornare le informazioni sul sito web, un buon modo per migliorare il budget di scansione di un sito è quello di pubblicare contenuti, lavorare sulla velocità delle pagine, link interni ecc. Ma attenzione, è necessario pubblicare contenuti di qualità. 

Gli articoli che scriviamo devono essere unici e sufficientemente forniti con informazioni pertinenti affinché gli utenti di internet possano attirare l'attenzione del robot di Google (Googlebot).

Per ordinare il contenuto autorizzato per l'indicizzazione, non esitare a utilizzare il file robots.txt. Questo file viene utilizzato per fornire "istruzioni" a Google.