L'idea dietro il crawl budget è semplice: Google mira a limitare la dimensione del suo indice con dei contenuti (quindi pagine HTML) che non hanno alcun interesse specifico. Per questo, spesso limita la ricerca per indicizzazione, vale a dire la copia del contenuto nei suoi data center, passando una parte di essi in un indice "secondario", che rifiuta di indicizzare determinati contenuti.
Il problema con questo limite è che, a volte, Google rifiuta di indicizzare contenuti di grande importanza lato SEO, mentre il suo indice è pieno di pagine che non apportano alcun valore all’utente finale.
Fatte queste importanti premesse, mi presento: sono Giulio Stella, consulente SEO presso gstar seo milano e ringrazio Piergiorgio per avermi offerto la possibilità di scrivere sul suo blog SEO e web marketing.
Indicizzazione di un sito su Google: quali contenuti scegliere?
- Pagine con canonical duplicati (di solito una variante dello stesso prodotto o servizio). Per usare l'esempio sopra, se hai diverse versioni dello stesso prodotto su un sito di e-commerce, devi indicare a Google un URL "canonico", vale a dire l'URL in cui si trova la versione "principale" o "predefinita" di un prodotto. Per questo, su ogni pagina corrispondente a una variante del prodotto, va aggiunto un link chiamato canonical
- Pagine contenenti contenuti duplicati come ad esempio le varianti secondarie. Questo è ad esempio il caso in cui offri un prodotto o un servizio collegato a una geolocalizzazione specifica (Lezioni di pianoforte a Milano, corso di violino a Bari ecc...). Spesso questi siti provano a posizionarsi per tutte le parole chiave su moltissime città. Una sola parola varia da pagina a pagina e non c’è un vero e proprio valore aggiunto che viene offerto a chi legge. Spesso cambia una sola parola nel h1, per il resto si tratta di contenuti duplicati a manetta. In questo caso, la soluzione è quella di creare contenuti unici senza testi ripetuti e copiati in tutte le pagine
- Pagine "vuote". Nella maggior parte dei casi, i proprietari dei siti non sanno che ci possono essere delle pagine vuote o quasi vuote su un sito. Tuttavia, più casi possono portare a questo tipo di risultato. Facciamo un esempio: se usiamo wordpress, è possibile che ogni immagine che carichiamo nel CMS generi la creazione di una pagina (un URL pulito) che comprenda semplicemente l'immagine, il resto è vuoto e presenta il menu e gli articoli di navigazione. Tutto ciò crea un collo di bottiglia non necessario nel crawl budget e non serve a nulla, poiché non è che quell’immagine trarrà benefici dall’avere una pagina dedicata
- Aggiungi un tag noindex alla pagina
- Nella console di ricerca, deindicizzare temporaneamente la pagina (sì, devi farlo perché a volte un noindex non è sufficiente, seguendo il seguente metodo): https://support.google.com/webmasters/answer/1663419?hl=it
Come risparmiare crawl budget in altri modi
- Le pagine 404: se ce ne sono troppe, le pagine 404 possono danneggiare l'indicizzazione di Google e inviare un segnale negativo ai motori di ricerca
- Se il sito è in HTTP, passarlo in HTTPS
- Verificare che sia presente una sola versione di ciascuna pagina; ad esempio, una pagina può esistere con www. o senza il www. Se esistono 2 versioni, dobbiamo mantenere quella la cui home page ha il miglior flusso di traffico
- Pagine generate dinamicamente. Se le tue pagine vengono generate in modo dinamico, è possibile che l'indicizzazione della maggior parte dei tuoi contenuti sia impossibile o casuale