This post is also available in: English Español

Ritardo scansione txt robot

Che cos'è un file robots.txt?

Robots Txt Crawl Delay

Un
file
robots.txt è uno dei modi più comuni per informare un motore di ricerca su dove può e non può andare su un sito web. È semplicemente un file di testo che contiene le istruzioni che gli spider dei motori di ricerca, noti anche come robot, leggono per aderire a una sintassi rigorosa. Questo file può essere utilizzato per informare i motori di ricerca sulle linee guida di coinvolgimento per il tuo sito web. I motori di ricerca esaminano regolarmente il file robots.txt per istruzioni su come eseguire la scansione del sito. Direttive sono i termini utilizzati per descrivere queste istruzioni. Il motore di ricerca eseguirà la scansione dell'intero sito Web se il file robots.txt è mancante.

Robots.txt è importante per la SEO del sito web poiché istruisce i motori di ricerca su come scansionare al meglio il sito. Puoi utilizzare questo file per evitare la duplicazione di materiale, impedire ai motori di ricerca di accedere a determinate aree del tuo sito e indirizzarli a esplorare il tuo sito in modo più efficace. La direttiva Crawl-Delay nel file Robots.txt e la sua applicazione sono discusse in questo post.

Un file robots.txt informa i motori di ricerca sulle regole di ingaggio per il tuo sito web. L'invio dei segnali appropriati ai motori di ricerca è una componente importante della SEO e il file robots.txt è uno dei metodi per esprimere le tue preferenze di scansione ai motori di ricerca.

Lo standard robots.txt ha subito una serie di modifiche nel 2019: Google ha suggerito una modifica del protocollo di esclusione dei robot e ha reso open source il parser robots.txt.

TL;DR

Il traduttore
robots.txt di Google è straordinariamente indulgente e adattabile.

In caso di conflitto tra le direttive, Google presume che le porzioni debbano essere limitate anziché illimitate.

I motori di ricerca esaminano regolarmente il file robots.txt di un sito Web per determinare se contiene istruzioni per la scansione del sito. Questi sono indicati come indicazioni.

I motori di ricerca esploreranno l'intero sito web se non c'è il file robots.txt o se non ci sono direttive appropriate.

Nonostante il fatto che tutti i principali motori di ricerca obbediscano al file robots.txt, alcuni motori di ricerca potrebbero decidere di ignorarlo (parti di esso). Sebbene le direttive robots.txt inviino un segnale potente ai motori di ricerca, è fondamentale ricordare che il file robots.txt è un elenco di direttive facoltative per i motori di ricerca piuttosto che un requisito.

Perché dovresti preoccuparti di robots.txt?
Dal punto di vista SEO, il file robots.txt è fondamentale. Indica ai motori di ricerca come eseguire la scansione del tuo sito Web in modo più efficace.

Puoi utilizzare il file robots.txt per impedire ai motori di ricerca di accedere a particolari parti del tuo sito web, evitare la duplicazione di materiale e fornire ai motori di ricerca consigli utili su come eseguire la scansione del tuo sito in modo più efficace.

Tuttavia, fai attenzione quando modifichi il tuo file robots.txt: ha la capacità di rendere grandi porzioni del tuo sito web non disponibili per i motori di ricerca.

Robots.txt è spesso abusato per ridurre il materiale duplicato, con conseguente morte del collegamento interno, quindi utilizzalo con cautela. Il mio consiglio è di usarlo solo per file o siti che i motori di ricerca non dovrebbero mai visualizzare o che consentire l'accesso può avere un impatto sostanziale sulla scansione. Le aree di accesso che creano diversi URL, aree di test e aree con navigazione a più sfaccettature sono tutte istanze comuni. Inoltre, tieni d'occhio il tuo file robots.txt per eventuali problemi o modifiche.

La stragrande maggioranza dei problemi che vedo con i file robots.txt rientra in una delle tre categorie:

L'uso di caratteri jolly in modo errato. È abbastanza tipico trovare aree del sito che avrebbero dovuto essere chiuse vengono bloccate. A volte le direttive possono contraddirsi tra loro se non stai attento.

Qualcuno, come uno sviluppatore, ha effettuato un aggiornamento non intenzionale al file robots.txt (in genere quando si rilascia un nuovo codice) senza che tu ne fossi consapevole.

Inclusione di istruzioni in un file robots.txt che non vi appartengono. Robots.txt è uno standard web che ha diverse limitazioni. Ho visto molti sviluppatori creare direttive che non funzionano (almeno per la maggior parte dei crawler). A volte può essere innocuo, ma non sempre.

Come appare un file robots.txt?
Un semplice file robots.txt per un sito Web WordPress potrebbe assomigliare a questo:

User-agent:
* Disallow: /wp-admin/
Sulla base dell'esempio sopra, esaminiamo l'anatomia di un file robots.txt:

L'agente utente specifica a quali motori di ricerca sono destinate le direttive che seguono.

Il simbolo * indica che le istruzioni sono destinate all'uso da parte di tutti i motori di ricerca.

Disallow: questa è una direttiva che dice allo user-agent quale contenuto non può vedere.
/wp-admin/ è il percorso che l'agente utente non può vedere.

In poche parole, il file robots.txt indica a tutti i motori di ricerca di evitare la directory /wp-admin/.

Robots Txt Crawl Delay
Robots Txt Crawl Delay

Ritardo di scansione del testo dei robot: che cos'è?

Robots Txt Crawl Delay

Crawl-delay è una direttiva robots.txt non autorizzata che può essere utilizzata per evitare che i server vengano sovraccaricati di query. I motori di ricerca come Bing, Yahoo e Yandex possono diventare affamati di scansione a volte e possono essere rallentati utilizzando questa direttiva. Sebbene vari motori di ricerca comprendano il comando in modi diversi, il risultato finale è spesso lo stesso.

La velocità di scansione è definita come la quantità di tempo impiegata da un bot per effettuare due query su un sito web. Si riferisce alla velocità con cui il bot può eseguire la scansione della tua pagina. Il parametro di ritardo della scansione indica al bot di attendere un determinato periodo di tempo tra le query.

Il Crawl-Delay è un buon approccio per impedire ai bot di utilizzare molte risorse di hosting.
Tuttavia, durante l'utilizzo di questa direttiva nel file robots.txt, si consiglia cautela.
I motori di ricerca possono accedere a 8640 pagine ogni giorno solo se impongono un ritardo di 10 secondi.
Questa può sembrare una quantità significativa per un sito piccolo, ma non lo è per quelli più grandi.
Questa strategia è un'ottima soluzione per risparmiare larghezza di banda se non ricevi traffico da tali motori di ricerca.

Robots Txt Crawl Delay
Robots Txt Crawl Delay

In che modo Google interpreta il ritardo della scansione?

Robots Txt Crawl Delay

Il parametro di ritardo della scansione viene ignorato da Google. Di conseguenza, non c'è bisogno di preoccuparsi dell'impatto di un tale comando sulle tue classifiche di Google. Puoi usarlo in modo sicuro per far fronte ad altri robot di ricerca aggressivi. Anche se è improbabile che la scansione di Googlebot causi problemi, puoi comunque utilizzare Google Search Console per ridurre il ritmo di scansione di Google. Ecco come impostare la velocità di scansione per il bot di Google in pochi semplici passaggi.

Vai a
Google Search Console (quella precedente) e accedi.

Scegli il sito web per il quale desideri impostare il ritardo di scansione.

Scegli “Impostazioni sito” dall'icona a forma di ingranaggio situata nell'angolo in alto a destra.

Cerca l'opzione “Scansione ritmo”, che ha un dispositivo di scorrimento per personalizzare la velocità di scansione. Per impostazione predefinita, la tariffa è impostata su un valore suggerito.

Ritardo scansione: 10 per Bing e Yahoo

Bing e Yahoo accettano entrambi la direttiva di ritardo della scansione;
nel caso di crawl-delay: 10, divideranno un giorno in finestre di 10 secondi, scansionando al massimo una pagina per finestra.

Yandex e il ritardo di scansione

Yandex riconosce la direttiva crawl-delay e, se si utilizza crawl-delay: 10, aspetteranno almeno 10 secondi prima di richiedere un altro URL.

Nonostante Yandex supporti questa direttiva, invitano a utilizzare
Yandex Webmaster r , la loro versione di Google Search Console in cui è possibile personalizzare il ritmo di scansione .

Baidu e il ritardo di scansione

Poiché Baidu non supporta la direttiva sul ritardo della scansione, la ignoreranno, proprio come Google.
Baidu Webmaster Tools ti consente di impostare la frequenza di scansione preferita.

Robots Txt Crawl Delay
Robots Txt Crawl Delay

Perché utilizziamo il ritardo di scansione?

Se il tuo sito web ha un numero significativo di pagine e molte di esse sono collegate dall'indice, è concepibile che il bot che esegue la scansione del sito effettui troppe query in un breve lasso di tempo.
A causa dell'elevato volume di traffico, è probabile che le risorse di hosting si esauriscano su base oraria.
Se il tuo sito web presenta questo problema, una soluzione consiste nel creare un ritardo di scansione di 1-2 secondi in modo che il bot di ricerca cerchi nel sito a una velocità moderata, evitando picchi di traffico.
Le direttive di ritardo della scansione sono supportate da motori di ricerca come Yahoo, Yandex e Bing e possono essere utilizzate per conservarle per un po' di tempo.
L'impostazione di un ritardo di scansione di 10 secondi indica che dopo aver eseguito la scansione del sito Web una volta, i motori di ricerca attenderanno dieci secondi prima di accedervi nuovamente.

Ogni volta che un bot di ricerca esegue la scansione del sito, consuma una quantità significativa di larghezza di banda e altre risorse del server. I crawler possono esaurire rapidamente le risorse dei siti Web con un numero elevato di pagine e contenuti, come i siti di e-commerce. Per salvaguardare le risorse dei visitatori, usa il file robots.txt per impedire ai bot di accedere a immagini e script.

Regola di ritardo della scansione ignorata da Googlebot
I motori di ricerca come Bing, Yahoo e Baidu hanno aggiunto la direttiva Crawl-delay per i file robots.txt e continuano a reagire. L'obiettivo era che i webmaster fossero in grado di designare quanto tempo un crawler dei motori di ricerca dovrebbe attendere tra le singole query al fine di ridurre il carico del server. Nonostante questo sia un buon concetto, Google non supporta la regola del ritardo della scansione poiché i suoi server sono dinamici e mantenere un intervallo di tempo tra le richieste non ha senso per loro. Poiché la maggior parte dei server può gestire così tanti dati al secondo, il valore del tempo tra le richieste indicato in secondi non è più utile.

Invece di seguire il criterio del ritardo della scansione, Google modifica la scansione in base alla risposta del server.
Se viene rilevato un errore o un ritardo del server, la scansione viene rallentata.
I webmaster possono indicare quali parti dei loro siti web non desiderano indicizzare nel file robots.txt.

Il file robots.txt è uno strumento utile per controllare come i crawler raggiungono il tuo sito web.
L'esperienza utente per i visitatori e la SEO del sito Web possono trarre vantaggio dalla creazione corretta di questo file.
I bot saranno in grado di organizzare e visualizzare le cose nelle SERP nel modo in cui desideri che vengano visualizzate se permetti loro di passare il tempo a scansionare gli elementi più rilevanti.
Crawl-delay è una pratica direttiva per controllare i bot dei motori di ricerca aggressivi e salvare le risorse del server per il tuo sito e gli utenti.