This post is also available in:
English
Español
Indice dei contenuti
Generatore gratuito di Robots.txt per la migliore scansione di google e bing
Informazioni su Robots.txt Generator
Un file robots.txt è uno degli approcci più frequenti per informare un motore di ricerca dove può e non può andare su un sito web. È davvero un file di contenuto testuale che trasporta le linee guida che gli spider dei motori di ricerca, anche conosciuti come robot, studiano per aderire a una sintassi rigorosa. Questo file può essere utilizzato anche per informare i motori di ricerca sui suggerimenti di coinvolgimento per il tuo sito web. I motori di ricerca osservano il file robots.txt su una base normale per le linee guida su come eseguire la scansione del sito. Direttive sono le frasi usate per descrivere queste istruzioni. Il motore di ricerca eseguirà la scansione dell'intero sito Internet se il file robots.txt è mancante. Robots.txt è necessario per il posizionamento del sito Web in quanto istruisce i motori di ricerca su come eseguire la scansione di prima classe del sito. La direttiva Crawl-Delay nei Robot.txt e il suo software sono menzionati in questo post.
Se utilizzi una società di hosting Internet come Wix o Blogger, potresti anche non voler (o essere in grado di) sostituire manualmente il tuo file robots.txt. Invece, la tua azienda potrebbe anche creare una pagina web delle impostazioni di ricerca o qualche altra capacità per informare i motori di ricerca se o meno o meno eseguire la scansione del tuo sito web.
Se vuoi nascondere o mostrare una delle tue pagine dai motori di ricerca, sembra che ci siano indicazioni sul tuo provider di web hosting relative all'alterazione della visibilità della tua pagina web nei motori di ricerca, come “wix camuffare la pagina web dai motori di ricerca”.

Quello che segue è il significato del file robots.txt:
Crawl-delay è una direttiva robots.txt non autorizzata che può essere utilizzata anche per proteggere i server dal sovraccarico di query. I motori di ricerca come Bing, Yahoo e Yandex possono anche rivelarsi affamati di scansione a volte e possono essere rallentati utilizzando questa direttiva. Sebbene molti motori di ricerca riconoscano il comando in modi eccezionali, il risultato finale di cessazione è generalmente lo stesso.
La velocità di scansione è descritta come la quantità di tempo impiegata da un bot per effettuare due query su un sito web. Si riferisce alla velocità con cui il bot può eseguire la scansione della tua pagina. L'alternativa del ritardo di scansione indica al bot di attendere una quantità di tempo positiva tra le query. Crawl-delay è una tecnica eccellente per preservare i bot dall'uso di molte risorse di web hosting. Tuttavia, durante l'utilizzo di questa direttiva nel file robots.txt, si consiglia un avviso. I motori di ricerca sono autorizzati esclusivamente ad ottenere il diritto di accesso a 8640 pagine ogni giorno se impongono un'estensione di 10 secondi. Questo potrebbe anche rivelarsi una grande quantità per un sito piccolo, ma non è sempre per quelli grandi. Questo metodo è una risposta intelligente per preservare la larghezza di banda se non si ottengono visitatori da tali motori di ricerca.
Quello che segue è il mezzo del file robots.txt:
Se il tuo sito web ha una vasta gamma di pagine e molte di esse sono collegate dall'indice, è possibile che il bot che esegue la scansione del sito effettui troppe query in un breve lasso di tempo. A causa dell'eccessiva quantità di traffico, le risorse di hosting Internet potrebbero esaurirsi su base oraria. Se il tuo sito Internet presenta questo problema, una risposta è impostare un ritardo di scansione di 1-2 secondi in modo che il bot di ricerca esegua la scansione del sito Web online a una velocità ragionevole, evitando picchi di visitatori. Le direttive di ritardo di scansione sono supportate tramite motori di ricerca come Yahoo, Yandex e Bing e possono anche essere utilizzate per conservarle per un po' di tempo.
L'impostazione di un ritardo di scansione di 10 secondi implica che dopo aver scansionato il sito Internet una volta, i motori di ricerca attenderanno dieci secondi prima di accedervi nuovamente. Ogni volta che un bot di ricerca esegue la scansione del sito, consuma una grande quantità di larghezza di banda e diverse risorse del server. I crawler possono inoltre bruciare in breve tempo le fonti dei siti Web con un'ampia varietà di pagine e contenuti, come i siti di e-commerce. Per mantenere le risorse dei visitatori, usa il file robots.txt per impedire ai bot di accedere a immagini e script.
Qualsiasi URL che inizia con http://example.com/nogooglebot/ non è ora accreditato per essere sottoposto a scansione tramite l'agente personale di Googlebot.
Tutti i venditori di persone diverse hanno accesso completo al sito. Questo potrebbe essere stato omesso e la conseguenza sarebbe stata la stessa; i rivenditori di persone sono accreditati per eseguire la scansione dell'intero sito Web online per impostazione predefinita.
http://www.example.com/sitemap.xml è l'area del file della mappa del sito.
Iniziare con Google Crawl Delay
L'alternativa al ritardo della scansione viene esclusa con l'aiuto di Google. Di conseguenza, non c'è bisogno di preoccuparsi dell'influenza di un tale comando sulle tue classifiche di Google. Puoi anche usarlo in modo sicuro per far fronte a diversi robot di ricerca aggressivi. Anche se la scansione di Googlebot non causerà problemi, puoi comunque utilizzare Google Search Console per limitare il tempo di scansione per Google. Ecco come impostare la velocità di scansione per il bot di Google in pochi semplici passaggi.
Vai su Google Search Console e accedi.
Scegli il sito Internet per il quale scegli di impostare il ritardo di scansione.
Scegli “Impostazioni sito” dall'icona degli strumenti posizionata nell'angolo corretto in alto.
Cerca l'opzione “Scansione ritmo”, che ha un dispositivo di scorrimento per scegliere la velocità di scansione scelta. Per impostazione predefinita, la commissione è impostata su un valore consigliato.
Googlebot ignora la regola del ritardo della scansione
I motori di ricerca come Bing, Yahoo e Baidu hanno introdotto la direttiva Crawl-delay per i file robots.txt e tuttavia reagiscono ad essa. L'obiettivo una volta era che i proprietari dei siti fossero in grado di decidere quanto tempo un crawler del motore di ricerca deve attendere tra una singola query per limitare il carico del server. Nonostante la verità che questo sia un concetto desiderabile, Google ora non guida la regola del ritardo di scansione a causa del fatto che i suoi server sono dinamici e preservare un corpo temporale tra le richieste non fa esperienza per loro. Poiché la maggior parte dei server può gestire così tonnellate di statistiche al secondo, il costo del tempo tra le richieste fornito in secondi non è più utile.
Il file robots.txt deve essere caricato.
Sei pronto per fare in modo che il tuo file robots.txt venga visualizzato dai crawler dei motori di ricerca dopo averlo salvato sul tuo computer. Poiché il modo in cui aggiungi il file robots.txt al tuo sito Web online varia a seconda dell'architettura del tuo sito Web e del server, non esiste uno strumento che possa aiutarti in questo. Contatta la tua azienda commerciale di web hosting o prova le indicazioni della tua azienda di web hosting per “caricare archivi infomaniak”, ad esempio.
Verifica che il file robots.txt sia pubblicamente disponibile e che Google possa analizzarlo non appena lo hai caricato.
Google deve ottenere il tuo file robots.txt.
I crawler di Google scopriranno automaticamente e inizieranno a utilizzare il tuo file robots.txt dopo che lo avrai inviato ed esaminato. Non sei più obbligato a intraprendere alcuna azione. Se il tuo file robots.txt è stato modificato, devi aggiornare la riproduzione cache di Google il più rapidamente possibile.
Aggiorna la cache di robots.txt su Google.
I crawler di Google sono a conoscenza delle modifiche al tuo file robots.txt ad un certo punto della tecnica di scansione automatica e sostituiscono il modello memorizzato nella cache ogni 24 ore. Usa la tecnica di invio del tester di robots.txt per aggiornare la cache in modo più rapido.
Per accertarti che il tuo soggiorno robots.txt sia il modello che desideri venga sottoposto a scansione da Google, fai clic su Visualizza versione caricata.
Per avvisare Google delle modifiche al tuo file robots.txt e richiedere a Google di eseguirne la scansione, fai clic su Invia.
Aggiorna la pagina web nel tuo browser per sostituire l'editor dello strumento e visualizzare il tuo codice stay robots.txt e vedere se il tuo modello più recente è stato scansionato in modo efficiente tramite Google. Puoi anche testare il timestamp di quando Google ha osservato per la prima volta il modello di data del tuo file robots.txt facendo clic sul menu a discesa sopra l'editor del contenuto testuale dopo aver aggiornato la pagina.
Conclusione
Il file robots.txt è un dispositivo utile per controllare il modo in cui i crawler raggiungono il tuo sito web. Il viaggio dei consumatori per il traffico e l'ottimizzazione dei motori di ricerca del sito Internet possono guadagnare dalla crescita di questo file. I bot saranno in grado di organizzare e mostrare i vestiti nelle SERP nel modo in cui preferisci che vengano visualizzati se permetti loro di passare il tempo a scansionare gli elementi più applicabili. Crawl-delay è una direttiva utile per controllare i bot dei motori di ricerca aggressivi e salvare le risorse del server per il tuo sito web online e per gli utenti.