This post is also available in: English Italiano

Retraso de rastreo de texto de robots

¿Qué es un archivo robots.txt?

Robots Txt Crawl Delay

Un
archivo
robots.txt es una de las formas más comunes de informar a un motor de búsqueda dónde puede y dónde no puede ir en un sitio web. Es simplemente un archivo de texto que contiene las instrucciones que las arañas de los motores de búsqueda, también conocidas como robots, leen para adherirse a una sintaxis estricta. Este archivo se puede utilizar para informar a los motores de búsqueda sobre las pautas de participación de su sitio web. Los motores de búsqueda examinan el archivo robots.txt de forma regular para obtener instrucciones sobre cómo rastrear el sitio. Directivas son los términos que se utilizan para describir estas instrucciones. El motor de búsqueda rastreará todo el sitio web si falta el archivo robots.txt.

Robots.txt es importante para el SEO de sitios web, ya que instruye a los motores de búsqueda sobre cómo escanear mejor el sitio. Puede utilizar este archivo para evitar la duplicación de material, evitar que los motores de búsqueda accedan a determinadas áreas de su sitio y orientarlos para que exploren su sitio de manera más eficaz. La directiva Crawl-Delay en el archivo Robots.txt y su aplicación se analizan en esta publicación.

Un archivo robots.txt informa a los motores de búsqueda sobre las reglas de participación de su sitio web. Enviar las señales adecuadas a los motores de búsqueda es un componente importante de SEO, y el archivo robots.txt es uno de los métodos para expresar sus preferencias de rastreo a los motores de búsqueda.

El estándar robots.txt ha sufrido una serie de cambios en 2019: Google sugirió una modificación del Protocolo de exclusión de robots e hizo que su analizador de robots.txt fuera de código abierto.

TL; DR

El traductor de
robots.txt de Google es notablemente indulgente y adaptable.

En caso de conflicto entre directivas, Google asume que las porciones deben ser limitadas en lugar de sin restricciones.

Los motores de búsqueda examinan el archivo robots.txt de un sitio web con regularidad para determinar si contiene instrucciones para rastrear el sitio. Estos se conocen como instrucciones.

Los motores de búsqueda explorarán todo el sitio web si no hay un archivo robots.txt o si no hay directivas adecuadas.

A pesar de que todos los principales motores de búsqueda obedecen al archivo robots.txt, algunos motores de búsqueda pueden optar por ignorarlo (partes de él). Si bien las directivas de robots.txt envían una señal poderosa a los motores de búsqueda, es vital recordar que el archivo robots.txt es una lista de directivas opcionales para los motores de búsqueda en lugar de un requisito.

¿Por qué debería preocuparse por robots.txt?
Desde el punto de vista de SEO, el archivo robots.txt es crucial. Instruye a los motores de búsqueda sobre cómo rastrear su sitio web de la manera más eficaz.

Puede utilizar el archivo robots.txt para prohibir que los motores de búsqueda accedan a partes particulares de su sitio web, evitar la duplicación de material y proporcionar a los motores de búsqueda consejos útiles sobre cómo rastrear su sitio de manera más eficaz.

Sin embargo, tenga cuidado al editar su archivo robots.txt: tiene la capacidad de hacer que grandes porciones de su sitio web no estén disponibles para los motores de búsqueda.

Robots.txt se usa en exceso con frecuencia para disminuir el material duplicado, lo que da como resultado la muerte de los enlaces internos, por lo tanto, utilícelo con precaución. Mi consejo es que lo use solo para archivos o sitios que los motores de búsqueda nunca deberían ver o que permitir la entrada puede tener un impacto sustancial en el rastreo. Las áreas de inicio de sesión que crean varias direcciones URL, áreas de prueba y áreas con navegación con múltiples facetas son todas instancias comunes. Además, esté atento a su archivo robots.txt para detectar cualquier problema o cambio.

La gran mayoría de los problemas que veo con los archivos robots.txt pertenecen a una de estas tres categorías:

El uso incorrecto de comodines. Es bastante típico encontrar áreas del sitio que se suponía que debían estar cerradas. Las directivas a veces pueden contradecirse entre sí si no tiene cuidado.

Alguien, como un desarrollador, ha realizado una actualización no intencionada del archivo robots.txt (normalmente al publicar un código nuevo) sin que usted lo sepa.

Inclusión de instrucciones en un archivo robots.txt que no pertenecen allí. Robots.txt es un estándar web que tiene varias limitaciones. He visto a muchos desarrolladores crear directivas que no funcionan (al menos para la gran mayoría de rastreadores). Eso puede ser inocuo a veces, pero no siempre.

¿Cómo aparece un archivo robots.txt?
Un archivo robots.txt simple para un sitio web de WordPress puede verse así:

User-agent:
* Disallow: /wp-admin/
Basándonos en el ejemplo anterior, repasemos la anatomía de un archivo robots.txt:

el agente de usuario especifica a qué motores de búsqueda están destinadas las directivas siguientes.

El símbolo * indica que las instrucciones están destinadas a ser utilizadas por todos los motores de búsqueda.

Disallow: esta es una directiva que le dice al usuario-agente qué contenido no puede ver.
/ wp-admin / es la ruta que el agente de usuario no puede ver.

En pocas palabras, el archivo robots.txt indica a todos los motores de búsqueda que eviten el directorio / wp-admin /

Robots Txt Crawl Delay
Robots Txt Crawl Delay

Retraso de rastreo de Robots Txt – ¿Qué es?

Robots Txt Crawl Delay

Crawl-delay es una directiva de robots.txt no autorizada que se puede utilizar para evitar que los servidores se sobrecarguen con consultas. Los motores de búsqueda como Bing, Yahoo y Yandex pueden volverse hambrientos en ocasiones, y pueden ralentizarse si se emplea esta directiva. Aunque varios motores de búsqueda entienden el comando de diferentes maneras, el resultado final suele ser el mismo.

La tasa de rastreo se define como la cantidad de tiempo que tarda un bot en realizar dos consultas a un sitio web. Se refiere a la rapidez con la que el bot puede rastrear su página. El parámetro crawl-delay indica al bot que espere una cierta cantidad de tiempo entre consultas.

Crawl-delay es un buen enfoque para evitar que los bots utilicen una gran cantidad de recursos de alojamiento.
Sin embargo, al utilizar esta directiva en el archivo robots.txt, se recomienda precaución.
Los motores de búsqueda solo pueden acceder a 8640 páginas cada día si imponen un retraso de 10 segundos.
Esto puede parecer una cantidad significativa para un sitio pequeño, pero no lo es para sitios más grandes.
Esta estrategia es una excelente solución para ahorrar ancho de banda si no obtiene tráfico de dichos motores de búsqueda.

Robots Txt Crawl Delay
Robots Txt Crawl Delay

¿Cómo interpreta Google el retraso en el rastreo?

Robots Txt Crawl Delay

Google ignora el parámetro crawl-delay. Como resultado, no hay necesidad de preocuparse por el impacto de tal comando en su clasificación de Google. Puede usarlo de forma segura para hacer frente a otros robots de búsqueda agresivos. Aunque es poco probable que el rastreo del robot de Google cause problemas, aún puede usar la Consola de búsqueda de Google para reducir el ritmo de rastreo de Google. A continuación, le mostramos cómo establecer la frecuencia de rastreo para el bot de Google en unos sencillos pasos.

Vaya a la
Consola de búsqueda de Google (la anterior) e inicie sesión.

Elija el sitio web para el que desea establecer el retraso de rastreo.

Elija ‘Configuración del sitio' en el ícono de ajustes ubicado en la esquina superior derecha.

Busque la opción «Ritmo de rastreo», que tiene un control deslizante para personalizar la frecuencia de rastreo. De forma predeterminada, la tasa se establece en un valor sugerido.

Retraso de rastreo: 10 para Bing y Yahoo

Bing y Yahoo aceptan la directiva de retraso de rastreo;
en el caso de crawl-delay: 10, dividirán un día en ventanas de 10 segundos, rastreando un máximo de una página en cada ventana.

Yandex y retraso de rastreo

Yandex reconoce la directiva crawl-delay y, si se usa crawl-delay: 10, esperarán al menos 10 segundos antes de solicitar otra URL.

A pesar de que Yandex es compatible con esta directiva, instan a que use
Yandex Webmaste r, su propia versión de Google Search Console donde puede personalizar el ritmo de rastreo.

Baidu y retraso de rastreo

Debido a que Baidu no admite la directiva de retraso de rastreo, la ignorarán, al igual que Google.
Baidu Webmaster Tools le permite establecer su frecuencia de rastreo preferida.

Robots Txt Crawl Delay
Robots Txt Crawl Delay

¿Por qué utilizamos el retardo de rastreo?

Si su sitio web tiene una cantidad significativa de páginas y muchas de ellas están vinculadas desde el índice, es posible que el robot que rastrea el sitio realice demasiadas consultas en poco tiempo.
Como resultado del alto volumen de tráfico, es probable que los recursos de alojamiento se agoten cada hora.
Si su sitio web tiene este problema, una solución es crear un retraso de rastreo de 1-2 segundos para que el robot de búsqueda busque en el sitio a un ritmo moderado, evitando picos de tráfico.
Las directivas de demora de rastreo son compatibles con motores de búsqueda como Yahoo, Yandex y Bing, y pueden usarse para retenerlas por un tiempo.
Establecer un retraso de rastreo de 10 segundos indica que después de rastrear el sitio web una vez, los motores de búsqueda esperarán diez segundos antes de volver a acceder a él.

Cada vez que un robot de búsqueda rastrea el sitio, consume una cantidad significativa de ancho de banda y otros recursos del servidor. Los rastreadores pueden agotar rápidamente los recursos de los sitios web con una gran cantidad de páginas y contenido, como los sitios de comercio electrónico. Para proteger los recursos de los visitantes, utilice el archivo robots.txt para evitar que los bots accedan a imágenes y scripts.

Regla de retraso de rastreo ignorada por Googlebot
Los motores de búsqueda como Bing, Yahoo y Baidu agregaron la directiva de demora de rastreo para los archivos robots.txt y aún reaccionan a ella. El objetivo era que los webmasters pudieran designar cuánto tiempo debería esperar un rastreador de motor de búsqueda entre consultas individuales para reducir la carga del servidor. A pesar de que este es un buen concepto, Google no es compatible con la regla de retraso de rastreo ya que sus servidores son dinámicos y mantener un marco de tiempo entre las solicitudes no tiene sentido para ellos. Debido a que la mayoría de los servidores pueden manejar tantos datos por segundo, el valor de tiempo entre solicitudes expresado en segundos ya no es útil.

En lugar de seguir el criterio de retraso de rastreo, Google modifica el rastreo en función de la respuesta del servidor.
Si se detecta una falla o retraso en el servidor, el rastreo se ralentiza.
Los webmasters pueden designar qué partes de sus sitios web no quieren que se indexen en el archivo robots.txt.

El archivo robots.txt es una herramienta útil para controlar cómo los rastreadores llegan a su sitio web.
La experiencia del usuario para los visitantes y el SEO del sitio web pueden beneficiarse de la creación adecuada de este archivo.
Los bots podrán organizar y mostrar cosas en los SERP de la forma en que desea que se muestren si les permite dedicar tiempo a rastrear los elementos más relevantes.
Crawl-delay es una directiva útil para controlar los robots de los motores de búsqueda agresivos y ahorrar recursos del servidor para su sitio y sus usuarios.