Un archivo robots.txt es un conjunto de instrucciones para bots. Este archivo esta incluido en los archivos fuente de la mayoría de los sitios web. Los archivos Robots.txt tienen como proposito controlar las actividades de los bots buenos, como los rastreadores web, ya que es poco probable que los bots malos sigan las instrucciones.
Un bot es un programa informático automatizado que interactúa con sitios web y aplicaciones. Hay bots buenos y bots malos, un buen tipo de bot se llama bot rastreador web. Estos bots «rastrean» páginas web e indexan el contenido para que puedan ser mostrado en los resultados de búsqueda. Un archivo robots.txt ayuda a administrar las actividades de estos rastreadores web para que no sobrecarguen el servidor web que aloja el sitio web o las páginas de índice que no están destinadas al público.
¿CÓMO FUNCIONA UN ARCHIVO ROBOT.TXT?
Un archivo robots.txt es solo un archivo de texto sin código de HTML marcado (de ahí la extensión .txt). El archivo robots.txt está situado en el servidor web como cualquier otro archivo en la plataforma. De hecho, el archivo robots.txt para un sitio web se puede ver generalmente con la URL escrita completa de la página de inicio y luego agregado /robots.txt, como https://www.factoriacreativabarcelona.com/robots.txt. El archivo no está asociado a ningún otro lugar del sitio web, por es probable que los usuarios no lo encuentren, pero la mayoría de los robots rastreadores web buscarán este archivo antes de rastrear el resto del sitio.
Aunque un archivo robots.txt proporciona instrucciones para los bots, en verdad no puede hacer cumplir las instrucciones. Un buen bot, actuará como un rastreador web o como un bot de suministro de noticias, intentará visitar el archivo robots.txt antes de ver cualquier otra página en un dominio y seguirá las instrucciones. Un bot malo ignorará el archivo robots.txt o lo procesará para encontrar páginas web prohibidas.
Un bot rastreador de web seguirá el conjunto de instrucciones más específica en el archivo robots.txt. Si hay mandos contradictorios en el archivo, el bot seguirá el comando más granular.
Una cosa importante a tener en cuenta es que todos los subdominios necesitan su propio archivo robots.txt. Recuerda que además de tener el robots.txt bien puesto en tu cuenta, es importante optimizar de manera correcta el diseño web.
¿QUÉ PROTOCOLOS SE UTILIZAN EN UN ARCHIVO ROBOTS.TXT?
En una red, un protocolo es un formato que proporciona instrucciones o comandos. Los archivos Robots.txt utilizan dos protocolos diferentes. El protocolo principal se llama Protocolo de exclusión de robots. Es una manera de decirle a los bots qué páginas webs y recursos deben evitar. Las instrucciones hechas para este protocolo se incluyen en el archivo robots.txt.
El otro protocolo que se utiliza para los archivos robots.txt es el protocolo Sitemaps. Puede considerarse como un protocolo de inclusión de robots. Los sitemaps muestran a un rastreador web qué páginas pueden rastrear. Esto ayuda a garantizar que un bot rastreador no pierda páginas importantes.
EJEMPLO DE ARCHIVO ROBOTS.TXT
Aquí está el archivo robots.txt para factoriacreativabarcelona.es:
¿QUÉ ES UN AGENTE DE USARIO? ¿QUÉ SIGNIFICA «AGENT USER«?
Cualquiera persona o programa activo en Internet tendrá asignado un «agente de usuario» o nombre. Para las personas, esto incluye información como el tipo de navegador o la versión del sistema operativo, pero no la información personal; ayuda a los sitios web a encontrar contenido compatible con el sistema del usuario. Para los bots, el agente de usuario (en teoría) ayuda a los administradores del sitio web saber qué tipo de bot está rastreando el sitio.
En un archivo robots.txt, los administradores del sitio web pueden aportar instrucciones específicas para que los bots escriban instrucciones diferentes a los bots de agentes de usuario. Por ejemplo, si un administrador desea que una página aparezca en los resultados de búsqueda de Google, pero no en las búsquedas de Bing, podría incluir dos conjuntos de comandos en el archivo robots.txt: una serie precedida por «User-agent: Bingbot» y otra por «User-agent: Googlebot».
En el ejemplo anterior, Cloudflare ha incluido «User-agent: *» en el archivo robots.txt. El asterisco representa un usuario «comodín» y significa que las instrucciones se aplican a cada bot, no a un bot específico.
Los nombres comunes de los agentes de usuario de bots de motores de búsqueda incluyen:
Google:
- Robot de Google
- Imagen de Googlebot (para imágenes)
- Googlebot-News (para noticias)
- Googlebot-Video (para video)
Bing
- MSNBot-Media (para imágenes y videos)
- Baidu
Baiduspider
- Cómo funcionan los comandos «No permitir» en un archivo robots.txt
¿CÓMO FUNCIONAN LOS COMANDOS «NO PERMITIR» EN UN ARCHIVO ROBOTS.TXT?
El comando Disallow es el más común en el protocolo de exclusión de bots. Indica a los bots que no vayan a la página web o al conjunto de páginas que siguen al comando. Las páginas malas no están necesariamente «ocultas», simplemente no son útiles para el usuario promedio de Google o Bing, por lo que no se muestran. En la mayoría de los casos, un usuario de un sitio web puede continuar navegando por estas páginas si sabe dónde encontrarlas.
El comando Disallow se puede usar de varias manera, muchas de las cuales se muestran en el ejemplo anterior.
-
Bloquear un archivo (es decir, una página web específica)
+Disallow: /aprendizaje/bots/qué es un bot/
Después del comando «no permitir», se incluye la parte de la URL de la página web que sigue a la página de inicio, en este caso: «www.cloudflare.com». Con este comando, los bots útiles no podrán acceder a https://www.factoriacreativabarcelona.es/aprendizaje/bots/qué es un bot/ y la página no aparecerá en los resultados de búsqueda.
-
Bloquear un directorio
A veces es más efectivo bloquear varias páginas a la vez, en vez de enumerarlas todas individualmente. Si todos están en la misma sección de la pagina web, un archivo robots.txt puede bloquear el directorio que los contiene.
Un ejemplo de lo anterior es:
Disallow: /__marketing/
Esto significa que no deben rastrear todas las páginas incluidas en el directorio __marketing.
-
Permitir acceso completo
Este comando se vería así:
Disallow
Esto les dice a los bots que pueden rastrear todo el sitio web, porque nada está permitido.
-
Ocultar todo el sitio web de los bots
Disallow: /
El «/» aquí representa la «raíz» en la jerarquía de un sitio web, o la página desde que comienzan todas las demás, por lo que incluye la página de inicio y todas las que estén vinculadas desde ella. Con este comando, los rastreadores de los motores de búsqueda no pueden rastrear el sitio web.
En otras palabras, ¡una sola barra puede eliminar un sitio web de la búsqueda en Internet!
¿QUÉ OTROS COMANDOS FORMAN PARTE DEL PROTOCOLO DE EXCLUSIÓN DE BOTS?
Permitir: como era de esperar, «Permitir» les dice a los bots que tienen permiso para acceder a una página web. Este comando permite que los bots accedan a una determinada página, mientras que no permite el acceso al resto de páginas del repositorio. No todos los motores de búsqueda reconocen este comando.
Crawl-delay: el comando crawl delay está diseñado para evitar que los rastreadores sobrecarguen un servidor. Permite a los administradores especificar cuánto tiempo, en milisegundos, debe esperar el bot entre cada solicitud.