Ejemplo de Robots.txt
El archivo robots.txt
es un archivo simple que puede tener un gran impacto en cómo los motores de búsqueda interactúan con tu sitio web. En este artículo, te guiaremos a través de todo lo que necesitas saber sobre el archivo robots.txt
, cómo funciona, cómo se crea y cómo se usa.
Contenido del artículo
¿Qué es el archivo Robots.txt?
El archivo robots.txt
es un archivo de texto que los webmasters crean para instruir a los robots de los motores de búsqueda cómo rastrear y indexar las páginas de su sitio web.
Este archivo se coloca en el directorio raíz de un sitio web y se utiliza para indicar a los robots de los motores de búsqueda qué partes del sitio deben o no deben rastrear.
¿Cómo funciona el archivo Robots.txt?
Cuando un robot de búsqueda llega a un sitio, busca el archivo robots.txt
antes de hacer cualquier otra cosa. Si encuentra uno, lo leerá para entender qué partes del sitio puede rastrear y qué partes no.
Si no encuentra un archivo robots.txt
, asumirá que puede rastrear todo el sitio.
Un archivo robots.txt
típico contiene "User-agent" seguido de "Disallow" o "Allow". Aquí te dejo un ejemplo:
User-agent: *
Disallow: /privado/
En este caso, "User-agent: *" se refiere a todos los robots de búsqueda y "Disallow: /privado/" les dice que no rastreen nada en el directorio /privado/ del sitio.
Cómo crear un archivo Robots.txt
Crear un archivo robots.txt
es bastante sencillo. Solo necesitas un editor de texto plano (como Notepad en Windows o TextEdit en macOS) y entender unas pocas reglas básicas.
User-agent: Esta regla especifica a qué robots de búsqueda se aplican las siguientes directivas. Por ejemplo,
User-agent: Googlebot
se aplicaría solo al robot de Google, mientras queUser-agent: *
se aplica a todos los robots. Los 20 user agents más usados:Googlebot: Este es el rastreador principal de Google. Aunque a veces se refiere a todos los rastreadores de Google, también puede especificar el rastreador que Google usa para la mayoría de las páginas web.
Googlebot-Image: Específico para las imágenes que Google rastrea.
Googlebot-News: Específico para el rastreo de noticias de Google.
Googlebot-Video: Específico para el rastreo de videos de Google.
Googlebot-Mobile: Específico para el rastreo de sitios web móviles.
Mediapartners-Google: Rastreador de Google AdSense.
AdsBot-Google: Rastreador de las páginas de destino de los anuncios de Google.
Bingbot: Este es el rastreador principal de Bing.
Msnbot: Este es el antiguo rastreador de Bing, pero aún puede aparecer en algunos lugares.
Slurp: Este es el rastreador de Yahoo.
DuckDuckBot: Este es el rastreador de DuckDuckGo.
Baiduspider: Este es el rastreador de Baidu, el motor de búsqueda más grande de China.
YandexBot: Este es el rastreador de Yandex, el motor de búsqueda más grande de Rusia.
Sogou Spider: Este es el rastreador de Sogou, otro motor de búsqueda popular en China.
Exabot: Este es el rastreador de Exalead, un motor de búsqueda francés.
Facebot: Este es el rastreador de Facebook.
Alexa (IA Archiver): Rastreador de Alexa.
MJ12bot: Rastreador de Majestic.
SemrushBot: Rastreador de SEMrush.
AhrefsBot: Rastreador de Ahrefs.
Disallow: Esta regla le dice a los robots que no rastreen las páginas o directorios especificados. Por ejemplo,
Disallow: /privado/
le dice a los robots que no rastreen el directorio /privado/.Allow: Esta es la contraparte de
Disallow
y se utiliza para especificar páginas o directorios que los robots pueden rastrear, incluso si se encuentran dentro de un directorio que se ha desactivado. Por ejemplo, si tienesDisallow: /privado/
pero quieres que los robots puedan rastrear una página específica dentro de ese directorio, podrías usarAllow: /privado/pagina_publica.html
.Sitemap: Esta regla no es obligatoria, pero puede ser útil para indicar a los robots de búsqueda dónde encontrar el mapa del sitio de tu web. Por ejemplo,
Sitemap: https://www.ejemplode.com/sitemap.xml
.
Ejemplo de archivo robots.txt
Aquí tienes un ejemplo de cómo se vería un archivo robots.txt
que utiliza todas estas reglas:
#Esto es un comentario
User-agent: *
Disallow: /privado/
Allow: /privado/pagina_publica.html
Sitemap: https://www.ejemplode.com/sitemap.xml
¿Cómo probar un archivo Robots.txt?
Una vez hayas creado tu archivo robots.txt
, es importante probarlo y asegurarte de que funciona como esperas. Google proporciona una herramienta gratuita llamada Robots Testing Tool que puedes usar para este propósito. Con esta herramienta, puedes probar y verificar tu archivo robots.txt
para asegurarte de que los motores de búsqueda lo interpretan correctamente.
Para usar la herramienta de prueba de robots de Google, necesitarás tener una cuenta de Google y tu sitio web deberá estar verificado en Google Search Console. Una vez que estés en la herramienta de prueba de robots, selecciona tu sitio web del menú desplegable y la herramienta recuperará tu archivo robots.txt
y resaltará cualquier problema que pueda encontrar.
¿Qué debe y qué no debe incluirse en un archivo Robots.txt?
Una de las cosas más importantes a tener en cuenta al crear tu archivo robots.txt
es que no debes usarlo para ocultar información privada o sensible.
Los robots de búsqueda respetarán las directivas de tu archivo robots.txt
, pero los robots maliciosos pueden ignorarlo y rastrear las áreas de tu sitio que has intentado ocultar.
Si tienes información privada o sensible en tu sitio web, deberías usar métodos más seguros para protegerla, como la autenticación de usuario o el cifrado.
Además, no debes usar tu archivo robots.txt
para bloquear el acceso a CSS o JavaScript necesarios para el renderizado de tu página. En el pasado, los motores de búsqueda solo necesitaban acceder al HTML de una página para entender de qué trataba.
Pero hoy en día, Google y otros motores de búsqueda también necesitan poder acceder y entender tu CSS y JavaScript para renderizar completamente tu página y entender su contenido. Si bloqueas estos recursos en tu archivo robots.txt
, podría afectar negativamente a tu SEO.
10 consejos para crear tu robots.txt
Ubicación Correcta: Asegúrate de que tu archivo
robots.txt
se encuentra en la raíz de tu sitio web. Los motores de búsqueda buscarán este archivo entudominio.com/robots.txt
.Sintaxis Correcta: Revisa cuidadosamente la sintaxis de tu archivo
robots.txt
. Un error podría permitir a los motores de búsqueda rastrear páginas que no quieres que indexen o, peor aún, podrían bloquear todo tu sitio.No Bloquees Todo: No uses
Disallow: /
a menos que realmente quieras bloquear todo tu sitio. Este comando impedirá que todos los robots rastreen cualquier parte de tu sitio.Usa la Herramienta de Prueba de Google: Utiliza la Herramienta de prueba de robots.txt de Google para asegurarte de que tu archivo
robots.txt
está funcionando como esperas.No Confíes Solo en Robots.txt para la Seguridad: Si tienes información sensible en tu sitio web, no confíes únicamente en el archivo
robots.txt
para protegerla. Recuerda que los robots malintencionados pueden ignorar este archivo.No Bloquees Recursos Necesarios: No bloquees el acceso a CSS, JavaScript o imágenes que son necesarias para el renderizado de tu página. Los motores de búsqueda necesitan acceder a estos recursos para entender completamente tu sitio.
Utiliza la Directiva Allow: Aunque no es reconocida por todos los motores de búsqueda, la directiva
Allow
puede ser útil para especificar archivos o directorios que deseas permitir, incluso dentro de un directorio que de otra manera estaría bloqueado.Comenta Tu Archivo: Agrega comentarios a tu archivo
robots.txt
para recordar por qué hiciste ciertos cambios o bloqueaste ciertas áreas. Puedes agregar comentarios utilizando el símbolo#
.Actualiza Regularmente: Mantén tu archivo
robots.txt
actualizado a medida que agregas nuevo contenido a tu sitio, especialmente si este contenido no debe ser rastreado o indexado.Considera el Uso de Reglas Específicas de Robots: Si necesitas diferentes reglas para diferentes motores de búsqueda, puedes especificar reglas para robots individuales utilizando su nombre de usuario en lugar de
User-agent: *
.
¿Cómo citar? Pichardo, A. & Del Moral, M. (s.f.). Ejemplo de Robots.txt.Ejemplo de. Recuperado el 27 de Septiembre de 2023 de https://www.ejemplode.com/17-html/1096-ejemplo_de_robotstxt.html
Últimos 10 comentarios