Ejemplo de Robots.txt

Inicio » HTML » Robots.txt

El archivo robots.txt es un archivo simple que puede tener un gran impacto en cómo los motores de búsqueda interactúan con tu sitio web. En este artículo, te guiaremos a través de todo lo que necesitas saber sobre el archivo robots.txt, cómo funciona, cómo se crea y cómo se usa.

¿Qué es el archivo Robots.txt?

El archivo robots.txt es un archivo de texto que los webmasters crean para instruir a los robots de los motores de búsqueda cómo rastrear y indexar las páginas de su sitio web.

Este archivo se coloca en el directorio raíz de un sitio web y se utiliza para indicar a los robots de los motores de búsqueda qué partes del sitio deben o no deben rastrear.

¿Cómo funciona el archivo Robots.txt?

Cuando un robot de búsqueda llega a un sitio, busca el archivo robots.txt antes de hacer cualquier otra cosa. Si encuentra uno, lo leerá para entender qué partes del sitio puede rastrear y qué partes no.

Si no encuentra un archivo robots.txt, asumirá que puede rastrear todo el sitio.

Un archivo robots.txt típico contiene "User-agent" seguido de "Disallow" o "Allow". Aquí te dejo un ejemplo:

User-agent: *
Disallow: /privado/

En este caso, "User-agent: *" se refiere a todos los robots de búsqueda y "Disallow: /privado/" les dice que no rastreen nada en el directorio /privado/ del sitio.

Cómo crear un archivo Robots.txt

Crear un archivo robots.txt es bastante sencillo. Solo necesitas un editor de texto plano (como Notepad en Windows o TextEdit en macOS) y entender unas pocas reglas básicas.

  1. User-agent: Esta regla especifica a qué robots de búsqueda se aplican las siguientes directivas. Por ejemplo, User-agent: Googlebot se aplicaría solo al robot de Google, mientras que User-agent: * se aplica a todos los robots. Los 20 user agents más usados:

    1. Googlebot: Este es el rastreador principal de Google. Aunque a veces se refiere a todos los rastreadores de Google, también puede especificar el rastreador que Google usa para la mayoría de las páginas web.

    2. Googlebot-Image: Específico para las imágenes que Google rastrea.

    3. Googlebot-News: Específico para el rastreo de noticias de Google.

    4. Googlebot-Video: Específico para el rastreo de videos de Google.

    5. Googlebot-Mobile: Específico para el rastreo de sitios web móviles.

    6. Mediapartners-Google: Rastreador de Google AdSense.

    7. AdsBot-Google: Rastreador de las páginas de destino de los anuncios de Google.

    8. Bingbot: Este es el rastreador principal de Bing.

    9. Msnbot: Este es el antiguo rastreador de Bing, pero aún puede aparecer en algunos lugares.

    10. Slurp: Este es el rastreador de Yahoo.

    11. DuckDuckBot: Este es el rastreador de DuckDuckGo.

    12. Baiduspider: Este es el rastreador de Baidu, el motor de búsqueda más grande de China.

    13. YandexBot: Este es el rastreador de Yandex, el motor de búsqueda más grande de Rusia.

    14. Sogou Spider: Este es el rastreador de Sogou, otro motor de búsqueda popular en China.

    15. Exabot: Este es el rastreador de Exalead, un motor de búsqueda francés.

    16. Facebot: Este es el rastreador de Facebook.

    17. Alexa (IA Archiver): Rastreador de Alexa.

    18. MJ12bot: Rastreador de Majestic.

    19. SemrushBot: Rastreador de SEMrush.

    20. AhrefsBot: Rastreador de Ahrefs.

  2. Disallow: Esta regla le dice a los robots que no rastreen las páginas o directorios especificados. Por ejemplo, Disallow: /privado/ le dice a los robots que no rastreen el directorio /privado/.

  3. Allow: Esta es la contraparte de Disallow y se utiliza para especificar páginas o directorios que los robots pueden rastrear, incluso si se encuentran dentro de un directorio que se ha desactivado. Por ejemplo, si tienes Disallow: /privado/ pero quieres que los robots puedan rastrear una página específica dentro de ese directorio, podrías usar Allow: /privado/pagina_publica.html.

  4. Sitemap: Esta regla no es obligatoria, pero puede ser útil para indicar a los robots de búsqueda dónde encontrar el mapa del sitio de tu web. Por ejemplo, Sitemap: https://www.ejemplode.com/sitemap.xml.

Ejemplo de archivo robots.txt

Aquí tienes un ejemplo de cómo se vería un archivo robots.txt que utiliza todas estas reglas:

#Esto es un comentario
User-agent: *
Disallow: /privado/
Allow: /privado/pagina_publica.html
Sitemap: https://www.ejemplode.com/sitemap.xml

¿Cómo probar un archivo Robots.txt?

Una vez hayas creado tu archivo robots.txt, es importante probarlo y asegurarte de que funciona como esperas. Google proporciona una herramienta gratuita llamada Robots Testing Tool que puedes usar para este propósito. Con esta herramienta, puedes probar y verificar tu archivo robots.txt para asegurarte de que los motores de búsqueda lo interpretan correctamente.

Para usar la herramienta de prueba de robots de Google, necesitarás tener una cuenta de Google y tu sitio web deberá estar verificado en Google Search Console. Una vez que estés en la herramienta de prueba de robots, selecciona tu sitio web del menú desplegable y la herramienta recuperará tu archivo robots.txt y resaltará cualquier problema que pueda encontrar.

¿Qué debe y qué no debe incluirse en un archivo Robots.txt?

Una de las cosas más importantes a tener en cuenta al crear tu archivo robots.txt es que no debes usarlo para ocultar información privada o sensible.

Los robots de búsqueda respetarán las directivas de tu archivo robots.txt, pero los robots maliciosos pueden ignorarlo y rastrear las áreas de tu sitio que has intentado ocultar.

Si tienes información privada o sensible en tu sitio web, deberías usar métodos más seguros para protegerla, como la autenticación de usuario o el cifrado.

Además, no debes usar tu archivo robots.txt para bloquear el acceso a CSS o JavaScript necesarios para el renderizado de tu página. En el pasado, los motores de búsqueda solo necesitaban acceder al HTML de una página para entender de qué trataba.

Pero hoy en día, Google y otros motores de búsqueda también necesitan poder acceder y entender tu CSS y JavaScript para renderizar completamente tu página y entender su contenido. Si bloqueas estos recursos en tu archivo robots.txt, podría afectar negativamente a tu SEO.

 

10 consejos para crear tu robots.txt

  1. Ubicación Correcta: Asegúrate de que tu archivo robots.txt se encuentra en la raíz de tu sitio web. Los motores de búsqueda buscarán este archivo en tudominio.com/robots.txt.

  2. Sintaxis Correcta: Revisa cuidadosamente la sintaxis de tu archivo robots.txt. Un error podría permitir a los motores de búsqueda rastrear páginas que no quieres que indexen o, peor aún, podrían bloquear todo tu sitio.

  3. No Bloquees Todo: No uses Disallow: / a menos que realmente quieras bloquear todo tu sitio. Este comando impedirá que todos los robots rastreen cualquier parte de tu sitio.

  4. Usa la Herramienta de Prueba de Google: Utiliza la Herramienta de prueba de robots.txt de Google para asegurarte de que tu archivo robots.txt está funcionando como esperas.

  5. No Confíes Solo en Robots.txt para la Seguridad: Si tienes información sensible en tu sitio web, no confíes únicamente en el archivo robots.txt para protegerla. Recuerda que los robots malintencionados pueden ignorar este archivo.

  6. No Bloquees Recursos Necesarios: No bloquees el acceso a CSS, JavaScript o imágenes que son necesarias para el renderizado de tu página. Los motores de búsqueda necesitan acceder a estos recursos para entender completamente tu sitio.

  7. Utiliza la Directiva Allow: Aunque no es reconocida por todos los motores de búsqueda, la directiva Allow puede ser útil para especificar archivos o directorios que deseas permitir, incluso dentro de un directorio que de otra manera estaría bloqueado.

  8. Comenta Tu Archivo: Agrega comentarios a tu archivo robots.txt para recordar por qué hiciste ciertos cambios o bloqueaste ciertas áreas. Puedes agregar comentarios utilizando el símbolo #.

  9. Actualiza Regularmente: Mantén tu archivo robots.txt actualizado a medida que agregas nuevo contenido a tu sitio, especialmente si este contenido no debe ser rastreado o indexado.

  10. Considera el Uso de Reglas Específicas de Robots: Si necesitas diferentes reglas para diferentes motores de búsqueda, puedes especificar reglas para robots individuales utilizando su nombre de usuario en lugar de User-agent: *.

¿Cómo citar? Pichardo, A. & Del Moral, M. (s.f.). Ejemplo de Robots.txt.Ejemplo de. Recuperado el 27 de Septiembre de 2023 de https://www.ejemplode.com/17-html/1096-ejemplo_de_robotstxt.html

Escrito por:
Aziel Pichardo
Ingeniería en Sistemas
Universidad del Estado de Guanajuato
Mauricio del Moral Durán
Mauricio del Moral, fundador y creador de Ejemplo de, es un experto en enseñanza y un apasionado del ámbito educativo desde el año 2007. Ha dedicado una considerable parte de su vida profesional al estudio y al desarrollo de contenidos educativos en formatos digitales de alta calidad. Poseedor de una Licenciatura en Ciencias de la Comunicación, Mauricio es egresado de la prestigiosa Universidad Intercontinental.
Última modificación: 2023-05-15

Últimos 10 comentarios

  1. Me parecen interesantes estos temas, ya que en un simple archivo puede dañar el trabajo de varios meses.
    Por Roxana 2014-06-21 a las 3:05:11
  2. Me parecen interesantes estos temas de ficheros, que a la larga pueden parar un sitio web.
    Por Roxana 2014-06-21 a las 3:02:34
  3. Muy bueno no sabía que era público, gracias.
    Por segunda mano 2011-10-23 a las 10:11:05
  4. ola esta mal todo
    Por juanluis 2010-04-30 a las 15:43:15

Deja un comentario


Acepto la política de privacidad.