El fichero robots.txt en tu web

Hoy vamos a hablar de un fichero muy importante que debe ser considerado en toda página web.

Hablamos del fichero robots.txt, un archivo de texto que da instrucciones a los robots que rastrean el contenido de tu web, indicando los contenidos de tu web que deben rastrear, los contenidos que no deben rastrear y cómo deberían hacerlo.

¿Qué son los robots?

Los robots o también llamados crawlers, spiders, arañas, bots o indexadores son los que acceden a las páginas web de un sitio web para buscar información, añadirlas en los buscadores, etc. Por este motivo, comprobar la existencia de este fichero es muy importante, ya que de él depende que los robots vean nuevos contenidos en la web, los añadan a un índice, los valoren y decidan su indexación en los resultados de búsqueda. Dicho de otra forma, que el contenido de las páginas de nuestra web sea visible cuando se realizan búsquedas en los buscadores.

Algunos de los robots más conocidos son:

-Googlebot (Google)

-Yahoo_Slurp (Yahoo)

-Bingbot (Bing)

¿Qué características tiene este fichero de texto?

-Es un documento de texto en el que se debe respetar el nombre “robots.txt” para que los robots lo encuentren fácilmente. Por este mismo motivo, debe encontrarse en  la raíz del sitio web, ya que los robots lo irán a buscar ahí.

-Debe ser único en un sitio web, a menos que existan subdominios (en esta situación se necesitarían ficheros robots.txt para cada subdominio y uno para el dominio principal).

-Es recomendable mencionar la ruta donde se encuentra el sitemap, que es otro fichero que contiene todas las urls del sitio web. Es una forma de indicar el buen camino a los robots para llegar a este archivo.

-Con este fichero se puede impedir el acceso a robots determinados (según qué robots no son de buscadores).

-Con este fichero se puede conseguir eliminar la duplicidad de contenido en la web, y ello permitirá aumentar la puntuación en los buscadores.

¿Cómo comprobar que nuestra web tiene este fichero?

Pues es tan simple como añadir /robots.txt a vuestra Url.

Por ejemplo, en el caso de la web Domotua (www.domotua.es):

http://www.domotua.es/robots.txt

¿Qué es lo que aparece en este fichero?

1) User-Agent

User-Agent:* se aplica sobre cualquier robot.

User-Agent: Googlebot  la regla sólo se aplica al robot de Google.

2) Disallow

Informa de la URL que se quiere bloquear.

-Disallow: / prohibe la entrada a todo el sitio.

Ejemplo: Disallow: / text.html no permite al robot acceder a la página text.html

-Disallow: /imagen/ prohíbe la entrada a los documentos de la carpeta imagen y a todo su contenido.

-Disallow: permite la entrada a todo el sitio.

 

NOTAS:

 

1)   Se pueden acumular varios Disallow bajo un mismo User-Agent, pero no al revés, es decir, utilizar varios User-Agent encima de un solo Disallow.

2)  Si se añade # al principio de una línea, se pueden escribir comentarios que no va a interpretar el robot.

Por ejemplo: #Crawler de GoogleBot, no va a ser interpretado por el robot.

#Crawler de GoogleBot

User-Agent: Googlebot

Disallow: /text.html

Disallow: /images/

 3)    Se puede incluir el sitemap (mapa del sitio web) de la siguiente forma:

http://www.domotua.es/sitemap.xml

 Se puede encontrar más información en la web RobotsTXT.org, donde también aparecen ejemplos.

 Esperamos que esta información haya sido interesante para todos vosotros. ¿Qué opináis de este fichero?, ¿lo habéis encontrado en vuestra web?, ¿tenéis alguna duda?.

Buscador de posts

Introduce la palabra o tema que quieres buscar y continua leyendo nuestro contenido.

Usamos cookies propias y de terceros para mejorar su experiencia en DMO. Si continua navegando consideramos que acepta el uso de cookies. Gracias por ayudarnos a mejorar.
OK M?s informaci?n