¿Tienes tu robots.txt?

Creado el 28 septiembre 2018

Este archivo está alojado en tu servidor ya sea VPS o compartido. Este archivo lo utilizamos para impedir que los robots de los buscadores (crawlers) rastreen el contenido que no deseamos que indexen ni muestren los resultados en las búsquedas de los usuarios.

En otras palabras, con él le indicamos a los crawlers por donde pueden pasear para buscar información e indexar y por donde no.

Quizás te preguntes…

¿Quiero bloquear el acceso a mi web?

Generalmente queremos bloquear el acceso a determinadas partes de nuestra web por la información que contiene. Por ejemplo, a perfiles de usuarios o autores del blog. Otra situación muy habitual es en sitios webs generados con WordPress con una optimización para SEO básica. En estos casos se suele bloquear la indexación para las páginas de categorías, de esta manera cuidamos la densidad de keywords que usamos en nuestro sitio web.

Robots.txt y los CMS

Cuando usamos un gestor de contenidos o CMS por sus siglas en inglés, tales como WordPress, Prestashop, Joomla… es posible que se indexen contenidos no deseados. Este tipo de sistemas generan una URL prácticamente por cada elemento que conforma la web: texto, imagen, descargables, vídeo… Si cuidamos nuestro posicionamiento y la información que facilitamos libremente a los buscadores, debemos cuidar este aspecto.

Ejemplo de robots.txt

La configuración del archivo robots.txt es compleja y tiene innumerables variables según las necesidades de cada sitio web. A continuación, te mostramos un breve ejemplo de lo que sería el contenido de archivo de bloqueo de crawlers:

User-agent: YoRobot

Disallow: /tmp/

Disallow: /jockey/will/

Disallow: /autor.html

 

En la primera línea, hacemos referencia a qué tipo de robot queremos bloquear, en nuestro caso los robots: “YoRobot” Si quisiéramos bloquear todos los robots deberíamos indicarlo con un asterisco “*”.

Y tenemos bloqueados los directorios “/tmp/”, y “/jockey/will/”. Con la última línea bloqueamos el acceso a un archivo en concreto: “autor.html”

Para comprobar su funcionamiento en Google, podemos comprobar mediante la herramienta de Search Console si funciona correctamente.

Otras configuraciones para bloquear el acceso a páginas web

El archivo robots.txt no es más que una recomendación de qué partes de la web indexar y qué partes no.

También podemos bloquear el acceso a la web bloqueando la IP o el dominio desde el que se accede, para ello es necesario configurar el acceso al archivo .htaccess.

Etiquetas: seo

 

Volver

centosdebianispconfigillumosopenvzsupermicrocogentcisco