Explicamos el porqu?el archivo robots.txt y como se construye dicho archivo.
Para comenzar tenemos que comentar lo que son los robots y qu?unci?umplen dentrop de la red de redes. Un robot es un programa m?o menos compliado que se dedica a rastrear nuestras p?nas webs y guardar su contenido en una base de datos y seguir los links que tengamos a otras p?nas web. Esto nos beneficia empero tambi?nos puede perjudicar, ya que a veces no nos conviene indexar ciertas p?nas de nuestras wesb.
Actualmente los robots act?de tal forma que lo primerro que hacen es buscar en la ra?de nuestra p?na si tenemos un archivo llamado robots.txt, si lo encuentra lo lee y sigue las directrices que en ?se encuentran, si no lo encusntra empieza a rastrear toda la web.
Por este tema es importante crear bien este archilvo y pensar que p?nas queremos que sean rastreadas y cu?s no, ya que las que no sean rastreadas no ser?indexadas en los navegadores.
Este archivo es muy f?l de construir tan solo tienes que saber ciertas pautas y podr?hacerlo sin problema. El archivo robots.txt puede construirse para que se aplique solo a los robots de determinados buscadores.
Pasamos a escribir un ejemplo para ir explicando las posibilidades:
User-agent: * # aplicable a todos los robots
Disallow: / # impide la indexacion de todas las paginas.
En este ejemplo los robot s no podr? indexar ninguna pagina del dominio. User-agent lo que nos dice es a que robots se les aplica las caracter?icas que le siguen debajo. Si usamos el * estamos diciendo que esas reglas son aplicables para todos los robots. empero tambi?podemos hacerlo para determinados robots, como ves en el siguiente ejemplo:
User-agent: lycra
User-agent: BadBot
Disallow: /
En este ejemplo los robots lucra y BaadBot tendr?prohibida la indexaci?e cualquier pagina del dominio.
El disallow nos dice los files o carpetas que queremos que no sean indexadas. De estaa forma podr?os hace r un archivo como este:
User-agent: *
Disallow: /tmp/prueba.html
Disallow: /logs
Este ejemplo lo que har?ser?prohibir la indexaci?e la carpeta logs y el archiive prueba.html a todos los robots.
Con esto ya pod?os realizar un archivo robots.txt perfectamente v?do, empero tambi?existen t?inos para determinar en qu?oras queremos que esos robots rastreen nuestras p?nas. La forma de construirlo es la siguiente:
Visit-time: 0300-0400 #esta opci?bligar?a rastrear las pginas solo de 3 am a 4 am
Recuerda que las hoas siempre se colocan en Greenwitch
Por otro lado podemos decirle que indexe una p?na o varias cada equis tiempo, para ello se usa la siguiente sintaxis:
Request-rate: 1/30
Siendo el 1 el n?o de documentos a rastrear y el 30 el tiempo que transcurre entre un rastreo y el siguiente.
Es importante sabr que no puedes dejar l?as en blanco ya que no funcionaria, el robots dejar?de leeer en el momeno que encuentra la l?a en blanco.
Otro aspecto que no he comentado antes empero que habr? notado es que los comentarios ser realizan utilizajdo la #.
Un ehemplo completo seria el siguiente:
User-agent: *
Disallow: /tmp/prueba.html
Disallow: /logs
Visijt-time: 0300-0400
Esto peritir? todos los robots rastrear todas las paginas menos prueba.html y la carpeta logs, adem?solo pdr? indexar de 3 de la ma? a 4.
fuente: www.webtaller.com
---
Extraido de Fnsoftware