Empresa de Hosting ó
Alojamiento Web, Seguro y Confiable. Diseño Web
Central: 5786934 | Móvil: 955666010 | Nextel: 826*3080 | RPM: *0233630 | MSN: inkaweb1hotmail.com
Preguntas Frecuentes - FAQ
Publicación : 2011-02-19 03:48:20
¿ Qué es un archivo robots.txt ?

El fichero robots.txt es un archivo de texto que dicta unas recomendaciones para que todos los crawlers y robots de buscadores cumplan (recomendaciones, no obligaciones)

Un crawler es un robot de una entidad (generalmente buscadores) que acceden a las páginas web de un sitio para buscar información en ella, añadirla en los buscadores, etc. También son llamados spiders, arañas, bots o indexadores.

Por ejemplo, Googlebot es el nombre del crawler del buscador Google. También existen otros como:

■Mediapartners-Google, que es el crawler que se encarga de revisar los anuncios de Google Adsense.
■Googlebot-Image, robot indexador de imagenes del buscador de Google.
■Slurp, crawler de indexación del buscador Yahoo!
■noxtrumbot, del buscador Noxtrum.
■Scooter, del buscador Altavista.
Y muchísimos más. Si establecemos un control en nuestro robots.txt, podremos conseguir una serie de beneficios:

■Impedir acceso a robots determinados: Puede parecer contradictorio, pero algunos crawlers no nos proporcionarán sino problemas. Algunos robots no son de buscadores, e incluso algunos robots no son ni amigos. Pero de eso ya hablaremos más tarde.
■Reducir la sobrecarga del servidor: Podrás controlar el flujo de algunos robots. Algunos de ellos son un verdadero descontrol de peticiones que pueden llegar a saturar tu servidor.
■Prohibir zonas: Nos puede interesar tener disponible una zona en nuestra web, que sea accesible para algunos, pero que no aparezca en buscadores.
■Eliminar contenido duplicado: Uno de los casos más importantes, que casi siempre es olvidado por los webmasters. Si eliminamos la duplicidad de contenido, los buscadores nos puntuaran muy alto, aumentando el flujo de visitas.
■Fijar mapas del sitio: También es posible acoplar un sitemap para indicar el buen camino a los robots.
¿Y entonces, que hay que hacer? Es muy sencillo.

Sólo tenemos que crear un fichero de texto robots.txt y comenzar a escribir en el. Partiré del siguiente ejemplo donde permitimos la entrada a todos los crawlers (igual que sin ningún robots.txt):

User-agent: *
Disallow:
En User-agent debemos introducir el nombre del robot, y a continuación las rutas donde queremos prohibir que acceda. Algunos ejemplos:

■Disallow: / prohibe la entrada a todo el sitio.
■Disallow: /foro/ prohibe la entrada a los documentos del directorio foro.
■Disallow: permite la entrada a todo el sitio.
En algunos casos suele utilizarse en lugar de Disallow, la palabra Allow. Aunque por definición es correcta, es conveniente no utilizarla, puesto que las rutas omitidas se asumen que están permitidas por defecto, y algunos crawlers no entienden la palabra Allow.

Es posible acumular varios Disallow bajo un mismo User-agent, pero no podemos utilizar varios User-agent encima de un Disallow. Bien, algún ejemplo:

# Crawler de MSN
User-agent: msnbot
Disallow: /links.html
Disallow: /private/
Disallow: /photos/
Este código impide al crawler del buscador de Live (MSN) acceder a la página links.html, y las carpetas private y photos (y todo su contenido) de nuestro sitio.

Añadiendo el carácter # al principio de una linea podemos escribir comentarios que no interpretará el crawler.

Es posible ir acumulando reglas para distintos crawlers, formando un robots.txt más largo y completo. Cada vez que escribamos un User-agent deberemos dejar una linea en blanco de separación. Además, existe una ligera adaptación que permiten usar comodines ($ y *) en las rutas en algunos crawlers (sólo Googlebot y Slurp):

User-agent: Slurp
Disallow: /*.js$
Disallow: /2006/*
Disallow: /2007/*
Disallow: /articulos/*/pagina/*
Se está indicando al robot de Yahoo, que no indexe los ficheros que terminen en .js (javascript), direcciones que empiecen por 2007 o 2006 (fechas), ni artículos con la palabra pagina (paginado de comentarios). Estos casos pertenecen a la idea de no indexar contenido duplicado.

En la mayoría de los blogs, puedes acceder a un mismo artículo por las direcciones:

■blog.com/articulo/titulo, la dirección principal.
■blog.com/2007/04/, el archivo del mes.
■blog.com/articulo/titulo/feed, feed RSS del artículo.
■blog.com/articulo/titulo/pagina/2, pagina 2 de comentarios.
Todo esto es contenido duplicado, una de las razones más importantes de penalización para un buscador, a no ser, claro, que te las ingenies para que sólo sea accesible desde una dirección. A la hora de ver los resultados te asombrarás lo bien que estarás quedando ante los ojos de Google, por ejemplo.

Hay que tener mucho cuidado con usar cosas como Disallow: /pagina o Disallow: /*pagina, puesto que en lugar de bloquear lo que queríamos (carpeta pagina o artículos paginados), terminen bloqueando direcciones como /decorar-mi-pagina o /paginas-para-amigos/.

Si revisas estadísticas y demás, también puedes observar que a veces algunos crawlers «se pasan» revisando nuestro sitio, y funden a peticiones a nuestro pobre servidor. Existe una manera de tranquilizar a los robots:

User-agent: noxtrumbot
Crawl-delay: 30
Con esto le decimos al robot de noxtrum que espere 30 segundos entre cada acceso. Cuidado, porque Crawl-delay no lo soportan todos los crawlers (al menos MSNBot y Slurp si lo soportan, y Googlebot desde el panel de webmasters también).

Finalmente, podemos también incluir un mapa del sitio en nuestro robots.txt de la siguiente forma:

Sitemap: http://www.inkawebdesign.com/sitemap.xml
En RobotsTXT.org podrás encontrar documentación oficial si quieres profundizar y en esta búsqueda de Google encontrarás muchos robots.txt de ejemplo, incluso robots.txt optimizados para tu tipo de web. Además, también tienes un validador de robots.txt.

Publicación : 2011-02-19 03:48:20

Xing - ¿ Qué es un archivo robots.txt ?   Delicious - ¿ Qué es un archivo robots.txt ?   Meneame - ¿ Qué es un archivo robots.txt ?   Googlebookmark - ¿ Qué es un archivo robots.txt ?





Compartir en Facebook





PREGUNTAS RELACIONADAS

¿ Qué es un sitemap y para que sirve ? ¿ Qué es un sitemap y para que sirve ?
Leido : 1623 veces | Publicación : 2011-02-19 03:44:46

Tu página en las primeras posiciones de Google. Compita a lo grande siendo uno de los primeros, deje este trabajo a nuestros especialistas SEO. Somos Profesionales no pierda su tiempo.
Ver Posicionamiento Web Ver Más
Te ofrecemos la mejor señal de radio por internet, contamos con los mejores servidores del mercado en el mejor datacenter del Mundo, Panel Whmsonic, AutoDj o Dj Automatico, cero buffer.
Ver Radio Streaming Ver Más
Contamos con el mejor equipo de programadores y diseñadores, con la experiencia en la elaboración de proyectos web. Innovamos nuevas tendencias. Diseños orientados a Redes Sociales.
Ver Programación Web Ver Más
Nuestro Staff de Programadores, le instalara un Script totalmente gratis, Wordpress, Joomla, Moodle, Foro PhpBB, Foro SMF, Oscommerce. Consultar con Asesores.
Ver Soporte Web Ver Más
Plugins
Sobre Nosotros
La Empresa
DOCTOR PC PERU E.I.R.L
R.U.C 20515853724
Reportar Enlace RotoReportar Enlace Roto o Abusos
Correo NewsletterRecibe Ofertas y Promociones :
Contacto
Soporte: soporteinkawebdesign.com
Informes: infoinkawebdesign.com
Facturación: facturacioninkawebdesign.com
Pagos: pagosinkawebdesign.com

Promociones y Novedades
Partners

Alojamiento Web
Qué es hosting ?

UNITED STATES Tu IP es : 38.107.179.231
Siguenos
Aceptamos pagos de
Copyright © 2012 InkaWebDesign.com - LIMA, PERU - T/Fax: (511) 5786934 - Claro: (511) 9 9301 5610 - Movistar: (511) 9 5566 6010 - Nextel: 826*3080 - RPM: *0233630 Validator XHTML - CSS