¿Que es un Sitemap?

Un Sitemap es un listado de páginas de una web que son accesibles por parte de los usuarios y de los rastreadores web, estos últimos también se conocen con bots, web crawlers o arañas y son utilizados por los diferentes buscadores para ayudar en la tarea de indexación web. Un rastreador web funciona de la siguiente manera: en primer lugar cargan una página, la analizan y van siguiendo los enlaces que encuentran en esa página y cargando las páginas a las que apuntan esos enlaces para repetir el proceso en ellas. La existencia de un Sitemap facilita bastante la labor de estos rastreadores web, ya que nosotros les indicamos directamente la lista de páginas con contenido susceptible de ser indexado en nuestra web. Un buen Sitemap deberá informar de forma precisa a los rastreadores web sobre la localización del contenido en una web, así podrán acceder a este contenido y si tenemos suerte lo indexarán.

Los Sitemap son archivos en formato XML y normalmente se encuentran situados en la raíz del servidor web, todos los archivos Sitemap tendrán una estructura similar a la siguiente:

<?xml version=”1.0″ encoding=”UTF-8″?>
<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>
<url>
<loc>http://www.flotadorderayas.com/sitemaps.html</loc>
<lastmod>2009-10-08</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.flotadorderayas.com/contacto.html</loc>
<changefreq>yearly</changefreq>
<priority>0.3</priority>
</url>
</urlset>

En este caso de ejemplo vemos que el Sitemap indica únicamente dos direcciones. La etiqueta urlset indica la versión del protocolo que se está usando en el Sitemap, a continuación encontraremos las etiquetas url y loc, estas dos etiquetas deben aparecer en cualquier Sitemap ya que indican la localización del contenido. El resto de etiquetas: lastmod, changefreq y priority son opcionales pero ayudan a ofrecer más información sobre las URL contenidas en el Sitemap, como la fecha de la última modificación, la frecuencia con la que se modifica la URL y la prioridad asignada a la misma. Se puede obtener más información sobre la estructura y formato de un Sitemap en la web sitemaps.org

Como ya he comentado los Sitemap son archivos en formato XML, aunque la mayoría de rastreadores web también pueden trabajar con Sitemaps comprimidos en formato gz. Si un Sitemap está bien formado debería ser posible verlo sin problemas en el navegador web, de todas formas también podemos utilizar alguna herramienta de validación de Sitemaps.

En general es buena idea mantener el Sitemap de nuestra web tan limpito como sea posible, desde el punto de vista de un rastreador web será más fácil procesar un Sitemap de 200 ó 300 URLs como máximo que uno con 10.000, y en este sentido cada rastreador web puede comportarse de una forma diferente, algunos sólo procesarán un número de URLs de las que contenga el Sitemap y otros no procesarán nada. Por tanto no estará de más de vez en cuando echarle un vistazo al Sitemap de nuestra web y “podarlo” un poco, aunque se sabe los rastreadores web actuales (al menos los de los buscadores principales) pueden procesar Sitemaps con miles de enlaces.