Crawling traducido al español, y dentro del SEO, es “rastrear” y se refiere al proceso con el que Google va buscando y visitando todas las páginas web a las que tiene acceso en Internet y siguiendo los enlaces que va descubriendo en estas webs para recopilar el contenido que va “leyendo”, y que luego usará para mostrar los resultados de las búsquedas.
[smart_track_player url=”http://www.ivoox.com/que-es-crawling_mf_38137616_feed_1.mp3″ title=”¿Qué es el crawling?” social=”false”]
¿Para qué sirve el crawling?
Este rastreo o “crawleo” le sirve a Google para encontrar toda la información posible en Internet. Lo hace con lo que se suele llamar un “robot”, “bot” o “araña”, que en verdad no es más que un conjunto de servidores muy potentes de Google controlados por una serie de programas informáticos, que son los que deciden qué sitios rastrear y el crawl budget asignado, es decir, la forma y el tiempo que le van a dedicar a ese sitio para rastrearlo.
Google tiene muchos “bots” rastreadores, pero los más conocidos son:
- Googlebot: el rastreador “general” de Google y con el que entra a las páginas para verlas tal y como se verían con un ordenador de escritorio (lo que suele llamarse desktop).
- Smartphone Googlebot: el rastreador por defecto que usa Google y con el que entra a las páginas para verlas tal y como se verían con un dispositivo móvil (smartphone o tablet)
☝ Con la herramienta de Google Search Console puedes ver qué páginas de tu sitio han sido rastreadas correctamente (y con qué “bot”) o si ha habido algún problema, para que lo puedas solucionar y luego pedir a Google que vuelva a intentar rastrearlas.
Y también puedes usar un fichero llamado robots.txt para controlar cómo quieres que Google rastree tu sitio o incluso si no quieres que lo haga.
Ejemplo de crawling
Desde el menú de ‘Cobertura’ de Search Console puedes ver el estado del rastreo que suele hacer Google en tu sitio, y en mi caso concreto por ejemplo me indica la fecha del último rastreo y que el bot que lo hizo es el Googlebot para Smartphones.
Además me dice las páginas rastreadas sin problema, las que no ha podido rastrear, las que ha rastreado pero tienen algún problema, etc.