Esta es una explicación algo superficial de lo que pasa cuando se realiza una búsqueda.
Pero tratando de comprender todo lo que incluye una búsqueda y dándole un enfoque de SEO encontré muchas cosas que deben de tomarse en cuenta así que revisé estas referencias:
https://www.youtube.com/watch?v=0q5ygrtFtrA
https://support.google.com/webmasters/answer/70897?hl=en
http://moz.com/beginners-guide-to-seo/search-engine-tools-and-services
Estos podrían ser los pasos que sigue una búsqueda segun las referencias, se dividen en tres procesos (utilizaré la palabra "rastreo" en vez de "crawling"):
Crawling: ¿Como Google sabe acerca del sitio?
Crawling es el proceso por el cual el "Googlebot/robot/bot/spider" descubre paginas nuevas y actualizadas para agregarlas al "Google Index".
1. Googlebot empieza con una lista de URLs de paginas web, generadas de procesos anteriores de rastreo.
2. Agreda los Sitemap (XML que lista URLs del sitio para que Googlebot rastree el sitio de manera más inteligente) proveídos por webmasters.
3. Googlebot lee el archivo robots.txt entonces encuentra:
(no todos los "spiders" siguen lo que dice este archivo, al menos Googlebot si lo hace).
4. Googlebot lee de cada pagina el "Meta Robots tag" y verifica si debe indexarla y también si debe seguir o no los links de la pagina.
5. Googlebot detecta otros links en las paginas que visita tomando en cuenta lo siguiente:
Y entonces los links que si puede seguir son agregados a su lista de paginas para rastrear.
*. El algoritmo de Googlebot determina que sitios rastrear (que so son webspam) y sus frecuencias de rastreo (esto lo hace en algun momento).
Indexing: ¿Puede Google indexar el sitio?
6. Googlebot, en cada pagina que rastrea, procesa información incluida en: "Key content tags" y en otros atributos como el Titulo, y en los ALT.
7. Crea un indice de todas las palabras que encuentra en cada pagina (Google Index).
Serving: ¿El sitio tiene contenido bueno y util que es relevante en la busqueda de un usuario?
8. El usuario realiza una consulta.
9. El buscador busca en el Google Index, paginas que coinciden con la consulta.
10. Retorna los resultados organicos y resultados patrocinados (paid results) que se cree que son los mas relevantes para el usuario. Esta relevancia se calcula por muchos otros factores y deben ser descritos en otros posts.
Una herramienta muy buena para mejorar el rendimiento de un sitio en los tres procesos, que utilizan los webmaster es Google Webmaster Tools, sobre la cual escribiré en otro post.
Pero tratando de comprender todo lo que incluye una búsqueda y dándole un enfoque de SEO encontré muchas cosas que deben de tomarse en cuenta así que revisé estas referencias:
https://www.youtube.com/watch?v=0q5ygrtFtrA
https://support.google.com/webmasters/answer/70897?hl=en
http://moz.com/beginners-guide-to-seo/search-engine-tools-and-services
Estos podrían ser los pasos que sigue una búsqueda segun las referencias, se dividen en tres procesos (utilizaré la palabra "rastreo" en vez de "crawling"):
Crawling: ¿Como Google sabe acerca del sitio?
Crawling es el proceso por el cual el "Googlebot/robot/bot/spider" descubre paginas nuevas y actualizadas para agregarlas al "Google Index".
1. Googlebot empieza con una lista de URLs de paginas web, generadas de procesos anteriores de rastreo.
2. Agreda los Sitemap (XML que lista URLs del sitio para que Googlebot rastree el sitio de manera más inteligente) proveídos por webmasters.
3. Googlebot lee el archivo robots.txt entonces encuentra:
- Que áreas del sitio no debe rastrear
- La ubicación del sitemap
- La velocidad (en milisegundos) a la que Googlebot puede rastrear el sitio.
(no todos los "spiders" siguen lo que dice este archivo, al menos Googlebot si lo hace).
4. Googlebot lee de cada pagina el "Meta Robots tag" y verifica si debe indexarla y también si debe seguir o no los links de la pagina.
5. Googlebot detecta otros links en las paginas que visita tomando en cuenta lo siguiente:
- No considera el link que tiene el atributo 'rel="nofollow"', que podría ser un link hacia una fuente no confiable o simplemente para no dejar que este sea un backlink del sitio referenciado.
- Considera los links que tienen 'rel="canonical"' como las versiones originales de la pagina actual, ya que los duplicados afectan en el ranking.
Y entonces los links que si puede seguir son agregados a su lista de paginas para rastrear.
*. El algoritmo de Googlebot determina que sitios rastrear (que so son webspam) y sus frecuencias de rastreo (esto lo hace en algun momento).
Indexing: ¿Puede Google indexar el sitio?
6. Googlebot, en cada pagina que rastrea, procesa información incluida en: "Key content tags" y en otros atributos como el Titulo, y en los ALT.
7. Crea un indice de todas las palabras que encuentra en cada pagina (Google Index).
Serving: ¿El sitio tiene contenido bueno y util que es relevante en la busqueda de un usuario?
8. El usuario realiza una consulta.
9. El buscador busca en el Google Index, paginas que coinciden con la consulta.
10. Retorna los resultados organicos y resultados patrocinados (paid results) que se cree que son los mas relevantes para el usuario. Esta relevancia se calcula por muchos otros factores y deben ser descritos en otros posts.
Una herramienta muy buena para mejorar el rendimiento de un sitio en los tres procesos, que utilizan los webmaster es Google Webmaster Tools, sobre la cual escribiré en otro post.