Cuando se hace
Hacking con Buscadores siempre se espera que los dorks funcionen sobre el
100 % de las
URLs de un determinado dominio. Debido a esto, normalmente se utiliza
Google como motor de hacking con buscadores por su potencia de indexación, ya que si lo comparamos con, por ejemplo
Bing, el número de
URLs de un dominio descubiertas suele ser mayor.
Por ejemplo, si miramos las URLs que tiene indexadas Bing del dominio Army.mil, podemos ver que no llega a las 700.000.
|
Figura 1: URLs del dominio army.mil indexadas por Bing |
Por el contrario, si probamos la misma consulta con Google, como se puede, se obtienen más de 2.700.000 URLs indexadas y recolectadas por Google, lo que es casi 4 veces más URLs descubiertas e indexadas en el buscador.
|
Figura 2: URLs descubiertas por Google del dominio Army.mil |
Sin embargo, no hay que dejarse llevar por los triunfalismos a la hora de hacer
Google Hacking. De esas
2.700.000 URLs que
Google ha indexado, no todas van a estar disponibles en su índice para consultas, ya que el buscador mete muchas en lo que se llama el
Índice Suplementario.
Ese índice secundario es donde se ponen las
URLs que el buscador ha descubierto, pero que, por ser un contenido repetido o de escaso valor, el motor decide apartar de la base de datos que pone disponible para las consultas al resto de los usuarios. Así que, de estas
2.700.000 URLs, solo una porción están disponibles en el buscador, y el resto están en lo que originalmente se llamó
«la Deep Web», o lo que es lo mismo, lejos de los usuarios por haber sido apartadas del camino normal de los usuarios.
Para saber el número de URLs que realmente están disponibles para las búsquedas, hay que utilizar una consulta terminada con el operador &, de tal manera que solo saldrán aquellas que van a estar en el índice primario. En este caso concreto, mirando las URLs del mismo dominio vemos que hay un poco más de 1.000.000, lo que sigue siendo un poco más de las que tienes disponibles en Bing.
|
Figura 3: URLs del dominio army.mil en el índice primario de Google |
|
Figura 4: URLs de documentos descubiertos en WhiteHouse.org con distintos buscadores |
En las búsquedas normales en
Google – sin utilizar el parámetro
& – por defecto los resultados están filtrados por otra serie de factores, ya que
Google va a quitar aquellas páginas que considera que tienen un contenido poco apropiado, para lo que es absolutamente necesario hacer las
búsquedas con el filtro SafeSearch desactivado. Esto se hace con el parámetro
safe=off.
Y, en segundo lugar, hay que seleccionar que se muestren todas las URLs, independientemente de si Google ha considerado que para esa búsqueda concreta no aporta valor y son resultados duplicados. Esto se hace con el parámetro filter=0. Por defecto Google elimina cuando hay más de 2 URLs en el mismo directorio (Duplicate Directory Filter) y cuando hay más de dos resultados con el mismo título y descripción aunque sean distintas URLs (Duplicate Snippet Filter)
|
Figura 5: Información de Google sobre filtrado de URLs en los resultados |
Como se puede ver, haciendo una búsqueda de todos los resultados disponibles – repetidos o no – y desactivando el filtrado de SafeSearch, y buscando solo en el índice primario con & como mucho se obtiene el total de resultados en el índice primario de Google, lo que será el máximo número de URLs a que podemos aspirar.