Cómo volvimos a escanear todos los dominios en Internet

Estoy seguro de que ha visto los titulares "El 40% de los sitios utilizan WordPress", "El 10% de los sitios están en CloudFlare", "La versión XX más común de PHP". Por lo general, no se indica ni el tipo de sitio seleccionado para el análisis ni su tamaño. ¿Casi la mitad de Internet se ejecuta en Wordpress?





Hace tres años publiqué un artículo sobre cómo analizamos las caras de más de 250 millones de dominios disponibles.





A principios de 2021, realizamos una nueva recopilación de datos, agregamos definición de tecnología, seguimiento de píxeles, contenido mejorado y análisis de enlaces.





- : , HTTPs, PHP.





.

? , , - python. , html ( ), , ( csv), . , ( ), , 1-10 .





. 250-260 , .

, , , IP , .. www 500 .

. - RPS ( , RPS, ). , , .

10-20 DNS . DNS, , .





- DNS . . DNS , . , IP , . DNS .





, IP, . IP 4 :

http://domain.com

http://www.domain.com

https://domain.com

https://www.domain.com





IP . , IP IP.





, , , , .. , .





, , robots.txt, sitemap.xml .





Go - , . , .





, . , , , . , random? . Redis sets, + - , .





- SSD, . - () payload .





, Go 1-2 VPS, 5-10 EUR/mo . , , .





252 , 80 443 - 200 , 200 - 148 . .. .





, IP - 2018 13.2 , 2021 - 14.3 IP , A .





, site.com www.site.com https://site.com . .





, .. 4 ( www/non www, http/https)





HTTPS





- (), HTTPS. , https, 106/86 - 1 = 23%.





www www?





, 10 , , www . www , , . : non-www www 50 , www non-www - 37 .





Server





server 143 286 , .





( /), :





- openresty, 4 , 67 . - , nginx, .





X-Powered-By





43 52 .





- PHP, :





La versión 5.6 sigue siendo líder, pero en total las siete ya están por delante.
5.6 , .





wappalyzer. , . - html , url js, css .





, WordPress 23 148 200 = 15% . 55 295 200 = 18% .





Figura sorprendente con cloudflare
cloudflare

Al mismo tiempo, vemos alrededor de 10 millones por hosts con CloudFlare. Quizás en sus estadísticas también cuenten subdominios que no tenemos en la base de datos.





Conclusión

La recopilación y el procesamiento de datos en Internet es una actividad muy interesante que le hace buscar enfoques no estándar, como las colas. Entonces, para insertar controles imaginables y no tan buenos en cada área de procesamiento (como archivos robots.txt por gigabyte).





Para ser honesto, pensé que muchos más números deberían haber cambiado en tres años. De hecho, el volumen total de dominios + - es estable, el número de sitios de trabajo también lo es. La población mundial parece estar creciendo más rápido que el número de sitios en Internet.





Me alegraría escuchar sus comentarios y observaciones.








All Articles