Blacklight - Inspector de privacidad del sitio web





Blacklight es un inspector de privacidad de sitios web en tiempo real.



Esta herramienta emula formas de observar a un usuario navegando por la web. Los usuarios ingresan la URL deseada en Blacklight, el inspector navega al sitio web, busca tipos conocidos de violaciones de privacidad e inmediatamente devuelve un análisis de privacidad del sitio encuestado.



La forma en que funciona Blacklight es visitar cada sitio web con un navegador sin cabeza (navegador sin interfaz gráfica) que ejecuta un software especializado creado por The Markup. El software monitorea qué scripts en el sitio pueden potencialmente observar al usuario al ejecutar siete pruebas, cada una examinando un método de observación conocido diferente.



Blacklight supervisa los siguientes tipos de vigilancia:



  • Cookies de terceros
  • Rastreadores de publicidad
  • Registradores de teclas
  • Grabación de sesiones
  • Toma de huellas dactilares sobre lienzo
  • Seguimiento de Facebook
  • "Audiencias de remarketing" Google Analytics


A continuación se describen más detalles sobre ellos y sus limitaciones.



Blacklight se basa en el entorno Javascript de NodeJS, la biblioteca Puppeteer Node , que proporciona un alto nivel de control sobre el navegador Chromium (Chrome de código abierto). Cuando un usuario ingresa una URL en Blacklight, la herramienta inicia un navegador sin cabeza con un nuevo perfil y visita la página de inicio del sitio, así como una página seleccionada al azar más dentro del mismo sitio web.



¿Quién te espía mientras trabajas, estudias o navegas por Internet?



Mientras el navegador visita el sitio web, ejecuta un software especializado en segundo plano que monitorea los scripts y las solicitudes de red para comprender cuándo y cómo se recopilan los datos del usuario. Para monitorear los scripts, Blacklight modifica varias propiedades de la API de la ventana del navegador que se pueden usar para la toma de huellas digitales. Esto permite a Blacklight realizar un seguimiento de qué script hizo una llamada a una función específica usando el paquete Stacktrace-js . Las solicitudes de red se recopilan utilizando la herramienta de monitoreo contenida en la API Puppeteer .



Blacklight utiliza datos de secuencia de comandos y solicitudes de red para ejecutar las siete pruebas enumeradas anteriormente. Después de eso, cierra el navegador y genera un informe para el usuario.



Registra una lista de todas las URL que ha solicitado el sitio web buscado. Además, crea una lista de todos los dominios y subdominios solicitados. Una herramienta disponible públicamente no guarda estas listas a menos que el usuario elija compartir los resultados con nosotros usando la opción apropiada.



Definimos nombres de dominio utilizando el método Public Suffix + 1 . Por el concepto de dominio propio (dominio propio) nos referimos a cualquier dominio correspondiente al sitio web visitado, incluidos los subdominios. Por tercero nos referimos a cualquier dominio que no se corresponda con el sitio web que está visitando. La herramienta compara una lista de dominios de terceros de solicitudes de sitios web con el conjunto de datos de Tracker RadarSitio web de DuckDuckGo.



Esta fusión de datos permite que Blacklight agregue la siguiente información sobre dominios de terceros que se encuentran en el sitio bajo investigación:



  1. Nombre del propietario del dominio.
  2. Categorías asignadas por DuckDuckGo a cada dominio, describiendo sus objetivos e intenciones observables.


Esta información adicional sobre dominios de terceros se proporciona a los usuarios como contexto para los resultados de las pruebas de Blacklight. Entre otras cosas, esta información se utiliza para calcular el número de rastreadores relacionados con anuncios presentes en el sitio web.



Blacklight ejecuta pruebas basadas en la URL de la raíz de la página ingresada en la interfaz de la herramienta. Por ejemplo, si el usuario ingresa example.com/sports , entonces Blacklight inicia la exploración desde example.com , eliminando la ruta / sports . Si el usuario ingresa a sports.example.com , Blacklight comienza su exploración en sports.example.com .



Los resultados de las comprobaciones de Blacklight para cada dominio solicitado se almacenan en caché durante 24 horas; Dichos informes almacenados en caché se devuelven en respuesta a solicitudes posteriores de usuarios del mismo sitio web realizadas dentro de esas 24 horas. Esto es para evitar el uso malintencionado de la herramienta al intentar sobrecargar el sitio web con miles de visitas automatizadas.



Blacklight también les dice a los usuarios si sus puntajes son más altos, más bajos o aproximadamente iguales a los de los 100.000 sitios web principales de la Lista Tranco . Más sobre esto a continuación.



El código base de Blacklight es de código abierto y está disponible en Github ; también se puede descargar como módulo NPM .



Nuestro análisis es limitado. Blacklight emula a un usuario que visita un sitio web, pero su comportamiento automatizado es diferente al de un humano, y este comportamiento puede desencadenar varios tipos de vigilancia. Por ejemplo, una solicitud automatizada puede activar más controles de fraude pero menos anuncios.



Dada la naturaleza dinámica de las tecnologías web, también existe la posibilidad de que algunas de estas pruebas se vuelvan obsoletas con el tiempo. Además, puede haber nuevos usos aceptables de la tecnología que Blacklight considere violaciones.



Por esta razón, los resultados de Blacklight no pueden considerarse una decisión final sobre posibles violaciones de privacidad del sitio web. Más bien, deben considerarse como un estudio automatizado inicial que requiere un estudio adicional para una decisión final.



Trabajo previo



Blacklight se basa en varias herramientas de control de privacidad escritas durante la última década.



Ejecuta funciones de JavaScript, lo que le permite realizar un seguimiento de las llamadas a la API de JavaScript del navegador. Este aspecto del trabajo se basa en OpenWPM , una herramienta de medición de la privacidad web de código abierto creada por Steven Englehard, Gunes Akar, Dillon Reisman y Arvind Narayanan de la Universidad de Princeton. Esta herramienta es actualmente compatible con Mozilla.



OpenWPM fue utilizado por el Proyecto de Responsabilidad y Transparencia Web de Princeton , que monitoreaba sitios web y servicios para estudiar cómo las empresas recopilan y usan datos y engañan a los usuarios.



A través de una variedad de estudios realizados entre 2015 y 2019, los investigadores de Princeton han identificado una variedad de tecnologías de violación de la privacidad. Estos incluyen la toma de huellas digitales del navegador y la sincronización de cookies , así como scripts de recreación de sesiones que recopilan contraseñas y datos confidenciales del usuario . Un ejemplo notable son las filtraciones de datos sobre recetas y salud de walgreens.com.



Cinco de las siete pruebas que realiza Blacklight se basan en las técnicas descritas en el estudio de Princeton antes mencionado. Se trata de huellas dactilares de lienzo, registro de teclas, grabación de sesiones y cookies de dominio de terceros.



OpenWPM contiene código y técnicas de otras herramientas de investigación de privacidad, incluidas FourthParty , Privacy Badger y FP Detective :



  • FourthParty fue una plataforma de código abierto para medir contenido web dinámico, lanzada en agosto de 2011 y mantenida hasta 2014. Se ha utilizado en varios estudios, en particular en un estudio que describe la forma en que sitios web como Home Depot filtraron sus nombres de usuario a terceros. Blacklight utiliza la metodología de FourthParty para monitorear la transmisión de información del usuario a través de la red a terceros.
  • Privacy Badger — , Electronic Frontier Foundation 2014 . .
  • FP Detective . 2013 .


Los desarrolladores del análisis de datos de Blacklight se inspiraron en parte en el recopilador de pruebas del sitio web , desarrollado por el Supervisor de Protección de Datos Electrónicos (SEPD) de la Unión Europea. Website Evidence Collector es un paquete de NodeJS que utiliza la biblioteca Puppeteer para estudiar cómo un sitio web recopila datos personales del usuario. El SEPD seleccionó algunas de las categorías de datos recopilados.



Otros proyectos que influyeron en el desarrollo de Blacklight incluyeron el censo de privacidad web de UC Berkeley en 2012 y la serie "What They Know" del Wall Street Journal.



Cómo analizamos cada tipo de seguimiento



Cookies de terceros



Las cookies de dominio de terceros son pequeños datos que las empresas de seguimiento almacenan en el navegador web de un usuario cuando visita un sitio web. Este es un fragmento de texto, generalmente un número único o una cadena de caracteres, que identifica a un visitante cuando visita otros sitios web que contienen un código de seguimiento que pertenece a la misma empresa. Las cookies de dominio de terceros son utilizadas por cientos de empresas para recopilar perfiles de usuario y mostrar anuncios personalizados en función de su comportamiento.



Los navegadores populares, Edge, Brave, Firefox y Safari, bloquean las cookies de seguimiento de dominios de terceros de forma predeterminada , y los desarrolladores de Chrome han anunciado que las rechazarán .



Lo que Blacklight está probando



Blacklight monitorea las solicitudes de red para el encabezado "Set-Cookie" y monitorea todas las cookies de configuración de dominios usando la propiedad de javascript document.cookie . Blacklight identifica las cookies de dominio de terceros como cookies cuyo dominio no coincide con el sitio web que está visitando. Buscamos en DuckDuckGo Tracker Radar estos dominios de terceros para ver quién los posee, con qué frecuencia se utilizan y qué tipos de servicios brindan.



Registro de teclas



El registro de teclas es el proceso de seguimiento por parte de terceros del texto que un usuario ingresa en una página web antes de hacer clic en el botón Enviar. Esta técnica se utiliza para una variedad de propósitos, incluida la identificación de usuarios anónimos , comparándolos con direcciones postales y nombres reales.



También existen otras razones para el registro de teclas, como proporcionar una función de autocompletado. Blacklight no tiene forma de reconocer la intención con la que el sitio web objetivo está utilizando esta técnica.



Lo que Blacklight está probando



Para probar si el sitio está registrando pulsaciones de teclas, Blacklight ingresa texto predefinido (consulte el Apéndice) en todos los campos de entrada, pero nunca hace clic en el botón Enviar. Monitorea las solicitudes de red para verificar si los datos ingresados ​​se transmiten a algún servidor.



Grabación de sesiones



La grabación de sesiones es una tecnología que permite a terceros rastrear y registrar todo el comportamiento del usuario en una página web, incluidos los movimientos del mouse, los clics, el desplazamiento de la página y toda la entrada de formularios sin siquiera presionar el botón Enviar.



En un estudio de 2017Los investigadores de la Universidad de Princeton han descubierto que las grabadoras de sesiones recopilan información confidencial, como contraseñas y números de tarjetas de crédito. Cuando los investigadores se pusieron en contacto con las empresas relevantes, la mayoría respondió rápidamente y eliminaron la causa de las violaciones de datos. Sin embargo, el estudio enfatiza que estos no son solo errores, sino prácticas inseguras que, según los investigadores, deberían detenerse por completo. La mayoría de las empresas que proporcionan la función de grabación de sesiones informan que utilizan los datos para brindar a sus clientes (los sitios web que instalan la tecnología) información útil sobre cómo mejorar la usabilidad del sitio web. Una empresa, Inspectlet, describe su servicio como el seguimiento "del comportamiento de usuarios individuales en un sitio como si estuviéramos detrás de ellos".(Inspectlet no respondió a un correo electrónico solicitando comentarios).





Captura de pantalla de Inspectlet, un conocido proveedor de servicios de grabación de sesiones.



Qué prueba Blacklight



Por grabación de sesión, nos referimos a la carga de un tipo especial de script por una empresa conocida por proporcionar servicios de grabación de sesión.



Blacklight monitorea las solicitudes de red para subcadenas de URL específicas, que, según una lista compilada por investigadores de la Universidad de Princeton en 2017, solo se encuentran al grabar sesiones.



A veces, el registro de teclas se realiza como parte de las sesiones de grabación. En tales casos, Blacklight informa correctamente la grabación de sesiones como registro de teclas y grabación de sesiones, ya que se observan ambos comportamientos, aunque ambas pruebas reconocen el mismo script.



Blacklight reconoce con precisión situaciones en las que un sitio web carga estos scripts; sin embargo, las empresas generalmente solo registran una muestra de las visitas al sitio, por lo que no todos los usuarios están registrados y no todas las visitas.



Toma de huellas dactilares sobre lienzo



La toma de huellas dactilares se refiere a un grupo de técnicas que intentan identificar un navegador sin crear una cookie. Pueden identificar al usuario incluso si ha bloqueado todas las cookies.



La huella digital de lienzo es un tipo de huella digital que identifica a un usuario dibujando formas y texto en la página web de un usuario, notando la más mínima diferencia en la forma en que se representan.





Cuatro ejemplos de huellas dactilares de lienzo encontrados por Blacklight.



Los especialistas en marketing y otros profesionales utilizan estas diferencias en la representación de fuentes, el suavizado, el suavizado y otros aspectos para identificar dispositivos individuales. Todos los principales navegadores de Internet, con la excepción de Chrome, intentan desalentar la toma de huellas dactilares en el lienzo, ya sea no ejecutando consultas de datos para los scripts que se ven en tales prácticas, o esforzándose por estandarizar las huellas dactilares del usuario.



La imagen de arriba muestra ejemplos de tipos de lienzo utilizados por los scripts de huellas digitales. Estos lienzos suelen ser invisibles para el usuario.



Qué pruebas de Blacklight



estamos siguiendo la metodología descrita en este artículoinvestigadores de la Universidad de Princeton para reconocer cuándo se está utilizando el elemento lienzo HTML para el seguimiento. Usamos los siguientes parámetros para identificar los lienzos que se renderizarán mediante huellas digitales:



  • Las propiedades de alto y ancho del elemento de lienzo deben ser de al menos 16 px.
  • La prueba debe estar escrita en el lienzo con al menos diez caracteres.
  • La secuencia de comandos no debe llamar a los métodos save , restore o addEventListener del contexto de representación.
  • El script recupera la imagen usando toDataURL o una sola llamada a getImageData especificando un área de al menos 16px × 16px.


No hemos visto esto en la práctica, pero es posible que Blacklight pueda etiquetar erróneamente el uso juicioso del lienzo para que coincida con estas heurísticas. Para adaptarse a esto, la herramienta captura la imagen renderizada por el script y la renderiza. Los usuarios pueden descubrir cómo usar el lienzo simplemente mirando la imagen. Los resultados de un guión de huellas digitales típico se muestran arriba.



Rastreadores de publicidad



Los rastreadores de publicidad (rastreadores de anuncios) son tecnologías que identifican y recopilan información sobre los usuarios. Estas tecnologías se utilizan normalmente (pero no siempre) hasta cierto punto con el consentimiento de los propietarios del sitio web. Se utilizan para recopilar análisis sobre los usuarios del sitio web, para orientar anuncios, y los corredores de datos y otros recopiladores de datos para crear sus perfiles de usuario. Por lo general, toman la forma de JavaScript y scripts de balizas web.



Las balizas web son imágenes pequeñas de 1 px x 1 px publicadas en sitios web por terceros con fines de seguimiento. Con esta técnica, terceros pueden determinar el comportamiento del usuario: cuando un usuario en particular ingresó al sitio, el tipo de su navegador y la dirección IP utilizada.



Lo que Blacklight está probando



Blacklight verifica todas las solicitudes de red con una lista de EasyPrivacy de URL y subcadenas de URL que se sabe que se rastrean. Blacklight monitorea la actividad de la red para las solicitudes realizadas a estas URL y subcadenas.



Blacklight registra las solicitudes realizadas a dominios de terceros únicamente. Ignora cualquier patrón de URL en la lista EasyPrivacy que coincida con su propio dominio de URL. Por ejemplo, EFF almacena sus propios análisis, por lo que realiza solicitudes a su subdominio de análisis https://anon-stats.eff.org . Si el usuario ingresa a eff.org , Blacklight no considera las llamadas a anon-stats.eff.org como solicitudes a dominios de terceros.



Encontramos estos dominios de terceros en el conjunto de datos DuckDuckGo Tracker Radar para ver quién los posee, qué tan comunes son y qué tipos de servicios brindan. Solo incluimos en la lista aquellos dominios de terceros que se encuentran en las categorías de seguimiento motivado por anuncios del conjunto de datos de Tracker Radar .



Pixel Facebook



Facebook Pixel es un código creado por Facebook que permite a otros sitios web dirigirse a sus visitantes mediante anuncios de Facebook. Algunas de las acciones más comunes rastreadas por un píxel son navegar por una página o cierto contenido, agregar información de facturación o realizar una compra.



Lo que prueba



Blacklight Blacklight busca solicitudes de red del sitio que conduce a Facebook y examina los parámetros de solicitud de datos de URL que coinciden con el patrón descrito en la documentación de píxeles de Facebook. Buscamos tres tipos de datos diferentes: " eventos estándar ", "eventos personalizados" y " coincidencia avanzada ".



"Audiencias de remarketing" Google Analytics



Google Analytics es la plataforma de análisis de sitios web más popular en la actualidad. Según whotracks.me , el 41,7% del tráfico web es analizado por Google Analytics. Si bien la mayor parte de la funcionalidad de este servicio es proporcionar a los desarrolladores de sitios web y propietarios de sitios web información sobre cómo la audiencia de un sitio interactúa con él, esta herramienta también permite que un sitio web cree listas de audiencia personalizadas basadas en el comportamiento del usuario y luego oriente anuncios a esos visitantes Web con Google Ads y Display & Video 360. Blacklight examina los sitios que investiga para esta herramienta, pero no cómo se utiliza.



Lo que Blacklight está probando



Blacklight busca solicitudes de red del sitio bajo investigación que van a una URL que comienza con "stats.g.doubleclick", que también antepone el ID de la cuenta de Google con "UA-". Esto se describe con más detalle en la documentación para desarrolladores de Google Analytics .



Encuesta



Para determinar la prevalencia de las tecnologías de seguimiento en Internet, probamos 100.000 de los sitios web más populares según Tranco List utilizando Blacklight . Los datos y el código de análisis se pueden encontrar en Github . Blacklight ha confirmado con éxito datos para 81.593 de estas URL. Por lo demás, la resolución falló, o se agotó el tiempo de espera después de varios intentos, o no se pudo cargar la página web. Los porcentajes que se muestran a continuación se basan en 81,617 resultados exitosos.



Los principales descubrimientos realizados en nuestra revisión:



  • El 6% de los sitios web utilizan huellas dactilares en lienzo.
  • El 15% de los sitios web descargaron scripts de servicios de grabación de sesiones conocidos.
  • El 4% de los sitios web realizaron el registro de pulsaciones de teclas.
  • El 13% de los sitios no cargaron cookies de dominio de terceros ni solicitudes de red de seguimiento.
  • La mediana de cookies de dominio de terceros es tres.
  • El número medio de rastreadores de anuncios descargados es siete.
  • 74% de los sitios cargados con tecnología de seguimiento de Google.
  • 33% de los sitios web cargados con tecnología de seguimiento de Facebook.
  • El 50% de los sitios utilizaron la función de remarketing de Google Analytics.
  • El 30% de los sitios utilizan el píxel de Facebook.


Hemos clasificado como tecnología de seguimiento de Google cualquier solicitud de red realizada a cualquiera de los siguientes dominios:



  • google-analytics.com
  • Doubleclick.net
  • Googletagmanager.com
  • Googletagservices
  • Googlesyndication.com
  • Googleadservices
  • 2mdn.net


Hemos clasificado como tecnología de seguimiento de Facebook cualquier solicitud de red realizada a cualquiera de los siguientes dominios de Facebook:



  • facebook.com
  • Facebook.net
  • atdmt.com


Limitaciones



El análisis de Blacklight está limitado por cuatro factores principales:



  1. Esta es una simulación del comportamiento del usuario, no su comportamiento real, que puede desencadenar otras respuestas del sistema de seguimiento.
  2. El sitio web que se está monitoreando puede rastrear las acciones del usuario con buenos propósitos.
  3. Falsos positivos (posibles con huellas dactilares de lienzo): En muy raras ocasiones, el uso razonable del elemento de lienzo HTML es el mismo que la heurística que utiliza Blacklight para identificar las huellas dactilares de lienzo.
  4. : Javascript- Blacklight window API . , jQuery, jQuery , Blacklight , . , ; , 100 000 .


Para los falsos positivos, cuando Blacklight visita un sitio, ese sitio puede ver que la solicitud proviene de computadoras alojadas en la infraestructura de nube de Amazon AWS. Dado que las botnets se utilizan a menudo en la infraestructura de la nube, nuestra herramienta puede activar el software de reconocimiento de bots en el sitio, incluida la toma de huellas digitales en el lienzo. Esto puede generar falsos positivos para la prueba de huellas dactilares de lienzo, aunque la prueba no se utiliza para rastrear usuarios, sino para reconocer botnets.



Para probar esto, tomamos una muestra aleatoria de 1,000 sitios de la parte superior de la lista Tranco que ya ejecutamos en Blacklight en AWS. Ejecutamos esta muestra a través del software Blacklight en nuestra computadora local con una dirección IP en Nueva York y descubrimos que los resultados del análisis de Blacklight en las instalaciones eran muy similares, pero no exactamente iguales a los resultados de la ejecución en la infraestructura de la nube.



Resultados de muestra: máquina local y AWS



Local AWS
Toma de huellas dactilares sobre lienzo 8% diez%
Grabación de sesiones Dieciocho% 19%
Registro de teclas 4% 6%
Cookies medianas de terceros 4 cinco
Número medio de rastreadores de terceros 7 8


No todas las actividades de seguimiento que son invisibles para el usuario son necesariamente maliciosas. Por ejemplo, la toma de huellas dactilares en lienzo se utiliza para prevenir el fraude porque permite la identificación de dispositivos. Y el registro de teclas se puede utilizar para implementar la funcionalidad de autocompletar.



Blacklight no intenta inferir las razones para utilizar las tecnologías de seguimiento específicas que detecta.



Blacklight tampoco puede determinar con precisión cómo un sitio web está utilizando los datos del usuario que recopila al cargar scripts para registrar sesiones y monitorear el comportamiento del usuario, como los movimientos del mouse y las pulsaciones de teclas.



Blacklight no revisará los términos de uso y las políticas de privacidad del sitio web para cualquier divulgación de sus actividades de seguimiento de usuarios.



solicitud



Valores de campo de entrada La



siguiente tabla enumera los valores que hemos escrito en Blacklight para ingresar campos de entrada en sitios web. Hemos utilizado el artículo de Mozilla sobre el atributo de autocompletar como referencia. Blacklight también comprueba las versiones base64, md5, sha256 y sha512 de estos valores.



Atributo de autocompletar Significado de luz negra
Fecha 01/01/2026
Correo electrónico blacklight-headless@themarkup.org
Contraseña SUPERS3CR3T_PASSWORD
Buscar TheMarkup
Texto IdaaaaTarbell
URL themarkup.org
Organización El marcado
Título de la organización Sala de redacción sin fines de lucro
contraseña actual S3CR3T_CURRENT_PASSWORD
Nueva contraseña S3CR3T_NEW_PASSWORD
Nombre de usuario idaaaa_tarbell
Apellido Tarbell
Nombre de pila Idaaaa
Nombre IdaaaaTarbell
Dirección Apartado de correos # 1103
Dirección Línea 1 Apartado de correos # 1103
Código postal 10159
Nombre CC IDAAAATARBELL
CC-Nombre-dado IDAAAA
CC-apellido TARBELL
Número CC 4479846060020724
CC-Exp 20/0126
Tipo CC Visa
cantidad de transacción 13371337


Expresiones de gratitud



Agradecemos a Gunes Akar (Universidad de Lovaina), Stephen Englehard (Mozilla), Arvind Narayanan y Jonathan Mayer (Princeton Princeton, CITP) por sus comentarios y sugerencias sobre el borrador del artículo.






Publicidad



Los servidores para alojar sitios son épicos de Vdsina.

Usamos unidades NVMe extremadamente rápidas de Intel y no ahorramos en hardware , ¡solo equipos de marca y las soluciones más modernas del mercado!






All Articles