Investigación: cómo los datos anónimos se vuelven personales y subcontratados

Hace una semana, me llamaron de nuevo y me ofrecieron comprar un auto nuevo en el salón, donde nunca he estado seguro. A una simple pregunta acerca de dónde obtuvo la persona que llamaba mi número de teléfono y mi nombre y patronímico, hubo una respuesta directa: seleccionamos su número al azar de la capacidad numérica. No creí en esta explicación, y decidí preguntar cómo funciona el mercado de datos y entender quién puede fusionar información sobre los usuarios y con qué facilidad y maestría los monopolistas de Internet eluden la Ley "Sobre Datos Personales" (No. 152-FZ).



Lea debajo del recorte sobre quién está monetizando mis datos y cómo terminan en manos de empresas cuyos servicios nunca he utilizado: bancos, compañías de seguros, centros médicos, desarrolladores inmobiliarios y otras organizaciones con molestas llamadas publicitarias. Y sí, esto es largo, como quieras.



Nuestro hermoso país pasó la primavera y principios del verano de 2020 en autoaislamiento. Además del evidente aumento de la carga financiera sobre las empresas, la necesidad de que las personas usen máscaras en todas partes y tengan que trabajar desde casa, este período de tiempo mostró claramente lo fáciles y simples que son algunos participantes del mercado con los datos personales de los rusos.



Antecedentes



Me motivó a escribir este artículo en una entrevista con Tigran Oganesovich Khudaveryan en los medios ( TheBell , Roem ) sobre el trabajo del servicio Yandex para evaluar el índice de autoaislamiento.



Permítanme recordarles brevemente cuál es el punto: casi simultáneamente con el anuncio del régimen "como días no laborables en todo el país", el gigante de Internet Yandex comenzó a informar periódicamente sobre el cumplimiento de las medidas de autoaislamiento por parte de los ciudadanos. Los funcionarios y los medios de comunicación consultaban estos datos a diario. Y aunque ahora este tema se está desvaneciendo gradualmente en un segundo plano, las preguntas a la fuente principal de tales datos no han ido a ninguna parte.



Dado que Yandex estuvo involucrado anteriormente en, digamos, una actitud tolerante hacia los usuarios, recordemos la historia de la vigilancia a través de aplicaciones.- Es razonable suponer que los datos sobre la ubicación actual de los ciudadanos durante el autoaislamiento se recopilaron mediante aplicaciones móviles con geolocalización. Y en sí mismo, el método de vigilancia a través de dispositivos inteligentes es obvio. En la capital, por ejemplo, hubo una historia flagrante en general: a pesar de la abundancia de violaciones de la legislación actual, el DIT de Moscú obligó a la gente a firmar un acuerdo oneroso con otro "camarada mayor" similar.



Y aunque en su entrevista, el director general de Yandex afirma:



“No participamos en nada de esto. Confieso que este es un punto delicado para nosotros, porque constantemente se sospecha que estamos involucrados en esta vigilancia. Pero tenemos nuestro propio principio dentro de la empresa: en ningún caso, incluso en una situación difícil, debemos violar los principios por los que se ha guiado Yandex desde sus inicios ".



- no hay fe en ello. Los periodistas no hicieron la pregunta más importante: ¿sobre la base de qué datos formó Yandex su calificación "confidencial" ? Esto es importante, porque no hay respuesta al acceso gratuito: el gigante de Internet simplemente no revela su metodología:







es razonable suponer que el término "datos sobre el uso de varias aplicaciones y servicios de Yandex" significa monitorear los movimientos de los ciudadanos. Pero es poco probable que alguno de ustedes y yo dimos su consentimiento directo para tal vigilancia.



Cómo funciona el mercado de datos



En la década de los 90 vendían bases de datos en el mercado bombas con CD. Hoy en día, puede obtener una lista de los contactos necesarios aún más rápido, ni siquiera necesita ir a ningún lado.



Formas obvias pero ilegales



Puedes buscar los datos de otra persona en redes sociales, o en canales especiales de telegramas, no daré los nombres de los públicos, seguro que los encontrarás tú mismo si lo deseas.







Algunos ciudadanos más avanzados actúan de manera diferente - que publican un acuerdo oferta en sus sitios, de donde se deduce que los datos se obtiene de fuentes públicas e incluso cita referencias a los artículos de la ley que parecen permitir que hagan esto: El







único matiz es que en Los documentos en el sitio web de Avito dicen que está expresamente prohibido por las reglas analizar la base de datos de contactos del sitio de Internet avito.ru por sí solo.



Asimismo, los vendedores de bases de datos en línea recopilan información de todas las fuentes posibles.... Todos estos métodos, digamos francamente, son ilegales, ya que violan las disposiciones de la Ley "Sobre Datos Personales" (No. 152-FZ). Estoy 100% seguro de que ni una sola persona cuerda de dichas bases de datos ha dado su consentimiento para la difusión pública de información sobre ellos mismos por parte de dichas empresas a través de Internet.



Ataque de hombre en el medio



La forma de filtrar información a través de empleados de empresas con acceso a la base de clientes también es obvia. No prestemos demasiada atención a este aspecto.



La única forma de tratar con estas personas es el control de acceso, el diseño competente de la base de contactos y el uso de mecanismos antifraude desarrollados por los oficiales de seguridad de la información. Estos últimos, por cierto, atrapan regularmente a los "vendedores" y los entregan a los agentes del orden.



Formas sutiles de recopilar datos



Las empresas de Internet, seamos sinceros, se han vuelto completamente insolentes y han ideado un nuevo método de manejo gratuito de los datos de los usuarios. Hoy, todos los actores más importantes de este mercado recopilan un expediente sobre nosotros, usuarios pobres, que James Bond, Richard Sorge, Mata Hari y Austin Powers juntos los envidiarán. Además, ninguno de los usuarios autorizó a la empresa de Internet a cobrar dicha factura.



Todo el mundo ha escuchado la historia de las elecciones estadounidenses, en las que la victoria republicana se aseguró mediante la orientación de anuncios a usuarios de Google y Facebook. Además, estas empresas compartieron datos con una organización externa Cambridge Analytics, que formó el "público objetivo" de los anuncios. La recopilación de datos también se utiliza en China; la ahora popular red social también se ha hecho famosa recientemente .utilizando métodos de seguimiento ilegales que están prohibidos incluso por las reglas de Google.



Debo decir que el ruso Yandex monitorea de cerca las acciones de colegas extranjeros y usa métodos similares: la compañía se esconde detrás de una pantalla de "datos impersonales", que, como ha demostrado mi experiencia personal de un no programador, con la habilidad debida se puede descifrar incluso sentado en el sofá de casa.



En diciembre del año pasado, apareció un artículo interesante en RBC , que hablaba del proyecto conjunto de Yandex y la Oficina de Historias de Crédito (BCH) para transferir datos sobre el comportamiento de los usuarios en Internet. Tal como lo concibieron los autores de esta solución, los bancos podrán recibir información adicional sobre las personas que necesitan de Yandex, teniendo solo la dirección de correo electrónico y el número de teléfono móvil del cliente.



Una fuente anónima en el artículo dijo que Yandex recibe datos en forma hash, después de lo cual los algoritmos internos determinan una determinada evaluación para una persona específica, y es esta evaluación la que se devuelve al BKI. Todo esto se ve bastante ordenado, pero hay un matiz: el artículo contiene la opinión de Alexander Pakhomov, socio gerente de Law and Business Management Company, quien, como yo, cree que cuando se realiza este procedimiento, los datos anonimizados nuevamente se vuelven personales:







Cómo los datos anónimos se vuelven personales



Tratemos de averiguar qué está sucediendo "bajo el capó" de este servicio. Debo decir de inmediato que es difícil para mí hacer esto, ya que a menudo disfruto de la gracia de la gran y hermosa Rusia, y no paso mis días de trabajo en reuniones en las salas de reuniones de la moderna oficina de Yandex en Moscú. Por lo tanto, les insto a que compartan información y me corrijan si me equivoco o en algo.



Paso 1. hash de los datos



Comencemos examinando lo que Yandex significa en el concepto de datos "encriptados", "hash" o "impersonales". Y el servicio público Yandex.Audience nos ayudará con esto .



De su descripción se deduce que el servicio permite a los anunciantes llegar a sus clientes. Además, para lograr este objetivo, solo necesita indicarle a Yandex algunos identificadores de clientes: números de teléfono o direcciones de correo electrónico. Estos datos se pueden descargar explícitamente, por ejemplo, como un archivo de texto o de tabla. Y puedes, también de forma impersonal. Para ello se utiliza el algoritmo hash MD5.



Luego, el servicio funciona de la siguiente manera: Yandex calcula un usuario específico, conociendo sus datos personales, y le muestra mensajes publicitarios específicos en varios servicios y portales de Yandex.



¿Qué sabemos sobre MD5?
MD5 128- . , 128- , . 

. , — , .



MD5 1991 , 1993 . , . , «» MD5. 2008 .



Paso 2. Descifrar hashes MD5



Técnicamente, el craqueo MD5 se puede realizar de cuatro formas:



  • Búsqueda de diccionario
  • Fuerza bruta
  • Arco iris-crack
  • Colisión de función hash


Obviamente, la opción más rápida y sencilla es utilizar tablas de arco iris. De hecho, para implementar este método, solo necesitas conocer el hash y hacer tu tabla según ciertos criterios.



Cómo funcionan las tablas arcoíris
, , . , , , — 9. , 11.



. :







, - . 83910123456. MD5 — fba55dd11f758ab4f03fad3c5f19ba75.



, … , — Plaintext!







, , . , — , , .



«» — , . .



Paso 3. Comparación de datos



No cabe la menor duda de que Yandex almacena datos en forma cifrada. En términos relativos, el buscador tiene un perfil de cada usuario registrado, donde, entre otras cosas, se indican sus direcciones de correo electrónico y número de teléfono. Estos datos se pueden codificar fácilmente y, si es necesario (como ya hemos visto anteriormente), eliminarlos.



Además, habiendo recibido una lista de contactos de los anunciantes en cualquier forma, no es difícil para Yandex compararlos con su base de datos interna, que contiene los mismos identificadores. En pocas palabras, Yandex compara el identificador de su perfil de usuario para que coincida con los datos solicitados del anunciante. Esto permite la visualización dirigida de anuncios a un usuario específico al ingresar a la página de un servicio Yandex en particular.



Identificación única de usuarios



No puede haber ningún intercambio de datos impersonales cuando se trabaja de acuerdo con este esquema. Todas las partes identifican de forma única a un usuario específico en el proceso de prestación de servicios. Con los burós de crédito, a juzgar por los comentarios y descripciones, se aplica exactamente el mismo esquema. Y aparentemente, Yandex usa una solución sospechosamente similar a la plataforma Crypt .



Sin embargo, Yandex nunca ha anunciado públicamente la posibilidad de hacer coincidir dichos perfiles con números de teléfono móvil o correos electrónicos de sus usuarios. Pero, como aprendimos de los materiales de los medios, Yandex hace exactamente esto, al menos cuando trabaja con United Credit Bureau.



¿Por qué no contarle honestamente a sus clientes sobre esto, porque todo ya está en la superficie? En cambio, los oradores de Yandex hablan tímidamente sobre la falta de “información personal” y citan otros términos ficticios que están ausentes en la legislación de la Federación de Rusia y permiten eludir algunos problemas de circulación y protección de los datos de los ciudadanos.



Un poco de práctica: Yandex, ¡encontré tu violación de 152-FZ!



¿Yandex solita hashes? No puedo responder de manera inequívoca a esta pregunta, después de todo, no trabajo para esta empresa y no conozco el funcionamiento interno. Sin embargo, puedo hacer dos suposiciones:



  • Las capacidades del servidor de Yandex le permiten eliminar rápidamente hashes MD5 sin sal;
  • para trabajar con hashes salados, ambas partes necesitan conocer la sal.


Evidentemente, en el caso del servicio de anunciante, se utilizan hashes sin sal. De lo contrario, la interfaz para anunciantes tendría que tener un campo para especificar la sal. ¡Y no está ahí! Echemos un vistazo de cerca a la captura de pantalla en la descripción de Yandex.Audiencia :







Preste atención al signo de interrogación junto a la casilla de verificación "Datos hash". Vayamos al servicio en sí y coloquemos el cursor sobre esta pregunta.







Vemos tres hashes: a31259d185ad013e0a663437c60b5d0 , 78ee6d68f49d2c90397d9fbffc3814d1 y 702e8494aeb560dff987e623e71bccf8 . Además, al primero claramente le falta algo: solo hay 31 caracteres, ¡pero debería haber 32! Por tanto, descartaremos este hash inmediatamente.



Tampoco pude descifrar los segundos dos hashes a través de la tabla de arco iris creada anteriormente. Pero decidí intentar forzarlos brutalmente. Para hacer esto, necesitaba reconfigurar una granja minera de 6 tarjetas de video de clase GeForce GTX1060 de ether mining para trabajar con el programa hashcat .







Le dije al programa que buscara por una máscara de 11 dígitos (vea la flecha superior en la captura de pantalla). Como resultado, mi granja normal eliminó el hash del número de teléfono en uno de los hash en solo 22 segundos. ¡Imagínese lo rápido que puede usar hash de fuerza bruta en las instalaciones de Yandex!



Ahora determinemos quién es el propietario de este número, solo púlselo a través de la aplicación móvil Numbuster :







Ahora vamos al motor de búsqueda, y en cuestión de momentos obtenemos toda la información que necesitamos:







Verifica y jaque mate, Yandex, gracias a la información abierta de tu propio sitio, ¡acabo de descubrir en un par de clics quién hizo exactamente tu servicio! No hace falta decir que cualquiera de los que están leyendo este artículo puede repetir fácilmente la misma acción. ¿Por qué le hiciste esto a Yaroslav?



Qué datos puede haber en el perfil de cada usuario



Para utilizar los servicios de Yandex, debe proporcionar su número de teléfono móvil y correo electrónico. Yandex sabe casi todo sobre mí a través de sus aplicaciones y servicios: desde los sitios que visito (donde se encuentra Yandex.Metrica, y hay más del 54% de ellos en el Runet ) hasta el número de teléfono que indico en las aplicaciones. Conoce mis rutas desde el Yandex.Vaya superappa, mis enfermedades, mis preferencias en la música. Yandex sabe a qué cines voy, qué películas veo, qué productos compro en la tienda y qué comida pido.



Esta  informacion, según la compañía, "se utiliza principalmente para sus propias necesidades y la colocación de publicidad dirigida en base al conocimiento de las preferencias del cliente". La clave aquí es "principalmente". Anteriormente, se creía que Yandex es una empresa innovadora que brinda a los usuarios servicios gratuitos y gana dinero con la publicidad en Internet. Pero como sabemos por los medios, ahora Yandex al menos vende datos a través de la Oficina de Historias de Crédito ; mostraré el trabajo del mecanismo de transferencia de datos justo debajo. Es razonable suponer que habrá muchas personas que quieran comprar información sobre los usuarios del gigante de Internet en relación con números de teléfono y direcciones de correo electrónico.



En otras palabras, ahora los bancos, las compañías de seguros y legales, los centros médicos, los desarrolladores pueden obtener el número de una persona que visitó un determinado sitio o buscaron un determinado producto y llamarlo para sus fines publicitarios. O negarse a emitir un seguro o un préstamo bancario.



¿A quién vende los datos el Buró de Crédito?



No es necesario ser un analista especial para comprender que el CRI consolida datos sobre personas específicas no solo para los bancos. En el sitio web de la estructura con la que trabaja Yandex, se puede ver que, además del scoring bancario, también están disponibles para los clientes otros servicios:



Servicio "Triggers Bureau"



La información sobre tus acciones en modo disparador se transmite a Bancos y Compañías de Seguros:







Presta atención a la lógica de este servicio: te pones a monitorear los números de teléfono de tus clientes, y tan pronto como realizan alguna acción que te interesa, recibes una notificación al respecto. ... En este caso, no se transmiten datos sobre acciones específicas del cliente. Solo el hecho de la acción específica: presentar o emitir una póliza de seguro de automóvil, solicitar un taxi, etc.



Conveniente, ¿verdad? ¿Especialmente desde el punto de vista de explicar la posición "los datos del cliente no se transmiten y procesan en Yandex"? Después de todo, la información sobre una acción en forma de visita a un sitio web específico se puede reportar simplemente transfiriendo un número de móvil con hash, sin ningún dato sobre la visita al sitio. Y el hash, que mencioné anteriormente, se puede comparar fácilmente con los hash de la base de usuarios. Incluso puede, para simplificar, tomar una base de datos de todas las combinaciones posibles de números de teléfono móvil en Rusia; está disponible en el sitio web de la Agencia Federal de Comunicaciones .



Una vez más, resulta que los datos "cifrados", "hash" y "despersonalizados" en términos de Yandex no son realmente eso. Y ciertamente el esquema descrito por Yandex no interfiere con la venta de estos datos en el marco de los servicios considerados de las agencias de crédito, que pueden ser la fuente misma de llamadas de spam a mi teléfono.







Las compañías de seguros, habiendo obtenido acceso a los datos de los servicios de mapeo de Yandex y su obra maestra Yandex.Go superapp, pueden determinar:



  • donde vivo y trabajo;
  • con qué frecuencia viajo en automóvil;
  • qué rutas tomo;
  • qué tan rápido estoy conduciendo;
  • ¿Cuál es mi estilo de conducción? Freno bruscamente, de forma imprudente o conduzco con suavidad.


Y esto no es especulación, el hecho de recopilar estos datos por parte de Yandex se dio a conocer en 2019, gracias a la introducción de la legislación europea sobre protección de datos de los ciudadanos, el llamado GDPR. Según él, cualquier empresa está obligada a proporcionar a los ciudadanos de la UE información sobre qué datos recopila y analiza al respecto.



Los periodistas de la edición Meduza aprovecharon la ley GDPR , quienes desde Lituania solicitaron datos sobre uno de sus empleados.



El artículo de Meduza dice que el periodista recibió un archivo de los empleados de Yandex, que, entre otras cosas, contenía un archivo con todo el historial de movimientos. La información se rastreó en el momento en que se lanzó la aplicación en el teléfono inteligente, incluso en segundo plano. El periodista llama a esto "el historial de lanzamiento de la aplicación Mapas en un iPhone con las coordenadas exactas de donde sucedió" (archivo traffic_sessions.csv ).



Es interesante que Yandex no proporcione dicha información a los ciudadanos de la Federación de Rusia. Además, hasta ahora Yandex ni siquiera ha brindado un servicio que permita comprender quién y cuándo solicitó los datos acumulados sobre el usuario. Incluso Facebook tiene un servicio de este tipo, y el propio usuario puede solicitar y ver toda la información sobre sí mismo.



¿Qué información personal recopila Yandex con precisión?



Consultemos los documentos legales en el sitio web de Yandex . Desde el punto 4, aprendemos que el gigante de Internet puede recopilar las siguientes categorías de información personal de los usuarios mientras usa los sitios y servicios de Yandex:



  • Información personal: nombre, número de teléfono, dirección y edad;
  • Datos electrónicos (encabezados HTTP, dirección IP, cookies, balizas web / etiquetas de píxeles, datos de identificación del navegador, información de hardware y software);
  • fecha y hora de acceso a sitios y / o servicios;
  • información sobre la actividad del usuario mientras usa sitios y / o servicios: historial de consultas de búsqueda; direcciones de correo electrónico de aquellos con quienes el usuario mantiene correspondencia; contenido y archivos adjuntos de correo electrónico , así como archivos almacenados en los sistemas Yandex;
  • ;
  • , , ;
  • , — .


?



La respuesta a esta pregunta se puede encontrar en el mismo documento, estamos mirando atentamente el punto 5. Además de propósitos claros como:



proporcionar a los usuarios resultados de búsqueda para consultas de búsqueda;

cumplimiento de las obligaciones que establece la ley;

Para comprender mejor cómo los usuarios interactúan con los sitios y servicios,



Yandex señala por separado que la recopilación de datos personales es necesaria para ofrecerle otros productos y servicios de Yandex u otras empresas que, en nuestra opinión, pueden interesarle (subcláusula " c "párrafo 5).



Sin embargo, la ley "Sobre datos personales" (No. 152-FZ) es categórica: El artículo 15 establece que "el procesamiento de datos personales con el fin de promover bienes, obras, servicios en el mercado a través de contactos directos con un consumidor potencial sólo se permite con el consentimiento previo del sujeto de los datos personales". Del lado de los usuarios, las autoridades reguladoras son FAS, Rospotrebnadzor y Roskomnadzor.



Al mismo tiempo, el gigante de Internet transfiere libremente a otras empresas bases de datos con identificadores personales supuestamente impersonales, que, según el gigante de Internet, han dejado de ser datos personales. Y Yandex se ha asegurado este derecho a "compartir" a través de una línea discreta en el impresionante texto de su propia política de privacidad.



En lugar de una conclusión



¿Es todo legal? Después de todo, no le di a Yandex el derecho de revelar información sobre mí a nadie. Los abogados que conozco dicen que los datos de Internet y los identificadores de Internet son un campo "gris" en nuestra legislación y es imposible responsabilizar a Yandex por la venta de dichos datos sobre usted.



Y qué justo es que Yandex gane dinero con mis datos, sin explicarme exactamente cómo sucede esto y por qué se forman estas ganancias, porque esto ha sido durante mucho tiempo no solo la notoria publicidad de las planchas, que, después de buscar una "plancha", te alcanza por 2 semanas más en todos los sitios. ... Esto tiene un impacto directo en la calidad de mi vida y la disponibilidad de servicios y servicios sociales, como préstamos, seguros, atención médica.



De acuerdo, la evaluación de mí como prestatario o asegurador basada en información sobre mi comportamiento en Internet, que también ocurre "en la oscuridad" y se basa solo en términos velados y ofertas escondidas en los sótanos, parece absolutamente poco ético y opaco. Esto es muy molesto.



A pesar del GDPR y el endurecimiento de las leyes sobre el uso de datos personales de ciudadanos en Rusia, el gigante de Internet continúa monetizando información sobre nosotros y monitorea de manera absolutamente abierta todas nuestras acciones a través de sus servicios. Incluso escondiéndose detrás del tema socialmente importante de informar a la población y a las autoridades sobre la observancia del régimen de aislamiento, como en el caso del coronavirus. Surge una pregunta razonable: ¿quién más utiliza nuestros datos además de Yandex y sus clientes comerciales?



All Articles