Tres ballenas de análisis lingüístico, sin las cuales InfoWatch Traffic Monitor no puede funcionar

imagen



¡Hola! Hoy hablaremos sobre cómo la lingüística se integra en el trabajo de un sistema DLP y cómo nos ayuda a proteger datos importantes de ataques maliciosos.



Recientemente, la necesidad de las empresas de proteger los datos de las filtraciones de información confidencial ha aumentado de manera significativa. El cambio de empleados a un modo de trabajo remoto ha provocado un aumento significativo de los ciberataques y delitos en el campo de la seguridad de la información: según informes de analistas, en el primer tercio de 2020 el número de filtraciones de información confidencial de empresas rusas aumentó en un 38%, y esta tendencia continúa desarrollándose.



Como regla general, los documentos legales, los documentos financieros, los datos personales de empleados y clientes, etc. están bajo ataque. Para proteger los datos confidenciales de intrusos, las empresas instalan sistemas DLP (prevención de pérdida de datos) para evitar fugas de información.



La tecnología de análisis lingüístico está profundamente integrada en el trabajo de muchos sistemas DLP, ya que el análisis de contenido es una base invariable para filtrar el tráfico con el fin de detectar violaciones, y la calidad de la tecnología determina en gran medida la calidad del producto en sí.



Análisis lingüístico: cómo funciona



La tecnología de análisis lingüístico permite determinar automáticamente el tema y si la información analizada es confidencial, en función de los términos y sus combinaciones encontradas en él .



Para empezar, realizamos un análisis inicial de los documentos: después de que la empresa cliente determina el volumen y contenido de los documentos que son confidenciales y que necesitan ser protegidos (es deseable que haya al menos diez muestras de documentos para cada categoría de información protegida). En el caso de que el cliente no comprenda qué documentos debe proporcionar, puede centrarse en la lista de información restringida adoptada en la organización del cliente), el lingüista destaca los términos- palabras o frases características de una industria en particular y que especifican los detalles del texto. Aquí es extremadamente importante que los términos se encuentren con mayor frecuencia en los textos de los documentos de una industria y muy raramente en otra (por ejemplo, para el sector bancario, los términos típicos pueden ser "saldo de caja", "liquidación y servicios de caja" o "depósito").



- Además, los términos están categorizados . El número de categorías no es determinista, sin embargo, cuantas más categorías se seleccionen, más heterogénea será la clasificación. Las categorías agrupan términos en grupos conceptuales generales para ayudar a organizar la información con mayor claridad.



Al categorizar un término, un lingüista puede definirlo como "característico". Los términos característicos incluyen términos que se encuentran solo en la categoría en la que se ingresaron y no aparecen en ninguna de las otras categorías. Si incluso uno de esos términos se encuentra en el texto interceptado, este texto automáticamente pertenece a la categoría en la que se encuentra este término.



En general, los términos de una categoría pueden oscilar entre tres (el número mínimo de términos no característicos, tras la detección de los cuales el sistema detecta el texto como confidencial) hasta varios miles, según las características específicas de la categoría. Si esta es una categoría que consta solo de términos característicos (por ejemplo, "Drogas", "Terrorismo", etc.), entonces puede haber varios miles de términos en la categoría. Si una categoría consta de términos no característicos (por regla general, estas son categorías basadas en la documentación de la empresa: personal, contabilidad, información legal), entonces es aconsejable limitar el número de términos a unas pocas docenas (de tres a cincuenta).



imagen



- Luego, el lingüista ingresa las categorías en la base de datos de filtrado de contenido (BCF), sobre cuya base se realiza el análisis lingüístico. La base de filtrado de contenido es un diccionario estructurado jerárquicamente que incluye una lista de categorías y términos.



El BKF funciona como un clasificador, a partir del cual se produce la distribución temática de la información analizada.



Al agregar términos no característicos al BCF, se les asigna un peso- un número del 1 al 10 (de forma predeterminada, al crear una categoría, el peso se establece en 5). Los valores de las ponderaciones de los términos en una categoría deben ser proporcionales a la razón de las frecuencias de uso de los términos en el texto, y son precisamente las frecuencias de uso de los términos en relación entre sí; su frecuencia en relación con las palabras en el texto que no están incluidas en el BKF no importa Por ejemplo, si en una de las categorías BKF Introduciremos los términos “glokaya”, “kuzdra” y “shtekto” y les asignaremos los mismos pesos (no importa si tienen un peso de 10 o 1), entonces el texto “Glokaya kuzdra shteko chocó los lados y rizos bokrenka” se detectará con relevancia 1. Si en el texto reenviado, las palabras "glokaya" y "kuzdra" aparecerán 10 veces, y "shteko" - 100 veces, la relevancia del texto de categoría con pesos iguales para todos los términos disminuirá y será aproximadamente 0,69.En este caso, es razonable establecer el peso de los términos “gloka” y “kuzdra” en 1, y el término “shteko” en 10. Entonces la relevancia del texto enviado será 1. Está claro que no siempre es posible observar una proporción tan estricta, pero debe esforzarse por lograrlo.



Para determinar la relevancia del texto de una categoría en particular, se utiliza uno de los modelos de búsqueda clásicos: el modelo vectorial. Esta es una forma bastante popular de trabajar con varios objetos lingüísticos.



imagen



La idea principal se puede describir de la siguiente manera: existe un cierto espacio definido por varios términos (en nuestro caso, este es un documento interceptado por el sistema que contiene información textual). Se construye un vector para el documento interceptado, el valor de cada coordenada del vector será el número de veces que se use el término correspondiente en este documento. Se construye un vector similar para cada categoría de BKF. La dimensión de los vectores es la misma para todos los textos analizados y es igual al número de palabras en el BKF.



Luego, el valor de relevancia de los vectores se puede calcular como el coseno del ángulo entre ellos, usando el producto escalar y la norma: La



imagen



similitud del coseno del documento interceptado y los términos del BKF varía en el rango de 0 a 1: cuanto mayor es este valor, más similar es el documento a una categoría particular.



La tecnología de análisis lingüístico basada en bases de filtrado de contenido tiene una serie de ventajas sobre otras tecnologías de clasificación de texto (que también son utilizadas por los lingüistas de InfoWatch para analizar documentos, pero más sobre ellas más adelante).



La principal característica distintiva de BKF es su "flexibilidad" y la capacidad de personalizar las bases para las necesidades de una empresa en particular. Los lingüistas reponen y ajustan manualmente el contenido del BKF, afinando así la tecnología para cada cliente.



La tecnología de análisis lingüístico basada en el BKF le permite encontrar los términos y frases necesarios, teniendo en cuenta la transliteración, la presencia de errores tipográficos y la morfología: por ejemplo, con un término dado "alquiler de transporte", el sistema reaccionará tanto al "arrendamiento de transporte" como al "arrendamiento de transporte", es decir. mi. a todas las posibles combinaciones de inflexión de este término con erratas. La búsqueda se realiza sobre la base de diccionarios morfológicos (para el ruso es el diccionario de A.A. Zaliznyak, para idiomas extranjeros, diccionarios creados por separado). El detector de errores tipográficos no corrige los términos que se encuentran en el diccionario morfológico, lo que ayuda a evitar reaccionar ante las palabras, la distancia Domerau - Levenshtein (1) entre las cuales es igual a uno.



InfoWatch tiene una gran base de datos de diccionarios de la industria. Hemos desarrollado BKF para una variedad de áreas comerciales, desde el espacio hasta la energía, también tenemos bases de perfil estrecho (por ejemplo, en Islam o que contienen el código fuente de C ++, Java, etc.), diseñadas para propósitos específicos de empresas individuales. También vale la pena agregar que, además del ruso, tenemos 95 BKF en 33 idiomas extranjeros, teniendo en cuenta el soporte de morfología para muchos de ellos.



Autolingüista: protección rápida de documentos estándar



Como regla general, el flujo de trabajo de una empresa individual no difiere en una fuerte variabilidad; en cada uno de los departamentos, se utilizan documentos estándar que son similares en materia y contenido léxico.



Para proteger y clasificar dichos documentos en el "arsenal" de InfoWatch, existe otra herramienta para el análisis de datos de texto: "Autolingüista".



Como sugiere el nombre, la tecnología le permite clasificar automáticamente documentos típicos en categorías predefinidas sin recurrir al análisis manual.



El análisis de documentos en el marco de la creación del BKF suele ser un trabajo largo y que requiere mucha energía (en promedio, un lingüista necesita de 2 a 5 días para resaltar términos, crear categorías y trabajar más con la eliminación de respuestas falsas positivas y falsas negativas), un autolingüista puede acelerar significativamente el proceso de configuración de la categorización de textos.



El clasificador utiliza la biblioteca de aprendizaje automático Liblinear, en particular, el algoritmo de regresión logística (2) , que permite obtener la probabilidad de que un documento de texto pertenezca a una determinada categoría.



El usuario tiene la oportunidad de personalizar el trabajo del "Autolingüista" por sí mismo: habiendo cargado previamente la colección de documentos de entrenamiento y entrenado al clasificador, el usuario puede posteriormente agregar nuevas categorías, así como ajustar el contenido de la base del documento.



Objetos de texto: cuando la expresión regular no es un problema, sino una solución



Otra poderosa herramienta para analizar y detectar la información necesaria son los objetos de texto , una tecnología basada en el uso de expresiones regulares (que, como usted sabe, son una herramienta extremadamente flexible y conveniente que le permite establecer casi cualquier criterio de búsqueda) y se utiliza para proteger datos con un externo fijo. presentando, por ejemplo, números de tarjetas de crédito, detalles de cuentas bancarias, direcciones de correo electrónico, etc.



imagen



Un objeto de texto puede incluir uno o más patrones de expresiones regulares o cadenas (palabras o frases; en este caso, la búsqueda se realizará por una coincidencia exacta de la palabra con la cadena, sin tener en cuenta las peculiaridades de ortografía y morfología).



Para verificar el texto encontrado o una combinación de números y configuraciones, teniendo en cuenta las necesidades del cliente, sin cambiar el código fuente de la tecnología, las funciones de verificación están escritas en Lua.



Daré un ejemplo de una función de verificación para detectar códigos bancarios internacionales en el sistema SWIFT:



imagen



La función elimina el prefijo “SWIFT”, verifica y devuelve el resto del texto sin separadores.



Además de un conjunto de objetos de texto preinstalados (ruso, bielorruso, kazajo, vietnamita, malayo, árabe, así como varios internacionales que cubren datos de casi todas las áreas comerciales), los usuarios tienen la oportunidad de crear sus propios objetos de texto que son únicos para una empresa en particular. Por ejemplo, será importante que una organización de transporte controle los números de VIN de los vehículos y, para una estructura militar, el número de identificación de un militar.



imagen



Amigos, de este artículo aprendieron sobre las principales complejidades del análisis lingüístico dentro del sistema InfoWatch Traffic Monitor: bases de filtrado de contenido y sus conceptos básicos: términos y categorías; Tecnología "autolingüista", capaz de clasificar de forma independiente textos típicos y objetos de texto utilizados para detectar datos de plantilla.



A pesar de la eficacia probada de las tecnologías y los desarrollos que ya tenemos, continuamos desarrollándonos activamente en el análisis semántico, reponiendo regularmente los objetos de texto y BKF existentes y creando nuevos, así como ampliando el alcance de las tecnologías lingüísticas. Definitivamente escribiré sobre todas las innovaciones y "chips" interesantes en el futuro.



¡Compañeros lingüistas, comentan, hacen preguntas difíciles, lanzan enlaces útiles y comparten su experiencia! ¡Hagamos del mundo un lugar mejor juntos!



Autor: Volobrinskaya Valeriavaleria_volob






1. , , , , .

2. , .



All Articles