Análisis de sentimientos en textos en ruso, parte 1: introducción

imagen

El análisis de sentimientos se ha convertido en una herramienta poderosa para el procesamiento a gran escala de opiniones expresadas en cualquier fuente de texto. La aplicación práctica de esta herramienta en inglés está bastante desarrollada, lo que no se puede decir del ruso. En esta serie de artículos, consideraremos cómo y con qué fines se utilizaron los enfoques de análisis de sentimientos para los textos en ruso, qué resultados se lograron, qué problemas surgieron y también hablaremos un poco sobre direcciones prometedoras. A diferencia de trabajos anteriores, me concentré en las aplicaciones aplicadas y no en los enfoques en sí mismos y su calidad de clasificación. La primera parte es introductoria. Consideraremos qué es el “análisis de sentimientos”, qué es y cómo se ha utilizado durante los últimos 8 años para analizar textos en ruso. En la segunda parteEchemos un vistazo más de cerca a cada uno de los 32 estudios principales que encontré. En la tercera y última parte (nuevamente, la próxima semana), hablaremos sobre las dificultades comunes que enfrentan los investigadores, así como sobre direcciones prometedoras para el futuro.



NB: El artículo fue escrito para una revista científica, por lo que habrá muchos enlaces a las fuentes.


1. Introducción



El análisis de sentimientos es una clase de métodos de análisis de contenido en lingüística computacional, cuya tarea principal es clasificar el texto según su estado de ánimo. Al utilizar el análisis de sentimientos, los investigadores pueden generalizar el sentimiento de los textos y sacar conclusiones sobre diferentes temas. Por ejemplo, este análisis permite predecir el mercado de valores [1], calcular el índice de bienestar subjetivo [2], predecir resultados electorales [3], evaluar la reacción a algunos eventos o noticias [4]. El análisis de sentimientos para el inglés ya está bien desarrollado [5] - [7], mientras que otros idiomas, especialmente el ruso, han recibido mucha menos atención hasta ahora. Según un estudio de Omnibus GFK [9], 75,4 rusos (90 millones de personas) mayores de 16 años utilizan Internet. Hay diásporas de habla rusa en todos los continentes, pero la mayor parte vive en la CEI,principalmente en Rusia y Ucrania. Según un estudio de W3Techs, el ruso es uno de los idiomas líderes en términos de prevalencia en Internet. En abril de 2020, el 8,6% de los 10 millones de sitios web más populares del mundo estaban en ruso. Por lo tanto, los textos en ruso son una fuente importante de datos para el análisis automático, especialmente el análisis de sentimientos.



Sólo un estudio de encuesta [10] realizado por Viksna y Jekabsons está dedicado al análisis del sentimiento de los textos en ruso. Varios otros [11] - [14] lo mencionan en el contexto de una comparación general con los enfoques existentes. Algunos otros estudios están dedicados a aspectos específicos del análisis del sentimiento de los textos en ruso. Por ejemplo, la evaluación de los mejores enfoques [15] - [18], la comparación de arquitecturas de redes neuronales para el análisis de sentimientos [19], [20], la comparación de selecciones de vocabulario abierto en ruso para la evaluación de sentimientos [21]. Sin embargo, todos estos estudios se han centrado en los enfoques en sí mismos y su velocidad de clasificación, más que en la aplicación práctica y los resultados del análisis. Solo consideré aquellos trabajos, durante los cuales se obtuvieron los resultados del análisis en base a datos reales. Y no consideré los que se dedican únicamente a la formación de clasificadores.Este artículo es una traducción condensada de un artículo publicado en IEEE Access. Si desea obtener más detalles, o simplemente leer en inglés,aquí .



La segunda sección describe brevemente la tarea del análisis de sentimientos y los enfoques actuales, si ya está familiarizado con esto, no dude en omitir. La tercera sección es una de las principales, examina los usos del análisis de sentimientos para textos en ruso, también describe 32 estudios principales, sus puntos de vista y debilidades. La cuarta sección está dedicada a los desafíos actuales y la quinta a áreas prometedoras.



2. Brevemente sobre los métodos de análisis de sentimientos



El análisis de sentimientos es una clase de métodos de análisis de contenido en lingüística computacional, cuya tarea principal es clasificar el texto según su estado de ánimo. En casos simples, el problema del análisis de sentimientos se reduce a una clasificación binaria de textos en positivos y negativos. En algunos casos, agregue otra clase de textos neutrales. Los enfoques más avanzados intentan identificar los estados emocionales asociados con un texto, como el miedo, la ira, la tristeza o la felicidad. En varios enfoques, a los textos se les asignan valores de una escala predeterminada: por ejemplo, de -2 para negativo a 2 para positivo; por tanto, el análisis se reduce a un problema de regresión. El análisis de sentimientos basado en aspectos es un subconjunto del análisis de sentimientos, cuya tarea es determinar la actitud hacia un aspecto específico del tema principal de discusión.Todos los enfoques del análisis de sentimientos se pueden dividir en tres grupos.



El primero son los enfoques basados ​​en reglas(basado en reglas). Muy a menudo, utilizan reglas de clasificación definidas manualmente y vocabularios marcados emocionalmente. Estas reglas suelen calcular la clase de texto [22] - [24] basándose en palabras clave emocionales y su combinación con otras palabras clave. Si bien son excelentemente efectivos en la materia, los métodos basados ​​en reglas son poco generalizables. Además, su creación requiere mucho tiempo, especialmente cuando no hay acceso a un diccionario de opiniones adecuado. Este último es especialmente característico del idioma ruso, porque no hay tantas fuentes en él como en inglés, especialmente en el campo del análisis de sentimientos. Los diccionarios de sentimientos en ruso más grandes son RuSentiLex [25] y LINIS Crowd [26]. Pero solo contienen información sobre la tonalidad de positivo a negativo, sin las características de las emociones. De este modo,no existen alternativas a colecciones tan poderosas en inglés con características emocionales extensas como SenticNet [27], SentiWordNet [28] y SentiWords [29].



Segundo grupo: enfoques de aprendizaje automático... Utilizan la extracción automática de características del texto y aplican algoritmos de aprendizaje automático. Los algoritmos clásicos para la clasificación de polaridad son el Clasificador Naive Bayes [30], el Árbol de Decisión [31], la Regresión Logística [32] y la Máquina de Vector de Soporte [33]. En los últimos años, los métodos de aprendizaje profundo han atraído la atención de los investigadores, que son significativamente superiores a los métodos tradicionales en el análisis de sentimientos [34]. Esto es confirmado por la cronología de la competencia SemEval, durante la cual las soluciones líderes utilizaron con éxito redes neuronales convolucionales (CNN) y recurrentes (RNN) [35] - [37], así como métodos de aprendizaje por transferencia [38].Una de las principales características de los sistemas basados ​​en el aprendizaje automático es la extracción automática de características del texto. Los enfoques simples para representar texto en el espacio vectorial suelen utilizar el modelo de bolsa de palabras. En sistemas más complejos para generar incrustaciones de palabras, se utilizan modelos de semántica distributiva, por ejemplo, Word2Vec [39], GloVe [40] o FastText [41]. También hay algoritmos para generar incrustaciones a nivel de oración o párrafo, que están diseñados para transferir el aprendizaje a través de diferentes tareas de procesamiento del lenguaje natural. Estos algoritmos incluyen ELMo [42], Codificador de oración universal (USE) [27], Representaciones de codificador bidireccional de Transformers (BERT) [43], Representación de lenguaje mejorada con entidades informativas (ERNIE) [44] y XLNet [45].Una de sus principales desventajas en cuanto a generar incrustaciones es la necesidad de grandes cantidades de texto para la formación. Sin embargo, esto es cierto para todos los métodos de aprendizaje automático, porque todos los algoritmos de aprendizaje supervisado requieren conjuntos de datos etiquetados para entrenarse.



Tercer grupo: enfoques híbridos... Combinan los enfoques de los dos tipos anteriores. Por ejemplo, Kumar y sus colegas han desarrollado un marco híbrido para el análisis de sentimientos en persa que combina reglas lingüísticas, redes neuronales convolucionales y LSTM para la clasificación de sentimientos [46]. Meskele y Frasincar propusieron un modelo híbrido de análisis de aspectos ALDONAr que combina la ontología de sentimientos para capturar información de sentimientos, BERT para incrustaciones de palabras y dos capas CNN para una clasificación de sentimientos extendida [47]. El modelo mostró una precisión del 83,8% en el conjunto de datos de la Tarea 12 de SenEval 2015 [48] y del 87,1% en el conjunto de datos de la Tarea 5 de SemEval 2016 [49]. Los modelos de lenguaje se utilizan a menudo en algoritmos híbridos, al igual que las soluciones basadas en reglas [50] - [52]. Un lado,una combinación de métodos basados ​​en reglas y aprendizaje automático generalmente produce resultados más precisos. Por otro lado, los enfoques híbridos heredan las dificultades y limitaciones de sus algoritmos constituyentes.



3.



Para encontrar publicaciones clave sobre el análisis de sentimiento aplicado de textos en ruso, busqué bases de datos científicas que cubren las principales revistas y conferencias de informática: IEEE Xplore, ACM Digital Library, ScienceDirect, SAGE Journals Online y Springer Link . Para ampliar la gama de fuentes, además de los artículos en inglés, también estudié artículos en ruso del Russian Science Citation Index (RSCI). La búsqueda se realizó por consulta (('' SENTIMENTO '' O '' POLARIDAD '') Y ('' ANÁLISIS '' O '' DETECCIÓN '' O '' CLASIFICACIÓN '' O '' OPINIÓN MINERA '' O '' MODELADO DE TEMA '' ') Y (' 'RUSO' 'o' 'RUSIA' ')).La mayoría de los artículos relevantes se encuentran en ScienceDirect , Springer Link y RSCI... También revisé las publicaciones preliminares de los trabajos de los principales investigadores para no perderme novedades. Como resultado, se recopilaron varios miles de artículos potencialmente relevantes, sin contar la literatura gris y los preprints. Se prefirieron las obras más frescas y citadas. Luego analicé los títulos, las palabras clave y las presentaciones del resto de las publicaciones para delimitar mi selección de fuentes. Solo se realizaron búsquedas en artículos revisados ​​por pares para mejorar la calidad de la muestra. He excluido las fuentes grises (por ejemplo, trabajos en progreso, editoriales, cualquier disertación) así como las inadecuadas para mi investigación (que no aplican modelos de clasificación de sentimientos). Luego, para obtener más detalles en este artículo, seleccioné manualmente 32 publicaciones importantes.que describió al menos un enfoque práctico para el análisis de sentimientos en textos en ruso.



4.



imagen

. 1. .



Decidí categorizar los enfoques por fuente de datos, porque en este caso, los enfoques dentro de las categorías tendrán objetivos, desafíos y limitaciones similares. Aunque algunas categorías contienen solo un estudio, decidí resaltarlas debido a las diferencias fundamentales en los enfoques utilizados, resultados y dificultades. Además, no olvidemos que el idioma ruso ha sido menos estudiado en cuanto al análisis de sentimientos, por lo que el número de trabajos es limitado. En la Fig. 1 presenta un conjunto de categorías. La mayoría de los enfoques se basaron en el análisis de datos de las redes sociales para medir las actitudes de los usuarios hacia diferentes temas. Por ejemplo, actitudes y opiniones sobre el conflicto en Ucrania y los problemas relacionados con los migrantes. En la última década, muchas redes sociales se han convertido en herramientas modernas para el compromiso social [53],por tanto, pueden percibirse como fuentes de opinión pública abiertas y ampliamente disponibles, o al menos como algún tipo de reflejo de la misma [54]. La CGU de las redes sociales, como fuente de información más común, se investigó de acuerdo con tres criterios: actitudes hacia diferentes temas; índices de humor social; características de la interacción del usuario con datos que expresan diferentes estados de ánimo. Se estudiaron las actitudes hacia diferentes temas desde diferentes puntos de vista. Por ejemplo, las actitudes hacia los migrantes y los grupos étnicos (por ejemplo, [55]), expresiones de sentimiento durante la crisis de Ucrania (por ejemplo, [56]), medir el nivel de tensión social (por ejemplo, [57]) o centrarse en el discurso sobre algunos temas importantes. preguntas (por ejemplo, [58]). Normalmente, estos enfoques utilizan una combinación de modelos de temas y análisis de sentimientos,para resaltar temas y estados de ánimo relacionados. En gran parte de la investigación (por ejemplo, [59] - [67]), donde el modelado de temas se aplica sin una clasificación de polaridad adicional (y por lo tanto no se trata en este artículo), el análisis de sentimientos se denomina una etapa de desarrollo adicional. En otra parte de la investigación (por ejemplo, [68]) se calculan índices de actitud social a partir de opiniones expresadas en redes sociales con el fin de obtener una alternativa al tradicional índice de bienestar subjetivo. Finalmente, otra investigación (por ejemplo, [69]) examina los patrones de interacción del usuario con el contenido dependiendo de su color emocional. Una de las principales dificultades de estos estudios es la extracción de muestras de datos representativas y la selección de textos relevantes para su posterior análisis.En gran parte de la investigación (p. Ej., [59] - [67]), donde el modelado de temas se aplica sin una clasificación de polaridad adicional (y, por lo tanto, no se trata en este artículo), el análisis de sentimientos se denomina una etapa de desarrollo adicional. En otra parte de la investigación (por ejemplo, [68]) se calculan índices de actitud social a partir de opiniones expresadas en redes sociales con el fin de obtener una alternativa al tradicional índice de bienestar subjetivo. Finalmente, otra investigación (por ejemplo, [69]) examina los patrones de interacción del usuario con el contenido dependiendo de su color emocional. Una de las principales dificultades de estos estudios es la extracción de muestras de datos representativas y la selección de textos relevantes para su posterior análisis.En gran parte de la investigación (p. Ej., [59] - [67]), donde el modelado de temas se aplica sin una clasificación de polaridad adicional (y, por lo tanto, no se trata en este artículo), el análisis de sentimientos se denomina una etapa de desarrollo adicional. En otra parte de la investigación (por ejemplo, [68]), los índices de actitud social se calculan a partir de las opiniones expresadas en las redes sociales con el fin de obtener una alternativa al tradicional índice de bienestar subjetivo. Por último, otra investigación (por ejemplo, [69]) examina los patrones de interacción del usuario con el contenido según su color emocional. Una de las principales dificultades de estos estudios es la extracción de muestras de datos representativas y la selección de textos relevantes para su posterior análisis.en los que se aplica el modelado de temas sin una clasificación adicional de polaridad (y, por lo tanto, no se tratan en este artículo), el análisis de sentimientos se denomina una etapa de desarrollo adicional. En otra parte de la investigación (por ejemplo, [68]) se calculan índices de actitud social a partir de opiniones expresadas en redes sociales con el fin de obtener una alternativa al tradicional índice de bienestar subjetivo. Por último, otra investigación (por ejemplo, [69]) examina los patrones de interacción del usuario con el contenido según su color emocional. Una de las principales dificultades de estos estudios es la extracción de muestras de datos representativas y la selección de textos relevantes para su posterior análisis.en el que el modelado temático se aplica sin una clasificación adicional de polaridad (y por lo tanto no se tratan en este artículo), el análisis de sentimientos se denomina una etapa de desarrollo adicional. En otra parte de la investigación (por ejemplo, [68]), los índices de actitud social se calculan a partir de las opiniones expresadas en las redes sociales con el fin de obtener una alternativa al tradicional índice de bienestar subjetivo. Finalmente, otra investigación (por ejemplo, [69]) examina los patrones de interacción del usuario con el contenido dependiendo de su color emocional. Una de las principales dificultades de estos estudios es la extracción de muestras de datos representativas y la selección de textos relevantes para su posterior análisis.



La siguiente fuente de información más común son las reseñas de productos y servicios. Se analizaron en función de las características de los propios revisores (por ejemplo, [70]), las características de los productos y servicios (por ejemplo, [71]) y las características de los vendedores (por ejemplo, [72]). A diferencia del análisis de los datos generados por los usuarios de las redes sociales, no hay ninguna dificultad para acceder a los datos antiguos. Los sitios dedicados a las reseñas a menudo permiten a los usuarios calificar las calificaciones además del texto de la reseña, por lo que no hay una necesidad formal de crear un modelo de clasificación de opiniones, porque ya conocemos las clases de calificación. Sin embargo, en algunos estudios, los modelos de clasificación de sentimientos se utilizan únicamente por interés académico. Dado que los datos de los usuarios de las redes sociales y las reseñas de los usuarios a menudo reflejan puntos de vista subjetivos,analizar estos datos es diferente a analizar noticias. Por lo general, los periodistas intentan evitar juicios y prejuicios, dudas y ambigüedades, ya que la objetividad está en el corazón de su profesión. o al menos neutralidad [73]. Por tanto, los periodistas a menudo no utilizan palabras relacionadas con vocabulario positivo o negativo, sino que recurren a otras formas de expresar su opinión [74].



La tercera fuente principal fueron las noticias de los medios de comunicación, que se analizaron de acuerdo con dos criterios: el sentimiento (por ejemplo, [75]) y la formación de pronósticos económicos y empresariales basados ​​en el sentimiento de las noticias (por ejemplo, [76]). A diferencia del análisis de los datos generados por los usuarios de las redes sociales, no existe ninguna dificultad para acceder a los datos antiguos, porque los medios no suelen restringir el acceso a ellos. Sin embargo, los autores de algunos estudios han intentado determinar la actitud del público hacia temas específicos, lo que, en mi opinión, requiere una mayor elaboración. Por supuesto, los medios de comunicación pueden considerarse un reflejo de la opinión pública. Pero en algunos casos, la política editorial puede haber influido en la presentación, por lo que las noticias no siempre reflejan la opinión pública. Los investigadores prestaron un poco menos de atención a la dirección más reciente: el análisis del sentimiento de los libros de texto,tales estudios aparecieron solo en 2019. Estos trabajos se enfocan en comparar sentimientos expresados ​​en diferentes libros de texto (por ejemplo, [77]) y el impacto de estos sentimientos en el proceso educativo (por ejemplo, [78]). El principal desafío proviene de la falta de vocabulario específico del estado de ánimo y conjuntos de datos de aprendizaje orientados a libros de texto. Además, en el caso de los textos analíticos a nivel de documento, se vuelve difícil asociar textos con una determinada clase de estados de ánimo, porque los textos de los libros de texto son largos y pueden contener varias emociones diferentes a la vez.orientado a libros de texto. Además, en el caso de textos analíticos a nivel de documento, resulta difícil asociar textos con una determinada clase de estados de ánimo, porque los textos de los libros de texto son largos y pueden contener varias emociones diferentes a la vez.orientado a libros de texto. Además, en el caso de los textos analíticos a nivel de documento, se vuelve difícil asociar textos con una determinada clase de estados de ánimo, porque los textos de los libros de texto son largos y pueden contener varias emociones diferentes a la vez.



Para captar una gama más amplia de opiniones, algunos estudios operan con fuentes de datos mixtas. En este grupo, los investigadores suelen estudiar las actitudes hacia diferentes temas, como la crisis de Ucrania (por ejemplo, [79]) o la cobertura mediática de Alexei Navalny (por ejemplo, [80]). Dado que las fuentes son mixtas, estos datos se pueden utilizar para cualquier posible investigación. Sin embargo, además de la amplia gama de opiniones expresadas, los autores también enfrentan complejidades y limitaciones inherentes a las fuentes.



Un resumen de los enfoques encontrados se presenta en la Tabla 1. Si consideramos la distribución de artículos por año, podemos ver que el número de estudios sobre el sentimiento del texto en ruso aumentó en 2014-2016 y alcanzó un pico en 2017. El número de artículos publicados en las mismas revistas y actas de congresos varía un poco. Más de uno de los artículos analizados se publicó solo en siete revistas y colecciones. La mayoría de los artículos descubiertos se publicaron en la colección de materiales de la conferencia "Transformación digital y sociedad global".



Tabla 1. Resumen de estudios descubiertos. RB: enfoques basados ​​en reglas, ML: enfoques de aprendizaje automático, UNK: enfoques desconocidos, WL: análisis a nivel de palabra, DL: análisis a nivel de documento.



Categoría Cita Descripción Enlace
UGC . [81] ML (Logit) DL
[82] ML (Logit) DL
[83] ML (Logit) DL
[84] RB (SentiStrength) DL
[55] ML (SVM) DL
. [85] RB (custom) DL
[86] RB (POLYARNIK) DL
[87] RB (SentiMental) DL
[88] UNK (IQBuzz) DL
[56] RB (custom) DL
. [89] ML (SVM) DL
[57] RB (SentiStrength) DL
. [58] DL
2014 . [90] RB (SentiStrength) DL
2011-2012. [91] RB (SentiStrength) DL
-. [92] ML (NBC) DL
. [93] RB (custom) WL, DL
[68] ML (GBM) DL
. [69] ML (BiGRU) DL
, . [70] DL
- . [71] ML (NB, SGD) DL
, . [72] ML (RNTN) DL
. [94] RB (custom) DL
[95] RB (custom) DL
. [96] RB (custom) DL
. [75] UNK (Medialogia) DL
. [76] ML (SVM) DL
. [77] RB (custom) WL
, . [78] ML ( ) DL
[97] UNK (Crimson Hexagon) DL
[79] UNK (Crimson Hexagon) DL
[80] UNK (Medialogia) DL


La proporción de enfoques basados ​​en reglas (40,63%) y aprendizaje automático (37,5%) fue aproximadamente igual. El primer grupo usó con mayor frecuencia modelos basados ​​en reglas individuales o SentiStrength [22], que se ha convertido en el algoritmo más popular entre las soluciones de terceros listas para usar. Y en el segundo grupo, la regresión logística [32], la máquina de vectores de soporte [33] y el clasificador bayesiano ingenuo [30] fueron los más utilizados. Los más populares fueron los métodos simples de aprendizaje automático, y solo el 16.7% estaban en redes neuronales. Sin embargo, desde 2019, la proporción de enfoques de aprendizaje automático ha superado significativamente la proporción de enfoques basados ​​en reglas. El 15,6% de los estudios encontró que utilizaba servicios en la nube de terceros como Medialogia, IQBuzz y Crimson Hexagon para el análisis de sentimientos.En estos casos, no pude determinar los enfoques utilizados debido a la falta de información oficial sobre los algoritmos de clasificación aplicados.



En varios casos, se encontraron fallas metodológicas, incluida la falta de descripciones de preprocesamiento, marcado de datos, proceso de aprendizaje y métricas de calidad de clasificación. En varios casos, el modelo de clasificación no se validó con un conjunto de datos relacionado con el área temática. Esto es especialmente cierto para el análisis de sentimientos que utiliza enfoques basados ​​en reglas o servicios de terceros: los investigadores generalmente no marcaban manualmente conjuntos de textos y, por lo tanto, no podían evaluar la calidad de la clasificación.



5. Siguiente



La segunda parte del artículo se publicará la próxima semana, en la que analizaremos más de cerca cada uno de los 32 estudios principales que encontré. En la tercera y última parte (nuevamente, la próxima semana), hablaremos sobre las dificultades comunes que enfrentan los investigadores, así como sobre direcciones prometedoras para el futuro. Si desea leer el artículo completo de una vez y en inglés, vaya aquí .



6. Fuentes



Puede encontrar una lista completa de fuentes aquí .



All Articles