Taller de investigación. Asistentes virtuales activados por voz: ¿qué les pasa?

Introducción



Los analistas que investigan los servicios de chatbot y asistente virtual prometen un crecimiento del mercado de al menos un 30% anual. En términos absolutos, a partir de 2019, el mercado estaba valorado en más de $ 2 mil millones por año. Prácticamente todas las empresas de TI líderes en el mundo han lanzado asistentes de voz virtuales, y Apple, Google y Amazon ya han hecho la mayor parte de su popularización.



imagen



El mercado ruso también tiene sus propios líderes en esta área. Yandex se convirtió en el primer actor importante en lanzar su propio asistente de voz en Rusia. Según los datos publicados oficialmente por la compañía, 45 millones de usuarios utilizan a Alice al mes, y el número de solicitudes mensuales al asistente es de más de mil millones. Según los expertos, 2020 podría ser un punto de inflexión para el mercado de asistentes de voz: la competencia entre plataformas y marcas conducirá a un aumento en el reconocimiento de asistentes. ...



En general, no hay duda de que el mercado de los asistentes de voz es un nicho interesante. Y la primera idea que me viene a la mente es tomar cualquiera de los servicios ASR (Reconocimiento automático de voz) y TTS (Texto a voz) disponibles, vincularlos a un constructor de bot que tenga soporte para NLU (Comprensión del lenguaje natural), ¡y listo! Además, todo esto se puede implementar con bastante facilidad y rapidez en plataformas en la nube como Twilio y VoxImplant.



El único problema es que el resultado será muy mediocre. ¿Cuál es la razón para esto? En primer lugar, intentemos comprender por qué un conjunto de tecnologías bastante buenas, juntas, dan un resultado tan mediocre. Esto es importante porque en la vida real, un cliente siempre dará preferencia al servicio cuyo servicio de voz sea más conveniente, interesante, inteligente y rápido que otros.



Cómo funciona un asistente de voz típico



En primer lugar, notamos que nuestro habla es una secuencia de sonidos. El sonido, a su vez, es la superposición de vibraciones sonoras (ondas) de diferentes frecuencias. Una onda, como sabemos por la física, se caracteriza por dos atributos: amplitud y frecuencia. Algoritmo de trabajo del asistente de



imagen

señales de voz



:



  1. , , – . , «», .. .



    , , , - . ( ), «» . , , — , — . , , . , , , , .



    , , , , . , ASR .



    , – . , .



    , .
  2. El resultado del trabajo del asistente de voz, obtenido en la primera etapa, se transmite al bot, con soporte NLU para identificar intenciones, entidades, llenar espacios y formar el texto de respuesta.



    Como resultado, en la salida obtenemos una presentación de prueba de la frase de respuesta, que es la reacción de nuestro asistente de voz a la solicitud recibida.
  3. La respuesta del asistente de voz se transmite al servicio de síntesis de voz, que posteriormente se transmite a la persona.


Problemas emergentes



A pesar de la corrección aparentemente obvia del enfoque implementado, en el caso de un asistente de voz, conlleva muchos problemas. Estos son los principales:



  1. Retrasos
  2. Retrasos




  3. . , , 500 , .



    , 1 . - « » : «!» « ?». , , , , -, .



    , :



    • . – « »: , , .
    • .
    • .
    • .


    !

  4. . , .. . . , , , .. .
  5. . , . , , – .
  6. – . . , .



    :



    — ?

    — . , ? ?



    – « » : « » « ». « » , « » « ».
  7. -. .



    :



    — ---… ---…

    — , , … --…

    — , , --… , …



    , .. , , . .. , .
  8. , TTS-.


?



En primer lugar, al implementar un asistente de voz, es imperativo asegurarse de que el interlocutor sea "escuchado", incl. en esos momentos en que el propio asistente virtual da voz al mensaje saliente. La elección de escuchar o responder es una implementación extremadamente pobre y debe evitarse en la vida real.



En segundo lugar, debe optimizar la velocidad de todos los componentes del sistema. Sin embargo, en algún momento, definitivamente nos encontraremos con los límites de la posible reducción de latencias y la complicación de los escenarios de procesamiento del lenguaje natural. Por lo tanto, nos llega el entendimiento de que es necesario cambiar fundamentalmente el enfoque para la implementación del servicio de voz.



La idea principal que subyace al nuevo enfoque es tomar un ejemplo del proceso implementado por el cerebro humano. ¿Ha notado que una persona, en el transcurso de una conversación, comienza a analizar el mensaje que dice el interlocutor, no en el momento en que estaba completamente terminado, sino casi de inmediato, al comienzo de su sonido, aclarando con cada nueva palabra? Por esta razón, a menudo estamos listos para dar una respuesta incluso antes de que el interlocutor haya terminado su mensaje.



Si volvemos al algoritmo que debería implementar el asistente virtual de voz, puede verse así (como ilustración, considere la pregunta entrante: "¿Dónde está el cajero automático más cercano?"):



  1. ASR , . .



    :



    a) «»

    b) «»

    c) «»

    d) «»
  2. , ,



    :



    a) «»

    b) « »

    c) « »

    d) « »
  3. , NLU, .



    :



    a) : «». :

    b) : « ». : « » 50%, « » 50%

    c) : « ». : « » 50%, « » 50%, « » = « »

    d) : « ». : « » 100%, « » = « »



    imagen



  4. , 1 , , , , :



    • ;
    • ;
    • , .. 3.


    , , ( – = 0%).



    , . , , , , , .
  5. Tan pronto como se revela que el usuario ha terminado su mensaje (determinado por el retraso en el flujo de entrada), volcamos la respuesta correspondiente a la intención detectada más probable en el búfer de salida. Mejor aún, para optimizar la velocidad, mantenga en el búfer de salida no la representación textual de la respuesta, sino inmediatamente el fragmento de audio recibido del TTS, acumulando así la versión completa del mensaje de audio de respuesta.
  6. Anunciamos el contenido del búfer de salida al usuario.


Formas de mejorar la calidad del trabajo del asistente.



Veamos qué métodos están disponibles para mejorar aún más la calidad de nuestro asistente virtual de voz:







  1. . , . , (/ , ..) .
  2. «»



    «» , , . , «» .



    , «» , , .




  3. , , . .. , , , . , , , . , ..




  4. , -. .



    , , « ». – , . , , .




  5. , . , .. .




  6. , , . , , , . , .



    . online.


-



Hasta ahora, hemos considerado solo las características técnicas de la implementación de asistentes de voz virtuales. Pero debemos entender que el éxito no siempre depende solo de la perfección de la implementación técnica. Analicemos el ejemplo ya considerado: "¿Dónde está el cajero automático más cercano?" y comprender cuál es la peculiaridad de su implementación en la interfaz de voz.



Ya sabe, existe una regla que se aplica a los gerentes de ventas: "Lo que no se puede vender por teléfono no debe venderse por teléfono". Por esta misma razón, la respuesta del formulario "El cajero automático más cercano se encuentra en ..." no es informativa para una persona. Si supiera bien la zona donde se encuentra ahora, es decir, Si hubiera sabido los nombres de todas las calles cercanas y los números de las casas, lo más probable es que hubiera sabido dónde está el cajero automático más cercano. Por lo tanto, una respuesta de este tipo probablemente provocará inmediatamente la formación de otra pregunta: "¿Dónde, pues, se acaba de nombrar la dirección?" Una respuesta mucho más informativa sería la opción: "El cajero automático más cercano se encuentra a unos cien metros de usted en dirección al sureste", o mejor aún, también enviar a una persona un mensaje como ubicación en los mapas de Yandex o Google.



La regla universal aquí es la siguiente: si para un uso posterior de la información se requiere transferirla a otro canal de percepción, esta opción es una opción desafortunada para la implementación directa dentro del marco de la interfaz de voz. Se requiere reformular la respuesta en una forma que sea conveniente para escuchar.



Para varios servicios, su implementación dentro del marco de un asistente de voz es generalmente la solución más exitosa. Por ejemplo, si una persona se encuentra en una situación estresante, entonces, como regla, es difícil para él concentrarse y describir rápidamente el problema en el texto en el chat, y siempre preferirá expresar todo con la voz. Esto puede convertirse en un criterio importante a la hora de elegir casos de negocio para su implementación dentro de un asistente de voz virtual.



La segunda opción obvia de casos para la implementación por "voz" es la necesidad de usarlos en situaciones en las que existen restricciones legales sobre este asunto (por ejemplo, mientras se conduce un automóvil, está prohibido realizar correspondencia de texto), o simplemente es inconveniente usar otros canales de comunicación (por ejemplo, durante el trabajo o practicar deportes cuando las manos de una persona están simplemente ocupadas).



No hay límites para la perfección



La voz es más conveniente que cualquier otra interfaz cuando el usuario necesita una función muy específica para resolver una tarea muy específica. ¿Porqué es eso? Es muy simple: en tal situación, es necesario esperar a que se cargue el sitio, desplazarse por la página, buscar en el menú de la aplicación, presionar botones, etc. siempre más inconveniente que un comando de voz hablado rápidamente. Los sitios web y las aplicaciones son multifuncionales. Y esta es su ventaja y desventaja al mismo tiempo. La habilidad de voz debe adaptarse a la función "aquí y ahora".



Es importante recordar que debe evitar situaciones en las que los comandos de voz deban ir acompañados de acciones adicionales en otras interfaces. De lo contrario, deja inoperativo el canal de voz. se viola el principio de ojos libres, ya que es necesario leer y manos libres, si aún necesita sujetar algo.



Otra recomendación importante es que no debes intentar enseñar a hablar a una persona. Puede hacerlo perfectamente bien sin nosotros, porque El lenguaje es una interfaz ya familiar y comprensible. Ejemplo ilustrativo de mal estilo: "Para volver a escuchar este mensaje, di: Escucha de nuevo". Tú y yo no hablamos así en la vida cotidiana. ¿No es así? Es mejor simplemente preguntar: "¿Escuchar el mensaje de nuevo o pasar al siguiente?"



Es una buena práctica implementar un asistente virtual activado por voz para evitar preguntas abiertas por completo. Es recomendable orientar al interlocutor a acciones concretas. Es especialmente valioso cuando el asistente actúa como navegador o sistema de recomendaciones. Un asistente de voz no debería requerir demasiada información detallada de una persona. Compruébalo a medida que avanza la conversación.



Y finalmente, me gustaría señalar que la personalización es quizás lo principal que falta en las interfaces de diálogo de voz existentes. Sin esto, es imposible mantener un diálogo más o menos largo. El asistente debe recopilar datos sobre el interlocutor, estructurar y verificar la información recibida. Es importante no perder el hilo del diálogo, preservar y tener en cuenta el contexto de la conversación. Es importante. De lo contrario, el asistente solo podrá implementar consultas breves y bastante simples y, como resultado, esto no le permitirá entrar en un diálogo realmente vivo cuando el asistente de voz se comunique con el usuario.



All Articles