Hoy en día, los robots de voz están ganando una inmensa popularidad, desde el pedido banal de un taxi hasta la venta a los clientes. La creación de un robot de voz se reduce a tres pasos básicos.

Reconocimiento de voz ASR.
Aclaración del significado de lo dicho y búsqueda de las entidades necesarias en el texto (por ejemplo, dirección, monto, nombre completo, etc.)
Generación de una respuesta, conversión de texto a voz TTS. Pasaremos del camino de la creación de un simple bot de texto a la integración con el sistema de telefonía freeswitch con reconocimiento de voz y voice-over de respuestas preparadas. Este artículo describe las herramientas utilizadas y la forma de integrarlas para crear un robot de voz.

En la primera parte, hablaremos sobre la creación de un bot de texto simple que puede incrustar en un chat.

Ejemplo de conversación B-bot W-man

:       
:
: 

:    ?
: 

:  ?
:?     

:
:

Un poco de teoría El

bot funciona según el principio de intención del usuario. Cada intención tiene una lista de respuestas preparadas. Para que el robot para entender la intención del usuario, es necesario entrenar el modelo en el conjunto de datos con intenciones y frases que se pueden activar esta intención

Por ejemplo

Intención: hola Diga

Posibles frases: hola, buenas tardes, gratuti ...

Respuesta: Hola

Intención: decir adiós

Posibles frases: Bye, bye Adiós ...

Respuesta: Adiós

Paso 1: preprocesar el conjunto de datos

Se basa en un conjunto de datos del entrenamiento abierto de skillbox para escribir un bot de chat en telegramas que pueda hablarte sobre películas. No puedo publicarlo por razones obvias.

El preprocesamiento es un paso muy importante.

El primer paso es eliminar todos los símbolos y números del texto y poner todo en minúsculas.

A continuación, debe corregir los errores tipográficos y los errores en las palabras.

Esta tarea no es fácil, hay una buena herramienta de Yandex llamada Speller, pero es limitada en la cantidad de solicitudes por día, por lo que buscaremos alternativas gratuitas.Para

python hay una maravillosa biblioteca jamspell que corrige bien los errores tipográficos. Hay un buen modelo de idioma ruso previamente entrenado para ella. Ejecutemos todos los datos de entrada a través de esta biblioteca. Para un robot de voz, este paso no es tan relevante, ya que el sistema de reconocimiento de voz no debería dar palabras con errores, puede dar la palabra incorrecta. Este proceso es necesario para un bot de chat. Además, para minimizar la influencia de los errores tipográficos, puede entrenar la red no en palabras, sino en n-gramas.

Los N-gramas son partes de palabras con n letras. por ejemplo, los 3 gramos de la palabra hola serán

en, riv, sauce, veterinario. Esto le ayudará a ser menos susceptible a los errores tipográficos y a mejorar la precisión del reconocimiento.

A continuación, debe llevar las palabras a su forma normal, el llamado proceso de lematización de palabras.

La biblioteca rulemma es adecuada para esta tarea .

También puede eliminar las palabras vacías de las frases que tienen poca carga semántica, pero aumentan el tamaño de la red neuronal (tomé de la biblioteca nltk stopwords.words ("ruso")), pero en nuestro caso es mejor no eliminarlas, ya que el usuario puede responder un robot con solo una palabra, pero puede ser de la lista de palabras vacías.

Paso 2: convertir el conjunto de datos a un formato comprensible para NN

Primero, debe crear un diccionario de todas las palabras del conjunto de datos.

Para entrenar el modelo, es necesario traducir todas las palabras en oneHotVector

Esta es una matriz que es igual a la longitud del diccionario de palabras, en la que todos los valores son 0 y solo uno es 1 en la posición de la palabra en el diccionario.

Además, todas las frases de entrada se convierten en una matriz tridimensional que contiene todas las frases, la frase contiene una lista de palabras en el formato oneHotVector; este será nuestro conjunto de datos de entrada X_train.

Cada frase de entrada debe coincidir con una intención adecuada en el mismo formatoHotVector; esta es nuestra salida y_train.

Paso 3: creación del modelo

Para un bot pequeño, un modelo pequeño con dos capas lstm y dos capas completamente conectadas es suficiente:

model = Sequential()
model.add(LSTM(64,return_sequences=True,input_shape=(description_length, num_encoder_tokens)))
model.add(LSTM(32))
model.add(Dropout(0.25))
model.add(Dense(1024, activation='relu'))
model.add(Dropout(0.25))
model.add(Dense(len(set(y)), activation='softmax'))

Compilamos el modelo y seleccionamos un optimizador, elegí adam porque dio el mejor resultado.

Paso 4: entrena el modelo

Después de preparar el conjunto de datos y compilar el modelo, puede comenzar a entrenarlo. Dado que el conjunto de datos es pequeño, tuvimos que entrenar el modelo durante 250-500 épocas, después de lo cual tuvo lugar el reentrenamiento.

Paso 5: intentando hablar con nuestro bot

Para hablar con nuestro bot, debe enviar datos correctamente preparados a la entrada del modelo entrenado. La entrada del usuario debe procesarse de la misma manera que el conjunto de datos del primer paso. Luego transfórmalo en una forma comprensible para NN como en el segundo paso utilizando el mismo diccionario de palabras y sus índices para que las palabras de entrada correspondan a las palabras sobre las que se realizó el entrenamiento.

La entrada procesada se alimenta al modelo y obtenemos una matriz de valores en la que están presentes las probabilidades de que nuestra frase alcance una intención particular, pero debemos seleccionar la intención con la mayor probabilidad, esto se puede hacer a través de la biblioteca numpy

np.argmax(results)

Es necesario evaluar la confianza de la red en esta respuesta y seleccionar el umbral en el que emitir frases de falla al usuario, como - No lo entiendo. Para mis propósitos, establecí un umbral del 50% de confianza, por debajo del cual el bot dirá que no te entendió.

A continuación, de la lista de nuestras intenciones, seleccionamos la respuesta adecuada y se la damos al usuario

PD: El modelo se puede entrenar no solo en base a palabras, sino también dividiendo frases en letras o n-gramas, en cuyo caso será necesario un modelo más serio.

model = Sequential()
model.add(LSTM(512,return_sequences=True,input_shape=(description_length, num_encoder_tokens)))
model.add(LSTM(256))
model.add(Dropout(0.25))
model.add(Dense(len(set(y)), activation='softmax'))

Bot de voz + telefonía en OpenSource completo. Parte 1: creación y entrenamiento de un bot de texto RU

Paso 1: preprocesar el conjunto de datos

Paso 2: convertir el conjunto de datos a un formato comprensible para NN

Paso 3: creación del modelo

Paso 4: entrena el modelo

Paso 5: intentando hablar con nuestro bot

More articles: