15 mejores conjuntos de datos para entrenamiento de chatbot

Para resolver rápidamente los problemas de los usuarios sin intervención humana, un chatbot eficaz requiere una gran cantidad de datos de formación. Sin embargo, el principal cuello de botella en el desarrollo de chatbot es obtener datos conversacionales realistas y orientados a tareas para entrenar estos sistemas utilizando técnicas de aprendizaje automático. Especialmente para el inicio del nuevo hilo del curso de Machine Learning, estoy compartiendo con ustedes una lista de los mejores conjuntos de datos de conversaciones de chats, desglosados ​​en preguntas y respuestas, datos de atención al cliente, datos interactivos y datos multilingües.














Para resolver rápidamente los problemas de los usuarios sin intervención humana, un chatbot eficaz requiere una gran cantidad de datos de formación. Sin embargo, el principal cuello de botella en el desarrollo de chatbots es obtener datos de conversación realistas y orientados a tareas para entrenar estos sistemas utilizando técnicas de aprendizaje automático. Hemos compilado una lista de los mejores conjuntos de datos de conversación de chatbots, desglosados ​​en preguntas y respuestas, datos de servicio al cliente. datos interactivos y multilingües.



Conjunto de datos de preguntas y respuestas para entrenar chatbots



Enlace . Este corpus incluye artículos de Wikipedia, preguntas fácticas generadas a mano y respuestas generadas a mano a esas preguntas para su uso en la investigación científica.



Corpus WikiQA . Un conjunto de pares de preguntas y oraciones disponibles públicamente recopilados y anotados para explorar respuestas a preguntas de dominio abierto. Para reflejar la verdadera necesidad de información de los usuarios normales, utilizaron los registros de consultas de Bing como fuente de preguntas. Cada pregunta está vinculada a una página de Wikipedia que potencialmente tiene una respuesta.



Datos de idioma de Yahoo . Esta página presenta conjuntos de datos de control de calidad seleccionados a mano de Yahoo Answers de Yahoo.



Colección de control de calidad de TREC (Text REtrieval Collection): TREC ha respondido preguntas desde 1999. En cada secuencia de preguntas y respuestas, el problema se definió de tal manera que los sistemas recibieron pequeños fragmentos de texto que contenían la respuesta a preguntas de dominio abierto con posibles respuestas solo "sí" o "no".



Conjunto de datos de soporte de Ubuntu



El Corpus de conversaciones de Ubuntu consta de casi un millón de conversaciones de dos personas extraídas de los registros de chat de Ubuntu que se utilizan para obtener soporte técnico en varios problemas relacionados con Ubuntu. El conjunto contiene 930.000 diálogos y más de 100.000.000 palabras.



Kit de estrategia de relación de servicio al cliente : recopile datos de servicio al cliente relacionados con viajes de cuatro fuentes. Registros de conversaciones de tres foros de aerolíneas y servicios comerciales de IVA en TripAdvisor.com durante agosto de 2016.



Atención al cliente de Twitter . Este conjunto de datos de Kaggle incluye más de 3.000.000 de tweets y respuestas de las marcas más importantes en Twitter.



Conjunto de datos de diálogo de entrenamiento de chatbot



Registros de chat IRC del grupo de interés de la web semántica . Este registro de chat IRC generado automáticamente está disponible en RDF que se ha mantenido diariamente desde 2004, incluidas las marcas de tiempo y los alias.



Cornell Corps of Film Dialogues . Este corpus contiene una gran colección de metadatos ricos en diálogos ficticios de guiones de películas: hay 220.579 diálogos entre 10.292 parejas de héroes cinematográficos con 9.035 personajes de 617 películas.



Conjunto de datos ConvAI2 . Este conjunto de datos contiene más de 2,000 conversaciones para el concurso PersonaChat , donde las personas que trabajan en la plataforma de crowdsourcing Yandex.Toloka conversaron con bots de los equipos participantes.



Santa Bárbara. Corpus hablado en inglés americano: Este conjunto de datos incluye aproximadamente 249.000 palabras en transcripción, audio y marcas de tiempo a nivel de unidades de entonación individuales.



Corpus de chat NPS . Este corpus consta de 10 567 mensajes de aproximadamente 500 000 mensajes recopilados en varias salas de chat en línea de acuerdo con los términos de servicio.



Diálogos orientados a objetivos en Maluuba . Un conjunto de datos de conversaciones en las que la conversación se centra en completar una tarea o tomar una decisión, como buscar vuelos y hoteles. Contiene información completa que cubre más de 250 hoteles, vuelos y destinos.



Conjunto de datos multidominio del Mago de Oz (MultiWOZ)... Una colección completamente etiquetada de conversaciones escritas que abarcan múltiples dominios y temas. El conjunto contiene 10.000 diálogos y al menos un orden de magnitud más que todos los corpus anotados anteriores, que se centran en la resolución de problemas.



Conjunto de datos para entrenar bots multilingües



NUS Corpus . Este corpus fue creado para normalizar texto de redes sociales y traducirlo. Se construye seleccionando al azar 2,000 mensajes del corpus de SMS en inglés de NUS y luego se traduce al chino formal.



Conjunto de datos EXCITEMENT . Disponibles en inglés e italiano, estos kits contienen opiniones negativas de los clientes, en las que los clientes indican motivos de insatisfacción con la empresa.



¿Sigue sin encontrar los datos que busca? Lionbridge AI proporciona datos personalizados para capacitar a un chatbot con aprendizaje automático en 300 idiomas para que sus conversaciones sean más interactivas y brindar asistencia a clientes de todo el mundo. Y si desea mejorar su nivel de aprendizaje automático, venga a nuestro curso avanzado.por ML y no se olvide del código de promoción HABR , que agrega un 10% al descuento en el banner.



imagen










Artículos recomendados






All Articles