Conjunto de datos SOVA de código abierto: audio para reconocimiento y síntesis de voz

¡Hola a todos! Somos un equipo de Nanosemantics, y recientemente lanzamos el proyecto SOVA, donde estamos recopilando un conjunto de datos para usar en el entrenamiento de redes neuronales y la creación de asistentes virtuales basados ​​en inteligencia artificial.





Hemos preparado un gran conjunto de datos para entrenar motores de reconocimiento de voz y queremos compartirlo para que las empresas puedan implementarlo en su propio país para resolver diversos problemas comerciales. Los datos son el nuevo petróleo, y una de las razones más importantes para el avance de los sistemas de reconocimiento de aprendizaje automático es la presencia de conjuntos de datos etiquetados. Si está interesado en la investigación y el desarrollo en el campo de la analítica del habla, vaya bajo cat.



En 2019, Nanosemantics recibió una subvención de la Fundación RVC, en cuyo marco es necesario preparar uno de los conjuntos de datos abiertos más grandes de Rusia para fines de 2022. Esta es una gran oportunidad para que creemos un conjunto de datos realmente útil. Incluirá 30.000 horas de grabaciones de audio con letras, 3 idiomas (ruso, inglés y chino) y una gran cantidad de hablantes, cuyo audio se utilizará en el conjunto de datos. El conjunto de datos se pondrá a disposición del público por etapas (sin cargo) para que los desarrolladores de todo el mundo puedan usarlo para entrenar redes neuronales, crear sus propios asistentes virtuales con inteligencia artificial y entrenar sistemas de reconocimiento de voz. 





, , : .





:





  1. , , . , — . .





  2. . , , - , . . . , . , , .









  3. . , .





, , —  .





, : - , - . , , , .









( ) – , - . , , , , , , , . . () Wikipedia





?





: , , , ,   .





« »: , . , , , 70 . , . , . , .





, , . , . , , .





, (, , . .), , , . , , , , . , " / ", " " . ., .





, ?





:





















:





  • -









  • Creative Commons Attribution – CC BY ( , )





  • Creative Commons Zero – CC0





  • WTFPL – Do What The Fuck You Want To Public License





, .





( )?





, .





5.1. 1235 , .





( )?





, - . .





, , , .





 





. , . 20 . , – - .





:













  • ,









, , . . , , , . , .





, : , , , .





– .









. , . 





:





  • , ,





  • , ,









  • , ,





:





  • .









, – . : , , . , , , . , , : , , , , . .





. , 20 . - , - . , , ; , , ? . .





:





  • .





  • .





  • , , .





  • , — .





  • ( ), , .





  • , , .





  • , .





, .





Software de grabación de voz en off

.









, , , , . 





VoicyBot, «» . , , . , , . 





. , , — , . Open Source : . : , , , . , , , . . 





Youtube





. Youtube (), . , , .





. , (FEFU) , .





, , Creative Commons – CC BY. .





YouTube “ Creative Commons”. API Youtube. 





EngAudiobooksOriginal — , , .





EngAudiobooksNoisy — .





RuAudiobooksDevices — , , .





RuDevices — , .





Conjunto de datos de código abierto SOVA
Open Source SOVA

— , . .





CER — Char Error Rate. . , . 





CER — 5.





, , 95% - — .





, : 





Configuración estándar para todas las grabaciones de audio

, , : -, .





.





: . , Youtube ( ), —  . .









, , .





—  forced alignment «» , . , , , . , , , . «» .   : NLab Speech «» . -.





, «», . , - .









, —  , . Voice Activity Detector — , . : 30 100 . - , 100 10 . —  , : .





: , , .





«», . , : , , .





/

. .





Common Voice. , . 7 335 60





Russian Speech Database (STC Russian). 1996-1998 89 . 5 . 15 1-3 . , 200 4000 EUR . . , 10-30 .





CSS10 Russian: Single Speaker Speech Dataset. CSS10 (A Collection of Single Speaker Speech Datasets for 10 Languages) 22 , LibriVox. CC0: Public Domain.





M-AILABS Speech Dataset. 46 , LibriVox. .





Russian LibriSpeech (RuLS). , LibriVox. 98 .





Russian Open Speech To Text (STT/ASR) Dataset, OpenSTT. , . 20000 ( 2,3 TB .wav). , , YouTube, , . . CC-BY-NC ( ).





, :





  • , OpenSTT, , ,





  • OpenSTT , . , .





  • OpenSTT : + .





, . , SOVA . , SOVA .





, ,  .





2021 SOVA Dataset 11,402 . 1,1 TB .wav. , .





Open Source CC-BY 4.0. , , .





SOVA Dataset GitHub.





, . .





2021 . 10000 , . , , Youtube .





, 2022 30000 .





SOVA Dataset – Open Source SOVA.ai: . . Open Source , , « ». , , - Open Source .





. , SOVA Dataset , . 





, . , , , partnership@sova.ai.








All Articles