Hemos publicado modelos STT modernos de calidad comparable a la de Google.



Finalmente, hemos publicado nuestro conjunto de modelos de reconocimiento de voz previamente entrenados de alta calidad (es decir, comparable en calidad a los modelos premium de Google ) para los siguientes idiomas:



  • Inglés;
  • Alemán;
  • Español;


Puede encontrar nuestros modelos en nuestro repositorio junto con ejemplos y métricas de calidad y velocidad. También intentamos que comenzar con nuestros modelos sea lo más simple posible: publicamos ejemplos en Collab y puntos de control para PyTorch, ONNX y TensorFlow. Los modelos también se pueden cargar a través de TorchHub.



PyTorch ONNX TensorFlow Calidad Colab
Inglés (en_v1) enlace Abrir en Colab
Alemán (de_v1) enlace Abrir en Colab
Español (es_v1) enlace Abrir en Colab


Por qué es importante



El reconocimiento de voz tradicionalmente ha tenido altas barreras de entrada por varias razones:



  • Los datos son difíciles de recopilar;
  • El marcado para una unidad de datos comparable es mucho más caro que en la visión por computadora;
  • Altos requisitos de potencia informática y tecnologías obsoletas;


A continuación, se muestra una lista de los problemas típicos que enfrentan las soluciones de reconocimiento de voz existentes antes de nuestro lanzamiento:



  • La investigación en esta área se suele realizar con una enorme potencia informática;
  • - , " ", ;
  • , - ;


- , ( ). :



  • - ;
  • ;
  • ;
  • - ;
  • , , ;




, . :



  • ;
  • . , , ;
  • ("1 ");




, — 50 .

— 10-20 .

.








All Articles