Finalmente, hemos publicado nuestro conjunto de modelos de reconocimiento de voz previamente entrenados de alta calidad (es decir, comparable en calidad a los modelos premium de Google ) para los siguientes idiomas:
- Inglés;
- Alemán;
- Español;
Puede encontrar nuestros modelos en nuestro repositorio junto con ejemplos y métricas de calidad y velocidad. También intentamos que comenzar con nuestros modelos sea lo más simple posible: publicamos ejemplos en Collab y puntos de control para PyTorch, ONNX y TensorFlow. Los modelos también se pueden cargar a través de TorchHub.
PyTorch | ONNX | TensorFlow | Calidad | Colab | |
---|---|---|---|---|---|
Inglés (en_v1) | ✓ | ✓ | ✓ | enlace | |
Alemán (de_v1) | ✓ | ✓ | ✓ | enlace | |
Español (es_v1) | ✓ | ✓ | ✓ | enlace |
Por qué es importante
El reconocimiento de voz tradicionalmente ha tenido altas barreras de entrada por varias razones:
- Los datos son difíciles de recopilar;
- El marcado para una unidad de datos comparable es mucho más caro que en la visión por computadora;
- Altos requisitos de potencia informática y tecnologías obsoletas;
A continuación, se muestra una lista de los problemas típicos que enfrentan las soluciones de reconocimiento de voz existentes antes de nuestro lanzamiento:
- La investigación en esta área se suele realizar con una enorme potencia informática;
- - , " ", ;
- , - ;
- - ;
- ;
- ;
- - ;
- , , ;
—
, . :
- ;
- . , , ;
- ("1 ");
, — 50 .
— 10-20 .
.