Finalmente, hemos publicado nuestro conjunto de modelos de reconocimiento de voz previamente entrenados de alta calidad (es decir, comparable en calidad a los modelos premium de Google ) para los siguientes idiomas:

Inglés;
Alemán;
Español;

Puede encontrar nuestros modelos en nuestro repositorio junto con ejemplos y métricas de calidad y velocidad. También intentamos que comenzar con nuestros modelos sea lo más simple posible: publicamos ejemplos en Collab y puntos de control para PyTorch, ONNX y TensorFlow. Los modelos también se pueden cargar a través de TorchHub.

	PyTorch	ONNX	TensorFlow	Calidad
Inglés (en_v1)	✓	✓	✓	enlace
Alemán (de_v1)	✓	✓	✓	enlace
Español (es_v1)	✓	✓	✓	enlace

Por qué es importante

El reconocimiento de voz tradicionalmente ha tenido altas barreras de entrada por varias razones:

Los datos son difíciles de recopilar;
El marcado para una unidad de datos comparable es mucho más caro que en la visión por computadora;
Altos requisitos de potencia informática y tecnologías obsoletas;

A continuación, se muestra una lista de los problemas típicos que enfrentan las soluciones de reconocimiento de voz existentes antes de nuestro lanzamiento:

La investigación en esta área se suele realizar con una enorme potencia informática;
- , " ", ;
, - ;

- , ( ). :

- ;
;
;
- ;
, , ;

—

, . :

;
. , , ;
("1 ");

, — 50 .

— 10-20 .

.

Github
Métricas de calidad
Ejemplos en Colab

Hemos publicado modelos STT modernos de calidad comparable a la de Google.

Por qué es importante

—

More articles: