Hace algún tiempo, escribimos una serie de artículos sobre cómo medir correctamente la calidad de los sistemas de reconocimiento de voz y, de hecho, tomamos métricas de las soluciones disponibles (series de artículos: 1 , 2 , 3 ) (en ese momento, tanto comerciales como no comerciales). soluciones comerciales). Sobre Habré hubo un extracto de este ciclo en el marco de este artículo , pero las manos no alcanzaron una actualización a gran escala del estudio digno de publicación sobre Habré (esto requiere al menos mucho esfuerzo y preparación).
Ha pasado algún tiempo y es hora de actualizar nuestra investigación, convirtiéndola en un verdadero ultimátum. Lo siguiente ha cambiado o se ha agregado en comparación con estudios anteriores:
- Se han agregado muchos conjuntos de validación de diferentes dominios reales;
- , ;
- , ;
- (, );
- , - "", "";
(. ) :
-
wav
( PCM); - 8 ( , );
- - -, "" , , ;
- — WER. 20% WER, 5% WER ( , );
- 1 . 2-3 ( "" ). 500 !;
- ( , " "), ;
- , . 1 .. WER, ;
-
ogg/opus
, , , "" ; - (8 16 kHz), ;
, Silero bleeding egde, production . — WER ( WER ).
Ashmanov | Sber | Sber | Silero | Silero new | Tinkoff | Yandex | |||
---|---|---|---|---|---|---|---|---|---|
default | enhanced | IVR | prod | bleeding edge | |||||
10 | 11 | 10 | 7 | 7 | 6 | 8 | 13 | ||
35 | 24 | 6 | 30 | 27 | 27 | 14 | |||
24 | 39 | 41 | 20 | 16 | 11 | 15 | 13 | ||
() | 47 | 16 | 18 | 22 | 32 | 13 | 12 | 21 | 15 |
28 | 27 | 24 | 18 | 14 | 12 | 20 | 21 | ||
() | 31 | 37 | 37 | 24 | 33 | 25 | 24 | 23 | 22 |
31 | 36 | 37 | 26 | 21 | 22 | 25 | 21 | ||
22 | 60 | 54 | 19 | 24 | 20 | 28 | 22 | ||
24 | 61 | 40 | 26 | 18 | 15 | 27 | 23 | ||
() | 42 | 49 | 8 | 41 | 27 | 52 | 18 | ||
62 | 30 | 32 | 24 | 28 | 39 | 35 | 28 | 25 | |
(e-commerce) | 34 | 45 | 43 | 34 | 45 | 29 | 29 | 31 | 28 |
34 | 29 | 29 | 31 | 20 | 20 | 31 | 29 | ||
Yellow pages | 45 | 43 | 49 | 41 | 32 | 29 | 31 | 30 | |
() | 43 | 55 | 59 | 41 | 67 | 38 | 37 | 33 | 32 |
YouTube | 32 | 50 | 41 | 34 | 28 | 25 | 38 | 32 | |
() | 44 | 72 | 66 | 46 | 41 | 35 | 38 | 35 | |
50 | 37 | 40 | 50 | 35 | 33 | 42 | 38 | ||
61 | 68 | 68 | 54 | 41 | 32 | 43 | 42 | ||
, | 54 | 70 | 60 | 61 | 43 | 41 | 56 | 54 | |
39 | 50 | 53 | 32 | 25 | 20 | 27 |
WER, .
( , , , - ). . ( , ).
Ashmanov | Sber | Sber | Silero | Tinkoff | Yandex | |||
---|---|---|---|---|---|---|---|---|
default | enhanced | IVR | ||||||
0% | 0% | 0% | 0% | 0% | 5% | 4% | ||
0% | 2% | 0% | 0% | 4% | 0% | |||
1% | 12% | 13% | 6% | 0% | 2% | 1% | ||
() | 0% | 0% | 0% | 1% | 0% | 0% | 7% | 0% |
0% | 1% | 0% | 0% | 0% | 2% | 0% | ||
() | 0% | 0% | 0% | 2% | 0% | 0% | 6% | 0% |
0% | 8% | 10% | 4% | 0% | 4% | 0% | ||
0% | 22% | 6% | 2% | 0% | 1% | 0% | ||
0% | 19% | 2% | 3% | 1% | 4% | 0% | ||
() | 0% | 12% | 0% | 0% | 1% | 0% | ||
0% | 2% | 3% | 1% | 1% | 0% | 5% | 1% | |
(e-commerce) | 0% | 0% | 0% | 7% | 1% | 0% | 7% | 0% |
0% | 0% | 0% | 1% | 0% | 4% | 0% | ||
Yellow pages | 1% | 13% | 9% | 14% | 0% | 2% | 2% | |
() | 0% | 0% | 7% | 35% | 9% | 0% | 5% | 0% |
YouTube | 0% | 13% | 1% | 6% | 0% | 1% | 0% | |
() | 1% | 33% | 12% | 17% | 5% | 1% | 1% | |
0% | 1% | 0% | 7% | 0% | 6% | 1% | ||
3% | 26% | 28% | 25% | 0% | 2% | 4% | ||
, | 2% | 19% | 3% | 25% | 0% | 1% | 1% | |
1% | 12% | 14% | 9% | 0% | 3% | 0% |
, .
, , . Tinkoff — , , . " " (, 1/10 ) . IVR , 8 kHz, , . — , , . — Google, .
, production / ( "" 10% ):
Ashmanov | 0 | 7 |
1 | 13 (9 enhanced) | |
Sber | 2 | 0 |
Sber IVR | 4 | 4 |
Silero | 13 | 0 |
Tinkoff | 6 | 2 |
Yandex | 10 | 1 |
— , . " " — . bleeding edge ( ), " " , 17 21. , .
gRPC API. SMB , . ( , ). , "" , . 40 ( PDF), .
Tinkoff gRPC, ( , ). enterprise ( , ) , , . , .
… , , . , b2b , , . 500- 200 . -, "" .
, ( ) ( — ). 1 (RTS = 1 / RTF):
RTS per Thread | Threads | ||
---|---|---|---|
Ashmanov | 0.2 | 8 | |
Ashmanov | 1.7 | 1 | |
4.3 | 8 | ||
Google enhanced | 2.9 | 8 | |
Sber | 13.6 | 8 | |
Sber | 14.1 | 1 | |
Silero | 2.5 | 8 | 4-core, 1080 |
Silero | 3.8 | 4 | 4-core, 1080 |
Silero | 6.0 | 8 | 12 cores, |
Silero | 9.7 | 1 | 12 cores, |
Tinkoff | 1.4 | 8 | |
Tinkoff | 2.2 | 1 | |
Yandex | 5.5 | 2 | 8 — |
RTS, .
( , ) ( ), . VDS, Nvidia Tesla, - ( — ). .
, EX51-SSD-GPU, . , , .
. 12 + GPU ~150 RTS. , 12+ , . , - . aspirational 2-3 .
( ), ( ) . — ( ), . - … 60 !
, Open STT, , , . - . , . , .
/
, 1080 Ti, 2080 Ti. , .
Fue a Yandex a quien enviamos datos en el formato opus
. Probamos un poco, parece que Yandex no tiene una diferencia particular entre wav
y opus
no.