Comparación definitiva de sistemas de reconocimiento de voz: Ashmanov, Google, Sber, Silero, Tinkoff, Yandex

sandwich_fake







Hace algún tiempo, escribimos una serie de artículos sobre cómo medir correctamente la calidad de los sistemas de reconocimiento de voz y, de hecho, tomamos métricas de las soluciones disponibles (series de artículos: 1 , 2 , 3 ) (en ese momento, tanto comerciales como no comerciales). soluciones comerciales). Sobre Habré hubo un extracto de este ciclo en el marco de este artículo , pero las manos no alcanzaron una actualización a gran escala del estudio digno de publicación sobre Habré (esto requiere al menos mucho esfuerzo y preparación).







Ha pasado algún tiempo y es hora de actualizar nuestra investigación, convirtiéndola en un verdadero ultimátum. Lo siguiente ha cambiado o se ha agregado en comparación con estudios anteriores:







  • Se han agregado muchos conjuntos de validación de diferentes dominios reales;
  • , ;
  • , ;
  • (, );
  • , - "", "";




(. ) :







  • wav



    ( PCM);
  • 8 ( , );
  • - -, "" , , ;
  • — WER. 20% WER, 5% WER ( , );
  • 1 . 2-3 ( "" ). 500 !;
  • ( , " "), ;
  • , . 1 .. WER, ;
  • ogg/opus



    , , , "" ;
  • (8 16 kHz), ;




, Silero bleeding egde, production . — WER ( WER ).







Ashmanov Google Google Sber Sber Silero Silero new Tinkoff Yandex
default enhanced IVR prod bleeding edge
10 11 10 7 7 6 8 13
35 24 6 30 27 27 14
24 39 41 20 16 11 15 13
() 47 16 18 22 32 13 12 21 15
28 27 24 18 14 12 20 21
() 31 37 37 24 33 25 24 23 22
31 36 37 26 21 22 25 21
22 60 54 19 24 20 28 22
24 61 40 26 18 15 27 23
() 42 49 8 41 27 52 18
62 30 32 24 28 39 35 28 25
(e-commerce) 34 45 43 34 45 29 29 31 28
34 29 29 31 20 20 31 29
Yellow pages 45 43 49 41 32 29 31 30
() 43 55 59 41 67 38 37 33 32
YouTube 32 50 41 34 28 25 38 32
() 44 72 66 46 41 35 38 35
50 37 40 50 35 33 42 38
61 68 68 54 41 32 43 42
, 54 70 60 61 43 41 56 54
39 50 53 32 25 20 27


WER, .







( , , , - ). . ( , ).







Ashmanov Google Google Sber Sber Silero Tinkoff Yandex
default enhanced IVR
0% 0% 0% 0% 0% 5% 4%
0% 2% 0% 0% 4% 0%
1% 12% 13% 6% 0% 2% 1%
() 0% 0% 0% 1% 0% 0% 7% 0%
0% 1% 0% 0% 0% 2% 0%
() 0% 0% 0% 2% 0% 0% 6% 0%
0% 8% 10% 4% 0% 4% 0%
0% 22% 6% 2% 0% 1% 0%
0% 19% 2% 3% 1% 4% 0%
() 0% 12% 0% 0% 1% 0%
0% 2% 3% 1% 1% 0% 5% 1%
(e-commerce) 0% 0% 0% 7% 1% 0% 7% 0%
0% 0% 0% 1% 0% 4% 0%
Yellow pages 1% 13% 9% 14% 0% 2% 2%
() 0% 0% 7% 35% 9% 0% 5% 0%
YouTube 0% 13% 1% 6% 0% 1% 0%
() 1% 33% 12% 17% 5% 1% 1%
0% 1% 0% 7% 0% 6% 1%
3% 26% 28% 25% 0% 2% 4%
, 2% 19% 3% 25% 0% 1% 1%
1% 12% 14% 9% 0% 3% 0%


, .









, , . Tinkoff — , , . " " (, 1/10 ) . IVR , 8 kHz, , . — , , . — Google, .







, production / ( "" 10% ):







Ashmanov 0 7
Google 1 13 (9 enhanced)
Sber 2 0
Sber IVR 4 4
Silero 13 0
Tinkoff 6 2
Yandex 10 1


— , . " " — . bleeding edge ( ), " " , 17 21. , .









gRPC API. SMB , . ( , ). , "" , . 40 ( PDF), .







. , , . . , .







Tinkoff gRPC, ( , ). enterprise ( , ) , , . , .







… , , . , b2b , , . 500- 200 . -, "" .







Ashmanov







2 ( gRPC ) . gRPC , . , / / .









, ( ) ( — ). 1 (RTS = 1 / RTF):







RTS per Thread Threads
Ashmanov 0.2 8
Ashmanov 1.7 1
Google 4.3 8
Google enhanced 2.9 8
Sber 13.6 8
Sber 14.1 1
Silero 2.5 8 4-core, 1080
Silero 3.8 4 4-core, 1080
Silero 6.0 8 12 cores, 21080 Ti
Silero 9.7 1 12 cores, 21080 Ti
Tinkoff 1.4 8
Tinkoff 2.2 1
Yandex 5.5 2 8 —


RTS, .







( , ) ( ), . VDS, Nvidia Tesla, - ( — ). .







, EX51-SSD-GPU, . , , .







. 12 + GPU ~150 RTS. , 12+ , . , - . aspirational 2-3 .







( ), ( ) . — ( ), . - … 60 !







photo_2021-05-27_09-18-04









, Open STT, , , . - . , . , .







/



, 1080 Ti, 2080 Ti. , .







Fue a Yandex a quien enviamos datos en el formato opus



. Probamos un poco, parece que Yandex no tiene una diferencia particular entre wav



y opus



no.








All Articles