Un experimento en el reconocimiento de textos manuscritos en cirílico

Introducción





El reconocimiento de texto escrito a mano (HTR) es una forma automática de descifrar registros utilizando una computadora. La forma digitalizada de notas escritas a mano automatizaría los procesos comerciales de muchas empresas, facilitando el trabajo humano. En este trabajo se considera un modelo para el reconocimiento de texto manuscrito en cirílico basado en una red neuronal artificial. El estudio utilizó el sistema SimpleHTR desarrollado por Harald, así como LineHTR , una versión extendida del sistema  Simple HTR . Puede leer más sobre SimpleHTR aquí .





Conjunto de datos





En esta sección, describiré dos tipos de conjuntos de datos: El primer conjunto de datos contiene citas escritas a mano en cirílico. Contiene 21.000 imágenes de varias muestras de escritura a mano (nombres de países y ciudades). Aumentamos este conjunto de datos de entrenamiento mediante la recopilación de 207,438 imágenes de formas o muestras disponibles.





El segundo HKR para la base de datos manuscrita kazajo-ruso consistió en palabras sueltas (o frases cortas) escritas en ruso y kazajo (aproximadamente 95% ruso y 5% kazajo palabra / oración, respectivamente). Tenga en cuenta que ambos idiomas están escritos en cirílico y comparten los mismos 33 caracteres. Además de estos símbolos, hay 9 símbolos más específicos en el alfabeto kazajo. A continuación, se muestran algunos ejemplos del conjunto de datos HKR: 









Un conjunto de datos de muestra
Un conjunto de datos de muestra

(70%), (15%) (15%) . ( 7,5% ): TEST1 , ; TEST2 , , . TEST1 TEST2 , , .





SimpleHTR





ANN, CNN . RNN. RNN . RNN . RNN. CTC . . CTC ; RNN , . CTC . , , , . , , , , .





: CNN: CNN. . 55 33 . RELU , , . 2 , () , ( ) 32 256. RNN: 256 . . LSTM- RNN, , . RNN 3280.





CTC: RNN , . CTC . 32













Modelo SimpleHTR, donde los iconos verdes son operaciones y los rosas son flujos de datos
SimpleHTR, - , -

: : 128 32. , ( ) , 128 32 . 128 32 . , .









LineHTR

LineHTR - SimpleHTR, , ( ), , . LineHTR SimpleHTR, CNN RNN : 7 CNN 2 Bidirectinal LSTM (BLSTM) RNN. 





LineHTR:





  • 800 x 64 ( x ).





  • CNN 100 x 512.





  • BLSTM 512 100 x 205: 100 ( ) ; 205 )





  • CTC 2 : LOSS - ; -





  • 50









Python deep learning Tensorflow. Tensorflow Python. Python , . matplotlib Python, Inkscape- , Adobe Photoshop. 2- " Intel ® Xeon(R) E-5-2680”, 4x " NVIDIA Tesla k20x” 100 RAM. 3 , , .





SimpleHTR





SimpleHTR - , . , :









• DataLoader





• : 90% 10% . : -, , ; -, CNN ; -, ; -, , , , .





: SimpleHTR, 42 . 10 . : . , .





















CER





WAR





CER





WAR





bestpath





19.13





52.55





17.97





57.11





beamsearch





18.99





53.33





17.73





58.33





wordbeamsearch





16.38





73.55





15.78





75.11









SimpleHTR (bestpath, beamsearch, wordbeamsearch). NN , . NN, , , . character-LM , .





:





Resultados del experimento usando SimpleHTR (lr = 0.01): precisión del modelo.
SimpleHTR (lr=0,01): .
Resultados del experimento usando SimpleHTR (lr = 0.01): error de modelo.
SimpleHTR (lr=0,01): .

, , " ” 86 .









Un ejemplo de una imagen con la frase "Sur de Kazajstán" en ruso
" -”





Resultado del reconocimiento

(HKR Dataset): SimpleHTR 20,13% (CER) 1,55% CER. SimpleHTR ( ). (WER) 58,97% 1 11,09% 2. TEST2 . TEST1 , , , .













LineHTR, 100 . CAR 29,86% 86,71% TEST1 TEST2 ( ). .









SimpleHTR LineHTR : 57,1% SimpleHTR CNN , 58,3% Beamsearch 75,1% wordbeamsearch. Wordbeamsearch, .








All Articles