
¡Buen día a todos! El Concurso internacional anual de IA, organizado por Sberbank junto con socios rusos y extranjeros, en el marco de la conferencia Artificial Intelligence Journey , acaba de finalizar . Tareas de este año: Digital Peter: reconocimiento de manuscritos de Peter I , NoFloodWithAI: inundaciones en el río Amur y AI 4 Humanities: ruGPT-3 . En esta ocasión participaron en el concurso unas 1000 personas de 43 países.
Nuestro equipo participó en la resolución del problema "Digital Peter: reconocimiento de manuscritos de Peter I" y obtuvo el primer lugar. Me gustaría contarles lo que hicimos en el proceso de resolver la competencia, quién es papá aquí , qué trucos y trucos usamos. Hay mucha información, habrá muchas palabras especiales para aquellos que no están en el tema. Este no es un tutorial, no lo describiré con gran detalle, pero estaré encantado de responder preguntas en los comentarios.
Puedes mirar el equipo de ensueño

Plan
Descripción de la tarea
Formato de datos, recursos disponibles y limitaciones

, : , I, (. ). , , - .
.


, - , - , , .
500 , , , , .
1.
, ( OOF), . ( ), ( ), , +90, -90 . (Resnet34 ) . , .

, .. . .
2.
, CTCLoss Attention. CTCLoss , Attention . CTCLoss, , Attention . .

Bs - , (w, h, c) - (, , ). . Hidden size - LSTM . Dict Size - , . Dense - Keras, Linear PyTorch.
3.
, . : ToGray, CLAHE, Rotate, CutOut.
CutOut . , HandWrittenBlots, , , . , ( ) . CutOut , HandWrittenBlots . Augmixations. .

P.S. CutOut , .
4. CharMasks
, , CTC Loss. , , , ( , ). ( Action Labeling ).

. , , . , . XVII-XVIII (, ). , , .

, , , , . . , . . (Multi Word Expression) ( ) .

, , .. , . - :

5. Spell correction using XLMRoberta
, .
, ( , ). NLP. XLMRoberta XVII-XVIII .., I. :
1. OCR ( ) ( ) ( + softmax), 3 (//blank ..) ;
2. : 3-4 , - .. //blank, , . zero-shot learning, , . OCR ('': 'p', '': 'o', '': 'e', '': 'c', '': 'a', '': 'x', '': 'u', '': ‘k’);
3. OCR step by step (!), ;
4. : ( 0 12), 50% padding ( ), 10% . ( ). XLMRoberta outputhiddenstates - NER, ;
5. GPU , TPU Colab
P.S.
( ), BeamSearch. .
6. Ensemble + Spell Correction Thresholds
, , , CTCLoss, . . , . N "" . , , . . , , , ., +- .
Other Backbones. (EfficientNet, [SE, ECA]ResNet[xt], Mobilenet ), Resnet34.
Augmentations. Albumentations (Brightness, Gamma, Blur ), , .
TTA (Test-Time Augmentations). , holdout , public test - . , holdout.
Classic Blending. , , , , , .
(). , ! :)
(github, linkedin, kaggle)
(github, linkedin, kaggle)
(github, linkedin, kaggle)
(linkedin, kaggle)
, , . , .
P.S. ( , public):
| CER: 2.531 | WER: 13.5 | ACC: 62.107 | TIME: 32s |
submission .
P.P.S.
, ? :)
