Reconocimiento de documentos en un ejemplo privado: una descripción general de las soluciones gratuitas y de pago disponibles

¡Hola! Esta es una situación típica en la empresa en la que trabajo. En contabilidad, hay una prisa eterna, no hay suficiente gente, todos están haciendo algo absolutamente importante, pero esencialmente inútil. Esta situación no convenía a la dirección.



En más detalle, el problema es que los recursos contables no son suficientes para las tareas actuales y nadie quiere asignar tarifas para las personas nuevas. Por lo tanto, la cúpula decidió recortar algunas tareas y liberar tiempo a los contables para cosas más útiles. Trabajos como escanear y reconocer documentos, copiarlos y agregarlos a otros placeres rutinarios quedaron bajo el cuchillo.



Entonces, como analista, me enfrenté a la tarea de encontrar una solución para reconocer un documento típico de mi empresa, una factura, para estructurarlo en las instalaciones de almacenamiento disponibles, así como en 1C. Una solución que será conveniente, comprensible y que no le costará ni un centavo a la empresa.



La experiencia resultó ser divertida, decidí compartir lo que logré coleccionar. Quizás me perdí algo, así que bienvenido en los comentarios, si hay algo que agregar.





Los programas de escaneo de documentos, los programas de reconocimiento de documentos no son una solución nueva en el mercado, se pueden encontrar tanto en programas gratuitos como integrados en sistemas.



Empecé con programas gratuitos:



  • glmageReader
  • Papeleo
  • VietOCR
  • Cuneiforme.


Durante el reconocimiento de nuestra factura por dichos programas, vi lo siguiente:



  • En programas como VietOCR, Paperwork, glmageReader, puedes configurar el almacenamiento de documentos escaneados en carpetas específicas, Paperwork incluso puede clasificarlos según etiquetas.
  • Por lo general, funcionan bien con el texto y, cuando el texto no se reconoce correctamente, algunos programas pueden cambiar manualmente el contenido antes de exportar el archivo.


imagen



Sin embargo, también existen problemas:



  • Existe una diferencia entre trabajar con escaneos en PDF y PNG. No siempre es posible convertir png a pdf con éxito.
  • La mayoría de estos programas son difíciles de hacer frente al reconocimiento de documentos tabulares, incluso el formato más simple. Como resultado, obtenemos el texto reconocido sin los campos marcados.



    imagen

  • A veces, la fuente se determina de manera inexacta, como resultado de lo cual, al convertir, todo el texto reconocido se superpone.
  • En el proceso de reconocimiento, en ocasiones es necesario hacer alineación por palabras clave, con rotaciones y desplazamiento de coordenadas.
  • En algunos programas, la tabla se reconoció como una imagen y se exportó a un nuevo documento de Word también como una imagen, muy truncada, que incluso es difícil de ver.
  • Al editar contenido reconocido en algunos programas, surgieron problemas, la fuente o el texto en sí cambió.




imagen



La tecnología funcionó bastante bien. Considerando que los programas son gratuitos, los problemas descritos anteriormente son aceptables. Sin embargo, estaba buscando una solución más simplificada.



Luego investigué el reconocimiento en ABBYY FineReader 15 Corporate



Durante el período de prueba de 7 días, también estudié esta plataforma.



Lo que señaló:



  • Cuando abrí el archivo png, se leyó perfectamente y, como resultado, se convirtió correctamente a PDF sin perder la calidad de la imagen y el texto.
  • , . png , .
  • - pdf. .
  • , , .
  • OCR pdf -. - .



    imagen

  • , , . , , .



    imagen

  • Aquí puede configurar la conversión automática de los documentos entrantes que se extraerán regularmente de la carpeta especificada, de acuerdo con la programación especificada.
  • Le permite comparar versiones de documentos, incluso si están en diferentes formatos. Con un gran flujo de documentos y ediciones en ellos, es muy conveniente.


Tuve una experiencia agradable al usar este software. Sin embargo, cuando busqué el precio de la solución del sistema ABBYY Flexicapture (y necesito la solución del sistema), descubrí que la solución, especialmente la personalizada, cuesta una suma bastante redonda, alrededor de 400 mil rublos / mes. y más por 10 mil páginas.



Empecé a buscar una alternativa. Cómo liberar las manos de un empleado, obtener reconocimiento de documentos de alta calidad y no preocuparse por la seguridad y la estructura de los datos.



Y luego decidí echar un vistazo mejor a ELMA RPA, que ya había estudiado antes .



El proveedor propone trasladar una parte importante del trabajo de exportación de datos a ERP de los hombros de los contables a los robots. De hecho, esto es exactamente lo que resuelve el problema que se me plantea. Para familiarizarme con el reconocimiento en este sistema, tomé una versión de prueba del sistema del proveedor.



Aquí descubrí que el reconocimiento no pretende convertir los datos recibidos en un nuevo archivo de documento.



Aquí, el objetivo principal es reconocer los detalles del documento y transferirlos a otros sistemas / sitios / aplicaciones. Además, los robots ponen toda la información donde la necesitan: encuentran automáticamente las carpetas necesarias y las guardan en los formatos requeridos.



¿Qué tipos de reconocimiento en el sistema he analizado?



Reconocimiento de patrones



Se nos ofrece reconocer el documento cargado según la plantilla de documento. Hasta donde yo sé, este tipo de reconocimiento es gratuito, el motor Tesseract está conectado a él.



Lo que señaló:



  • Este tipo de reconocimiento funciona con escaneos de los formatos jpg y png, aún no considera pdf. Pero el producto aún es joven, creo que todo está por delante.
  • Este tipo de reconocimiento está incluido en la Community Edition gratuita
  • El texto está convenientemente marcado en bloques que se pueden combinar de acuerdo con las variables que creamos en el contexto del robot. Por lo tanto, configure manualmente qué es exactamente lo que estamos incorporando al reconocimiento.
  • Reconoció nuestra factura 50/50, cambió algunas palabras como mejor le pareció. :)



    imagen





Sin embargo, el vendedor de este caso dijo que este tipo de reconocimiento está adaptado para documentos simples, con estructura de texto o con formas ligeras. Y recomendó utilizar otro tipo de reconocimiento para reconocer la factura : laboratorio de intelecto .



El proceso es el mismo, cargamos la plantilla y la reconocemos por ella. Pero aquí la plantilla se envía al servidor en la nube.



Recibimos una respuesta del servidor (reconozca o no este tipo de documento), y si lo reconoce, se pasa la estructura de la plantilla (variables para el mapeo) para que coincida con las variables que deberán escribirse en el proceso RPA.



Durante el proceso de reproducción, ya enviamos un documento que nos gustaría reconocer y recibir una respuesta del servidor iLab sobre el reconocimiento.



Lo que noté sobre este reconocimiento:



  • pdf, jpg png.
  • . .
  • - .
  • , 1. , , , , .
  • Community Edition . , (, , .), , 100 500 . ( , , .)


El proceso de reconocimiento de documentos en sí es bastante difícil de mostrar en video, como sucede en el cuadro, y la pantalla está vacía durante varios segundos. Por lo tanto, hice una entrada separada de los datos reconocidos en un cuaderno para su visualización.



Reconocer documento en el bloc de notas



En consecuencia, el robot escribe los mismos datos en 1C, creando un nuevo documento allí:



reconocimiento y creación de documentos en 1C



Lo que logramos averiguar por precios: Si, por ejemplo, queremos trabajar a gran escala con reconocimiento ilab, entonces por nuestros 10,000 documentos tendremos que pagar:



  • unos 180.000 rublos. a la vez,
  • más, digamos, 400.000 rublos. comprar un robot con un orquestador
  • total: 580.000 rublos.


El robot es ilimitado y 10.000 documentos serán suficientes durante algún tiempo. Resulta bastante rentable, al menos en el hecho de que pagamos todo una vez.



Lo que nos gustó del reconocimiento en esta plataforma en general:



  • , , . .
  • , , , . .
  • . 15 , — . , .
  • , .


:



  • Los programas gratuitos hacen frente a la tarea de reconocimiento de documentos mejor de lo que esperaba; sin embargo, debido a ellos, no será posible acelerar significativamente el trabajo con un gran volumen
  • ABBYY FineReader se adapta bien al procesamiento y reconocimiento de documentos posteriormente; sin embargo, para obtener una solución de sistema, necesita grandes capacidades financieras.
  • ELMA RPA sorprende por la calidad del reconocimiento de documentos, la variabilidad, así como las capacidades de almacenamiento y transferencia tras el reconocimiento, pero hay que tener en cuenta que el producto es joven.



All Articles