INTEGRACION DE DOCUMENTOS DIGITALES (OCR)

OCR (Optical Character Recognition) corresponde a una tecnología de reconocimiento de caracteres óptico avanzado. Permite extraer el texto de una imagen o de un documento escaneado, de manera que puede ser introducido e indexado automaticamente en la base de datos, entre otras utilidades. Como característica general, el sistema de reconocimiento de datos del documento se realiza mediante la aplicación de expresiones regulares de reconocimiento de patrones dentro del texto. Cada patrón se corresponde a un concepto o unidad de información del documento.

Como características, Axional/OCR complementa la entrada de todo tipo de documentos que actúan como origen para los distintos procesos de negocio definidos en cada empresa. Asimismo permite simplificar el almacenamiento y archivo de la información, eliminando la necesidad de disponer del documento físico en el propio lugar donde se demande su examen detallado. Por tanto, es una entrada de información eficiente a la base de datos para incorporar los datos contenidos de cualquier documento físico y estructurado de la empresa. Este módulo del sistema Axional/OCR se utiliza concretamente para la incorporación automática de facturas digitalizadas de proveedores al sistema de base de datos ERP de la empresa.

Como ventajas complementarias mencionar que la automatización en introducción de información al sistema evita los errores inherentes a la entrada manual por parte de operarios y la implicación que por ello supone respecto a una mayor fiabilidad y eficiencia en la gestión de la información. Además, la automatización conlleva un importante ahorro en recursos humanos.

Como características generales del sistema OCR/Axional mencionar entre otros los siguientes puntos:

  1. Procesamiento integral por lote de documentos.
  2. Opción de almacenamiento de archivos por unidades de documentos, el archivo de entrada se subdivide en unidades mediante parametrización de patrón de corte.
  3. Herramienta de subdivisión manual del fichero en unidades de documentos.
  4. Aplicación automática de plantilla en el documento mediante múltiples criterios de selección.
  5. Aplicación multi-plantilla por modelo de documento.
  6. Localización iterativa de valores de campos.
  7. Multicriterio de definición de región o patrón para cada valor a extraer.
  8. Estandarización de campos numéricos y de fecha según lenguaje por región (anglosajón, europeo …).
  9. Validación de información requerida y correspondencias entre maestros y datos clave extraídos.
  10. Validaciones grupales de ítems del documento según criterios inherentes de equivalencia y afinidad entre los distintos ítems.
  11. Cálculos de información en ítems preestablecidos.
  12. Ajuste ‘ex-post’ de los valores obtenidos.
  13. Retroalimentación del circuito de validación para autoaprendizaje en la conformación del texto extraido.
  14. Control de estado y modificaciones de lote.
  15. Control de estados y seguimiento de cambios en los documentos.
  16. Enlace drill&across para acceder a los documentos resultantes.

A continuación se detallan todos los procesos que intervienen en el caso concreto de generación de la factura del proveedor en la  base de datos, desde la recogida de ficheros, pasando por la extracción de la información hasta la generación final de la factura.

  • En primera instancia, el proceso de recogida de facturas escaneadas realiza la incrustación de la capa de metacaracteres al fichero pdf para el posterior reconocimiento del texto de la factura. En este punto, el documento pdf siempre contendrá la información a disponibilidad para su posterior extracción. Seguidamente en este punto, en el momento de introducir el documento en la base de datos, se realiza un filtro mediante patrón de corte para la sub-división en unidades de factura de archivos del proveedor.
  • Seguidamente, mediante la plantilla (patrón del formato de factura de un proveedor), se realiza la búsqueda y extracción de los metadatos contenidos en el texto del documento de factura digitalizado. Por tanto, se requiere un proceso previo de generación o predefinición de plantillas por formato de facturas. Las plantillas se deben definir para especificar las correspondiente expresiones de búsqueda de metadatos y de este modo extraer puedan extraer la correspondiente información del documento escaneado.
    Cabe destacar que la asignación de la plantilla a una factura de proveedor es un proceso automático. Axiolab/OCR reconoce dentro del texto del documento digitalizado a que plantilla de proveedor es posible asignar el documento procesado. Al mismo tiempo, como característica a destacar de este modulo, el sistema permite definir múltiples plantillas (multi-template) por proveedor de manera que el proceso evaluará que plantilla ofrece el máximo número de concurrencias para optimizar la efectividad de la extracción de la información del fichero.
  • Una vez extraído el texto del documento mediante la aplicación de las expresiones de la plantilla, estos datos son indexados con la información correspondiente en base de datos para su validación, paso previo para generación de la factura o del documento de destino en Axional/ERP. Este proceso de validación confirma que se tiene disponible toda la información requerida para generar definitivamente la factura. En este punto la información de los diferentes items de información es editable para poder realizar los ajustes oportunos en caso que el escaneado de la factura no hubiera sido suficientemente efectivo para la extracción de la información. Cabe destacar en este sentido que la efectividad de los procedimientos de reconocimiento de texto tienen sus limitaciones, especialmente si las fuente de información es defectuosa.
    Es importante destacar como otra de las características principales de este módulo que el sistema se retro-alimenta a partir de los cambios y modificaciones realizadas manualmente por parte del operario. Esta auto-retroalimentación, permite al sistema aprender de los errores de digitalización para una posterior interpretación correcta de la información, en los siguientes procesamientos de un formato de factura o documento. Por tanto,la base de datos almacena por plantilla ciertas modificaciones para ser utilizadas, automáticamente, en el procesamiento de las posteriores facturas de esta plantilla.
  • Una vez que el proceso de validación de datos ha verificado que la información es correcta, se procede a generar automáticamente la factura o documento destino. El proceso de generación de la factura, además, conformará los albaranes pendientes de facturación en caso que el formato de factura del proveedor contenga la información de orden de compra o nota de entrega del proveedor. En caso que la factura no conforme con ninguna nota de entrega, el sistema propondrá una factura directa de compra. El proceso identifica si el documento es un factura o rectificación de factura (nota de crédito o abono) a través de la información contenida en el documento. Al mismo tiempo también identifica si la compra hace referencia a una inversión o es un gasto.
  • Gestión de la factura generada: a partir de la factura generada se validan los importes mediante circuitos de workflow y autorizaciones conforme la factura del proveedor es correcta. Para terminar, cabe mencionar como última finalidad que el sistema controla duplicidades tanto en la entrada de archivos a procesar como duplicidades en generación de las facturas.

Axional/OCR proporciona un entorno completo para la integración, tratamiento y archivo de documentos físicos.