Digitalización y Procesamiento de Documentos
Descubre el sistema técnico detrás de la digitalización inteligente de documentos en ControlDoc.
El sistema de procesamiento de documentos es el componente técnico principal responsable de analizar, procesar y mostrar documentos dentro de la plataforma. Maneja OCR, conversión de formatos, extracción de contenido y visualización interactiva con capacidades de búsqueda.
Este sistema procesa archivos cargados, extrae contenido de texto utilizando tecnología OCR y presenta documentos en un visor interactivo con búsqueda y resaltado en tiempo real.
Utilizamos Tesseract.js para el reconocimiento óptico de caracteres (OCR) en múltiples tipos de documentos.
Flujo de procesamiento de OCR:
- Entrada de imagen: Procesamiento directo de archivos de imagen.
- Conversión de PDF: Las páginas de PDF se convierten a imágenes mediante
pdf-poppler
. - Reconocimiento de texto: Tesseract extrae el texto junto a coordenadas precisas (bounding boxes).
- Mapeo de palabras: Cada palabra se asocia a su posición para resaltar y búsqueda precisa.
El sistema permite realizar búsquedas en tiempo real dentro de documentos procesados con retroalimentación visual inmediata.
Proceso de normalización de texto:
- Convierte a minúsculas.
- Elimina signos diacríticos (acentos).
- Filtra solo caracteres alfanuméricos.
- Permite coincidencia flexible entre idiomas.
Renderizado del resaltado:
- Mapea coordenadas de OCR a escala del lienzo.
- Dibuja subrayados azules en términos coincidentes.
- Proporciona recuento de coincidencias encontradas.
- Maneja diferentes tamaños de lienzo y escalado de coordenadas.
Los documentos procesados se muestran en un visor interactivo con soporte de búsqueda y resaltado: TextViewerCanvas
. Este componente permite explorar documentos de manera ágil y precisa.
Para más detalles técnicos, consulta la documentación de TextViewerCanvas y motor OCR o la API de análisis de archivos.