Un agente de IA que extrae datos de facturas en PDF en español procesa entre 5 mil y 100 mil documentos al mes con precisión de 92 a 98 por ciento, cuesta entre 200 y 600 USD mensuales en infraestructura y reemplaza captura manual que sumaría miles de horas. El problema real en una pyme LATAM no es técnico: es que el asistente contable lleva tres horas al día capturando facturas y la mitad de los proveedores manda PDFs distintos cada mes. Cuando los datos se unifican, los problemas se anuncian solos.
Esta guía cubre cómo armar el pipeline completo: arquitectura OCR + LLM, guardrails de validación, integración con ERP y casos reales con millones de documentos procesados.
Qué hace exactamente un agente IA de extracción de facturas
Convierte cualquier PDF en una fila estructurada en tu ERP. El sistema completo de extracción de facturas con IA hace siete cosas operativas. Recibe el PDF (correo, drive, upload manual, API). Detecta si es PDF nativo o escaneado. Si está escaneado, pasa por OCR (Tesseract local o Google Document AI según calidad). Identifica campos clave (proveedor, RFC o NIT, fecha, conceptos, subtotal, IVA, total). Valida contra maestro de proveedores y rangos históricos. Aprueba automáticamente si pasa validaciones, escala a humano si falla. Inserta la fila estructurada en tu ERP via API.
No es un OCR genérico. Es un agente con guardrails que valida cada campo contra base de datos antes de aceptar el registro.
Stack que usamos en Catalizadora para volumen empresarial
| Capa | Tecnología | Por qué |
|---|---|---|
| Ingesta | API + drop folder + email parser | Cubre todos los canales |
| Detección formato | PyMuPDF para nativo, OpenCV para escaneado | Distingue rutas |
| OCR estándar | Tesseract 5 local | Sin costo por página |
| OCR premium | Google Document AI o Claude Vision | Para escaneos malos |
| Extracción campos | Anthropic Claude con schema JSON estricto | Output validable |
| Validación | TypeScript con reglas de negocio | Guardrails en código |
| Almacenamiento | PostgreSQL Bronze (raw) + Silver (estructurado) | Auditable |
| Integración ERP | API REST con retry exponencial | Sin pérdida de datos |
El caso real: 271 mil PDFs históricos en una distribuidora
Una distribuidora con 10 años de operación en Guatemala, 197 tablas legacy en SQL Server 2019, 13 millones de filas históricas, y un archivo digital de cientos de miles de PDFs sin indexar. Cuando los datos se unifican, los problemas se anuncian solos.
- 3.6 millones de filas migradas a Supabase en 48 horas
- 1.17 TB en GCS como bronze parquet raw
- 197 tablas snapshot más 825 silver views más 75 gold materialized views
- Verificación fila a fila: source igual a bronze igual a silver igual a gold
- 73 tablas Gold finales normalizadas y listas para consumo
- 57 políticas RLS más 17 roles RBAC para multi-tenant
- Inversión: 26,000 USD en 12 semanas
El archivo de PDFs históricos pasó por OCR en Bronze (Tesseract local para volumen masivo), almacenamiento como texto plano más metadata en Silver, y exposición como tablas indexables en Gold. Hoy el equipo consulta facturas históricas como si fueran filas de tabla normal.
Triple validación: guardrails que importan
La diferencia entre un agente IA serio y un experimento son los guardrails. Tres validaciones obligatorias en producción.
Validación matemática: suma de líneas debe igualar el total declarado, con tolerancia de 1 unidad monetaria por redondeo. Si difiere, bloqueo automático y revisión humana.
Validación contra maestro de proveedores: RFC mexicano, NIT colombiano o guatemalteco, CUIT argentino debe existir en tu maestro. Si es proveedor nuevo, alerta y aprobación humana.
Validación contra histórico: monto total debe estar dentro de 2 desviaciones estándar del histórico de ese proveedor. Si es atípico (factura de 50 mil cuando el promedio es 5 mil), alerta y revisión humana.
Estos guardrails NO viven en el prompt del modelo. Viven en código TypeScript que se ejecuta antes de insertar en ERP. KPIs en código, no hallucinations.
Costos reales para distintos volúmenes
| Volumen mensual | Stack recomendado | Costo infraestructura | Costo captura manual equivalente |
|---|---|---|---|
| 500 facturas | Tesseract + Claude | 50 USD | 833 USD (8.3h trabajo) |
| 5,000 facturas | Tesseract + Claude | 200 USD | 8,330 USD (83h trabajo) |
| 50,000 facturas | Document AI + Claude | 600 USD | 83,300 USD (833h trabajo) |
| 500,000 facturas | Pipeline custom | 2,500 USD | Imposible manual |
Próximos pasos
Para una empresa con 5 mil a 50 mil facturas mensuales y operación contable manual, el camino directo es MAGIA Core: 15,000 USD, 12 semanas, pipeline completo con data lake unificado y dashboards de auditoría. Para empresas con volumen mayor a 100 mil facturas mensuales, integración con SAP enterprise o requisitos de hardening (aislamiento por tenant, logs SHA-256), MAGIA Forge entrega software a medida en 12 semanas.
Agenda una sesión técnica de 30 minutos, sin SDR, llamada con quien construye el pipeline.