Usar IA para extraer datos de cédulas de identidad en LATAM ya es estándar productivo con precisión de 95 a 99 por ciento y costo entre 30 y 100 USD mensuales para volúmenes de 1,000 cédulas. La trampa común: confundir extracción con verificación. Extraer datos es OCR, verificar identidad requiere validación contra emisor y liveness biométrico. Para onboarding serio en banca, telco o crédito necesitas las tres capas. KPIs en código, no hallucinations.
El mercado LATAM tiene siete documentos principales que cubren 95 por ciento del KYC: INE y CURP en México, cédula de ciudadanía y de extranjería en Colombia, DNI y CUIT en Argentina, RUT en Chile, DNI en Perú, DPI en Guatemala. Pasaporte es bonus y se lee con estándar MRZ internacional.
Qué datos se extraen de cada documento
Cada cédula latinoamericana tiene campos distintos pero todos cubren los esenciales para KYC.
- INE México: nombre completo, CURP, clave de elector, fecha de nacimiento, domicilio, sección electoral, año de emisión
- CURP México: 18 caracteres alfanuméricos derivados (homoclave verificable)
- Cédula Colombia: nombre, número, fecha de expedición, lugar de expedición, fecha de nacimiento, sexo
- DNI Argentina: nombre, apellido, sexo, fecha de nacimiento, nacionalidad, número de DNI, fecha de emisión, fecha de vencimiento, ejemplar (A, B, C, F)
- RUT Chile: nombre, RUT (con dígito verificador), nacionalidad, profesión, fecha de nacimiento, fecha de emisión
- DNI Perú: nombre, apellido, fecha de nacimiento, domicilio, departamento, provincia, distrito, número de DNI
- DPI Guatemala: nombre, CUI, fecha de nacimiento, departamento, género, fecha de vencimiento
Para pasaporte el estándar MRZ (machine readable zone) en las dos líneas inferiores estructura todo: nombre, número, nacionalidad, fecha de nacimiento, sexo, fecha de vencimiento.
Caso real: snapshot validado fila a fila
Una distribuidora multi-país con 239 países en su catálogo, 446 oficinas y 2.7 millones de clientes y contactos necesitó snapshot completo de su SQL Server con histórico de 98 millones de filas. El proyecto incluyó normalización de datos de identidad con triple validación (source, bronze, silver).
- 197 tablas snapshotteadas en pipeline paralelo
- 2.7 GB de bronze parquet generado en 48 horas overnight
- 2,528 archivos subidos a Storage bucket organizado
- Verificación con 8 chunking paralelos sobre rangos de PK
- Cero orphan FKs en población final
- 204 oficinas reales operativas identificadas de 445 registradas (limpieza de inactivas)
El mismo patrón aplica para verificación de cédulas: bronze guarda el escaneo original, silver normaliza por país y tipo, gold expone vistas indexadas para auditoría.
Stack para 1,000 a 100,000 cédulas mensuales
| Capa | Tecnología | Por qué |
|---|---|---|
| Captura | Web SDK con liveness, app móvil, API | Multi-canal |
| Pre-proceso | OpenCV corrección de perspectiva | Mejora 15 por ciento |
| OCR | Claude Vision o Google Document AI | Mejor con plantillas latinas |
| Extracción estructurada | Claude con JSON schema por país | Output validable |
| Validación de formato | TypeScript con regex por país | Detecta dígito verificador inválido |
| Validación contra emisor | API RENAPER, INE, Registraduría | Cuando aplique |
| Liveness biométrico | iProov, FaceTec o custom MediaPipe | Antifraude |
| Almacén | Supabase Storage cifrado | Auditable |
| Logs | Append-only SHA-256 hash chain | Compliance |
Validaciones obligatorias por país
México: CURP tiene dígito verificador algorítmico. Se calcula y se compara. INE tiene clave de elector con homoclave que se valida con API de INE (servicio público desde 2020). Argentina: DNI tiene formato fijo (8 dígitos), CUIT calcula dígito verificador con módulo 11. RENAPER ofrece API de validación con consentimiento del titular.
Colombia: cédula no tiene dígito verificador estándar, pero la Registraduría ofrece consulta de estado (vigente, fallecida, cancelada). Chile: RUT tiene dígito verificador módulo 11 ampliamente conocido y obligatorio validar. Perú: DNI no tiene dígito interno verificable, RENIEC ofrece consulta privada con costo.
¿Qué tan grave es no hacer liveness?
Es la diferencia entre un sistema serio y un colador. Sin liveness, cualquiera con foto de cédula ajena (encontrada en redes, basura, robo) pasa el KYC. La regulación lo sabe: la CNBV en México exige biometría con prueba de vida desde 2018, la SFC colombiana desde 2020, el BCRA argentino desde 2019. Si tu producto opera sin liveness, estás incumpliendo regulación financiera de facto.
Liveness se hace con captura de selfie con instrucciones aleatorias (mover cabeza, parpadear, sonreír). El modelo verifica que es un humano real, no una foto. Stack común: iProov o FaceTec (premium), o MediaPipe custom (más barato).
Costos reales para distintos volúmenes
| Volumen mensual | Stack | Costo infraestructura | Costo captura manual |
|---|---|---|---|
| 100 cédulas | Claude Vision sin liveness | 10 USD | 50 USD (2.5h) |
| 1,000 cédulas | Claude Vision con liveness MediaPipe | 60 USD | 500 USD (25h) |
| 10,000 cédulas | Document AI con FaceTec liveness | 400 USD | 5,000 USD (250h) |
| 100,000 cédulas | Pipeline custom premium | 2,500 USD | Imposible manual |
¿Se puede hacer onboarding 100 por ciento automático?
Sí cuando todas las validaciones pasan: OCR con alta confianza, dígito verificador correcto, API del emisor confirma vigencia, liveness pasa. En esos casos (típicamente 80 a 90 por ciento de solicitudes) el onboarding cierra en menos de 60 segundos sin intervención. El 10 a 20 por ciento restante escala a revisión humana con todos los datos pre-cargados. Esa proporción es lo que distingue un sistema productivo de un demo.
Próximos pasos
Para fintechs, telcos, plataformas de crédito o aseguradoras con KYC volumétrico, MAGIA Forge entrega pipeline completo en 12 semanas a 20,000 USD: captura multi-canal, OCR multi-país, validación contra emisor, liveness biométrico, logs auditables y compliance financiero. Para empresas con KYC moderado (registro de clientes B2B, onboarding de proveedores), MAGIA Core a 15,000 USD cubre el alcance.
Agenda una sesión técnica de 30 minutos para revisar el stack adecuado a tu volumen y regulación. Llamada con quien construye el pipeline.