Entrenar un agente IA con documentos de tu empresa significa montar un pipeline RAG (Retrieval Augmented Generation) donde los documentos se procesan en chunks, se convierten en embeddings, se guardan en vector store propio y se consultan en tiempo de inferencia. No es fine tuning. En un caso documentado migramos 3.6M filas a Supabase en 48 horas con verificación fila a fila sobre 13M filas legacy y 197 tablas, según el caso. Convergencia es diagnóstico real.
¿Por qué RAG y no fine tuning?
Porque RAG es flexible, auditable y barato de mantener. Fine tuning hace al modelo "memorizar" patrones, lo cual sirve para estilo o tono específico pero no para hechos verificables. Si tu política de devolución cambia el mes que viene, con RAG actualizás un documento y el agente lo lee. Con fine tuning reentrenás todo el modelo, lo cual cuesta tiempo y dinero.
| Criterio | RAG | Fine tuning |
|---|---|---|
| Costo inicial | Bajo (embeddings + storage) | Alto (compute para entrenar) |
| Actualización | Editar doc fuente | Reentrenar modelo |
| Auditabilidad | Cita fuente exacta | No cita |
| Adaptación a cambio | Inmediata | Días o semanas |
| Caso de uso ideal | Hechos, política, FAQ | Estilo, tono específico |
| Costo operación | Pass-through tokens | Igual + memoria reservada |
Para 95% de los casos de empresa, RAG resuelve. Híbrido (fine tuning para tono más RAG para hechos) tiene sentido en consultoras grandes o medios editoriales.
Arquitectura del pipeline RAG paso a paso
- Ingesta: tus documentos llegan al sistema. PDFs, Word, Excel, páginas web, transcripciones de juntas
- Pre-proceso: parser por tipo extrae texto plano respetando estructura (títulos, tablas, listas)
- OCR: escaneos pasan por Vision API antes del chunking
- Chunking: el texto se divide en fragmentos de 500 a 1,500 tokens con solapamiento de 10 a 20%
- Embeddings: cada chunk se convierte en vector con OpenAI ada o Cohere multilingual
- Vector store: los vectores se guardan en Pinecone, Supabase pgvector o Weaviate
- Indexación: metadatos por chunk (fuente, fecha, departamento, permisos)
- Inferencia: el usuario pregunta, el sistema embed la consulta, busca top-k chunks similares, los pasa al LLM con la pregunta
- Generación: el LLM redacta respuesta citando fuentes
- Audit: cada consulta queda registrada con qué chunks se usaron
El chunking es el 80% de la calidad
La precisión del agente depende casi enteramente del chunking. Errores comunes:
- Chunks demasiado largos: el modelo se pierde, latencia alta, costo más caro
- Chunks demasiado cortos: pierde contexto, fragmenta sentido
- Sin solapamiento: información en frontera entre chunks se rompe
- Sin metadatos: imposible filtrar por departamento, permiso o fecha
- Sin estructura: bullets y tablas tratados como texto plano pierden semántica
La regla práctica para empresa LATAM: chunks de 800 a 1,200 tokens con 100 a 200 de solapamiento, metadatos enriquecidos (fuente, fecha, autor, tipo de doc, permisos), tablas chunkeadas en código de markdown.
El caso real: arquitectura Bronze Silver Gold para data
En un proyecto reciente para distribuidora con 13M filas legacy en SQL Server 2019 con 197 tablas inconsistentes, el reto fue normalizar 10 años de datos.
- Data Lake arquitectura Bronze, Silver, Gold con Supabase
- 3.6M filas migradas en 48 horas
- 1.17 TB en GCS como bronze parquet raw
- 197 tablas snapshot, 825 vistas Silver, 75 tablas Gold materializadas
- Verificación fila a fila: source igual a bronze igual a silver igual a gold
- 73 Gold tables finales normalizadas
- 57 RLS policies, 17 roles RBAC
El patrón se aplica a documentos igual. Bronze guarda el doc crudo. Silver tiene texto extraído y normalizado. Gold tiene chunks listos para vector store con embeddings y metadatos. Si mañana querés rastrear por qué el agente respondió X, hay trazabilidad fila por fila hasta el PDF original.
¿Qué documentos conviene cargar primero?
Orden recomendado por ROI:
- FAQ y políticas (devolución, garantía, envío): impacto inmediato en atención al cliente
- Catálogo de productos con descripciones técnicas: habilita cotización y soporte
- Manuales operativos internos: capacitación y onboarding
- Documentación legal y contratos modelo: agilidad para legal y comercial
- Histórico de propuestas ganadas: aprendizaje de patrones exitosos
- Notas de junta y minutas: memoria organizacional
- Bases técnicas, especificaciones de obra: ingeniería y compras
No es buena idea cargar todo de una. Empezar con 50 a 200 docs críticos, medir calidad, iterar chunking y prompts, expandir.
Permisos y compliance
El sistema debe respetar permisos del usuario. No todos pueden consultar todos los docs. Patrón estándar:
- Metadatos por chunk incluyen tags (departamento, confidencialidad, fecha)
- Cada consulta del agente filtra por permisos del usuario antes del retrieval
- Audit log inmutable registra qué chunks se usaron en cada respuesta
- Datos del cliente nunca salen de tu infraestructura
- El LLM se consume vía API con garantía contractual de no entrenamiento
Para industrias reguladas (salud, finanzas, legal) el setup incluye cifrado a nivel campo, retention policies y procedimiento de derecho al olvido.
¿Cuánto cuesta operar RAG empresarial?
| Volumen | Storage | Embeddings | Consultas mensuales | Costo total mensual aprox. |
|---|---|---|---|---|
| 500 docs, 50K chunks | 5 USD | 5 USD | 10,000 | 100 a 200 USD |
| 5,000 docs, 500K chunks | 50 USD | 50 USD | 100,000 | 500 a 1,500 USD |
| 50,000 docs, 5M chunks | 500 USD | 500 USD | 1,000,000 | 3,000 a 8,000 USD |
El costo escala lineal con uso, no con número de usuarios. Sin licencias por seat.
Próximos pasos
Si tu empresa tiene entre 200 y 50,000 documentos críticos atrapados en carpetas, drives y emails, y querés que tu equipo y tus clientes accedan en lenguaje natural, el primer paso es una llamada de 30 minutos para revisar tu universo documental y casos de uso prioritarios.
Conocé MAGIA Core por 15,000 USD a 12 semanas con data lake y agente con guardrails, o MAGIA Forge por 20,000 USD para custom enterprise.