Entrenar un agente IA con tu propio contenido en español no es fine-tuning del modelo: es construir una base vectorial que el agente consulta antes de responder. Esa base se llena con posts, mails, brochures, FAQs, transcripciones de llamadas. El agente recupera los fragmentos relevantes en milisegundos (RAG) y genera respuesta con tu vocabulario, tu información y tu tono. Tu bot responde por WhatsApp en segundos con tu voz escrita: el cliente no nota la diferencia. En operación real medimos 26.5% de conversión bot, 79 follow-ups automatizados y 1.36 millones MXN cerrados desde el funnel.
Los cuatro pasos del entrenamiento serio
| Fase | Qué se hace | Duración típica |
|---|---|---|
| Recolección | Reúnes contenido real: posts, mails clave, brochures, FAQs, transcripciones | 2 a 3 días |
| Chunking + embedding | Cortas el contenido en fragmentos (chunks) y los conviertes a vectores | 1 día técnico |
| Vector store | Subes los vectores a Pinecone, Supabase pgvector o Weaviate | 1 día técnico |
| RAG + guardrails | Conectas el agente al store y configuras protocolo "no inventes" | 2 a 3 días |
Sin los cuatro pasos completos, el agente alucina, responde genérico o se rompe en preguntas no previstas. KPIs en código, no hallucinations: esa es la regla técnica de Catalizadora.
Qué contenido SÍ funciona para entrenar
El corpus serio incluye contenido con autoría real del negocio:
- 30 a 80 posts del blog (descripciones largas con voz consistente)
- 50 a 200 mails enviados a clientes (estilo conversacional real)
- 5 a 15 brochures, propuestas, presentaciones
- 100 a 300 FAQs históricas con preguntas reales de clientes
- 20 a 50 transcripciones de llamadas comerciales o de soporte
- Descripciones de productos o servicios completas
Lo que NO funciona:
- Texto genérico de marketing copywriter ajeno
- Listas de bullet sin contexto
- Material traducido de inglés a español sin revisión
- Contenido de redes sociales solo (muy corto, poco contexto)
El caso real: agente con voz propia, 32.9% de conversión
En una escuela educativa en Huixquilucan implementamos arquitectura idéntica a la que sirve para entrenar agente con contenido propio en cualquier industria. Métricas medibles a 5 meses:
- 113 conversaciones totales
- 30 reuniones agendadas (26.5% conversión)
- 79 follow-ups automatizados sin tocar humano
- 57 handoffs filtrados a humano
- 5 inscripciones cerradas del funnel general
- Pipeline acumulado 1.36 millones MXN
- Conversión bot 32.9% versus pauta digital 14.1%
El agente respondió con voz consistente del negocio porque el corpus incluyó mails históricos a familias, brochures de la escuela, FAQs reales y transcripciones de llamadas con la coordinadora.
La arquitectura técnica mínima
Para entrenar un agente IA con contenido propio en español de forma seria necesitas seis componentes:
| Componente | Tecnología típica | Función |
|---|---|---|
| Recolección de corpus | Scripts Python o manual | Reunir contenido real del negocio |
| Chunking | LangChain o LlamaIndex | Cortar texto en fragmentos de 500 a 1000 tokens |
| Modelo de embedding | text-embedding-3-small (OpenAI) o sentence-transformers | Convertir chunks a vectores |
| Vector store | Pinecone, Supabase pgvector, Weaviate | Almacenamiento con búsqueda semántica |
| Modelo LLM | Claude Sonnet 4, GPT-4o o Gemini 1.5 | Genera la respuesta final |
| Guardrails | TypeScript con KPIs en código | Bloquea respuestas sin fundamento en corpus |
Para español LATAM neutro funciona bien text-embedding-3-small de OpenAI. Para español muy regional (chilango, rioplatense, paisa) conviene probar multilingual-e5 o BGE-M3.
Los errores típicos al entrenar (y cómo evitarlos)
- Chunks demasiado cortos: Pierdes contexto. 500 a 1000 tokens es el rango sano
- Chunks sin overlap: Cortas oraciones por la mitad y la búsqueda falla. 100 a 200 tokens de overlap son obligatorios
- Solo un modelo de embedding: No probás alternativas. Comparar 2 a 3 modelos en tu corpus mejora retrieval entre 15 y 30%
- Sin guardrails: El agente alucina cuando la pregunta sale del corpus. Validación obligatoria: si no hay match con score mínimo, handoff a humano
- Sin evaluación: No mides retrieval recall ni answer relevance. Sin métricas, no sabés si el agente mejora o empeora con cambios
Por qué SaaS de chatbot no entrena con tu voz real
Los SaaS de chatbot (ManyChat, Tidio, WATI) ofrecen "integración con ChatGPT" que en realidad es un prompt genérico con tu nombre de empresa pegado. No hay vector store con tu contenido. No hay retrieval semántico. La voz que sale es la de OpenAI, no la tuya. Para servicios profesionales con marca propia, ese bot diluye la marca en lugar de fortalecerla.
La alternativa Catalizadora: vector store completo con tu corpus real, RAG configurado y guardrails que bloquean alucinaciones. Cuando los datos se unifican, los problemas se anuncian solos: hasta los gaps de contenido aparecen (FAQs que el corpus no cubre).
Próximos pasos
Si tienes marca propia y la operación comercial vive en WhatsApp manual + sin agente IA serio, el entrenamiento se entrega en 15 días con MAGIA Solo. Llamada de 30 minutos, sin pitch deck, conversación real sobre tu operación: agenda con MAGIA Solo si eres profesional o pyme con voz propia, o con MAGIA Core si manejas operación con stack fragmentado y necesidad de motor IA con guardrails serios.
Doscientas horas concentradas en quince días. Una sola persona, un solo sistema.