Un bot WhatsApp con base de conocimiento personalizada usa RAG (Retrieval Augmented Generation) para consultar documentos reales del cliente (FAQ, manuales, catálogo, blog) y responder con información verificada, no con respuestas genéricas del modelo. La inversión es 4,500 USD una vez (MAGIA Solo, 15 días) más 200 a 500 USD al mes operativo según volumen. Tu bot responde por WhatsApp en segundos con tu voz escrita, el cliente no nota la diferencia. Sin retainers, código a tu nombre.
Si dirigís empresa con catálogo extenso, FAQ complejas o documentación operativa que tu equipo cita seguido, este post te muestra cómo armar el bot con RAG bien.
Por qué RAG y no fine tuning
Tres razones operativas:
- RAG permite actualizar la base de conocimiento en minutos sin re entrenar
- Fine tuning cuesta miles de USD y se desactualiza con cada cambio de contenido
- RAG cita la fuente exacta, así que es auditable y defensible
Para 95% de los casos en LATAM, RAG es la decisión correcta. Fine tuning aplica para casos muy específicos (terminología técnica única, tono altamente específico) que generalmente no justifican el costo.
El caso real: 113 conversaciones, base de conocimiento entrenada
Una escuela educativa mediana en México llegó con bot WhatsApp sin estructura. Catalizadora entregó un bot entrenado en el contenido real de la escuela (cursos, calendario, profesores, política de pagos). Métricas reales:
- 113 conversaciones totales
- 30 reuniones cerradas (26.5% conversión)
- 79 follow ups automatizados
- 57 handoffs a humano cuando complejidad detectada
- 7,197 sesiones orgánicas en 60 días
- 32.9% conversión bot vs 14.1% pauta
El bot atiende como un staff que conoce la escuela de memoria. La voz es propia, las respuestas son verificadas.
Arquitectura técnica de RAG
El stack para RAG productivo:
| Capa | Herramienta | Función |
|---|---|---|
| Ingesta | Script Python o n8n | Subir documentos |
| Chunking | LangChain o código propio | Trocear texto |
| Embeddings | OpenAI text-embedding-3-small | Vectorizar |
| Vector DB | Supabase pgvector o Pinecone | Storage de vectores |
| Retrieval | Top-k semantic search | Recuperar chunks relevantes |
| Generación | Claude o GPT 4 con contexto | Respuesta final |
| Bot | Backend Python o Node | Orquestación |
Supabase pgvector es nuestra recomendación por defecto: storage propio, sin SaaS adicional, sin licencias extra.
Flujo de query típico
Caso cliente pregunta política de cancelación:
- Cliente: "Si cancelo a 24 horas, ¿hay reembolso?"
- Bot recibe mensaje
- Bot genera embedding de la pregunta
- Vector DB busca top 5 chunks más similares (política de cancelación, términos, FAQ)
- Bot manda contexto más pregunta a Claude o GPT 4
- Modelo genera respuesta citando los chunks
- Bot manda respuesta al cliente
Tiempo total: 2 a 5 segundos. Respuesta basada en documento real, no en suposición.
Cómo organizar la base de conocimiento
Recomendaciones operativas:
- Un documento por tema (no juntar todo en un PDF gigante)
- Chunks de 500 a 1,000 tokens con overlap de 100 tokens
- Metadata útil: fecha de actualización, categoría, fuente
- Versionado: si cambia un precio, re vectorizar el chunk correspondiente
- Audit trail: cada respuesta del bot debe poder citar el chunk fuente
Lo que NO hace una base de conocimiento bien armada: mezclar políticas contradictorias, dejar versiones viejas, omitir metadata.
Guardrails: que el bot no alucine
Tres reglas:
- Si la similitud del top chunk es baja (menos de 0.7 cosine similarity), el bot dice "no tengo esa info, te paso con un asesor" en lugar de inventar
- Precios, stock y datos críticos vienen de base de datos, no de RAG
- KPIs y métricas se calculan en código TypeScript, no en respuestas del modelo
La narrativa se genera sobre datos verificados. Cero hallucinations.
Cuánto cuesta y cuánto tarda
MAGIA Solo cubre el caso completo:
- 4,500 USD una vez
- 15 días corridos
- Bot WhatsApp con RAG personalizado más CRM más web más pasarela
- Ingesta inicial de documentos (hasta 200 páginas estándar)
- 3 sesiones de capacitación para mantener la base de conocimiento
- Manual operativo
- Soporte 4 semanas
Operativo: 200 a 500 USD al mes pass through según volumen de queries y tokens. Sin licencias mensuales.
Próximos pasos para tu operación
Si tu empresa tiene catálogo extenso (más de 100 productos), FAQ complejas (más de 50 preguntas frecuentes) o documentación operativa que tu equipo cita seguido, RAG es la palanca correcta.
- MAGIA Solo para pyme y profesional independiente con contenido propio
- MAGIA Core si manejás empresa con varios departamentos y necesitás bot RAG con permisos por rol
Llamada de 30 min, sin pitch deck. Conversación real sobre tu operación.