¿Cuál es la diferencia entre RAG y fine-tuning?

RAG conecta el modelo con una base de conocimiento externa en tiempo de inferencia, sin modificar los pesos del modelo. Fine-tuning reajusta los parámetros del modelo con datos propios durante un proceso de reentrenamiento. RAG es más rápido, más barato y más fácil de actualizar; fine-tuning produce mayor consistencia en dominios muy especializados pero cuesta más. Para la mayoría de los casos empresariales, RAG es el punto de partida correcto.

¿Qué es un agente de IA y en qué se diferencia de un chatbot?

Un chatbot responde preguntas dentro de una conversación. Un agente de IA usa un LLM para razonar y luego ejecuta acciones reales: consultar APIs, escribir en bases de datos, enviar correos, navegar sitios web. La diferencia clave es la capacidad de actuar en el mundo, no solo generar texto.

¿Qué es un LLM en términos simples?

Un Large Language Model (LLM) es un modelo entrenado sobre enormes volúmenes de texto que aprende a predecir cuál es el siguiente fragmento de texto más probable dado un contexto. A escala suficiente, esa predicción produce capacidades como razonamiento, síntesis y generación de código. GPT-4o, Claude y Llama son ejemplos de LLMs.

¿Qué son los embeddings y para qué sirven?

Los embeddings son representaciones numéricas de texto en un espacio vectorial donde la cercanía geométrica equivale a similitud semántica. Son la base técnica de RAG (para encontrar los fragmentos más relevantes de tus documentos) y de los motores de búsqueda semántica que entienden el significado de una consulta, no solo las palabras exactas.

¿Qué significa que un modelo tenga una ventana de contexto grande?

La ventana de contexto es la cantidad máxima de texto que el modelo puede procesar en una sola llamada. Una ventana grande (por ejemplo, 200 000 tokens de Claude 3.5 Sonnet) permite enviarle documentos largos, historiales extensos o múltiples archivos a la vez. Cuando se supera ese límite, el modelo no puede ver la información que quedó fuera.

¿Qué son los guardrails en un sistema de IA?

Los guardrails son capas de validación que rodean al modelo para controlar sus salidas: filtros de contenido inapropiado, detección de intentos de manipulación del prompt (prompt injection), verificación de que la respuesta tiene el formato correcto, y límites sobre qué temas puede abordar. Son obligatorios en cualquier sistema de IA que vaya a producción.

Glosario de inteligencia artificial explicado fácil

Glosario de inteligencia artificial explicado fácil: 30+ términos clave —LLM, agentes, RAG, fine-tuning— con definiciones claras y ejemplos concretos.

Treinta términos de IA aparecen en cada reunión de producto. Pocos se definen con precisión. El resultado: decisiones de inversión tomadas sobre conceptos mal entendidos, y proyectos que arrancan en la dirección equivocada.

Este glosario de inteligencia artificial explicado fácil está organizado por capas —desde los fundamentos hasta los conceptos de agentes y despliegue— para que puedas leerlo de corrido o usarlo como referencia rápida.

Los fundamentos: qué es y qué no es IA

Inteligencia Artificial (IA)

Campo de la computación que busca que las máquinas realicen tareas que, hasta hace poco, requerían juicio humano: reconocer imágenes, traducir texto, diagnosticar fallas en maquinaria. No es magia ni pensamiento consciente; es optimización matemática sobre datos.

Machine Learning (ML)

Subconjunto de la IA en el que un sistema aprende patrones desde datos sin que un programador le escriba reglas explícitas. El modelo de detección de fraudes de tu banco no sigue un árbol de decisiones escrito a mano: ajustó millones de parámetros leyendo transacciones históricas.

Deep Learning

Subconjunto de ML que usa redes neuronales con muchas capas (de ahí "deep"). Es la arquitectura detrás de GPT, Stable Diffusion y los modelos de reconocimiento de voz. Requiere grandes volúmenes de datos y poder de cómputo significativo para entrenar, aunque la inferencia (usarlo) puede ser barata.

Modelo

El artefacto resultante del entrenamiento: un archivo de parámetros numéricos que transforma una entrada en una salida. GPT-4o es un modelo. Llama 3 es un modelo. Una red neuronal entrenada para predecir churn en tu SaaS también es un modelo.

Modelos de lenguaje: el corazón del boom actual

LLM (Large Language Model)

Modelo de lenguaje entrenado sobre cientos de miles de millones de palabras. Predice el siguiente token más probable dado un contexto. Esa predicción simple, a escala suficiente, genera capacidades emergentes: razonamiento, síntesis, código. Ejemplos: GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Llama 3.1 405B.

Token

Unidad mínima de texto que procesa un LLM. No es exactamente una palabra: "inteligencia" puede ser 1–3 tokens dependiendo del tokenizador. Importa porque los LLM cobran por token y tienen un límite de cuántos procesan a la vez (ventana de contexto).

Ventana de contexto (Context Window)

La cantidad máxima de tokens que un modelo puede "ver" en una sola llamada, incluyendo el historial de conversación y los documentos que le pases. Claude 3.5 Sonnet tiene 200 000 tokens (~150 000 palabras). GPT-4o, 128 000. Modelos más pequeños, 4 000–8 000. Cuando el contexto se acaba, el modelo olvida lo anterior.

Prompt

La instrucción o entrada que le das al modelo. Un prompt bien construido puede duplicar la calidad de la respuesta sin cambiar el modelo. Incluye rol, tarea, formato esperado y restricciones.

Temperatura

Parámetro que controla qué tan "creativa" o determinista es la respuesta. Temperatura 0 = respuesta casi idéntica cada vez (útil para extracción de datos). Temperatura 0.8–1.0 = más variedad y riesgo de alucinaciones (útil para brainstorming).

Alucinación

Cuando el modelo genera información falsa con aparente confianza. No es un bug de diseño sino una consecuencia de cómo funciona la predicción de tokens. Se mitiga con RAG, grounding en datos reales y verificación humana.

Técnicas de personalización y mejora

RAG (Retrieval-Augmented Generation)

Técnica que conecta el LLM con una base de conocimiento externa. Antes de generar, el sistema recupera los fragmentos más relevantes de tus documentos y los inyecta en el prompt. Resultado: respuestas fundamentadas en tu información sin necesidad de reentrenar el modelo. Es la técnica detrás de la mayoría de los chatbots corporativos que funcionan bien.

Fine-tuning

Proceso de reentrenar un modelo base con datos propios para que adopte un estilo, vocabulario o tarea específica. Cuesta más que RAG (datos etiquetados + cómputo) pero produce resultados más consistentes en dominios muy especializados, como jurídico o médico. No es lo primero que debes probar; RAG resuelve el 80% de los casos a una fracción del costo.

Embeddings

Representaciones numéricas de texto (o imágenes) en un espacio vectorial donde la similitud semántica se traduce en proximidad geométrica. "Perro" y "canino" estarán cerca; "perro" y "factura" estarán lejos. Son la base técnica de RAG y de los motores de búsqueda semántica.

Vector Database

Base de datos optimizada para almacenar y buscar embeddings. Cuando tu sistema RAG necesita los 5 fragmentos más relevantes para una pregunta, consulta una vector DB (Pinecone, Weaviate, pgvector). La búsqueda es por similitud coseno, no por palabras clave exactas.

System Prompt

Instrucción que se inyecta al inicio de cada conversación y define el comportamiento del modelo: personalidad, restricciones, formato de respuesta, idioma. Es el "ADN" de un producto de IA. Bien construido, define la diferencia entre un chatbot genérico y un asistente que representa tu marca.

Agentes de IA: de responder a actuar

Agente de IA

Sistema que usa un LLM como cerebro de razonamiento y puede ejecutar acciones en el mundo: consultar una API, escribir a una base de datos, enviar un correo, navegar un sitio web. La diferencia con un chatbot: el agente no solo responde, toma decisiones y actúa en bucles.

Herramientas (Tools / Function Calling)

Capacidades que se le dan a un agente para que pueda interactuar con sistemas externos. Una "herramienta" puede ser una función Python que consulta tu CRM, un endpoint de tu ERP, o una búsqueda web. El modelo decide cuándo y cómo usar cada herramienta.

Orquestador

El componente que coordina múltiples agentes o pasos en un flujo. Decide qué agente actúa, en qué orden, y qué datos pasan de uno a otro. Frameworks como LangGraph, CrewAI o AutoGen implementan orquestación.

Multi-agent System

Arquitectura donde varios agentes especializados colaboran en una tarea compleja. Un agente investiga, otro redacta, otro verifica hechos, otro formatea para publicación. Permite paralelizar trabajo y mantener cada agente enfocado en una competencia específica.

ReAct (Reason + Act)

Patrón de prompting donde el modelo alterna entre razonar ("necesito saber el precio actual del dólar") y actuar (llamar la herramienta de tipo de cambio). Es el bucle cognitivo básico de la mayoría de los agentes modernos.

Memoria de Agente

Mecanismo para que un agente recuerde información entre sesiones. Puede ser memoria de corto plazo (dentro del contexto), memoria episódica (resúmenes de conversaciones pasadas en una DB) o memoria semántica (hechos sobre el usuario almacenados en un vector store).

Infraestructura y despliegue

API de IA

Interfaz que permite a tu aplicación llamar a un modelo sin alojarlo tú mismo. OpenAI, Anthropic, Google y Mistral exponen APIs de pago por uso. Es el punto de entrada más rápido para prototipar.

Modelo open-source

Modelo cuyos pesos están disponibles públicamente (Llama, Mistral, Phi, Qwen). Puedes alojarlo en tu propia infraestructura, lo que elimina dependencia de un proveedor externo y puede reducir costos a escala. La desventaja: requieres capacidad para desplegarlo y mantenerlo.

Inference (Inferencia)

El proceso de usar el modelo ya entrenado para generar respuestas. Es lo que paga el usuario final: cómputo por cada llamada. Distinto del entrenamiento, que es mucho más costoso y ocurre una sola vez (o esporádicamente con fine-tuning).

Latencia

Tiempo que tarda el modelo en devolver una respuesta completa. Crítico para experiencias de usuario en tiempo real. Se reduce con modelos más pequeños, streaming de tokens, o caché de respuestas comunes.

Guardrails

Capas de validación que rodean al modelo para evitar respuestas fuera de policy: filtros de contenido, detección de prompt injection, verificación de formato de salida. No son opcionales en producción.

Evaluación y calidad

Benchmark

Conjunto de pruebas estándar para comparar modelos. MMLU mide razonamiento general; HumanEval mide generación de código; MT-Bench evalúa conversación. Útiles para comparar, pero no reemplazan la evaluación sobre tus casos de uso reales.

Evals (Evaluaciones)

Pruebas específicas para medir qué tan bien un sistema de IA cumple su función en tu contexto particular. Un eval bien diseñado es la herramienta más importante para iterar un producto de IA con confianza. Sin evals, mejorar el prompt es disparar a oscuras.

Hallucination Rate

Porcentaje de respuestas que contienen información fabricada. No existe un modelo con tasa cero; el objetivo es minimizarla con arquitectura (RAG, grounding) y medirla con evals.

De los conceptos al producto

Conocer estos términos es el primer paso. El segundo es saber cuáles aplican a tu problema específico y en qué orden atacarlos.

Un error común: empezar con fine-tuning cuando RAG habría resuelto el problema en dos semanas. Otro: construir un sistema multi-agente complejo cuando un solo agente con tres herramientas era suficiente.

En Catalizadora construimos software AI-native desde cero —con propiedad total del código y sin licencias recurrentes— en plazos definidos: 12 semanas para productos completos (Core), 15 días para herramientas enfocadas (Solo), o por alcance para iniciativas más grandes (Forge). Antes de escribir una sola línea, auditamos qué técnicas de este glosario tienen sentido para tu caso: RAG vs. fine-tuning, agente vs. automatización, modelo propio vs. API externa.

¿Por dónde empezar?

Si llegaste aquí para entender la terminología antes de tomar una decisión de producto, ya tienes una ventaja real sobre el 90% de los equipos que entran a este espacio repitiendo buzzwords.

El siguiente paso es leer cómo aplicamos estos conceptos en proyectos reales y qué principios guían nuestras decisiones de arquitectura.

👉 Lee nuestro manifiesto sobre software AI-native →