Treinta términos de IA aparecen en cada reunión de producto. Pocos se definen con precisión. El resultado: decisiones de inversión tomadas sobre conceptos mal entendidos, y proyectos que arrancan en la dirección equivocada.
Este glosario de inteligencia artificial explicado fácil está organizado por capas —desde los fundamentos hasta los conceptos de agentes y despliegue— para que puedas leerlo de corrido o usarlo como referencia rápida.
Los fundamentos: qué es y qué no es IA
Inteligencia Artificial (IA)
Campo de la computación que busca que las máquinas realicen tareas que, hasta hace poco, requerían juicio humano: reconocer imágenes, traducir texto, diagnosticar fallas en maquinaria. No es magia ni pensamiento consciente; es optimización matemática sobre datos.
Machine Learning (ML)
Subconjunto de la IA en el que un sistema aprende patrones desde datos sin que un programador le escriba reglas explícitas. El modelo de detección de fraudes de tu banco no sigue un árbol de decisiones escrito a mano: ajustó millones de parámetros leyendo transacciones históricas.
Deep Learning
Subconjunto de ML que usa redes neuronales con muchas capas (de ahí "deep"). Es la arquitectura detrás de GPT, Stable Diffusion y los modelos de reconocimiento de voz. Requiere grandes volúmenes de datos y poder de cómputo significativo para entrenar, aunque la inferencia (usarlo) puede ser barata.
Modelo
El artefacto resultante del entrenamiento: un archivo de parámetros numéricos que transforma una entrada en una salida. GPT-4o es un modelo. Llama 3 es un modelo. Una red neuronal entrenada para predecir churn en tu SaaS también es un modelo.
Modelos de lenguaje: el corazón del boom actual
LLM (Large Language Model)
Modelo de lenguaje entrenado sobre cientos de miles de millones de palabras. Predice el siguiente token más probable dado un contexto. Esa predicción simple, a escala suficiente, genera capacidades emergentes: razonamiento, síntesis, código. Ejemplos: GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Llama 3.1 405B.
Token
Unidad mínima de texto que procesa un LLM. No es exactamente una palabra: "inteligencia" puede ser 1–3 tokens dependiendo del tokenizador. Importa porque los LLM cobran por token y tienen un límite de cuántos procesan a la vez (ventana de contexto).
Ventana de contexto (Context Window)
La cantidad máxima de tokens que un modelo puede "ver" en una sola llamada, incluyendo el historial de conversación y los documentos que le pases. Claude 3.5 Sonnet tiene 200 000 tokens (~150 000 palabras). GPT-4o, 128 000. Modelos más pequeños, 4 000–8 000. Cuando el contexto se acaba, el modelo olvida lo anterior.
Prompt
La instrucción o entrada que le das al modelo. Un prompt bien construido puede duplicar la calidad de la respuesta sin cambiar el modelo. Incluye rol, tarea, formato esperado y restricciones.
Temperatura
Parámetro que controla qué tan "creativa" o determinista es la respuesta. Temperatura 0 = respuesta casi idéntica cada vez (útil para extracción de datos). Temperatura 0.8–1.0 = más variedad y riesgo de alucinaciones (útil para brainstorming).
Alucinación
Cuando el modelo genera información falsa con aparente confianza. No es un bug de diseño sino una consecuencia de cómo funciona la predicción de tokens. Se mitiga con RAG, grounding en datos reales y verificación humana.
Técnicas de personalización y mejora
RAG (Retrieval-Augmented Generation)
Técnica que conecta el LLM con una base de conocimiento externa. Antes de generar, el sistema recupera los fragmentos más relevantes de tus documentos y los inyecta en el prompt. Resultado: respuestas fundamentadas en tu información sin necesidad de reentrenar el modelo. Es la técnica detrás de la mayoría de los chatbots corporativos que funcionan bien.
Fine-tuning
Proceso de reentrenar un modelo base con datos propios para que adopte un estilo, vocabulario o tarea específica. Cuesta más que RAG (datos etiquetados + cómputo) pero produce resultados más consistentes en dominios muy especializados, como jurídico o médico. No es lo primero que debes probar; RAG resuelve el 80% de los casos a una fracción del costo.
Embeddings
Representaciones numéricas de texto (o imágenes) en un espacio vectorial donde la similitud semántica se traduce en proximidad geométrica. "Perro" y "canino" estarán cerca; "perro" y "factura" estarán lejos. Son la base técnica de RAG y de los motores de búsqueda semántica.
Vector Database
Base de datos optimizada para almacenar y buscar embeddings. Cuando tu sistema RAG necesita los 5 fragmentos más relevantes para una pregunta, consulta una vector DB (Pinecone, Weaviate, pgvector). La búsqueda es por similitud coseno, no por palabras clave exactas.
System Prompt
Instrucción que se inyecta al inicio de cada conversación y define el comportamiento del modelo: personalidad, restricciones, formato de respuesta, idioma. Es el "ADN" de un producto de IA. Bien construido, define la diferencia entre un chatbot genérico y un asistente que representa tu marca.
Agentes de IA: de responder a actuar
Agente de IA
Sistema que usa un LLM como cerebro de razonamiento y puede ejecutar acciones en el mundo: consultar una API, escribir a una base de datos, enviar un correo, navegar un sitio web. La diferencia con un chatbot: el agente no solo responde, toma decisiones y actúa en bucles.
Herramientas (Tools / Function Calling)
Capacidades que se le dan a un agente para que pueda interactuar con sistemas externos. Una "herramienta" puede ser una función Python que consulta tu CRM, un endpoint de tu ERP, o una búsqueda web. El modelo decide cuándo y cómo usar cada herramienta.
Orquestador
El componente que coordina múltiples agentes o pasos en un flujo. Decide qué agente actúa, en qué orden, y qué datos pasan de uno a otro. Frameworks como LangGraph, CrewAI o AutoGen implementan orquestación.
Multi-agent System
Arquitectura donde varios agentes especializados colaboran en una tarea compleja. Un agente investiga, otro redacta, otro verifica hechos, otro formatea para publicación. Permite paralelizar trabajo y mantener cada agente enfocado en una competencia específica.
ReAct (Reason + Act)
Patrón de prompting donde el modelo alterna entre razonar ("necesito saber el precio actual del dólar") y actuar (llamar la herramienta de tipo de cambio). Es el bucle cognitivo básico de la mayoría de los agentes modernos.
Memoria de Agente
Mecanismo para que un agente recuerde información entre sesiones. Puede ser memoria de corto plazo (dentro del contexto), memoria episódica (resúmenes de conversaciones pasadas en una DB) o memoria semántica (hechos sobre el usuario almacenados en un vector store).
Infraestructura y despliegue
API de IA
Interfaz que permite a tu aplicación llamar a un modelo sin alojarlo tú mismo. OpenAI, Anthropic, Google y Mistral exponen APIs de pago por uso. Es el punto de entrada más rápido para prototipar.
Modelo open-source
Modelo cuyos pesos están disponibles públicamente (Llama, Mistral, Phi, Qwen). Puedes alojarlo en tu propia infraestructura, lo que elimina dependencia de un proveedor externo y puede reducir costos a escala. La desventaja: requieres capacidad para desplegarlo y mantenerlo.
Inference (Inferencia)
El proceso de usar el modelo ya entrenado para generar respuestas. Es lo que paga el usuario final: cómputo por cada llamada. Distinto del entrenamiento, que es mucho más costoso y ocurre una sola vez (o esporádicamente con fine-tuning).
Latencia
Tiempo que tarda el modelo en devolver una respuesta completa. Crítico para experiencias de usuario en tiempo real. Se reduce con modelos más pequeños, streaming de tokens, o caché de respuestas comunes.
Guardrails
Capas de validación que rodean al modelo para evitar respuestas fuera de policy: filtros de contenido, detección de prompt injection, verificación de formato de salida. No son opcionales en producción.
Evaluación y calidad
Benchmark
Conjunto de pruebas estándar para comparar modelos. MMLU mide razonamiento general; HumanEval mide generación de código; MT-Bench evalúa conversación. Útiles para comparar, pero no reemplazan la evaluación sobre tus casos de uso reales.
Evals (Evaluaciones)
Pruebas específicas para medir qué tan bien un sistema de IA cumple su función en tu contexto particular. Un eval bien diseñado es la herramienta más importante para iterar un producto de IA con confianza. Sin evals, mejorar el prompt es disparar a oscuras.
Hallucination Rate
Porcentaje de respuestas que contienen información fabricada. No existe un modelo con tasa cero; el objetivo es minimizarla con arquitectura (RAG, grounding) y medirla con evals.
De los conceptos al producto
Conocer estos términos es el primer paso. El segundo es saber cuáles aplican a tu problema específico y en qué orden atacarlos.
Un error común: empezar con fine-tuning cuando RAG habría resuelto el problema en dos semanas. Otro: construir un sistema multi-agente complejo cuando un solo agente con tres herramientas era suficiente.
En Catalizadora construimos software AI-native desde cero —con propiedad total del código y sin licencias recurrentes— en plazos definidos: 12 semanas para productos completos (Core), 15 días para herramientas enfocadas (Solo), o por alcance para iniciativas más grandes (Forge). Antes de escribir una sola línea, auditamos qué técnicas de este glosario tienen sentido para tu caso: RAG vs. fine-tuning, agente vs. automatización, modelo propio vs. API externa.
¿Por dónde empezar?
Si llegaste aquí para entender la terminología antes de tomar una decisión de producto, ya tienes una ventaja real sobre el 90% de los equipos que entran a este espacio repitiendo buzzwords.
El siguiente paso es leer cómo aplicamos estos conceptos en proyectos reales y qué principios guían nuestras decisiones de arquitectura.