Un modelo de lenguaje no "entiende" las palabras como tú: las convierte en números, calcula probabilidades y elige la siguiente pieza de texto millones de veces por segundo. Comprender ese mecanismo no es un lujo académico —es la diferencia entre usar la IA como una caja negra y diseñar productos que realmente funcionen.
De palabras a números: el primer paso del pensamiento artificial
Antes de que una IA pueda "pensar", necesita traducir el lenguaje humano a algo que una computadora pueda procesar: vectores numéricos.
Tokenización: el alfabeto de los modelos
El texto se divide en tokens —fragmentos de palabras, palabras completas o signos de puntuación— que se convierten en identificadores numéricos. La palabra "inteligencia" puede ser un solo token o dividirse en dos, dependiendo del modelo. GPT-4 maneja un vocabulario de alrededor de 100,000 tokens; LLaMA 3 trabaja con ~128,000.
Embeddings: el espacio donde las ideas tienen coordenadas
Cada token se mapea a un vector de alta dimensión —GPT-4 usa vectores de 12,288 dimensiones— donde la posición relativa codifica significado. Palabras semánticamente cercanas quedan cerca en ese espacio. Por eso "rey − hombre + mujer ≈ reina" no es magia: es geometría vectorial.
La arquitectura que procesa todo: el Transformer
Publicado por Google en 2017 en el paper "Attention is All You Need", el Transformer es la base de prácticamente todos los modelos relevantes de hoy: GPT, Claude, Gemini, Mistral, LLaMA.
Atención: qué palabras importan y cuánto
El mecanismo de atención permite que cada token "mire" a todos los demás tokens del contexto y decida cuánto peso darle a cada uno. Cuando el modelo procesa la palabra "ella" en la oración "María llegó tarde porque ella estaba cansada", la atención conecta "ella" con "María" —no con "tarde" ni con "cansada".
Este proceso ocurre en paralelo en docenas de cabezas de atención simultáneas. GPT-4 tiene 96 capas de Transformer, cada una con múltiples cabezas. Es esa profundidad la que permite capturar relaciones complejas en el lenguaje.
Ventana de contexto: la memoria de trabajo de la IA
El modelo solo procesa lo que cabe en su ventana de contexto. GPT-4 Turbo admite hasta 128,000 tokens (~96,000 palabras). Claude 3.5 llega a 200,000 tokens. Lo que queda fuera de esa ventana, no existe para el modelo —no hay memoria persistente entre sesiones a menos que se implemente por diseño.
Cómo una IA toma decisiones: probabilidades, no certezas
Aquí está el núcleo de cómo piensa y decide una inteligencia artificial: en ningún momento selecciona "la respuesta correcta". Genera una distribución de probabilidad sobre los posibles tokens siguientes y elige uno.
El proceso de generación token a token
- El modelo recibe un prompt y lo tokeniza.
- Calcula la probabilidad de cada token del vocabulario como siguiente pieza.
- Aplica una estrategia de muestreo para elegir uno.
- Ese token se agrega al contexto y el ciclo se repite.
Una respuesta de 300 palabras implica aproximadamente 400 decisiones probabilísticas encadenadas.
Temperatura y top-p: los parámetros que moldean la "personalidad"
| Parámetro | Valor bajo | Valor alto |
|---|---|---|
| Temperatura | Respuestas más predecibles y conservadoras | Más variedad, más "creatividad", más riesgo de errores |
| Top-p | Solo considera los tokens más probables | Amplía el rango de opciones posibles |
Un asistente de soporte técnico debería correr con temperatura 0.2. Un generador de ideas de campaña, con 0.8. Esta no es una decisión trivial: define el comportamiento del producto.
Razonamiento: ¿la IA realmente "piensa paso a paso"?
Chain-of-Thought: estructurar para razonar mejor
Cuando un modelo recibe la instrucción de razonar paso a paso —o cuando está entrenado para hacerlo, como en el caso de OpenAI o1— su precisión en tareas complejas mejora de forma medible. En benchmarks matemáticos como MATH, o1 alcanza un 94.8% de precisión vs. 52.9% de GPT-4 estándar.
Esto no es pensamiento en el sentido humano: es que el proceso de generar texto intermedio obliga al modelo a construir sobre tokens ya producidos, reduciendo contradicciones internas.
Lo que la IA no puede hacer sin ayuda
- Acceder a información actualizada: los modelos tienen una fecha de corte de entrenamiento. GPT-4o fue entrenado con datos hasta principios de 2024.
- Recordar conversaciones anteriores: sin memoria explícita (vector stores, bases de datos), cada sesión es nueva.
- Ejecutar acciones en el mundo: por sí solo, un LLM solo produce texto. Para actuar —enviar un correo, consultar una API, mover un archivo— necesita herramientas y una capa de orquestación: un agente.
Agentes: cuando la IA pasa de pensar a actuar
Un agente de IA es un sistema donde un LLM toma decisiones en bucle: observa su entorno, planifica, ejecuta herramientas, evalúa el resultado y ajusta.
El ciclo ReAct (Reason + Act)
Observación → Pensamiento → Acción → Observación → ...
Frameworks como LangChain, LangGraph, AutoGen y CrewAI implementan este patrón. Un agente puede:
- Buscar en internet en tiempo real (tool: search)
- Consultar una base de datos interna (tool: SQL query)
- Redactar y enviar un correo (tool: Gmail API)
- Llamar a otro agente especializado
Por qué la arquitectura del agente importa tanto como el modelo
Elegir GPT-4o vs. Claude 3.5 Sonnet es solo una variable. La calidad del sistema de agencia —cómo se gestionan los errores, cómo se encadenan las herramientas, qué tan determinista es el flujo— determina si el producto es confiable en producción.
Un agente mal diseñado con el mejor modelo del mercado falla. Un agente bien diseñado con un modelo mediano puede superar expectativas.
Sesgos y alucinaciones: los límites reales del razonamiento artificial
Por qué los modelos inventan hechos
Las alucinaciones ocurren cuando el modelo asigna alta probabilidad a tokens incorrectos pero plausibles. No detecta que está equivocado porque no tiene acceso a la verdad —solo a patrones estadísticos del texto de entrenamiento.
Estrategias para mitigarlas:
- RAG (Retrieval-Augmented Generation): el modelo recibe documentos reales como contexto antes de responder.
- Temperatura baja en casos de uso donde la precisión es crítica.
- Verificación con herramientas: el agente valida su respuesta contra una fuente externa.
Sesgos heredados del entrenamiento
Si el corpus de entrenamiento sobre-representa ciertos idiomas, culturas o puntos de vista, el modelo los refleja. GPT-4 fue entrenado principalmente en inglés; su desempeño en español —especialmente en variantes latinoamericanas— puede ser inferior en tareas muy específicas.
Qué significa esto para quien construye productos con IA
Comprender cómo piensa y decide una inteligencia artificial no es solo conocimiento técnico: es ventaja de diseño.
Quien entiende que la IA trabaja con probabilidades —no con certezas— diseña flujos con validación. Quien sabe que la ventana de contexto es finita, gestiona la memoria correctamente. Quien reconoce que un agente necesita arquitectura, no solo un modelo, construye sistemas que escalan.
En Catalizadora construimos software AI-native desde cero: con propiedad 100% del código e IP para el cliente, sin licencias recurrentes, en plazos concretos —12 semanas para proyectos completos con Catalizadora Core, 15 días para productos focalizados con Solo. Cada decisión de arquitectura —qué modelo, qué temperatura, cómo orquestar agentes, cómo manejar memoria— se toma con criterio de producto, no de demo.
CTA: del concepto al producto
Entender la teoría es el primer paso. El segundo es saber qué construir con ella.
Si quieres ver cómo traducimos estos principios —tokenización, agentes, RAG, memoria— en software que funciona en producción para empresas en LATAM y Estados Unidos, lee nuestro manifiesto: catalizadora.ai/manifiesto.
Ahí explicamos cómo pensamos nosotros antes de que empiece a pensar la IA.