Cada vez que ChatGPT responde algo, completa una carrera de relevos en milisegundos: convierte tu texto en números, pesa miles de conexiones y apuesta por la siguiente palabra más probable. Entender ese proceso no requiere un doctorado en matemáticas — requiere las analogías correctas. Aquí las tienes.
El punto de partida: ¿qué es un modelo de lenguaje grande?
ChatGPT es un modelo de lenguaje grande (LLM, por sus siglas en inglés). Su única habilidad nativa es predecir cuál es la siguiente unidad de texto más probable dado todo lo que leyó antes. Eso suena simple, pero esconde una escala brutal:
- GPT-4 fue entrenado con estimaciones de más de 1 billón de parámetros.
- El corpus de entrenamiento incluye libros, código, artículos académicos, páginas web y conversaciones — probablemente más de 10 billones de tokens.
- El entrenamiento duró semanas en miles de GPUs corriendo en paralelo.
La inteligencia que percibes no es magia: es compresión estadística del lenguaje humano a una escala que ningún humano puede leer en una vida.
Paso 1: tu texto se convierte en tokens
Antes de que el modelo vea una sola letra, tu mensaje pasa por un tokenizador. Un token es una unidad de texto — a veces una palabra completa, a veces solo un fragmento.
Ejemplos concretos de tokenización
| Texto original | Tokens aproximados |
|---|---|
"Hola mundo" |
3 tokens |
"ChatGPT" |
2 tokens (Chat + GPT) |
"indistinguishable" |
4 tokens |
"🎉" |
3 tokens |
¿Por qué importa? Porque el modelo no lee palabras ni caracteres: lee vectores numéricos que representan esos tokens. Cada token se convierte en una lista de cientos o miles de números — su embedding — que captura el significado aproximado de esa unidad en relación con todo lo demás que el modelo aprendió.
Paso 2: la arquitectura Transformer y la atención
Aquí está el corazón del sistema. ChatGPT usa una arquitectura llamada Transformer, propuesta por Google en 2017 en el paper "Attention is All You Need". El mecanismo clave se llama atención (self-attention).
¿Qué hace la atención?
Imagina que escribes: "El banco que está a orillas del río se inundó."
Para entender qué significa "banco" en esa oración, un humano mira el contexto: río, inundó, orillas. El mecanismo de atención hace exactamente eso: por cada token, calcula cuánto debe fijarse en cada otro token del contexto para construir su representación.
El resultado es un número entre 0 y 1 para cada par de tokens — el peso de atención. Los tokens más relevantes reciben más peso; los irrelevantes, menos.
Capas apiladas
Un Transformer no tiene una sola capa de atención: tiene decenas. GPT-4 se estima que tiene alrededor de 96 capas. Cada capa refina la comprensión del texto. Las primeras capas captan relaciones gramaticales simples; las últimas captan razonamiento, tono y contexto semántico profundo.
Paso 3: predecir la siguiente palabra (y repetir)
Después de procesar todos los tokens a través de las capas del Transformer, el modelo produce una distribución de probabilidad sobre su vocabulario completo — que puede tener 50,000+ palabras y fragmentos.
Por ejemplo, dado el prompt "La capital de Francia es", el modelo podría asignar:
"París"→ 94% de probabilidad"Lyon"→ 2%"Bruselas"→ 1%- Todo lo demás → 3%
El modelo elige (o samplea) "París", lo agrega al contexto y repite el proceso para el siguiente token. A esto se le llama generación autoregresiva: cada token generado alimenta la siguiente predicción.
¿Por qué a veces "alucina"?
Precisamente aquí. Si el modelo llega a una zona del espacio probabilístico donde ninguna respuesta tiene probabilidad dominante — porque el tema es oscuro, contradictorio o no estaba bien representado en el entrenamiento — puede elegir algo plausible en forma pero falso en contenido. No miente deliberadamente; simplemente completa el patrón con lo que estadísticamente "suena bien".
Paso 4: el entrenamiento en tres fases
El modelo no nació sabiendo conversar. Pasó por tres etapas:
1. Pre-entrenamiento (aprender el lenguaje)
El modelo lee enormes volúmenes de texto y aprende a predecir el siguiente token. Aquí se construye el conocimiento del mundo, la gramática, la lógica básica y las asociaciones semánticas. Es aprendizaje no supervisado puro.
2. Fine-tuning supervisado (aprender a seguir instrucciones)
Humanos redactan conversaciones ideales: pregunta → respuesta ejemplar. El modelo se entrena sobre esos pares para imitar el estilo de asistente útil.
3. RLHF — Refuerzo con retroalimentación humana
Esta es la fase que más diferencia a ChatGPT de un simple predictor de texto. Evaluadores humanos califican múltiples respuestas del modelo. Con esas calificaciones se entrena un modelo de recompensa que aprende a distinguir buenas de malas respuestas. Luego, mediante aprendizaje por refuerzo (algoritmo PPO), el LLM se ajusta para maximizar esa recompensa.
El resultado: un modelo que no solo es coherente gramaticalmente, sino que tiende a ser útil, honesto y menos dañino.
Lo que ChatGPT no tiene (y confunde a muchos)
Varios conceptos populares sobre ChatGPT son incorrectos o imprecisos:
- ❌ No "piensa" en tiempo real mientras escribe. Todo el procesamiento ocurre antes de que aparezca el primer token en pantalla; lo que ves es streaming del output ya calculado.
- ❌ No tiene memoria entre conversaciones por defecto. Cada sesión empieza desde cero, a menos que el producto específico implemente almacenamiento externo.
- ❌ No accede a internet en su versión base. El conocimiento está congelado en la fecha de corte del entrenamiento. Los plugins o herramientas de búsqueda son capas externas.
- ❌ No sabe cuándo está equivocado. Carece de un mecanismo nativo para detectar su propia incertidumbre con precisión calibrada.
La ventana de contexto: la memoria de trabajo del modelo
ChatGPT procesa texto dentro de una ventana de contexto — el máximo de tokens que puede "ver" a la vez. GPT-4 Turbo admite hasta 128,000 tokens (aproximadamente 96,000 palabras). Todo lo que queda fuera de esa ventana es invisible para el modelo en esa llamada.
Esto tiene implicaciones prácticas directas:
- Conversaciones muy largas pueden hacer que el modelo "olvide" el inicio.
- Documentos grandes deben fragmentarse estratégicamente para consultas precisas.
- El costo de la API de OpenAI se cobra por token procesado — ventanas grandes = mayor costo.
De entender ChatGPT a construir con él
Entender cómo funciona ChatGPT por dentro te da ventaja real a la hora de integrarlo en productos y flujos de trabajo. No es solo una caja negra: es una herramienta con comportamientos predecibles una vez que conoces sus límites y fortalezas.
Algunas consecuencias prácticas de este conocimiento:
- Los prompts importan mucho porque son literalmente el input de un sistema probabilístico.
- El contexto es valioso — proporcionar ejemplos dentro del prompt (few-shot) guía al modelo hacia el espacio de probabilidad correcto.
- La temperatura controla la aleatoriedad — valores bajos (~0.2) dan respuestas más deterministas; valores altos (~0.9) dan respuestas más creativas pero menos predecibles.
- Los agentes de IA son sistemas que usan el LLM como motor de razonamiento, pero le agregan herramientas externas, memoria y bucles de acción — compensando exactamente las limitaciones descritas arriba.
Lo que viene: modelos multimodales y razonamiento
La evolución no se detiene en texto. GPT-4o procesa imágenes, audio y texto en el mismo modelo. Los modelos de razonamiento como o1 y o3 de OpenAI introducen una fase de "pensamiento interno" antes de responder — generando cadenas de razonamiento privadas que mejoran la precisión en problemas complejos de matemáticas, código y lógica.
El patrón subyacente sigue siendo el mismo: predicción de tokens. Pero las técnicas de entrenamiento, la escala y las herramientas externas multiplican lo que ese mecanismo puede lograr.
Construye sobre lo que entiendes
Comprender cómo funciona ChatGPT por dentro explicado fácil no es un ejercicio académico — es el primer paso para tomar decisiones informadas sobre cuándo usar un LLM genérico, cuándo necesitas fine-tuning, y cuándo lo correcto es construir un sistema de IA propio que nadie más puede copiar.
En Catalizadora construimos software AI-native a medida: desde prototipos en 15 días hasta productos completos en 12 semanas, con el 100% del código y la IP en manos del cliente — sin licencias recurrentes, sin cajas negras ajenas.
¿Quieres ver cómo se ve eso en la práctica? Lee nuestro manifiesto en catalizadora.ai/manifiesto — ahí explicamos por qué creemos que el software propietario con IA incorporada es la ventaja competitiva más duradera que puede construir una empresa hoy.