Qué son los tokens en inteligencia artificial explicado simple
Cada vez que le escribes a ChatGPT, Claude o Gemini, tu mensaje no llega al modelo como texto legible. Antes de procesar una sola letra, el sistema lo fragmenta en piezas pequeñas llamadas tokens. Lo mismo ocurre con la respuesta que recibes. Todo lo que entra y todo lo que sale se mide en tokens, y esa medida determina cuánto procesa el modelo, cuánto cuesta la llamada y cuánto contexto puede "recordar" en una conversación.
Entender qué son los tokens en inteligencia artificial —explicado de forma simple y sin rodeos— es uno de los conceptos más útiles si vas a construir, contratar o evaluar cualquier solución basada en IA.
¿Qué es un token, exactamente?
Un token no es una palabra. Tampoco es un carácter. Es una unidad de texto que el modelo aprendió a reconocer durante su entrenamiento.
La forma más precisa de entenderlo: los modelos de lenguaje grandes (LLMs) usan un algoritmo llamado tokenización para convertir texto en números. Esos números son los tokens. El modelo opera sobre ellos, nunca sobre letras sueltas.
Ejemplos concretos de tokenización
Tomemos GPT-4 con el tokenizador BPE (Byte Pair Encoding) de OpenAI:
| Texto | Tokens aproximados |
|---|---|
Hola |
1 token |
inteligencia |
3 tokens |
artificial |
3 tokens |
ChatGPT is great |
4 tokens |
Qué son los tokens en IA |
8 tokens |
Algunas reglas prácticas que se sostienen en la mayoría de los modelos:
- 1 token ≈ 4 caracteres en inglés
- 1 token ≈ 3 caracteres en español (los modelos están mayormente entrenados en inglés, así que el español "cuesta" ligeramente más tokens por palabra)
- 1,000 tokens ≈ 750 palabras en inglés
- Los signos de puntuación, espacios y emojis también consumen tokens
¿Por qué el español gasta más tokens?
Esta es una pregunta frecuente y tiene respuesta directa: los tokenizadores modernos se construyeron sobre corpus donde el inglés domina. Palabras largas y morfología rica —conjugaciones, géneros, acentos— tienden a partirse en más piezas. "Internacionalización" puede ocupar 5 o 6 tokens en español; "internationalization" en inglés suele ocupar 4 o 5. La diferencia parece pequeña, pero a escala de millones de llamadas se vuelve relevante en costos.
Cómo los tokens determinan el costo de la IA
Los proveedores de modelos cobran por token, separando el precio en dos categorías:
- Tokens de entrada (input tokens): lo que tú envías: el prompt, el contexto, documentos adjuntos.
- Tokens de salida (output tokens): lo que el modelo responde.
Precios de referencia (mayo 2025)
| Modelo | Input (por 1M tokens) | Output (por 1M tokens) |
|---|---|---|
| GPT-4o | USD $2.50 | USD $10.00 |
| GPT-4o mini | USD $0.15 | USD $0.60 |
| Claude 3.5 Sonnet | USD $3.00 | USD $15.00 |
| Gemini 1.5 Pro | USD $1.25 | USD $5.00 |
| Llama 3.1 70B (vía API) | USD $0.35 | USD $0.40 |
Los precios cambian con frecuencia. Siempre verifica directamente en el sitio del proveedor.
Un prompt de 500 palabras en español equivale aproximadamente a 750–800 tokens de entrada. Si generas 1,000 respuestas así por día con GPT-4o, el costo mensual de entrada ronda los USD $56–60 —antes de contar la salida.
Este es el motivo por el que los equipos de ingeniería que construyen productos con IA dedican tiempo significativo a optimizar prompts: cada token ahorrado se convierte en margen.
Qué es el contexto (context window) y por qué importa
El context window o ventana de contexto es el número máximo de tokens que un modelo puede procesar en una sola interacción. Incluye tanto el prompt inicial como toda la conversación acumulada y la respuesta generada.
Ventanas de contexto actuales
| Modelo | Context window |
|---|---|
| GPT-4o | 128,000 tokens (~96,000 palabras) |
| Claude 3.5 Sonnet | 200,000 tokens (~150,000 palabras) |
| Gemini 1.5 Pro | 1,000,000 tokens (~750,000 palabras) |
| Llama 3.1 405B | 128,000 tokens |
Cuando una conversación supera la ventana de contexto, el modelo olvida lo que quedó fuera. No es un fallo: es una limitación física de cómo funciona la atención en los transformers.
Implicaciones prácticas
- Si estás procesando documentos largos (contratos, manuales técnicos, bases de código), necesitas un modelo con ventana amplia o una estrategia de chunking.
- Los agentes de IA que manejan conversaciones largas deben gestionar el contexto activamente: resumir, comprimir o almacenar en memoria externa.
- Más contexto no siempre es mejor rendimiento: los modelos tienden a perder precisión con información enterrada en el centro de ventanas muy largas (el fenómeno llamado lost in the middle).
Tokens en la práctica: tres casos reales
1. Chatbot de atención al cliente
Una empresa de e-commerce construye un chatbot para responder consultas. Cada conversación promedio tiene 10 turnos, con un prompt del sistema de 300 tokens y mensajes de 80 tokens por turno. Total por conversación: ~1,100 tokens. Con 5,000 conversaciones diarias usando GPT-4o mini, el costo mensual ronda USD $75. Optimizar el prompt del sistema de 300 a 150 tokens reduce ese número casi a la mitad.
2. Procesamiento de contratos legales
Un despacho quiere analizar contratos de 40 páginas. Un contrato promedio tiene ~12,000 palabras, equivalente a ~16,000 tokens. Claude 3.5 Sonnet con ventana de 200K los procesa completos sin chunking, a un costo de ~USD $0.05 por contrato en entrada. Para 500 contratos al mes, el costo de procesamiento es menos de USD $25.
3. Agente de código
Un equipo de desarrollo usa un agente que lee un repositorio completo antes de sugerir cambios. Con 80,000 tokens de contexto de código más 5,000 de instrucciones, cada llamada a GPT-4o cuesta ~USD $0.21 solo en entrada. A 200 llamadas diarias, eso es ~$1,260 al mes. Aquí, elegir bien el modelo y comprimir el contexto no es optimización prematura: es necesidad.
Conceptos relacionados que aparecen junto a los tokens
Cuando investigues sobre tokens en IA, vas a encontrar estos términos:
- Embedding: representación de un token (o frase completa) como vector numérico. Se usa para búsqueda semántica y memoria a largo plazo.
- Temperature: parámetro que controla la aleatoriedad en la selección del siguiente token durante la generación.
- Top-p / Top-k: filtros que limitan qué tokens puede elegir el modelo en cada paso.
- Tokenizer: la biblioteca que convierte texto a tokens. Cada familia de modelos usa el suyo (tiktoken para OpenAI, SentencePiece para muchos otros).
Cómo afecta esto al diseño de productos con IA
Si estás construyendo software sobre modelos de lenguaje, los tokens no son un detalle técnico: son una variable de negocio.
Las decisiones de arquitectura que impactan directamente el consumo de tokens incluyen:
- Selección de modelo: un modelo más barato por token puede ser suficiente para el 80% de los casos de uso.
- Diseño de prompts: prompts más cortos y precisos sin perder calidad de respuesta.
- RAG (Retrieval-Augmented Generation): en lugar de meter todo el documento en el contexto, recuperar solo los fragmentos relevantes.
- Caching: OpenAI y Anthropic ofrecen descuentos en tokens de entrada cuando el prefijo del prompt es idéntico entre llamadas (prompt caching).
- Streaming: no reduce tokens, pero mejora la percepción de velocidad.
En Catalizadora construimos software AI-native donde estas decisiones están integradas desde el diseño, no añadidas después. Los proyectos bajo Catalizadora Core —entregados en 12 semanas— incluyen la arquitectura de tokens, selección de modelos y estrategia de costos como parte del alcance, no como extras. El cliente recibe el 100% del código y la IP: sin licencias recurrentes, sin dependencia del estudio.
Resumen: lo que debes retener
- Un token es la unidad mínima que procesa un modelo de lenguaje; no es una palabra ni un carácter.
- Los proveedores cobran por token de entrada y de salida, con precios que varían 10x–20x entre modelos.
- El context window define cuánto puede "ver" el modelo a la vez; superarlo provoca pérdida de información.
- El español consume más tokens por palabra que el inglés debido al diseño de los tokenizadores actuales.
- Optimizar el consumo de tokens es una palanca directa sobre los costos operativos de cualquier producto con IA.
¿Querés construir con IA sin depender de cajas negras?
Entender los tokens es el primer paso. Diseñar un producto que los use con criterio, que controle costos y que le pertenezca completamente al negocio es el siguiente.
En Catalizadora creemos que la IA debe ser una ventaja competitiva que el negocio posee, no una suscripción que alquila. Leé nuestro manifiesto y conocé cómo trabajamos.