
Modelos LLM: Por qué la Velocidad de Tokens Importa para el Negocio
Especialista en LLMs, AI Agents e Infraestructura de IA

Especialista en LLMs, AI Agents e Infraestructura de IA
La velocidad de generación de tokens (t/s) es clave para evaluar modelos de lenguaje, pero no debe ser el único criterio. Factores como la densidad de tokens y el contexto de uso son esenciales para decisiones empresariales informadas.
La velocidad de generación de tokens, medida en tokens por segundo (t/s), es una métrica crucial en la evaluación de modelos de lenguaje de gran tamaño (LLMs). Representa la cantidad de tokens que un modelo puede generar en un segundo, donde cada token puede ser una palabra, parte de una palabra o incluso un carácter.
Esta métrica es esencial para evaluar aplicaciones como chatbots, generación de texto y herramientas de programación asistida. Por ejemplo, el modelo Morph Fast Apply es actualmente uno de los más rápidos, con 10.500 t/s, en comparación con el Cerebras (2.100 t/s) y Ollama (40 t/s, en implementación local). Sin embargo, como veremos, la velocidad por sí sola no cuenta toda la historia.
| Modelo | Velocidad (t/s) |
|---|---|
| Morph Fast Apply | 10.500 |
| Cerebras | 2.100 |
| Ollama (local) | 40 |
Aunque seleccionar un modelo basado únicamente en el número de t/s puede parecer lógico, esto puede ser engañoso. Por ejemplo, Ollama, a pesar de su velocidad más baja, ofrece ventajas específicas como mayor privacidad al ejecutarse de forma local. Esto lo convierte en una opción atractiva para organizaciones con altos requisitos de seguridad y conformidad.
Más allá de la velocidad bruta, la densidad de tokens del contenido generado afecta significativamente la percepción de rapidez en los LLMs. En textos en prosa, la densidad promedio es de 1,3 tokens por palabra, mientras que en código, debido a su complejidad y símbolos adicionales, la densidad puede ser mucho mayor.
Por ejemplo:
Esto significa que, aunque un modelo tenga un alto rendimiento en términos de t/s, la experiencia del usuario puede variar dependiendo del tipo de contenido que se esté generando.
Los benchmarks tradicionales que miden la velocidad de generación de tokens son útiles, pero no proporcionan una visión completa de la experiencia práctica. Entre sus limitaciones más notables se encuentran:
Por lo tanto, es fundamental complementar estas métricas con pruebas específicas dentro del contexto real de uso.
Los desarrolladores deben priorizar pruebas prácticas en sus propios entornos antes de decidirse por un modelo. Herramientas como simuladores de velocidad de generación de tokens pueden ser útiles para entender cómo se comportará un modelo en casos de uso reales.
Las empresas no deben enfocarse únicamente en la métrica de t/s. En su lugar, deben considerar:
De cara al futuro, se espera que los benchmarks evolucionen para incluir métricas más completas, como la densidad de tokens y pruebas prácticas en diferentes aplicaciones. Además, los modelos híbridos que equilibran velocidad y calidad podrían ganar relevancia significativa en los próximos años.