
SageMaker reduce latencia eliminando dependencia de Amazon S3
Especialista en LLMs, AI Agents e Infraestructura de IA

Especialista en LLMs, AI Agents e Infraestructura de IA
Amazon SageMaker Async Inference ahora acepta payloads inline de hasta 128 KB en la API `InvokeEndpointAsync`. Esto elimina la necesidad de usar Amazon S3, reduciendo latencia y simplificando flujos de trabajo, especialmente en sectores como salud y finanzas.
Amazon SageMaker Async Inference es una solución diseñada para facilitar inferencias asíncronas en modelos de machine learning alojados en AWS. A diferencia de la inferencia en tiempo real, este método se enfoca en manejar grandes volúmenes de datos y tareas computacionalmente intensivas de manera eficiente.
Gracias a su arquitectura asíncrona, esta funcionalidad mejora la eficiencia operativa al evitar cuellos de botella en el procesamiento.
AWS ha introducido una actualización clave para SageMaker Async Inference: la posibilidad de enviar datos directamente en el cuerpo de la solicitud a través de la API InvokeEndpointAsync, eliminando la necesidad de almacenar previamente los datos en Amazon S3.
InvokeEndpointAsync, utilizando el parámetro Body para incluir los datos directamente.Con esta mejora, los desarrolladores pueden omitir el paso adicional de subir datos al almacenamiento en la nube, lo que reduce significativamente la latencia total y simplifica los flujos de trabajo.
La inclusión de payloads inline en SageMaker Async Inference trae consigo varias ventajas notables:
Si se compara con servicios como Google Vertex AI y Azure ML, que aún dependen de almacenamiento externo como parte del flujo de inferencia, SageMaker Async Inference con soporte para payloads inline ofrece una ventaja clara en términos de simplicidad y velocidad. Esto lo convierte en una opción ideal para industrias como:
Con este desarrollo, Amazon SageMaker refuerza su posición como líder en plataformas de machine learning. La funcionalidad no solo optimiza el rendimiento, sino que también podría impulsar la adopción de inferencias asíncronas en sectores competitivos.
Además, la reducción de costos y la simplificación de procesos podrían presionar a competidores como Google y Microsoft a desarrollar soluciones similares para no quedar rezagados.
Aunque actualmente el tamaño máximo de los payloads inline es de 128 KB, es probable que AWS incremente este límite en futuras actualizaciones. Esto abriría nuevas oportunidades para manejar datos más voluminosos y complejos, ampliando los casos de uso potenciales.
Por otro lado, esta funcionalidad podría ser el primer paso hacia una mayor integración con otros servicios de AWS, como Amazon Aurora o DynamoDB, para permitir flujos de trabajo aún más optimizados en aplicaciones empresariales.
El soporte para payloads inline en SageMaker Async Inference marca un avance importante en la simplificación de procesos de machine learning. Desde desarrolladores hasta empresas, esta mejora promete beneficios significativos en términos de tiempo, costos y eficiencia.
El tamaño máximo permitido es de 128 KB, equivalente a 128.000 bytes.
No. Con el soporte para payloads inline, puedes enviar datos directamente en la solicitud de la API sin depender de Amazon S3.
Reduce la latencia, simplifica los flujos de trabajo y elimina la necesidad de pasos adicionales como cargar datos en Amazon S3.
💡 Dica Pro: Si trabajas con payloads cercanos al límite de 128 KB, comprime los datos utilizando formatos como JSON compactado o Protobuf. Esto maximiza el uso del tamaño permitido y minimiza la latencia.