
SageMaker Async Inference: payloads inline jusqu'à 128 Ko
Spécialiste LLMs, AI Agents et Infrastructure IA

Spécialiste LLMs, AI Agents et Infrastructure IA
Amazon SageMaker Async Inference prend désormais en charge les payloads inline, permettant d'envoyer directement les données via l'API `InvokeEndpointAsync`. Cette amélioration réduit la latence, simplifie les workflows et renforce l'efficacité des pipelines de machine learning, notamment pour des secteurs comme la finance et la santé.
Amazon SageMaker Async Inference est une fonctionnalité d'AWS conçue pour exécuter des inférences sur des modèles de machine learning en mode asynchrone. Contrairement à l'inférence en temps réel, ce mode est adapté aux cas d'utilisation nécessitant de traiter de grandes quantités de données ou des calculs complexes pouvant prendre du temps.
SageMaker Async Inference repose sur un système de gestion des files d'attente et un traitement en arrière-plan, ce qui en fait une solution idéale pour des entreprises ayant des pipelines de machine learning complexes.
AWS a récemment introduit une mise à jour majeure pour SageMaker Async Inference, permettant désormais d'envoyer des payloads directement dans le corps de la requête via l'API InvokeEndpointAsync. Auparavant, les utilisateurs devaient charger leurs données sur un bucket S3 avant de les utiliser, une étape qui augmentait la latence et compliquait les flux de travail.
InvokeEndpointAsync.Body pour transmettre les données directement.Cette amélioration élimine la nécessité d'utiliser S3 comme intermédiaire, simplifiant ainsi le processus global et réduisant le temps nécessaire pour exécuter des inférences.
Les payloads inline apportent plusieurs bénéfices majeurs :
Ces avantages sont particulièrement pertinents pour les entreprises qui manipulent de grandes quantités de données et nécessitent une exécution rapide de leurs modèles.
En comparaison avec ses concurrents comme Google Vertex AI et Microsoft Azure Machine Learning, Amazon SageMaker se distingue par son support des payloads inline dans le cadre de l'inférence asynchrone. Cette fonctionnalité est unique à SageMaker et n'est pas encore disponible dans les services concurrents, qui reposent encore sur des processus intermédiaires impliquant le stockage des données sur le cloud.
En offrant cette fonctionnalité, Amazon SageMaker renforce sa position de leader dans le domaine des services de machine learning en cloud.
Bien que la taille des payloads inline soit actuellement limitée à 128 Ko, cette amélioration ouvre la voie à des cas d'utilisation plus diversifiés. À l'avenir, AWS pourrait envisager d'augmenter cette limite pour permettre le traitement de données encore plus volumineuses ou de modèles plus complexes.
L'inférence asynchrone permet de traiter des demandes d'inférence pour des modèles de machine learning de manière différée, ce qui est idéal pour des calculs longs ou des données volumineuses.
La taille maximale des payloads inline est de 128 000 octets, soit 128 Ko.
Ils réduisent la latence en éliminant l'étape de téléchargement préalable des données vers Amazon S3, simplifiant ainsi les flux de travail et accélérant les inférences.
💡 Dica Pro: Bien que la limite actuelle pour les payloads inline soit de 128 Ko, les développeurs peuvent optimiser leur utilisation en compressant les données avant de les envoyer via l'API
InvokeEndpointAsync, réduisant ainsi encore plus la latence.