
Amazon SageMaker Async Inference: Inline-Payloads erklärt
Spezialist für LLMs, AI Agents und KI-Infrastruktur

Spezialist für LLMs, AI Agents und KI-Infrastruktur
Amazon SageMaker Async Inference unterstützt jetzt das Senden von Daten direkt im API-Request-Body, ohne den Umweg über Amazon S3. Mit einer maximalen Payload-Größe von 128 KB wird die Latenz reduziert und die Workflow-Komplexität für datenintensive Anwendungen minimiert.
Amazon SageMaker Async Inference ist eine Funktion der AWS-Plattform, die asynchrone Inferenzen für Machine-Learning-Modelle ermöglicht. Anders als bei Echtzeit-Inferenz liegt der Fokus auf der Bearbeitung großer Datenmengen und länger dauernder Aufgaben. Typische Anwendungsbereiche sind:
Durch den Einsatz von Warteschlangen und asynchroner Verarbeitung können Engpässe vermieden und die Effizienz von Machine-Learning-Pipelines gesteigert werden.
Im März 2023 hat Amazon eine bedeutende Neuerung für SageMaker Async Inference eingeführt: den Support für Inline-Payloads. Diese Funktion ermöglicht es Nutzern, Daten direkt im Request-Body der InvokeEndpointAsync-API zu senden, ohne diese zuerst in einem Amazon-S3-Bucket speichern zu müssen.
InvokeEndpointAsync mit dem Parameter Body.Die neue Funktionalität bietet zahlreiche Vorteile:
Im Vergleich zu Google Vertex AI und Azure Machine Learning, die weiterhin auf Cloud-Speicherlösungen wie Google Cloud Storage bzw. Azure Blob Storage setzen, bietet SageMaker einige klare Vorteile:
| Funktion | SageMaker Async Inference | Google Vertex AI | Azure ML |
|---|---|---|---|
| Inline-Payload-Unterstützung | ✅ | ❌ | ❌ |
| Maximale Payload-Größe | 128 KB | Abhängig von Dienst | Abhängig von Dienst |
| Latenzzeiten | Gering | Variabel | Variabel |
Dank der Einführung von Inline-Payloads hebt sich SageMaker von der Konkurrenz ab und wird für datenintensive Branchen wie Gesundheitswesen, Finanzen und E-Commerce noch attraktiver.
AWS zeigt mit dieser Neuerung, dass sie kontinuierlich daran arbeiten, ihre Plattform zu verbessern. Einige mögliche Erweiterungen in der Zukunft könnten sein:
Die Einführung der Inline-Payload-Funktionalität unterstreicht die Innovationskraft von AWS. Entwickler können ihre Workflows erheblich beschleunigen, während Unternehmen von niedrigeren Kosten und verbesserten Latenzzeiten profitieren. Mit dieser Lösung positioniert sich SageMaker erfolgreich als führende ML-Plattform für datenintensive Anwendungen.
Die Hauptvorteile sind eine reduzierte Latenz, da der Zwischenschritt des S3-Uploads entfällt, sowie ein vereinfachter Workflow für Entwickler.
Die maximale Größe für Inline-Payloads beträgt derzeit 128 KB (128.000 Bytes).
SageMaker bietet Inline-Payload-Unterstützung, was die Latenzzeiten reduziert und die Integration vereinfacht, im Gegensatz zu Google Vertex AI, das weiterhin auf Cloud-Speicherlösungen setzt.
💡 Dica Pro: Für Workloads, die regelmäßig Payloads über 128 KB benötigen, kann eine Kombination aus Inline-Payloads für kleinere Daten und S3 für größere Datenmengen verwendet werden, um die Vorteile beider Ansätze zu nutzen.