
SageMaker reduz latência com envio de payloads sem Amazon S3
Especialista em LLMs, AI Agents e Infraestrutura de IA

Especialista em LLMs, AI Agents e Infraestrutura de IA
O Amazon SageMaker Async Inference agora permite o envio de payloads diretamente no corpo da requisição via API `InvokeEndpointAsync`, eliminando a necessidade de upload no Amazon S3. Com suporte a dados de até 128 KB, a funcionalidade reduz latência e simplifica fluxos de trabalho, beneficiando desenvolvedores e empresas que lidam com grandes volumes de dados.
O Amazon SageMaker Async Inference é uma funcionalidade que permite realizar inferências assíncronas em modelos de machine learning hospedados na AWS. Ele se diferencia da inferência em tempo real ao priorizar o processamento de grandes volumes de dados e tarefas de longa duração, ideal para cenários que exigem alta capacidade computacional, como análises financeiras ou diagnósticos médicos.
Com suporte a filas de requisições e execução assíncrona, o SageMaker Async Inference evita congestionamentos e melhora a eficiência operacional em pipelines de machine learning. Essa abordagem é amplamente utilizada em setores como:
A AWS adicionou ao SageMaker Async Inference o suporte ao envio de payloads diretamente no corpo da requisição da API InvokeEndpointAsync. Antes, os dados precisavam ser enviados ao Amazon S3 antes de serem processados, o que adicionava etapas e aumentava a latência.
InvokeEndpointAsync, com o parâmetro Body para envio direto dos dados de inferência.Essa novidade simplifica o fluxo de trabalho, especialmente para desenvolvedores que buscam realizar inferências rapidamente sem a necessidade de configurar ou gerenciar buckets no S3.
O suporte a payloads inline traz uma série de vantagens práticas:
Outras plataformas de inferência, como Google Vertex AI e Azure ML, ainda dependem de etapas intermediárias para o envio de dados, como o uso de armazenamento em nuvem. Com o suporte a payloads inline, o SageMaker Async Inference se posiciona como uma solução mais prática e eficiente, especialmente para uso em:
Essa atualização consolida o Amazon SageMaker como uma escolha estratégica para empresas que adotam IA em larga escala. A redução de custos e a simplificação de fluxos podem acelerar a adoção de inferência assíncrona em setores competitivos. Além disso, a novidade pode pressionar concorrentes a oferecerem recursos semelhantes, elevando o padrão do mercado de serviços de machine learning.
Embora o suporte atual limite o tamanho do payload a 128 KB, é possível que futuras atualizações aumentem essa capacidade ou introduzam novos casos de uso. Isso amplia o potencial da solução para lidar com tarefas ainda mais complexas.
É a capacidade de enviar dados diretamente no corpo da requisição da API InvokeEndpointAsync, sem necessidade de upload no Amazon S3.
O tamanho máximo suportado para payloads inline é de 128.000 bytes (128 KB).
Setores como saúde, finanças e logística, que lidam com grandes volumes de dados e necessitam de processamento eficiente, são os principais beneficiados.
💡 Dica Pro: Ao usar payloads inline no SageMaker Async Inference, otimize o tamanho dos dados para se manter dentro do limite de 128 KB, dividindo datasets maiores em lotes menores ou comprimindo o conteúdo, se necessário.