O que é o Amazon SageMaker Neo?
O Amazon Sagemaker Neo permite aos desenvolvedores otimizarem modelos de machine learning (ML) para inferência no Sagemaker na nuvem e dispositivos suportados na borda.
A inferência de ML é o processo de usar um modelo de machine learning treinado para fazer previsões. Após o treinamento de um modelo de alta precisão, os desenvolvedores normalmente passam muito tempo e esforço aprimorando o modelo de alto desempenho. Para inferência na nuvem, os desenvolvedores normalmente transformam grandes instâncias com muita memória e capacidades poderosas de processamento em custos maiores para obter máximo rendimento. Para inferência em dispositivos de borda com computação e memória limitada, os desenvolvedores normalmente passam meses aprimorando o modelo para obter desempenho aceitável dentro das restrições de hardware do dispositivo.
O Amazon Sagemaker Neo automaticamente otimiza os modelos de machine learning para inferência em instâncias de nuvem e dispositivos de borda para operarem mais rápido sem perda de precisão. Você começa com um modelo de machine learning já embutido no DarkNet, Keras, MXNet, PyTorch, TensorFlow, TensorFlow-Lite, ONNX ou XGBoost e treinado no Amazon Sagemaker ou outra plataforma. Em seguida, você escolhe sua plataforma de hardware de destino, que pode ser uma instância de hospedagem do SageMaker ou um dispositivo de borda baseado em processadores da Ambarella, Apple, ARM, Intel, MediaTek, Nvidia, NXP, Qualcomm, RockChip ou Texas Instruments. Com um único clique, o Sagemaker Neo otimiza o modelo treinado e o compila em um executável. O compilador usa um modelo de machine learning para aplicar as otimizações de desempenho que extraem o melhor desempenho disponível para o seu modelo na instância de nuvem ou dispositivo de borda. Então você implanta o modelo como endpoint do SageMaker ou em dispositivos de suporte de borda e começa a fazer previsões.
Para inferência na nuvem, o SageMaker Neo acelera a inferência e economiza gastos criando um contêiner de inferência otimizada no hosting do SageMaker. Para inferência na borda, o SageMaker Neo economiza meses de depuramento manual pelos desenvolvedores automaticamente depurando o modelo para o sistema operacional selecionado e hardware do processador.
O Amazon Sagemaker Neo usa o Apache TVM e compiladores de parceiros, e bibliotecas de aceleração para fornecer o melhor desempenho disponível para um determinado modelo e alvo de hardware. O AWS contribui com o código do compilador para o projeto Apache TVM e o código de tempo de operação para o projeto de origem aberta do Neo-AI, sob a Licença de Software Apache, para permitir que fornecedores de processadores e fabricantes de dispositivos inovarem rapidamente em um tempo de operação comum compacto.