Qu'est-ce qu'Amazon SageMaker Neo ?
Amazon SageMaker Neo permet aux développeurs d'optimiser les modèles de machine learning (ML) pour effectuer des inférences sur SageMaker dans le cloud et les périphériques de pointe pris en charge.
L'inférence ML est le processus d'utilisation d'un modèle de machine learning destiné à la réalisation des prédictions. Après avoir réalisé un modèle à haute précision, les développeurs passent souvent beaucoup de temps et d'efforts à régler le modèle afin d’obtenir des performances élevées. Pour l'inférence dans le cloud, les développeurs adoptent souvent les grandes instances dotées de grande capacité de stockage et de puissantes capacités de traitement à des coûts plus élevés afin d’obtenir un meilleur rendement. Pour l'inférence sur des périphériques de pointe dotés de capacités de calcul et de mémoire limitées, les développeurs mettent souvent des mois à peaufiner manuellement le modèle pour obtenir des performances acceptables en tenant compte des contraintes matérielles du périphérique.
Amazon SageMaker Neo optimise automatiquement les modèles de machine learning pour l'inférence sur les instances du cloud et les périphériques de pointe afin qu’ils fonctionnent plus rapidement sans perte de précision. Vous commencez avec un modèle de machine learning déjà construit grâce à DarkNet, Keras, MXNet, PyTorch, TensorFlow, TensorFlow-Lite, ONNX ou XGBoost et intégré dans Amazon SageMaker ou ailleurs. Ensuite, vous choisissez votre plateforme matérielle cible, qui peut être une instance d'hébergement de SageMaker ou un appareil périphérique basé sur des processeurs Ambarella, Apple, ARM, Intel, MediaTek, Nvidia, NXP, Qualcomm, RockChip ou Texas Instruments. D'un simple clic, SageMaker Neo optimise le modèle formé et le compile en un exécutable. Le compilateur utilise un modèle de machine learning pour appliquer les optimisations de performance qui permettent à votre modèle d'obtenir les meilleures performances disponibles sur l'instance du cloud ou sur le périphérique. Vous déployez ensuite le modèle en tant que point final SageMaker ou sur les périphériques pris en charge et commencez à faire des prédictions.
Pour l'inférence dans le cloud, SageMaker Neo accélère l'inférence et réduit les coûts en créant un conteneur optimisé pour l'inférence dans l'hébergement SageMaker. En ce qui concerne l’inférence de pointe, SageMaker Neo permet aux développeurs de réduire le nombre de mois de réglage en ajustant automatiquement le modèle pour le système d'exploitation et le matériel processeur sélectionnés.
Amazon SageMaker Neo utilise Apache TVM et des compilateurs et bibliothèques d'accélération fournis par des partenaires afin de fournir les meilleures performances disponibles pour un modèle et un matériel cible donnés. AWS fournit le code du compilateur au projet Apache TVM et le code d'exécution au projet open source Neo-AI, sous la licence Apache Software License, afin de permettre aux fournisseurs de processeurs et aux fabricants d'appareils d'innover rapidement dans un environnement d'exécution commun.