¿En qué consiste el entrenamiento de modelos de SageMaker?
El entrenamiento de modelos de Amazon SageMaker reduce el tiempo y el costo que lleva entrenar y ajustar los modelos de machine learning (ML) a escala sin necesidad de administrar la infraestructura. Puede aprovechar la infraestructura de computación de ML de mayor rendimiento disponible en la actualidad, y Amazon SageMaker IA puede escalar o desescalar verticalmente la infraestructura de forma automática, desde una a miles de GPU. Para entrenar modelos de aprendizaje profundo más rápido, SageMaker AI lo ayuda a seleccionar y refinar conjuntos de datos en tiempo real. Las bibliotecas de entrenamiento distribuidas de SageMaker pueden dividir automáticamente modelos grandes y conjuntos de datos de entrenamiento en instancias de GPU de AWS, o bien puede utilizar bibliotecas de terceros, como DeepSpeed, Horovod o Megatron. Entrene modelos fundacionales (FM) durante semanas y meses sin interrupciones mediante la supervisión y reparación automáticas de los clústeres de entrenamiento.
Beneficios de un entrenamiento rentable
Entrene modelos a escala
Trabajos de entrenamiento totalmente administrados
Los trabajos de entrenamiento de Amazon SageMaker brindan una experiencia de usuario completamente administrada para el entrenamiento de grandes modelos fundacionales distribuidos, lo que elimina la complejidad y las tareas operativas asociadas con la administración de la infraestructura que no marcan la diferencia. Los trabajos de entrenamiento de SageMaker activan automáticamente un clúster de entrenamiento distribuido y flexible, supervisan la infraestructura y se recuperan automáticamente de los errores para garantizar una experiencia fluida. Una vez finalizado el proceso, SageMaker reduce el clúster y se factura el tiempo neto de entrenamiento. Además, con los trabajos de entrenamiento de SageMaker, tiene la flexibilidad de elegir el tipo de instancia adecuado que mejor se adapte a cada carga de trabajo específica (por ejemplo, preentrenar un modelo de lenguaje de gran tamaño [LLM] en un clúster P5 o ajustar un LLM de código abierto en instancias p4d) para optimizar aún más el presupuesto de entrenamiento. Además, los trabajos de entrenamiento de SageMaker ofrecen una experiencia de usuario uniforme para equipos de machine learning con distintos niveles de experiencia técnica y tipos de carga de trabajo.
SageMaker HyperPod
Amazon SageMaker HyperPod es una infraestructura diseñada específicamente para administrar de manera eficiente los clústeres de computación a fin de escalar el desarrollo del modelo fundacional (FM). Permite técnicas avanzadas de entrenamiento de modelos, control de infraestructura, optimización del rendimiento y mejora de la observabilidad de los modelos. SageMaker HyperPod viene preconfigurado con bibliotecas de entrenamiento distribuido de SageMaker, lo que permite dividir automáticamente modelos y conjuntos de datos de entrenamiento entre las instancias del clúster de AWS. Esto optimiza el uso eficiente de la infraestructura de computación y red del clúster. Posibilita un entorno de entrenamiento más flexible ya que detecta, diagnostica y se recupera automáticamente de los errores de hardware, lo que permite entrenar de forma continua los FM durante meses sin interrupciones y así reducir el tiempo de entrenamiento hasta en un 40 %.
Entrenamiento distribuido de alto rendimiento
SageMaker AI agiliza la realización del entrenamiento distribuido mediante la división automática de modelos y conjuntos de datos de entrenamiento en los aceleradores de AWS. Ayuda a optimizar el trabajo de entrenamiento para la topología del clúster y la infraestructura de red de AWS. También optimiza los puntos de control del modelo con las recetas mediante la optimización de la frecuencia con la que se guardan los puntos de control, lo que garantiza una sobrecarga mínima durante el entrenamiento. Con las recetas, los científicos de datos y los desarrolladores de todos los niveles se benefician de un rendimiento de vanguardia y, al mismo tiempo, comienzan a entrenar y refinar rápidamente los modelos de IA generativa disponibles al público, incluidos Llama 3.1 405B, Mixtral 8x22B y Mistral 7B. Las recetas incluyen una pila de entrenamiento que AWS ha probado, lo que elimina semanas de tedioso trabajo de prueba de diferentes configuraciones de modelos. Es posible alternar entre instancias basadas en GPU e instancias basadas en AWS Trainium con un cambio de una línea en la receta y habilitar puntos de control automatizados del modelo para aumentar la resiliencia del entrenamiento. Además, ejecute cargas de trabajo en producción con la característica de entrenamiento de SageMaker que prefiera.
Herramientas integradas para la máxima precisión y el menor coste
Ajuste automático de modelos
SageMaker AI puede sintonizar automáticamente el modelo; para ello, ajusta miles de combinaciones de parámetros de algoritmos con el fin de obtener las predicciones más precisas, lo que ahorra semanas de esfuerzo. Lo ayuda a encontrar la mejor versión de un modelo mediante la ejecución de muchos trabajos de entrenamiento en su conjunto de datos.
Entrenamiento de Managed Spot
SageMaker AI ayuda a reducir los costos de entrenamiento hasta en un 90 % mediante la ejecución automática de trabajos de entrenamiento cuando hay capacidad de computación disponible. Estos trabajos de entrenamiento también son resistentes a las interrupciones causadas por cambios en la capacidad.
Depuración
El depurador de Amazon SageMaker captura métricas y perfila los trabajos de entrenamiento en tiempo real, de modo que pueda corregir rápidamente los problemas de rendimiento antes de implementar el modelo en producción. También puede conectarse de forma remota al entorno de entrenamiento del modelo en SageMaker para realizar la depuración con acceso al contenedor de entrenamiento subyacente.
Generador de perfiles
Herramientas integradas para la interactividad y el monitoreo
Amazon SageMaker con MLflow
Utilice MLflow gracias con el entrenamiento de SageMaker para capturar parámetros de entrada, configuraciones y resultados, lo que le ayudará a identificar rápidamente los modelos con mejor rendimiento para su caso de uso. La interfaz de usuario de MLflow le permite analizar los intentos de entrenamiento del modelo y registrar fácilmente los modelos candidatos para la producción en un solo paso.
Amazon SageMaker con TensorBoard
Amazon SageMaker con TensorBoard lo ayuda a ahorrar tiempo de desarrollo al visualizar la arquitectura del modelo para identificar y solucionar problemas de convergencia, como la pérdida de validación, la no convergencia o la desaparición de gradientes.
Entrenamiento flexible y rápido
Personalización completa
SageMaker AI incluye bibliotecas y herramientas integradas para facilitar y acelerar el entrenamiento del modelo. La AI de SageMaker funciona con modelos populares de ML de código abierto, como GPT, BERT y DALL·E; con marcos de ML, como PyTorch y TensorFlow; y con transformadores, como Hugging Face. Con SageMaker AI, puede usar bibliotecas y herramientas populares de código abierto, como DeepSpeed, Megatron, Horovod, Ray Tune y TensorBoard, según sus necesidades.
Conversión de código local
Amazon SageMaker Python SDK lo ayuda a ejecutar código de ML creado en su integrated development environment (IDE, entorno de desarrollo integrado) preferido y en cuadernos locales, junto con las dependencias de tiempo de ejecución asociadas, como trabajos de entrenamiento del modelo de ML a gran escala con cambios de código mínimos. Solo necesita añadir una línea de código (decorador de Python) a su código de ML local. El SDK de SageMaker Python incluye el código junto con los conjuntos de datos y la configuración del entorno de trabajo, y lo ejecuta como un trabajo de entrenamiento de SageMaker.
Flujos de trabajo de entrenamiento de ML automatizado
Los flujos de trabajo de entrenamiento automatizados mediante las canalizaciones de Amazon SageMaker lo ayudan a crear un proceso repetible para organizar pasos de modelo de desarrollo para una experimentación rápida y un reentrenamiento de modelos. Puede ejecutar pasos automáticamente a intervalos regulares o cuando se inicien ciertos eventos, o puede ejecutarlos manualmente según sea necesario.
Planes de entrenamiento flexibles
Para cumplir con los plazos y presupuestos de entrenamiento, SageMaker AI lo ayuda a crear los planes de entrenamiento más rentables que utilizan los recursos de computación de varios bloques de capacidad de computación. Una vez que usted aprueba los planes de entrenamiento, SageMaker AI aprovisiona automáticamente la infraestructura y ejecuta los trabajos de entrenamiento en estos recursos de computación sin necesidad de ninguna intervención manual. De esta manera, se ahorra semanas de esfuerzo en la administración del proceso de entrenamiento para alinear los trabajos con la disponibilidad de computación.
Recursos
Novedades
- Fecha (de más reciente a más antigua)