Entrenamiento de modelos de Amazon SageMaker

Entrene y refine modelos de IA generativa y ML.

¿En qué consiste el entrenamiento de modelos de SageMaker?

El entrenamiento de modelos de Amazon SageMaker reduce el tiempo y el costo que lleva entrenar y ajustar los modelos de machine learning (ML) a escala sin necesidad de administrar la infraestructura. Puede aprovechar la infraestructura de computación de ML de mayor rendimiento disponible en la actualidad, y Amazon SageMaker IA puede escalar o desescalar verticalmente la infraestructura de forma automática, desde una a miles de GPU. Para entrenar modelos de aprendizaje profundo más rápido, SageMaker AI lo ayuda a seleccionar y refinar conjuntos de datos en tiempo real. Las bibliotecas de entrenamiento distribuidas de SageMaker pueden dividir automáticamente modelos grandes y conjuntos de datos de entrenamiento en instancias de GPU de AWS, o bien puede utilizar bibliotecas de terceros, como DeepSpeed, Horovod o Megatron. Entrene modelos fundacionales (FM) durante semanas y meses sin interrupciones mediante la supervisión y reparación automáticas de los clústeres de entrenamiento.

Beneficios de un entrenamiento rentable

SageMaker AI ofrece una amplia variedad de GPU y CPU, así como aceleradores de AWS, como AWS Trainium y AWS Inferentia, para permitir el entrenamiento del modelo a gran escala. Puedes escalar automáticamente la infraestructura hacia arriba o hacia abajo, de una a miles de GPU.
SageMaker AI permite dividir automáticamente sus modelos y conjuntos de datos de entrenamiento entre las instancias del clúster de AWS, lo que ayuda a escalar las cargas de trabajo de entrenamiento de manera eficiente. Lo ayuda a optimizar su trabajo de entrenamiento para la infraestructura de red y la topología de clústeres de AWS. También puede usar recetas optimizadas para aprovechar el rendimiento de última generación y comenzar rápidamente con el entrenamiento y refinamiento de los modelos de IA generativa disponibles públicamente en minutos. También optimiza los puntos de control del modelo con las recetas mediante la optimización de la frecuencia con la que se guardan los puntos de control, lo que garantiza una sobrecarga mínima durante el entrenamiento.
SageMaker AI puede refinar automáticamente el modelo, ya que ajusta miles de combinaciones de parámetros de algoritmos para obtener las predicciones más precisas. Usa herramientas de depuración y creación de perfiles para corregir rápidamente los problemas de rendimiento y optimizar el rendimiento del entrenamiento.
SageMaker AI permite realizar experimentos de ML eficientes para facilitar el seguimiento de las iteraciones de los modelos de ML. Mejore el rendimiento del entrenamiento de modelos mediante la visualización de la arquitectura del modelo para identificar y solucionar los problemas de convergencia.

Entrene modelos a escala

Trabajos de entrenamiento totalmente administrados

Los trabajos de entrenamiento de Amazon SageMaker brindan una experiencia de usuario completamente administrada para el entrenamiento de grandes modelos fundacionales distribuidos, lo que elimina la complejidad y las tareas operativas asociadas con la administración de la infraestructura que no marcan la diferencia. Los trabajos de entrenamiento de SageMaker activan automáticamente un clúster de entrenamiento distribuido y flexible, supervisan la infraestructura y se recuperan automáticamente de los errores para garantizar una experiencia fluida. Una vez finalizado el proceso, SageMaker reduce el clúster y se factura el tiempo neto de entrenamiento. Además, con los trabajos de entrenamiento de SageMaker, tiene la flexibilidad de elegir el tipo de instancia adecuado que mejor se adapte a cada carga de trabajo específica (por ejemplo, preentrenar un modelo de lenguaje de gran tamaño [LLM] en un clúster P5 o ajustar un LLM de código abierto en instancias p4d) para optimizar aún más el presupuesto de entrenamiento. Además, los trabajos de entrenamiento de SageMaker ofrecen una experiencia de usuario uniforme para equipos de machine learning con distintos niveles de experiencia técnica y tipos de carga de trabajo.

Más información

SageMaker HyperPod

Amazon SageMaker HyperPod es una infraestructura diseñada específicamente para administrar de manera eficiente los clústeres de computación a fin de escalar el desarrollo del modelo fundacional (FM). Permite técnicas avanzadas de entrenamiento de modelos, control de infraestructura, optimización del rendimiento y mejora de la observabilidad de los modelos. SageMaker HyperPod viene preconfigurado con bibliotecas de entrenamiento distribuido de SageMaker, lo que permite dividir automáticamente modelos y conjuntos de datos de entrenamiento entre las instancias del clúster de AWS. Esto optimiza el uso eficiente de la infraestructura de computación y red del clúster. Posibilita un entorno de entrenamiento más flexible ya que detecta, diagnostica y se recupera automáticamente de los errores de hardware, lo que permite entrenar de forma continua los FM durante meses sin interrupciones y así reducir el tiempo de entrenamiento hasta en un 40 %.

Más información

Entrenamiento distribuido de alto rendimiento

SageMaker AI agiliza la realización del entrenamiento distribuido mediante la división automática de modelos y conjuntos de datos de entrenamiento en los aceleradores de AWS. Ayuda a optimizar el trabajo de entrenamiento para la topología del clúster y la infraestructura de red de AWS. También optimiza los puntos de control del modelo con las recetas mediante la optimización de la frecuencia con la que se guardan los puntos de control, lo que garantiza una sobrecarga mínima durante el entrenamiento. Con las recetas, los científicos de datos y los desarrolladores de todos los niveles se benefician de un rendimiento de vanguardia y, al mismo tiempo, comienzan a entrenar y refinar rápidamente los modelos de IA generativa disponibles al público, incluidos Llama 3.1 405B, Mixtral 8x22B y Mistral 7B. Las recetas incluyen una pila de entrenamiento que AWS ha probado, lo que elimina semanas de tedioso trabajo de prueba de diferentes configuraciones de modelos. Es posible alternar entre instancias basadas en GPU e instancias basadas en AWS Trainium con un cambio de una línea en la receta y habilitar puntos de control automatizados del modelo para aumentar la resiliencia del entrenamiento. Además, ejecute cargas de trabajo en producción con la característica de entrenamiento de SageMaker que prefiera.

Más información

Herramientas integradas para la máxima precisión y el menor coste

Ajuste automático de modelos

SageMaker AI puede sintonizar automáticamente el modelo; para ello, ajusta miles de combinaciones de parámetros de algoritmos con el fin de obtener las predicciones más precisas, lo que ahorra semanas de esfuerzo. Lo ayuda a encontrar la mejor versión de un modelo mediante la ejecución de muchos trabajos de entrenamiento en su conjunto de datos.

Flujos de trabajo de entrenamiento de ML

Entrenamiento de Managed Spot

SageMaker AI ayuda a reducir los costos de entrenamiento hasta en un 90 % mediante la ejecución automática de trabajos de entrenamiento cuando hay capacidad de computación disponible. Estos trabajos de entrenamiento también son resistentes a las interrupciones causadas por cambios en la capacidad.

Más información

Depuración

El depurador de Amazon SageMaker captura métricas y perfila los trabajos de entrenamiento en tiempo real, de modo que pueda corregir rápidamente los problemas de rendimiento antes de implementar el modelo en producción. También puede conectarse de forma remota al entorno de entrenamiento del modelo en SageMaker para realizar la depuración con acceso al contenedor de entrenamiento subyacente.

Ajuste automático de modelos

Generador de perfiles

El generador de perfiles de Amazon SageMaker lo ayuda a optimizar el rendimiento del entrenamiento con información pormenorizada de creación de perfiles de hardware, que incluye métricas agregadas de uso de GPU y CPU, gráficos de rastreo de GPU/CPU de alta resolución, anotaciones personalizadas y visibilidad de la utilización de precisión mixta.
Entrenamiento de Managed Spot

Herramientas integradas para la interactividad y el monitoreo

Amazon SageMaker con MLflow

Utilice MLflow gracias con el entrenamiento de SageMaker para capturar parámetros de entrada, configuraciones y resultados, lo que le ayudará a identificar rápidamente los modelos con mejor rendimiento para su caso de uso. La interfaz de usuario de MLflow le permite analizar los intentos de entrenamiento del modelo y registrar fácilmente los modelos candidatos para la producción en un solo paso.

Depuración

Amazon SageMaker con TensorBoard

Amazon SageMaker con TensorBoard lo ayuda a ahorrar tiempo de desarrollo al visualizar la arquitectura del modelo para identificar y solucionar problemas de convergencia, como la pérdida de validación, la no convergencia o la desaparición de gradientes.

Administración de experimentos

Entrenamiento flexible y rápido

Personalización completa

SageMaker AI incluye bibliotecas y herramientas integradas para facilitar y acelerar el entrenamiento del modelo. La AI de SageMaker funciona con modelos populares de ML de código abierto, como GPT, BERT y DALL·E; con marcos de ML, como PyTorch y TensorFlow; y con transformadores, como Hugging Face. Con SageMaker AI, puede usar bibliotecas y herramientas populares de código abierto, como DeepSpeed, Megatron, Horovod, Ray Tune y TensorBoard, según sus necesidades.

Generador de perfiles

Conversión de código local

Amazon SageMaker Python SDK lo ayuda a ejecutar código de ML creado en su integrated development environment (IDE, entorno de desarrollo integrado) preferido y en cuadernos locales, junto con las dependencias de tiempo de ejecución asociadas, como trabajos de entrenamiento del modelo de ML a gran escala con cambios de código mínimos. Solo necesita añadir una línea de código (decorador de Python) a su código de ML local. El SDK de SageMaker Python incluye el código junto con los conjuntos de datos y la configuración del entorno de trabajo, y lo ejecuta como un trabajo de entrenamiento de SageMaker.

Más información

Flujos de trabajo de entrenamiento de ML automatizado

Los flujos de trabajo de entrenamiento automatizados mediante las canalizaciones de Amazon SageMaker lo ayudan a crear un proceso repetible para organizar pasos de modelo de desarrollo para una experimentación rápida y un reentrenamiento de modelos. Puede ejecutar pasos automáticamente a intervalos regulares o cuando se inicien ciertos eventos, o puede ejecutarlos manualmente según sea necesario.

Más información

Planes de entrenamiento flexibles

Para cumplir con los plazos y presupuestos de entrenamiento, SageMaker AI lo ayuda a crear los planes de entrenamiento más rentables que utilizan los recursos de computación de varios bloques de capacidad de computación. Una vez que usted aprueba los planes de entrenamiento, SageMaker AI aprovisiona automáticamente la infraestructura y ejecuta los trabajos de entrenamiento en estos recursos de computación sin necesidad de ninguna intervención manual. De esta manera, se ahorra semanas de esfuerzo en la administración del proceso de entrenamiento para alinear los trabajos con la disponibilidad de computación.

Novedades

  • Fecha (de más reciente a más antigua)
No se encontraron resultados
1