AWS Trainium

Obtenha alta performance para treinamento de aprendizado profundo e IA generativa e, ao mesmo tempo, reduza os custos

Por que o Trainium?

O AWS Trainium é um chip de machine learning (ML) que a AWS criou sob medida para treinamento de aprendizado profundo (DL) de mais de 100 bilhões de modelos de parâmetros. Cada instância Trn1 do Amazon Elastic Compute Cloud (Amazon EC2) implanta até 16 aceleradores Trainium para oferecer uma solução de alta performance e baixo custo para treinamento de DL na nuvem. Embora o uso de DL e IA generativa esteja se acelerando, muitas equipes de desenvolvimento têm orçamentos fixos, limitando o escopo e a frequência do treinamento necessários para melhorar seus modelos e aplicações. As instâncias Trn1 do Amazon EC2 baseadas no Trainium resolvem esse desafio, oferecendo um tempo de treinamento mais rápido e, ao mesmo tempo, uma economia de custo de treinamento de até 50% em relação a instâncias do EC2 comparáveis. O Trainium foi otimizado para treinar processamento de linguagem natural, visão computacional e modelos de recomendação usados em um amplo conjunto de aplicativos, como resumo de texto, geração de código, resposta a perguntas, geração de imagem e vídeo, recomendação e detecção de fraude.

O SDK do AWS Neuron ajuda os desenvolvedores a treinar modelos nos aceleradores Trainium (e implantá-los nos aceleradores AWS Inferentia). Ele se integra nativamente a frameworks populares, como o PyTorch e o TensorFlow, para que você possa continuar a treinar nos aceleradores Trainium e usar seu código e fluxos de trabalho existentes.

Benefícios do Trainium

As instâncias Trn1 com a tecnologia Trainium oferecem alta performance e reduzem os custos de treinamento em até 50% em relação a outras instâncias comparáveis do Amazon EC2. Cada acelerador Trainium inclui dois NeuronCores de segunda geração que são criados especificamente para algoritmos de DL. Para dar suporte ao paralelismo eficiente de dados e modelos, cada acelerador Trainium tem 32 GB de memória de alta largura de banda, oferece até 190 TFLOPS de potência de computação FP16/BF16 e apresenta NeuronLink, uma tecnologia de interconexão sem bloqueio de velocidade ultra-alta intra-instância.

O AWS Neuron SDK, que oferece suporte ao Trainium, está nativamente integrado ao PyTorch e ao TensorFlow. Isso garante que você possa continuar usando seus fluxos de trabalho existentes nessas frameworks populares e começar a usar o Trainium com apenas algumas linhas de alterações de código. Para treinamento de modelos distribuídos, o Neuron SDK oferece suporte a bibliotecas, como Megatron-LM e PyTorch Fully Sharded Data Parallel (FSDP). Para começar rapidamente com as instâncias Trn1 do Amazon EC2 com a tecnologia Trainium, consulte exemplos de modelos conhecidos na documentação do Neuron.

Para oferecer alta performance e cumprir as metas de precisão, as instâncias Trainium são otimizadas para FP32, TF32, BF16, FP16, UINT8 e o novo tipo de dados configurável FP8 (cFP8).
Para apoiar o ritmo acelerado da inovação de DL e da IA generativa, as instâncias Trainium têm várias inovações que as tornam flexíveis e extensíveis para treinar modelos de DL em constante evolução. As instâncias Trainium têm otimizações de hardware e suporte de software para formas de entrada dinâmicas. Para permitir suporte a novos operadores no futuro, elas oferecem suporte a operadores personalizados criados em C++. Elas também oferecem suporte ao arredondamento estocástico, um método de arredondamento probabilístico para atingir alta performance e maior precisão em comparação com os modos de arredondamento herdados.
As instâncias Trn1 com tecnologia Trainium são até 25% mais eficientes em termos de energia para treinamento de DL do que instâncias EC2 de computação acelerada comparáveis. As instâncias Trn1 ajudam você a atingir suas metas de sustentabilidade ao treinar modelos muito grandes.

Vídeos

Os bastidores da infraestrutura de IA generativa na Amazon
Acelere o DL e inove mais rápido com o AWS Trainium
Introdução às instâncias Trn1 do Amazon EC2 com a tecnologia AWS Trainium