Instâncias Trn2 e UltraServers do Amazon EC2

A computação do EC2 mais avançada para o treinamento e a inferência de IA generativa

Por que optar pelas instâncias Trn2 e UltraServers do Amazon EC2?

As instâncias Trn2 do Amazon EC2, com tecnologia de 16 chips do AWS Trainium2, são projetadas com propósito específico para IA generativa e representam as instâncias do EC2 mais avançadas para treinar e implantar modelos com centenas de bilhões a trilhões de parâmetros. As instâncias Trn2 fornecem uma performance de preço de 30 a 40% superior em comparação com a geração atual das instâncias P5e e P5en do EC2 que são baseadas em GPU. Com as instâncias Trn2, é possível obter uma performance de treinamento e de inferência de última geração, ao mesmo tempo em que reduz custos. Isso possibilita diminuir o tempo de treinamento, iterar mais rapidamente e fornecer experiências em tempo real com tecnologia de IA. É possível usar as instâncias Trn2 para treinar e implantar modelos, incluindo grandes modelos de linguagem (LLMs), modelos multimodais e transformadores de difusão, para o desenvolvimento de aplicações de IA generativa da próxima geração.

Para reduzir os tempos de treinamento e fornecer tempos de resposta revolucionários (latência por token) nos modelos mais avançados e complexos pode ser necessário mais recursos de computação e memória do que uma única instância é capaz de disponibilizar. As instâncias Trn2 UltraServers usam o NeuronLink, nossa interconexão proprietária “chip-to-chip”, para conectar 64 chips do Trainium2 em quatro instâncias Trn2, quadruplicando a capacidade de processamento, memória e largura de banda da rede disponíveis em um único nó. Isso fornece uma performance revolucionária na AWS para workloads de aprendizado profundo e de IA generativa. Para tarefas de inferência, os servidores UltraServers contribuem para proporcionar tempos de resposta de ponta, garantindo as melhores experiências em tempo real. Para tarefas de treinamento, os UltraServers aumentam a velocidade e a eficiência do treinamento de modelos com uma comunicação coletiva mais rápida para o paralelismo de modelos, em comparação com as instâncias autônomas.

É possível começar a usar as instâncias Trn2 e as instâncias Trn2 UltraServers com suporte nativo para estruturas conhecidas de machine learning (ML), como PyTorch e JAX.

Benefícios

As instâncias Trn2 representam as instâncias do EC2 mais avançadas e auxiliam na redução dos tempos de treinamento, ao mesmo tempo em que oferecem uma experiência de inferência em tempo real aos usuários finais. As instâncias Trn2 são equipadas com 16 chips do Trainium2 interconectados pelo NeuronLink, nosso interconector proprietário “chip-to-chip”, para oferecer até 20,8 petaflops de computação FP8. As instâncias Trn2 contam com um total de 1,5 TB de HBM3 com 46 terabytes por segundo (TBps) de largura de banda de memória e 3,2 terabits por segundo (Tbps) de rede do Elastic Fabric Adapter (EFAv3). Os servidores Trn2 UltraServers (disponíveis em versão prévia) contam com 64 chips do Trainium2 conectados pelo NeuronLink e oferecem até 83,2 petaflops de computação FP8, 6 TB de memória de alta largura de banda no total, com 185 TBps de largura de banda de memória total, e 12,8 Tbps de rede do EFAv3.

Para possibilitar o treinamento distribuído eficiente, as instâncias Trn2 fornecem 3,2 Tbps e os servidores Trn2 UltraServers fornecem 12,8 Tbps de rede do EFAv3. O EFA é desenvolvido com base no AWS Nitro System, o que significa que toda a comunicação realizada por meio do EFA é criptografada em trânsito, sem prejudicar a performance. O EFA também faz uso de um protocolo complexo de roteamento de tráfego e controle de congestionamento, permitindo que seja escalado de forma confiável para centenas de milhares de chips do Trainium2. As instâncias Trn2 e UltraServers estão sendo implantadas em UltraClusters do EC2 para possibilitar o treinamento distribuído do aumento horizontal da escala, com dezenas de milhares de chips do Trainium em uma rede de escala petabit sem bloqueios.

As instâncias Trn2 fornecem uma performance de preço de 30 a 40% superior em comparação com a geração atual das instâncias P5e e P5en do EC2 que são baseadas em GPU.

As instâncias Trn2 são três vezes mais eficientes em termos de energia do que as instâncias Trn1. Essas instâncias e os chips subjacentes usam processos avançados de chips, bem como otimizações de hardware e software, para fornecer alta eficiência energética ao executar workloads de IA generativa em grande escala.

O AWS Neuron SDK ajuda você a extrair toda a performance das instâncias Trn2 e dos servidores UltraServers, permitindo que você se concentre no desenvolvimento e na implantação de modelos, acelerando o tempo de lançamento no mercado. O Neuron fornece integração nativa com JAX, PyTorch e bibliotecas fundamentais como Hugging Face, PyTorch Lightning e NeMo. O Neuron inclui otimizações prontas para uso para treinamento e inferência distribuídos com as bibliotecas de código aberto NxD Training e NxD Inference do PyTorch, ao mesmo tempo em que fornece insights aprofundados para a criação de perfis e para depuração. Além disso, o Neuron oferece suporte ao OpenXLA, incluindo HLO estável e GSPMD. Isso possibilita que os desenvolvedores de PyTorch/XLA e JAX usem as otimizações do compilador do Neuron para o Inferentia e o Trainium. Com o Neuron, você pode usar instâncias Trn2 com serviços como o Amazon SageMaker, o Amazon EKS, o Amazon ECS, o AWS ParallelCluster e o AWS Batch, bem como com serviços de entidades externas como Ray (Anyscale), Domino Data Lab e Datadog.

Recursos

As instâncias Trn2 são equipadas com 16 chips do Trainium2 interconectados pelo NeuronLink para oferecer até 20,8 petaflops de computação FP8. Os servidores Trn2 UltraServers ampliam a conectividade do NeuronLink para 64 chips do Trainium2 distribuídos em quatro instâncias Trn2, com a finalidade de fornecer até 83,2 petaflops de computação FP8.

As instâncias Trn2 fornecem 1,5 TB de memória de acelerador com 46 TBps de largura de banda de memória total. Os servidores Trn2 UltraServers, por sua vez, oferecem 6 TB de memória de acelerador compartilhada com 185 TBps de largura de banda de memória total para acomodar modelos de base muito grandes.

Para fornecer suporte ao treinamento distribuído do aumento horizontal da escala para modelos de base de grande porte, as instâncias Trn2 oferecem 3,2 Tbps, enquanto os servidores Trn2 UltraServers fornecem 12,8 Tbps de largura de banda da rede do EFAv3. Ao ser combinado com os servidores UltraClusters do EC2, o EFAv3 proporciona uma latência de rede mais baixa em relação ao EFAv2. Cada instância Trn2 oferece suporte para até 8 TB, enquanto cada servidor Trn2 UltraServer fornece suporte para até 32 TB de armazenamento NVMe local, proporcionando acesso mais rápido a grandes conjuntos de dados.

As instâncias Trn2 e os servidores UltraServers são compatíveis com os tipos de dados FP32, TF32, BF16, FP16 e FP8 configurável (cFP8). Além disso, a solução fornece suporte para otimizações de IA de última geração, como dispersão de quatro vezes (16:4), arredondamento estocástico e mecanismos coletivos dedicados. A Neuron Kernel Interface (NKI) possibilita o acesso direto à arquitetura do conjunto de instruções (ISA) ao usar um ambiente baseado em Python com uma interface semelhante ao Triton, permitindo que você realize inovações em novas arquiteturas de modelos e núcleos de computação altamente otimizados que superam as técnicas existentes.

O Neuron fornece suporte para mais de 100 mil modelos disponíveis no hub de modelos da Hugging Face, permitindo o treinamento e a implantação em instâncias Trn2, com destaque para arquiteturas de modelos populares, como Llama e Stable Diffusion. O Neuron fornece integração nativa com JAX, PyTorch e outros recursos fundamentais, como ferramentas, estruturas e bibliotecas, incluindo NeMo, Hugging Face, PyTorch Lightning, Ray, Domino Data Lab e Data Dog. Essa solução otimiza os modelos automaticamente para treinamento e inferência distribuídos, ao mesmo tempo em que oferece insights aprofundados para criação de perfis e depuração. Além disso, o Neuron se integra a serviços como o Amazon SageMaker, o Amazon EKS, o Amazon ECS, o AWS ParallelCluster e o AWS Batch.

Depoimentos de clientes e de parceiros

A seguir, apresentamos exemplos de como clientes e parceiros pretendem atingir suas metas de negócios com as instâncias Trn2 do Amazon EC2.

  • Anthropic

    Na Anthropic, milhões de pessoas usam o Claude todos os dias para desempenharem suas funções no trabalho. Anunciamos dois importantes avanços com a AWS: primeiro, um novo “modo otimizado para latência” para o modelo Claude 3.5 Haiku que apresenta uma performance 60% superior no Trainium2 por meio do Amazon Bedrock. E, segundo, o Project Rainier, que consiste em um novo cluster com centenas de milhares de chips do Trainium2, fornecendo centenas de exaflops, o que representa mais de cinco vezes a capacidade do nosso cluster anterior. O Project Rainier será fundamental para o avanço de nossa pesquisa e para a próxima geração de escalabilidade. Para os nossos clientes, isso representa mais inteligência, preços mais competitivos e maior agilidade. Não estamos apenas desenvolvendo uma IA mais rápida, estamos criando uma IA confiável e com capacidade de escalabilidade.

    Tom Brown, diretor de computação, Anthropic
  • Databricks

    O Mosaic AI da Databricks possibilita que as organizações desenvolvam e implementem sistemas de agentes de alta qualidade. Essa solução é desenvolvida nativamente usando o data lakehouse, o que possibilita que os clientes personalizem seus modelos com dados empresariais de forma fácil e segura, e forneçam resultados mais precisos e específicos para o domínio. Devido à alta performance e à eficiência de custos do Trainium, os clientes podem ampliar o treinamento de modelos no Mosaic AI a um custo reduzido. A disponibilidade do Trainium2 representará um grande benefício para a Databricks e seus clientes, à medida que a demanda pelo Mosaic AI continua a escalar em todos os segmentos de clientes e ao redor do mundo. A Databricks, uma das principais empresas de dados e IA do mundo, planeja usar as instâncias Trn2 para fornecer resultados superiores e reduzir o TCO em até 30% para seus clientes.

    Naveen Rao, vice-presidente de IA generativa, Databricks
  • poolside

    Na Poolside, estamos determinador a criar um mundo em que a IA será responsável pela maior parte do trabalho de valor econômico e do progresso científico. Acreditamos que o desenvolvimento de software será a primeira grande funcionalidade das redes neurais a atingir a inteligência de nível humano, pois é o domínio em que podemos integrar as abordagens de Pesquisa e Aprendizado de forma eficiente. Para tornar isso possível, estamos desenvolvendo modelos de base, uma API e um Assistente para fornecer as capacidades da IA generativa às mãos (ou ao teclado) dos seus desenvolvedores. Um elemento fundamental para possibilitar essa tecnologia é a infraestrutura que estamos usando para desenvolver e executar nossos produtos. Com o AWS Trainium2, nossos clientes terão a capacidade de escalar o uso do modelo da Poolside a uma relação entre preço e performance única em comparação com outros aceleradores de IA. Além disso, planejamos treinar futuros modelos com os servidores UltraServers do Trainium2, com uma economia esperada de 40% em comparação às instâncias P5 do EC2.

    Eiso Kant, diretor de tecnologia e cofundador, Poolside
  • Itaú Unibanco

    O Itaú Unibanco tem como propósito melhorar a relação das pessoas com o dinheiro, promovendo um impacto positivo em suas vidas e ampliando suas oportunidades de transformação. No Itaú Unibanco, acreditamos que cada cliente é único e nos concentramos em atender às necessidades deles por meio de jornadas digitais intuitivas, que usam a capacidade da IA para se adaptar constantemente aos hábitos de consumo.

    Realizamos testes com o AWS Trainium e com o Inferentia em várias tarefas, abrangendo desde a inferência padrão até aplicações com ajustes. A performance desses chips de IA possibilitou que atingíssemos marcos significativos em nossa pesquisa e desenvolvimento. Para tarefas de inferência em lote e on-line, constatamos uma melhoria de sete vezes no throughput em comparação com as GPUs. Essa performance aprimorada está promovendo a expansão de novos casos de uso em toda a organização. A geração mais recentes de chips do Trainium2 revela recursos inovadores para a IA generativa, possibilitando inovações no Itaú.

    Vitor Azeka, diretor do departamento de ciência de dados, Itaú Unibanco
  • NinjaTech AI

    O Ninja trata-se um agente de IA completo para a obtenção de produtividade ilimitada: uma assinatura simples e acesso ilimitado aos melhores modelos de IA do mundo, além de habilidades avançadas, como: produção textual, programação, geração de ideias, criação de imagens e pesquisa on-line. O Ninja é uma plataforma com capacidades de agentes e disponibiliza o “SuperAgent”, que emprega um conjunto de agentes com precisão de alto nível, comparável aos modelos de base mais avançados e superando-os em determinadas categorias. A tecnologia Agentic do Ninja requer aceleradores de máxima performance para proporcionar as experiências em tempo real únicas que nossos clientes demandam. 

    Estamos extremamente entusiasmados com o lançamento das instâncias Trn2 da AWS, pois acreditamos que elas oferecerão o melhor custo por performance de token e a velocidade mais rápida atualmente disponível para o nosso modelo principal, Ninja LLM, baseado no Llama 3.1 405B. É impressionante observar a baixa latência das instâncias Trn2 combinada com preços competitivos e disponibilidade sob demanda. Estamos extremamente entusiasmados com a chegada das instâncias Trn2.

    Babak Pahlavan, fundador e diretor executivo, NinjaTech AI
  • Ricoh

    A equipe de machine learning da RICOH desenvolve soluções para o ambiente de trabalho e serviços de transformação digital projetados para gerenciar e otimizar o fluxo de informações em nossas soluções empresariais.

    A migração para as instâncias Trn1 foi realizada de forma fácil e sem complicações. Conseguimos treinar previamente nosso grande modelo de linguagem (LLM) com 13 bilhões de parâmetros em apenas oito dias, utilizando um cluster de 4.096 chips do Trainium. Após o sucesso obtido com nosso modelo menor, ajustamos um novo grande modelo de linguagem baseado no Llama-3-Swallow-70B. Ao usar o Trainium, conseguimos reduzir os custos de treinamento em 50% e aprimorar a eficiência energética em 25%, em comparação com o uso das máquinas de GPU mais recentes na AWS. Estamos animados em adotar a mais recente geração de chips de IA da AWS, o Trainium2, para continuar fornecendo aos nossos clientes a melhor performance com o menor custo.

    Yoshiaki Umetsu, diretor do centro de desenvolvimento de tecnologia digital, Ricoh
  • PyTorch

    O aspecto que mais me agradou na biblioteca NxD Inference do AWS Neuron foi sua integração sem complicações com os modelos da PyTorch. A abordagem do NxD é simples e fácil de usar. Nossa equipe conseguiu integrar os modelos da HuggingFace com PyTorch com alterações mínimas no código em um curto período de tempo. Habilitar recursos avançados, como o agrupamento em lote contínuo e a decodificação especulativa, foi uma tarefa simples. Essa facilidade de uso aumenta a produtividade dos desenvolvedores, permitindo que as equipes dediquem mais tempo à inovação e menos aos desafios de integração.

    Hamid Shojanazeri, responsável pelo departamento de engenharia de parcerias da PyTorch, Meta
  • Refact.ai

    A Refact.ai disponibiliza ferramentas avançadas de IA, como o preenchimento automático de código baseado na geração aumentada via recuperação (RAG), fornecendo sugestões mais precisas, e um chat contextual que usa tanto modelos proprietários quanto de código aberto.

    Os clientes observaram um aumento de até 20% na performance e 1,5 vezes mais tokens por dólar com as instâncias Inf2 do EC2 em comparação com as instâncias G5 do EC2. As funcionalidades de ajuste da ferramenta Refact.ai aprimoram ainda mais a capacidade dos nossos clientes de compreender e se adaptar à base de código e ao ambiente exclusivos de suas organizações. Estamos igualmente entusiasmados em disponibilizar as funcionalidades do Trainium2, que proporcionarão um processamento ainda mais rápido e eficiente aos nossos fluxos de trabalho. Essa tecnologia avançada possibilitará que nossos clientes acelerem o processo de desenvolvimento de software ao aumentar a produtividade dos desenvolvedores enquanto mantêm padrões rigorosos de segurança para a base de código.

    Oleg Klimov, diretor executivo e fundador, Refact.ai
  • Karakuri Inc.

    A KARAKURI desenvolve ferramentas de IA para melhorar a eficiência do suporte ao cliente baseado na Web e simplificar a experiência do cliente. Essas ferramentas incluem chatbots baseados em IA e equipados com funções de IA generativa, ferramentas de centralização de perguntas frequentes e uma ferramenta de resposta por e-mail, que em conjunto aumentam a eficiência e a qualidade do suporte fornecido ao cliente. Com o uso do AWS Trainium, obtivemos sucesso no treinamento do KARAKURI LM 8x7B Chat v0.1. Para startups, como a nossa, é essencial otimizar o tempo de desenvolvimento e os custos associados ao treinamento de LLMs. Com o apoio do AWS Trainium e da equipe da AWS, conseguimos desenvolver um LLM de nível prático em um curto período de tempo. Além disso, ao adotar o AWS Inferentia, conseguimos desenvolver um serviço de inferência rápido e econômico. Estamos entusiasmados com o Trainium2, pois ele revolucionará nosso processo de treinamento, reduzindo o tempo de treinamento pela metade e elevando a eficiência a novos patamares.

    Tomofumi Nakayama, cofundador, Karakuri Inc.
  • Stockmark Inc.

    Com a missão de “reinventar o mecanismo de criação de valor e promover a humanidade”, a Stockmark ajuda muitas empresas a criar e construir negócios inovadores fornecendo tecnologia de processamento de linguagem natural de ponta. O novo serviço de análise e coleta de dados da Stockmark, chamado Anews, e o SAT, um serviço de estruturação de dados que aprimora significativamente o uso de IA generativa ao organizar todas as informações armazenadas em uma organização, nos levou a repensar a forma como desenvolvemos e implantamos modelos para apoiar esses produtos. Com 256 aceleradores do Trainium, desenvolvemos e lançamos o stockmark-13b, um grande modelo de linguagem com 13 bilhões de parâmetros, treinado previamente desde o início com um conjunto de dados de corpus japonês com 220 bilhões de tokens. As instâncias Trn1 foram fundamentais para reduzir nossos custos de treinamento em 20%. Com o uso do Trainium, conseguimos desenvolver com sucesso um LLM capaz de responder a perguntas essenciais para os negócios com uma precisão e agilidade sem precedentes. Esta conquista é especialmente relevante considerando o desafio generalizado que as empresas enfrentam para garantir recursos computacionais adequados para o desenvolvimento de modelos. Com a notável velocidade e redução de custos das instâncias Trn1, estamos empolgados para observar os benefícios adicionais que o Trainium2 proporcionará aos nossos fluxos de trabalho e clientes.

    Kosuke Arima, diretor de tecnologia e cofundador, Stockmark Inc.
  • Brave

    O Brave é um navegador e mecanismo de pesquisa autônomo, dedicado a priorizar a privacidade e a segurança do usuário. Com uma base de mais de 70 milhões de usuários, fornecemos proteções líderes no mercado que tornam a Web mais segura e mais intuitiva para os usuários. Ao contrário de outras plataformas que se afastaram de abordagens centradas no usuário, o Brave mantém seu compromisso com a privacidade, a segurança e a conveniência como prioridades. Os principais recursos fornecidos incluem o bloqueio de scripts e rastreadores prejudiciais, geração de resumos de páginas assistidos por IA e com a tecnologia de LLMs, serviços de VPN integrados, e muito mais. Nós nos esforçamos continuamente para aprimorar a velocidade e a eficiência de custo de nossos serviços de pesquisa e modelos de IA. Com o objetivo de apoiar isso, estamos entusiasmados em usar as funcionalidades mais recentes dos chips de IA da AWS, como o Trainium2, para aprimorar a experiência do usuário enquanto escalamos nossa capacidade de lidar com bilhões de consultas de pesquisa mensais.

    Subu Sathyanarayana, vice-presidente de engenharia, Brave Software
  • Anyscale

    A Anyscale é a responsável pelo Ray, um mecanismo de computação baseado em IA que impulsiona iniciativas de machine learning e IA generativa para empresas. Com a plataforma unificada de IA da Anyscale, orientada pelo RayTurbo, os clientes experimentam até 4,5 vezes mais rapidez no processamento de dados, uma redução de 10 vezes no custo de inferência em lote com LLMs, 5 vezes mais agilidade na escalabilidade, 12 vezes mais rapidez nas iterações e uma economia de 50% nos custos de inferência de modelos on-line, ao otimizar a utilização dos recursos.

    Na Anyscale, estamos comprometidos em capacitar as empresas com as melhores ferramentas para escalar as workloads de IA de forma eficiente e econômica. Com suporte nativo para chips do AWS Trainium e do Inferentia, baseados no nosso runtime RayTurbo, nossos clientes podem contar com opções de alta performance e com ótimo custo-benefício para o treinamento e a execução de modelos. Agora, é com entusiasmo que nos unimos à AWS no Trainium2, criando novas oportunidades para nossos clientes inovarem de forma ágil e fornecerem experiências de IA transformadoras e de alta performance em grande escala.

    Robert Nishihara, cofundador, Anyscale
  • Datadog

    A Datadog, uma plataforma de observabilidade e de segurança para aplicações na nuvem, disponibiliza monitoramento do AWS Trainium e do Inferentia para que os clientes otimizem a performance dos modelos, aumentem a eficiência e reduzam os custos. A integração da Datadog proporciona visibilidade completa das operações de machine learning e da performance dos chips subjacentes, possibilitando a resolução proativa de problemas e uma escalabilidade contínua da infraestrutura. Estamos entusiasmados em ampliar nossa parceria com a AWS para o lançamento do AWS Trainium2, que auxilia os usuários na redução de custos com infraestrutura de IA em até 50% e no aprimoramento da performance no treinamento e na implantação de modelos.

    Yrieix Garnier, vice-presidente da empresa de produtos, Datadog
  • Hugging Face

    A Hugging Face é a principal plataforma aberta para desenvolvedores de IA, com mais de 2 milhões de modelos, conjuntos de dados e aplicações de IA compartilhados por uma comunidade de mais de 5 milhões de pesquisadores, cientistas de dados, engenheiros de machine learning e desenvolvedores de software. Nos últimos anos, trabalhamos em colaboração com a AWS, para facilitar aos desenvolvedores o acesso aos benefícios de performance e de custo do AWS Inferentia e do Trainium, por meio da biblioteca de código aberto Optimum Neuron, integrada aos Inference Endpoints da Hugging Face, e agora otimizada em nosso novo serviço de implantação automática HUGS, disponível no AWS Marketplace. Com o lançamento do Trainium2, nossos usuários terão acesso a uma performance superior para desenvolver e implantar modelos com mais rapidez.

    Jeff Boudier, diretor do departamento de produtos, Hugging Face
  • Lightning AI

    A Lightning AI, criadora do PyTorch Lightning e do Lightning Studios, disponibiliza a plataforma de desenvolvimento de IA mais intuitiva e completa para IA de nível empresarial. A Lightning fornece ferramentas de código completo, de baixo código e sem código para o desenvolvimento de agentes, aplicações de IA e soluções de IA generativa, com velocidade característica das soluções da Lightning. Projetada para fornecer flexibilidade, a solução funciona sem complicações na nuvem que você usa ou na nossa, aproveitando a experiência e o suporte de uma comunidade de desenvolvedores com mais de 3 milhões de integrantes.

    Agora, o Lightning oferece suporte nativo para os chips de IA da AWS, o Trainium e o Inferentia, que estão integrados ao Lightning Studios e às ferramentas de código aberto, como PyTorch Lightning, Fabric e LitServe. Isso proporciona aos usuários a capacidade de realizar treinamentos prévios, ajustes e implantações sem complicações em grande escala, otimizando custo, a disponibilidade e a performance sem sobrecarga de transição. Além disso, os benefícios de performance e de custo dos chips de IA da AWS, incluem a mais recente geração de chips do Trainium2, que fornecem maior performance a um custo reduzido.

    Luca Antiga, diretor de tecnologia, Lightning AI
  • Domino Data Lab

    A Domino orquestra todos os artefatos de ciência de dados, incluindo infraestrutura, dados e serviços na AWS em todos os ambientes, complementando o Amazon SageMaker com recursos de governança e colaboração para apoiar equipes corporativas de ciência de dados. O Domino está disponível no AWS Marketplace como SaaS ou autogerenciado.

    As empresas líderes devem equilibrar a complexidade técnica, os custos e a governança, dominando opções abrangentes de IA para obter uma vantagem competitiva. Na Domino, temos o compromisso de oferecer aos clientes acesso a tecnologias de ponta. Com a computação como um gargalo para tantas inovações revolucionárias, temos orgulho de oferecer aos clientes acesso ao Trainium2 para que eles possam treinar e implantar modelos com maior desempenho, menor custo e melhor eficiência energética.

    Nick Elprin, diretor executivo e cofundador, Domino Data Lab

Conceitos básicos

O suporte do SageMaker para instâncias Trn2 estará disponível em breve. Você poderá treinar modelos com facilidade em instâncias Trn2 ao usar o Amazon SageMaker HyperPod, que fornece um cluster de computação resiliente, uma performance otimizada de treinamento e uma utilização eficiente dos recursos subjacentes de computação, rede e memória. Além disso,é possível escalar a implantação de seus modelos em instâncias Trn2 usando o SageMaker para gerenciar modelos de forma mais eficiente na produção e reduzir a sobrecarga operacional.

As AMIs de deep learning da AWS (DLAMI) fornecem aprendizado profundo (DL) a profissionais e pesquisadores com a infraestrutura e as ferramentas necessárias para acelerar o DL na AWS em qualquer escala. Os drivers do AWS Neuron já estão configurados na DLAMI para otimizar o treinamento dos modelos de aprendizado profundo em instâncias Trn2.

O suporte dos contêineres de deep learning para instâncias Trn2 estará disponível em breve. Ao usar esses contêineres, você poderá implantar instâncias Trn2 no Amazon Elastic Kubernetes Service (Amazon EKS), um serviço do Kubernetes totalmente gerenciado, e no Amazon Elastic Container Service (Amazon ECS), um serviço de orquestração de contêineres totalmente gerenciado. Além disso, o Neuron está disponível para instalação prévia nos contêineres de deep learning da AWS. Para saber mais informações sobre como executar contêineres em instâncias Trn2, consulte os tutoriais de contêineres do Neuron.

Detalhes do produto

Tamanho de instância Disponível no EC2 UltraServers Chips Trainium2 Memória do
acelerador

vCPUs Memória
(TB)
Armazenamento de instâncias (TB) Largura de banda da rede (Tbps) Largura de banda do EBS (Gbps)
trn2.48xlarge Não 16 1,5 TB 192 2 TB 4 x 1,92 SSD NVMe 3.2 80
trn2u.48xlarge Sim (pré-visualização) 16 1,5 TB 192 2 TB 4 x 1,92 SSD NVMe 3.2 80