Por que escolher o Inferentia?
Os aceleradores AWS Inferentia são projetados pela AWS para oferecer alta performance com o menor custo no Amazon EC2 para suas aplicações de aprendizado profundo (DL) e inferência de IA generativa.
O acelerador do AWS Inferentia de primeira geração impulsiona as instâncias Inf1 do Amazon Elastic Compute Cloud (Amazon EC2), que fornecem um throughput até 2,3 vezes maior e um custo por inferência até 70% menor em comparação com as instâncias do Amazon EC2. Muitos clientes, com destaque para a Finch AI, Sprinklr, Money Forward e Amazon Alexa, adotaram instâncias Inf1 e perceberam seus benefícios de performance e custo.
O acelerador AWS Inferentia2 oferece throughput até 4 vezes maior e latência até 10 vezes menor em comparação com o Inferentia. As instâncias do Amazon EC2 Inf2 baseadas em Inferentia2 são otimizadas para implantar modelos cada vez mais complexos, como grandes modelos de linguagem (LLM) e modelos de difusão latente, em grande escala. As instâncias Inf2 são as primeiras instâncias otimizadas para inferência no Amazon EC2 a oferecer suporte à inferência distribuída do aumento horizontal da escala com conectividade de altíssima velocidade entre os aceleradores. Muitos clientes, incluindo Leonardo.ai, Deutsche Telekom e Qualtrics, adotaram instâncias Inf2 para suas aplicações de DL e IA generativa.
O SDK do AWS Neuron ajuda os desenvolvedores a implantar modelos nos aceleradores do AWS Inferentia e a treiná-los nos aceleradores do AWS Trainium. Ele se integra nativamente a frameworks bem conhecidos, como PyTorch e TensorFlow, de modo que você pode continuar a usar seus fluxos de trabalho e código existentes e executar aceleradores do Inferentia.