Perché scegliere le istanze Trn1 di Amazon EC2?
Le istanze Trn1 di Amazon Elastic Compute Cloud (EC2), basate sui chip AWS Trainium, sono create appositamente per l'addestramento di deep learning (DL) ad alte prestazioni di modelli di IA generativa, inclusi modelli linguistici di grandi dimensioni (LLM) e modelli di diffusione latente. Le istanze Trn1 offrono fino al 50% di risparmio sui costi di addestramento rispetto ad altre istanze Amazon EC2 paragonabili. È possibile utilizzare le istanze Trn1 per addestrare modelli di IA generativa e DL con oltre 100 miliardi di parametri su un'ampia gamma di applicazioni, come riepilogo del testo, generazione di codice, risposta a domande, generazione di immagini e video, consigli e rilevamento di frodi.
L’SDK AWS Neuron consente agli sviluppatori di addestrare modelli su AWS Trainium e di implementarli sui chip AWS Inferentia. Si integra in modo nativo con framework come PyTorch e TensorFlow, così che sia possibile continuare a utilizzare i flussi di lavoro e il codice esistenti per addestrare modelli sulle istanze Trn1. Per conoscere l'attuale supporto di Neuron per framework e librerie di machine learning (ML), architetture di modelli e ottimizzazioni hardware, consulta la documentazione di Neuron.
Presentazione delle istanze Amazon EC2 Trn1 con tecnologia AWS Trainium
Vantaggi
Caratteristiche
Testimonianze dei partner e dei clienti
Ecco alcuni esempi di come clienti e partner hanno raggiunto i loro obiettivi aziendali con le istanze Trn1 di Amazon EC2.
-
Databricks
Più di 10.000 organizzazioni in tutto il mondo, tra cui Comcast, Condé Nast e oltre il 50% delle aziende Fortune 500, si affidano a Databricks per unificare dati, analisi e intelligenza artificiale.
Migliaia di clienti hanno implementato Databricks su AWS, dando la possibilità di utilizzare MosaicML per pre-addestrare, mettere a punto e servire modelli di base per una varietà di casi d'uso. AWS Trainium ci offre la scalabilità e le alte prestazioni necessarie per addestrare i nostri modelli Mosaic MPT e a basso costo. Man mano che addestriamo i nostri modelli Mosaic MPT di nuova generazione, Trainium2 consentirà di creare modelli ancora più velocemente, consentendoci di fornire ai nostri clienti scalabilità e prestazioni senza precedenti in modo che possano portare le proprie applicazioni di IA generativa sul mercato più rapidamente.
Naveen Rao, VP of Generative AI, Databricks -
Stockmark Co., Ltd
Con la missione di "reinventare il meccanismo di creazione di valore e promuovere l'umanità", Stockmark aiuta molte aziende a creare e costruire attività innovative fornendo tecnologie all'avanguardia per l'elaborazione del linguaggio naturale.
Con 16 nodi di istanze Amazon EC2 Trn1 alimentati dai chip AWS Trainium, abbiamo sviluppato e rilasciato stockmark-13b, un modello linguistico di grandi dimensioni con 13 miliardi di parametri, pre-addestrato da zero su un corpus giapponese di 220 miliardi di token. Il corpus include gli ultimi testi relativi ai domini aziendali fino a settembre 2023. Il modello ha ottenuto il punteggio JSQuAD più alto (0,813) nel benchmark JGLUE (Japanese General Language Understanding Evaluation) rispetto ad altri modelli equivalenti. È disponibile su Hugging Face Hub e può essere utilizzato commercialmente con la licenza MIT. Le istanze Trn1 ci hanno aiutato a ottenere una riduzione dei costi di formazione del 20% rispetto alle istanze GPU equivalenti.
Kosuke Arima, CTO, Stockmark Co., Ltd. -
RICOH
RICOH offre soluzioni per l'ambiente di lavoro e servizi di trasformazione digitale progettati per gestire e ottimizzare il flusso di informazioni tra le aziende.
La migrazione alle istanze Trn1 è stata piuttosto semplice. Siamo stati in grado di completare l'addestramento del nostro modello di parametri 13B in soli 8 giorni. Sulla base di questo successo, non vediamo l'ora di sviluppare e addestrare il nostro modello di parametri 70B su Trainium e siamo entusiasti del potenziale di questi casi nell'addestramento dei nostri modelli in modo più rapido ed economico.
Yoshiaki Umetsu, Director, Digital Technology Development Center, RICOH -
HeliXon
In HeliXon, creiamo soluzioni di intelligenza artificiale di nuova generazione per terapie a base di proteine. Il nostro obiettivo è sviluppare strumenti di intelligenza artificiale che consentano agli scienziati di decifrare la funzione e l'interazione delle proteine, interrogare set di dati genomici su larga scala per l'identificazione dei bersagli, e infine progettare terapie come anticorpi e terapie cellulari. Oggi utilizziamo librerie di distribuzione dell'addestramento come FSDP per parallelizzare l'addestramento dei modelli su diversi server basati su GPU, ma ci vogliono ancora settimane per addestrare un singolo modello. Siamo entusiasti di utilizzare le istanze Trn1 di Amazon EC2, dotate della massima larghezza di banda della rete (800 Gbps) disponibile in AWS per migliorare le prestazioni dei nostri processi di addestramento distribuiti e ridurre i tempi di addestramento dei nostri modelli, riducendo al tempo stesso i costi.
Jian Peng, CEO, Helixon -
Money Forward, Inc.
Money Forward, Inc. offre ad aziende e privati una piattaforma finanziaria equa e aperta.
Abbiamo lanciato un servizio di chatbot basato sull'IA su larga scala sulle istanze Amazon EC2 Inf1 e ridotto la nostra latenza di inferenza del 97% rispetto a istanze analoghe basate su GPU, riducendo al contempo i costi. Poiché continuiamo a perfezionare periodicamente modelli NLP personalizzati, è importante anche ridurre i tempi e i costi di addestramento dei modelli. Sulla base della nostra esperienza derivante dalla corretta migrazione del carico di lavoro di inferenza su istanze Inf1 e sul nostro lavoro iniziale su istanze Trn1 di EC2 basate su AWS Trainium, prevediamo che le istanze Trn1 forniranno un valore aggiunto nel miglioramento delle prestazioni e dei costi di ML end-to-end.
Takuya Nakade, CTO, Money Forward Inc. -
Magic
Magic è un'azienda di ricerca e prodotti integrati che sta sviluppando un'IA che venga percepita come un collega allo scopo di rendere il mondo più produttivo.
L'addestramento di modelli autoregressivi di grandi dimensioni basati su Transformer è una componente essenziale del nostro lavoro. Le istanze Trn1 basate su AWS Trainium sono progettate specificamente per questi carichi di lavoro e offrono scalabilità quasi infinita, rete tra nodi veloce e supporto avanzato per tipi di dati a 16 e 8 bit. Le istanze Trn1 ci aiuteranno ad addestrare modelli di grandi dimensioni più velocemente e a un costo inferiore. Siamo particolarmente entusiasti del supporto nativo per l'arrotondamento stocastico BF16 in Trainium, il quale aumenta le prestazioni mentre la precisione numerica è indistinguibile da quella completa.
Eric Steinberger, Cofounder e CEO, Magic -
Cactus Communications
CACTUS offre una suite di prodotti e soluzioni per ricercatori e organizzazioni in grado di migliorare il modo in cui la ricerca viene finanziata, pubblicata, comunicata e scoperta.
In Cactus Labs sfruttiamo la potenza dell'IA con ricerche incentrate sull'elaborazione del linguaggio naturale, sulla classificazione e sulle raccomandazioni, sull'intelligenza artificiale conversazionale, sui modelli linguistici di grandi dimensioni, sulla visione artificiale, AR/VR e XAI. In linea con il nostro obiettivo di consentire un addestramento più rapido dei modelli di machine learning e permettere ai nostri ricercatori di eseguire più esperimenti, gestendo al contempo i costi dell'infrastruttura, siamo stati lieti di valutare AWS Trainium. Le funzionalità preconfigurate di AWS Trainium, come l'ottimizzazione XLA, l'addestramento in parallelo di dati con più operatori e la memorizzazione nella cache di grafici, ci sono davvero utili per ridurre i tempi di addestramento e aiutarci a eseguire più esperimenti in modo più rapido ed economico.
Nishchay Shah, CTO e Head of Emerging Products, Cactus Communications -
Watashiha
Watashiha offre un servizio di IA chatbot innovativo e interattivo, "OGIRI AI", che incorpora l'elemento umoristico per fornire una risposta divertente all'istante a una domanda.
Utilizziamo modelli linguistici di grandi dimensioni per incorporare l'umorismo e offrire un'esperienza più pertinente e colloquiale ai nostri clienti sui nostri servizi di intelligenza artificiale. Ciò richiede di pre-addestrare e calibrare questi modelli frequentemente. Abbiamo pre-addestrato un modello giapponese basato su GPT sull'istanza EC2 Trn1.32xlarge, sfruttando il parallelismo di tensori e dati. L'addestramento è stato completato entro 28 giorni con una riduzione dei costi del 33% rispetto alla nostra precedente infrastruttura basata su GPU. Poiché i nostri modelli continuano a crescere rapidamente in termini di complessità, attendiamo con impazienza le istanze Trn1n con il doppio della larghezza di banda della rete di Trn1, così da accelerare l'addestramento di modelli più grandi.
Yohei Kobashi, CTO, Watashiha, K.K.
-
PyTorch
In PyTorch acceleriamo il passaggio del machine learning dalla prototipazione per la ricerca alla produzione per i clienti. Abbiamo collaborato a lungo con il team AWS per fornire supporto PyTorch nativo per le nuove istanze Amazon EC2 Trn1 basate su AWS Trainium, create appositamente per l'addestramento di modelli di deep learning. Gli sviluppatori che creano modelli PyTorch possono iniziare l'addestramento sulle istanze Trn1 con modifiche minime al codice. Inoltre, abbiamo collaborato con la comunità OpenXLA per abilitare le librerie distribuite PyTorch per una facile migrazione dei modelli da istanze basate su GPU a istanze Trn1. Siamo entusiasti dell'innovazione che le istanze Trn1 apportano alla comunità PyTorch, tra cui tipi di dati più efficienti, forme dinamiche, operatori personalizzati, arrotondamento stocastico ottimizzato per l'hardware e modalità di debug eager. Tutto ciò rende Trn1 adatto per un'ampia adozione da parte degli sviluppatori di PyTorch, inoltre attendiamo con impazienza futuri contributi congiunti a PyTorch per ottimizzare ulteriormente le prestazioni di addestramento.
Geeta Chauhan, Applied AI, Engineering Manager, PyTorch -
Hugging Face
La missione di Hugging Face è quella di democratizzare il machine learning per aiutare gli sviluppatori di ML di tutto il mondo a risolvere problemi nel mondo reale. E la chiave per farlo è garantire che i modelli più recenti e migliori vengano eseguiti nel modo più rapido ed efficiente possibile sui migliori chip ML del cloud. Siamo incredibilmente entusiasti del potenziale che Inferentia2 diventi il nuovo modo standard per implementare modelli di IA generativa su larga scala. Con Inf1, abbiamo registrato una riduzione dei costi fino al 70% rispetto alle tradizionali istanze basate su GPU e con Inf2 abbiamo riscontrato una latenza fino a 8 volte inferiore per i Transformers simili a BERT rispetto a Inferentia1. Con Inferentia2, la nostra community sarà in grado di adattare facilmente queste prestazioni agli LLM con oltre 100 miliardi di parametri e ai più recenti modelli di diffusione e visione artificiale.
-
Amazon
"Stiamo addestrando modelli linguistici di grandi dimensioni (LLM) multimodali (testo + immagine), multilingue, con più impostazioni internazionali, pre-addestrati su più attività e che coinvolgono diverse entità (prodotti, domande, marchi, recensioni, ecc.) per migliorare l'esperienza di acquisto dei clienti. Le istanze Trn1 forniscono un modo più sostenibile per addestrare gli LLM, offrendo il miglior rapporto prestazioni/watt rispetto ad altre soluzioni di machine learning accelerato, oltre a garantirci prestazioni elevate a costi più bassi. Abbiamo intenzione di esplorare il nuovo tipo di dati FP8 configurabile e l'arrotondamento stocastico con accelerazione hardware per aumentare ulteriormente l'efficienza dell'addestramento e la velocità di sviluppo.
Trishul Chilimbi, vicepresidente di Amazon Search
Nozioni di base
Dettagli del prodotto
Dimensioni istanza | Chip Trainium |
Acceleratore Memoria (GB) |
vCPU | Istanza Memoria (GiB) |
Locale NVMe Archiviazione (TB) |
Rete Larghezza di banda (Gb/s) |
EFA e RDMA Supporto |
EBS Larghezza di banda (Gb/s) |
On demand Prezzo all'ora |
1 anno Riservate Istanza Effettivo Orario* |
3 anni Riservate Istanza Effettivo Orario* |
trn1.2xlarge | 1 | 32 | 8 | 32 | 0,5 | Fino a 12,5 | No | Fino a 20 | 1,34 USD | 0,79 USD | 0,4744 USD |
trn1.32xlarge | 16 | 512 | 128 | 512 | 8 | 800 | Sì | 80 | 21,50 USD | 12,60 USD | 7,59 USD |
trn1n.32xlarge |
16 | 512 | 128 | 512 | 8 | 1.600 | Sì | 80 | 24,78 USD | 14,52 USD | 8,59 USD |