Pelanggan AWS Trainium

Lihat cara pelanggan menggunakan AWS Trainium untuk membangun, melatih, dan menyempurnakan model deep learning.

Anthropic

Di Anthropic, jutaan orang mengandalkan Claude setiap hari untuk melakukan pekerjaan mereka. Kami mengumumkan dua kemajuan besar dengan AWS: Pertama, "mode yang dioptimalkan untuk atensi" baru untuk Claude 3.5 Haiku yang berjalan 60% lebih cepat di Trainium2 melalui Amazon Bedrock. Kedua, Project Rainier, klaster baru dengan ratusan ribu chip Trainium2 yang menghasilkan ratusan exaflop, yang lebih dari lima kali ukuran klaster kami sebelumnya. Project Rainier akan membantu mendukung penelitian kami dan penskalaan generasi berikutnya. Artinya pelanggan kami dapat menikmati kecerdasan yang lebih banyak, harga yang lebih rendah, dan kecepatan yang lebih baik. Kami tidak hanya membangun AI yang lebih cepat, tetapi juga membangun AI tepercaya yang dapat ditingkatkan.

Tom Brown, Chief Compute Officer di Anthropic
Databricks

Mosaic AI Databricks memungkinkan organisasi untuk membangun dan menerapkan Sistem Agen yang berkualitas. Ini dibangun secara native di atas lakehouse data, yang memungkinkan pelanggan untuk dengan mudah dan aman menyesuaikan model dengan data perusahaan dan memberikan output yang lebih akurat dan spesifik domain. Berkat performa dan efektivitas biaya Trainium, pelanggan dapat menskalakan pelatihan model pada Mosaic AI dengan biaya rendah. Ketersediaan Trainium2 akan memberikan manfaat besar bagi Databricks dan pelanggannya karena permintaan Mosaic AI terus meningkat di semua segmen pelanggan dan di seluruh dunia. Databricks, salah satu perusahaan data dan AI terbesar di dunia, berencana menggunakan TRN2 untuk memberikan hasil yang lebih baik dan menurunkan TCO hingga 30% bagi pelanggannya.

Naveen Rao, VP of Generative AI di Databricks
poolside

Di poolside, kami siap untuk membangun dunia tempat AI akan mendukung sebagian besar pekerjaan yang berharga secara ekonomi dan kemajuan ilmiah. Kami percaya bahwa pengembangan perangkat lunak akan menjadi kemampuan utama yang pertama dalam jaringan neural yang mencapai kecerdasan tingkat manusia karena ini adalah domain yang memungkinkan kami menggabungkan pendekatan Pencarian dan Pembelajaran yang terbaik. Untuk mengaktifkannya, kami sedang membangun model dasar, API, dan Asisten untuk menghadirkan kekuatan AI generatif ke tangan developer (atau keyboard) Anda. Kunci utama untuk mengaktifkan teknologi ini adalah infrastruktur yang kami gunakan untuk membangun dan menjalankan produk. Dengan AWS Trainium2, pelanggan kami akan dapat meningkatkan penggunaan poolside dengan rasio performa sesuai harga yang tidak dapat ditandingi oleh akselerator AI lainnya. Selain itu, kami berencana untuk melatih model masa depan dengan UltraServers Trainium2 dengan penghematan yang diharapkan sebesar 40% dibandingkan dengan instans EC2 P5.

Eiso Kant, CTO & Co-founder, poolside
Itaú Unibanco

Tujuan Itaú Unibanco adalah untuk meningkatkan hubungan masyarakat dengan uang demi menciptakan dampak positif pada kehidupan mereka sekaligus memperluas peluang transformasi mereka. Di Itaú Unibanco, kami percaya bahwa setiap pelanggan itu unik dan kami berfokus untuk memenuhi kebutuhan mereka melalui perjalanan digital intuitif, yang memanfaatkan kekuatan AI untuk terus beradaptasi dengan kebiasaan konsumsi mereka.

Kami telah menguji AWS Trainium dan Inferentia di berbagai tugas, mulai dari inferensi standar hingga aplikasi yang disempurnakan dengan baik. Kinerja chip AI ini telah memungkinkan kami meraih pencapaian penting dalam penelitian dan pengembangan kami. Untuk tugas inferensi batch dan online, kami melihat peningkatan throughput 7x dibandingkan dengan GPU. Peningkatan performa ini mendorong perluasan ke lebih banyak kasus penggunaan di seluruh organisasi. Generasi terbaru chip Trainium2 membuka fitur inovatif untuk GenAI dan membuka pintu untuk inovasi di Itau.

Vitor Azeka, Head of Data Science di Itaú Unibanco
NinjaTech AI

Ninja adalah Agen AI yang Komprehensif untuk Produktivitas Tanpa Batas: satu langganan sederhana, akses tak terbatas ke model AI terbaik di dunia beserta keterampilan AI terbaik seperti: menulis, pengodean, curah pendapat, pembuatan gambar, penelitian online. Ninja adalah platform agen yang menawarkan "SuperAgent" yang menggunakan Kombinasi Agen dengan akurasi kelas dunia yang sebanding dengan (dan dalam beberapa kategori mengalahkan) model fondasi mutakhir. Teknologi Agentic Ninja menuntut akselerator beperforma terbaik, untuk memberikan pengalaman waktu nyata unik yang diharapkan pelanggan.

Kami sangat senang dengan peluncuran AWS TRN2 karena kami percaya AWS akan menawarkan performa sesuai biaya per token terbaik dan kecepatan tertinggi saat ini untuk model inti Ninja LLM kami yang didasarkan pada Llama 3.1 405B. Kami takjub mengetahui latensi rendah Trn2 ditambah dengan harga yang kompetitif dan ketersediaan sesuai permintaan. Kami tidak sabar menyambut kedatangan Trn2!

Babak Pahlavan, Founder & CEO, NinjaTech AI
Ricoh

Tim machine learning RICOH mengembangkan solusi tempat kerja dan layanan transformasi digital yang didesain untuk mengelola dan mengoptimalkan aliran informasi di seluruh solusi perusahaan.

Migrasi ke instans Trn1 cukup mudah dan sederhana. Kami dapat melatih LLM parameter 13B kami hanya dalam 8 hari, menggunakan klaster 4.096 chip Trainium! Setelah kesuksesan yang kami capai dengan model yang lebih kecil, kami menyempurnakan LLM baru yang lebih besar berdasarkan Llama-3-Swallow-70B. Dengan memanfaatkan Trainium, kami dapat mengurangi biaya pelatihan hingga 50% dan meningkatkan efisiensi energi sebesar 25% dibandingkan dengan menggunakan mesin GPU terbaru di AWS. Kami sangat senang memanfaatkan Chip AI AWS generasi terbaru, Trainium2, untuk terus memberikan performa terbaik bagi pelanggan kami dengan biaya terendah.

Yoshiaki Umetsu, Director, Digital Technology Development Center, Ricoh
PyTorch

Yang paling saya sukai dari pustaka AWS Neuron NxD Inference adalah betapa mulusnya pustaka itu terintegrasi dengan model PyTorch. Pendekatan NxD itu sederhana dan ramah pengguna. Tim kami mampu menyiapkan model HuggingFace PyTorch dengan perubahan kode minimal dalam jangka waktu singkat. Mengaktifkan fitur-fitur canggih, seperti Continuous Batching dan Speculative Decoding itu sangat mudah. Kemudahan penggunaan ini meningkatkan produktivitas developer, yang memungkinkan tim untuk lebih fokus pada inovasi bukan pada tantangan integrasi.

Hamid Shojanazeri , PyTorch Partner Engineering Lead, Meta
Refact.ai

Refact.ai menawarkan alat AI yang komprehensif, seperti penyelesaian otomatis kode yang didukung oleh Retrieval-Augmented Generation (RAG), memberikan saran yang lebih akurat dan obrolan sadar konteks menggunakan model berpemilik dan sumber terbuka.

Pelanggan meraih kinerja hingga 20% lebih tinggi dan token 1,5x lebih tinggi per dolar dengan instans EC2 Inf2 dibandingkan dengan instans EC2 G5. Kemampuan penyempurnaan Refact.ai makin meningkatkan kemampuan pelanggan kami untuk memahami dan beradaptasi dengan basis kode dan lingkungan unik organisasi mereka. Kami juga senang menawarkan kemampuan Trainium2, yang akan membuat pemrosesan jadi lebih cepat dan lebih efisien dalam alur kerja kami. Teknologi canggih ini akan memungkinkan pelanggan kami untuk mempercepat proses pengembangan perangkat lunak, dengan meningkatkan produktivitas developer sekaligus mempertahankan standar keamanan yang ketat untuk basis kode mereka.

Oleg Klimov CEO & Founder, Refact.ai
Karakuri Inc.

KARAKURI, membangun alat AI untuk meningkatkan efisiensi dukungan pelanggan berbasis web dan menyederhanakan pengalaman pelanggan. Alat-alat ini termasuk chatbot AI yang dilengkapi dengan fungsi AI generatif, alat sentralisasi FAQ, dan alat respons email, yang semuanya meningkatkan efisiensi dan kualitas dukungan pelanggan. Dengan memanfaatkan AWS Trainium, kami berhasil melatih KARAKURI LM 8x7B Chat v0.1. Untuk perusahaan rintisan, seperti kami, kami perlu mengoptimalkan waktu untuk membangun dan biaya yang diperlukan untuk melatih LLM. Dengan dukungan AWS Trainium dan AWS Team, kami dapat mengembangkan LLM tingkat praktis dalam waktu singkat. Selain itu, dengan mengadopsi AWS Inferentia, kami dapat membangun layanan inferensi yang cepat dan hemat biaya. Kami bersemangat menyambut Trainium2 karena ini akan merevolusi proses pelatihan kami, yakni mengurangi waktunya kami hingga 2x dan mendorong efisiensinya ke tingkat yang baru!

Tomofumi Nakayama, Co-Founder, Karakuri Inc.
Stockmark Inc.

Dengan misi “menemukan kembali mekanisme penciptaan nilai dan memajukan umat manusia”, Stockmark membantu banyak perusahaan menciptakan dan membangun bisnis inovatif dengan menyediakan teknologi pemrosesan bahasa alami yang mutakhir. Layanan analisis dan pengumpulan data baru Stockmark yang disebut Anews dan SAT, layanan penataan data yang secara drastis meningkatkan penggunaan AI generatif dengan mengatur semua bentuk informasi yang disimpan dalam suatu organisasi, mengharuskan kami untuk memikirkan kembali cara kami membangun dan melakukan deployment model untuk mendukung produk ini. Dengan 256 akselerator Trainium, kami telah mengembangkan dan merilis stockmark-13b, model bahasa besar dengan 13 miliar parameter yang dilatih sejak awal pada set data korpus Jepang 220B token. Instans Trn1 membantu kami mengurangi biaya pelatihan hingga 20%. Dengan memanfaatkan Trainium, kami berhasil mengembangkan LLM yang dapat menjawab pertanyaan kritis bisnis untuk para profesional dengan akurasi dan kecepatan yang belum pernah dicapai sebelumnya. Pencapaian ini sangat penting mengingat tantangan luas yang dihadapi perusahaan dalam menjamin sumber daya komputasi yang memadai untuk pengembangan model. Dengan kecepatan dan pengurangan biaya instans Trn1 yang mengesankan, kami senang melihat manfaat tambahan yang akan dibawa Trainium2 ke alur kerja dan pelanggan kami.

Kosuke Arima, CTO and Co-founder, Stockmark Inc.
Brave

Brave adalah browser dan mesin pencari independen yang didedikasikan untuk memprioritaskan privasi dan keamanan pengguna. Dengan lebih dari 70 juta pengguna, kami memberikan perlindungan terdepan di industri yang membuat Web lebih aman dan lebih ramah pengguna. Tidak seperti platform lain yang telah beralih dari pendekatan yang berpusat pada pengguna, Brave tetap berkomitmen untuk mengutamakan privasi, keamanan, dan kenyamanan. Fitur utamanya termasuk memblokir skrip dan pelacak berbahaya, ringkasan halaman berbantuan AI yang didukung oleh LLM, layanan VPN bawaan, dan banyak lagi. Kami terus berusaha untuk meningkatkan kecepatan dan efisiensi biaya layanan pencarian dan model AI kami. Untuk mendukung hal ini, kami senang memanfaatkan kemampuan terbaru chip AI AWS, termasuk Trainium2, untuk meningkatkan pengalaman pengguna saat kami menskalakan untuk menangani miliaran kueri penelusuran setiap bulan.

Subu Sathyanarayana , VP of Engineering, Brave Software
Anyscale

Anyscale adalah perusahaan yang menciptakan Ray, AI Compute Engine yang mendorong ML dan inisiatif AI Generatif untuk Perusahaan. Dengan platform AI terpadu Anyscale yang didukung oleh RayTurbo, pelanggan melihat pemrosesan data hingga 4,5x lebih cepat, inferensi batch biaya 10X lebih rendah dengan LLM, penskalaan 5x lebih cepat, iterasi 12X lebih cepat, dan penghematan biaya 50% untuk inferensi model online dengan mengoptimalkan pemanfaatan sumber daya.

Di Anyscale, kami berkomitmen dalam memberdayakan perusahaan dengan alat terbaik untuk menskalakan beban kerja AI secara efisien dan hemat biaya. Dengan dukungan native untuk chip AWS Trainium dan Inferentia, serta ditenagai oleh runtime RayTurbo kami, pelanggan memiliki akses ke opsi beperforma tinggi dan hemat biaya untuk pelatihan dan penyajian model. Kami tidak sabar untuk bergabung dengan AWS di Trainium2, membuka peluang baru bagi pelanggan kami untuk berinovasi dengan cepat, dan memberikan pengalaman AI transformatif beperforma tinggi dalam skala besar.

Robert Nishihara, Cofounder, Anyscale
Datadog

Datadog, platform observabilitas dan keamanan untuk aplikasi cloud, menyediakan AWS Trainium dan Inferentia Monitoring bagi pelanggan untuk mengoptimalkan performa model, meningkatkan efisiensi, dan mengurangi biaya. Integrasi Datadog memberikan visibilitas penuh ke operasi ML dan performa chip yang mendasarinya, memungkinkan penyelesaian masalah proaktif dan penskalaan infrastruktur yang mulus. Kami sangat senang dapat memperluas kemitraan kami dengan AWS untuk peluncuran AWS Trainium2, yang membantu pengguna mengurangi biaya infrastruktur AI hingga 50% dan meningkatkan pelatihan model dan performa deployment.

Yrieix Garnier, VP of Product Company, Datadog
Hugging Face

Hugging Face adalah platform terbuka terkemuka untuk pembuat AI, dengan lebih dari 2 juta model, set data, dan aplikasi AI yang dibagikan oleh komunitas berisi lebih dari 5 juta peneliti, ilmuwan data, insinyur machine learning, dan developer perangkat lunak. Kami telah berkolaborasi dengan AWS selama beberapa tahun terakhir, sehingga memudahkan developer untuk merasakan manfaat performa dan biaya AWS Inferentia dan Trainium melalui pustaka sumber terbuka Optimum Neuron, yang terintegrasi dalam Hugging Face Inference Endpoints, dan sekarang dioptimalkan dalam layanan deployment mandiri HUGS baru kami yang tersedia di AWS Marketplace. Dengan peluncuran Trainium2, pengguna kami dapat mengakses performa yang lebih tinggi untuk mengembangkan dan melakukan deployment model dengan lebih cepat.

Jeff Boudier, Head of Product, Hugging Face
Lightning AI

Lightning AI, pencipta PyTorch Lightning dan Lightning Studios menawarkan platform pengembangan AI komprehensif yang paling intuitif untuk AI tingkat perusahaan. Lightning menyediakan alat kode lengkap, kode rendah, dan tanpa kode untuk membangun agen, aplikasi AI, dan solusi AI generatif, secepat kilat. Dirancang untuk fleksibilitas, alat ini berjalan mulus di cloud Anda atau cloud kami yang memanfaatkan keahlian dan dukungan dari 3M+ komunitas developer yang solid.

Lightning sekarang secara native menawarkan dukungan untuk Chip AWS AI, Trainium, dan Inferentia, yang terintegrasi di Lightning Studios dan alat sumber terbuka kami, seperti PyTorch Lightning, Fabric, dan LitServe. Ini memberi pengguna kemampuan tanpa batas untuk melatih, menyempurnakan, dan melakukan deployment dalam skala besar, yang mengoptimalkan biaya, ketersediaan, dan performa tanpa perubahan overhead, dan manfaat performa dan biaya Chip AI AWS, termasuk chip Trainium2 generasi terbaru, yang memberikan kinerja yang lebih tinggi dengan biaya lebih rendah.

Luca Antiga, CTO, Lightning AI
Domino Data Lab

Domino mengatur semua artefak ilmu data, termasuk infrastruktur, data, dan layanan di AWS di seluruh lingkungan, melengkapi Amazon SageMaker dengan kemampuan tata kelola dan kolaborasi untuk mendukung tim ilmu data perusahaan. Domino tersedia melalui AWS Marketplace sebagai SaaS atau dikelola sendiri.

Korporasi terkemuka harus menyeimbangkan kompleksitas teknis, biaya, dan tata kelola, dengan menguasai berbagai opsi AI untuk keunggulan kompetitif. Di Domino, kami berkomitmen untuk memberi pelanggan akses ke teknologi mutakhir. Dengan komputasi sebagai hambatan bagi begitu banyak inovasi inovatif, kami bangga memberi pelanggan akses ke Trainium2 sehingga mereka dapat melatih dan melakukan deployment model dengan performa lebih tinggi, biaya lebih rendah, dan efisiensi energi lebih baik.

Nick Elprin, CEO dan Co-Founder, Domino Data Lab
Helixon

Di HeliXon, kami membangun solusi AI generasi berikutnya untuk terapi berbasis protein. Kami bertujuan untuk mengembangkan alat AI yang memberdayakan ilmuwan untuk menguraikan fungsi dan interaksi protein, menyelidiki set data genomika skala besar untuk identifikasi target, serta mendesain terapi seperti antibodi dan terapi sel. Saat ini, kami menggunakan pustaka distribusi pelatihan seperti FSDP untuk memparalelkan pelatihan model di banyak server berbasis GPU, tetapi ini masih membutuhkan waktu berminggu-minggu bagi kami untuk melatih satu model. Kami sangat senang dapat menggunakan instans Trn1 Amazon EC2, yang menghadirkan bandwidth jaringan tertinggi (800 Gbps) yang tersedia di AWS untuk meningkatkan performa tugas pelatihan terdistribusi kami dan mengurangi waktu pelatihan model, sekaligus mengurangi biaya pelatihan.

Jian Peng, CEO, Helixon
Money Forward, Inc.

Money Forward, Inc. melayani bisnis dan perorangan dengan platform keuangan yang terbuka dan adil.

Kami meluncurkan layanan chatbot AI skala besar di instans Inf1 Amazon EC2 dan mengurangi latensi inferensi sebesar 97% dibandingkan instans berbasis GPU yang sebanding sekaligus mengurangi biaya. Saat kami meneruskan menyetel model NLP yang disesuaikan secara berkala, mengurangi waktu dan biaya pelatihan model juga penting. Berdasarkan pengalaman kami dari keberhasilan migrasi beban kerja inferensi pada instans Inf1 dan pekerjaan awal kami pada instans Trn1 EC2 berbasis AWS Trainium, kami berharap instans Trn1 akan memberikan nilai tambah dalam meningkatkan performa dan biaya ML ujung ke ujung.

Takuya Nakade, CTO, Money Forward, Inc.
Magic

Magic adalah perusahaan produk dan riset terintegrasi yang mengembangkan AI yang terasa seperti kolega untuk menjadikan dunia lebih produktif.

Melatih model berbasis Transformer autoregresif yang besar merupakan komponen penting dalam pekerjaan kami. Instans Trn1 yang didukung AWS Trainium didesain khusus untuk beban kerja ini, menawarkan skalabilitas yang hampir tak terbatas, jaringan antar-simpul cepat, serta dukungan lanjutan untuk tipe data 16 dan 8 bit. Instans Trn1 akan membantu kami melatih model besar lebih cepat, dengan biaya lebih rendah. Kami sangat senang dengan dukungan native untuk pembulatan stokastik BF16 di Trainium, yang meningkatkan performa meskipun akurasi numerik tidak dapat dibedakan dari presisi penuh.

Eric Steinberger, Cofounder dan CEO, Magic
CACTUS LABS

CACTUS memiliki rangkaian produk dan solusi untuk peneliti, dan organisasi yang meningkatkan bagaimana riset mendapat dana, diterbitkan, dikomunikasikan, serta ditemukan.

Di Cactus Labs, kami memanfaatkan kekuatan AI, dengan penelitian yang berfokus pada pemrosesan bahasa alami, pemeringkatan dan rekomendasi, AI percakapan, model bahasa besar, penglihatan komputer, AR/VR, serta XAI. Selaras dengan upaya kami untuk memungkinkan pelatihan model machine learning yang lebih cepat serta memungkinkan peneliti kami menjalankan lebih banyak eksperimen sekaligus mengelola biaya infrastruktur, kami sangat senang dapat mengevaluasi AWS Trainium. Fitur inovatif AWS Trainium seperti optimisasi XLA, pelatihan paralel data multi-pekerja, dan caching grafik sangat berguna bagi kami untuk mengurangi waktu pelatihan serta membantu kami menjalankan lebih banyak eksperimen dengan lebih cepat dan lebih murah.

Nishchay Shah, CTO dan Head of Emerging Products, Cactus Communications
Watashiha

Watashiha menawarkan layanan chatbot AI yang inovatif dan interaktif, “OGIRI AI,” yang menggabungkan humor untuk memberikan jawaban lucu secara langsung untuk sebuah pertanyaan.

Kami menggunakan Model Bahasa Besar untuk menggabungkan humor dan menawarkan pengalaman percakapan yang lebih relevan bagi pelanggan di layanan AI kami. Hal ini mengharuskan kami untuk sering melatih dan menyempurnakan model ini. Kami melatih sebelumnya model bahasa Jepang berbasis GPT di instans Trn1.32xlarge EC2, memanfaatkan tensor dan paralelisme data. Pelatihan ini diselesaikan dalam waktu 28 hari dengan pengurangan biaya 33% dibandingkan infrastruktur berbasis GPU kami sebelumnya. Seiring dengan makin kompleksnya model yang kami miliki, kami menantikan hadirnya instans Trn1n yang memiliki bandwidth jaringan dua kali lipat dibandingkan Trn1 untuk mempercepat pelatihan model yang lebih besar.

Yohei Kobashi, CTO, Watashiha, K.K.
Amazon

Mesin pencarian produk Amazon mengindeks miliaran produk, melayani miliaran kueri pelanggan setiap harinya, dan merupakan salah satu layanan yang paling banyak digunakan di dunia.

Kami melatih model bahasa besar (LLM) yang bersifat multimodal (teks + gambar), multibahasa, multi-locale, telah dilatih sebelumnya pada banyak tugas, dan menjangkau banyak entitas (produk, kueri, merek, ulasan, dll.) untuk meningkatkan pengalaman belanja pelanggan. Instans Trn1 menyediakan cara yang lebih berkelanjutan untuk melatih LLM dengan menghadirkan performa/watt terbaik dibandingkan solusi machine learning terakselerasi lainnya dan menawarkan performa tinggi dengan biaya terendah. Kami berencana untuk mengeksplorasi tipe data FP8 baru yang dapat dikonfigurasi dan pembulatan stokastik terakselerasi perangkat keras untuk lebih meningkatkan efisiensi pelatihan serta kecepatan pengembangan.

Trishul Chilimbi, VP, Amazon Search
Meta

Yang paling saya sukai dari pustaka AWS Neuron NxD Inference adalah betapa mulusnya integrasinya dengan model PyTorch. Pendekatan NxD mudah dan ramah pengguna. Tim kami mampu menyiapkan model HuggingFace PyTorch dengan perubahan kode minimal dalam jangka waktu singkat. Mengaktifkan fitur-fitur canggih, seperti Continuous Batching dan Speculative Decoding itu sangat mudah. Kemudahan penggunaan ini meningkatkan produktivitas developer, yang memungkinkan tim untuk lebih fokus pada inovasi bukan pada tantangan integrasi.

Hamid Shojanazeri, Leading Pytorch Partner Engineering Meta