FAQ Amazon SageMaker Lakehouse

Umum

Amazon SageMaker Lakehouse menyatukan semua data Anda di seluruh danau data Amazon Simple Storage Service (Amazon S3) dan gudang data Amazon Redshift, sehingga membantu Anda membangun analitik yang andal dan aplikasi AI/ML pada satu salinan data. SageMaker Lakehouse memberi Anda fleksibilitas untuk mengakses dan melakukan kueri data dengan semua alat dan mesin yang kompatibel dengan Apache Iceberg. Amankan data Anda di lakehouse dengan menentukan izin yang diberlakukan di semua alat dan mesin analitik dan machine learning (ML). Bawa data dari basis data operasional dan aplikasi ke lakehouse Anda hampir secara waktu nyata melalui integrasi nol-ETL. Selain itu, akses dan kueri data di tempat dengan kemampuan kueri gabungan di seluruh sumber data pihak ketiga.

SageMaker Lakehouse:

a) Mengurangi silo data dengan menyediakan akses terpadu ke data Anda di danau data Amazon S3 dan gudang data Amazon Redshift. Data dari basis data dan aplikasi operasional dapat diserap oleh lakehouse Anda hampir secara waktu nyata untuk analitik dan ML dengan pipeline extract, transform, and load (ETL) tanpa kode atau berkode rendah. Anda juga dapat menggunakan ratusan konektor dan 13 kemampuan kueri gabungan untuk mengakses data dari AWS dan sumber di luar AWS.

b) Memberi Anda fleksibilitas untuk mengakses dan mengkueri semua data Anda di tempatnya berada, dari berbagai layanan AWS serta alat dan mesin sumber terbuka dan pihak ketiga yang kompatibel dengan Apache Iceberg. Anda dapat menggunakan alat analitik dan mesin pilihan Anda, seperti SQL, Apache Spark, kecerdasan bisnis (BI), dan alat AI/ML, serta berkolaborasi dengan satu salinan data yang disimpan di Amazon S3 dan Amazon Redshift.

c) Meningkatkan keamanan perusahaan dengan mekanisme kontrol akses bawaan yang mengamankan data Anda saat diakses dari layanan AWS terintegrasi, seperti Amazon Redshift, Amazon Athena, atau Amazon EMR, atau mesin pihak ketiga yang kompatibel dengan Apache Iceberg.

SageMaker Lakehouse dapat diakses langsung dari Amazon SageMaker Unified Studio (pratinjau). Data dari sumber yang berbeda diatur dalam kontainer logis yang disebut katalog di SageMaker Lakehouse. Setiap katalog mewakili data baik dari sumber data yang ada, seperti gudang data Amazon Redshift, danau data, atau basis data. Katalog baru dapat langsung dibuat di lakehouse untuk menyimpan data di Amazon S3 atau Amazon Redshift Managed Storage (RMS). Data di SageMaker Lakehouse dapat diakses dari mesin yang kompatibel dengan Apache Iceberg, seperti Apache Spark, Athena, atau Amazon EMR. Selain itu, katalog ini dapat ditemukan sebagai basis data di gudang data Amazon Redshift, yang memungkinkan Anda menggunakan alat SQL dan menganalisis data lakehouse Anda.

Kemampuan

SageMaker Lakehouse menyatukan kontrol akses ke data Anda dengan dua kemampuan: 1) SageMaker Lakehouse memungkinkan Anda untuk menentukan izin yang mendetail. Izin ini diberlakukan oleh mesin kueri, seperti Amazon EMR, Amazon Athena, dan Amazon Redshift. 2) SageMaker Lakehouse memungkinkan Anda untuk mendapatkan akses di tempat ke data Anda, yang menghilangkan kebutuhan untuk membuat salinan data. Anda dapat menyimpan satu salinan data dan satu set kebijakan kontrol akses untuk mendapatkan manfaat dari kontrol akses terperinci dan terpadu di SageMaker Lakehouse.

SageMaker Lakehouse dibangun di atas beberapa katalog teknis di Katalog Data AWS Glue, Lake Formation, dan Amazon Redshift untuk menyediakan akses data terpadu di seluruh danau data dan gudang data. SageMaker Lakehouse menggunakan Katalog Data AWS Glue dan Lake Formation untuk menyimpan definisi tabel dan izin. Izin terperinci Lake Formation tersedia untuk tabel yang ditentukan di SageMaker Lakehouse. Anda dapat mengelola definisi tabel di Katalog Data AWS Glue dan menentukan izin yang mendetail, seperti izin tingkat tabel, tingkat kolom, dan tingkat sel, untuk mengamankan data Anda. Selain itu, dengan menggunakan kemampuan berbagi data lintas akun, Anda dapat mengaktifkan berbagi data tanpa salinan agar data tersedia untuk kolaborasi yang aman.

Ya. Pustaka klien Apache Iceberg sumber terbuka diperlukan untuk mengakses SageMaker Lakehouse. Pelanggan yang menggunakan mesin sumber terbuka pihak ketiga atau yang dikelola sendiri, seperti Apache Spark atau Trino perlu menyertakan pustaka klien Apache Iceberg di mesin kueri mereka untuk mengakses SageMaker Lakehouse.

Ya, dengan pustaka klien Apache Iceberg, Anda dapat membaca dan menulis data ke Amazon Redshift yang ada dari mesin Apache Spark di layanan AWS, seperti Amazon EMR, AWS Glue, Amazon Athena, dan Amazon SageMaker atau Apache Spark pihak ketiga. Namun, Anda harus memiliki izin menulis yang sesuai pada tabel untuk menuliskan data kepada mereka.

Ya, Anda dapat menggabungkan tabel danau data di Amazon S3 dengan tabel di gudang data Amazon Redshift di beberapa basis data menggunakan mesin pilihan Anda, seperti Apache Spark.

Migrasi

Tidak, Anda tidak perlu memigrasikan data Anda untuk menggunakan SageMaker Lakehouse. SageMaker Lakehouse memungkinkan Anda untuk mengakses dan menanyakan data Anda di tempatnya berada, dengan standar terbuka Apache Iceberg. Anda dapat langsung mengakses data Anda di danau data Amazon S3 dan gudang data Amazon Redshift. Data dari basis data operasional dan aplikasi dapat diserap ke lakehouse hampir secara waktu nyata melalui integrasi nol-ETL yang tersedia, tanpa memelihara infrastruktur atau pipeline yang kompleks. Anda juga dapat menggunakan kemampuan kueri gabungan untuk mengakses data di tempatnya berada. Selain itu, Anda dapat menggunakan ratusan konektor AWS Glue untuk diintegrasikan dengan sumber data yang ada.

Jika Anda sudah menjadi pengguna Amazon Redshift, Anda dapat mendaftarkan gudang data Amazon Redshift Anda dengan SageMaker Lakehouse dalam beberapa langkah mudah dan tanpa memigrasikan data Anda. Ikuti langkah-langkah dalam panduan developer.

Jika Anda telah mengonfigurasi danau data Amazon S3 menggunakan Katalog Data AWS Glue, Anda tidak perlu melakukan apa pun.

Integrasi Nol-ETL

SageMaker Lakehouse memungkinkan dukungan untuk integrasi nol-ETL dengan Amazon DynamoDB, Amazon Aurora, dan Amazon RDS for MySQL, dan delapan aplikasi: Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, iklan Facebook, iklan Instagram, Zendesk, dan SAP.

Anda dapat mengonfigurasi dan memantau integrasi nol-ETL melalui konsol AWS Glue dalam Pemrosesan Data Amazon SageMaker dengan AWS Glue. Setelah data diserap, Anda dapat mengakses dan mengkueri data dari mesin kueri yang kompatibel dengan Apache Iceberg. Untuk detail selengkapnya, kunjungi halaman dokumen integrasi nol-ETL.

Untuk mempelajari selengkapnya tentang harga, kunjungi halaman harga SageMaker Lakehouse dan AWS Glue.

Harga

Kunjungi harga SageMaker Lakehouse untuk detailnya.

Ketersediaan

SageMaker Lakehouse tersedia di AS Timur (Virginia Utara), AS Timur (Ohio), As Barat (Oregon), Asia Pasifik (Hong Kong), Asia Pasifik (Seoul), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Tokyo), Kanada (Pusat), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Stockholm), dan Amerika Selatan (Sao Paulo).

Ya. SageMaker Lakehouse menyimpan metadata di Katalog Data AWS Glue dan menawarkan SLA yang sama dengan SLA Amazon Glue.

Memulai

Untuk memulai, Anda dapat masuk ke domain SageMaker menggunakan kredensial perusahaan (misalnya, Okta) di SageMaker Unified Studio (pratinjau). Dalam beberapa langkah singkat di SageMaker Unified Studio, administrator dapat membuat proyek dengan memilih profil proyek tertentu. Anda kemudian dapat memilih proyek untuk bekerja dengan SageMaker Lakehouse. Setelah proyek dipilih, Anda mendapatkan tampilan data terpadu, mesin kueri, dan alat pengembang di satu tempat. Pengguna seperti teknisi data dan analis data kemudian dapat mengkueri data dengan menggunakan alat pilihan mereka. Misalnya, ketika teknisi data menggunakan notebook dan mengeluarkan perintah Spark untuk membuat daftar tabel, mereka akan melihat semua gudang data dan tabel danau data yang dapat mereka akses. Mereka kemudian dapat menjalankan perintah untuk membaca dan menulis data ke dalam tabel yang disimpan secara fisik baik di danau data Amazon S3 atau gudang data Amazon Redshift. Demikian pula, ketika analis data menjalankan perintah Redshift SQL dari editor SQL, mereka mendapatkan tampilan data terpadu yang sama dan dapat membaca dan menulis data ke tabel ini. Dari alat pilihan Anda (editor SQL atau notebook), Anda dapat membuat tabel baru di Amazon S3 atau Amazon Redshift. Kueri tampilan terwujud Amazon Redshift untuk mempercepat kinerja pada tabel danau data Anda. Selain SageMaker Unified Studio, SageMaker Lakehouse juga dapat diakses dari Konsol Manajemen AWS, API AWS Glue, AWS Command Line Interface (AWS CLI), atau SDK AWS. Untuk detail selengkapnya, kunjungi halaman Dokumentasi.