Pemrosesan Data Amazon SageMaker

Analisis, siapkan, dan integrasikan data untuk analitik dan AI dalam jumlah besar

Mengapa memilih Pemrosesan Data SageMaker?

Siapkan, integrasikan, dan orkestrasi data Anda dengan kemampuan pemrosesan data dari Amazon Athena, Amazon EMR, AWS Glue, dan Amazon Managed Workflows for Apache Airflow (Amazon MWAA). Proses dan integrasikan data Anda, di mana pun lokasinya, dengan konektivitas cepat dan mudah ke ratusan sumber data.

Manfaatkan kerangka kerja pemrosesan data sumber terbuka, seperti Apache Spark, Trino, dan Apache Flink. Analisis data dalam skala besar dengan Trino, tanpa mengelola infrastruktur dan bangun analitik waktu nyata dengan leluasa menggunakan Apache Flink dan Apache Spark.

Percayalah bahwa data Anda akurat dan aman dengan mengotomatiskan kualitas data, identifikasi data sensitif, pelacakan silsilah, dan penerapan kontrol akses yang mendetail melalui integrasi native dengan Amazon SageMaker Lakehouse.

Manfaat

Pemrosesan Data Amazon SageMaker menyediakan akses komprehensif ke kerangka kerja pemrosesan data dan aliran, mesin kueri SQL terdistribusi sumber terbuka, dan alat bantu paling populer, seperti notebook, editor kueri, dan extract, transform, dan load (ETL) visual.

Anda dapat mengakses kerangka kerja paling populer, seperti Apache Spark untuk menyiapkan dan mengintegrasikan data Anda dalam skala apa pun. Tanggapi kebutuhan bisnis waktu nyata dengan pemrosesan aliran menggunakan Apache Flink dan Spark Streaming, dan analisis data dengan kerangka kerja SQL sumber terbuka terkemuka, seperti Trino. Sederhanakan orkestrasi alur kerja tanpa harus mengelola infrastruktur dengan integrasi native dengan Amazon Managed Workflows with Apache Airflow (MWAA).

Pemrosesan Data SageMaker secara native terintegrasi dengan SageMaker Lakehouse, yang memungkinkan Anda memproses dan mengintegrasikan menggunakan satu salinan data untuk semua kasus penggunaan termasuk analitik, kueri ad-hoc, machine learning, dan AI generatif.

SageMaker Lakehouse menyatukan data di danau data Amazon Simple Storage Service (Amazon S3) dan gudang data Amazon Redshift, yang menyediakan akses terpadu ke data Anda. Anda dapat menemukan dan menganalisis data yang disatukan di Lakehouse dengan ratusan konektor, integrasi nol-ETL, dan sumber data gabungan, yang memberi Anda gambaran lengkap tentang bisnis Anda. SageMaker Lakehouse bekerja secara langsung dengan arsitektur data Anda yang ada, tanpa dibatasi oleh format penyimpanan tertentu atau pilihan mesin kueri.

Tingkatkan efisiensi dengan kinerja kueri cepat di tabel Apache Iceberg. Dapatkan wawasan hingga 2x lebih cepat daripada sistem sumber terbuka tradisional dengan versi Apache Spark, Apache Airflow, Apache Flink, Trino, dan banyak lagi yang kompatibel dengan API sumber terbuka yang beperforma tinggi.

Pemrosesan Data SageMaker memungkinkan Anda untuk fokus pada transformasi dan analisis data tanpa mengelola kapasitas komputasi atau aplikasi sumber terbuka sehingga menghemat waktu dan mengurangi biaya. Anda dapat secara otomatis menyediakan kapasitas di Amazon EMR di Amazon Elastic Compute Cloud (Amazon EC2) atau Amazon EMR di Amazon Elastic Kubernetes Service (Amazon EKS). Aturan penskalaan mengelola perubahan permintaan komputasi Anda untuk mengoptimalkan performa dan runtime.

Dapatkan kepercayaan dan transparansi dengan pelaporan kualitas data otomatis, deteksi data sensitif, dan pelacakan silsilah untuk data dan model AI melalui integrasi dengan Katalog Amazon SageMaker. Tingkatkan kepercayaan pada kualitas data Anda dengan pengukuran, pemantauan, dan rekomendasi otomatis untuk aturan kualitas data.

Proses dan analisis data Anda dengan aman dengan mematuhi dan menerapkan kontrol akses mendetail yang ditentukan pada set data di SageMaker Lakehouse, memungkinkan Anda untuk menentukan izin sekali saja dan membuat data Anda dapat diakses oleh pengguna resmi di seluruh organisasi Anda.

Layanan AWS

Integrasi data yang disederhanakan

AWS Glue menyediakan integrasi data nirserver yang menyederhanakan eksplorasi, persiapan, dan integrasi data dari berbagai sumber. Hubungkan ke beragam sumber data, kelola data Anda dalam katalog data terpusat, dan buat, jalankan, serta pantau pipeline ETL secara visual untuk memuat data ke lakehouse. AWS Glue secara otomatis menskalakan sesuai permintaan, sehingga Anda dapat berfokus untuk mendapatkan wawasan dari data tanpa mengelola infrastruktur.

Jalankan dan skalakan Apache Spark, Apache Hive, Trino, dan beban kerja lainnya

Amazon EMR menawarkan kemudahan dan penghematan biaya dalam menjalankan beban kerja pemrosesan data, seperti Apache Spark, Apache Airflow, Apache Flink, Trino, dan banyak lagi. Bangun dan jalankan pipeline pemrosesan data dan secara otomatis skalakan lebih cepat daripada solusi on-premises.

Lacak biaya

Amazon Athena menyediakan cara sederhana dan fleksibel untuk menganalisis data Anda dalam skala besar. Athena adalah layanan kueri interaktif yang menyederhanakan analisis data di Amazon S3 menggunakan SQL standar. Athena bersifat nirserver, jadi tidak ada infrastruktur yang perlu diatur atau dikelola, dan Anda dapat memilih untuk membayar berdasarkan kueri yang Anda jalankan atau sumber daya komputasi yang dibutuhkan oleh kueri Anda. Gunakan Athena untuk memproses log, melakukan analitik data, dan menjalankan kueri interaktif. Athena menskalakan secara otomatis, dengan menjalankan kueri secara paralel, sehingga hasilnya keluar dengan cepat, bahkan dengan set data besar dan kueri yang kompleks.

Orkestrasi alur kerja yang berfokus pada keamanan, selalu tersedia, dan terkelola untuk Apache Airflow

Amazon MWAA adalah layanan terkelola untuk Apache Airflow yang memungkinkan Anda untuk menggunakan platform Apache Airflow yang serupa untuk mengorkestrasi alur kerja Anda. Anda mendapatkan skalabilitas, ketersediaan, dan keamanan yang ditingkatkan tanpa beban operasional saat mengelola infrastruktur yang mendasarinya. Amazon MWAA mengorkestrasi alur kerja Anda menggunakan directed acyclic graphs (DAG) yang ditulis dalam Python. Anda hanya perlu memberi Amazon MWAA bucket S3 tempat DAG, plugin, dan persyaratan Python Anda berada. Lakukan deployment Apache Airflow dalam skala besar tanpa beban operasional dalam mengelola infrastruktur yang mendasarinya.

Kasus penggunaan

Identifikasi dan akses data di AWS, on-premise, dan cloud lainnya dengan cepat, lalu sediakan data tersebut secara instan untuk pembuatan kueri serta transformasi.

Proses data menggunakan kerangka kerja, seperti Apache Spark, Apache Flink, dan Trino, dan berbagai beban kerja, termasuk batch, microbatch, dan streaming.

Jalankan pemrosesan data dalam skala besar dan analisis bagaimana-jika menggunakan algoritme statistik dan model prediktif untuk mengungkap pola tersembunyi, korelasi, tren pasar, dan preferensi pelanggan.