Pemrosesan Data Amazon SageMaker
Analisis, siapkan, dan integrasikan data untuk analitik dan AI dalam jumlah besarMengapa memilih Pemrosesan Data SageMaker?
Siapkan, integrasikan, dan orkestrasi data Anda dengan kemampuan pemrosesan data dari Amazon Athena, Amazon EMR, AWS Glue, dan Amazon Managed Workflows for Apache Airflow (Amazon MWAA). Proses dan integrasikan data Anda, di mana pun lokasinya, dengan konektivitas cepat dan mudah ke ratusan sumber data.
Manfaatkan kerangka kerja pemrosesan data sumber terbuka, seperti Apache Spark, Trino, dan Apache Flink. Analisis data dalam skala besar dengan Trino, tanpa mengelola infrastruktur dan bangun analitik waktu nyata dengan leluasa menggunakan Apache Flink dan Apache Spark.
Percayalah bahwa data Anda akurat dan aman dengan mengotomatiskan kualitas data, identifikasi data sensitif, pelacakan silsilah, dan penerapan kontrol akses yang mendetail melalui integrasi native dengan Amazon SageMaker Lakehouse.
Manfaat
Layanan AWS
Integrasi data yang disederhanakan
AWS Glue menyediakan integrasi data nirserver yang menyederhanakan eksplorasi, persiapan, dan integrasi data dari berbagai sumber. Hubungkan ke beragam sumber data, kelola data Anda dalam katalog data terpusat, dan buat, jalankan, serta pantau pipeline ETL secara visual untuk memuat data ke lakehouse. AWS Glue secara otomatis menskalakan sesuai permintaan, sehingga Anda dapat berfokus untuk mendapatkan wawasan dari data tanpa mengelola infrastruktur.
Jalankan dan skalakan Apache Spark, Apache Hive, Trino, dan beban kerja lainnya
Amazon EMR menawarkan kemudahan dan penghematan biaya dalam menjalankan beban kerja pemrosesan data, seperti Apache Spark, Apache Airflow, Apache Flink, Trino, dan banyak lagi. Bangun dan jalankan pipeline pemrosesan data dan secara otomatis skalakan lebih cepat daripada solusi on-premises.
Lacak biaya
Amazon Athena menyediakan cara sederhana dan fleksibel untuk menganalisis data Anda dalam skala besar. Athena adalah layanan kueri interaktif yang menyederhanakan analisis data di Amazon S3 menggunakan SQL standar. Athena bersifat nirserver, jadi tidak ada infrastruktur yang perlu diatur atau dikelola, dan Anda dapat memilih untuk membayar berdasarkan kueri yang Anda jalankan atau sumber daya komputasi yang dibutuhkan oleh kueri Anda. Gunakan Athena untuk memproses log, melakukan analitik data, dan menjalankan kueri interaktif. Athena menskalakan secara otomatis, dengan menjalankan kueri secara paralel, sehingga hasilnya keluar dengan cepat, bahkan dengan set data besar dan kueri yang kompleks.
Orkestrasi alur kerja yang berfokus pada keamanan, selalu tersedia, dan terkelola untuk Apache Airflow
Amazon MWAA adalah layanan terkelola untuk Apache Airflow yang memungkinkan Anda untuk menggunakan platform Apache Airflow yang serupa untuk mengorkestrasi alur kerja Anda. Anda mendapatkan skalabilitas, ketersediaan, dan keamanan yang ditingkatkan tanpa beban operasional saat mengelola infrastruktur yang mendasarinya. Amazon MWAA mengorkestrasi alur kerja Anda menggunakan directed acyclic graphs (DAG) yang ditulis dalam Python. Anda hanya perlu memberi Amazon MWAA bucket S3 tempat DAG, plugin, dan persyaratan Python Anda berada. Lakukan deployment Apache Airflow dalam skala besar tanpa beban operasional dalam mengelola infrastruktur yang mendasarinya.