- Amazon SageMaker›
- Amazon SageMaker Lakehouse›
- Häufig gestellte Fragen
Häufig gestellte Fragen zu Amazon SageMaker Lakehouse
Allgemeines
Was ist Amazon SageMaker Lakehouse?
Amazon SageMaker Lakehouse vereinheitlicht all Ihre Daten aus Data Lakes von Amazon Simple Storage Service (Amazon S3) und Amazon Redshift Data Warehouses und hilft Ihnen so, leistungsstarke Analytik- und KI/ML-Anwendungen auf einer einzigen Datenkopie zu erstellen. SageMaker Lakehouse bietet Ihnen die Flexibilität, mit allen Apache-Iceberg-kompatiblen Tools und Engines auf Ihre Daten zuzugreifen und diese abzufragen. Schützen Sie Ihre Daten im Lakehouse, indem Sie Berechtigungen definieren, die in allen Tools und Engines für Analytik und Machine Learning (ML) durchgesetzt werden. Bringen Sie Daten aus Betriebsdatenbanken und Anwendungen durch Null-ETL-Integrationen nahezu in Echtzeit in Ihr Lakehouse. Darüber hinaus können Sie mit Verbundabfragefunktionen aus Datenquellen von Drittanbietern direkt auf Daten zugreifen und diese abfragen.
Was sind die Vorteile von SageMaker Lakehouse?
SageMaker Lakehouse:
a) Reduziert Datensilos durch einheitlichen Zugriff auf Ihre Daten in Amazon S3 Data Lakes und Amazon Redshift Data Warehouses. Daten aus Betriebsdatenbanken und Anwendungen können nahezu in Echtzeit in Ihr Lakehouse für Analytik und ML mit Pipelines von Extract, Transform, Load (ETL) ohne Code oder mit geringem Code aufgenommen werden. Sie können auch Hunderte von Konnektoren und 13 Verbundabfragefunktionen verwenden, um auf Daten von AWS und Quellen außerhalb von AWS zuzugreifen.
b) Bietet Ihnen die Flexibilität, direkt auf all Ihre Daten zuzugreifen und diese abzufragen, und zwar über eine Vielzahl von AWS-Services sowie Open-Source-Tools und Engines von Drittanbietern, die mit Apache Iceberg kompatibel sind. Sie können Analysetools und Engines Ihrer Wahl wie SQL, Apache Spark, Business Intelligence (BI) und KI/ML-Tools verwenden und mit einer einzigen Kopie der in Amazon S3 oder Amazon Redshift gespeicherten Daten zusammenarbeiten.
c) Verbessert die Unternehmenssicherheit mit einem integrierten Zugriffskontrollmechanismus, der Ihre Daten schützt, wenn Sie über integrierte AWS-Services wie Amazon Redshift, Amazon Athena oder Amazon EMR oder mit Apache Iceberg kompatiblen Engines von Drittanbietern darauf zugreifen.
Wie funktioniert SageMaker Lakehouse?
Auf SageMaker Lakehouse kann direkt über Amazon SageMaker Unified Studio (Vorversion) zugegriffen werden. Daten aus verschiedenen Quellen sind in logischen Containern organisiert, die in SageMaker Lakehouse als Kataloge bezeichnet werden. Jeder Katalog stellt Daten entweder aus vorhandenen Datenquellen wie Amazon Redshift Data Warehouses, Data Lakes oder Datenbanken dar. Neue Kataloge können direkt im Lakehouse erstellt werden, um Daten in Amazon S3 oder Amazon Redshift Managed Storage (RMS) zu speichern. Auf Daten in SageMaker Lakehouse kann über eine mit Apache Iceberg kompatible Engine wie Apache Spark, Athena oder Amazon EMR zugegriffen werden. Darüber hinaus können diese Kataloge als Datenbanken in Amazon Redshift Data Warehouses erkannt werden, sodass Sie Ihre SQL-Tools verwenden und Ihre Lakehouse-Daten analysieren können.
Funktionen
Wie bietet SageMaker Lakehouse eine einheitliche Zugriffskontrolle für Daten?
SageMaker Lakehouse vereinheitlicht die Zugriffskontrolle auf Ihre Daten mit zwei Funktionen: 1) Mit SageMaker Lakehouse können Sie differenzierte Berechtigungen definieren. Diese Berechtigungen werden von Abfrage-Engines wie Amazon EMR, Athena und Amazon Redshift durchgesetzt. 2) SageMaker Lakehouse ermöglicht Ihnen den direkten Zugriff auf Ihre Daten, sodass Sie keine Datenkopien erstellen müssen. Sie können eine einzige Kopie der Daten und einen einzigen Satz von Zugriffskontrollrichtlinien verwalten, um von einer einheitlichen, differenzierten Zugriffskontrolle in SageMaker Lakehouse zu profitieren.
Wie funktioniert SageMaker Lakehouse mit bestehenden AWS-Services wie AWS-Glue-Datenkatalog, AWS Lake Formation und Amazon Redshift?
SageMaker Lakehouse basiert auf mehreren technischen Katalogen im AWS-Glue-Datenkatalog, Lake Formation und Amazon Redshift, um einen einheitlichen Datenzugriff über Data Lakes und Data Warehouses hinweg zu ermöglichen. SageMaker Lakehouse verwendet den AWS-Glue-Datenkatalog und Lake Formation, um Tabellendefinitionen und Berechtigungen zu speichern. Differenzierte Berechtigungen für Lake Formation sind für Tabellen verfügbar, die in SageMaker Lakehouse definiert sind. Sie können Ihre Tabellendefinitionen im AWS-Glue-Datenkatalog verwalten und differenzierte Berechtigungen wie Berechtigungen auf Tabellen-, Spalten- und Zellenebene definieren, um Ihre Daten zu schützen. Darüber hinaus können Sie mithilfe der kontoübergreifenden Datenaustauschfunktionen die gemeinsame Nutzung von Daten ohne Kopien aktivieren, um Daten für eine sichere Zusammenarbeit verfügbar zu machen.
Benötige ich eine Clientsoftware, um auf die von SageMaker Lakehouse bereitgestellten Apache-Iceberg-APIs zuzugreifen?
Ja. Für den Zugriff auf SageMaker Lakehouse ist die Open-Source-Clientbibliothek von Apache Iceberg erforderlich. Kunden, die Drittanbieter- oder selbstverwaltete Open-Source-Engines wie Apache Spark oder Trino verwenden, müssen die Apache-Iceberg-Clientbibliothek in ihre Abfrage-Engines aufnehmen, um auf SageMaker Lakehouse zugreifen zu können.
Kann ich SageMaker Lakehouse verwenden, um mithilfe von Apache Spark Daten in mein Amazon Redshift Data Warehouse zu schreiben?
Ja, mithilfe einer Apache-Iceberg-Client-Bibliothek können Sie Daten von Apache-Spark-Engines auf AWS-Services wie Amazon EMR, AWS Glue, Athena und Amazon SageMaker oder dem Drittanbieter Apache Spark lesen und in Ihr vorhandenes Amazon Redshift schreiben. Sie müssen jedoch über die entsprechenden Schreibberechtigungen für die Tabellen verfügen, um Daten in sie zu schreiben.
Kann ich meine Data-Lake- und Amazon-Redshift-Data-Warehouse-Tabellen auf SageMaker Lakehouse verbinden?
Ja, Sie können Ihre Data-Lake-Tabellen auf Amazon S3 mit den Tabellen in Ihrem Amazon Redshift Data Warehouse über mehrere Datenbanken hinweg verbinden, indem Sie eine Engine Ihrer Wahl wie Apache Spark verwenden.
Migration
Muss ich meine Daten migrieren, um SageMaker Lakehouse verwenden zu können?
Nein, Sie müssen Ihre Daten nicht migrieren, um SageMaker Lakehouse verwenden zu können. Mit SageMaker Lakehouse können Sie mit dem offenen Standard von Apache Iceberg direkt auf Ihre Daten zugreifen und diese abfragen. Sie können direkt auf Ihre Daten in Amazon S3 Data Lakes und Amazon Redshift Data Warehouses zugreifen. Daten aus Betriebsdatenbanken und Anwendungen können über verfügbare Null-ETL-Integrationen nahezu in Echtzeit in das Lakehouse aufgenommen werden, ohne dass die Infrastruktur oder komplexe Pipelines gewartet werden müssen. Sie können auch Funktionen für Verbundabfragen verwenden, um auf Ihre lokalen Daten zuzugreifen. Darüber hinaus können Sie Hunderte von AWS-Glue-Konnektoren verwenden, um sie in Ihre vorhandenen Datenquellen zu integrieren.
Ich verwende derzeit Amazon Redshift. Wie kann ich mein Amazon Redshift Data Warehouse zu SageMaker Lakehouse bringen?
Wenn Sie bereits Amazon-Redshift-Benutzer sind, können Sie Ihr Amazon Redshift Data Warehouse in wenigen einfachen Schritten und ohne Migration Ihrer Daten bei SageMaker Lakehouse registrieren. Folgen Sie den Schritten im Entwicklerhandbuch.
Ich verwende derzeit einen Amazon S3 Data Lake. Wie kann ich meinen Data Lake zu SageMaker Lakehouse bringen?
Wenn Sie Ihren Amazon S3 Data Lake mithilfe des AWS-Glue-Datenkatalogs konfiguriert haben, müssen Sie keine Änderungen vornehmen.
Null-ETL-Integrationen
Welche verschiedenen Null-ETL-Integrationen sind mit SageMaker Lakehouse verfügbar?
SageMaker Lakehouse unterstützt Null-ETL-Integrationen mit Amazon DynamoDB, Amazon Aurora und Amazon RDS für MySQL sowie acht Anwendungen: Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, Facebook Ads, Instagram Ads, Zendesk und SAP.
Wie greife ich auf Null-ETL-Integrationen mit SageMaker Lakehouse zu?
Sie können Ihre Null-ETL-Integrationen über die AWS-Glue-Konsole in der Amazon-SageMaker-Datenverarbeitung mit AWS Glue konfigurieren und überwachen. Sobald die Daten aufgenommen wurden, können Sie auf die Daten von Abfrage-Engines, die mit Apache Iceberg kompatibel sind, zugreifen und diese abfragen. Weitere Informationen finden Sie bei den Null-ETL-Integrationen.
Was ist das Preismodell für Null-ETL?
Weitere Informationen zur Preisgestaltung finden Sie auf den Preisseiten von SageMaker Lakehouse und AWS Glue.
Preise
Wie hoch sind die Preise für SageMaker Lakehouse?
Weitere Informationen finden Sie unter SageMaker-Lakehouse-Preise.
Verfügbarkeit
In welchen AWS-Regionen ist SageMaker Lakehouse verfügbar?
SageMaker Lakehouse ist in den Regionen USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), Asien-Pazifik (Hongkong), Asien-Pazifik (Seoul), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Tokio), Kanada (Zentral), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Stockholm) und Südamerika (Sao Paulo) verfügbar.
Bietet SageMaker Lakehouse ein SLA an?
Ja. SageMaker Lakehouse speichert Metadaten im AWS-Glue-Datenkatalog und bietet dasselbe SLA wie Amazon Glue an.
Erste Schritte
Wie fange ich an, SageMaker Lakehouse zu verwenden?
Zu Beginn können Sie sich mit Ihren Unternehmensanmeldeinformationen (z. B. Okta) in SageMaker Unified Studio bei Ihrer SageMaker-Domain anmelden. In wenigen kurzen Schritten in SageMaker Unified Studio können Administratoren Projekte erstellen, indem sie ein bestimmtes Projektprofil auswählen. Sie können dann ein Projekt auswählen, um mit dem SageMaker Lakehouse zu arbeiten. Sobald ein Projekt ausgewählt ist, erhalten Sie eine einheitliche Ansicht von Daten, Abfrage-Engines und Entwicklertools an einem Ort. Benutzer wie Dateningenieure und Datenanalysten können die Daten dann mit einem Tool ihrer Wahl abfragen. Wenn ein Dateningenieur beispielsweise ein Notebook verwendet und den Spark-Befehl ausgibt, um Tabellen aufzuführen, werden alle Data-Warehouse- und Data-Lake-Tabellen ermittelt, auf die er Zugriff hat. Anschließend können sie Befehle zum Lesen und Schreiben von Daten in die Tabellen ausführen, die physisch entweder in Amazon S3 Data Lakes oder Amazon Redshift Data Warehouses gespeichert sind. Ebenso erhält ein Datenanalyst, wenn er Amazon Redshift-SQL-Befehle in einem SQL-Editor ausführt, dieselbe einheitliche Ansicht der Daten und kann Daten in diese Tabellen lesen und schreiben. Mit Ihren bevorzugten Tools (SQL-Editor oder Notebook) können Sie neue Tabellen in Amazon S3 oder Amazon Redshift erstellen. Fragen Sie materialisierte Ansichten von Amazon Redshift ab, um die Leistung Ihrer Data-Lake-Tabellen zu beschleunigen. Neben dem SageMaker Unified Studio ist SageMaker Lakehouse auch über die AWS-Managementkonsole, die AWS-Glue-APIs, die AWS Command Line Interface (AWS CLI) oder die AWS SDKs zugänglich. Weitere Informationen finden Sie auf der Dokumentationsseite.