FAQ sur Amazon SageMaker Lakehouse

Questions d’ordre général

Amazon SageMaker Lakehouse unifie toutes vos données dans les lacs de données Amazon Simple Storage Service (Amazon S3) et les entrepôts de données Amazon Redshift, vous aidant ainsi à créer de puissantes applications d’analytique et d’IA/ML sur une seule copie des données. SageMaker Lakehouse vous offre la flexibilité nécessaire pour accéder à vos données et les interroger à l’aide de tous les outils et moteurs compatibles avec Apache Iceberg. Sécurisez vos données dans le lakehouse en définissant des autorisations, qui sont appliquées à tous les outils et moteurs d’analytique et de machine learning (ML). Transférez des données provenant de bases de données opérationnelles et d’applications dans votre lakehouse en temps quasi réel grâce à des intégrations zéro ETL. En outre, vous pouvez accéder aux données et les interroger sur place grâce à des fonctionnalités de requêtes fédérées via des sources de données tierces.

SageMaker Lakehouse :

a) Réduit les silos de données en fournissant un accès unifié à vos données via les lacs de données Amazon S3 et les entrepôts de données Amazon Redshift. Les données provenant de bases de données opérationnelles et d’applications peuvent être ingérées dans votre lakehouse en temps quasi réel à des fins d’analytique et de machine learning avec des pipelines d’extraction, transformation et chargement (ETL) sans code ou à faible code. Vous pouvez également utiliser des centaines de connecteurs et 13 fonctionnalités de requêtes fédérées pour accéder aux données d’AWS et à des sources extérieures à AWS.

b) Vous donne la flexibilité d’accéder à toutes vos données et de les interroger sur place, à partir d’une large gamme de services AWS et d’outils et moteurs open source et tiers, compatibles avec Apache Iceberg. Vous pouvez utiliser les outils et moteurs d’analytique de votre choix, tels que SQL, Apache Spark, l’informatique décisionnelle (BI) et les outils d’IA/ML, et collaborer avec une seule copie des données stockées sur Amazon S3 ou Amazon Redshift.

c) Améliore la sécurité de l’entreprise grâce à un mécanisme de contrôle d’accès intégré qui sécurise vos données lorsque vous y accédez depuis des services AWS intégrés, tels qu’Amazon Redshift, Amazon Athena ou Amazon EMR, ou des moteurs tiers compatibles avec Apache Iceberg.

SageMaker Lakehouse est directement accessible depuis Amazon SageMaker Unified Studio (version préliminaire). Les données provenant de différentes sources sont organisées dans des conteneurs logiques appelés catalogues dans SageMaker Lakehouse. Chaque catalogue représente des données provenant de sources de données existantes telles que les entrepôts de données Amazon Redshift, les lacs de données ou les bases de données. De nouveaux catalogues peuvent être créés directement dans le lakehouse pour stocker des données dans Amazon S3 ou Amazon Redshift Managed Storage (RMS). Les données de SageMaker Lakehouse sont accessibles à partir d’un moteur compatible avec Apache Iceberg, tel qu’Apache Spark, Athena ou Amazon EMR. En outre, ces catalogues peuvent être découverts sous forme de bases de données dans les entrepôts de données Amazon Redshift, ce qui vous permet d’utiliser vos outils SQL et d’analyser les données de votre lakehouse.

Fonctionnalités

SageMaker Lakehouse unifie le contrôle d’accès à vos données grâce à deux fonctionnalités : 1) SageMaker Lakehouse vous permet de définir des autorisations précises. Ces autorisations sont appliquées par des moteurs de requête tels qu’Amazon EMR, Athena et Amazon Redshift. 2) SageMaker Lakehouse vous permet d’accéder à vos données sur place, sans avoir à les copier. Vous pouvez conserver une copie unique des données et un ensemble unique de politiques de contrôle d’accès pour bénéficier d’un contrôle d’accès unifié et précis dans SageMaker Lakehouse.

SageMaker Lakehouse s’appuie sur plusieurs catalogues techniques issus du catalogue de données AWS Glue, Lake Formation et Amazon Redshift pour fournir un accès unifié aux données entre les lacs de données et les entrepôts de données. SageMaker Lakehouse utilise le catalogue de données AWS Glue et Lake Formation pour stocker les définitions des tables et les autorisations. Des autorisations détaillées de Lake Formation sont disponibles pour les tables définies dans SageMaker Lakehouse. Vous pouvez gérer les définitions de vos tables dans le catalogue de données AWS Glue et définir des autorisations précises, telles que des autorisations au niveau des tables, des colonnes et des cellules, afin de sécuriser vos données. En outre, grâce aux fonctionnalités de partage de données entre comptes, vous pouvez activer le partage de données zéro copie afin de rendre les données disponibles pour une collaboration sécurisée.

Oui. La bibliothèque cliente Apache Iceberg open source est requise pour accéder à SageMaker Lakehouse. Les clients utilisant des moteurs open source tiers ou autogérés tels qu’Apache Spark ou Trino doivent inclure la bibliothèque cliente Apache Iceberg dans leurs moteurs de requêtes pour accéder à SageMaker Lakehouse.

Oui, à l’aide d’une bibliothèque cliente Apache Iceberg, vous pouvez lire et écrire des données sur votre Amazon Redshift existant à partir de moteurs Apache Spark sur des services AWS tels qu’Amazon EMR, AWS Glue, Athena et Amazon SageMaker ou le service Apache Spark tiers. Cependant, vous devez disposer des autorisations d’écriture appropriées sur les tables pour y écrire des données.

Oui, vous pouvez joindre vos tables de lac de données sur Amazon S3 aux tables de votre entrepôt de données Amazon Redshift sur plusieurs bases de données à l’aide du moteur de votre choix, tel qu’Apache Spark.

Migration

Non, vous n’êtes pas obligé de migrer vos données pour utiliser SageMaker Lakehouse. SageMaker Lakehouse vous permet d’accéder à vos données et de les interroger sur place grâce à la norme ouverte Apache Iceberg. Vous pouvez accéder directement à vos données dans les lacs de données Amazon S3 et les entrepôts de données Amazon Redshift. Les données des bases de données opérationnelles et des applications peuvent être ingérées vers le lakehouse en temps quasi réel grâce aux intégrations zéro ETL disponibles, sans maintenir d’infrastructure ni de pipelines complexes. Vous pouvez également utiliser les fonctionnalités de requêtes fédérées pour accéder à vos données sur place. En outre, vous pouvez utiliser des centaines de connecteurs AWS Glue pour intégrer vos sources de données existantes.

Si vous utilisez déjà Amazon Redshift, vous pouvez enregistrer votre entrepôt de données Amazon Redshift auprès de SageMaker Lakehouse en quelques étapes simples et sans migrer vos données. Suivez les étapes décrites dans le guide du développeur.

Si vous avez configuré votre lac de données Amazon S3 à l’aide du catalogue de données AWS Glue, aucune modification n’est nécessaire.

Intégrations zéro ETL

SageMaker Lakehouse prend en charge les intégrations zéro ETL avec Amazon DynamoDB, Amazon Aurora et Amazon RDS for MySQL, ainsi que huit applications : Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, Facebook Ads, Instagram Ads, Zendesk et SAP.

Vous pouvez configurer et surveiller vos intégrations zéro ETL via la console AWS Glue dans Amazon SageMaker Data Processing avec AWS Glue. Une fois les données ingérées, vous pouvez accéder aux données et les interroger à partir de moteurs de requêtes compatibles avec Apache Iceberg. Pour plus de détails, consultez Intégrations zéro ETL.

Pour en savoir plus sur la tarification, consultez les pages de tarification de SageMaker Lakehouse et AWS Glue.

Tarification

Consultez la page relative à la tarification de SageMaker Lakehouse pour plus de détails.

Disponibilité

SageMaker Lakehouse est disponible dans les régions suivantes : USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), Asie-Pacifique (Hong Kong), Asie-Pacifique (Séoul), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Canada (Centre), Europe (Francfort), Europe (Irlande), Europe (Londres), Europe (Stockholm) et Amérique du Sud (São Paulo).

Oui. SageMaker Lakehouse stocke les métadonnées dans le catalogue de données AWS Glue et propose le même SLA qu’Amazon Glue.

Mise en route

Pour commencer, vous pouvez vous connecter à votre domaine SageMaker à l’aide de vos informations d’identification professionnelles (par exemple, Okta) sur SageMaker Unified Studio. Dans SageMaker Unified Studio, les administrateurs peuvent créer des projets en quelques étapes en choisissant un profil de projet spécifique. Vous pouvez ensuite choisir un projet pour travailler avec le SageMaker Lakehouse. Une fois qu’un projet est sélectionné, vous bénéficiez d’une vue unifiée des données, de moteurs de requêtes et d’outils de développement en un seul endroit. Les utilisateurs tels que les ingénieurs de données et les analystes de données peuvent ensuite interroger les données à l’aide de l’outil de leur choix. Par exemple, lorsqu’un ingénieur de données utilise un bloc-notes et lance la commande Spark pour répertorier les tables, il découvre toutes les tables d’entrepôts de données et de lacs de données auxquelles il a accès. Il peut ensuite exécuter des commandes pour lire et écrire des données dans les tables qui sont stockées physiquement dans des lacs de données Amazon S3 ou des entrepôts de données Amazon Redshift. De même, lorsqu’un analyste de données exécute des commandes Amazon Redshift SQL à partir d’un éditeur SQL, il obtient la même vue unifiée des données et peut lire et écrire des données dans ces tables. À partir de vos outils préférés (éditeur SQL ou bloc-notes), vous pouvez créer de nouvelles tables dans Amazon S3 ou Amazon Redshift. Interrogez les vues matérialisées d’Amazon Redshift pour améliorer les performances de vos tables de lac de données. Outre SageMaker Unified Studio, SageMaker Lakehouse est également accessible depuis la console de gestion AWS, les API AWS Glue, l’interface de la ligne de commande AWS (AWS CLI) ou les kits de développement logiciel (SDK) AWS. Pour plus de détails, consultez la page Documentation.