Tables Amazon S3

Optimisez les performances et les coûts des requêtes à mesure que votre lac de données évolue

Stockez des données tabulaires à grande échelle dans S3

Les tables Amazon S3 fournissent un premier magasin d’objets dans le cloud avec la prise en charge intégrée d’Apache Iceberg et rationalisent le stockage des données tabulaires à mise à échelle. L’optimisation continue des tables analyse et réécrit automatiquement les données des tables en arrière-plan, ce qui permet d’obtenir des performances de requête jusqu’à 3 fois plus rapides que celles des tables Iceberg non gérées. Ces optimisations des performances continueront de s’améliorer au fil du temps. En outre, les tables S3 incluent des optimisations spécifiques aux charges de travail Iceberg qui génèrent jusqu’à 10 fois plus de transactions par seconde que les tables Iceberg stockées dans des compartiments S3 à usage général. Pour plus de détails sur l’amélioration des performances des requêtes sur les tables S3, consultez le blog.

Grâce à la prise en charge de tables S3 pour la norme Apache Iceberg, vos données tabulaires peuvent être facilement interrogées à l’aide de moteurs de requête AWS et tiers populaires, notamment Amazon Athena, Redshift, EMR et Apache Spark. Utilisez les tables S3 pour stocker des données tabulaires telles que les transactions d’achat quotidiennes, les données des capteurs de streaming ou les impressions d’annonces sous forme de table Iceberg dans S3, et optimisez les performances et les coûts à mesure que vos données évoluent grâce à la maintenance automatique des tables. Consultez le blog pour en savoir plus.

Avantages

Simplifiez les lacs de données à n’importe quelle échelle, que vous soyez débutant ou que vous gériez des milliers de tables dans votre environnement Iceberg.

Obtenez des performances de requête jusqu’à 3 fois plus rapides grâce à l’optimisation continue des tables par rapport aux tables Iceberg non gérées, et jusqu’à 10 fois plus de transactions par seconde par rapport aux tables Iceberg stockées dans des compartiments S3 à usage général.

Effectuez des tâches de maintenance continue des tables telles que le compactage, la gestion des instantanés et la suppression des fichiers non référencés afin d’optimiser automatiquement l’efficacité des requêtes et les coûts au fil du temps.

Accédez à des fonctionnalités analytiques avancées d’Iceberg et interrogez des données à l’aide de services AWS courants tels qu’Amazon Athena, Redshift et EMR via l’intégration préliminaire des tables S3 avec le Catalogue de données AWS Glue. Les tables S3 sont compatibles avec les outils open source les plus populaires.

Créez des tables en tant que ressources AWS de premier ordre et appliquez des autorisations pour gérer facilement l’accès à ces tables.

Le principe est le suivant :

Les tables S3 fournissent un stockage S3 spécialement conçu pour stocker des données structurées au format Apache Parquet. Dans un compartiment de tables, vous pouvez créer des tables en tant que ressources de première classe directement dans S3. Ces tables peuvent être sécurisées par des autorisations au niveau de la table définie dans des politiques basées sur l’identité ou les ressources et sont accessibles par des applications ou des outils qui prennent en charge la norme Apache Iceberg. Lorsque vous créez une table dans votre compartiment de tables, les données sous-jacentes dans S3 sont stockées sous forme de données Parquet. Ensuite, S3 maintient les métadonnées nécessaires pour rendre ces données Parquet interrogeables par vos applications. Les compartiments de tables comprennent une bibliothèque client utilisée par les moteurs de requête pour naviguer et mettre à jour les métadonnées Iceberg des tables de votre compartiment de tables. Cette bibliothèque, associée aux API S3 mises à jour pour les opérations sur les tables, permet à plusieurs clients de lire et d’écrire en toute sécurité des données dans vos tables. Au fil du temps, S3 optimise automatiquement les données Parquet sous-jacentes en réécrivant ou en « compactant » vos objets. Le compactage optimise vos données sur S3 afin d’améliorer les performances des requêtes et de minimiser les coûts. Consultez le guide de l’utilisateur pour en savoir plus.

Vidéo de démonstration d’Amazon S3 Tables

Clients

  • Genesys

    Genesys est un leader mondial du cloud en matière d’orchestration d’expériences basée sur l’IA. Grâce à des fonctionnalités avancées d’IA, de numérique et de gestion de l’engagement du personnel, Genesys aide plus de 8 000 organisations dans plus de 100 pays à proposer des expériences personnalisées et empathiques à leurs clients et à leurs employés, tout en bénéficiant d’une agilité et de résultats commerciaux améliorés.

    Les Tables Amazon S3 apporteront une touche de transformation à notre architecture de données, notamment grâce à sa prise en charge gérée d’Iceberg, qui crée efficacement une couche de vue matérialisée répondant à divers besoins d’analyse de données. Cette offre peut aider Genesys à simplifier les flux de données complexes en éliminant les couches supplémentaires de gestion des tables. S3 prend en charge automatiquement les tâches de maintenance clés telles que le compactage, la gestion des instantanés et le nettoyage des fichiers non référencés. La possibilité de lire et d’écrire des tables Iceberg directement depuis S3 nous aidera à améliorer les performances et à créer de nouvelles possibilités pour intégrer les données de manière fluide dans notre écosystème analytique. Cette interopérabilité, combinée à l’amélioration des performances, place les Tables S3 au cœur de notre future stratégie visant à fournir des informations de données rapides, flexibles et fiables.

    Glenn Nethercutt, directeur de la technologie chez Genesys
  • SnapLogic

    SnapLogic est un pionnier de l’intégration pilotée par l’IA. La plateforme SnapLogic pour l’intégration générative accélère la transformation numérique au sein de l’entreprise pour concevoir, déployer et gérer des agents d’IA et une intégration qui automatisent les tâches, prennent des décisions en temps réel et s’intègrent sans effort aux flux de travail existants.

    Les tables Amazon S3, avec la prise en charge intégrée d’Apache Iceberg et l’intégration des services d’analytiques AWS, aident les entreprises à optimiser leurs coûts d’analytiques des données tout en transformant la façon dont elles utilisent les données d’entreprise pour les initiatives d’analytiques, de conformité et d’IA. En automatisant les tâches complexes de gestion des données et en fournissant des pistes d’audit complètes des modifications apportées aux données, les équipes peuvent analyser instantanément les données historiques, maintenir la conformité réglementaire et accélérer les informations commerciales tout en réduisant considérablement leurs coûts technologiques.

    Dominic Wellington, architecte d’entreprise chez SnapLogic
  • Zus Health

    Zus est une plateforme de données de santé partagée conçue pour accélérer l’interopérabilité des données de santé en fournissant des données sur les patients faciles à utiliser via une API, des composants intégrés et des intégrations directes des dossiers médicaux électroniques.

    En tant qu’entreprise du secteur de la santé traitant des quantités massives de données de patients changeant fréquemment, nous avons décidé d’investir dans Apache Iceberg parce qu’il résout de nombreux problèmes avec Apache Hive en matière de partitionnement et d’automatisation, avec l’avantage supplémentaire d’une plus grande interopérabilité. L’un de nos plus grands défis avec Iceberg a été de comprendre et de gérer l’optimisation des tables. C’est pourquoi nous sommes enthousiasmés par les Tables S3 et les capacités d’optimisation gérées. Le fait de pouvoir décharger les développeurs de la maintenance des tables nous permettra de nous concentrer davantage sur la fourniture de données de haute qualité et d’informations précieuses à nos clients.

    Sonya Huang, ingénieure logicielle consultante chez Zus Health