面向首席数据官的 Amazon DataZone

概览

Amazon DataZone 是一项数据管理服务,可让您对数据进行分类、发现、管理、共享和分析。借助 Amazon DataZone,您可以跨账户和支持的区域共享和访问您的数据。Amazon DataZone 可简化您在 AWS 服务中的体验,包括但不限于 Amazon Redshift、Amazon Athena、AWS Glue 和 AWS Lake Formation。

使用案例

打破孤岛

业务团队需要可见性,以便在整个业务中有效地使用数据改善业务流程。由于您有数 PB 的数据分布在多个部门、服务、本地数据库和第三方来源中(例如合作伙伴解决方案和公共数据集),因此很难实现所有数据的可见性。在释放这些数据的全部价值之前,管理员和数据管理人员必须放开它们的访问权限。然而,您必须保持对数据的控制,并确保只有合适的人员才能在合适的情况下访问它们。借助 Amazon DataZone,您可以助力这些单独的团队构建自己的领域和业务数据目录。利用内置的生成式人工智能(AI)整理数据,有助于您建立丰富的业务数据目录,使数据变得更易于探索和理解。

制定数据驱动型决策

您所在公司的员工(数据消费者)希望探索和分析来自数据生产者的信息,以便他们推进决策的制定。然而,为了确保数据保持安全状态,您也必须对这种访问加以控制。数据治理政策的实施需要考虑到各种数据、部门和使用案例,而这种矛盾使数据治理变得充满挑战。借助 Amazon DataZone,数据消费者可以找到需要的信息,并向所有者申请访问权限。然后,Amazon DataZone 可以将数据无缝加载到分析服务中。这样一来,决策者就可以及时获取其所需的信息,以便根据最新数据做出决策。

提升数据发现和解释

数据使用者需要对业务环境的详细描述以及有关推荐用法的文档,以便快速轻松地识别其用例的相关数据。借助人工智能生成的元数据,他们可以找到与其用例相关的更有价值的数据集,从而减少与数据制作者来回交流的时间。丰富这些元数据后,数据使用者可以理解数据及其与用例的相关性,并避免将数据滥用于非预期目的。数据消费者需要知道他们所选的数据是可信的。他们通过评估数据质量分数和了解数据沿袭来做到这一点。

通过从业务计划逆向工作来平衡数据访问和控制

阅读此 O'Reilly 报告,了解如何部署需要现代数据治理的数据驱动型解决方案。高管将获得必要的见解和知识,以应对大规模管理数据治理的复杂性。

视频

AWS re:Invent 2023 — 现代数据治理客户座谈会(53:46)
AWS re:Invent 2023 — AWS 上的分析和生成式人工智能的最佳实践(50:13)
AWS re:Invent 2023 — 与 Fannie Mae 一起为分析和生成式人工智能制定端到端数据策略(56:21)

常见问题

Amazon DataZone 如何在业务团队和基础设施团队之间建立平衡?

Amazon DataZone 创建了一个由数据生产者(数据工程师和数据科学家)驱动的使用飞轮。数据生产者可以安全地与组织中的其他人共享数据及数据环境。然后,数据消费者(分析师)会从数据中找到业务问题的答案,并与组织中的其他人共享。该工作流程可帮助客户为数据生产和数据消费创建分布式的数据所有权和联合治理模型,在这种模型中,数据资产由数据生产者发布、拥有和管理。然后,数据消费者在与数据所有者共同完成审批工作流程后,就可以访问他们感兴趣的数据了。这有助于团队实现自助服务,消除了任何特定团队产生瓶颈的可能性。