Amazon DataZone:自动发现数据

概览

省去在数据目录中手动输入数据属性的时间,避免引入可能的错误。生成业务背景并推荐数据集分析,从而提高数据发现结果。了解数据来源,以及哪些来源会受到变化的影响。另外,在业务数据目录中增加更丰富的数据也将改善搜索体验。将搜索和使用数据的时间从数周缩短到几天。

Page Topics

主要功能

主要功能

Amazon DataZone 业务数据目录将充当联合组织注册中心,您可以在其中将技术元数据发布为资产,也可以添加丰富的业务环境。您可以开放具有业务环境的数据的可见性,让所有用户都能快速而轻松地查找、理解和信任数据。

自动将业务描述和名称添加到数据中,这有助于您轻松理解环境,并免于应对晦涩的技术名称。该自动化功能由大型语言模型(LLM)驱动,可提高准确性和一致性。 

分面搜索基于业务数据目录运作,可帮助数据消费者和生产者使用熟悉的结构信息(例如表名、列名,以及业务术语)查找数据资产。

为每个数据集生成一份列出最有价值的列和可能的分析用途的列表。 

借助 Amazon DataZone 中的数据质量统计数据,数据使用者可以查看来自 AWS Glue 数据质量自动监测功能或第三方系统的数据质量指标。数据使用者可以信任他们用于决策的数据来源,并在搜索资产时了解数据质量背景。生产者和 IT 团队还可以使用 API,将来自第三方系统的数据质量统计数据整合到控制台之外统一的门户中。数据生产者可以按计划提取 AWS Glue 数据质量自动监测功能提供的结果,确保即使数据持续变化,分数也是最新的。

了解数据的历时变化。数据沿袭可以帮助数据使用者了解数据的来源、变化方式及其使用情况,从而提高信任度和数据素养。您可以减少映射数据资产及其关系、排除故障和开发管线以及维护数据治理实践所花费的时间。

将数据资产分组为针对特定业务应用场景量身定制的已定义包(数据产品),以简化编目,并使数据使用者能够轻松发现并订阅数据。数据生产者可以整理一系列相关资产,添加业务上下文,并将其作为数据产品单元发布。这简化了数据使用者为特定应用场景查找所有必要数据资产的过程。使用者仅通过一项审批工作流就可以订阅数据产品中的所有资产。数据生产者可以管理产品的生命周期,包括编辑资产集合、取消发布、删除资产和维护订阅。Amazon DataZone 还为数据产品工作流提供 API 支持,从而促进集成和自动化。

使用案例

通过在正确的环境中找到正确的数据,缩短获取见解的时间。仅当数据一致、准确、完整、适时、可追溯且具有透明的数据质量分数时,该数据才是可信的。通过分布式的所有权,每个部门或分析团队都可以维护资产的保真度,让数据消费者知道自己正在使用正确的数据。

通过爬取您的资产并引入技术元数据(而非实际数据),以丰富业务环境,从而构建业务数据目录。使用标准化的词汇表和术语可以丰富业务环境。您还可以通过元数据表单自定义其他元数据。

需要了解数据环境才能使用正确的数据。Amazon DataZone 可帮助您为使用词汇表和元数据表单编目的所有数据构建环境。现在,数据所有者可以共享尽可能多的信息,为数据消费者设置数据环境,以便其查找、理解和订阅数据。数据质量分数可帮助数据使用者了解数据资产是否符合用途。

减少映射数据资产及其关系、排除故障和开发管线以及维护数据治理实践所花费的时间。通过图形体验,数据消费者可以了解资产的来源。通过了解哪些系统或数据消费者使用数据(影响分析),数据生产者可以评测变更对表或列的影响。数据生产者还可以通过查看数据资产沿袭的快照来发现错误来源,从而排除数据问题。Amazon DataZone 可以可视化从 OpenLineage(一种沿袭收集的开放标准)事件中捕获的数据沿袭,也可以捕获自定义的沿袭映射。这有助于数据生产者在共享数据时纳入数据沿袭,从而增加对数据来源的信任。

视频

AWS re:Invent 2023 — 如何使用 Amazon DataZone 构建业务目录(21:37)
AWS re:Invent 2023 — 了解您的数据和业务上下文(55:40)

常见问题

Amazon DataZone 业务数据目录中包含哪些信息?

在 Amazon DataZone 业务数据目录中,业务元数据提供由业务人员编写或使用的信息,并为组织数据提供环境。这可能包括以下信息:

  • 所有权:以数据为中心的现代组织采用分布式数据管理流程,其中业务线(LOB)负责管理自己的数据。目录会跟踪该所有权,以便相关方在业务任务中查找和请求访问数据。
  • 分类:数据发现是业务元数据可以支持的一项关键任务。数据发现使用集中定义的企业本体和分类法对数据来源进行分类,有助于您找到相关的数据对象。
  • 关系:您可以使用 Amazon DataZone 业务数据目录将关系信息添加为元数据。与技术数据集架构一样,业务数据目录显示目录中对象之间的关系,例如数据库、数据集及其列之间的关系。
  • 架构:AI 对于描述的建议可以使用技术和业务架构来生成推荐的描述和数据使用。
  • 来源和使用:数据沿袭和影响分析,以及来自 OpenLineage 的自定义映射都链接到业务数据目录中。

我可以使用 Amazon DataZone 编目什么?

Amazon DataZone 支持直接从 AWS Glue Data Catalog 和 Amazon Redshift 发布的数据资产。这两个源可用于对以下位置的数据进行编目:

  • Amazon Simple Storage Service(Amazon S3)数据湖
  • 多种 AWS 专用数据库,例如通过 AWS Glue 爬网程序建立的 Amazon Relational Database Service(Amazon RDS)
  • 超过 100 种 Amazon AppFlow 连接器,用于从 Snowflake、Salesforce 和 Google Analytics 等第三方应用程序导入数据