Amazon DataZone:自动发现数据
概览
省去在数据目录中手动输入数据属性的时间,避免引入可能的错误。生成业务背景并推荐数据集分析,从而提高数据发现结果。了解数据来源,以及哪些来源会受到变化的影响。另外,在业务数据目录中增加更丰富的数据也将改善搜索体验。将搜索和使用数据的时间从数周缩短到几天。
使用案例
视频
AWS re:Invent 2023 — 如何使用 Amazon DataZone 构建业务目录(21:37)
AWS re:Invent 2023 — 了解您的数据和业务上下文(55:40)
常见问题
Amazon DataZone 业务数据目录中包含哪些信息?
在 Amazon DataZone 业务数据目录中,业务元数据提供由业务人员编写或使用的信息,并为组织数据提供环境。这可能包括以下信息:
- 所有权:以数据为中心的现代组织采用分布式数据管理流程,其中业务线(LOB)负责管理自己的数据。目录会跟踪该所有权,以便相关方在业务任务中查找和请求访问数据。
- 分类:数据发现是业务元数据可以支持的一项关键任务。数据发现使用集中定义的企业本体和分类法对数据来源进行分类,有助于您找到相关的数据对象。
- 关系:您可以使用 Amazon DataZone 业务数据目录将关系信息添加为元数据。与技术数据集架构一样,业务数据目录显示目录中对象之间的关系,例如数据库、数据集及其列之间的关系。
- 架构:AI 对于描述的建议可以使用技术和业务架构来生成推荐的描述和数据使用。
- 来源和使用:数据沿袭和影响分析,以及来自 OpenLineage 的自定义映射都链接到业务数据目录中。
我可以使用 Amazon DataZone 编目什么?
Amazon DataZone 支持直接从 AWS Glue Data Catalog 和 Amazon Redshift 发布的数据资产。这两个源可用于对以下位置的数据进行编目:
- Amazon Simple Storage Service(Amazon S3)数据湖
- 多种 AWS 专用数据库,例如通过 AWS Glue 爬网程序建立的 Amazon Relational Database Service(Amazon RDS)
- 超过 100 种 Amazon AppFlow 连接器,用于从 Snowflake、Salesforce 和 Google Analytics 等第三方应用程序导入数据