什么是数据网格?
数据网格是一种架构框架,可以通过分布式的分散所有权解决高级数据安全挑战。组织有来自不同业务部门的多个数据来源,必须将这些数据来源集成以进行分析。数据网格架构有效地统一了不同的数据来源,并通过集中管理的数据共享和治理准则将这些数据来源链接在一起。业务功能可以控制如何访问共享数据、谁可以访问共享数据,以及访问格式。数据网格增加了架构的复杂性,但也通过改进数据访问、安全性和可扩展性提高了效率。
数据网格可解决哪些挑战?
虽然组织可以访问不断增加的数据量,但他们必须对数据进行分类、筛选、处理和分析才能获得实际优势。组织通常利用由工程师和科学家组成的核心团队来管理数据。该团队使用集中式数据平台达成以下目的:
- 摄取其他所有业务部门(或业务领域)的数据。
- 将数据转换为一致、可信且有用的格式。例如,团队可以确保系统中所有日期都采用通用格式,或汇总每日报告。
- 为数据使用者准备数据,例如为人类生成报告或为应用程序准备 XML 文件。了解 XML »
随着数据量的增加,组织需要花费更多成本才能保持以前的敏捷性。整体式系统难以扩展的原因如下。
孤立的数据团队
核心数据团队中专业数据科学家和工程师所拥有的业务和领域知识有限。然而,他们在不清楚动机的情况下仍需为各种运营和分析需求提供数据。
对变化的响应速度慢
数据工程师通常会实施管道来摄取数据,并通过几个步骤对数据进行转换,然后将其存储在中央数据湖。任何请求的更改都需要修改整个管道。核心团队在业务领域知识有限的情况下,必须在管理相互冲突的优先级的同时进行这些更改。
准确度降低
业务部门与数据使用者及核心数据团队脱节。因此,他们缺乏提供有意义、正确和有用数据的动力。
数据网格有哪些好处?
随着时间的推移,数据平台架构可能会导致数据使用者感到沮丧、数据生产者脱节以及数据管理团队压力过大。数据网格架构试图通过赋予业务部门对其数据领域的高度自治权和所有权来解决这些挑战。数据网格架构的优势如下。
民主化数据处理
数据网格将数据控制权转移给在分散式治理框架内创建有意义的数据产品的域专家。数据使用者还请求访问数据产品,并直接向数据负责人寻求批准或更改。因此,每个人都可以更快地访问相关数据,从而提高业务敏捷性。
更高的灵活性
集中式数据基础设施更加复杂,需要协作进行维护和修改。而数据网格将中央系统的技术实现重组到业务领域。这可以移除中央数据管道并减少系统的操作瓶颈和技术压力。
成本效益
分布式数据架构减少批处理,而是促进实时数据流的采用。您更加了解资源分配和存储成本,从而改进预算并降低成本。
已改进数据发现
数据网格模型可防止核心工程团队周围形成数据孤岛。还可降低数据资产被锁定在不同业务领域系统中的风险。中央数据管理框架则管理和记录组织中的可用数据。例如,领域团队会自动在中央注册表中注册他们的数据。
已增强安全性与合规性
数据网格架构同时在域内和域间强制执行数据安全策略。他们为数据共享过程提供集中监控和审计。例如,您可以对所有域强制执行日志和跟踪数据要求。您的审计员可以观察数据访问的使用情况和频率。
数据网格有哪些使用案例?
数据网格可以支持所有类型的大数据使用案例。下面提供了一些示例。
数据分析
多个业务功能为您的数据分析工作负载预置可信的高质量数据。您的团队可以使用这些数据来创建自定义商业智能控制面板,以展示项目绩效、营销成果和运营数据。数据科学家可以加速机器学习项目,以充分发挥自动化的优势。
客户关怀
数据网格可帮助支持和营销团队全面了解客户。例如,支持团队可以拉取相关数据并减少平均处理时间,而营销团队可以确保在活动中针对正确的客户特征。
监管报告
需要满足监管目标所要求的数据量、及时性和准确性,这给监管机构和受监管公司都带来了挑战。各方都可以从数据网格技术的应用中受益。例如,组织可以将报告数据推送到由监管机构集中管理的数据网格中。
第三方数据
您可以将数据网格技术应用于需要第三方和公共数据集的使用案例。您可以将外部数据视为独立域并在网格中实施,以确保与内部数据集的一致性。
数据网格架构的原则有哪些?
要采用数据网格模式,您的组织必须实施以下四项原则。
分布式领域驱动架构
数据网格方法提出,数据管理责任是围绕业务功能或领域分配的。领域团队负责收集、转换和提供与其业务功能相关或由其创建的数据。域数据从数据来源流向中央数据平台,特定团队则以易于使用的方式托管和提供数据集。例如,零售商的某个服装领域可能包含其服装产品的相关数据,某个网站行为领域则可能包含站点访问者行为分析。
数据即产品
为了成功实施数据网格,每个领域团队都需要将产品思维应用于提供的数据集。他们必须将数据资产视为自己的产品,并将组织的其他业务和数据团队视为自己的客户。
为了获得最佳的用户体验,域数据产品应具备以下基本特质。
可发现
每个数据产品都将自己注册到一个集中式数据目录中,以便于发现。
可寻址
每个数据产品都应该具有唯一的地址,以帮助数据使用者以编程方式访问产品。地址通常遵循组织内集中决定的命名标准。
可信赖
数据产品围绕数据如何密切反映其记录事件的真实性,来定义可接受的服务水平目标。例如,订单领域可以在验证客户的地址和电话号码后发布数据。
可自我描述
所有数据产品都具有描述良好的语法和语义,遵循组织确定的标准命名规则。
自助数据基础设施
分布式数据架构要求每个域都建立自己的数据管道,以便清洗、筛选和加载自己的数据产品。数据网格引入了自助数据平台的概念,以避免重复工作。数据工程师设置技术,以便所有业务部门都可以处理和存储数据产品。因此,自助基础设施支持责任划分。数据工程团队管理技术,而业务团队管理数据。
联合数据治理
数据网格架构实施安全性时将其视为组织的共同责任。领导层决定您可以跨领域应用的全球标准和政策。同时,分散式数据架构允许对域内的标准和政策实施拥有高度自主权。
如何在您的组织中构建数据网格?
数据网格是一个新兴概念,在疫情后才受到关注。组织正在尝试运用不同的技术为特定使用案例构建数据网格。然而,在整个组织范围内采用企业数据网格的情况仍然很少见。没有明确的数据网格实施路径,但以下是一些建议。
分析现有数据
在构建数据网格之前,您必须对现有数据进行分类并确定相关业务领域。遵循一定的协调规则是域间数据有效关联的关键。例如,您需要为字段类型格式、元数据字段和数据产品地址规则定义全球标准。
实施全球数据治理政策
联合数据治理要求您的核心 IT 团队确定数据网格的报告、身份验证和合规性标准。您还可以定义数据产品所有者在托管数据集时所应用的精细访问控制。在数据生产者定义和衡量数据质量的同时,中央治理政策可引导其做出决策。
构建您的自助数据平台
您的自助数据平台应该是通用的,这样任何人都可以在平台上构建新的域数据产品。该平台还应该隐藏底层技术复杂性,并以自助方式提供基础设施组件。以下是一些要具备的功能:
- 数据加密
- 数据产品架构
- 治理和访问控制
- 数据产品发现,例如目录注册或发布
- 数据产品日志记录和监控
- 缓存以提高性能
您还可以构建自动化,例如配置和脚本,以缩短创建数据产品的准备时间。
选择合适的技术
您现有的传统存储系统,如数据仓库和数据湖,也可以为数据网格提供动力。您只需从整体式系统转换为使用多个分散式数据存储库。数据网格还支持采用云平台和以云为中心的技术。云基础设施可降低运营成本,并减少构建数据网格所需的工作量。您必须选择具有丰富数据管理服务的云提供商,以支持数据网格架构。您还需要考虑遗留系统的数据集成要求。
开始在组织范围内进行文化转型
如今,我们拥有使用多种数据产品轻松构建数据网格所需的技术和工具。借助 Amazon EMR 等工具,现在比以往任何时候都更容易实现批处理和流处理的统一。但是,将数据网格扩展为非小型项目需要进行不同于过去的集中式数据架构的根本性转变。这需要一种强调以下内容的新语言:
- 数据发现和使用与提取和加载
- 实时数据处理与后期大量批处理
- 分布式数据产品所有权与中央数据平台架构
目前,数据技术通常会推动架构决策。数据网格逆转了这一流程,将域数据产品置于中心位置,以便推动技术决策。
数据网格与数据湖之间有什么区别?
数据湖是一个可存储所有结构化和非结构化数据的存储库,无需任何预处理,而且规模不限。在集中式数据平台中,数据湖是一种核心技术,可存储所有可能来源的数据。
数据网格是一种以不同方式使用数据湖的数据管理模式。数据湖不再是整个架构的核心。相反,您可以使用数据湖来实现数据产品或将其作为自助基础设施的一部分。
数据网格与数据结构之间有什么区别?
数据编织架构是另一种现代架构,可使用机器学习和自动化实现各种云环境和数据管道的端到端集成。您可以将其视为底层基础设施的上一个技术层,该层统一集成数据并将其呈现给非技术用户。例如,决策者使用数据结构在一个地方查看所有数据,并在不同的数据集之间建立联系。
数据结构和数据网格的目标相似,即实现统一有效的数据管理。例如,假设您有一个中央数据湖并使用 AWS 服务进行数据摄取。同时,您拥有用于数据转换的遗留基础设施。您的数据结构可集成两个系统并呈现统一视图,而无需更改现有管道。
因此,数据结构帮您将技术与现有基础设施相结合。另一方面,数据网格实施需要您更改底层基础设施。您必须将数据管理的推送和摄取模型更改为跨业务领域的服务和拉取模型。
AWS 如何支持您的数据网格架构?
AWS 上的现代数据架构列出了多种服务,您可以使用这些服务在组织中实施数据网格和其他现代数据架构。您可以在不影响性能的情况下以低成本快速构建数据产品和数据网格基础设施。
以下是您可以使用的 AWS 服务示例:
- 使用 AWS Lake Formation 通过基于标签的访问控制大规模构建数据网格模式
- 使用 AWS Data Exchange 将第三方数据集成到数据网格中
- 使用 AWS Glue 共享、托管和编目数据产品
立即创建免费账户,开始在 AWS 上使用数据网格。