什么是数据治理?
数据治理是一种确保数据处于适当状态以支持业务计划和运营的方法。将数据治理与业务计划结合有很多好处。
- 证明为数据治理计划提供资金是合理的
- 激励商界的参与
- 提高数据治理活动的优先级
- 提高参与业务领域所需的数据集成水平
- 帮助确定正确的运营模式,尤其是所需的集中化和去中心化水平。
什么是分析治理?
分析治理既要治理用于分析应用程序的数据,也要治理分析系统的使用。您的分析治理团队可以建立治理机制,例如分析报告版本控制和文档。与往常一样,跟踪监管要求、制定公司政策,并为更广泛的组织提供防护机制。
为什么数据治理很重要?
根据 Gartner 的数据,到 2025 年,寻求扩大数字业务规模的组织中有 80% 将因不采用现代的数据和分析治理方法而失败。所以,首席数据官将数据治理视为其数据计划的重中之重也就不足为怪了。麻省理工学院 CDOIQ 在 2023 年对 350 个 CDO 和 CDO 同等职位的调查中发现,45% 的首席数据官将数据治理视为重中之重。这些数据领导者希望建立一种治理模型,使他们能够根据需要将数据提供给合适的人员和应用程序,同时通过适当的控制措施来保证数据安全可靠。
过去,人们一直通过治理来将数据锁定在孤岛中,以防止数据泄露或滥用。但是,数据孤岛的后果是,合法用户必须克服障碍才能在需要时访问数据。数据驱动的创新被无意中扼杀了。
要使治理成为创新的推动力,需要两个杠杆:访问权限和控制力。成功的关键在于在访问权限和控制力之间找到适当的平衡,而每个组织的平衡点都不一样。当您行使过多的控制力时,数据就会被锁定在孤岛中,导致用户无法在需要时访问数据。这不仅会扼杀创造力,还会导致影子 IT 系统的创建,使数据过时且不安全。另一方面,当您提供过多的访问权限时,数据最终会进入应用程序和数据存储中,从而增加数据泄露的风险。
建立正确的治理(在访问权限和控制力之间取得平衡的治理),通过促进数据的适当发现、整理、保护和共享,让人们对数据充满信任和信心。这鼓励了创新,同时保护了数据。
什么是机器学习(ML)治理?
机器学习治理将许多相同的数据治理实践应用于机器学习。数据质量和数据集成需要提供模型训练和生产部署所需的数据(特征存放区是其中的一个重要方面)。负责任的人工智能(AI)特别关注使用敏感数据来构建模型。其他 ML 治理功能包括让人们能够参与模型构建、部署和监控;记录模型训练、版本控制、支持的用例和指导道德模型的使用;以及在生产中监控模型的准确性、偏差、过拟合和欠拟合。
生成式人工智能需要额外的数据治理功能,例如数据的质量和完整性,以支持调整根基模型进行训练和推理、生成式人工智能毒性和偏差的治理,以及根基模型(FM)操作:FMOps。
您可以使用相同的数据治理程序来支持 AI/ML。数据准备对于将数据转换为可供 AI/ML 模型用于训练和生产推断的形式是必要的,但最有效的数据准备其实并不需要您动手。数据科学家花费太多时间为每个用例准备数据,您的数据治理团队可以帮助减轻这种无差别的繁重工作。此外,数据治理可以监督精心打造的、用于 AI 和 ML 应用场景的特征存放区的创建。
最后,需要适当保护敏感数据,这样您的团队才能降低使用敏感数据训练根基模型的风险。
就像常规分析一样,您必须管理自己构建或自定义的 AI/ML 模型的使用。理想情况下,这应该与分析治理密切相关,因为该职能部门将知道如何支持各个业务领域。
数据治理面临的主要挑战是什么?
数据治理最常见的战略挑战是使您的计划与业务计划保持一致,而不是直接主张数据治理的价值。例如,您可能会主张让最终用户更容易找到他们正在寻找的数据的价值,或者可能会主张解决数据质量问题的价值。但是,这些都是寻找问题的解决方案。如果您这样做,最终将与应该支持的商业计划争夺资金和赞助。相反,您应该将数据治理定位为支持业务计划。每项重大业务计划都需要数据。数据治理应确保数据处于适当的状态,以支持业务计划取得成功。不要忽视报告和审核实践,了解数据治理如何支持这些计划。
数据治理的另一个常见战略挑战是避免过于狭隘地应用数据治理。“过于狭隘”可能是指将计划与个别业务领域或应用场景保持一致,而没有跨业务领域拓宽视野。“狭隘”也可能表示仅通过一两种数据治理功能来定义数据治理。例如,拥有数据目录并不构成数据治理计划。
什么是数据治理风格?
您的数据治理计划应在集中化和去中心化(包括自助服务)之间取得平衡。在整个组织中,您将组合使用集中治理、联合治理和去中心化治理,这同样取决于业务需求。在保持跨领域一致性(如将数据连接在一起的能力)的同时,应尽可能增强领域团队的能力。
- 集中数据治理:中心组织对任务说明、政策、工具选择等负有最终责任。日常工作很多时候被推给业务部门(LOB)。
- 联合数据治理:联合数据治理使各个业务部门或业务计划能够以最符合其需求的方式运营。在联合数据治理中,仍有一个规模较小的集中式团队,他们的工作重点是解决重复出现频率最高的问题,例如企业范围内的数据质量工具。
- 自助式或去中心化数据治理:每个 LOB 都会为其特定项目提供所需的服务。每个项目都会使用其他项目中适合使用的任何工具或流程。随着数据网格(本身是去中心化的)之类的话题越来越受欢迎,自助式数据治理也越来越受欢迎。
谁负责建立数据治理?
构建以业务为中心的数据治理计划涉及多个工作职能。
- 执行发起人了解公司路线图上的许多业务计划,可以帮助确定数据治理支持的优先事项。
- 数据管理员来自企业,日常参与项目细节。可以帮助您了解可能给有针对性的业务计划带来挑战的数据问题。
- 数据所有者制定有关数据的政策,包括谁在何种情况下应该有权访问数据、如何解释和应用法规,以及关键术语定义
- 数据工程师(通常)来自 IT 部门,他们提供的工具可以帮助保护数据、管理数据质量、整合来自各种来源的数据以及查找正确的数据。
如何让您的数据治理团队变得更好?
有效的数据治理计划的关键在于将其附加到已经获得资金的业务计划。确保您的团队了解需要哪些数据域、数据来源和元素来支持这些计划。
数据治理如何运作?
数据治理需要各种能力水平的人员、流程和技术解决方案。
大规模整理数据以限制数据扩散。 大规模整理数据意味着识别和管理最有价值的数据来源,包括数据库、数据湖和数据仓库,这样您就可以限制关键数据资产的激增和转换。整理数据还意味着确保正确的数据准确、最新且不包含敏感信息,让用户对数据驱动的决策和数据馈送应用程序充满信心。
功能:数据质量管理、数据集成和主数据管理
在上下文中发现和理解您的数据,以加快制定数据驱动型决策。 在上下文中了解您的数据意味着所有用户都可以发现和理解其数据的含义,这样他们就可以放心地使用数据来推动业务价值。 通过集中式数据目录,可以轻松找到数据,可以请求访问权限,还可以使用数据来做出业务决策。
功能:数据分析、数据沿袭和数据目录
有控制力且自信地保护和安全共享您的数据。保护您的数据意味着能够在数据隐私、安全性和访问权限之间取得适当的平衡。能够使用对业务和工程用户都很直观的工具来管理跨组织界限的数据访问至关重要。
功能:数据生命周期、数据合规性和数据安全
降低业务风险并提高监管合规性。 降低风险意味着了解这些数据是如何使用的,以及由谁使用。 AWS 服务可帮助您监控和审核数据访问(包括通过 ML 模型进行的访问),以帮助确保数据安全性和监管合规性。机器学习还需要审核透明度,以确保负责任的使用和简化的报告。
功能:数据和 ML 的使用情况审核
AWS 提供了哪些适用于数据治理的产品/服务?
借助 AWS 上的端到端数据管理,组织可以控制其数据的位置、谁有权访问数据,以及在数据工作流程的每个步骤中可以用数据来做什么。使用 AWS 进行数据治理可以让合适的人员和应用程序在需要时轻松安全地查找、访问和共享正确的数据,从而帮助组织加快数据驱动型决策。您可以通过自动化数据集成和数据质量来管理数据,从而限制数据的扩散。您可以通过集中式目录来发现和理解您的数据,从而提高数据素养。您可以通过精确的权限来保护您的数据,从而放心地共享数据。您可以通过监控和审核数据访问来降低风险并提高合规性。
- Amazon DataZone — 通过内置治理功能,跨组织边界解锁数据
- AWS Glue — 发现、准备和集成所有任意规模的数据
- AWS Lake Formation — 在几天内构建、管理和保护数据湖
- Amazon QuickSight 实现超大规模的商业智能整合
- Amazon SageMaker — 通过完全托管的基础设施、工具和工作流程,为应用场景构建、训练和部署机器学习模型
- ML 治理网页
- Amazon Bedrock — 使用根基模型(FM)构建和扩展生成式人工智能应用程序的最简单方法
- Amazon Macie — 大规模发现和保护敏感数据
- Amazon Simple Storage Service(Amazon S3)访问点 — 专为从任意位置检索任意数量的数据而构建的对象存储
- AWS Data Exchange — 轻松查找、订阅和使用云中的第三方数据
- AWS Clean Rooms — 在几分钟内创建洁净室,无需共享原始数据即可与合作伙伴协作
立即创建免费账户,开始在 AWS 上使用数据治理。