什么是数据管理?
数据管理是收集、存储、保护和使用组织数据的流程。由于当下组织有一些不同的数据来源,他们必须分析和整合数据,以获得用于战略规划的商业智能。数据管理包括在法律法规范围内提高数据可用性的所有策略、工具和程序。
为什么数据管理非常重要?
现代组织将数据视为宝贵资源。通过访问大量和不同类型的数据,组织在数据存储和管理基础设施方面进行巨额投资。他们使用数据管理系统更高效地运行商业智能和数据分析操作。以下是数据管理的一些优势。
增加收入和利润
数据分析可以更深入地了解业务的各个方面。您可以利用这些见解来优化业务运营并降低成本。数据分析还可以预测决策的未来影响,从而改善决策和业务规划。因此,通过改进数据管理技术,组织可实现显著的收入增长和利润。
降低数据不一致性
数据孤岛是组织内只有一个部门或一个小组可以访问的原始数据的集合。数据孤岛会产生不一致性,从而降低数据分析结果的可靠性。数据管理解决方案集成数据并创建集中式数据视图,以提升部门之间的协作。
符合法规合规性
《通用数据保护条例 (GDPR)》和《加利福尼亚州消费者隐私法案 (CCPA)》等法律赋予消费者控制其数据的权限。如果个人认为组织存在以下情况,他们可以诉诸法律:
- 未经同意捕获数据
- 对数据位置和使用控制不当
- 尽管收到擦除请求,仍然存储数据
因此,组织需要一个公平、透明、保密的数据管理系统,同时还要维持准确性。
数据管理有哪些重点领域?
数据管理的实践包括收集和分发高质量数据以及数据治理,以控制数据访问权限。
数据质量管理
数据用户期望数据对于每个用例都足够可靠和一致。
数据质量经理负责衡量并改进组织的数据质量。数据质量经理需要审查现有数据和新数据,并验证其是否符合标准。数据质量经理还可能需要设置数据管理流程,阻止低质量数据进入系统。数据质量标准通常衡量以下方面:
- 关键信息是否丢失或数据是否完整?(例如,客户遗漏了关键联系信息)
- 数据是否符合基本数据检查规则?(例如,电话号码应为 10 位数字)
- 同一数据在系统中多久出现一次?(例如,同一客户的重复数据条目)
- 数据是否准确?(例如,客户输入了错误的电子邮件地址)
- 整个系统的数据质量是否一致?(例如,出生日期在一个数据集中为 dd/mm/yyyy 格式,但在另一个数据集中为 mm/dd/yyyy 格式)
数据分发和一致性
数据分发的端点
对于大多数组织,数据必须分发到(或靠近)需要数据的各个端点。其中包括操作系统、数据湖和数据仓库。由于网络延迟,数据分发是必要的。当操作用途需要数据时,网络延迟可能不足以及时交付数据。将数据副本存储在本地数据库中可以解决网络延迟问题。
数据分发对于数据整合也是必要的。数据仓库和数据湖需要整合来自不同来源的数据,以提供信息的整合视图。数据仓库用于分析和决策,而数据湖是一个整合的枢纽,可以从中提取各种使用案例的数据。
数据复制机制及其对一致性的影响
数据分发机制对数据一致性有潜在影响,这是数据管理中的一个重要考虑因素。
数据的同步复制可达成强大的一致性。在这种方法中,当数据值更改时,所有应用程序和用户都将看到更改后的数据值。如果尚未复制数据的新值,则在更新所有副本之前,将阻止对数据的访问。同步复制确保了一致性优先于性能和数据访问。同步复制最常用于财务数据。
数据的异步复制可产生最终的一致性。当数据更改时,最终会更新副本(通常在几秒钟内),但不会阻止对过期副本的访问。对于许多使用案例,这不是一个问题。例如,社交媒体帖子、点赞和评论不需要很强的一致性。另一个例子是,如果客户在一个应用程序中更改了电话号码,则此更改可以异步级联。
流式传输与批量更新的比较
数据流在发生数据更改时级联数据更改。如果需要访问近实时数据,这是首选方法。数据一经更改,就被提取、转换并传递到其目的地。
如果数据必须在交付前批量处理,则批量更新更为合适。汇总或执行数据的统计分析并仅提供结果就是一个很好的例子。如果在特定时间点提取所有数据,则批量更新还可以保持数据的时间点内部一致性。通过提取、转换和加载(ETL 或 ELT)过程进行的批量更新通常用于数据湖、数据仓库和分析。
大数据管理
大数据是指组织在短时间内高速收集的大量数据。社交媒体上的视频新闻订阅和来自智能传感器的数据流即是大数据的例子。运营的规模和复杂性为大数据管理带来了挑战。例如,大数据系统存储以下数据:
- 以表格格式完美表示的结构化数据
- 文档、图像和视频等非结构化数据
- 结合前两种类型的半结构化数据
大数据管理工具必须处理和准备用于分析的数据。大数据所需的工具和技术通常执行以下功能:数据集成、数据存储和数据分析。
数据架构和数据建模
数据架构
数据架构描述组织的数据资产,并提供创建和管理数据流的蓝图。数据管理计划包括最适合实施数据管理策略的技术详情,例如运营数据库、数据湖、数据仓库和服务器。
数据建模
数据建模是创建概念数据模型和逻辑数据模型的流程,这些模型将不同类型数据之间的工作流和关系可视化。数据建模通常先从概念上表示数据,然后再通过选择的技术表示数据。在数据设计阶段,数据经理会创建几种不同类型的数据模型。
数据治理
数据治理包括组织为管理数据安全性、完整性和可靠的数据实用工具而实施的策略和程序。其定义数据管理策略并确定哪些人可以访问哪些数据。数据治理策略还建立了团队以及个人访问和使用数据方式的问责制。数据治理职能通常包括:
法规合规性
数据治理策略降可以风险,避免收到监管罚款或管制。这些策略专注于员工培训,以便所有级别的员工都能遵守法律。例如,某个组织与外部开发团队协作来改进其数据系统。在将数据传递给外部团队用于测试之前,数据治理经理会验证是否已删除所有个人数据。
数据安全性与访问控制
数据治理可防止未经授权访问数据,并保护数据免受损坏。其包括保护的各个方面,如下所述:
- 防止意外移动或删除数据
- 保护网络访问,从而降低网络攻击的风险
- 验证存储数据的物理数据中心是否满足安全要求
- 即使员工通过个人设备访问数据,也能确保数据安全
- 用户身份验证、授权以及数据访问权限的设置和实施
- 确保存储的数据符合存储数据所在国家/地区的法律
数据管理面临哪些挑战?
以下是数据管理面临的常见挑战。
规模与性能
组织需要的数据管理软件应当做到:即使大规模运行也能高效运行。他们必须持续监控和重新配置数据管理基础设施,确保即使数据呈指数级增长,也能维持峰值响应时间。
不断变化的要求
合规性法规不仅非常复杂,而且随时间不断变化。同样,客户要求和企业需求也在快速变化。组织可选择的数据管理平台较多,但必须持续评估基础设施决策,以维持最高的 IT 敏捷性、法律合规性和更低的成本。
员工培训
在任何组织中启动数据管理流程都具有挑战性。海量数据可能让人无从下手,并且可能存在部门间孤岛。规划新的数据管理策略并使员工接受新的系统和流程耗时耗力。
数据管理有哪些最佳实践?
数据管理最佳实践是数据策略获得成功的基石。以下是常见的最佳实践。
团队协作
企业用户和技术团队必须协作,以确保满足组织的数据要求。所有数据处理和分析都应优先考虑商业智能要求。否则,不仅收集的数据无法使用,而且资源在计划不周的数据管理项目中白白浪费。
自动化
成功的数据管理策略会将自动化整合到大多数数据处理和准备任务中。手动执行数据转换任务不仅乏味,而且会在系统中引入错误。即使是数量有限的手动任务(例如每周运行批处理任务)也可能导致出现系统瓶颈。数据管理软件可以支持更快速、更高效的扩展。
云计算
企业需要现代化的数据管理解决方案,以为其提供广泛的功能。云解决方案可以大规模管理数据管理的各个方面,而且不会影响性能。例如,AWS 在单个账户中提供各种功能,例如数据库、数据湖、分析、数据可访问性、数据治理和安全性。