数据仓库、数据集市和数据湖之间的相似之处
如今,组织可以访问的数据量越来越多。但是,他们必须对原始数据进行分类、处理、筛选和分析,才能获得实际优势。同时,他们还必须执行严格的数据保护和安全实践,以确保合规性。例如,组织必须执行以下实践:
- 从应用程序、供应商、物联网(IoT)传感器和其他第三方等不同来源收集数据。
- 将数据处理为一致、可信且有用的格式。例如,团队可以处理数据以确保系统中所有日期都采用通用格式,或汇总每日报告。
- 通过为机器学习软件格式化 XML 文件或为人类生成报告来准备数据。
组织使用各种工具和解决方案来实现其数据分析结果。数据仓库、数据集市和数据湖这三种解决方案均有助于存储数据。
基于云的数据仓库、数据湖和数据集市的优势
这三种存储解决方案均可帮助您提高数据的可用性、可靠性和安全性。下面几个例子可以帮您了解如何使用这些解决方案:
- 安全地存储业务数据以供分析
- 根据需要无限量存储数据
- 通过来自多个业务流程的数据集成打破孤岛
- 分析历史数据或遗留数据库
- 进行实时和批量数据分析
此外,这三种解决方案都具有经济高效的特点,因为您只需为使用的存储空间付费。您可以存储所有数据,分析数据模式和趋势,并利用这些信息来优化业务运营。
主要区别:数据仓库与数据集市
数据仓库是一个关系数据库,用于存储来自事务系统和业务应用程序的数据。数据仓库会结构化处理所有数据或将其预先建模到表中。优化数据结构和架构旨在加快 SQL 查询。数据集市是同一技术的不同营销术语。它也是一种关系数据库,但实际使用与数据仓库有很大区别。下面列出两者的主要不同之处。
数据来源
数据仓库有多个来源,包括内部来源和外部来源。您可以从任何地方提取数据,将其转换为结构化格式,然后加载到仓库中。数据集市的数据来源较少,而且规模往往较小。
专注
数据仓库通常存储来自多个业务部门的数据。他们集中整合整个组织的数据以进行综合分析。数据集市专注于单个主题,本质上更加分散。他们通常筛选和汇总来自另一个现有数据仓库的信息。
利用率
多个用户和项目需要存储在数据仓库中的数据。因此,仓库通常具有更长的使用寿命并且本质上更复杂。另一方面,数据集市可能以项目为中心,用途有限。团队更喜欢从企业数据仓库创建数据集市,并在使用案例完成后终止。
设计方法
数据科学家使用自上而下的方式设计数据仓库。他们首先规划整体架构并解决出现的挑战。但是,通过数据集市,数据工程师就能知道值、数据类型和外部数据来源等详情。他们可以从一开始就计划实施,并采用自下而上的方式设计数据集市。
特性 | 数据仓库 | 数据集市 |
---|---|---|
范围 | 集中的多个整合主题领域 |
分散的特定主题领域 |
用户 | 组织级 |
某个社区或部门 |
数据源 |
多个来源 |
单个或多个来源,或数据仓库中已经收集的部分数据 |
大小 |
较大,可达数百 GB 到数 PB |
较小,一般不超过数十 GB |
设计 | 自上而下 |
自下而上 |
数据详细信息 | 完整且详细的数据 |
可能包含汇总数据 |
详细了解数据仓库 |
详细了解数据集市 |
主要区别:数据仓库与数据湖
数据仓库和数据湖是两种相关但根本不同的技术。数据仓库存储结构化数据,而数据湖是一个集中式存储库,允许您以任意规模存储任意数据。与数据仓库相比,数据湖提供更多存储选项、更复杂并且具有不同的使用案例。下面列出两者的主要不同之处。
数据来源
数据湖和数据仓库都可以有无限的数据来源。但是,数据仓库要求您设计架构,然后才能保存数据。您只能将结构化数据加载到系统中。相反,数据湖没有这样的要求。数据湖可以存储非结构化和半结构化数据,例如 Web 服务器日志、点击流、社交媒体和传感器数据。
预处理
数据仓库通常需要在存储前进行预处理。提取、转换、加载(ETL)工具用于预先清理、筛选和构建数据集。相比之下,数据湖可以保存任何数据。您可以灵活选择是否要执行预处理。组织通常会使用提取、加载、转换(ELT)工具。他们首先将数据加载到湖中,仅在需要时才进行转换。
数据质量
数据仓库往往更可靠,因为您可以执行预处理。可提前完成去重、分类、汇总、验证等多项功能,以确保数据的准确性。如果没有提前进行检查,重复或错误数据以及未经验证的数据可能最终会进入数据湖。
性能
数据仓库旨在实现最快的查询性能。业务用户更喜欢数据仓库,因为可以更有效地生成报告。相比之下,数据湖架构将存储量和成本置于性能之上。您可以以更低的成本获得更高的存储量,并且仍然可以以合理的速度访问数据。
特性 | 数据仓库 | 数据湖 |
---|---|---|
数据 | 来自事务系统、运营数据库和业务线应用程序的关系数据 |
所有数据,包括结构化、半结构化和非结构化 |
Schema | 通常在数据仓库实施之前设计,但是也可以在分析时编写 (写入型 Schema 或读取型 Schema) |
写入在分析时(读取型 Schema) |
性价比 |
使用本地存储获得最快的查询结果 |
更快地获得查询结果,存储成本较低,计算和存储分开 |
数据质量 |
可作为重要事实依据的高度监管数据 |
任何可以或无法进行监管的数据(例如原始数据) |
用户 | 业务分析师、数据科学家和数据开发人员 |
业务分析师(使用监管数据)、数据科学家、数据开发人员、数据工程师和数据架构师 |
分析 | 批处理报告、BI 和可视化 |
机器学习、探索性分析、数据发现、流处理、运营分析、大数据和特征分析 |
详细了解数据仓库 | 详细了解数据湖 |
何时使用数据湖、数据仓库与数据集市?
大多数大型组织会在存储基础设施中结合使用数据湖、数据仓库和数据集市。通常,组织会将所有数据提取到数据湖中,然后加载到不同的仓库和集市中以用于各种使用案例。技术决策取决于以下各种因素。
灵活性
一般来说,数据湖能够以更低的成本提供更高的灵活性。不同的团队可以使用自己选择的分析工具和框架访问相同数据。您可以节省时间,因为无需定义数据结构、架构和转换。
数据类型
如果您想存储客户和业务流程数据等关系数据,选择数据仓库更合适。如果您有大量的关系数据,团队可能会考虑创建一些数据集市以满足特定的业务需求。例如,会计部门可能会创建一个数据集市来维护资产负债表并准备客户账户报表,而营销部门可能会创建另一个数据集市来优化广告活动。
成本和工作量
数据仓库可以有效处理数百 PB 的数据。数据湖可以以相对较低的成本处理更多的数据量,尤其是对于大量图像和视频。但是,并非每个组织都需要这种级别的工作量。
AWS 如何帮助您满足数据存储需求?
AWS 提供最广泛的分析服务选择,可满足您的所有数据分析需求。我们帮助各种规模的行业和组织利用数据重塑业务。下面几个例子可以帮您了解如何使用 AWS:
- 使用 Amazon Redshift 满足您的数据仓库和数据集市需求。对跨运营数据库、数据湖、数据仓库和数千个第三方数据集的复杂和规模化数据进行实时分析和预测性分析后,您可获得综合简介。您可以轻松地自动创建、训练和部署机器学习模型。
- 使用 AWS Lake Formation 在几天内构建、管理和保护数据湖。从所有数据来源快速导入数据,然后在集中的数据目录中描述和管理这些数据。
- 使用 Amazon S3 为大数据分析、人工智能、机器学习和高性能计算应用程序构建自定义数据湖。
立即创建免费账户,开始在 AWS 上使用数据存储。