什么是数据准备?

数据准备是准备原始数据以使其适合进一步处理和分析的过程。该过程的主要步骤包括收集、清洗原始数据并将其标注为适合机器学习(ML)算法的形式,然后探索和可视化数据。数据准备过程可能会占用 ML 项目所花费时间的 80%。使用专门的数据准备工具有助于优化此过程。

ML 和数据准备有什么联系?

数据以前所未有的方式在组织中流动,从智能手机到智慧城市,数据以结构化数据和非结构化数据(图片、文档、地理空间数据等)的形式呈现。如今,非结构化数据占数据总量的 80%。ML 不仅可以分析结构化数据,还可以发现非结构化数据中的模式。ML 是计算机学习解释数据并基于该数据做出决策和给出建议的过程。在学习过程中,以及后来用于预测时,不正确、有偏见或不完整的数据会导致不准确的预测。

为什么数据准备对 ML 很重要?

数据为 ML 提供动力。利用这些数据重塑您的业务虽然具有挑战性,但对于现在和未来都有重要意义。这是最见多识广者的生存之道,那些能够利用数据做出更好、更明智决策的人能够更快地应对意外并发现新机遇。这个重要而繁琐的过程是建立准确的 ML 模型和分析的先决条件,也是 ML 项目中最耗时的部分。为了最大限度地减少这种时间投入,数据科学家可以使用各种工具,以各种方式帮助自动进行数据准备。

您如何准备数据?

数据准备遵循一系列步骤,从收集正确的数据开始,接着是清洗、标注,然后是验证和可视化。

收集数据

收集数据是收集 ML 所需的所有数据的过程。数据收集可能很繁琐,因为数据驻留在许多数据来源中,包括笔记本电脑、数据仓库、云中、应用程序内部和设备上。寻找连接到不同数据来源的方法可能很有挑战性。数据量也呈指数级增长,因此需要搜索大量数据。此外,根据数据来源的不同,数据的格式和类型也有很大不同。例如,视频数据和表格数据不容易一起使用。

清洗数据

作为确保数据质量的一个步骤,清洗数据可以纠正错误并填充缺失的数据。有了干净的数据后,您需要将它转换成一致、可读的格式。这个过程可能包括更改日期和货币等字段格式、修改命名约定以及更正值和度量单位,使它们保持一致。

标注数据

数据标注过程用于识别原始数据(图片、文本文件、视频等)并添加一个或多个有意义的信息标签以提供上下文,从而使 ML 模型能够从它进行学习。例如,标签可指示照片是否包含鸟或汽车、录音中有哪些词发音,或者 X 影像是否发现了异常。各种使用案例都需要用到数据标注,包括计算机视觉、自然语言处理和语音识别。

验证和可视化

清洗和标注数据之后,ML 团队通常需要探索数据以确保数据正确并为 ML 做好准备。直方图、散点图、箱线图、折线图和条形图都是确认数据是否正确的有用工具。此外,可视化还有助于数据科学团队完成探索性数据分析。这个过程使用可视化来发现模式、识别异常、测试假说或检查假设。探索性数据分析不需要正式建模;相反,数据科学团队可以使用可视化来解读数据。 

AWS 如何提供帮助?

Amazon SageMaker 数据准备工具帮助组织从结构化和非结构化数据中获得洞察。例如,您可以使用 Amazon SageMaker Data Wrangler,通过在无代码的可视化界面中内置数据可视化来简化结构化数据准备。SageMaker Data Wrangler 包含 300 多种内置数据转换,因此您无需编写任何代码即可快速标准化、转换和组合各种功能。如果您愿意,还可以在 Python 或 Apache Spark 中引入您的自定义转换。对于非结构化数据,您需要大量高质量的标注数据集。使用 Amazon SageMaker Ground Truth Plus,您可以构建高质量的 ML 训练数据集,同时数据标注的成本最多可降低 40%,无需构建标注应用程序或自行管理标注人力资源。

对于喜欢在笔记本电脑中准备数据的分析师或企业用户,您只需点击几次,就可以从 Amazon SageMaker Studio 笔记本电脑通过视觉方式浏览、发现和连接在 Amazon EMR 上运行的 Spark 数据处理环境。连接之后,您可以交互地查询、浏览和显示数据,并使用您选择的语言(SQL、Python 或 Scala)运行 Spark 任务以构建完整数据准备和 ML 工作流。

AWS 的后续步骤