什么是特征工程?
模型特征是机器学习(ML)模型在训练和推断过程中用来进行预测的输入。机器学习模型的准确度取决于特征的精确集合和组成。例如,在推荐音乐播放列表的机器学习应用程序中,特征可能包括歌曲评分、播放历史以及播放时长。创建特征可能需要大量的工程工作。特征工程涉及从原始数据(例如价目表、产品说明和销售量)中提取和转换变量,以便您可以使用特征进行训练和预测。工程特征所需的步骤包括数据提取和清理,以及特征创建和存储。
特征工程的挑战有哪些?
特征工程具有挑战性,因为它结合了数据分析、业务领域知识和一些直觉。创建特征时,立即获取可用数据是很诱人的,但通常您应该通过与专家交谈、集思广益和进行第三方研究来考虑需要哪些数据。如果不做这个练习,您可能会错过重要的预测变量。
数据提取
特征创建
特征存储
AWS 如何帮助特征工程?
借助 Amazon SageMaker Data Wrangler,您可以使用单一可视化界面简化特征工程流程。使用 SageMaker Data Wrangler 的数据选择工具,您可以从各种数据来源中选择所需的原始数据,然后单击一下即可导入。SageMaker Data Wrangler 包含 300 多种内置数据转换,因此您无需编写任何代码即可快速标准化、转换和组合各种特征。当数据准备就绪后,您可以使用 Amazon SageMaker Pipelines 构建全自动的 ML 工作流程,并将其保存在 Amazon SageMaker Feature Store 中以供重复使用。SageMaker Feature Store 是一个专门构建的存储库,您可以在其中存储和访问特征,以便更轻松地在各个团队中对其进行命名、整理和重复使用。SageMaker Feature Store 为训练和实时推理期间的特征提供一个统一的存储库,而无需编写额外代码或创建手动流程即可保持特征的一致性。