什么是数据增强?
数据增强是从现有数据中人工生成新数据的过程,主要用于训练新的机器学习 (ML) 模型。ML 模型需要需要使用大量不同的数据集进行初始训练,但由于数据孤岛、法规和其他限制,要获得足够多样化的真实世界数据集可能具有挑战性。数据增强通过对原始数据进行微小改动,人为地增加数据集。目前,生成式人工智能 (AI) 正在被用于各行各业的高质量快速数据增强。
数据增强为什么很重要?
深度学习模型依靠大量不同的数据来在各种环境中做出准确的预测。数据增强补充了数据变体的创建,可以帮助模型提高预测的准确性。增强数据对于训练至关重要。
以下是数据增强的一些好处。
增强模型性能
数据增强技术通过创建现有数据的多种变体来帮助丰富数据集。这为训练提供了更大的数据集,使模型能够遇到更多不同的特征。增强数据有助于模型更好地归纳不可见的数据,并提高其在现实环境中的整体性能。
减少数据依赖
为训练收集和准备大量数据可能既昂贵又耗时。数据增强技术提高了小型数据集的效率,极大地减少了训练环境对大型数据集的依赖。您可以使用较小的数据集,并以合成数据点来补充集合。
缓解训练数据中的过拟合
训练机器学习模型时,数据增强有助于防止过拟合。过拟合是不可取的机器学习行为,在这种行为中,模型可以准确为训练数据提供预测,但在处理新数据时会遇到困难。如果模型仅使用狭小的数据集进行训练,则可能会过拟合,并且只能给出与该特定数据类型相关的预测。相比之下,数据增强则为模型训练提供了更大、更全面的数据集。它使训练集看起来像是深度神经网络所独有的,防止它们学会只对特定特征发挥作用。
提高数据隐私性
如果您需要使用敏感数据训练深度学习模型,可以对现有数据使用增强技术来创建合成数据。这种增强数据保留了输入数据的统计属性和权重,同时保护并限制了对原始数据的访问。
数据增强有哪些使用案例?
数据增强为各行各业提供了多种应用,提高了机器学习模型在多个领域的性能。
医疗保健
数据增强是医学成像中的一项有用技术,因为它有助于改进基于图像检测、识别和诊断疾病的诊断模型。增强图像的创建为模型提供了更多训练数据,特别是对于缺乏源数据变体的罕见疾病。合成患者数据的生成和使用可推进医学研究,同时遵守所有数据隐私注意事项。
金融
增强有助于生成合成欺诈实例,从而训练模型,使模型在现实场景中能够更准确地检测欺诈。更大的训练数据池对风险评估场景有所帮助,增强深度学习模型准确评测风险和预测未来趋势的潜力。
制造业
制造业使用机器学习模型来识别产品中的视觉缺陷。通过使用增强图像补充现实数据,模型可以提高其图像识别能力并定位潜在缺陷。此策略还降低了将受损或有缺陷的项目运送到工厂和生产线的可能性。
零售
零售环境使用模型来识别产品并根据视觉因素将其分配到类别。数据增强可以生成产品图像的合成数据变体,从而创建在照明条件、图像背景和产品角度方面具有更多差异的训练集。
数据增强的工作原理是怎样的?
数据增强可转换、编辑或修改现有数据以创建变体。以下是对该过程的简要概述。
数据集探索
数据增强的第一阶段是分析现有数据集并了解其特征。输入图像的大小、数据的分布或文本结构等特征都为增强进一步提供了背景信息。
您可以根据基础数据类型和所需结果选择不同的数据增强技术。例如,增强包含许多图像的数据集会使用向图像添加噪点、缩放或裁剪图像。或者,增强文本数据集以进行自然语言处理(NLP)会使用替换同义词或释义摘录。
增强现有数据
选择最适合所需目标的数据增强技术后,您就可以开始应用不同的转换。使用您选择的增强方法转换数据集中的数据点或图像样本,从而提供一系列新的增强样本。
在增强过程中,您可以继续使用相同的标签规则以确保数据一致性,同时保障合成数据包含与源数据对应的相同标签。
通常,您可以浏览合成图像以确定转换是否成功。这一个人为主导的额外步骤有助于确保更高的数据质量。
整合数据表单
接下来,将新的增强数据与原始数据结合,为机器学习模型生成更大的训练数据集。训练模型时,您会使用这两种数据组成的复合数据集。
值得注意的是,通过合成数据增强创建的新数据点与原始输入数据具有相同的偏差。为防止偏见进入新数据中,请在开始数据增强过程之前处理源数据中的任何偏差。
有哪些数据增强技术?
数据增强技术因不同数据类型和不同业务环境而异。
计算机视觉
数据增强是计算机视觉任务中的一项核心技术。它有助于创建不同的数据表示形式并解决训练数据集中的类别失衡问题。
增强在计算机视觉中的第一次使用是通过位置增强。此策略通过裁剪、翻转或旋转输入图像来创建增强图像。裁剪可以调整图像的大小,也可以裁剪原始图像的一小部分来创建新图像。旋转、翻转和调整大小变换都会随机改变原始图像,并有可能提供新图像。
增强在计算机视觉中的另一种用法是色彩增强。此策略会调整训练图像的基本要素,例如其亮度、对比度或饱和度。这些常见的图像变换会改变色调、明暗平衡以及图像最暗和最亮区域之间的间隔,以创建增强图像。
音频数据增强
语音录音等音频文件也是使用数据增强的常见领域。音频转换通常包括向某些音频注入随机噪声或高斯噪声、快速转发部分、按固定速率更改部分速度或改变音高。
文本数据增强
文本增强是 NLP 和其他与文本相关机器学习领域的重要数据增强技术。文本数据的转换包括句子重排、更改单词位置、用同义词替换单词、插入随机单词和删除随机单词。
神经风格迁移
神经风格迁移是一种高级数据增强形式,可将图像解构为较小的部分。它使用一系列卷积层将图像风格和上下文分离,从单个图像生成多个图像。
对抗训练
像素级变化给机器学习模型带来了挑战。一些样本在图像上有一层难以察觉的噪点,用以测试模型感知下方图像的能力。此策略是一种预防性的数据增强,侧重于现实世界中潜在的未经授权访问。
生成式人工智能在数据增强中的作用是什么?
生成式人工智能对于数据增强至关重要,因为它可以促进合成数据的产生。它有助于增加数据多样性,简化真实数据的创建并保护数据隐私。
生成对抗网络
生成对抗网络(GAN)是由两个对立的中央神经网络组成的框架。生成者生成合成数据样本,然后辨别者区分真实数据和合成样本。
随着时间的推移,GAN 通过欺骗辨别者来不断提高生成者输出。可以欺骗辨别者的数据算作高质量合成数据,使用与严密模仿原始数据分布的高度可靠的样本来增强数据。
变分自动编码器
变分自动编码器(VAE)是一种神经网络,有助于增加核心数据的样本量,并减少对耗时的数据收集的需求。VAE 有两个连接网络:一个解码器和一个编码器。编码器采集样本图像并将其转换为中间表示形式。解码器根据对初始样本的理解进行表示并重新创建相似的图像。VAE 之所以有用,是因为它们可以创建与样本数据高度相似的数据,有助于在保持原始数据分布的同时增加多样性。
AWS 如何为您的数据增强需求提供支持?
Amazon Web Services(AWS)上的生成式人工智能服务是一组技术,各种规模的组织都可以使用这些技术来构建和扩展生成式人工智能应用程序,其中包含用于自定义使用案例的自定义数据。借助新功能、行业领先的基础模型(FM)选择和最具成本效益的基础设施加快创新。以下是 AWS 上生成式人工智能服务的两个示例。
Amazon Bedrock 是一项完全托管式服务,可选择来自领先 AI 公司的高性能基础模型(FM)。您无需管理基础设施便可安全地集成和部署生成式人工智能功能来增强数据。
Amazon Rekognition 是一项完全托管式 AI 服务,提供预先训练和可自定义的计算机视觉功能,可从您的图像和视频中提取信息和获得见解。开发用于分析图像的自定义模型是一项艰巨的任务,需要时间、专业知识和资源。另外,通常需要数千或数万张已人工标记的图像才能为模型提供充分的数据来精准决策。
使用 Amazon Rekognition Custom Labels,可以为模型训练进行各种数据增强,包括图像的随机裁剪、色彩抖动和随机高斯噪声。您只需将一小组贴合您具体使用情况的训练图像(通常只需几百张图像甚至更少)上传到易于使用的控制台,而无需上传数千张图像。
立即创建账户,开始在 AWS 上使用数据增强。