借助深度学习,Disney 整理了大量内容

在电视连续剧《迪士尼乐园》1957 年的一集中,Walt Disney 带领观众深度参观了他的伯班克动画工作室。“在我们的资料室,”他说,指的是地下图书馆,“这些架子、桌子和档案柜保存着我们这间动画工作室的所有历史。”


Disney 坚持其档案对编剧和插画家开放,以便他们进行参考或从中汲取灵感,他们贯彻这一做法的时间远早于其他动画工作室。小飞象和小飞侠等最受欢迎的作品的图纸、概念图等都被小心翼翼地藏在这个地下室。而在此后的岁月里,Disney 一直致力于保存这些资料。

Disney 已经拥有近一个世纪的内容,其中的数字化内容越来越多,因此必须比以往任何时候都更仔细地整理其图书馆。负责保持(虚拟)堆栈的秩序和整洁的是 Disney 直接面向消费者和国际 (DTCI) 技术团队中一个由研发工程师和信息科学家组成的小团队。DTCI 成立于 2018 年,组建该团队的部分原因是为了汇聚整个 Walt Disney 公司的技术专家和专业知识,并调整技术以支持 Disney 的大量独特内容和业务需求。

组织系统的基础是元数据:关于 Disney 节目和电影中的故事、场景和角色的信息。例如,《小鹿斑比》会有一些元数据标签,不仅可以识别小兔子 Thumper 或 Faline(斑比的小鹿朋友)等角色,还可以识别动物的类型、动物之间的关系以及每个动物所描绘的人物原型。自然风光(具体到所描绘花朵的类型)、音乐、情感和故事的基调等内容也具有特定的标签。因此,用正确的元数据对所有这些内容进行适当的标记,使其能够正确地进行分类是一项充满挑战的工作,考虑到 Disney 的飞速发展,这项工作更是困难重重。

“我们的电视节目中会出现新的角色、足球运动员要更换球队、超级英雄的新武器、新节目,”该团队的技术负责人 Miquel Farré 说,所有这些都需要一大堆新鲜的元数据。

在 AWS 服务的帮助下,他和他的团队正在构建机器学习和深度学习工具,通过描述性元数据来自动标记这些内容,以提高存档流程的效率。因此,编剧和动画师可以快速搜索并熟悉从《米老鼠》到《摩登家庭》中的 Phil Dunphy 的每个角色。

由 Disney 提供

元数据有什么神奇之处?

负责这项工作的团队最初成立于 2012 年,隶属于 Disney & ABC Television Group。经过多年的发展,它已成为 Disney’s DTCI Technology Group 的一部分,同时也是 Disney 宇宙风格和惯例的索引和知识库(例如,在《小鹿斑比》中,动物会说话,而在《白雪公主》中则不会)。为了让他们的机器学习工具能够生成准确描述创意内容的元数据,该团队依靠编剧和动画师来解释每个节目独一无二的风格特征。

这些创意团队成员从彼此的合作中获益。一旦内容被贴上准确的元数据标签,他们就可以通过搜索界面快速找到自己需要的内容。以《实习医生格蕾》的编剧为例,为了避免冗余,可能需要知道一集中出现了多少次惠普尔手术。同时,为一部发生在海底的新动画片绘制水下生物的艺术家可能会想在《小美人鱼》、《海底总动员》中查找特定人物的姿势或定位来寻找灵感。

但是,给所有的东西都加上正确的元数据标签很快就会带来一个人力问题:即使人工标记是这个过程中的重要部分,但 DTCI 技术团队并没有时间对每一帧画面进行人工分类。这就是 Farré 的团队通过机器学习(以及最近的深度学习)来生成元数据的原因。我们的目标是建立深度学习算法,能够以与 Disney 知识库其他部分一致的方式自动标记场景的组成部分。算法标签的审批仍然需要人工操作,但这个项目正在以富有意义的方式减少整理 Disney 知识库所需的工作,从而提高库内搜索的准确性。

更重要的是,这一进展为工程师们腾出了更多时间,让他们可以专注于使用 AWS (Amazon Web Services) 开发深度学习模型。因此,他们从未停止为在不同种类的 Disney 内容中自动创建元数据所做的努力。


由 Disney 提供

深度学习为动画赋予身份

最成功的深度学习/元数据项目之一是解决动画识别所带来的问题。

在真人电影或电视节目中,对于机器来说,将一个角色从她的周围环境中分离出来是相对简单的。但动画让事情变得更加复杂。举个例子,拍摄一个动画场景,在这个场景中,一个角色既是真人,又出现在海报中(比如说这个角色是个罪犯,全城都贴了他的通缉令)。“对于一个算法来说,这是极其复杂的”,Farré 说。

去年,Farré 的团队开发了一种深度学习方法,可以将动画角色与静态角色区分开来,在一群面貌相似的角色中识别出他们(比如在《唐老鸭俱乐部》中,很多角色都是差不多的),并在灯光昏暗的场景中识别出他们(在《爱丽丝梦游仙境》中,当爱丽丝第一次见到柴郡猫时,后者只显露出露齿的笑容)。在确定什么是什么之后,算法就可以用相应的元数据来标记场景。

但该模型真正的厉害之处在于,它可以应用于任何一段动画内容。也就是说,团队不需要为每一个高飞、大力士和艾尔莎创建新的模型,只需要在他们的通用模型的基础上稍作调整,就可以适用于任何节目或电影中的任何角色。

在今年之前,该团队使用的是更为传统的机器学习算法,与深度学习方法相比,这种算法需要的数据更少,但生成的结果也更有限、不够灵活。在数据输入较少的情况下,传统算法表现良好。但当您的数据成倍增加时,就是深度学习大显身手的时候了。

Farré 说,现在,深度学习模型可以从经过训练的网络中获益,并针对具体使用案例进行微调。在具体的动画角色案例中,Disney 使用数千张图片微调了一个神经网络,以确保它能理解“动画角色”的概念。 然后,对于每个具体的节目,神经网络只需要使用几集中的几百张图像进行重新调整,让它学习如何在具体的节目中检测和解释“动画角色”。

在 Disney 从传统的机器学习向深度学习转型的过程中,AWS 一直是重要的合作伙伴,尤其是在实验方面。弹性云计算 EC2 实例使团队能够快速测试模型的新版本。(对于动画识别项目,Disney 使用的是 PyTorch 框架与经过预先训练的模型。) 由于关于深度学习的研究非常多,因此团队在不断尝试新颖的方法。

元数据的研究非常成功,以至于 Disney 各个部门都闻风而动。Farré 表示,他的团队最近与 ESPN 的个性化团队合作,为业界领先的数字应用和网站提供所有文章和视频的详细元数据。如果产品知道您是洛杉矶道奇队、Steph Curry、明尼苏达维京人队和曼联队的球迷,它掌握的关于每篇文章的元数据就越多,进而可确保您获得最符合喜好的内容。此外,机器学习算法以及它们提供的元数据可以为更先进的人工智能 (AI) 提供支持,并随着时间的推移,推动进一步的隐式个性化(基于数据关系和行为)。

正如 Farré 的看法,元数据的应用层出不穷,尤其是考虑到 Disney 庞大且不断增长的独特内容、角色和产品库。“我不认为我们会感到厌烦”,他说。

Coinbase 使用 ML 创建安全的加密货币交易

了解更多 »

Capital One 利用机器学习更好地保护客户免遭欺诈

了解更多 »

Zendesk 通过使用 AI 技术帮助很多公司为最终用户提供更快速的客户服务

了解更多 »

T-Mobile 使用机器学习实现人性化客户服务

了解更多 »