人工智能帮助 Duolingo 实现语言学习个性化

通过人工智能为 3 亿用户提供教学

习得一门外语可能是您去年的目标之一,甚至是前年、再前一年的目标之一。与难得一用的健身房会员一样,我们踌躇满志的心态往往无法坚持太久。为了熟练掌握一门新语言,大多数人不仅投入了大量时间,还采用传统方法费力学习,依旧不得要领,甚至许多基于 Web 的语言工具也难免令人觉得枯燥繁琐。

总部位于匹兹堡的初创企业 Duolingo 正通过人工智能驱动的语言学习平台改变着这一切。该公司为超 3 亿用户提供超 32 门语言课程,除法语和泰米尔语外,还涵盖了夏威夷语和纳瓦霍语等濒危语言。

Duolingo 的与众不同之处在于其个性化的学习方法,该方法通过积分奖励系统打造游戏化学习体验,在保持用户参与度的同时,逐步提升其语言熟练度。据美国国务院估计,学习法语或意大利语等第一类语言需要 600 个小时。在 Duolingo 的帮助下,用户只需每天投入 15 分钟就能实现这一点。

用户首先需要进行 Duolingo 的人工智能驱动型水平测试,通过参加实用测验来确定自身的语言水平。因此,如果您曾接受过四年的高中法语教学,就不必从最基础的课程开始。在测试中,Duolingo 会自适应地根据用户上一个问题的内容以及是否答对来选择下一个问题或挑战。

Duolingo 研究总监 Burr Settles 解释说:“无论是单词的难度、语法还是测试中的出题方式,都有助于系统选择准确的配置,这样一来,只需要短短五分钟,我们就能帮助用户找到适合自己的学习起点。”

Duolingo 语言课程采用“间隔复习”理念,旨在在不断延长的时间间隔内为客户持续提供个性化语言课程,事实证明,这比短时间内教授大量课业更有效。

随着语言能力的提升,用户将以不同方式与课程内容进行交互。例如,对于课程中出现的每个单词,Duolingo 都会记录用户看到这个单词的次数、答对的次数、答对时采用的模式以及距离上次练习的时间。

Burr 解释道:“借助人工智能,我们可以在任意给定时间预测用户能够在特定上下文中回忆起单词的可能性,”“而后在最恰当的时机提供该用户最需要练习的内容。”

“我们可以在最恰当的时机提供该用户最需要练习的内容。”

Burr Settles
研究总监
Duolingo

“我们可以在最恰当的时机提供该用户最需要练习的内容。”

Burr Settles
研究总监
Duolingo

语言背后的学习算法

为了实现这种人工智能技术,Duolingo 使用了深度学习(人工智能和机器学习的子集),其利用神经网络模仿大脑行为,从而快速分析数据并做出智能预测。该公司使用深度学习算法进行自然语言处理,以此分析用户日志数据,以预测用户答对的可能性。这些预测是个性化自适应学习测试和学习应用程序内容的基础。

但早期构想并非如此。该公司由 2009 年在卡耐基梅隆大学(CMU)开展的名为 Monolingo 的翻译项目演变而来。该项目旨在通过让用户翻译维基百科或新闻网站上的文章等文字内容,向其教授外语。彼时,Monolingo(甚至是早期的 Duolingo)使用了更为传统的认知科学算法。例如,基准算法使用人工选择的参数,这意味着这些参数不一定使用真实数据进行学习。当 Duolingo 的研究人员对用户进行各种方法的 AB 测试时,很明显,要达到预期的个性化水平,需要更复杂、定制化程度更高的机器学习模型。

Burr 表示:“这些有针对性的问题表明,我们必须从头开发新的模型。”“这些使用案例的正常生命周期应当是,先尝试使用基本认知方法来收集数据,获取数据后,再通过深度学习对其进行完善。”

为了开发这些自定义算法(包括非原生语音识别和自动评分分类等),Duolingo 使用了 Amazon Web Services(AWS)上的 PyTorch 深度学习框架。这些深度学习模型经过训练后,通过 Amazon EC2 P3 高性能 GPU 实例部署到生产环境中。在训练过程中,速度和可扩展性至关重要,因为模型一次可能会使用 10 万到 3000 万个数据点(视具体问题而定),以便每天进行超过 3 亿次预测。

Burr 说:“考虑到用户数量、测试次数、语言数量,两周的数据量很庞大,所以我们会采用滑动窗口来训练模型。”对于管理用于机器学习的数据管道,该公司使用 Amazon DynamoDB 进行数据管理,使用 Amazon EMR 和 Amazon EBS 进行临时存储,使用 Amazon S3 进行永久存储,并使用 Spark 进行计算以定期进行批量预测。

此外,为了让应用程序更生动,Duolingo 使用了 Amazon Polly,这是一款采用深度学习技术的文本转语音工具,可轻松集成到应用程序中,为测试和众多课程提供人声发音。

借助这些深度学习工具,该公司提高了预测准确性和用户参与度。使用 Duolingo 并在第二天继续使用的用户数量立即增加了 12%。

Burr 和 Duolingo 团队利用深度学习不断验证新的可能性,探索可用于确保测试安全、进行欺诈检测、执行生物识别和帮助用户理解上下文的模型。例如,用户可能会答错问题,但不清楚为何答错。究竟是因为忘记了单词, 还是因为搞不清词形变化?

Burr 称:“但系统并不是每次都能根据所收集的信息准确地剖析出原因。”“还有许多人工智能难题需要攻克。”

随着 Duolingo 借助深度学习不断改进其语言产品,您也许能从中受益,实现至少一个新年计划。

Kia 通过使用 AI 技术来减少车祸中死亡的人数

了解更多 »

TuSimple 使用 ML 来训练自动驾驶汽车半成品

了解更多 »

GE 医疗集团通过机器学习推动更好的医疗保健成效

了解更多 »

Zocdoc 通过人工智能赢得患者信任

了解详情 »