近日,美国人工智能实验室OpenAI推出的语言模型ChatGPT风靡全网,是 OpenAI 的 GPT-3 工具的最新成员,是一种基于大型语言模型的预训练生成聊天,它将使用来自多个来源的信息,例如教科书、网站、文章和任何其他可能的来源,为您的查询提供合理的答案,甚至为您提供完整的句子你有一个故事或一篇文章要写。
它不仅能流畅对答、写代码、翻译、纠错等等,甚至让记者编辑、程序员等从业者都感受到了威胁,更不乏其将取代谷歌搜索引擎之说。这也引起了麻省理工学院的关注,麻省理工研究了GPT-3这样的大型语言模型如何通过几个例子学习新任务的。
据麻省理工介绍,像OpenAI的GPT-3这样的大型语言模型是巨大的神经网络,可以生成从诗歌到编程代码的类人文本。这些机器学习模型使用大量互联网数据进行训练,接受少量输入文本,然后预测下一个可能出现的文本。
但这并不是所有这些模型都能做到的。研究人员正在探索一种被称为上下文学习的奇怪现象,在这种现象中,大型语言模型仅在看到几个例子后就学会了完成一项任务——尽管事实上它并没有接受过该任务的训练。例如,有人可以给模型提供几个例句和他们的情绪(正面或负面),然后用一个新的句子提示它,模型就可以给出正确的情绪。
通常,像GPT-3这样的机器学习模型需要针对这项新任务使用新数据进行重新训练。在此训练过程中,模型会在处理新信息以学习任务时更新其参数。但是通过上下文学习,模型的参数没有更新,所以看起来模型学习了一个新任务,但根本没有学习任何东西。
来自麻省理工学院、谷歌研究院和斯坦福大学的科学家正在努力解开这个谜团。他们研究了与大型语言模型非常相似的模型,以了解它们如何在不更新参数的情况下进行学习。
研究人员的理论结果表明,这些庞大的神经网络模型能够包含埋藏在其中的更小、更简单的线性模型。然后,大型模型可以实施一个简单的学习算法来训练这个较小的线性模型来完成新任务,只使用大型模型中已经包含的信息。它的参数保持不变。
计算机科学研究生Ekin Akyürek 表示,这项研究是了解情境学习背后机制的重要一步,它为围绕这些大型模型可以实施的学习算法进行更多探索打开了大门。通过更好地理解情境学习,研究人员可以使模型无需昂贵的再培训即可完成新任务。
“通常,如果你想微调这些模型,你需要收集特定领域的数据并做一些复杂的工程。但现在我们只需给它一个输入,五个例子,它就能完成我们想要的。所以在-情境学习是一个非常令人兴奋的现象,”Akyürek 说。
论文发表在arXiv上。
与 Akyürek 一起撰写论文的还有 Dale Schuurmans,他是Google X实验室谷歌大脑项目的研究科学家,也是阿尔伯塔大学的计算科学教授;以及资深作者 Jacob Andreas,麻省理工学院电气工程与计算机科学系 X 联盟助理教授,麻省理工学院计算机科学与人工智能实验室 (CSAIL) 成员;斯坦福大学计算机科学与统计学助理教授马腾宇;谷歌大脑首席科学家兼研究总监 Danny Zhou。该研究将在国际学习代表大会上发表。
Akyürek 说,在机器学习研究界,许多科学家开始相信大型语言模型可以执行上下文学习。
例如,GPT-3 拥有数千亿个参数,并通过阅读互联网上的大量文本(从维基百科文章到 Reddit 帖子)进行训练。
因此,当有人展示新任务的模型示例时,它可能已经看到了非常相似的东西,因为它的训练数据集包含来自数十亿个网站的文本,它重复在训练期间看到的模式,而不是学习执行新任务。
Akyürek 假设情境学习者不只是匹配以前看到的模式,而是实际上在学习执行新任务。他和其他人通过使用他们以前在任何地方都看不到的合成数据给这些模型提示进行了实验,并发现这些模型仍然可以从几个例子中学习。Akyürek 和他的同事认为,也许这些神经网络模型内部有更小的机器学习模型,这些模型可以训练这些模型来完成新任务。
“这可以解释我们在这些大型模型中看到的几乎所有学习现象,”他说。
为了验证这一假设,研究人员使用了一种称为transformer的神经网络模型,该模型具有与 GPT-3 相同的架构,但专门针对上下文学习进行了训练。
通过探索这个转换器的架构,他们从理论上证明了它可以在其隐藏状态内编写一个线性模型。神经网络由处理数据的多层互连节点组成。隐藏状态是输入层和输出层之间的层。
他们的数学评估表明,这个线性模型写在变压器最早的几层中的某个地方。然后,转换器可以通过实施简单的学习算法来更新线性模型。
本质上,该模型模拟并训练了自身的较小版本。
研究人员使用探测实验探索了这一假设,“在这种情况下,我们试图恢复线性模型的实际解决方案,我们可以证明参数是在隐藏状态中写入的。这意味着线性模型就在那里,”他说。
在这项理论工作的基础上,研究人员可能能够通过向神经网络添加两层来使转换器执行上下文学习。Akyürek 警告说,在此之前仍有许多技术细节需要解决,但它可以帮助工程师创建可以完成新任务的模型,而无需使用新数据进行重新训练。
“这篇论文阐明了现代大型语言模型最显着的特性之一——它们无需显式训练即可从输入中给定的数据中学习的能力。使用线性回归的简化案例,作者从理论上展示了模型如何实现标准在阅读他们的输入的同时学习算法,并从经验上确定哪种学习算法最符合他们观察到的行为,”Facebook AI Research 的研究科学家 Mike Lewis 说,他没有参与这项工作。“这些结果是了解模型如何学习更复杂任务的垫脚石,并将帮助研究人员为语言模型设计更好的训练方法,以进一步提高其性能。”
展望未来,Akyürek 计划继续探索使用比他们在这项工作中研究的线性模型更复杂的函数进行的上下文学习。他们还可以将这些实验应用于大型语言模型,以查看它们的行为是否也可以通过简单的学习算法来描述。
此外,他想更深入地研究可以实现情境学习的预训练数据类型。
“通过这项工作,人们现在可以想象这些模型如何从范例中学习。所以,我希望它能改变一些人对上下文学习的看法,”Akyürek 说。“这些模型并不像人们想象的那么愚蠢。他们不只是记住这些任务。他们可以学习新的任务,我们已经展示了如何做到这一点。”
参考链接:Solving a machine-learning mystery; Demi Xia编译