继DeepSeek的低成本推理模型震惊硅谷和华尔街之后,近日,李飞飞等斯坦福大学和华盛顿大学研究人员发布的最新研究成果再次引发业界热议。
据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。
这一消息瞬间引发了全球 AI 领域的广泛关注与激烈讨论,毕竟在通常认知中,训练一个高性能的 AI 模型往往需要耗费巨额资金和庞大的计算资源,而李飞飞团队的这一成果,无疑打破了常规认知,让人不禁对其背后的技术和方法充满了好奇与探究的欲望 。
深入探究李飞飞团队的研究报告发现,s1 模型的训练基于一种名为 “测试时扩展(Test-time scaling)” 的新兴方法,该方法旨在利用额外的测试计算资源来提升语言模型的性能。
在这个过程中,“预算强制(budget forcing)” 技术成为了关键所在。
当模型的思考过程过长,超出预期限制时,“预算强制” 技术会强行终止思考,添加 “end-of-thinking token 分隔符”,促使模型过渡到生成答案的步骤;而当希望模型在某个问题上花费更多测试时计算量时,又会抑制 “end-of-thinking token 分隔符” 的生成,通过多次追加 “Wait” 指令,鼓励模型进行更深入的探索,重新检查答案,修正推理错误,从而有效提升模型的推理能力 。
为了训练 s1 模型,研究团队精心构建了一个包含 1000 个问题的小型数据集 s1K。这些问题涵盖了数学竞赛问题、博士级别的科学问题、奥林匹克竞赛问题等多个领域,具有高度的难度、多样性和质量。这些问题的数据来源广泛,包括 NuminaMATH、OlympicArena、OmniMath 等公开数据集,以及研究团队自己创建的原始数据集 s1-prob 和 s1-teasers。
在数据收集完成后,研究团队又运用谷歌的 Gemini Flash Thinking 模型,为每个问题生成了详细的推理轨迹和答案 。
在拥有了优质的数据集和独特的技术后,李飞飞团队对阿里的 Qwen2.5-32B-Instruct 模型进行监督微调。
整个微调过程仅使用了 16 个 NVIDIA H100 GPU,耗时 26 分钟。如此短的时间和相对较少的计算资源,与传统的 AI 模型训练形成了鲜明的对比,也正是这一点,让 s1 模型的训练成本大幅降低,仅需不到 50 美元的云计算费用,便完成了这个看似不可能的任务 。
在惊叹于 s1 模型的低成本训练成果时,我们不能忽视其背后的真正英雄 —— 阿里云通义千问 Qwen2.5 - 32B - Instruct 模型。
事实上,s1 模型并非是从无到有、白手起家训练出来的全新模型,它是在阿里云通义千问 Qwen2.5 - 32B - Instruct 模型的基础上进行监督微调的产物 。
通义千问模型在 s1 模型的训练过程中,扮演着不可或缺的 “基座” 角色。就如同建造高楼大厦,通义千问模型就是那稳固的地基,为 s1 模型的诞生提供了坚实的基础。它已经在大规模的数据训练中,学习到了丰富的语言知识和语义理解能力,具备了强大的语言基础和智能潜力 。
李飞飞团队正是基于这一已具备强大能力的开源基础模型,利用精心筛选的 1000 个样本数据进行监督微调,才得以在短时间内、以低成本训练出性能卓越的 s1 模型。若没有通义千问模型的前期积累和强大能力作为支撑,仅仅依靠这 1000 个样本数据,想要训练出一个在数学和编码能力测试中表现出色的推理模型,几乎是天方夜谭 。
业内人士指出,s1 模型以通义千问模型为基座进行微调,这1000个样本训练更像是在已有的优秀模型上 “锦上添花”,而非 “从零开始” 的艰苦创业 。
国内某知名大模型公司 CEO 也表示,从论文原文来看,用50美元训练出新的具有推理能力的模型,本质上是用从谷歌模型中提炼出来的1000个样本,对通义千问模型进行监督微调。这种微调方式的成本相对较低,但能够取得如此显著的效果,显然是站在了通义千问这一既有领先模型的 “肩膀” 之上。
不仅如此,国内外还有其他团队声称用极低的成本训练出具有推理能力的新模型,然而仔细研究其论文原文就会发现,它们无一例外都是基于通义模型作为基座进行的 。众多案例表明,通义千问模型在低成本训练高性能模型的过程中,具有不可替代的关键作用,成为了众多研究团队实现技术突破的重要基石 。
在李飞飞团队之前,AI初创公司DeepSeek已选择通义千问作为核心技术底座。
据DeepSeek官方消息,其成功将DeepSeek-R1的强大推理能力蒸馏至6个开源模型中,其中4个基于Qwen系列。特别是基于Qwen-32B蒸馏的模型,已实现与OpenAI o1-mini相当的卓越性能。这些成功案例再次凸显了通义千问在开源社区的巨大影响力及良好口碑,使其逐渐取代Llama,成为开源社区最重要的标杆基座模型。
自2023年8月开源以来,阿里云通义千问已推出Qwen、Qwen1.5、Qwen2、Qwen2.5等四代模型,涵盖大语言模型、多模态模型、数学模型和代码模型等数十款产品。这些模型在HuggingFace的Open LLM Leaderboard、Chatbot Arena大模型盲测榜单、司南OpenCompass等多个国内外权威评测中屡获佳绩,展现出全球领先的性能水平。
通义千问率先在业界实现了“全尺寸、全模态、多场景”的开源布局。从1.5B到72B乃至110B的全系列开源,为开发者和企业提供了广阔的选择空间。
数据显示,2024年,Qwen2.5-1.5B-Instruct一款模型的全球下载量占比达26.6%,远超第二名Llama-3.1-8B-Instruct-GGUF的6.44%。在视觉理解领域,Qwen-VL及Qwen2-VL两款模型的全球下载量已突破3200万次。一周前,Qwen2.5-VL的全新升级再次引发开源社区的热烈反响。
目前,通义千问在海内外开源社区的衍生模型数量已突破9万,超越Llama系列,成为全球最大的生成式语言模型族群。
李飞飞团队的这一成果,无疑证实了AI领域在“低成本”方面的技术突破。
在数据筛选方面,团队从16个不同来源收集了59029个问题,经过严格的样本检查、筛选,最终构建出包含 50 个不同领域、1000 个问题的高质量数据集 s1K,这些问题具有高度的难度、多样性和质量,为模型的训练提供了坚实的数据基础。
训练时间和成本上,团队仅用16个 NVIDIA H100 GPU,花费26分钟,就完成了对模型的监督微调,训练成本不到 50 美元,这与传统 AI 模型训练所需的巨大资源和高昂成本相比,是一个巨大的进步 。
此外,“预算强制” 技术的开发,有效控制了模型测试时的计算量,提高了模型的推理性能,为 AI 模型训练技术的发展提供了新的思路 。
然而,这一成果也面临着诸多挑战和争议。
低成本训练严重依赖于像阿里云通义千问这样已有的强大基座模型。如果没有这些基座模型前期大量的数据训练和强大的语言理解能力作为支撑,仅靠少量样本数据和简单的微调,很难训练出高性能的模型。1000个样本数据的训练量,在大多数复杂任务场景中,往往是远远不够的。
此外,AI 模型的知识产权和伦理问题也随着这一成果的出现引发了更多讨论 。若越来越多的研究依赖于已有的基座模型进行微调,那么基座模型的开发者如何获得合理回报,以及如何确保AI技术的公平使用和共享,都成为了亟待解决的问题 。