近日,数十位国内AI大牛参与署名的论文《A Roadmap for Big Model》(下称《大模型》)被Google Brain的一名研究员指出严重抄袭,引起了国内外学术圈的广泛关注和议论。
据悉,该论文发布时,智源社区称论文“由悟道大模型研究项目负责人,智源学术副院长,清华大学计算机系教授唐杰牵头,从大模型基础资源、大模型构建、大模型关键技术与大模型应用探索4个层面出发,对15个具体领域的16个相关主题进行全面介绍和探讨。”
这篇篇幅巨大的论文,署名作者来自清华、北大、上海交大;腾讯、华为、京东、字节跳动,和炙手可热的AI研发机构北京智源人工智能研究院等十多家知名机构。其中不乏国内AI业界和学界的知名大佬。
事情起因是Google Brain研究员Nicholas Carlini近日在其博客中直接罗列了大量该论文与他更早发布的“Deduplicating Training Data Makes Language Models Better”论文一摸一样的段落。
并列举了10个涉嫌抄袭的段落,文字一致的部分用绿色标出。
而且,他还表示,被抄袭的可能至少还有其他十余篇论文。
Nicholas Carlini称他的一位合著者正在阅读 Big Models 论文,并注意到其中一些文本似乎奇怪地熟悉,在快速查看后他们发现实际上有一堆文本是直接从他们的论文中复制而来的。
然后他们开始看看是否还有其他例子。
Nicholas Carlini称他在之前的一个项目中为顶级机器学习平台(ICML/ICLR/NeurIPS/AAAI/ACL/etc)上的所有被接受的论文整理了pdf文档数据集。 所以为了找到上面复制的文本,他所做的就是取出这些pdf文件,提取所有的文本,并将其转储到一个txt文件中, 然后运行数据集重复数据删除工具来找到所有包含在大模型论文和其他之前发表的文章中的重复序列。
昨日,论文第一单位智源研究院发表中英文致歉信。
承认文章中存在问题,已启动第三方独立审查,后续将进行追责。
根据智源研究院声明,这篇综述报告由智源牵头,邀请国内外100位科研人员分别撰写了16篇独立的专题文章,并单独署名。
按初步调查结果,智源决定立即从文章中删除已确认的抄袭内容,并通知所有作者对所有内容进行全面审查。
目前论文修订版已提交arXiv进行更新。
参考链接:https://nicholas.carlini.com/writing/2022/a-case-of-plagarism-in-machine-learning.html ;Demi Xia编译