2月20日,复旦大学自然语言处理实验室邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS(https://moss.fastnlp.top/),现已发布至公开平台,邀公众参与内测。
ChatGPT发布以来,基于指令学习技术的类ChatGPT模型在我国能否开发成功,成为业界关注的一个焦点。MOSS和ChatGPT一样,开发的过程也包括自然语言模型的基座训练、理解人类意图的对话能力训练两个阶段。不同之处在于,复旦团队采用了不同的技术路线,通过让MOSS和人类以及其他对话模型都进行交互,显著提升了学习效率和研发效率,短时间内就高效完成了对话能力训练。
不过很可惜受限于实验室的规模,加之复旦大学团队开发的这个对话式大型语言模型的名字刚好和《流浪地球》系列电影中的人工智能MOSS重名,引发了网友们的广泛关注,当晚由于瞬时访问压力过大,MOSS服务器被网友挤崩。
2月21日,MOSS官网发布公告称,MOSS还是一个非常不成熟的模型,距离ChatGPT还有很长的路需要走。该团队表示,我们一个学术研究的实验室无法做出和ChatGPT能力相近的模型,MOSS只是想在百亿规模参数上探索和验证ChatGPT的技术路线,并且实现各种对话能力。最初的想法只是将MOSS进行内测,以便进一步优化,没想到会引起这么大关注,我们的计算资源不足以支持如此大的访问量,并且作为学术团队也没有相关工程经验,给大家造成非常不好的体验和第一印象,在此向大家致以真诚的歉意。
那么如果我国想运营一个像ChatGPT一样规模的模型需要多少资源呢?根据Similarweb的数据,23年1月份ChatGPT日活约1300万人,每人平均1000字左右的问题,因此合计产生约130亿字(173.3亿个token),假设24小时平均分配任务,需要的A100 GPU数量为173.3亿*2*3000亿/(20%*24小时*3600秒)=601.75 PetaFLOP/S,由于访问流量存在峰值,假定访问峰值是一天均值的5倍,因此共需要602台DGX A100服务器才能够满足当前的访问量。根据海通证券的估计,运营阶段ChatGPT年GPU/CPU需求空间分别在7000万美元及778万美元。而且这还只是根据当前数据估计的运营成本,据了解,当前ChatGPT模型无法访问外部知识,仅依靠模型参数进行计算;如果将ChatGPT与搜索功能结合,如Bing等搜索引擎,其对算力资源的消耗将成数倍增长,算力成本可能达到当前的百倍。
除了硬件成本,想打造中国的ChatGPT还需要大量的优秀人才,目前我国大模型方面的积累包括有大厂的百度的文心、阿里的通义、京东的言犀、华为的盘古等,还有如智源研究院的悟道以及本次介绍的MOSS这一类由科研机构、高校和其他学术团队创造的大模型。其实我国在这些大模型的开发中已经积累了相当多的优秀人才,虽然目前我们所拥有的模型还不足以匹敌ChatGPT,但相信在全体AI从业者的努力下,我们很快就能迎来中国版的ChatGPT。