3月14日,ChatGPT的开发机构OpenAI正式发布其里程碑之作GPT-4。据介绍,GPT-4是一个多模态大模型(接受图像和文本输入,生成文本)。相比上一代的GPT-3,GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力,能够处理超过25000个单词的文本,编写更大型的代码,允许长文内容创建、扩展对话以及文档搜索和分析等用例。此外,OpenAI还承诺GPT-4相比之前的模型,包括ChatGPT此前应用的GPT-3.5,将更加安全且具协调性。
3月29日,Aspencore将在IIC Shanghai(2023国际集成电路展览会暨研讨会)同期举办第二届 “碳中和暨绿色能源”电子产业可持续发展高峰论坛,欢迎大家点击这里报名参会,共同探寻可持续发展新道路。
那GPT-4实际的表现到底有多强呢?简单来说光论考试已经与人类相当,甚至超过了不少普通人。根据OpenAI的评估,GPT-4已经能轻松通过美国的律师考试,且考进了前10%的排名。相比之下,它的上一代模型GPT-3.5倒数10%只能吊个车尾。
除了律师考试,GPT-4还在美国大学入学测试SAT阅读写作中拿下710分、数学700分(满分800),虽然分数不高,但已经够上美国大学的录取水平。更重要的是,GPT-4能在大学的基础微积分课程中获得4的成绩(5分为满分),这证明了该模型已经掌握了高等数学大部分的概念。
另外,GPT-4在不同语种上的能力表现:中文的准确度大概在80%左右,已经要优于GPT-3.5的英文表现了。因为许多现有的ML基准测试都是用英语编写的,为了初步了解GPT-4其他语言的能力,研究人员使用Azure翻译将MMLU基准(一套涵盖57个主题的14000个多项选择题)翻译成多种语言。在测试的 26 种语言的 24 种中,GPT-4 优于 GPT-3.5 和其他大语言模型(Chinchilla、PaLM)的英语语言性能:
除了优秀的考试和语言能力,强大的识图能力和显著提高的回答准确性,以及文字输入长度限制的增加,也让GPT-4的文书处理变得更加简洁高效,大大扩展了GPT-4的实用性。有网友直接把整篇论文截图发给它,GPT-4可以按像素处理其中的文字和图片,并给出对整篇论文的总结摘要。
当提供来自《纽约时报》的文章时,新的聊天机器人几乎每次都能对故事进行精确和准确的总结。如果在摘要中添加一个随机句子并询问机器人摘要是否不准确,它会指向那个被添加的句子。
发布会直播上,OpenAI总裁Gregman还现场表演了一次GPT-4给代码修Bug,直接把1万字的程序文档粘贴给GPT-4,最后再附上出现的问题,就可以在几秒钟内得到解决办法。以目前GPT-4的速度来看,以后不光小编要失业,程序员也不远了。
以人类千奇百怪的笑点来说,其实大多数笑话都是很难其笑点原因的。而GPT-4的出现给爱讲冷笑话的朋友带来了福音,它已经可以轻松理解网友心照不宣的冷笑话,即便是表情包,它也能说个子丑寅卯来。比如下面的这张图,GPT-4可以按顺序描述出每一格的内容,并总结笑点:用巨大的过时VGA接口给小巧的现代智能手机充电。
而除了分析笑点,GPT-4还能分析要点,它可以通过用户的简单需求直接生成代码,甚至网站。即便用户只是在餐巾纸上画了个简单界面,GPT-4都能直接搞出一个可运行的网站。
根据OpenAI的内部测试,GPT-4仍有GPT-3.5的老毛病,就是胡言乱语。专业地讲,GPT-4仍会产生幻觉,生产错误答案,并出现推理错误。比如当被要求提供描述最新癌症研究的网站地址时,它有时会生成不存在的互联网地址。这一点也困扰着所有领先的聊天机器人,因为系统不了解什么是真什么是假,它们可能会生成完全错误的文本。
另一方面,GPT-4仍缺乏对数据截至日期后新进展的了解能力,即其无法在训练学习后,追踪新的信息来补足对某件事认知。比如当问及NLP(自然语言处理)中需要解决的重要问题是什么?未来十年的研究?它无法提出全新的想法。此外,它也无法从经验中学习,并可能一直轻信人类。
3月29日,Aspencore将在IIC Shanghai(2023国际集成电路展览会暨研讨会)同期举办第二届 “碳中和暨绿色能源”电子产业可持续发展高峰论坛,欢迎大家点击这里或扫码报名参会,共同探寻可持续发展新道路。