广告

从智能电车到AI计算机

2023-04-03 汽车电子与软件 阅读:
关于下一代智能终端会是怎样?会对应着怎样的计算?怎样的OS、怎样的交互以及怎样的应用生态?
在过去很长的一段时间,建约都在思考智能电车的产品定义问题,关于智能电车是什么,我们提出了三个方面的判断,包括:
  • 智能电车是智能移动空间;
  • 智能电车是机器人;
  • 智能电车是第三代智能终端。
前面两个产品定义,比较清晰和明了,并已被很多企业所认可和接受,关于第三个产品定义,一直没有清晰、系统地进行阐述。
本文试图对上述问题进行探讨。
这是一篇在2021年底就开始酝酿的文章,也是一篇早就应该发出来的文章,由于思考不够成熟的原因,直到今天才成稿。
大概在2019年初,我们就开始思考,继PC、智能手机之后,哪个设备将会成为下一代智能终端,并提出了智能电车会是下一代智能终端的概念。
但是,关于下一代智能终端会是怎样?会对应着怎样的计算?怎样的OS、怎样的交互以及怎样的应用生态?当时的思考并不清晰。
还有一个问题是,如何给下一代智能终端、下一代OS和下一代互联网命名,也是一个悬而未决的问题。
你不能定义一个东西,自然不能创造一个东西。
2022年初,在一次和李想讨论的过程中,他提出了空间智能这个概念,这个概念后续的产品就是理想L9后排屏的手势交互功能。
基于空间智能,我提出了空间互联网这个概念,区别于互联网、移动互联网本质上都是平面互联网这个事实,而智驾系统已经把物理世界数字化,智能电车可以传送这些三维信息,仿真引擎可以构建数字孪生,基于这些基础设施,人类下一代互联网,大概率会是三维互联网,交互会是拟人交互。
坦率地说,空间互联网是个不错定义,但还有一个基础的问题,即下一代智能终端怎么定义?
第一代智能终端叫PC或电脑,第二代智能终端叫智能手机,第三代智能终端是什么,叫什么?
此前,我们简单粗暴地提出,第三代智能终端是智能电车。
问题是,人们无法将智能电车和新一代智能终端联系起来,这个名字无法让人将车与智能终端产生联想,也不利于人们定义它和创造它。
在不久前,就这个问题再次和李想展开了头脑风暴,他提出了AI计算机这个概念,即下一代智能终端会是AI计算机,而智能电车实际上是有潜力成为AI计算机的。
截至目前,AI计算机是比较符合第三代智能终端特性的命名,并能够帮助人们更好地定义和创造这个新事物。
这样,AI计算机和空间互联网这两个概念,基本上形成了一个闭环,为本文的进一步展开奠定了基础。
另外一个促使我尽快发布此文的外部因素是ChatGPT横空出世。
这个产品的颠覆性效果,震动整个科技圈,无数人开始研究大模型、通用AI和应用场景,成千上万人的准备躬身入局,在AI浪潮卷来的时候冲进去搏风击浪。
AI应用的勃兴,需要AI计算机的承载才能发生。
因为,ChatGPT这些基于大模型的AI应用,如果没有AI计算机作为平台和入口,人们将很难使用它并从中获益,这个观点将在后面进行论证。
在开始讨论之前,需要对一些基本概念以及这些对象在产业链条中的位置进行界定。
AI,是一种能力,这种能力使得机器人可以识别图像,理解句子的语义。
大模型,是一种AI的技术路线,是一种实现AI的模式,基础是大算力和大数据。
ChatGPT,本质上是一个应用。当然了,因为封装了强大的AI能力,这个对话式机器人能做的事情很多,但还是应用层的东西。智驾系统,也是AI应用。
AI计算机,是一个为个人所拥有的智能终端,是一台计算机,以AI计算为核心,可以实现让大模型部署在智能终端上。
空间互联网,是无数像ChatGPT这样的应用生态的总和。
智算中心,这是训练像ChatGPT这样的AI大模型的超级AI制造工厂,比如特斯拉的智算中心,拥有1.4万张A100,而ChatGPT的训练据说采用了1万张V100。
这篇文章的核心观点包括:
  • 没有面向个人的AI智能终端,不会产生相应的AI应用生态;
  • 第三代智能终端将会是AI计算机,智能电车将会是人类历史上第一代AI计算机;
  • 打造AI计算机,需要解决闭环的硬件、OS和应用生态问题;
  • AI计算机,是AI时代的母生态,是AI时代最关键的基础设施,在AI计算机之上,将会诞生空间互联网,大量的数据将会为AGI的发展奠定基础。

终端和应用生态

这里所说的智能终端,其实是严格意义上的个人计算机(Personal Computer),即PC。
在计算机诞生初期,人类社会的计算机主要的用途是军事计算、科学计算和商用计算,这些计算机的芯片都是专用芯片,为特定用途定制。
在那个时候,使用计算机的人都是专业人士。所以,人们通过UNIX、Linux等操作系统控制计算机,甚至可以通过机器语言直接控制计算机。
1971年1月,intel的费德里科·法金(Federico Faggin),在一个废弃的实验室中,单枪匹马做出了4004,这是人类历史上第一颗商用的通用处理器,这也是人类真正意义上进入信息时代的伊始。
在那个时候,人们依然会非常疑惑,个人为什么需要一台计算机,因为普通人没有能力和计算机进行交互,那个时候也没有应用生态。
彼时,个人计算机是一个很奇怪的idea,这使得intel在很长时间之内,并没有重视通用处理器这个市场,直到它的内存业务彻底被日本的友商摧毁,安迪·格鲁夫不得不驱动这家公司从存储芯片向计算芯片转型。
在差不多相同的时间,另外两位信息英雄悄然投身信息革命的浪潮,为信息革命做出了卓越的贡献,并打造了当下世界上市值第一和第二的公司。
1975年4月4日,比尔·盖茨和保罗·艾伦在阿尔伯克基成立了一家名为微软的公司,这家公司在接下来很长一段时间里,回答了人们为什么需要一台PC的问题,即软件和应用生态。
1977年1月3日,乔布斯和沃兹尼亚克在硅谷注册苹果公司。
1978年,intel的8088微处理器诞生,并与IBM一起开始打造PC机。
但是,真正意义上的PC机革命来自于苹果公司在1984年推出的Mcintosh电脑上,这是Mac的前身,麦金塔电脑给这个世界带来革命性的意义在于,人类第一次有了图形界面操作系统。
把图形界面操作系统引入PC机,从根本性上解决了普通人使用电脑的问题。
然而,把图形界面系统发扬光大的却是比尔·盖茨的微软,1985年11月,Windows系统面世,开始了这款图形界面操作系统对PC机长达30多年的统治。
Windows解决了操作系统的问题,Office则解决了效率问题,Media Player解决了视频播放问题,I.E.解决网络冲浪的问题……
比尔·盖茨在PC诞生的初期,就意识到了人类是通过应用软件来利用计算机能力的。
从那个时候开始,微软的Windows系统,intel的微处理器和IBM的PC组合在一起,定义了人类的PC时代,并在PC之上,诞生了internet。
在PC时代,乔布斯的封闭系统因为没有强大的应用生态,输给了win-tel体系。
但是,在经历了起起伏伏之后,史蒂夫·乔布斯于2007年重返巅峰,给世界带来了iPhone——人类历史上第二代智能终端,定义了包括多点触控、AppStore等一系列的产业标准,并在此之上,诞生了移动互联网。
iPhone和AppStore,奠定了苹果无比辉煌的产业地位。
从PC和智能手机发展的历史,我们可以得出结论:
个人计算机的发展,首先需要解决通用处理器的问题,其次则需要解决操作系统和交互的问题,其本质是大幅降低普通人使用计算机的门槛,能够有效地与计算机进行信息交换。
没有智能终端,就不会有相应的应用生态,即互联网。
PC对应着互联网,智能手机对应着移动互联网。
同理,没有AI计算机,就不会有AI应用的大规模普及,也不会有空间互联网的产生。
没有一个面向个人的智能终端作为平台,用户无法使用应用,没有用户规模,自然不会有开发者为这种智能终端开发应用。
在发明了智能终端之后,用户可以通过这个入口使用搭载在电脑里的应用生态,开发者会自然而然地根据终端的能力,打造与上一代网络应用具有差异化的、体验更好的新型应用,从而吸引消费者使用,大量消费者的使用,会激励开发者打造更多有价值的应用,逐步形成新的网络生态。
每一种类型的智能终端,都需要定义用户与网络生态的交互方式,这会在很大程度上决定网站或APP的主要特征,以及他们的集合——网络生态的主要特征。
在PC时代,所有的软件和应用都会被“安装在”PC或笔记本上,这些软件和应用包括Office套件、MediaPlayer、MP3播放器、Photoshop、QQ、I.E.等……
通过鼠标点击,人们打开应用,通过屏幕浏览软件或应用提供的反馈,通过键盘输入需求,再通过鼠标点击提交需求……
这就是PC时代的人机交互。人机交互,听起来是人和计算机进行交互,本质上是人与计算机中的软件和应用的交互。
操作系统,是定义交互和交互环境的系统软件。
PC或笔记本这个设备,包含了各种各样的芯片、屏幕、键鼠、摄像头、麦克风、电源模块等硬件设备,在这些硬件之上,跑着一个windows操作系统,对于用户而言,也许windows是电脑的代名词,它搭建了人们与电脑的交互界面,本质上是与软件的交互界面、与网络生态的交互界面。当然了,也定义了交互方式。
在Windows系统,菜单是人们使用软件、网站的最主要的方式,用户移动光标,点击特定的菜单,然后机器会响应,满足人们的需求。
Windows系统,是第一个图形界面操作系统;iOS,本质上是第二代图形界面操作系统,无非是用多点触控替代了键鼠。
图形界面操作系统,最核心的交互是浏览、点击。
比如,我们打开国内服务最为复杂的应用美团APP,用户与软件进行的主要交互就是浏览+点击。
当然了,还有键盘的输入。
随着网络的发展,应用和服务的形态发生了变化。人们不需要在本地下载一个软件,很多应用都可以是一个在云端的网站,人们通过浏览器就可以触达,internet诞生了。
云端应用的好处是,人们不需要在本地download很多软件,也不会有很多软件在后台运行占用内存的计算资源,通过浏览器可以接入到有无限资源的互联网生态。
通信网络的发展是云端应用和互联网的基础。
当然了,因为人们不知道云端有什么的内容,网址导航站和搜索就成为了人们获取云端内容的主要入口。
在PC之后的笔记本电脑,以及后来的智能手机,在交互方式上,并没有发生本质的变化。
最核心的变化是,计算机变得越来越小,移动性、便携性在持续提升。便携性的变化,导致了应用场景的巨大变化。
笔记本电脑可以让白领们拎着移动办公,让办公的场景变得更为移动化。然而,笔记本电脑依然是一个较为笨重的设备,要使用这个东西,需要一张桌子、一张凳子,这让笔记本电脑的使用场景受限。
于是,智能手机出现了。
和笔记本电脑相比,智能手机是真正意义上的掌上电脑、口袋电脑。
一台苹果手机,从口袋中掏出并打开锁屏,所花费时间大概就10s左右,这真的非常方便,且没有任何使用场景的限制,人们可以在床上刷手机,在如厕的时候刷手机,在公交车上刷手机,在吃饭的时候刷手机……
因为智能手机的便利性,人类在PC时代的所有网络应用,绝大多数都被重新设计了一遍,包括新闻、社交、电商、游戏、视频、音乐、地图等等……
此外,智能手机自带定位传感器,这使得很多LBS服务成为了可能,比如说打车、外卖、导航、酒旅、电商等服务变得非常便利。
这些网络应用,以APP的方式存在,为智能手机这种终端量身定制,从而建立了全新的移动互联网生态。
和PC相比,智能手机因为有着非凡的便携性,使得人们能够24小时享受获得信息的便利,从而颠覆了PC中绝大多数的应用,比如新闻、社交、电商、音乐、地图等服务,新增了打车、外卖、短视频、微博、导航等新的服务。
和PC或笔记本相比,智能手机的应用,或者说几乎全部的应用,都是基于云端的应用,几乎没有下载到本地的软件,连Office软件都是在线化的软件。
一方面,因为智能手机很小,用户无法下载大量的东西在本地,这也让应用开发者非常知趣,尽量打造云端应用,而只在本地留一个入口。
另一方面,PC时代的初期,网络很不方便,流量很贵,人们的使用习惯是把很多东西先下载到本地再使用。
当然了,由于流量获取的原因,每一家APP运营商都希望能够常驻内存,希望在用户不用该APP时,都能获得在后台运行的许可。
在绝大多数情况下,手机里的东西都放在云端,但只有一个是例外的,那就是图像。
尽管在打字输入方面,智能手机不如PC,但由于移动性很强,使得拍照和摄像成为主要输入方式,但由于无法本地处理和移动网络基础设施的问题,大量的图片和视频依然是存储在本地的。
除此之外,由于小屏幕和触控在输入输出效率上的天然劣势、在芯片、屏幕等方面的劣势,在办公、重度娱乐等领域,PC生态依然有着不可替代的价值,尤其是需要做大规模输入的时候,笔记本电脑显得是如此之不可替代。
这使得在很长一段时间内,PC互联网生态和移动互联网生态处于共生状态。
通过总结智能终端的发展历史,终端和交互,以及互联网和移动互联网的形态,可以得出的结论是:
1.Personal Computer是一切应用生态发展的基础。
2.一种类型的Personal Computer将会对应着一种类型的应用,和相应的互联网生态。
3.与其说Personal Computer是应用的母生态,不如说OS是应用的母生态,OS会定义交互环境和交互的方式,交互指的是人利用应用的方式,也会决定应用的形态,此外,设备本身的便携性也会决定应用形态。
4.网络基础设施的发展是应用云化的关键因素。
在这个部分,我们可以得出一个结论,如果没有AI计算机,人们无法真正意义上有效使用AI应用,并形成庞大的应用生态。

下一代智能终端

关于第三代智能终端,当下有不少的探索和争论,比如:
很多人相信,由Meta主导的Oculus Quest2会是第三代智能终端,基于这样的设备,人们可以在上面打造元宇宙应用。字节跳动收购的PICO、苹果也在做相似的事情。
最近兴起的一种声音认为,像Chat-GPT这样的big thing,相当于重新定义了互联网,也重新定义了交互,比尔-盖茨对此展开了热情的讴歌。
Meta在一定程度上是对的,AR/VR会是空间互联网最重要的交互方式;比尔-盖茨在一定程度上也是对的,通用AI能力将会是拟人交互、多模态交互的基础。
然而,上述两种解决方案都有很致命的缺点。
关于Meta的VR设备,包括字节跳动、苹果即将推出的虚拟现实设备,虽然在交互上有很大变化,但很难做到真正意义上的自然交互,比如,我们无法通过语音、手势与机器交互,而必须通过手柄输入信息,那个手柄只是另一种形式的键鼠。
人机交互的方式,主要是由计算平台决定的,Oculus Quset2,由一颗高通骁龙XR2驱动,其最大功耗为8W,最高的神经网络算力为15TOPS,理想汽车平台的算力为508TOPS,蔚来汽车平台的算力为1016TOPS。
在Oculus Quest2这样的设备中,你很难搭载更大规模的计算平台,一个是功耗方面的原因,一个是散热方面的原因,还有一个是成本方面的原因。
由于AI算力不够,你很难在终端部署AI大模型,也不能与智能终端有流畅的多模态交互。
尽管如此,Oculus Quest2的设备重量依然达到了500g,戴着这个东西,人们很难比较长时间的进行沉浸式的交互。
Oculus Quest2头显的设计思路存在巨大的问题,即把输入的传感器、摄像头,输出的屏幕、计算平台、电池全部集中在一起。
这么多的东西放在一起,以当下人类的制程能力,很难在保证性能的情况下,把设备做得很轻薄,也很难把设备的成本降下来。
Oculus Quest2的另外一个问题是,试图在高通骁龙平台上打造新一代应用,是不切实际的。
Chat GPT是一个好东西,也是一个伟大的产品,但这不是一个终端产品,而是一个云端的AI大模型。
云端AI大模型,具备比较强的AI智能,但无法改变终端的人机交互方式。
因为,用户必须通过当下的智能终端,如PC或智能手机,通过网线与云端大模型进行交互,这会造成很多的问题。
比如,人们只能在智能手机上,通过打字给云端的AI大模型提出需求,AI产出的内容,也只能通过智能手机那个窄窄的屏幕给到用户。
假设当GPT-4生成一个PPT时,如果我只能通过打字给出修改意见,这显然是不现实的,这样的功能很酷,但不具有应用价值。
在通常的PPT制作和修改的场景,老板会把下属喊过来,告诉PPT的目标、一些重要的指导原则,一些结构,然后会指出一些具体的错误和问题,下属会把这些问题都记录下来,回去继续改,改完之后继续检查和反馈。
这个流程无法通过智能手机与云端的AI大模型进行交互,一堆修改意见,不能通过语音、手势、图像等全面的形式反馈出来,而只能通过敲字,会让人崩溃的。
没有高效的交互方式,人们在日常的工作流之中,就很难真正意义上使用AI大模型,这也会使得AI大模型无法获得人类用户的反馈改进自己的能力。
这和智驾的落地应用没有本质的区别,在一款终端计算平台为Mobileye EyeQ4的车上布置ADAS系统,无法将大模型部署在本地,它看起来有ADAS功能,但它的可靠性使得人们很难真正信任他,这必然导致ADAS里程渗透率不高,没有使用就没有corner case,很难真正意义上提升智驾大模型的能力。
当英伟达OrinX搭载在车端之后,一切都改变了,智驾大模型可以部署在本地,汽车机器人具备了不错的智驾能力,能够有效地与外部交通流互动,人们使用智驾的频次越来越高,ADAS的里程渗透率持续提高。当不需要高精地图的城市NOA实现之后,这样的效果会更加明显。
当ADAS的里程渗透率持续提高时,智驾大模型随着使用率的提高而将会获得越来越多的corner case,从而可以提升自己的能力边界。
AI大模型大规模落地的瓶颈是解决信息大规模交互问题,或者说自然交互问题,而自然交互的基础,是本地化的AI算力和AI大模型。
在PC和智能手机时代,人机交互的环境是平面图形界面,应用程序将自己的能力转化为一个个菜单、button,用户移动光标,通过点击菜单获得服务。
对于AI大模型而言,由于具备极强的信息处理能力和信息生成能力,Windows和iOS的平面图形界面以及轻量级的信息吞吐效率,则会束缚AI大模型能力的发挥。
对于AI大模型而言,最佳的人机交互方式,就是类似于人与人之间的自然交互。
自然交互,有三个核心特征:
在交互环境方面,是发生在三维空间中的交互,而不是之前的在平面中的交互。
在信息承载的介质方面,自然交互是多模态交互,信息除了通过图文传输之外,还通过语音、手势、视频、神态等多种方式传递。
在信息传递精确性方面,平面图形界面的交互是精准交互,且提交的信息极度清楚,而自然交互无论是语音、视频、手势还是神态,提供的信息都是模糊的信息,需要大量的理解。
人与人交互,最大的特点在于,参与交流的个体都是智能体。通常情况下,认知层级差不多的人,交互会更加通畅,认知水平越高的人,交互的效率会越高,不同频的一起沟通很痛苦。
这就意味着,如果人们试图与电脑进行自然交互时,人本身是一个智能,那么那台电脑也需要具备很强的通用智能,电脑的智能程度越高,它理解人的意图的能力就会越强,人与之交互的效率也就会越高。
在这里,这台电脑的AI算力越强,在本地布置的AI大模型就可以越大,本地智能能力就会越强,人与之交流就会越顺畅,使用的频次就会越高,AI大模型获得人类的反馈就会越多,就越能不断地扩大自己的能力边界。
AI大模型的竞争,本质上依然是数据的竞争,更进一步说是应用场景的竞争,应用场景,代表了数据闭环,也代表了商业模式的闭环。
上述的一切,都需要基于一个东西,即一台AI计算机。
Smart EV,将会是人类历史上第一代AI计算机。一些比较明确的原因包括:
1.Smart EV,已经成为私人拥有的、具有高性能计算平台的设备。
在当下,智能电车的算力约为500-1000TOPS;到2025年,预计可达到4000-8000TOPS;到2028年,预计会进化到30000-60000TOPS。
如此庞大的终端AI算力,将会为AI大模型的本地部署和自然交互奠定坚实的基础。
2.在Smart EV里,拥有非常丰富的传感器,也会拥有丰富的屏幕,以及支持这些输入输出设施所需的电力供应、散热解决方案。
借助于超级终端AI计算平台和丰富的传感器,人们可以有自然地与机器进行交流的潜力,也有流畅地使用虚拟现实的潜力。
完善的水冷条件往往会被忽略。
这使得在短期之内,人们无法在其他场景打造一个具备水冷能力的AI智能终端,比如办公室、客厅场景。
在当下,只有智能电车拥有闭环的对AI超算平台进行水冷的系统。
Smart EV要想成为新一代智能终端,还有一些工作必须要完成,包括:
1.智能电车中用于智驾的算力,还需做到可应用在智舱,即在芯片层面上实现舱驾融合,打造真正意义上的中央计算平台。
这个事情,会在2025年实现,在经过一代时间的进化之后,在2028年会达到成熟的阶段。
当然了,AI计算机的核心是NPU,怎么与GPU、CPU以及DPU进行融合,以及是进行板级亦或SoC级的融合,暂时不是当下的重点。
2.Smart EV需要有自己的OS,定义新一代智能终端的交互环境、交互方式。大概率会是空间图形界面和拟人交互。
3.围绕着Smart EV打造新一代的输入输出设备。
如果Smart EV要成为一台真正的AI计算机的话,需要把智能电车的某个部分视为一台计算机,在设计之初,就要考虑到人机交互所需的输入输出的问题,关键的问题是输出设备。
要让人能够非常容易地与AI计算机交互,是设计下一代输出设备的核心任务。
从时间节奏上看,依托于智能电车,人类社会第一代真正意义上的AI计算机,也许会在2025年左右问世。

打造AI计算机

促进第三代智能终端的问世,即打造人类历史上第一台AI计算机,是本文的初衷。
在这里,对于如何定义一台好的AI计算机提出一些思考,供业界人士参考。
一台好的AI计算机,需要解决以下3个问题:
1.闭环的硬件系统。
一台好的AI计算机,必须拥有闭环的硬件能力。
这些能力包括信息输入、信息计算、信息存储、信息传输、信息编程和信息输出,车企需要在信息处理的整个链条上实现闭环,并打造相应的供应链。
当下遇到的一些问题在于,车企对于智能电车将会成为下一代智能终端这个事情缺乏深入的思考,在造车的时候,并没有从打造AI计算机的角度来定义和思考产品。
这带来的很多问题,一些明显的问题是:
在信息输入端,高清摄像头、Lidar、Radar等3D传感器,能够初步解决输入问题,但这些传感器只被用于智驾系统与外界环境的交互,并没有成为人机交互的信息输入体系。
在信息计算方面,目前的AI处理器主要用于智驾,只用于部署智驾的大模型,但没有考虑在智舱端落地AI大模型,为大规模的人机交互奠定基础。
此外,AI大模型和处理器,在处理信息方面非常高效。然而,在展示和渲染信息方面,并没有相应的解决方案,目前看,高效GPU依然是不可或缺的利器。
这些东西需要整合在一个主板上,甚至是在同一个soc上。
存储和通信问题不大,通信的问题是,5G基础设施建好了,应用生态还没有起来。反而让很多专家质疑,5G基础设施的建设超前了。
对于将智能电车打造成AI计算机,当下最大的问题在于信息交互的闭环,一个是搭建交互的环境,一个是高效输入,还有就是高效输出。
AR/VR这种三维交互是方向,但解决方案不是VR一体机。
如前文所述,绝大多数企业采取一体机的方式做VR设备,带来的结果是性能很差、设备很笨重、价格很贵。
在目前的制程条件下,分体机是比较靠谱的解决方案。
这个解决方案,智能电车提供算力、能源、感知、座椅,而供人们佩戴的眼镜,只需要做展示、定位、眼球追踪等少量功能,只需要轻量级的计算能力和带一点点电源,拥有wifi网络和无线充电能力。
在交互硬件方面,除了闭环的信息系统之外,有一些点也值得思考和纳入考虑之内。
比如,也许可以考虑把其中的一个座椅进行针对性设计,打造成为XR专用座椅;此外,还可以与空气悬挂、空调、香氛、氛围灯、电致变色玻璃整合起来。
对于硬件体系的进化节奏而言,一开始,XR设备可共享智能电车的算力、能源和感知系统,以分体机的方式整合在一起;后续,为了扩大移动性,可以共享人形机器人的算力、能源和感知系统,加上一个XR眼镜,就可以进入到三维图形界面;在制程比较成熟的时候,可以把计算和感知系统整合进XR眼镜,但还需要为其搭配移动电源,或高效无线补能解决方案,能源问题在短期之内很难解决。
2.新一代OS。
基于全新的硬件体系,新一代OS最重要的任务是定义人机交互。
从图形界面交互系统看,定义人机交互,要做两个事情:
a.交互环境的搭建。图形界面OS的作用是把计算机所有的资源可视化,让人们所见即所得。
b.输入和输出。即主要通过鼠标和键盘进行输入,后续也通过麦克风、摄像头进行输入。但电脑接收命令的核心方式是“点击”。核心的输出方式是显示器,来展示文字、图片和视频内容,全部是二维信息。
对于空间OS而言,相应的,也要做上述两个事情。
在搭建交互环境方面,依然会是图形界面系统,但会从平面的图形界面系统进化为三维图形界面系统。
在PC和智能手机上,人们只能通过窄窄的屏幕查看计算机和网络的资源,在AI计算机上,通过XR设备进入一个三维的虚拟世界,人们可以看到的“视界”是无限大的。
在输入输出方面,AI计算机需要能够准确无误地接受人的语言、手势、表情、动作等多方面的信息,这除了需要有丰富的传感器之外,需要非常强的AI能力,能够识别语言背后的语义。
这就意味着,这个空间OS,除了要搭建空间图形界面交互环境之外,还需要强大的通用AI能力,能够理解人类多模态的输入信息。
在输出的文档形式上,除了之前的文、图、视频、音频之外,AI计算机的文档形式中,会增加3D静态物体和3D动态影像。
一个可能的使用场景会是这样,当用户上车之后,戴上一个较为便携的XR眼镜,自动开机,用户可以选择是AR模式还是VR模式。
如果是AR模式,可以把智能电车感知到的外部环境,传递给用户,随着人的角度的转动,给出不同方位的景象和人。
一开始,人机的交互场景可以是车内,后续可以扩展到车外。即在车外稍微有一点距离的地方,也可共享智能电车的算力、能源和感知系统。
智能电车里的经过训练的神经网络,能够识别出外部的物体、人、动物等。
此外,三维环境中还会有一个虚拟人,用户可以对其进行提问,以实现各种功能;当然了,也需要有三维的菜单,人们可以通过手指点击、语音等方式进行控制。
AR的本质是智能终端把现实的物理世界数字化,人们可以用各种方式处理这些内容,可以传输、可以直播,也可以将这些东西share给朋友并进行解读,也可以通过云端的数据库,对现实物体提供很多数字化信息进行解读。
AR会是非常好的生产内容的方式。
比如,用户可以选择是否要打开直播模式,使得所看到的东西,可以被直播出来,在这过程中,用户可以边播边讲解。
当然了,在初期,人不能离智能电车太远,因为XR眼镜不具备独立的高性能计算和电源模块,只有一些基础计算和能源备份。
如果是VR模式,同样会有虚拟人,“立体桌面”,这个立体桌面就是人与机器进行空间交互的虚拟环境,可以是海洋风格、田园风格、草原风格,立体桌面的打造,也会是一个创业方向。
当然了,同样也会有三维菜单,这种菜单也许会分布在一个大型图书馆中,你推开一扇门,就会进入一个不同的世界,每一扇门背后,都对应着一个平行宇宙。
在平行宇宙中,你可以召唤出一个次元门,再次回到“立体桌面”处。
3.应用
应用是智能终端必不可少的部分,不过,应用生态的演进会是一个过程。
2007年,苹果发布iPhone发布的初期,甚至于没有AppStore,只有浏览器、收发邮件、看视频、听音乐等功能,不过灾难的是,人类那个时候只有2G网络。
但是,iPhone的革命性价值在于多点触控交互方式,以及那块3.5英寸的多点触控屏,还搭载了一块ARM架构的芯片,三星S5L8900,90nm的制程。
因为没有人代为开发应用,苹果自己做一些原生应用,包括浏览器、打电话、看视频、听音乐、收邮件等原生应用。
在那个时候,没有AppStore也很合理。
随着iPhone销量的增加,一些嗅觉灵敏的开发者蜂拥而至,移动互联网应用生态逐步形成。
对于第一代AI计算机而言,比较好的策略是可以把一些强大的对话式AI大模型引进来,以及在通信、视频和游戏方面配置一些资源。
不要在一开始的时候,就试图打造一个“元宇宙”。
空间互联网应用生态的完善会是一个过程,一方面,取决于AI计算机规模的数量;另一方面,取决于5G网络的持续完善,甚至于是6G网络的发展。
当然了,我们可以对未来展开一些想象。
在空间互联网时代,一些比较明确的应用方向包括通讯、游戏、视频、音乐、社区、教育、电商、资讯、直播等一切当下互联网、移动互联网的应用,并在交互体验上会有显著的改变。
在教育上,任何一堂大师课,通过AR和VR的方式,都可以被其他没有条件的学生所共享。
此外,在教育领域,通过Chat GPT这样的大模型,可以在各个学科训练水平比较高的导师,可以检测每一个孩子的学科水平,提供针对性的1对1教育服务。
通过AI,人们可以从根本上改变优质教师资源不足的问题。
在虚拟现实环境,虚拟学科导师在授课时,还可以有专用的3D教学环境,甚至可以直接给出大量的应用场景,让学生的教学过程变得非常有趣。
也可以在医疗领域打造“基础版医生”,经过大量的数据训练,能够极快判断一个病人的症状,并立刻召唤来一个移动检测机器人,现场就可以给出检测结果并返回给医学机器人,并给出相应的诊断建议。这将会极大地改善医疗资源不足地区的人群的健康状况。
几乎在任何一个专业的领域,都可以打造基础版的服务机器人。
在电商方面,无论是实物电商、还是服务电商,一定会转移到空间互联网中,因为这是真正意义上的所见即所得。
在实物电商方面,任何一个物品,都可以被放到空间互联网上,人们可以无死角地对这些物品考察,甚至可以直接选自己所要购买的那个物品,可以与导购专家进行讨论,这使得那些粗制滥造的产品没有任何存在的空间。
第三方甚至可以训练一个AI导购专家,与用户进行交流,能够高效地进行购买指导,知道所有产品的性能、供给和价格情况。
大众点评的运营模式会被颠覆,通过AR,用户可以直接访问当下馆子的运营情况,是否有空位,环境如何,甚至可以与现场吃饭的人交流,体验到底如何?
同样,酒店的选择、旅游景点的选择,将会完全被颠覆。
从这个意义上而言,汽车的展厅将会失去意义,人们完全可以通过线上无死角体验一款车,形状、功能几乎完全一样,可以在线上与销售沟通,可以模拟试驾,也可以上门试驾。
在ARGC时代,自媒体会变得非常恐怖,人们通过AR生成内容的成本,将会远低于现在的手机直播。
事实上,物理世界被数字化掉了,包括拥有智驾能力的电车、机器人的大规模出现,意味着他们所看到的世界,都是被数字化过的世界,在隐私得到保护的情况下,都可被共享到网络。
在那个时代,公域数据和私域数据需要严格地被界定,个人的隐私需要得到有效的保护,网络安全会变得无比重要。

AI计算机的价值

在这里,还是要总结一下AI计算机对于人类社会的价值。
1.AI世界的母生态
如果没有面向个人的AI计算机,人类无法在现有的终端上开发AI时代的应用,实际上人们不会真正意义上进入AI时代。
在当下,看起来OpenAI开放了一些API供第三方开发者在一些特定领域做应用开发,比如,在酒旅预定、外卖、电商、法律知识、专业问答、文字转语音等领域,ChatGPT封装了一些能力,可以开放给一些第三方应用使用,看起来Expedia、Open Table、Shop、Zapier、Speak和OpenAI进行了合作。
这个合作的本质是,这些三方的应用获得了ChatGPT的AI能力和对话能力,而OpenAI则希望获得数据,但由于模型控制在OpenAI手里,在获得corner case之后的训练,只能由Open AI来实施,但他们需要应对很多第三方的corner case,很难说优先把哪个领域的问题闭环地解决掉,也许会有一些改善。
然而,这个事情可行的前提是,人们通过ChatGPT来获得服务,即意味着ChatGPT被整合进业务流中,是交互的主流程,用户的活跃使用,是获取corner case的基础,但在PC或者智能手机上,这个很难。
以外卖场景为例,早上中午11点,车评君打开美团APP,不会对着ChatGPT说话,说我要订外卖,这在办公室之中非常违和。
ok,我们可以躲在厕所里干这个事情,但由于办公室wifi状况时好时差,通过手机与机器人语音对话的效果极差,这是在手机端一直未能普及语音对话的关键原因。
好吧,现实一点,通过打字和对话机器人交互,这又特别低效,我需要在触控屏上打字:“我要吃江户前寿司丽都店的烧肥牛饭套餐。”打完这段话之后,其实我已经崩溃了,因为我记不住平时常点外卖的那家店的名字,我把江户前寿司打成了江户川,把丽都店打成了酒仙桥店,同样,我也记不住我经常吃的套餐的名字。
与AI交流,绝大多数情况下,用敲字交互是特别愚蠢的。
语音、手势和视频才是王道。正常的交互流程应该是这样的:
“MOSS,我饿了。”
“好的,吃昨天的那家外卖?”
“换点其他口味?”
“好的,这是你过去一段时间最爱吃的外卖组合排名。”
“第三家吧。”
“外卖已预定。”
这个场景,如果在智能电车上,戴一个XR眼镜与机器进行交互,就会显得不那么违和。这里有两个原因:一个原因是有私人空间,另一个原因是智能电车是一台AI计算机,能够支持高效地人机交互。
在这里,AI计算机和智能手机相比,最大的特点是交互效率至少提升了100倍,当用户觉得爽的时候,这些应用才有可能真正的落地。
再看看律师服务场景。
在涉及一些具体案例分析的时候,如果你通过敲字与ChatGPT交流,这个事情其实是难以发生的。当然了,在一些需求特别明确的场景,以及特别基础的场景,这个事情是可行的。
但是,由于这些事情的频次不够,且人们不知道ChatGPT是否有这样的能力,就无法占领用户心智,在有需求的时候也不会想到它。
不过,在当下,美团APP中显然整合了AI能力,比如说在推荐场景,它能够根据我的喜好,比较高效地把一些馆子推荐给我。
在百度的搜索中,显然也整合了AI能力,文心一言也可以对一些query给出答案。
但是,AI作为一种智能,最佳的交互方式是多模态,本质上是一种更加高效的、更自然的模糊交互,没有这种交互方式的支持,AI的优势反而成为了劣势。
AI计算机是自然交互的基础。
有了AI计算机之后,每个人都有了利用AI能力的工具,大幅度提升工作、学习、娱乐的效率,在商业模式闭环的情况下,开发者才会去开发真正的AI应用,形成新一代的应用生态。
AI计算机,是每一个AI应用的运行平台,是AI和AI互联网的母生态,为AI计算的大规模普及奠定基础。
2.产生巨大的AI产业
AI计算机的出现,作为一种新型的计算终端,其大规模的普及,围绕于此,将会诞生一个庞大的硬件制造产业链条。
芯片、传感器、显示器、移动通信、数据中心,每一个环节都会拥有巨大的产业链和庞大的产值。
比如,5G通讯网络,几乎是空间互联网应用量身定制,它们需要快速地将三维空间信息迅速地download到AI计算机上,人们才可能沉浸式地进入到虚拟现实之中。
当然了,随着AI模型变大,本地处理能力的持续攀升,人们很快就会发现5G的通信能力是不够的。
有了AI计算机之后,随之而来的,将会是AI应用生态的兴起,并形成新一代互联网——空间互联网。
这是一个无比庞大的产业,其规模将会远超今天的移动互联网。
这个网络,无论是在效率、娱乐、学习、健康、体育、旅游等各个方面带来的效率提升,将会远远超乎我们的想象。
当AI应用可以进入到人们日常生活时,大量的使用,会带来大量的用户反馈,这将会为AGI的发展奠定基础。
在这里,我们可以下一个结论,当且仅当AI应用大规模服务于人类时,AGI才会有发生的可能。
在那个时代,AI的通用智能能力将会大幅提升,随着时间的推移,每一个AI计算机都将会演进为一个具有智能的机器人。
随之而来的,这个世界上会出现越来越多的机器人,会在生产力替代的各个环节发挥作用,一个大概率的事件是,机器人的数量将会远超人类。
大量机器人的出现,除了产生一个规模相当于智能电车这样的大产业之外,人们探索未知世界的能力将会大幅度提升。
如果说,人类更适合于地球,AI机器人则更适合宇宙,他们可以去探索更加遥远的星辰大海,去月球、去火星解决人类的多基地备份问题。

总结

在全球范围内,具备打造AI计算机能力的企业,是那些具备AI、芯片、OS能力的车企,在当下,这样的企业并不多。
当然了,当你想创造一个东西的时候,得先定义一个东西,这些企业除了具备技术能力之外,还需要很强的产品能力。
定义智能终端和交互的企业,会是这个时代最NB的企业,世界上市值最高的两个科技企业,或者说企业,一个是苹果,一个是微软。
下一个市值最高的企业,会是定义AI计算机的智能电车企业。
责编:Ricardo
文章来源及版权属于汽车电子与软件,EDN电子技术设计仅作转载分享,对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。如有疑问,请联系Demi.xia@aspencore.com
汽车电子与软件
汽车电子与软件
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
广告
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了