近年来,元宇宙、Web3.0、仿真数据平台、数字孪生和物理AI等概念层出不穷,普通人很容易感到困惑。这些概念与世界模型之间存在何种联系?

答案是,它们并非完全相同,但都反映了数字世界与物理世界界限日益模糊的趋势。世界模型更像是这些概念的“认知层”或“底层操作系统”,它负责使人工智能能够理解并推演世界。

一、结论:并非同一事物,但同属一个范畴

过去几年科技界热门的概念大致可分为三类。

第一类是“空间体验”,以元宇宙为代表,旨在让人们在虚拟空间中进行社交、工作、消费和生活。

第二类是“生产关系”,以 Web3.0 为代表,试图利用区块链重构数据的归属权、身份认证和激励机制。

第三类是“技术能力”,包括仿真数据平台、数字孪生、物理AI和世界模型。这些技术均致力于通过数字手段来理解、模拟、预测或生成物理世界。

世界模型属于第三类,但其定位更为基础。它并非具体的应用,而是一种使AI能够在大脑中构建可推演世界的能力。元宇宙可能依赖于世界模型,仿真数据平台可视为其前身,数字孪生是其近亲,物理AI是其载体,而Web3.0则基本不属于同一技术层面。

下面将逐一进行阐述。

二、元宇宙:世界模型或可成为其“驱动引擎”

在元宇宙最热门的时期,人们描绘的是一个沉浸式的虚拟社会,包含虚拟化身(Avatar)、数字资产、线上活动和远程办公等。其核心在于一种“空间体验”,允许用户进入、互动、消费和创造。

然而,当时元宇宙面临的最大挑战是内容生产。构建一个虚拟城市需要庞大的美术和工程资源,成本高昂,体验却仍显初级。许多项目最终沦为空洞的展示空间或投机性的土地交易,用户体验短暂。

如果世界模型技术成熟,便可以直接通过文本生成可交互的3D世界,相当于为元宇宙提供了“自动生成器”。例如,Google Genie 3已展示了这一雏形:输入一段描述,即可生成一个可供实时探索的世界。未来,用户或许只需说“我想漫步在1920年代的上海外滩”,世界模型就能生成相应的街道、虚拟人物和故事情节。

因此,元宇宙与世界模型并非同一事物。元宇宙是“目的地”,而世界模型是“建造道路和城市的工具”。世界模型不一定非要服务于元宇宙,但要实现低成本、大规模、可交互的元宇宙,很可能离不开世界模型。世界模型有望弥补元宇宙未能实现的方面。

三、Web3.0:与世界模型基本不在同一技术层面

Web3.0 的核心在于区块链、去中心化、代币经济和用户数据所有权。它旨在解决互联网的归属权和激励问题,而非“机器如何理解和模拟世界”。

打个比方,世界模型研究的是“AI如何在内部模拟世界”,而Web3.0研究的是“数字资产的归属和交易方式”。两者可以结合,例如在由世界模型生成的虚拟世界中使用NFT进行土地交易,或通过DAO管理虚拟城市的规则。然而,它们的技术核心截然不同。

因此,Web3.0与世界模型基本不是一回事。它们的关系更像是:Web3.0可能是未来虚拟世界的“经济规则”,而世界模型是“物理规则”。前者是社会科学范畴的问题,后者是工程技术问题。

四、仿真数据平台:世界模型的1.0版本

仿真数据平台与世界模型最为接近。近年来,自动驾驶公司投入巨资开发仿真平台,如CARLA、51World、Unity自动驾驶仿真和NVIDIA DRIVE Sim。这些平台的核心价值在于,在虚拟环境中生成极端场景,以低成本训练自动驾驶算法。

然而,这些平台的问题在于,场景的构建大多需要人工搭建或基于规则生成。例如,暴雨、暴雪、异常障碍物或行人突然穿越等极端情况,都需要设计师逐一建模,效率低下。此外,基于规则生成的场景往往不够自然,导致算法在训练中可能过度拟合人工痕迹。

世界模型的作用在于,利用AI自动生成这些场景。它不依赖设计师手动摆放障碍物,而是从真实数据中学习物理规律,然后生成无限接近真实的变体。小鹏汽车声称其世界模型支持的仿真测试每天相当于行驶3000万公里,而地平线公司则能让模型在30秒内生成一段可控的驾驶视频。

因此,仿真数据平台和世界模型可以被视为同一事物的1.0和2.0版本。前者依赖人工和规则,后者则通过AI生成。世界模型并非否定仿真数据平台的价值,而是将其推向智能化、自动化和规模化。

五、数字孪生:世界模型增加了“预测未来”的能力

数字孪生近年来在工业、城市和能源领域备受关注。其核心是对物理世界进行高精度的1:1镜像复制。例如,为工厂创建一个数字副本,实时同步设备状态,用于监控、运维和优化;或为城市创建一个数字副本,用于模拟交通流量、管网压力和灾害响应。

数字孪生是“现实的镜子”,回答的问题是:“现实世界目前是什么状态?”

世界模型则更像是“未来的沙盘”。它不仅要知道工厂当前的运行状况,还能预测:如果这条生产线加速,设备是否会过热;如果机器人这样移动,是否会撞到货架;如果明天台风来袭,电网负荷将如何变化。它回答的问题是:“现实世界将会怎样,以及我应该如何行动。”

因此,世界模型包含了数字孪生的一部分能力,但更进一步:从“复制现实”发展到“推演未来”。可以将数字孪生理解为世界模型的一个组成部分或前提条件,但世界模型的抱负更为宏大。

六、物理AI:世界模型是其核心组成部分之一

英伟达的黄仁勋近年来一直在倡导“Physical AI”,即能在物理世界中行动的人工智能。自动驾驶汽车、人形机器人、工业机械臂和无人机等都属于这一范畴。

物理AI在行动时需要三个要素:感知(看到世界)、理解(了解世界规律)和决策(选择行动)。

世界模型负责中间环节——理解世界规律并预测未来。它使AI不仅能识别前方的障碍物,还能预判障碍物的未来动向,以及自身不同行动可能导致的结果。

因此,可以说世界模型是物理AI的核心组成部分,但并非物理AI的全部。物理AI还包括传感器、执行器、控制算法、安全系统等。世界模型可以被视为物理AI的“大脑皮层”,负责在行动前进行推演。

七、一张图看懂它们的关系

如果将这些概念置于一个层次结构中,大致如下:

  • 底层基础设施: 计算能力、GPU、云、传感器、数据采集。
  • 认知层: 世界模型——理解并推演物理世界的规律。
  • 应用工具层: 仿真数据平台、数字孪生——将认知能力转化为训练或监控工具。
  • 行动层: 物理AI——在真实世界中行动的机器人、自动驾驶汽车等。
  • 体验层: 元宇宙——人类沉浸其中的虚拟空间。
  • 规则层: Web3.0——所有权、身份、经济激励规则。

世界模型处于“认知层”,向上支撑应用工具、行动系统和虚拟体验,向下依赖计算能力和数据。它本身并非任何一个独立的概念,但可能是许多概念的共同基础。

八、世界模型可能是这些概念的“操作系统”

这些概念之所以容易混淆,是因为它们都指向同一个大趋势:数字世界与物理世界的界限正在模糊。

元宇宙旨在让人们更多地生活在数字世界;Web3.0 旨在让数字世界的资产归个人所有;仿真数据平台旨在利用数字世界训练物理世界的AI;数字孪生旨在实时同步两个世界;物理AI旨在让AI在物理世界中行动;而世界模型则使AI能够在其内部构建一个可推演的世界,是连接数字与物理的“认知层”。

世界模型不一定会取代这些概念,但它可能成为许多概念的底层基础设施。就像操作系统不取代应用程序,但所有应用程序都运行在操作系统之上。元宇宙、仿真平台、数字孪生、物理AI等应用程序,最终可能都需要世界模型这个操作系统来调度对世界的理解。

那么,过去热门的概念与世界模型是否是同一事物?严格来说,不是。但许多概念最初的设想,最终可能需要依靠世界模型来实现。