《长安的荔枝》这个故事,讲述了一位小吏如何克服重重困难,将时令鲜果从岭南运往长安,这其中涉及保鲜、驿站、路线和补给等一系列复杂系统的协同。清华大学人工智能学院助理教授李一鸣认为,这个故事与当下人工智能领域备受关注的“世界模型”赛道有着异曲同工之妙。他指出,Physical AI(物理AI)所要解决的场景问题,如同故事中的“鲜荔枝”,而为了实现其“运送”目标,从业者需要构建一套涵盖数据采集、模型研发到硬件部署的完整系统方案。

李一鸣在接受《智能涌现》采访时表示,他并不认为“世界模型”本身是第一性原理,其核心价值在于解决实际问题。他将其比作“一匹运送荔枝的马”,离开了其他环节的配合,其价值将大打折扣。尽管如此,当他于2026年初回到国内,发现AI领域正弥漫着对“世界模型”的巨大FOMO(错失恐惧)。“世界模型”已成为2026年最具迷惑性的概念之一,吸引了众多参与者,各类视频模型、3D模型以及VLA(视觉-语言-行动)的具身大脑,只要与仿真或物理沾边,都试图归入“世界模型”的范畴。

与追逐概念不同,李一鸣及其团队更侧重于构建一套能够让机器人在各种场景下实现泛化的系统。他们近期提出了一套名为Physical AI Infra的解决方案,该方案由数据和物理双轮驱动。其核心组件包括一个能够将数据采集量级从行业平均的几十万小时提升至百万至千万小时的“数据管线”,以及一个实现“Real-to-Sim-Real”(真实到仿真再到真实)闭环的“物理引擎”。这个物理引擎能够基于真实世界数据构建仿真环境,用于机器人进行强化学习,最终在真实世界中执行任务。

“世界模型”在该系统中并非独立存在,而是贯穿于每个环节。例如,在预训练阶段,“世界模型”可作为训练目标,而在后训练阶段,它则作为机器人进行强化学习的仿真环境。这套基础设施已成功训练了切割、旋拧、插拔、搅拌等精细操作技能,并能够跨不同类型的灵巧手和机械臂部署,同时适用于生产制造、零售服务、酒店运营、餐饮备料、医疗辅助等多种场景。

这套技术方案被“厘清智能”公司所采纳。“厘清智能”成立于2026年4月,由李一鸣团队支持,是一家专注于Physical AI领域的新兴公司。据《智能涌现》独家获悉,该公司在成立仅两个月内便完成了多轮融资,其种子轮融资金额高达数亿元。投资方阵容强大,包括顺为资本、红杉中国、高瓴创投、峰瑞资本、星连资本、水木清华校友种子基金、SEE FUND等知名基金,以及智元机器人、灵心巧手、世纪金源等多方产业资本。

厘清智能受到一级市场青睐,一方面源于其在软硬一体化人才方面的稀缺性。李一鸣本人拥有空间感知、多模态推理、自动驾驶及具身智能等多方面的深厚背景。其团队的50余名成员,平均年龄仅23岁,大多来自清华大学。李一鸣强调,国内稀缺软硬一体化人才,而清华大学为其提供了优质的人才平台。另一方面,厘清智能选择了“重”的技术路线,即从数据采集、模型训练到物理引擎,进行全栈自研。这种模式在国内相当少见,虽然前期投入巨大且技术难度高,但李一鸣认为,只有打通所有环节,才能实现信息流的畅通和协同优化。

李一鸣规划,在2026年底前,团队将发布可跨B端场景的“世界模型”,并计划于2028年实现解决方案的规模化落地。其最终目标是为客户提供一套软硬一体的解决方案,能够跨本体、跨场景地解决问题。在李一鸣看来,Physical AI公司不应局限于本体或模型本身,而应是一家提供“World Model as Service”的公司。他认为,新时代的具身公司应具备全栈能力,从数据采集到模型训练,再到物理引擎,全部自建。

在人才方面,李一鸣认为Physical AI领域需要的是软硬一体化人才,这与LLM领域的人才画像有所不同。由于国内培养体系尚在完善中,他们倾向于自己培养有潜力的学生。

关于Physical AI的训练,李一鸣强调不能仅仅依赖数据采集而忽视物理规律。他指出,具身模型的参数量需要达到甚至超过语言模型的量级,才能实现“智能涌现”。他认为,人类数据比真机数据更容易规模化,并已与多个场景方合作,快速积累了大量数据。然而,他强调仅靠数据采集不足以实现Physical AI的泛化,物理规律能够弥补数据的局限性。厘清智能设计了一套满足物理约束的“世界模型”方案,能够以极少量的真机数据训练出策略模型,达到很高的成功率。

李一鸣还对VLA、视频模型和JEPA等概念进行了辨析,认为它们并非“原生世界模型”。他认为,“世界模型”应负责机器与世界的交互,而语言模型负责机器与人的交互。他指出,基于LLM的VLM和VLA模型与物理世界适配性不强,因为语言模型是一个高度离散化的空间。他认为,训练“原生世界模型”的关键在于高效地对物理世界进行“tokenization”(表征),并将多模态观测压缩成模型可理解的Token序列。厘清智能是少数能够做到这一点的公司,其内部训练的视觉tokenizer效果已优于Meta的DINOv3。

构建Physical AI的Infra是训练“世界模型”的另一大难题。除了数据平台,还需要设计高效的物理引擎Infra,以支持机器人进行强化学习。李一鸣认为,真正的Physical AI Infra能够提升数据效率,优化预训练和后训练效果,并实现跨场景的泛化部署。

展望未来,李一鸣预测2028年将是Physical AI规模化落地的里程碑。他认为,届时数据采集规模和电机密度将实现飞跃,从而支持其方案的广泛应用。在硬件形态上,他认为轮臂(带有轮子的机械臂)是适配大多数操作场景的落地形态,而人形机器人虽然想象空间大,但技术难度也很大。厘清智能将首先与B端客户合作,切入工业、物流及生活服务等场景,积累数据和技能,最终服务于C端。其终极目标是打造一套通用的Physical AI Infra,成为物理操作任务的“iOS”,实现规模化开发和部署。