网上股票配资 精准狙击马斯克, 何小鹏押宝世界行为模型

网上股票配资
在11月5日的AI科技日上,小鹏汽车揭开了第二代VLA方案的一缕面纱。
“去掉了语言转译层”、“与标准VLA方案不同”的寥寥数语,引发了大众对小鹏自动驾驶算法架构的诸多猜测。
好事者最为关心的是,小鹏新一代VLA是否开始转向了华为WE世界行为模型。
由于事关用户心智,为了避免宣发上的营销劣势,大师兄对此语焉不详。
那么,事情的真相到底是什么样呢?
01
在黑话横行的本土自动驾驶市场,谁能打造出一个清晰易懂且代表前沿方向的技术标签,谁就能在用户的心中占据位置上的遥遥领先。
鉴于华为已经将世界行为模型打造成了其智驾技术的核心标签,如果小鹏跟随使用相同的技术名词,就会陷入沦为跟班的困境,面临为他人做嫁衣的风险。

但形式不改实质,综合来看,小鹏第二代VLA的架构在本质上就是世界行为模型。
在标准的VLA中,遵循的是V->L->A的串行架构,作为中间层的语言L是内部推理的桥梁,用于将视觉的场景转化为可理解的文本逻辑,然后再将这些场景理解转译为轨迹和动作。

而在标准的世界行为模型中,模型会基于三维空间形式而非语言形式的理解,在内部重构一个数字形式的物理世界。
然后通过预测不同决策下环境的变化,选择最优路径,最后根据路径轨迹生成相应的动作,直接控制车辆。
很显然,小鹏第二代VLA遵循的就是世界模型里「理解」->「推演」->「生成」的路径。

小鹏第二代VLA之所以转向世界行为模型,主要是为了解决信息损耗、推理效率的问题。
在标准VLA架构中,存在视觉-语言、语言-动作的两次转译,这两次转换不可避免地造成了信息的丢失。
就像大师兄在科技日上讲的那样,即便用1200多字的文本来描述一张二维图片,也无法描述得非常全面。

之所以如此,是因为对自动驾驶而言,真正重要的是场景理解,是对外在物理世界的全面洞察,而文字描述只是对物理世界的有损表达。
对于物理世界的理解,真正的关键是「语义」,而非「语言」,富含语义的二维图像和三维视觉特征,显然无法被语义承载能力孱弱的一维文本式语言序列全面表达。

这是维度不同带来的根本难题。
在三体世界里,四维世界的歌者文明能轻松地通过二向箔对三维世界的太阳系造成降维打击。
在太阳系文明里,三维世界的人类也可以从从容容、游刃有余地造成二维世界蚂蚁的慌慌张张、连滚带爬,完美诠释了什么叫向下兼容和降维打击。
所以,在自动驾驶算法里,真正要克服的根本难题是从二维图像到三维空间的升维,而不是从二维图像向一维语言的降维。

至于推理效率,首先,标准VLA模型的架构是V-L-A,需要先将二维图像形式的车辆周围环境转换为一维形式的文本语言。
然后在大语言模型里进行推理,将对场景的理解转换成控制动作,中间存在V-L、L-A的两次语言转译,步骤多、延迟高。
而世界行为模型直接完成V-A之间的映射,自然延迟低、效率高。

其次,标准VLA模型的核心组成部分,是具备了太多冗余能力的大语言模型。
我们之前曾经调侃过,司机智能体只需要完成安全、高效、舒适、合规的驾驶任务就足矣,不需要他上知天文、下知地理、学贯中西,一言不合就开车。
02
强化学习之父、今年的图灵奖得主理查德·萨顿在表达对LLM(大语言模型)的不屑时表示,对于智能而言,语言部分只是表面一层薄薄的装饰。
致力于发展具备空间理解能力的LWM(大世界模型)的AI教母李飞飞也有“语言只是世界这个‘事实总和’的一小部分”的类似观点。

当然,我们必须承认,语言是对思想和信息极其强大的编码方式。
作为人类智慧的重要部分,语言智能是相互交流和深邃思考的媒介,也是全社会知识财富积累的载体。
正是有鉴于此,二十世纪伟大的哲学家维特根斯坦曾经提出过一个核心命题:语言的边界就是世界的边界。

含着金钥匙出生的维特根斯坦捐出了全部的财产,我们要给他点赞。
但是,对于他这个观点,我们还是要批判一番。
站在智能的角度,自然界充斥着各种各样与语言无关的智能形式。
要知道,语言智能是在文字出现之后才发展出来的,在文字出现之前的漫长时期里,人类以及各类动物早就已经具有了强大的具身智能。
在这两种智能形式里,驾驶任务显然和具身智能更加相关。

我们也可以通过一个非常简单的例子来解释语言智能在驾驶任务中的局限和缺陷。
比方说,让一个看不见但能听得见的盲人坐到驾驶位上,您一直不停地在他耳边解释、表达交通场景,前面几米处有车、两边的车道线在什么位置、右边有几位外卖小哥、道路曲率是多少、前方多少米有红绿灯,就算你描述得非常清楚,想必盲人师傅也是不敢开的吧?

你不需要拥有180的智商,就能意识到,对于驾驶任务而言,重要的是理解并在“大脑”内重建三维空间,而非理解一维语言。
正是因为将二维图像、三维空间转换成一维语言描述是一种损失非常非常大的生成方式,造成了太多信息的丢失,我们才立法禁止盲人开车的。
这个例子可以很好地反映以语言智能为核心的VLA方案的核心缺陷!
昔日佛陀在世,教化弟子三千,有弟子问佛陀他讲的智慧是不是包含了这个世界上的全部。
佛陀抓起一把土说,我讲的只是我手中的土,没有讲出来的就像 大地上的土一样多。
为什么?就是因为语言的表达能力太孱弱了!
基于同样的理由,小鹏汽车放弃了大力宣传了将近一年之久的VLA方案,转向了华为、特斯拉领衔的世界行为模型。
既然如此网上股票配资,一个有趣的问题来了,小鹏已经倒戈,理想汽车还会远吗?宣称要在今年拿出VLA方案的小米又该怎么办?
牛牛配资提示:文章来自网络,不代表本站观点。


