物理AI 世界模型 資料圖片

物理AI和世界模型重塑AI產業

商業

廣告

從「會說話的AI」到「會行動的AI」,物理人工智能(AI)與世界模型,正在重塑AI產業的下一條主線。

過去幾年,人工智能的主角是大語言模型。它們能寫文章、生成圖片、輔助編程,卻仍主要停留在數字世界。
而筆者預測人工智能下一階段的核心命題,是轉向一個更艱難也更有產業縱深的方向:即讓AI進入真實物理世界,並在其中完成感知、預測、規劃和行動。
也就是說,AI不再只是屏幕裏的助手,而是成為能夠理解空間、物體、運動、力學關係和環境變化的行動主體。這正是「物理AI」和「世界模型」受到資本、科技巨頭、自動駕駛公司和機械人企業共同關注的根本原因。
所謂物理AI,並不是簡單地把大語言模型裝進機械人,而是讓機器具備對空間、物體、力學、運動、因果關系和環境變化的理解能力。傳統AI大模型可以告訴機械人「把杯子拿起來」,但真正困難的是:機械人要知道杯子在哪兒、怎樣抓不會滑落、移動過程中如何避開障礙、抓取失敗後如何調整動作,以及杯子被碰倒之後會發生甚麼,其更多解決「這是甚麼」的識別問題。

真實世界試錯成本太高

而物理AI要進一步回答三個更複雜的問題:世界將如何變化、「我」應該如何行動、行動之後會帶來甚麼結果。
在這一框架下,世界模型可以被理解為物理AI的「預測引擎」或「大腦底座」。
它試圖在機器內部構建一個可推演的世界副本,讓智能體在真正行動之前,先在模型中進行模擬、預判和試錯。
對機械人和自動駕駛而言,這一點極其關鍵:因為真實世界的試錯成本太高,機械人不能像語言模型一樣依賴海量互聯網文本訓練,也不能在工廠、道路或家庭中無約束地反覆犯錯。
世界模型的價值,正在於用「可預測的虛擬世界」降低真實世界學習成本。

從概念走向商業化

這一趨勢已經從概念走向產業化:輝達(Nvidia,美股代號:NVDA)推出Cosmos世界基礎模型平台,目標是為機械人、自動駕駛等物理AI場景,提供可用於訓練和仿真的世界模型能力。
Google DeepMind的Genie系列可以由由文本生成可交互環境的方向,意味著世界模型正在從「生成視頻」邁向「生成可探索、可行動、可反饋的環境」;Figure AI的Helix則代表更貼近機械人落地的路線,通過「視覺—語言—動作」模型,把感知理解和連續控制連接起來,推動通用人形機械人執行真實任務。
這說明,物理AI的產業競爭已經不再是單點模型能力的競爭,而是系統能力的競爭。它至少包含三層結構:底層是數據與仿真,包括機械人本體數據採集、多模態傳感器、三維重建、數字孿生、合成數據和物理仿真平台。

中層是模型,包括世界模型、VLA模型、動作模型、策略模型和具身基礎模型;上層是應用,包括工業製造、倉儲物流、家庭服務、自動駕駛、礦山巡檢、農業作業和特種作業等。

內地企業有先天優勢

過去機械人產業的瓶頸主要在硬件可靠性和單任務工程化,未來的核心變量將轉向數據閉環、模型泛化和系統級部署能力。
對於內地市場而言,物理AI的機會不只在模型本身,更在產業應用場景和供應鏈閉環。
內地擁有全球領先的製造業體系、豐富的倉儲物流場景、快速迭代的機械人供應鏈,以及大量可被自動化改造的產業現場。這意味著,內地企業未必須在通用基礎模型上與海外巨頭正面硬拼,而是可以從垂直場景切入,圍繞「數據採集—仿真訓練—模型部署—現場反饋」形成閉環。

而內地的資本市場對這一方向判斷更理性:物理AI不是又一個可以快速複製的純軟件賽道,它同時考驗算法、硬件、數據、工程交付和客戶場景理解。
真正有價值的公司,通常具備三類能力:一是能持續獲得高質量真實交互數據;二是模型能跨任務、跨設備、跨場景遷移,而不是只會做演示;三是擁有可驗證的商業閉環。因此,未來三到五年,物理AI行業可能呈現「兩頭熱、中間硬」的格局。

從工具變成生產力

一頭是科技巨頭建設世界模型、仿真平台和具身基礎模型,另一頭是垂直應用公司在具體場景中拿訂單、磨產品。
最難的是中間層,即如何把大模型能力轉化為可靠、低成本、可部署的機械人系統。誰能打通這條鏈路,誰就可能成為下一代智能產業基礎設施的重要參與者。

整體而言,物理AI代表的是AI產業範式的轉變。大語言模型讓機器學會了表達和推理,世界模型則試圖讓機器學會理解和預測現實。前者重塑的是信息生產,後者將重塑物理生產。
筆者團隊認為,物理AI真正的產業拐點,不會來自某一次炫目的機械人發布會,而會來自機械人在工廠、倉庫、道路、礦山和家庭中,日復一日穩定工作。當AI從「生成內容」走向「改造現場」,它才真正從工具變成生產力。

撰文:戈壁創投