物理AI和世界模型重塑AI產業

商業

Jun 5 2026

從「會說話的AI」到「會行動的AI」，物理人工智能（AI）與世界模型，正在重塑AI產業的下一條主線。

過去幾年，人工智能的主角是大語言模型。它們能寫文章、生成圖片、輔助編程，卻仍主要停留在數字世界。
而筆者預測人工智能下一階段的核心命題，是轉向一個更艱難也更有產業縱深的方向：即讓AI進入真實物理世界，並在其中完成感知、預測、規劃和行動。
也就是說，AI不再只是屏幕裏的助手，而是成為能夠理解空間、物體、運動、力學關係和環境變化的行動主體。這正是「物理AI」和「世界模型」受到資本、科技巨頭、自動駕駛公司和機械人企業共同關注的根本原因。
所謂物理AI，並不是簡單地把大語言模型裝進機械人，而是讓機器具備對空間、物體、力學、運動、因果關系和環境變化的理解能力。傳統AI大模型可以告訴機械人「把杯子拿起來」，但真正困難的是：機械人要知道杯子在哪兒、怎樣抓不會滑落、移動過程中如何避開障礙、抓取失敗後如何調整動作，以及杯子被碰倒之後會發生甚麼，其更多解決「這是甚麼」的識別問題。

真實世界試錯成本太高

而物理AI要進一步回答三個更複雜的問題：世界將如何變化、「我」應該如何行動、行動之後會帶來甚麼結果。
在這一框架下，世界模型可以被理解為物理AI的「預測引擎」或「大腦底座」。
它試圖在機器內部構建一個可推演的世界副本，讓智能體在真正行動之前，先在模型中進行模擬、預判和試錯。
對機械人和自動駕駛而言，這一點極其關鍵：因為真實世界的試錯成本太高，機械人不能像語言模型一樣依賴海量互聯網文本訓練，也不能在工廠、道路或家庭中無約束地反覆犯錯。
世界模型的價值，正在於用「可預測的虛擬世界」降低真實世界學習成本。

從概念走向商業化

這一趨勢已經從概念走向產業化：輝達（Nvidia，美股代號：NVDA）推出Cosmos世界基礎模型平台，目標是為機械人、自動駕駛等物理AI場景，提供可用於訓練和仿真的世界模型能力。
Google DeepMind的Genie系列可以由由文本生成可交互環境的方向，意味著世界模型正在從「生成視頻」邁向「生成可探索、可行動、可反饋的環境」；Figure AI的Helix則代表更貼近機械人落地的路線，通過「視覺—語言—動作」模型，把感知理解和連續控制連接起來，推動通用人形機械人執行真實任務。
這說明，物理AI的產業競爭已經不再是單點模型能力的競爭，而是系統能力的競爭。它至少包含三層結構：底層是數據與仿真，包括機械人本體數據採集、多模態傳感器、三維重建、數字孿生、合成數據和物理仿真平台。

中層是模型，包括世界模型、VLA模型、動作模型、策略模型和具身基礎模型；上層是應用，包括工業製造、倉儲物流、家庭服務、自動駕駛、礦山巡檢、農業作業和特種作業等。

內地企業有先天優勢

過去機械人產業的瓶頸主要在硬件可靠性和單任務工程化，未來的核心變量將轉向數據閉環、模型泛化和系統級部署能力。
對於內地市場而言，物理AI的機會不只在模型本身，更在產業應用場景和供應鏈閉環。
內地擁有全球領先的製造業體系、豐富的倉儲物流場景、快速迭代的機械人供應鏈，以及大量可被自動化改造的產業現場。這意味著，內地企業未必須在通用基礎模型上與海外巨頭正面硬拼，而是可以從垂直場景切入，圍繞「數據採集—仿真訓練—模型部署—現場反饋」形成閉環。

而內地的資本市場對這一方向判斷更理性：物理AI不是又一個可以快速複製的純軟件賽道，它同時考驗算法、硬件、數據、工程交付和客戶場景理解。
真正有價值的公司，通常具備三類能力：一是能持續獲得高質量真實交互數據；二是模型能跨任務、跨設備、跨場景遷移，而不是只會做演示；三是擁有可驗證的商業閉環。因此，未來三到五年，物理AI行業可能呈現「兩頭熱、中間硬」的格局。

從工具變成生產力

一頭是科技巨頭建設世界模型、仿真平台和具身基礎模型，另一頭是垂直應用公司在具體場景中拿訂單、磨產品。
最難的是中間層，即如何把大模型能力轉化為可靠、低成本、可部署的機械人系統。誰能打通這條鏈路，誰就可能成為下一代智能產業基礎設施的重要參與者。

整體而言，物理AI代表的是AI產業範式的轉變。大語言模型讓機器學會了表達和推理，世界模型則試圖讓機器學會理解和預測現實。前者重塑的是信息生產，後者將重塑物理生產。
筆者團隊認為，物理AI真正的產業拐點，不會來自某一次炫目的機械人發布會，而會來自機械人在工廠、倉庫、道路、礦山和家庭中，日復一日穩定工作。當AI從「生成內容」走向「改造現場」，它才真正從工具變成生產力。

撰文：戈壁創投