商湯多模態模型突破物理難題

科技

Dec 12 2025

近日「AI建築師」成為美國《時代雜誌》（TIME）的2025年「風雲人物」，足證近年人工智能（AI）發展迅速，勢將大幅改變人類的生活。

商湯科技與香港科技園公司於週二（12月9日）合辦「2025商湯科技AI論壇」，請來不同專家，發表關於AI大模型發展、商業應用、未來機遇與挑戰的洞見。
商湯科技聯合創始人、首席科學家林達華教授向本港傳媒分享，集團即將推出的全新產品、最新科技優勢，以及未來應用場景。

OpenAI於2022年，發布大語言模型ChatGPT 3.5，引爆人工智能熱潮，真正讓人感受到AI正在改變人類生活。
ChatGPT、DeepSeek是一般人最常用的生成式AI工具，方便搜尋資料，以及生成文字、圖片內容等。

首個開源世界模型

今年AI代理（AI agent）成為熱門主題，AI不再停留於完成簡單的工作，而是能夠組成團隊，分工合作，共同完成相對複雜的工作。
商湯科技聯合創始人、首席科學家林達華教授說：「展望未來， AI將會由一個初級從業員，變成一個高級從業員，他懂得自我演進，提升自己的技能；不單止取代一個人，而是一個團隊，將各種工作整合一起，並且透過回饋不斷優化。」
所謂AI，其實是模仿人類的智慧，人類除了懂得了解語言外，還有其他不同的感知能力，各國的科技巨擘都在各個範疇爭先研發。
商湯科技將於下週四（18日）發布「開悟」世界模型3.0，並且向全行業開源，成為內地首個開源同時商業落地的世界模型。

「開悟」世界模型3.0是基於創新的「多模態理解（同時理解文字、影片、圖像、聲音等資料）——生成——預期」一體化架構。
「『開悟』世界模型3.0可以協助處理多種模式的文檔，例如一份報告包含圖像及文字，可以同時處理。」
例如在醫療的場景，需要結合各種檢查的圖像、病歷，以及醫生與病人之間的互動，要將所有資訊結合一起整理，才能夠完成更加複雜的任務。
「開悟」世界模型3.0破解物理因果一致性難題，可以生成多視角時空一致、長時間互動、1080P高清視頻，甚至可以在動態及靜態互動場景下，實現場景精細可控、自由編輯和調整，完成各類具身（指擁有實體，例如機械人或機械狗）智能場景一鍵生成，和多樣性場景可控生成。

林達華教授在論壇上展示一條在AI短片創作平台Seko生成的視頻，由兩隻貓咪表演棟篤笑，效果自然逼真。
現時主流的模型，平均每小時能夠生成20秒至80秒的視頻，至於Seko可以即時生成高達3,600至4,500秒的視頻。

以最高效率訓練AI

對比其他公司推出的多模態模型，商湯科技擁有幾個優勢，首先是算力，因為集團早於2018、2019年間建立人工智能計算中心，至今仍是亞洲最大的人工智能計算中心之一，能夠以最高效率訓練AI。
其次，商湯科技很早便開始發展視覺相關技術，擁有大量真實場景的數據，而這些數據很難在互聯網上大規模地獲取，所以集團在視覺計算方面擁有優勢。
「所謂多模態模型，就是將其他感知能力，與大語言模型連結，包括視覺模型，但並不是單純將眼睛和腦袋連接一起，而是底層架構中每個模組都能同時處理視覺和語言，我們在這方面的底層架構擁有優勢。」

大語言模型經已成為數碼世界的工作助手，包括數據分析、調研報告及軟體開發等。
下一步將會實現物理世界的具身智能，能夠更大量地應用於工業製造、智能駕駛、家居服務及養老陪護等方面。
對於圖像細節和空間結構的精準理解，是AI成為可靠助手的關鍵能力，這需要多模態架構的提升，不過這方面仍在起步階段。
「這些模型發展的初階是基礎能力訓練，即時指引跟隨，能夠理解人類的說話，然後完成工作。但在不同行業的場景，由於需要進行準確的判斷，需要依賴行業的專業人士，提供數據進行訓練。」

靠專業數據進行訓練

假設基本能力的平均分是60分，或者可以做到70分、80分，但是在專業的場景，模型的得分必須達到99%以上，這樣才能夠讓人們放心使用，之間這段距離，必須依靠專業的數據進行訓練。
AI現時具有增強學習（Reinforcement Learning）的能力，每當AI完成一件工作，便能夠獲得回饋，到底是做得好與不好，這些回饋成為AI提升的關鍵。
以教育場景而言， AI協助改卷、打分，基本上已經相當普遍，因為相對容易獲得回饋。
其他場景，例如機械人，是否能夠完成拿起物件、到達目的地等工作，這些回饋相對容易獲得；在醫療、營銷推薦方面，也是比較容易獲得回饋。

至於AI生成的金融諮詢報告，到底寫得好與不好，需要專業人士詳細了解，才能作出回饋，由於回饋較難獲得，所以這方面的落地時間較長。
現時推出的多模態架構，只能實現淺層視覺感知，思考由純文字驅動，大多無法理解複雜的空間結構，例如數不清楚手指的數目、無法了解立體空間的關係。
商湯科技已找到解決這個問題的技術路徑，預料未來一至三年，將會出現不同場景的應用，令相關技術快速滲透及落地。

不斷升級機械人大腦

「截至目前為止，每類機械人，只是懂得做一種工作，需要完成複雜工作的話，便需要大量機械人，但這並不符合現實，所以最終需要綜合形式的機械人。機械人只需要一個大腦，這個大腦可以隨時升級，不斷提升能力。」
商湯科技設有一個名叫「悟能」的具身智能平台，將集團旗下在不同領域的技術能力集合一起，然後不斷將大腦升級。
AI的角色是取代枯燥無味的重複性工作，然後解放人類的時間，發揮人類最重要的能力。
即使AI在醫療這個領域，能夠做到99分，但並不代表不需要人類的醫生。
「在AI的輔助之下，同一個醫生可以處理更多情況，包括進行更加深層次的思考，處理各種奇難雜症。」

為百姓之日用

在金融分析的層面， AI可生成詳細的報告，集合各種資料，但是欠缺高層次的分析及洞見，現階段AI與人類深層次的想像力，仍有一段距離。
在駕駛的領域，現時是一個人駕駛一部車，將來人類不需要在車上，而是在後台，一個人同時駕駛多部汽車。
美國的科技公司，例如OpenAI及Google，他們每次的發布會，都是提及AI在不同考試中取得的分數。
「商湯科技秉承AI是為百姓之日用，我們非常專注價值落地，這與外國的bench marking方式完全不同，我們非常強調工業紅線，即使模型取得多少分，如果未達到實用水平，基本上不可以給人用，無法作商業落地，所以必須突破工業紅線，才能夠正式落地。」

相信讀者都用過ChatGPT或DeepSeek這類大語言模型，發問之後，系統會自動生成答案，這種一問一答的模式，其實並不是終結。
例如在生成視頻的場景，通常不會預期第一刻立即達到100分，而是生成初稿，然後與人類互動，在不同地方進行修改，共同創作，令AI變成一個助手，在工作的過程之中，與人類交流，最終完成工作，這才是最重要的地方。
「每年生成式AI都有相對較大的收入增長，我們希望未來更多商業落地場景，增長速度會更快。」林達華教授說。

採用國產芯片比例提升

AI需要算力，尤其是芯片，但是美國限制對華出口芯片，對內地的AI發展造成障礙。

「我們已經超前部署，早於六年前已開始使用國產芯片，包括寒武紀、華為，當然亦有使用輝達的芯片。」林達華教授說。
商湯科技的產品與國產芯片適配擁有一套方法論，確保表現能夠達標，在供應鏈上，具有相對較強的風險抵禦能力。
現時國產芯片佔商湯科技整體算力比例達到雙位數字，而且比例不斷上升。

撰文：經一編輯部圖片來源：資料圖片

商湯多模態模型突破物理難題

首個開源世界模型

以最高效率訓練AI

靠專業數據進行訓練

不斷升級機械人大腦

為百姓之日用

採用國產芯片比例提升

最新文章

限時優惠：美國FDA認證激光生髮頭盔

Airwallex 商務雲匯 Visa卡：5 分鐘開戶即送 8,000 里數

Airwallex 商務雲匯 Visa卡：5 分鐘開戶即送 8,000 里數

商湯多模態模型 突破物理難題

首個開源世界模型

以最高效率訓練AI

靠專業數據進行訓練

不斷升級機械人大腦

為百姓之日用

採用國產芯片比例提升

最新文章

限時優惠：美國FDA認證 激光生髮頭盔

Airwallex 商務雲匯 Visa卡：5 分鐘開戶即送 8,000 里數

Airwallex 商務雲匯 Visa卡：5 分鐘開戶即送 8,000 里數

商湯多模態模型突破物理難題

限時優惠：美國FDA認證激光生髮頭盔