商湯多模態模型 突破物理難題
商湯科技與香港科技園公司於週二(12月10日)合辦「2025商湯科技AI論壇」,請來不同專家,發表關於AI大模型發展、商業應用、未來機遇與挑戰的洞見。
商湯科技聯合創始人、首席科學家林達華教授向本港傳媒分享,集團即將推出的全新產品、最新科技優勢,以及未來應用場景。
OpenAI於2022年,發布大語言模型ChatGPT 3.5,引爆人工智能熱潮,真正讓人感受到AI正在改變人類生活。
ChatGPT、DeepSeek是一般人最常用的生成式AI工具,方便搜尋資料,以及生成文字、圖片內容等。

首個開源世界模型
今年AI代理(AI agent)成為熱門主題,AI不再停留於完成簡單的工作,而是能夠組成團隊,分工合作,共同完成相對複雜的工作。
商湯科技聯合創始人、首席科學家林達華教授說:「展望未來, AI將會由一個初級從業員,變成一個高級從業員,他懂得自我演進,提升自己的技能;不單止取代一個人,而是一個團隊,將各種工作整合一起,並且透過回饋不斷優化。」
所謂AI,其實是模仿人類的智慧,人類除了懂得了解語言外,還有其他不同的感知能力,各國的科技巨擘都在各個範疇爭先研發。
商湯科技將於下週四(18日)發布「開悟」世界模型3.0,並且向全行業開源,成為內地首個開源同時商業落地的世界模型。
「開悟」世界模型3.0是基於創新的「多模態理解(同時理解文字、影片、圖像、聲音等資料)——生成——預期」一體化架構。
「『開悟』世界模型3.0可以協助處理多種模式的文檔,例如一份報告包含圖像及文字,可以同時處理。」
例如在醫療的場景,需要結合各種檢查的圖像、病歷,以及醫生與病人之間的互動,要將所有資訊結合一起整理,才能夠完成更加複雜的任務。
「開悟」世界模型3.0破解物理因果一致性難題,可以生成多視角時空一致、長時間互動、1080P高清視頻,甚至可以在動態及靜態互動場景下,實現場景精細可控、自由編輯和調整,完成各類具身(指擁有實體,例如機械人或機械狗)智能場景一鍵生成,和多樣性場景可控生成。
林達華教授在論壇上展示一條在AI短片創作平台Seko生成的視頻,由兩隻貓咪表演棟篤笑,效果自然逼真。
現時主流的模型,平均每小時能夠生成20秒至80秒的視頻,至於Seko可以即時生成高達3,600至4,500秒的視頻。

以最高效率訓練AI
對比其他公司推出的多模態模型,商湯科技擁有幾個優勢,首先是算力,因為集團早於2018、2019年間建立人工智能計算中心,至今仍是亞洲最大的人工智能計算中心之一,能夠以最高效率訓練AI。
其次,商湯科技很早便開始發展視覺相關技術,擁有大量真實場景的數據,而這些數據很難在互聯網上大規模地獲取,所以集團在視覺計算方面擁有優勢。
「所謂多模態模型,就是將其他感知能力,與大語言模型連結,包括視覺模型,但並不是單純將眼睛和腦袋連接一起,而是底層架構中每個模組都能同時處理視覺和語言,我們在這方面的底層架構擁有優勢。」
大語言模型經已成為數碼世界的工作助手,包括數據分析、調研報告及軟體開發等。
下一步將會實現物理世界的具身智能,能夠更大量地應用於工業製造、智能駕駛、家居服務及養老陪護等方面。
對於圖像細節和空間結構的精準理解,是AI成為可靠助手的關鍵能力,這需要多模態架構的提升,不過這方面仍在起步階段。
「這些模型發展的初階是基礎能力訓練,即時指引跟隨,能夠理解人類的說話,然後完成工作。但在不同行業的場景,由於需要進行準確的判斷,需要依賴行業的專業人士,提供數據進行訓練。」

靠專業數據進行訓練
假設基本能力的平均分是60分,或者可以做到70分、80分,但是在專業的場景,模型的得分必須達到99%以上,這樣才能夠讓人們放心使用,之間這段距離,必須依靠專業的數據進行訓練。
AI現時具有增強學習(Reinforcement Learning)的能力,每當AI完成一件工作,便能夠獲得回饋,到底是做得好與不好,這些回饋成為AI提升的關鍵。
以教育場景而言, AI協助改卷、打分,基本上已經相當普遍,因為相對容易獲得回饋。
其他場景,例如機械人,是否能夠完成拿起物件、到達目的地等工作,這些回饋相對容易獲得;在醫療、營銷推薦方面,也是比較容易獲得回饋。
至於AI生成的金融諮詢報告,到底寫得好與不好,需要專業人士詳細了解,才能作出回饋,由於回饋較難獲得,所以這方面的落地時間較長。
現時推出的多模態架構,只能實現淺層視覺感知,思考由純文字驅動,大多無法理解複雜的空間結構,例如數不清楚手指的數目、無法了解立體空間的關係。
商湯科技已找到解決這個問題的技術路徑,預料未來一至三年,將會出現不同場景的應用,令相關技術快速滲透及落地。

不斷升級機械人大腦
「截至目前為止,每類機械人,只是懂得做一種工作,需要完成複雜工作的話,便需要大量機械人,但這並不符合現實,所以最終需要綜合形式的機械人。機械人只需要一個大腦,這個大腦可以隨時升級,不斷提升能力。」
商湯科技設有一個名叫「悟能」的具身智能平台,將集團旗下在不同領域的技術能力集合一起,然後不斷將大腦升級。
AI的角色是取代枯燥無味的重複性工作,然後解放人類的時間,發揮人類最重要的能力。
即使AI在醫療這個領域,能夠做到99分,但並不代表不需要人類的醫生。
「在AI的輔助之下,同一個醫生可以處理更多情況,包括進行更加深層次的思考,處理各種奇難雜症。」
為百姓之日用
在金融分析的層面, AI可生成詳細的報告,集合各種資料,但是欠缺高層次的分析及洞見,現階段AI與人類深層次的想像力,仍有一段距離。
在駕駛的領域,現時是一個人駕駛一部車,將來人類不需要在車上,而是在後台,一個人同時駕駛多部汽車。
美國的科技公司,例如OpenAI及Google,他們每次的發布會,都是提及AI在不同考試中取得的分數。
「商湯科技秉承AI是為百姓之日用,我們非常專注價值落地,這與外國的bench marking方式完全不同,我們非常強調工業紅線,即使模型取得多少分,如果未達到實用水平,基本上不可以給人用,無法作商業落地,所以必須突破工業紅線,才能夠正式落地。」
相信讀者都用過ChatGPT或DeepSeek這類大語言模型,發問之後,系統會自動生成答案,這種一問一答的模式,其實並不是終結。
例如在生成視頻的場景,通常不會預期第一刻立即達到100分,而是生成初稿,然後與人類互動,在不同地方進行修改,共同創作,令AI變成一個助手,在工作的過程之中,與人類交流,最終完成工作,這才是最重要的地方。
「每年生成式AI都有相對較大的收入增長,我們希望未來更多商業落地場景,增長速度會更快。」林達華教授說。
採用國產芯片比例提升
AI需要算力,尤其是芯片,但是美國限制對華出口芯片,對內地的AI發展造成障礙。
「我們已經超前部署,早於六年前已開始使用國產芯片,包括寒武紀、華為,當然亦有使用輝達的芯片。」林達華教授說。
商湯科技的產品與國產芯片適配擁有一套方法論,確保表現能夠達標,在供應鏈上,具有相對較強的風險抵禦能力。
現時國產芯片佔商湯科技整體算力比例達到雙位數字,而且比例不斷上升。

