google gemini3

由AI先驅到跌落神壇 Google憑Gemini 3絕地反擊|封面故事

投資

廣告

Google在AI賽道猶如坐過山車,由AlphaGo的光環到Bard的滑鐵盧;加上OpenAI及微軟(Microsoft,美股代號:MSFT)夾擊,一度進退失據。惟隨著旗艦模型Gemini 3面世,Google成功「追落後」,Alphabet市值更突破40,000億美元大關,直逼「股王」 輝達(Nvidia,美股代號:NVDA)。

在AI研發賽道上,Google絕非「初哥」。早於2016年,旗下DeepMind的AlphaGo擊敗圍棋冠軍李世石,震撼全球。
可惜「成也蕭何,敗也蕭何」,坐擁龐大搜尋帝國反而令Google陷入「創新者窘境」,擔憂AI蠶食廣告收入而畏首畏尾。
結果OpenAI冷手執個熱煎堆,ChatGPT橫空出世搶盡風頭;反觀Google倉促推出的Chatbot「Bard」,初登場即答錯問題淪為笑柄,市值一夜蒸發千億美元。
其後微軟Copilot挾GPT-4之勢,迅速植入Office、Windows、搜尋器Bing等自家產品,步步進逼,甚至連中國亦研發出DeepSeek,令Google由「領頭羊」慘變「追落後」。

當時Google面臨兩大痛點:一是架構混亂,內部的Google Brain與DeepMind兩大頂級AI實驗室各自為政;二是產品發展過於保守。
面對危局,Alphabet行政總裁Sundar Pichai於2023年痛定思痛,發布「紅色警報」,並將內鬥多年的Google Brain與DeepMind合併,由DeepMind創辦人Demis Hassabis統一領軍,全公司資源要向AI傾斜。
經過Gemini 1的試水溫與1.5 Pro的長文本突破,Google隨後推出的Gemini 2重點解決了「速度」與「互動」的痛點,實現毫秒級的即時語音對話,為AI助理賦予了「眼睛」與「耳朵」。

Nano Banana引爆網絡

真正的「殺手鐧」出現在去年11月推出的Gemini 3。它集結了前幾代的優勢,在生成質量與創意上大躍進(見另文),迅速成為AI界熱話。
其中Google的圖像生成AI Nano Banana大獲好評,輸入文字便可在短時間內製成圖片。
早前網上掀起一股「微縮公仔照」熱潮,就是由Nano Banana生成,可以將自己或寵物的照片,生成具質感及像真度極高的手辦模型公仔。
這些作品在社交媒體「洗版」,吸引大量用戶跟風試玩,熱潮直逼由ChatGPT引發的「吉卜力照片風」。目前Nano Banana已經整合在Gemini 3介面,方面用戶使用。

Google還有另一個AI圖像生成器Imagen,能生成更細緻、光影質感更佳,更高品質的照片,適合廣告業、市場推廣等專業人士使用。
影片生成方面,Google的VEO更直接向 OpenAI的Sora「挑機」。VEO深諳電影語言,用戶只需輸入「航拍推鏡」或「賽博龐克風」等指令,即能生成4K電影級短片。
市場憧憬VEO未來能與YouTube Shorts無縫接軌,開啟內容創作新時代。

用戶紅利爆發 免費引路企業「課金」

Google坐擁全球最龐大的用戶生態,Gmail、Docs、Drive全部超過10億名用戶,有利Gemini 3推廣。先向免費用戶開放基礎版,培養使用習慣,再無縫引導用戶升級。

現時,凡是Google Workspace的企業客戶,只需支付額外月費,即可在Docs直接用Gemini寫文案、在Slides一鍵生成配圖PowerPoint。
對於企業而言,與其重新學習一套新軟件,不如直接在現有系統「升級」。這種「原有生態+
AI」的綑綁銷售模式,能刺激用戶「課金」,將龐大的免費用戶群,轉化為實質的營收增長動力。
針對AI恐「殺死」搜尋引擎的擔憂,Google亦有拆解良方。
全新的「AI概覽」巧妙地將答案與廣告混合,例如當你問「推介好用的跑鞋」,AI除分析腳型和避震功能外,下方或側面會即時出現相關品牌的購物連結與優惠廣告,AI帶來的精準度反而提高了廣告的轉化率,守住「金蛋」業務。

自研TPU慳成本

此外,當其他競爭對手要「硬食」Nvidia高昂晶片時,Google早在10年前已布局自研TPU(Tensor Processing Unit)。
Gemini 3完全在TPU v5p上運作,這意味著,Google每處理一次AI查詢的成本,遠低於依賴外部晶片的競爭對手。隨著AI使用量幾何級數上升,這種成本控制能力將直接反映在毛利率上。
再加上Google擁有YouTube的影片數據、
Maps的地理數據等,這些獨家且海量的「數據石油」,是訓練Gemini變得更聰明的最佳燃料。
總括而言,經歷短暫迷失,Google憑Gemini 3證明王者歸來。相比其他巨頭仍在摸索,Google已成功找到將AI落地並變現的出路,是這場AI淘汰賽中,底氣最足的長跑贏家。

原生多模態 聽得明人話

Gemini 3最核心的突破在於「聽得明人話」。過往的Chatbot經常「遊花園」或答非所問,但Gemini 3在處理複雜指令時表現精準。
Gemini 3與競爭對手最大的分野,在於其「原生多模態」(Native Multimodal)架構。市面上早期的多模態模型,大多是用一個視覺模型處理圖片,轉成文字後再丟給語言模型處理。這種「外掛式」設計導致訊息在轉換過程中大量流失,難以捕捉細微的語氣或圖片中的隱喻。
Gemini 3則從訓練之初就同時「閱讀」文字、「觀看」影片、「聆聽」音頻,能展現出近乎人類的直覺。再加上可處理大量數據,例如分析師可以將一家公司過去10年的所有年報、電話會議錄音、法務文件一次過「餵」給Gemini 3,不需一分鐘便能挖掘出隱藏的關聯交易風險或營收趨勢,因而深受大眾歡迎。

免責聲明:本專頁刊載的所有投資分析技巧,只可作參考用途。市場瞬息萬變,讀者在作出投資決定前理應審慎,並主動掌握市場最新狀況。若不幸招致任何損失,概與本刊及相關作者無關。而本集團旗下網站或社交平台的網誌內容及觀點,僅屬筆者個人意見,與新傳媒立場無關。本集團旗下網站對因上述人士張貼之資訊內容所帶來之損失或損害概不負責。