中文 ai

中文是 AI 的比較優勢?(上):詞元壓縮與語域管理

人工智能

廣告

OpenAI 的推理模型 o1在收到英文問題後,有時會在內部推理過程中切換至中文思考,再翻譯為英文輸出。這並非技術故障,而是模型在運算層面判斷:用中文「想」比用英文「想」更省資源。這個現象引申出了一個值得深究的問題:中文語言的結構特性,是否令中文原生 AI 模型具備獨特的比較優勢?

比較優勢論的 AI 語言版本

本文以英國經濟學家 David Ricardo提出的比較優勢論作為分析框架:即便一方在所有領域皆有絕對優勢,雙方仍應各自聚焦自身相對優勢最大的領域,以交換代替競爭,實現雙贏。將該邏輯套用至中美 AI 發展:以英文主導的大型語言模型(LLM) 在英文語素處理與英文語料規模上具備既有優勢;而中文原生LLM,則在中文語言結構的處理效率上,具備另一套結構性優勢。本文嘗試從語言學角度,逐層拆解這個「中文比較優勢」的具體機制。

詞元壓縮:語義密度的算力意涵

LLM 的運算單位是詞元(token)。中文屬表意文字,每個字符本身攜帶語義;英文屬表音文字,須由字母串連成詞方具完整意思。這個語言學差異會在 token 層面產生量化差距:研究顯示,英文文本每個 token 平均承載約 4.75 個字母,中文文本則僅約 1.33 個漢字。以相同語義內容計算,漢字的語義密度更高;不過實際詞元效率,高度取決於 tokenizer(分詞器) 設計與模型架構,不同模型之間差異可以甚大。

Token 數量直接影響推理成本:LLM的自注意力機制(self-attention)機制,計算量按 token數平方級別增長,token愈少,理論上算力消耗與散熱需求就愈低。「中文 token 壓縮導致降低推理能耗」這條因果鏈,目前仍屬工程推論,有待系統性量化驗證;但從現有技術文獻的邏輯推演來看,假設的自洽性已足以支撐政策層面的研究投入。

語域分層失控:西方 LLM 的中文訓練盲點

語義壓縮只是中文優勢的其中一層,更根本的問題在於英文主導的 LLM裏的中文訓練語料質量缺陷。中文語域結構比英文複雜,而英文主導的 LLM 缺乏對中文語域分層(Register Stratification)的系統性訓練能力。反觀中文原生模型,理論上更容易建立符合中文語域分層的訓練機制:訓練語料由具備母語語感的團隊主導篩選,語域辨識更為精準,語義污染的清除機制也更貼近中文使用者的實際表達結構。這不是單純依靠算力可以彌補的差距,而是語言文化的結構性優勢。

上述兩個層面——詞元壓縮與語域管理,僅是中文具備比較優勢的語言結構基礎。下篇將進一步探討語言人口與學術產出的規模基礎,同時探討中文 AI 模型如何觸發一個自我強化的語言生態飛輪。

譚善恆 華坊諮詢評估董事、谷歌人工智能認證專業人員