ScaleAI 人工智能 資料圖片

天才少年輟學創辦Scale AI 趕上大數據時代AI快車

品牌故事

廣告

OpenAI透過ChatGPT掀起生成式AI革命,無論是哪個行業,每間成功的人工智能公司背後,都有一群人替它們完成無趣但又不可或缺的訓練任務——數據標記(data labeling)。而美國新創獨角獸Scale AI,就是其中翹楚。

Facebook母公司Meta Platforms(美股代號:META)斥資143億美元,購入Scale AI 49%的股權,令年僅28歲的華裔創業家Alexandr Wang成為億萬富豪,他亦被挖角加入Meta新設立的「超級人工智能」部門擔任要職。

與Meta開發軍事語言模型

要知道,AI行業的三大基礎支柱是演算法、算力與數據。大型語言模型如ChatGPT的創新、算力巨頭輝達(NVIDIA,美股代號:NVDA)GPU的市值暴漲固然備受矚目,但沒有大規模、高品質且不斷更新的數據,再強的模型也無法持續進化。
數據是大模型持續進化升級的「燃料」,是行業最基礎的東西,大模型廠商對於高質量標註數據有著持續、強烈的需求。在AI淘金熱中,

Scale AI正扮演著「鏟子商人」的角色。
Scale AI所提供的,就是這三大基礎支柱當中的「數據」,專為AI模型準備學習用的數據。這個過程就是「數據標註」,即是為成批圖片、文字或音訊加上說明,讓電腦能看懂這些資訊。
在Scale AI崛起之前,數據標註在AI領域長期處於邊緣位置。儘管一些自動化工具可以加快部分標註過程,但為了得到高質量、高精確度的標註數據,仍然需要大量的人力來處理、標記和驗證數據。
特別是在高精準度要求的領域,如醫學影像、自動駕駛或軍事應用,錯誤標註可能會導致嚴重後果,但數據標註屬勞動密集型業務,很多公司不願意也沒有精力去自己管理。

Scale AI就攬下了這個「辛苦活」,通過其「數據代工廠」(Data Foundry)的理念,結合大量人工標註員,以及機器輔助系統,建立了一套可快速處理、保證品質的數據生產線。
其業務模式就是接洽到有標記需求的公司,對數據進行簡單預處理和清洗後,將其外包給非洲、東南亞等勞工對數據進行標記。
其服務對象從商業科技公司到美國國防部,還和Meta一起開發「國防Llama」這類軍事語言模型。
傳統的數據清洗與標註公司,多提供工具平台或單次型的外判服務,由企業自行上傳數據、指派工作、管理品質。
而Scale AI提供的是一種「全流程託管」模式,從數據收集、標註策略制定,到最後的驗證,都是一手包辦,並根據客戶用途提供量身定制的處理方案。

提供顧問及代工服務

更重要的是,Scale AI不只是工具供應商,而是與客戶共同設計數據策略的夥伴,其模式更像「數據顧問+標註工廠」,同時處理質量控管、安全需求與數據更新機制,能適應高度敏感的場景,如軍事語言模型等。
所以說,Meta的布局不只是一筆單純的投資,而是為了確保未來掌握一條獨佔的數據供應鏈。Scale AI的角色類似半導體產業中的台積電(美股代號:TSM),它不只交付數據,更主導數據的結構、更新頻率與標註策略,很多AI大廠已對它高度依賴。
正因如此,這項交易引來大量質疑。Scale AI原為OpenAI、Google、微軟等多家大型AI實驗室的數據供應商,如今卻成為Meta持股49%的公司。最讓競爭對手擔心的問題來了:它能否繼續保持中立?

外媒報道,Google正計劃終止與Scale AI的合作,微軟(Microsoft,美股代號:MSFT)、xAI也可能退出。面對客戶的「撤單潮」,Scale AI發言人則強調,其業務依然強勁,並承諾將保護客戶數據。
Alexandr Wang出生於美國新墨西哥州,父母都是物理學家,他自小就對數學與程式設計展現出天賦。在麻省理工學院就讀時,他因感到課程進度太慢而輟學創業。
Alexandr Wang和Lucy Kuo兩位電腦天才曾分別在Quora和Snapchat工作。他們觀察到這兩個社群平台每天都需要審核與標記大量的圖片和貼文,過程重複且繁瑣,到後期都須依賴外包團隊手動完成。

嗅到「數據標記」的商機,他們於2016年創立Scale AI。
公司成立數月後,他們發現自動駕駛領域對於數據標註的大需求,例如道路場景、行人和其他物體的圖像數據,車企須成千上萬小時的視頻數據進行標註,來訓練和驗證其算法。
Scale AI通過高效的數據標註平台,以及使用模型輔助標註和數據預處理來加速數據處理流程,大幅降低標註成本和時間,吸引了當時風頭正盛的Waymo、Cruise等企業成為其客戶。

毛利率長期逾六成五

後來,這家公司進入AIaaS(AI即服務)市場,從單純的數據標記延伸到數據服務,提供從數據標記和管理、模型訓練和評估,再到AI應用開發和部署的全流程解決方案。

2017年,Scale AI成立Remotasks外判機構,在肯尼亞、菲律賓、委內瑞拉等地招攬數據標註員,他們的工作多是按件計酬,一次標註收入低至幾美分,很多合約工時薪甚至不到1美元。
2019年Scale AI與OpenAI合作,為ChatGPT背後最初的語言模型進行數據標記。
在「全球工廠」模式下,Scale AI的毛利率長期保持在65%以上。2024年公司收入為8.7億美元,預估今年將突破20億美元。

ScaleAI 人工智能 (圖片來源:資料圖片)
(圖片來源:資料圖片)

撰文:經一編輯部圖片來源:資料圖片