Groq技術崛起︳初創LPU技術挑戰Nvidia GPU 、AMD和Intel （內含試用連結）

科技

Feb 22 2024

AI晶片Groq崛起︳一直以來，AI晶片龍頭Nvidia（美：NVDA）的圖像處理器（GPU），用於運行AI可以講係標準配置。但近期AI領域掀起一陣風潮，AI初創公司Groq的語言處理器（LPU）在大型語言模型（LLM）領域表現優異，正面挑戰傳統龍頭Nvidia的GPU。據了解，Groq 的晶片並非傳統的 GPU，而是專門為大型語言模型運算而設的 LPU（Language Processing Unit），可以在低耗電的同時帶來高效率。Groq LPU 技術生成答案的速度每秒可達241個tokens，Groq相較於微軟Azure使用的GPU每秒僅18個tokens，速度優勢達18倍之多。呢項報告引起全球AI業界的廣泛關注，亦有指Groq的LPU正逐漸成為Nvidia GPU的有力競爭對手。據Artificial Analysis發布的第三方測試，Groq每秒產生247個Token，反觀微軟每秒僅18個Token，若ChatGPT在Groq的晶片上運行，其運行速度有望提高12倍以上。AI 晶片初創 Groq 最近就開放免費試用，展示其 LPU 晶片的實力，有興趣可到官網試試。

官網試用 https://groq.com/

AI晶片Groq技術崛起︳大量簡單資料處理效率勝Nvidia

Groq創辦人Jonathan Ross指出，LPU成功繞過GPU和CPU在處理LLM時的兩大瓶頸，即運算密度和記憶體頻寬，使得回應效率大幅提升。Groq擁有230MB靜態隨機存取記憶體（SRAM）同每秒80 TB的記憶體頻寬，優於傳統的CPU和GPU配置。雖然Groq的LPU主要用於運行LLM，而不是原始運算或模型微調，但在大量簡單資料（INT8）的處理效率上，與Nvidia旗艦A100 GPU相比，Groq LPU優勝。然而，當處理更複雜的資料處理任務（FP16）時，A100仍然保持優勢。

Groq、Nvidia GPU、 Groq 有網民用GroqLlama 2）對比ChatGPT生成答案的速度 — 有網民用Groq（Llama 2）對比ChatGPT生成答案的速度（圖片來源：X用戶JayScambler）

另一方面，Groq官網又提到，其任務是設立GenAI推算速度提供一個新標準，實現生活上的即時AI應用。該企稱，LPU推算引擎亦可以替AI語言應用等具順序元件的運算密集應用，提供全球最快的推算服務。的確，已有不少用戶於社交平台展示Groq與ChatGPT的比較影片，顯示Groq生成答案的速度遠超ChatGPT。

Groq、Nvidia GPU、 Groq LPU — （圖片來源：Anyscale的LLMPerf排行）

AI晶片Groq技術崛起︳專家：現階段取代Nvidia（美：NVDA）的 GPU 仍然太貴

Groq 一夜爆紅，憑藉其響應速度同可能不需要 GPU 的新技術，不過有專家稱，現階段想用它取代輝達 (NVDA-US) 的 GPU 仍然太貴，價錢而言並不划算。有評論就指出，Groq的整體成本是 NVIDIA GPU 的30倍之多，考量到Groq晶片的記憶體只有230MB，運行實際模型需使用572片晶片，總成本高達到1144萬美元。相比之下，使用8片H100的系統在性能上可與Groq系統匹敵，但硬體成本只需30萬美元，加上年電費約2.4萬美元，若以三年計算，總運營成本遠低於Groq系統。