內地PsiBot研發打麻雀機械人模擬人類思維分析牌局

科技

May 3 2025

中國人工智能公司靈初智能科技（PsiBot）早前發布Psi-R1機械人麻雀展示，展現高階推理與長程操作能力，引發關注。Psi-R1在開放環境中打麻雀，透過自主研發的分層端到端模型與強化學習（RL）實現Chain of Action Thought（CoAT）思維系統，能精準抓取、翻動麻雀牌，執行出牌、碰牌、槓牌及胡牌等策略性決策。展示影片顯示，Psi-R1動作雖慢（每步約5-7秒），但與人類玩家相似，具備毫米級精細操作與連貫邏輯推理。

推理與決策過程

Psi-R1每次出牌前進行完整思考：分析手牌組合、計算風險收益、預測對手出牌。例如，當對手出一筒，Psi-R1識別自身兩張一筒，判斷「不宜追求清一色，碰牌加快聽牌進程」，遂執行碰牌。另一案例中，Psi-R1原計劃出六筒，抽到七筒後識別條牌順子已成，改為自摸胡牌，展示實時策略調整。其CoAT系統模擬人類思維，結合感應器數據與強化學習，實現動態決策。

市場背景與挑戰

Psi-R1亮相正值中國AI競爭白熱化。DeepSeek R1（成本僅558萬美元，媲美GPT-4o）與騰訊T1搶灘推理模型市場，PsiBot則聚焦具身智能（Embodied AI）。惟機械人動作較慢，且麻雀環境相對可控，應用至工業、物流等複雜場景需進一步驗證。PsiBot指，Psi-R1的L3能力適用於工業生產（如自動化組裝）、零售（智能結帳）、物流配送（倉儲揀貨）及家居服務（清潔、看護）。其強化學習數據飛輪可持續優化任務成功率，支援長時間穩定運行。

圖片來源：靈初智能