EN

2026-05-18 AI 摘要

共 4 則更新

🔴 L1 - 平台級更新

Hugging Face × IBM 推出 Open Agent Leaderboard:評估「完整代理系統」而非單一模型,新增 DeepSeek V3.2、Kimi K2.5 L1

信心度:

重點: Hugging Face 與 IBM Research 推出 Open Agent Leaderboard,這是業界第一個以「完整代理系統」為單位的開源評估基準。它強調「同一個模型在不同 agent 架構、不同工具集、不同 memory 策略下,會產生差異懸殊的結果」,因此單獨評 LLM 已不夠。目前有 5 個模型 × 5 個 agent × 6 個 benchmark;新增的兩個開源權重模型 DeepSeek V3.2、Kimi K2.5 在特定組合下展現競爭力,但平均仍落後前沿閉源模型 18-29 個百分點。Leaderboard 開放三軸社群貢獻:新 agent(用 Exgentic 協議包裝)、新 benchmark(含程式化 evaluator)、新模型。

影響: 對 AI 評估方法論:把焦點從「LLM benchmark」轉向「整體 agent system benchmark」,是 2026 年下半年的關鍵典範轉移。對開源社群:DeepSeek V3.2 與 Kimi K2.5 取得能見度,可能加速開源代理棧的成熟。對企業 AI 採購:未來 RFP 應要求「Agent system benchmark」而非單純「模型分數」。

詳細分析

取捨考量

優點:

  • 首次以代理「系統」為單位評估,反映實際 production 表現
  • 開源權重模型(DeepSeek、Kimi)取得評估能見度
  • 三軸貢獻機制清晰:agent、benchmark、model 各有提交流程
  • Exgentic 協議標準化代理包裝,未來可擴展到更多 agent framework

缺點:

  • 5×5×6 矩陣仍偏小,無法涵蓋所有實務 agent 設計
  • 開源權重落後前沿閉源 18-29 pp,落差仍顯著
  • Exgentic 協議是新標準,主流 agent framework(LangChain、CrewAI、AutoGen)尚未原生支援
  • 結果可能受 benchmark task 偏向影響,仍需多元化

快速體驗(5-15 分鐘)

  1. 造訪 huggingface.co/blog/ibm-research/open-agent-leaderboard 閱讀方法論
  2. 在 Hugging Face Spaces 開啟排行榜,比較 5 個模型在你關心的 benchmark 上的表現
  3. 若你開發 agent framework,閱讀 Exgentic 協議規格並嘗試包裝
  4. 把 Agent system benchmark 加入你的下季模型選型評估

建議

AI 平台與 ML 主管應立即把 Open Agent Leaderboard 加入採購與選型流程;開源社群開發者可貢獻新 agent / benchmark 提升排行榜廣度;研究者可參考 18-29 pp 的開源落後幅度,研究如何透過更好的 agent harness 縮短差距。

來源: Hugging Face - The Open Agent Leaderboard (官方) | Hugging Face Spaces - Open Agent Leaderboard (官方)

🟠 L2 - 重要更新

Unity MCP 生態爆發:CoplayDev v9.6.3 加入 manage_profiler 工具,五大開源 plugin 將 Claude/Cursor 直連 Unity Editor L2GameDev - 程式/CI

信心度:

重點: Unity MCP(Model Context Protocol)生態在 5 月急速擴張,至少 5 個活躍開源 plugin 把 Claude Code、Cursor、Gemini、Codex 等 AI 工具直接連到 Unity Editor:(1) CoplayDev/unity-mcp 5/18 推出 v9.6.3 beta,新增 manage_profiler 工具的 14 個動作(session 控制、frame timing、object memory queries、Unity memory snapshot 整合、Frame Debugger 控制),把 profiling 工作流納入 AI agent;(2) AnkleBreaker-Studio/unity-mcp-plugin 提供 268-288 個工具,涵蓋 scenes、GameObjects、Shader Graph、Amplify、NavMesh、MPPM multiplayer 等 30+ 類別;(3) IvanMurzak/Unity-MCP 提供「任何 C# method 一行加註解即變工具」的開發者友善 SDK;(4) CoderGamester/mcp-unity 主打 production-ready 多 IDE 支援;(5) Meta XR Unity MCP Extension 為 Horizon OS 開發鋪路。Coplay 同期被多家媒體引用為 Unity MCP 標竿。

影響: 對 Unity 開發者:「AI agent 直連 Unity Editor」從實驗變成生產標配;以 manage_profiler 為例,可在 Claude / Cursor 內讓 AI 自動跑 profiler、抓 frame timing、做 memory snapshot 比較,把效能調校自動化。對 Unity Technologies:5 個 community plugin 倒逼官方 Unity AI Beta 與 MCP 工具加速。對 indie / 教育市場:開源免費 + Cursor / Claude Code 訂閱即可玩,門檻顯著下降。對 Unreal / Godot:類似 MCP plugin 仍少,Unity 在 AI 整合面取得先發優勢。

詳細分析

取捨考量

優點:

  • 5 個 plugin 形成競爭生態,功能迭代快、選擇多
  • manage_profiler 等工具讓 AI 自動化覆蓋到效能調校等專業任務
  • 268-288 工具規模顯示 Unity Editor 表面可被 AI 操控的廣度
  • 所有 plugin 都開源,企業可審計、客製、二次開發

缺點:

  • 5 個 plugin 互不相容,社群選擇成本高、API 標準分裂
  • Unity 官方 Unity AI Beta 與 community MCP 的長期關係不明
  • manage_profiler 等深度工具仍 beta,正式 production 用需謹慎
  • MCP server 在 Editor 內跑 HTTP,需注意端口衝突與安全邊界

快速體驗(5-15 分鐘)

  1. 在 Unity 6 專案先試 CoplayDev/unity-mcp v9.6.3 beta,跑一輪 manage_profiler demo
  2. 對比 AnkleBreaker(268 工具)與 IvanMurzak(C# attribute 開發者友善)的差異
  3. 若團隊用 Cursor 較多,先看 CoplayDev 的 Cursor 對接文件
  4. 把「Unity MCP plugin 選型」列入下季工具評估,避免後續遷移成本

建議

Unity 開發者立即試裝 1-2 個 plugin 做 PoC,特別是有 profiling、Shader Graph 高頻調整需求的團隊。中大型工作室建議鎖定 1 個 plugin 為標準,避免分裂;indie 可保持多 plugin 並用。Unreal / Godot 開發者可關注此模式,期待類似生態擴散。

來源: CoplayDev unity-mcp - GitHub (官方) | AnkleBreaker-Studio unity-mcp-plugin (官方) | IvanMurzak Unity-MCP (官方) | Claude Lab - Claude Code × unity-mcp Workflow (新聞)

Hugging Face 教學:用 LoRA/DoRA 微調 NVIDIA Cosmos Predict 2.5 做機器人影片生成 L2

信心度:

重點: NVIDIA 與 Hugging Face 在 5/18 共同發布教學,示範如何用 LoRA / DoRA 對 NVIDIA Cosmos Predict 2.5 做微調,產生機器人影片(用於機器人世界模型訓練、模擬資料增強)。文章涵蓋資料準備、訓練配置、評估指標與部署範例。Cosmos 系列是 NVIDIA 在 CES 2026 推出的物理 AI 模型家族,預測未來世界狀態以協助具身智慧 / 機器人訓練。

影響: 對機器人新創與研究者:把「世界模型 + 機器人影片生成」的客製化門檻顯著降低,PEFT 技術直接套用。對 NVIDIA 生態:Cosmos 從「demo」進入「可微調 production tooling」階段。對學界:物理 AI 研究的可重複實驗 baseline 更具體。

詳細分析

取捨考量

優點:

  • LoRA / DoRA 降低運算需求,單卡 A100/H100 可微調
  • NVIDIA × HF 官方教學,可信度高
  • 範例完整覆蓋資料、訓練、評估流程
  • 可串到具身智慧 / sim-to-real 工作流

缺點:

  • Cosmos Predict 2.5 仍需 NVIDIA NGC 註冊取得權重
  • 機器人領域資料集仍稀缺,微調效果可能受限
  • 與 OpenVLA、Octo 等開源具身基模型的差異化需評估
  • 對非機器人領域(如遊戲 NPC)的可移植性未明

快速體驗(5-15 分鐘)

  1. 閱讀 HF 部落格教學,下載範例 notebook
  2. 從 NVIDIA NGC 取得 Cosmos Predict 2.5 權重
  3. 用小規模機器人資料集做一輪 LoRA 微調 baseline
  4. 對比 OpenVLA fine-tune 結果作為 baseline

建議

機器人新創、學術實驗室、自動化工廠 R&D 團隊:把這個教學作為 Cosmos 入門範本;遊戲 PCG 團隊:先評估 Cosmos 的影片風格是否符合 game 用途,再決定是否投入。

來源: Hugging Face - Fine-Tuning NVIDIA Cosmos Predict 2.5 (官方)

PaddleOCR 3.5 接上 Transformers 後端:OCR 與文件解析任務的開源新組合 L2

信心度:

重點: 百度 PaddlePaddle 在 5/18 透過 Hugging Face 發表 PaddleOCR 3.5:把長期領先的 OCR 與文件解析能力接上 transformers backend,使開發者能用 Hugging Face 標準介面跑 PaddleOCR,無需單獨安裝 PaddlePaddle 生態。涵蓋一般 OCR、表格抽取、版面分析等任務,支援多語包括繁簡中文。

影響: 對文件處理開發者:PaddleOCR 的中文/表格能力一直是 best-in-class,現可直接整合到 transformers / langchain pipeline。對中文企業:文件數位化、自動報表抽取的工程成本顯著降低。對開源 OCR 競爭:與 Tesseract、Surya、docTR 等的市場再洗牌。

詳細分析

取捨考量

優點:

  • transformers 整合大幅降低 install / dependency 複雜度
  • 中文 OCR + 表格解析在開源領域仍是 top tier
  • 版面分析有助於 RAG 預處理品質
  • Apache 2.0 等開源條款友善商用

缺點:

  • PaddleOCR 模型較大,邊緣裝置可能吃緊
  • transformers backend 仍是「適配層」,效能略低於原生 Paddle
  • 與 Surya、docTR 在表格抽取的客觀比較需自行做
  • 百度品牌在某些客戶(特別是政府/國防)有政治考量

快速體驗(5-15 分鐘)

  1. 用 pip install transformers + paddleocr 試最簡單範例(單張中文發票)
  2. 對比 Tesseract、Surya、docTR 在你的文件樣本上的字元正確率
  3. 把 PaddleOCR + LangChain 串成 RAG 預處理 demo
  4. 若需邊緣部署,量化模型並測 ARM 裝置速度

建議

中文文件處理為主的企業可立即評估 PaddleOCR 3.5 取代既有方案;RAG 工程師可把它列入文件前處理選項;對 latency 敏感的邊緣用戶建議先做小規模測試,必要時走原生 Paddle 路線。

來源: Hugging Face - PaddleOCR 3.5 with Transformers Backend (官方)