2026-05-18 AI 摘要

共 4 則更新

🔴 L1 - 平台級更新

Hugging Face × IBM 推出 Open Agent Leaderboard：評估「完整代理系統」而非單一模型，新增 DeepSeek V3.2、Kimi K2.5 L1

信心度: 高

重點: Hugging Face 與 IBM Research 推出 Open Agent Leaderboard，這是業界第一個以「完整代理系統」為單位的開源評估基準。它強調「同一個模型在不同 agent 架構、不同工具集、不同 memory 策略下，會產生差異懸殊的結果」，因此單獨評 LLM 已不夠。目前有 5 個模型 × 5 個 agent × 6 個 benchmark；新增的兩個開源權重模型 DeepSeek V3.2、Kimi K2.5 在特定組合下展現競爭力，但平均仍落後前沿閉源模型 18-29 個百分點。Leaderboard 開放三軸社群貢獻：新 agent（用 Exgentic 協議包裝）、新 benchmark（含程式化 evaluator）、新模型。

影響: 對 AI 評估方法論：把焦點從「LLM benchmark」轉向「整體 agent system benchmark」，是 2026 年下半年的關鍵典範轉移。對開源社群：DeepSeek V3.2 與 Kimi K2.5 取得能見度，可能加速開源代理棧的成熟。對企業 AI 採購：未來 RFP 應要求「Agent system benchmark」而非單純「模型分數」。

詳細分析

取捨考量

優點:

首次以代理「系統」為單位評估，反映實際 production 表現
開源權重模型（DeepSeek、Kimi）取得評估能見度
三軸貢獻機制清晰：agent、benchmark、model 各有提交流程
Exgentic 協議標準化代理包裝，未來可擴展到更多 agent framework

缺點:

5×5×6 矩陣仍偏小，無法涵蓋所有實務 agent 設計
開源權重落後前沿閉源 18-29 pp，落差仍顯著
Exgentic 協議是新標準，主流 agent framework（LangChain、CrewAI、AutoGen）尚未原生支援
結果可能受 benchmark task 偏向影響，仍需多元化

快速體驗（5-15 分鐘）

造訪 huggingface.co/blog/ibm-research/open-agent-leaderboard 閱讀方法論
在 Hugging Face Spaces 開啟排行榜，比較 5 個模型在你關心的 benchmark 上的表現
若你開發 agent framework，閱讀 Exgentic 協議規格並嘗試包裝
把 Agent system benchmark 加入你的下季模型選型評估

建議

AI 平台與 ML 主管應立即把 Open Agent Leaderboard 加入採購與選型流程；開源社群開發者可貢獻新 agent / benchmark 提升排行榜廣度；研究者可參考 18-29 pp 的開源落後幅度，研究如何透過更好的 agent harness 縮短差距。

來源: Hugging Face - The Open Agent Leaderboard (官方) | Hugging Face Spaces - Open Agent Leaderboard (官方)

🟠 L2 - 重要更新

Unity MCP 生態爆發：CoplayDev v9.6.3 加入 manage_profiler 工具，五大開源 plugin 將 Claude/Cursor 直連 Unity Editor L2GameDev - 程式/CI

信心度: 高

重點: Unity MCP（Model Context Protocol）生態在 5 月急速擴張，至少 5 個活躍開源 plugin 把 Claude Code、Cursor、Gemini、Codex 等 AI 工具直接連到 Unity Editor：(1) CoplayDev/unity-mcp 5/18 推出 v9.6.3 beta，新增 manage_profiler 工具的 14 個動作（session 控制、frame timing、object memory queries、Unity memory snapshot 整合、Frame Debugger 控制），把 profiling 工作流納入 AI agent；(2) AnkleBreaker-Studio/unity-mcp-plugin 提供 268-288 個工具，涵蓋 scenes、GameObjects、Shader Graph、Amplify、NavMesh、MPPM multiplayer 等 30+ 類別；(3) IvanMurzak/Unity-MCP 提供「任何 C# method 一行加註解即變工具」的開發者友善 SDK；(4) CoderGamester/mcp-unity 主打 production-ready 多 IDE 支援；(5) Meta XR Unity MCP Extension 為 Horizon OS 開發鋪路。Coplay 同期被多家媒體引用為 Unity MCP 標竿。

影響: 對 Unity 開發者：「AI agent 直連 Unity Editor」從實驗變成生產標配；以 manage_profiler 為例，可在 Claude / Cursor 內讓 AI 自動跑 profiler、抓 frame timing、做 memory snapshot 比較，把效能調校自動化。對 Unity Technologies：5 個 community plugin 倒逼官方 Unity AI Beta 與 MCP 工具加速。對 indie / 教育市場：開源免費 + Cursor / Claude Code 訂閱即可玩，門檻顯著下降。對 Unreal / Godot：類似 MCP plugin 仍少，Unity 在 AI 整合面取得先發優勢。

詳細分析

取捨考量

優點:

5 個 plugin 形成競爭生態，功能迭代快、選擇多
manage_profiler 等工具讓 AI 自動化覆蓋到效能調校等專業任務
268-288 工具規模顯示 Unity Editor 表面可被 AI 操控的廣度
所有 plugin 都開源，企業可審計、客製、二次開發

缺點:

5 個 plugin 互不相容，社群選擇成本高、API 標準分裂
Unity 官方 Unity AI Beta 與 community MCP 的長期關係不明
manage_profiler 等深度工具仍 beta，正式 production 用需謹慎
MCP server 在 Editor 內跑 HTTP，需注意端口衝突與安全邊界

快速體驗（5-15 分鐘）

在 Unity 6 專案先試 CoplayDev/unity-mcp v9.6.3 beta，跑一輪 manage_profiler demo
對比 AnkleBreaker（268 工具）與 IvanMurzak（C# attribute 開發者友善）的差異
若團隊用 Cursor 較多，先看 CoplayDev 的 Cursor 對接文件
把「Unity MCP plugin 選型」列入下季工具評估，避免後續遷移成本

建議

Unity 開發者立即試裝 1-2 個 plugin 做 PoC，特別是有 profiling、Shader Graph 高頻調整需求的團隊。中大型工作室建議鎖定 1 個 plugin 為標準，避免分裂；indie 可保持多 plugin 並用。Unreal / Godot 開發者可關注此模式，期待類似生態擴散。

來源: CoplayDev unity-mcp - GitHub (官方) | AnkleBreaker-Studio unity-mcp-plugin (官方) | IvanMurzak Unity-MCP (官方) | Claude Lab - Claude Code × unity-mcp Workflow (新聞)

Hugging Face 教學：用 LoRA/DoRA 微調 NVIDIA Cosmos Predict 2.5 做機器人影片生成 L2

信心度: 高

重點: NVIDIA 與 Hugging Face 在 5/18 共同發布教學，示範如何用 LoRA / DoRA 對 NVIDIA Cosmos Predict 2.5 做微調，產生機器人影片（用於機器人世界模型訓練、模擬資料增強）。文章涵蓋資料準備、訓練配置、評估指標與部署範例。Cosmos 系列是 NVIDIA 在 CES 2026 推出的物理 AI 模型家族，預測未來世界狀態以協助具身智慧 / 機器人訓練。

影響: 對機器人新創與研究者：把「世界模型 + 機器人影片生成」的客製化門檻顯著降低，PEFT 技術直接套用。對 NVIDIA 生態：Cosmos 從「demo」進入「可微調 production tooling」階段。對學界：物理 AI 研究的可重複實驗 baseline 更具體。

詳細分析

取捨考量

優點:

LoRA / DoRA 降低運算需求，單卡 A100/H100 可微調
NVIDIA × HF 官方教學，可信度高
範例完整覆蓋資料、訓練、評估流程
可串到具身智慧 / sim-to-real 工作流

缺點:

Cosmos Predict 2.5 仍需 NVIDIA NGC 註冊取得權重
機器人領域資料集仍稀缺，微調效果可能受限
與 OpenVLA、Octo 等開源具身基模型的差異化需評估
對非機器人領域（如遊戲 NPC）的可移植性未明

快速體驗（5-15 分鐘）

閱讀 HF 部落格教學，下載範例 notebook
從 NVIDIA NGC 取得 Cosmos Predict 2.5 權重
用小規模機器人資料集做一輪 LoRA 微調 baseline
對比 OpenVLA fine-tune 結果作為 baseline

建議

機器人新創、學術實驗室、自動化工廠 R&D 團隊：把這個教學作為 Cosmos 入門範本；遊戲 PCG 團隊：先評估 Cosmos 的影片風格是否符合 game 用途，再決定是否投入。

來源: Hugging Face - Fine-Tuning NVIDIA Cosmos Predict 2.5 (官方)

PaddleOCR 3.5 接上 Transformers 後端：OCR 與文件解析任務的開源新組合 L2

信心度: 高

重點: 百度 PaddlePaddle 在 5/18 透過 Hugging Face 發表 PaddleOCR 3.5：把長期領先的 OCR 與文件解析能力接上 transformers backend，使開發者能用 Hugging Face 標準介面跑 PaddleOCR，無需單獨安裝 PaddlePaddle 生態。涵蓋一般 OCR、表格抽取、版面分析等任務，支援多語包括繁簡中文。

影響: 對文件處理開發者：PaddleOCR 的中文／表格能力一直是 best-in-class，現可直接整合到 transformers / langchain pipeline。對中文企業：文件數位化、自動報表抽取的工程成本顯著降低。對開源 OCR 競爭：與 Tesseract、Surya、docTR 等的市場再洗牌。

詳細分析

取捨考量

優點:

transformers 整合大幅降低 install / dependency 複雜度
中文 OCR + 表格解析在開源領域仍是 top tier
版面分析有助於 RAG 預處理品質
Apache 2.0 等開源條款友善商用

缺點:

PaddleOCR 模型較大，邊緣裝置可能吃緊
transformers backend 仍是「適配層」，效能略低於原生 Paddle
與 Surya、docTR 在表格抽取的客觀比較需自行做
百度品牌在某些客戶（特別是政府／國防）有政治考量

快速體驗（5-15 分鐘）

用 pip install transformers + paddleocr 試最簡單範例（單張中文發票）
對比 Tesseract、Surya、docTR 在你的文件樣本上的字元正確率
把 PaddleOCR + LangChain 串成 RAG 預處理 demo
若需邊緣部署，量化模型並測 ARM 裝置速度

建議

中文文件處理為主的企業可立即評估 PaddleOCR 3.5 取代既有方案；RAG 工程師可把它列入文件前處理選項；對 latency 敏感的邊緣用戶建議先做小規模測試，必要時走原生 Paddle 路線。

來源: Hugging Face - PaddleOCR 3.5 with Transformers Backend (官方)

`?`	顯示此說明
`f`	聚焦公司篩選
`t`	聚焦等級篩選
`Esc`	關閉彈窗