OpenAI 公開《Where the goblins came from》:GPT-5 系列「哥布林化」問題與獎勵失控的工程內省 L2
信心度 : 高
重點 : OpenAI 4/29 公開技術 post-mortem,解釋為什麼 GPT-5.1 起,模型在比喻中越來越常出現「哥布林、地精、小怪物」字眼,導致團隊不得不在 Codex agent 程式碼裡四度寫下「不要提哥布林」。根因為訓練「Nerdy 人格」客製化時,意外對「以怪物作比喻」給出過高獎勵,再透過 RL 跨條件外溢到所有人格。文章提供時間線、根因分析與修復方法。
影響 : 對 AI 工程:是公開層級難得的 RLHF/personality 訓練 leakage 案例,提醒所有「定向人格化」嘗試需配合條件隔離測試。對開發者:日後 GPT-5 API 的 system prompt 隨機飄出怪物比喻將成為過去式;亦顯示 OpenAI 內部開始建立「行為回溯」工具鏈。對教學圈:可作為「為什麼大模型行為不可預測」的教材級案例。
詳細分析
取捨考量
優點 :
少見的 OpenAI 透明 post-mortem,建立業界範本 對 RL 條件外溢與獎勵駭客的可觀測性提供新工具 使「個性化」功能的測試紀律提升 缺點 :
未公開具體 reward model 設計細節,難完整複現 已發行模型版本是否會回溯修補仍不明 「人格化」帶來的行為偏移風險仍將反覆出現
快速體驗(5-15 分鐘)
閱讀 OpenAI 原文,把「reward bleed-through」「out-of-condition transfer」等術語列入內部風險詞表 在自家 RLHF 流程中加入「條件隔離測試」:對未開啟人格的 prompt 抽樣,看訓練後是否出現非預期風格漂移 檢視自家 Codex/Cursor agent 是否仍存在類似硬編碼黑名單,改寫成可觀測的安全層
建議
若你做客製化 system prompt 或 fine-tune,把這篇加入工程站立會週讀清單。對「角色化 AI 產品」團隊尤為必讀。
來源 : OpenAI - Where the goblins came from (官方) | ABMedia 鏈新聞 - OpenAI 揭 Codex 為何禁談「哥布林」 (新聞)
Apple 研究 LaDiR:用「潛在擴散」讓 LLM 平行探索多條推理路徑 L2
信心度 : 高
重點 : Apple 研究團隊與 UC San Diego 共同發表 LaDiR (Latent Diffusion Reasoning):在推理階段引入潛在擴散過程、再以自迴歸方式產出最終答案,並可平行跑多條推理路徑、機制鼓勵彼此分歧。實驗在 LLaMA 3.1 8B(數學/規劃)與 Qwen3-8B-Base(程式碼)上顯示,於 HumanEval、AIME 等基準明顯優於標準 fine-tune,特別在較難 OOD 任務上更穩定。
影響 : 對研究:LaDiR 不取代 LLM,而是替代既有的 chain-of-thought / self-consistency 包裝,給「平行探索 + 收斂」帶來新的訓練目標。對開發者:是值得加入「reasoning tooling」工具箱的開源框架候選,預期未來會在 8B–30B 級開源模型上看到更多衍生實驗。
詳細分析
取捨考量
優點 :
多路徑平行探索可提升困難任務命中率 建立在現有 LLM 之上,不需重新訓練底模 對 8B 級小模型尤其有利,縮小與 70B 模型的差距 缺點 :
推理時延上升,需平衡多路徑數量 潛在擴散與自迴歸混合架構部署複雜 尚未開源完整訓練腳本,社群復現需時
快速體驗(5-15 分鐘)
把 LaDiR 與 self-consistency、Tree-of-Thoughts 在 GSM8k 上做 head-to-head 對 Qwen3-8B-Base 跑 LaDiR 範本,看 HumanEval pass@1 vs. 標準 SFT 的差 評估在你產品「複雜規劃」場景上把 LaDiR 接到 retrieval 之後的可行性
建議
若你已部署 8B 級開源 LLM 做工具規劃 / 數學任務,LaDiR 是 2026 上半年最值得試的 inference-time 增強方案之一。
來源 : 9to5Mac - Apple researchers built an AI that tests several ideas in parallel before answering (新聞) | Apple Machine Learning Research - ICLR 2026 (官方)
Hugging Face 觀察:AI Evaluations 已成為新的算力瓶頸 L2
信心度 : 高
重點 : Hugging Face EvalEval 聯盟 4/29 發文指出:AI 評測 (eval) 開銷已超越單純訓練算力,成為新瓶頸。Holistic Agent Leaderboard (HAL) 一次完整 21,730 次 rollouts 已花費約 4 萬美元,到 4 月底已達 26,597 rollouts。單一 benchmark 跑一次的成本可橫跨 4 個量級;同一 benchmark 內 scaffold 細節可讓成本再差 10×。文章指出花更多錢 ≠ 更好結果(Browser-Use+Sonnet 4 跑 Online Mind2Web 花 $1,577 取得 40%,SeeAct+GPT-5 Medium 花 $171 取得 42%)。
影響 : 對學術/開源:揭示 agent benchmark 不再是「免費的午餐」,重要 leaderboard 逐漸需要贊助。對企業:為 AI 採購決策時不應只看 benchmark 第一名,而需評估 cost/benchmark 比。對工具供應商:對 eval 成本可控性的要求正在浮現,模型效能 + benchmark 工程效率將成為差異化點。
詳細分析
取捨考量
優點 :
提供 HAL 26k+ rollouts 的真實成本參考 量化「scaffold 影響成本 10×」對工程實踐極具警示 推動社群建立可重現的低成本評測管線 缺點 :
對個人/小團隊,仍難取得頂級 agent benchmark 的同等資源 部份結論依賴 HAL 單一資料集 尚未提供開源的成本最佳化 evaluation framework
快速體驗(5-15 分鐘)
把這篇加入 AI 工程週會書單,作為「為什麼我們不該無腦複製 leaderboard 設定」的論據 檢視自家內部 eval pipeline,確認是否在 scaffold 上做了昂貴但無收益的選擇 在採購 AI 工具前,索取 vendor 的 cost-per-benchmark 證據而非只看 benchmark 排名
建議
產品 / 平台團隊應把「eval 成本」納入 OpEx 預算項,並追蹤 HAL、SWE-Bench、Mind2Web 等 leaderboard 在 5–6 月的成本變化趨勢。
來源 : Hugging Face Blog - AI evals are becoming the new compute bottleneck (官方)
Italy AGCM 正式結束對 DeepSeek、Mistral、Nova AI 的反壟斷調查 L2
信心度 : 高
重點 : 義大利反壟斷局 AGCM 4/30 宣布結束針對 DeepSeek、Mistral 與土耳其 Nova AI 三家公司的消費者保護調查。三家業者承諾在網站、App 及聊天介面加上永久性的「幻覺風險」警示;DeepSeek 額外承諾投資減少幻覺的技術,並承認現階段技術無法完全避免。NOVA AI 則承諾向消費者明示其平台只是多個聊天機器人的接入介面,不再聚合或處理它們的回應。
影響 : 對歐盟 AI 法規:AGCM 案是 AI Act 之外另一條「以消費者保護法處置 AI 幻覺」的成功路徑,預期其他成員國跟進。對 AI 廠商:UI 層必須加入清楚的幻覺警語,影響本地化與市場團隊的合規工作。對使用者:提供更明確的可解釋性提示,但實際保護有限。
詳細分析
取捨考量
優點 :
設下歐洲對 AI 幻覺的「最低 UI 揭露」基準 促使 DeepSeek 等中國/新興廠商正視西方合規要求 案件以承諾結案而非罰款,業者與監管達成可預期框架 缺點 :
揭露文字效果有限,使用者疲勞下可能無感 未強制公開模型錯誤率,無法做跨廠商比較 對開源權重 (Granite、Mistral) 的衍生使用者造成額外合規傳導壓力
快速體驗(5-15 分鐘)
檢視自家產品在義大利語/歐洲版本是否已內建「AI 可能產生不正確資訊」永久揭露 把 AGCM 結案報告中的「合理 disclaimers 範本」貼進法務知識庫 對所有第三方 chat aggregator (NOVA-like) 的整合,追加「使用條款」中的代理層提示要求
建議
在歐洲營運的 AI 產品團隊應立即與法務檢視 UI 揭露語句,並把 DeepSeek 案的承諾框架納入內部 AI Compliance Playbook。
來源 : Reuters - Italy closes antitrust probes into AI firms after commitments on 'hallucination' risks (新聞) | TheNextWeb - AGCM closes DeepSeek, Mistral, and Nova AI hallucination probes (新聞)
DeepInfra 加入 Hugging Face Inference Providers:第三家百萬 QPS 級推理夥伴 L2
信心度 : 高
重點 : Hugging Face 4/29 宣布 DeepInfra 正式加入 Inference Providers 計畫,與 Together、Replicate、Fireworks、Cerebras 並列。透過單一 HF API key 即可呼叫 DeepInfra 上的 Llama、Mistral、Qwen、Granite 等模型,不必在多家供應商間維護分別 SDK。HF 同步更新 SDK 的 fail-over 路由策略:可指定多個提供商並依延遲、配額自動切換。
影響 : 對開發者:再多一條 OpenAI 相容的開源模型 API 通路,價格與冷啟動延遲將進一步壓低。對自架 vs. SaaS 的決策:DeepInfra 在低延遲區(東京、法蘭克福)的覆蓋擴大了 HF Inference 的全球可用性。對 Hugging Face:完成 multi-provider 路由器定位,朝「開源模型的 API 中央交換」更近一步。
詳細分析
取捨考量
優點 :
一個 HF Token 通吃多家提供商,省去 SDK 整合 價格競爭壓低開源模型 API 報價 具備自動 fail-over 後的可用性提升 缺點 :
與 OpenAI/Anthropic 比仍偏向 OSS 模型,閉源模型缺席 fail-over 路由的成本控制需自行配置,否則容易意外用到貴的 provider 部份模型在 DeepInfra 與其他供應商之間版本不完全一致,需額外驗證
快速體驗(5-15 分鐘)
在 HF 帳號設定 Inference Providers,加入 DeepInfra 並把 Llama-3.3-70B 路由優先級設高 用 `huggingface_hub` Python SDK 呼叫,比較 DeepInfra vs. Together 的同模型 P95 延遲 把 fail-over 列表設為 [DeepInfra, Together, Replicate],模擬其中一家異常時的切換時間
建議
已在使用 HF Inference Providers 的團隊應立即加入 DeepInfra 做價格與延遲對比;若需要在歐洲/亞洲低延遲,DeepInfra 的覆蓋值得測試。
來源 : Hugging Face Blog - DeepInfra on Hugging Face Inference Providers (官方)