🔴 L1 - 平台級更新
OpenAI 模型、Codex、Managed Agents 登陸 AWS Bedrock L1
信心度 : 高
重點 : OpenAI 與 AWS 宣布重大合作:最新 OpenAI 模型、Codex 編碼代理(每週 400 萬使用者)以及全新 Amazon Bedrock Managed Agents 服務同步進駐 AWS Bedrock,目前處於有限預覽階段。企業可透過既有的 Bedrock API、IAM、PrivateLink、CloudTrail 與合規框架直接呼叫 OpenAI 模型,Codex 同時提供 Bedrock API、CLI、桌面 App 及 VS Code 擴充功能。這是 Microsoft-OpenAI 合作關係修訂後的第一個重大跨雲部署,標誌 OpenAI 正式擺脫 Azure 獨家綁定。
影響 : 此合作改變雲端 AI 市場格局。AWS 客戶(佔全球公有雲約 30% 市佔)首次能在自有 VPC 與安全控制下直接使用 GPT 模型與 Codex,無需跨雲傳輸資料;對既有 Azure OpenAI 客戶,意味著未來可在 AWS 上獲得功能對等服務並啟用多雲策略。對企業 AI 平台選型團隊而言,OpenAI 模型不再是「使用 Azure 才能取得」的鎖定條件。Bedrock Managed Agents 也正式與 Google Vertex AI Agent Builder、Azure AI Foundry 同台競爭企業代理平台市場。
詳細分析
取捨考量
優點 :
OpenAI 模型享有 AWS IAM、PrivateLink、CloudTrail 等企業級安全控制 資料留在 AWS 內,符合既有合規框架 Codex 整合 VS Code 與桌面 App,開發者體驗一致 降低對單一雲端提供商的依賴風險 缺點 :
目前為有限預覽,需申請才能使用 尚未公布定價,可能與 Azure OpenAI 有差異 未明確列出可用的 OpenAI 模型版本(如 GPT-5、o-series) 區域可用性未公告,可能初期僅限美國區
快速體驗(5-15 分鐘)
登入 AWS Console 進入 Amazon Bedrock 介面,申請 OpenAI 模型有限預覽存取權 閱讀 AWS 公告 https://aws.amazon.com/about-aws/whats-new/2026/04/bedrock-openai-models-codex-managed-agents/ 了解可用模型清單 若使用 Codex,可直接安裝 VS Code 擴充並使用 AWS 認證登入測試 評估從 Azure OpenAI 遷移時的 API 相容性(請求格式、認證機制差異)
建議
若公司主要在 AWS 上運行,建議立即申請有限預覽,並開始規劃概念驗證。AWS 既有客戶不需再為 OpenAI 模型建置跨雲架構,可大幅簡化資安與計費流程。Azure OpenAI 既有用戶建議觀察定價公告後再決定是否多雲部署,避免短期內為相同能力付出雙倍成本。
來源 : OpenAI Blog (官方) | About Amazon (AWS) (官方) | TechCrunch (新聞)
Microsoft 與 OpenAI 修訂合作協議:IP 授權至 2032 年改為非獨家、雲端中立化 L1
信心度 : 高
重點 : Microsoft 與 OpenAI 公布修訂後的合作協議,重大變更包括:(1) Microsoft 對 OpenAI 智財權的授權延長至 2032 年,但從原本獨家改為非獨家;(2) Microsoft 仍是 OpenAI 主要雲端夥伴,OpenAI 產品優先在 Azure 上線,但 OpenAI 取得在其他雲端服務的自由;(3) Microsoft 不再支付 OpenAI 營收分潤,但 OpenAI 持續至 2030 年以原比例(受總額上限限制)支付 Microsoft;(4) Microsoft 維持主要股東身份。同日 OpenAI 即在 AWS 上線(見上一則)印證新協議帶來的自由度。
影響 : 這是 AI 產業近年最重大的商業協議重組。對 Microsoft 而言,雖失去獨家綁定但保留 IP 與股權的長期收益;對 OpenAI 而言取得運營獨立性,可在 AWS、GCP 部署並服務不同雲端的企業客戶;對企業選型,Azure OpenAI 不再是取得 OpenAI 模型的唯一商業管道,採購談判空間大幅增加。對其他 AI 提供商(Anthropic、Google)而言,意味著最大競爭者的市場觸達範圍倍增。
詳細分析
取捨考量
優點 :
OpenAI 取得跨雲部署自由,企業選擇增加 Microsoft 仍透過 IP 授權至 2032 年保留長期收益 Azure 仍享有 OpenAI 產品優先上線的時間優勢 雙方架構簡化,營運不確定性降低 缺點 :
Microsoft 失去 OpenAI 模型獨家賣點,Azure 差異化縮小 OpenAI 至 2030 年仍須持續支付 Microsoft 分潤,財務壓力延續 公告未提及 AGI 條款的最新狀態,仍有解讀空間 授權條款細節(如哪些 IP 可被第三方授權)未完全公開
快速體驗(5-15 分鐘)
閱讀 Microsoft 部落格 https://blogs.microsoft.com/blog/2026/04/27/the-next-phase-of-the-microsoft-openai-partnership/ 了解官方說明 評估目前 Azure OpenAI 用量是否仍是最佳選擇,比較 AWS、GCP 即將上線的 OpenAI 服務報價 若計劃多雲架構,預先規劃 OpenAI API 的 SDK 抽象層以便未來切換 關注 OpenAI 在 GCP 的可能合作公告,預期 2026 下半年陸續落地
建議
企業 AI 採購團隊建議重新評估雲端綁定策略:原本因 OpenAI 獨家而選擇 Azure 的客戶,可重新分析 AWS Bedrock OpenAI、Azure OpenAI 在價格、區域、整合度的差異;新採購案不必然選擇 Azure。同時應在 SDK 層抽象化 LLM 呼叫,保留未來多雲切換彈性。
來源 : OpenAI Blog (官方) | Microsoft Blog (官方) | The New York Times (新聞)
DeepSeek V4 預覽版發布:1.6T 參數、1M 上下文、原生支援代理工具流程 L1
信心度 : 高
重點 : DeepSeek 釋出 V4 預覽版,包含兩個模型:DeepSeek-V4-Pro(1.6T 總參數、49B 激活)與 DeepSeek-V4-Flash(284B 總參數、13B 激活)。核心創新為混合注意力機制(壓縮稀疏注意力 CSA + 重壓縮注意力 HCA)達成相對 V3.2 的 KV cache 體積僅 7-10%;原生支援 1M token 上下文。新增三大代理特性:(1) 跨工具呼叫保留思考軌跡(Interleaved Thinking)、(2) XML 格式工具 schema 替代 JSON 減少解析失敗、(3) Rust 沙箱(DSec)支援 RL 訓練。Terminal Bench 2.0 達 67.9,SWE Verified 80.6 與 Opus-4.6-Max 平分秋色。同時相容 OpenAI ChatCompletions 與 Anthropic API 格式,並已整合 Claude Code。舊版 deepseek-chat、deepseek-reasoner 將於 2026-07-24 退役。
影響 : V4 是首個能在開源 1M 上下文下保持代理品質的旗艦模型。對 AI 應用開發者,意味著開源選項在工具呼叫、長對話、代碼工程等場景已逼近 Claude Opus、GPT-5 水準;對既有 DeepSeek 用戶,舊端點 3 個月內須遷移;對自行部署團隊,FP4/FP8 量化讓 V4-Flash 可在較少 GPU 上運行。同時相容 Anthropic/OpenAI API 格式大幅降低試用門檻。
詳細分析
取捨考量
優點 :
1M 上下文搭配高效注意力,長文件代理任務性能大躍進 Terminal Bench、SWE 跑分接近 Claude Opus,開源選項首次達到此水準 API 相容 OpenAI/Anthropic,遷移成本極低 新 XML 工具 schema 減少解析錯誤 缺點 :
舊模型 (deepseek-chat、deepseek-reasoner) 7/24 退役,須在 3 個月內完成遷移 1.6T 參數本地部署門檻高,多數團隊只能用 Flash 或雲端 API 預覽版仍可能有穩定性與限速調整 新增 Think Max 模式需 384K+ 上下文,記憶體佔用大
快速體驗(5-15 分鐘)
登入 DeepSeek API 主控台,將模型 ID 改為 deepseek-v4-pro 或 deepseek-v4-flash 進行 A/B 測試 若有舊整合,更新 SDK 並設定 thinking_mode 參數(non-think / think-high / think-max) 代理應用:將工具 schema 從 JSON 改為 XML 格式(DSML token),測試 tool-use 成功率提升幅度 本地部署嘗試:到 Hugging Face Hub 下載 DeepSeek-V4-Flash(284B/13B),可用 8x H100 推理
建議
現有 DeepSeek 用戶應立即在測試環境驗證 V4 並排定 7/24 前的遷移計劃。新嘗試者可先用 V4-Flash API 評估代理任務(如多步工具呼叫、長文件分析),若效果接近 Claude Opus 但成本顯著降低,可作為主力模型。仍建議生產環境保留 fallback 路徑,待預覽版進入 GA 後再大規模部署。
來源 : DeepSeek 官方文檔 (官方) | Hugging Face Blog (文檔) | MIT Technology Review (新聞)
Anthropic 推出 Claude for Creative Work:直連 Blender、Adobe、Autodesk、Ableton 等 9 大創意工具 L1
信心度 : 高
重點 : Anthropic 發布「Claude for Creative Work」,提供 9 個專為創意專業設計的連接器:Blender、Adobe Creative Cloud、Autodesk Fusion、Ableton、Affinity、SketchUp、Resolume、Splice。同步推出兩項衍生產品:Claude Design(探索與迭代軟體體驗概念)、Claude Code(撰寫腳本與插件)。Anthropic 強調定位為「整合進既有專業工作流,而非替代創意」。已與羅德島設計學院、林林學院、倫敦大學金匠學院合作教育場景。
影響 : 這是 LLM 第一次系統性整合進主流創意工作流(3D、影像、音訊、設計)。對 3D 美術師、音樂製作人、設計師而言,可用自然語言操作 Blender 節點、Ableton MIDI、Autodesk 模型;對遊戲開發、影視後製、工業設計團隊而言,重複性流程(批次處理、跨工具資產轉換、程序化生成)可由 Claude 自動腳本化完成。也對 Adobe Firefly、Autodesk Bernini AI 等同類整合形成正面競爭。
詳細分析
取捨考量
優點 :
原生整合 9 大創意工具,無需自建 MCP/外掛 Claude Code 可生成 Blender Python、Ableton Max 腳本 教育機構已採用,課程素材豐富 強調輔助而非替代,符合創意人員對工具的期待 缺點 :
未公布定價(可能整合至 Claude Pro/Team 或獨立訂閱) 連接器須各自設定權限與 API 金鑰,初設成本高 重度依賴主機 OS 的 IPC 機制,可能在 Mac/Windows 體驗不一 敏感作品檔案傳送至 Claude 需評估資安政策
快速體驗(5-15 分鐘)
前往 https://anthropic.com/news/claude-for-creative-work 申請早期存取或加入 waitlist Blender 用戶:安裝 Claude 連接器並嘗試「請幫我把所有貼圖統一到 4K 並重新烘焙」這類自然語言指令 Ableton 用戶:以 Claude 生成 Max for Live 腳本並掛載到專案中測試 團隊內導入時,先在沙箱專案測試連接器存取範圍與資料外傳行為
建議
創意工作室、遊戲美術 pipeline 團隊建議排定一個月概念驗證:選 1-2 個高重複性流程(如批次格式轉換、貼圖/網格自動化)測試,量化節省工時;個人創作者可先以 Claude Pro 訂閱搭配 Blender/SketchUp 連接器試用,若體驗良好再評估升級。注意敏感作品檔案的傳輸政策,避免違反客戶 NDA。
來源 : Anthropic 官方 (官方) | 9to5Mac (新聞) | MacRumors (新聞)
GitHub Copilot 改採用量計費:6/1 起以 GitHub AI Credits 結算 token 用量 L1
信心度 : 高
重點 : GitHub 公布 Copilot 計費結構大改:自 2026-06-01 起停用「premium request」單位,改以 GitHub AI Credits 計算所有輸入、輸出與 cached token 的實際用量。基本月費維持不變:Pro $10(含 $10 credits)、Pro+ $39(含 $39 credits)、Business $19/seat(含 $19 credits)、Enterprise $39/seat(含 $39 credits)。Business、Enterprise 客戶獲得 6-8 月過渡期額外 $30、$70 promotional credits。代碼自動完成(completions)仍免費;admin 取得預算控制;組織可彙總未用 credits。GitHub 解釋:「Copilot 已不是一年前的產品,從補完工具進化為代理平台,運算成本顯著上升」。
影響 : 這是 AI 編碼助手價格戰的轉折點。重度使用者(agent mode、長對話)月成本可能超過原 $10/$39;輕度使用者基本不變。對企業而言,原本以 seat 數計費可預測,現在改為配額制需要主動監控;admin 須設定預算上限避免超支。同時也呼應 Cursor、Anthropic Claude Code 等競品的定價模式,整個 AI 編碼工具市場朝「使用量計費」收斂。
詳細分析
取捨考量
優點 :
輕度使用者價格不變,重度使用者享有額外 credits 過渡 Admin 預算控制、組織內 credits 共享,企業治理改善 代碼自動完成仍免費,基本生產力不受影響 促使開發者意識到 token 消耗,鼓勵更精準的 prompt 缺點 :
Agent mode、長對話用戶月成本可能不可預測 Fallback 體驗將被移除,超出 credits 後須等待或購買加值 個人用戶須自行追蹤用量,新增認知負擔 GitHub Copilot Free 使用者影響範圍尚未明確
快速體驗(5-15 分鐘)
登入 GitHub Settings → Copilot 查看目前用量歷史,估算 6/1 後的成本 閱讀官方文檔 https://docs.github.com/copilot/concepts/billing/usage-based-billing-for-individuals Admin:在 Organization 設定預算上限與通知門檻,並向團隊宣導 重度使用者:評估是否升級至 Pro+ ($39) 並啟用 spending limit
建議
個人開發者:5 月內回顧自己過去用量(特別是 agent mode 互動次數),若每月主要用 completions 則維持 Pro 即可;若大量使用 chat 與 agent,考慮直接升級 Pro+ 並加 spending limit。企業:admin 應在 5/15 前完成預算試算與政策宣導,並啟用組織級 credits pooling 以平衡個別開發者用量差異。
來源 : GitHub Blog (官方) | GitHub Docs (文檔) | Game Developer (新聞)
🟠 L2 - 重要更新
Mistral Workflows 公開預覽:基於 Temporal 的企業 AI 流程編排引擎 L2
信心度 : 高
重點 : Mistral AI 正式公開預覽 Workflows:以 Temporal 為核心的企業 AI 流程編排層。特色包括持久化執行(自動續跑)、Studio 內步驟級可觀測性、單行程式碼即可加入人類審核(human-in-the-loop)、原生整合 Mistral Studio 的 agents 與 connectors。部署模式為混合:Mistral 託管 Temporal 叢集、API、Studio,客戶以 Helm 在自有 Kubernetes 部署 worker 保留資料主權。已用於海關清關、KYC 文件審核、客服工單分流等企業案例。
影響 : Workflows 把生產級 AI 流程的「狀態管理、重試、人工審核」做進平台層,降低自建 LangGraph/Airflow + LLM 的整合複雜度。對歐洲及金融、政府客戶尤其關鍵,因為 worker 在客戶 K8s 內部執行,敏感資料不離開安全邊界。也與 LangChain LangGraph Cloud、AWS Bedrock Agents 形成競爭。
詳細分析
取捨考量
優點 :
Temporal 久經考驗的工作流引擎,可靠性高 Worker 在客戶 K8s 內執行,符合資料主權需求 Human-in-the-loop 一行程式碼整合,企業審核流程簡化 原生與 Mistral 模型、Studio 整合 缺點 :
需要自有 Kubernetes 環境,門檻高於純 SaaS 鎖定 Mistral 平台,跨模型支援程度未公布 預覽期定價、SLA 未明確 Temporal 學習曲線對非分散式系統團隊較陡
快速體驗(5-15 分鐘)
閱讀 https://mistral.ai/news/workflows 取得官方文檔連結 在內部 K8s 沙箱環境部署 worker Helm chart 嘗試最小範例 選 1 個現有手動流程(例如客戶郵件分類)作為概念驗證 評估與既有 LangGraph/n8n 的差異,避免重複建置
建議
已使用 Mistral Studio 或在歐洲、金融、政府場域有資料主權需求的團隊優先評估。其他團隊可先觀察預覽期反饋與定價公告,若已建置 LangGraph/Temporal 自架方案,遷移收益不大;若仍是腳本散落狀態,Workflows 可作為起點。
來源 : Mistral 官方 (官方) | InfoQ (新聞)
NVIDIA Nemotron 3 Nano Omni:30B 多模態長上下文模型,跨文件、音訊、影片代理 L2
信心度 : 高
重點 : NVIDIA 發布 Nemotron 3 Nano Omni(30B 參數,混合 Mamba-Transformer-MoE 架構),跨文字、視覺、音訊、影片完整模態,並提供 BF16、FP8、NVFP4(4-bit 等效 18B)三種量化版本。能力上:OCR Bench V2-En 65.8、Video-MME 72.2、VoiceBench 89.4、ASR WER 5.95;可處理 5+ 小時多模態內容、100+ 頁文件,視覺 patches 1,024-13,312 動態解析度,音訊原生整合。針對代理電腦使用(GUI 自動化)、長文件分析、會議理解、多模態推理場景優化,宣稱比同類方案多文件效率高 7.4 倍、影片高 9.2 倍。
影響 : 把 Mamba-MoE 架構推向多模態主流,特別適合需要長上下文的企業文件代理(合約審閱、財報分析)、客服多模態理解、桌面自動化等場景。30B 參數 + NVFP4 讓單張高階 GPU 可運行,佈署門檻顯著低於前代 70B+ 模型。
詳細分析
取捨考量
優點 :
原生多模態(文字/視覺/音訊/影片)一個模型搞定 NVFP4 量化讓 4-bit 推理可在單張 GPU 部署 長上下文表現亮眼(5+ 小時內容、100+ 頁文件) OCR、ASR、影片基準分數逼近專用模型 缺點 :
NVIDIA 自家許可條款,商業用途需審閱 Hybrid Mamba 架構需相容的 inference engine(NeMo / TRT-LLM) 30B 雖小但仍需 H100/H200 才能跑滿規格 與 Llama 4、Qwen-VL 同級競爭,需獨立基準確認
快速體驗(5-15 分鐘)
至 huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4 下載 4-bit 版本 閱讀技術報告 research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Omni-report.pdf 用 NeMo 或 TensorRT-LLM 在單張 H100 推理測試 OCR 與長文件 評估與 Qwen2.5-VL、Llama 4 在自家任務的對比
建議
重視長文件、多模態(特別是音訊、影片)的代理應用團隊值得加入候選清單。需先用自家數據獨立測試 OCR、ASR、影片理解,並確認許可條款符合商業需求。已在 NVIDIA AI Enterprise 生態的客戶優先級最高。
來源 : Hugging Face Blog (官方)
OpenAI 取得 FedRAMP Moderate 認證:聯邦機構可採用 ChatGPT Enterprise 與 API L2
信心度 : 高
重點 : OpenAI 宣布 ChatGPT Enterprise 與 API 雙雙取得美國 FedRAMP Moderate 授權。FedRAMP Moderate 是美國聯邦機構雲端服務最常見的安全等級,涵蓋多數非機密但敏感的政府工作負載。此認證讓聯邦機構(含 GSA、HHS、DoD 部分子機構)可在政府合規框架下採購使用 OpenAI 服務,無需自行重複進行第三方安全評估。
影響 : 對美國政府、承包商及州政府而言,採購 ChatGPT 與 OpenAI API 的法規門檻大幅降低。對企業合規而言,FedRAMP Moderate 也是高標準參考,反向推升商用客戶信任度。同時凸顯 OpenAI 在政府市場進度(先前已取得 IL5 等部分認證),對 Anthropic、Google 形成競爭壓力。
詳細分析
取捨考量
優點 :
聯邦採購流程顯著簡化 FedRAMP Moderate 對企業客戶亦具參考價值 ChatGPT Enterprise 與 API 雙雙覆蓋 缺點 :
Moderate 等級不涵蓋機密、最高機密工作負載(須 IL5/IL6) 區域性與資料駐留細節未公布
快速體驗(5-15 分鐘)
聯邦機構:透過 FedRAMP Marketplace 查找 OpenAI 條目 閱讀 https://openai.com/index/openai-available-at-fedramp-moderate 取得授權範圍 與內部資安/採購團隊對接,更新雲端服務白名單
建議
美國聯邦、州政府機構及其承包商可立即啟動採購評估;金融、醫療等高度監管產業可將此作為 OpenAI 採用的合規佐證之一。
來源 : OpenAI 官方 (官方)
OpenAI 公布五大智慧時代資安策略:強調 AI 民主化防禦與關鍵基礎設施保護 L2
信心度 : 中
重點 : OpenAI 在「Cybersecurity in the Intelligence Age」一文公布五部分資安策略:(1) 民主化 AI 防禦工具讓中小企業負擔得起;(2) 保護關鍵基礎設施(電網、醫療、金融);(3) 與政府、民間紅隊協作識別風險;(4) 投資於 AI 與資安人才;(5) 強化模型對抗濫用的內建防線。文章強調 AI 攻防雙方都在加速,OpenAI 將採取主動防禦立場。
影響 : 本身為策略性論述,無立即產品變化,但揭示 OpenAI 在資安市場的長期方向:可能推出 ChatGPT 為核心的紅隊、藍隊工具,並強化 GPT-5 等模型對 social engineering、惡意 prompt 的內建偵測。對 CISO 與政府資安單位是政策訊號。
詳細分析
取捨考量
優點 :
明確點名民主化防禦,可能催生中小企業可用工具 公開承諾保護關鍵基礎設施 缺點 :
快速體驗(5-15 分鐘)
資安團隊:閱讀全文並對照公司既有 AI 風險評估框架 關注 OpenAI 後續是否推出企業資安專屬產品線
建議
做為 AI 資安治理討論的政策素材,無須立即行動。CISO 可在未來六個月內觀察 OpenAI 是否落實具體防禦工具,再評估納入採購。
來源 : OpenAI 官方 (官方)
Xbox 在新領導 Asha Sharma 下重新評估 AI、獨家性與定價策略 L2 GameDev - 程式/CI
信心度 : 中
重點 : 新任 Xbox 主管 Asha Sharma 上任 62 天後發出對外備忘錄,明確將「重新評估獨家性、視窗發行(windowing)與 AI」三大策略。具體已執行:Game Pass Ultimate 月費由 $29.99 降至 $22.99、組織從「Microsoft Gaming」改回「Xbox」、以日活躍玩家為核心指標。AI and Games 分析認為:相對於 CEO Satya Nadella 大力推廣的 Microsoft Muse 等生成式 AI 願景,Xbox 在新任領導下對 AI 採取更保守、玩家信任優先的姿態。
影響 : 對與 Microsoft/Xbox 合作的遊戲開發者與發行商,是重要的策略信號:短期內不應預期 Xbox 會大規模整合生成式 AI 於遊戲內容;母公司層級的 AI 推廣與遊戲事業部之間出現可見落差。對 Microsoft Muse、Copilot for Gaming 等專案的整合進度可能延後;玩家社群則可能看到較少 AI 內容、較多訂閱與發行模式調整。
詳細分析
取捨考量
優點 :
Xbox 重新聚焦玩家信任與訂閱經濟 AI 整合速度放緩,避免重蹈一窩蜂風險 缺點 :
與 Microsoft 母公司 AI 戰略的方向落差,內部協調挑戰 對於投入 Muse、Copilot for Gaming 的合作夥伴規劃不確定性
快速體驗(5-15 分鐘)
Xbox 合作開發者:關注 Sharma 後續官方訪談與 Microsoft Build 2026 公告 AI 整合專案:暫緩重押 Xbox 平台 AI 功能,優先驗證 PC、PlayStation 整合
建議
若你的工作室正規劃以 AI 生成內容(NPC 對話、程序化內容)為核心賣點,建議短期內不要把 Xbox 平台作為首發優勢;以 PC(Steam)和 PlayStation 為主、Xbox 為跟隨平台。同時持續關注 Sharma 後續對 Muse / Copilot for Gaming 的官方表態。
來源 : AI and Games (新聞)
Convai 發布 Unity + Meta Quest 混合實境 AI 角色教學:30 分鐘建出可看見現實世界的 NPC L2 GameDev - 動畫/語音
信心度 : 高
重點 : Convai 推出官方教學,演示如何在 Unity URP Android 專案中將 Convai NPC 整合進 Meta Quest passthrough 混合實境,並啟用 Quest 攝影機 vision 能力,讓 AI 角色「看見」並回應現實環境。需求套件:Convai Unity SDK、Meta MR Utility Kit v85、OVR Interaction v85;關鍵步驟:將 Convai Manager 連線改為 Video、加入 Convai Vision Publisher 與 Quest Vision Frame Source 元件、把 Unity 預設攝影機替換為 Passthrough Camera Access、Canvas 改為 World Space 並縮放至 0.001。「在已配置好的 URP Android 專案下,30 分鐘內可完成」。
影響 : MR 平台首次有官方範本完整示範 LLM NPC 整合 passthrough vision,把「能看見玩家環境的 AI 角色」門檻從研究級降到中型工作室可採用。對 VR/MR 內容開發者,是值得實作的概念驗證起點;對 Inworld、Charisma.ai 等競爭對手形成壓力。
詳細分析
取捨考量
優點 :
完整步驟與版本明確,易複製 原生整合 Meta Quest passthrough,無需自建 vision pipeline 30 分鐘內可從零跑通 demo 缺點 :
鎖定 Convai 平台與 Meta Quest 硬體 Vision 即時呼叫的延遲與費用尚需實測 MR 應用需 URP Android,若既有專案是 HDRP 須先轉換
快速體驗(5-15 分鐘)
下載 Convai Unity SDK 並參考 https://convai.com/blog/how-to-build-mixed-reality-ai-characters-in-unity-with-convai-on-meta-quest-2026 確認 Meta MR Utility Kit v85、OVR Interaction v85 已安裝 建立空白 URP Android 專案,套用 OpenXR plugin 並轉成 XR 依教學設定 Convai Vision Publisher,使用 Quest 拍攝桌面物品測試 NPC 反應
建議
VR/MR 工作室、Quest 開發者強烈建議撥半天時間實作教學版 demo,了解 LLM + passthrough vision 的延遲與互動可行性。若效果良好,可作為下一個原型專案的差異化亮點;若延遲過高(>1.5 秒),則暫緩到 Convai 推出更低延遲方案再評估。
來源 : Convai 官方部落格 (官方)