重點: 6 月 2 日和 6 月 5 日,Anthropic 的 Claude 服務接連發生兩次重大全球中斷。6/2 中斷從凌晨 2:19 ET 開始,影響 Opus 4.6 到 Claude API 和 Claude Code CLI。6/5 中斷於 15:08 UTC 開始,各模型恢復時間不一:Opus 4.6 最快(8:25 PT),Opus 4.5 最慢(10:29 PT)。claude.ai、Claude API、Claude Code 和 Claude Cowork 均受影響。Thoughtworks 發文討論 AI 日益成為基礎設施的可靠性挑戰。
影響: 對依賴 Claude 作為核心工作流的團隊影響重大。兩次中斷間隔僅 3 天,凸顯 AI 服務穩定性的挑戰。隨著 Claude Code 和 Agent SDK 在企業環境中普及,服務可靠性成為關鍵選型因素。
詳細分析
取捨考量
優點:
中斷後恢復速度相對快(數小時內)
Anthropic 狀態頁透明更新
促使企業重新評估 AI 容錯架構
缺點:
兩次中斷間隔僅 3 天
所有模型和服務同時受影響(無獨立 SLA)
自動化工作流可能產生不可預期的失敗狀態
無官方 SLA 保證或中斷賠償政策
快速體驗(5-15 分鐘)
訂閱 status.claude.com 即時通知
在關鍵工作流中加入 AI 服務降級處理(fallback to local model 或其他 provider)
評估自動化流程中的重試和斷路器機制
建議
依賴 Claude 作為核心工作流的團隊應建立 AI 服務降級策略。建議設計多 provider 容錯架構,並監控 Anthropic 狀態頁。
Alibaba Qwen 3.7 Max:BenchLM 第 5 名、SWE-Bench Pro 60.6%,成本約為 Claude Opus 4.7 的一半 L2延遲發現: 19天前發布 (發布日期: 2026-05-19)
信心度: 高
重點: Alibaba 的 Qwen 3.7 Max 在 BenchLM 排行榜上位列第 5(91/100 分),AA Intelligence Index 得分 56.6(中國 AI 最高分)。在代理和程式設計基準上接近 Claude Opus 4.7,但輸入成本約為一半、輸出成本約為四分之一。SWE-Bench Pro 得分 60.6%,HMMT 數學得分 97.1%。在 OpenRouter 上已可使用,提供具競爭力的 API 定價。
影響: 對需要高性能但預算有限的團隊,Qwen 3.7 Max 提供了前沿水準的替代方案。特別適合程式設計(排名 #5)和指令遵循(排名 #7)任務。此競爭壓力可能促使其他供應商調整定價。
詳細分析
取捨考量
優點:
前沿性能但成本大幅降低
程式設計和數學能力突出
OpenRouter 等平台已可使用
1M token 上下文支援
缺點:
閉源模型,Alibaba 控制
多語言能力相對較弱(排名 #10)
中國公司模型的合規考量
生態系統和工具整合不如 OpenAI/Anthropic 成熟
快速體驗(5-15 分鐘)
在 OpenRouter 上建立帳戶並測試 Qwen 3.7 Max
使用相同的提示詞對比 Claude Opus 4.7 和 Qwen 3.7 Max 的輸出品質
計算特定工作負載的成本差異
建議
對成本敏感的團隊建議評估 Qwen 3.7 Max 作為部分工作負載的替代方案。建議在程式設計和推理任務上進行 A/B 測試,但需注意數據合規要求。