#llm

10 articles

GLM-5.1 vs Claude、GPT、Gemini、DeepSeek：智譜AI最新模型的實力評測

智譜AI的GLM-5.1宣稱達到Claude Opus 4.6程式編寫效能的94.6%——完全基於華為晶片訓練並開放權重。以下是其與2026年各主流大型語言模型的全面對比。

Anthropic 的下一代 Claude Mythos 模型在一次資料洩露中曝光。以下是洩露文件中關於其編程、推理和網路安全能力的詳細內容，以及這對 AI 發展意味著什麼。

深入解析 Anthropic 的 Claude Opus 4.6 與 Sonnet 4.6——迄今最強大的 Claude 模型，具備 100 萬 token 上下文視窗、自適應思考能力，以及頂尖的基準測試成績。

MiniMax M2.7是新一代旗艦文字模型，具備自我改進能力，在SWE-Pro上達到56.22%，速度100 TPS，輸入費用僅$0.30/百萬token。比較M2.7與Claude Opus 4.6、GPT-5和Gemini 3.1在基準測試、定價及智能代理能力方面的表現。

Claude Sonnet 5（Fennec）已經推出，具有突破性的82.1% SWE-Bench評分、100萬token上下文和Opus 4.5一半的成本。以下是我們所知的一切。

GPT-5.3「Garlic」據傳將擁有400K上下文、128K輸出，以及高密度訓練，將GPT-6級別的推理能力打包成更快、更便宜的版本。

Kimi K2.5 是月之暗面的開源 1T 參數模型，具備智能體群集技術、256K 上下文和多模態功能。以下是完整解析。

DeepSeek V4 將於 2026 年 2 月推出，具有革命性的編碼能力。以下是我們對其架構、功能和基準的了解。

比較WaveSpeedAI和OpenRouter的AI API。探索模型焦點、定價和圖像/影片與LLM工作負載用例的主要差異。

比較 WaveSpeedAI 和 Together AI 的 AI 推理功能。探索哪個平台提供更好的多模態能力、模型選擇和價值。