GPT-5.5
OpenAI4 月 24 日发布。1M token 上下文,原生支持 MCP + Skills + 计算机操作 + 托管 Shell。
- Intelligence Index v4.0(xhigh):60 分
- 1M token 上下文
- 原生 MCP + Skills
- 内置 computer use
- 工具搜索 + Web 搜索
- 发布日期 2026-04-24
8 大类,24 款模型,月度更新,附 AI 友好的引用段。
5 月 28 日 Anthropic 发布 Opus 4.8,在 Artificial Analysis Intelligence Index v4.0 上把 OpenAI 顶下来——榜单重启以来 Anthropic 第一次单独登顶。
Previously: GPT-5.5
5 月 28 日发布。自适应推理 + 最大努力模式登顶 AA Intelligence Index v4.0。
4 月 24 日发布。1M token 上下文,原生支持 MCP + Skills + 计算机操作 + 托管 Shell。
强势 agentic 前沿,配套 Antigravity 2.0 平台。
2026 年 5 月 28 日发布。Intelligence Index v4.0 综合得分 61(自适应推理最大模式),超越 GPT-5.5 xhigh(60)。
在 LMArena ELO 上久经票选的 Opus 4.6/4.7-thinking 暂时还排在 4.8 之前,纯粹因为 4.8 刚发还没攒够票——预计 6 月底翻盘。
OpenAI 推出 GPT Image 2,token 计费 + Batch API 五折。Recraft V4.1 占据 Artificial Analysis 图像质量榜首,Adobe Firefly 仍是企业版权安全的默认选择。
Previously: GPT Image-2
4 月 21 日发布。SOTA 质量 + token 计费 + Batch API 半价。
在 Artificial Analysis 文生图竞技场质量第一。
完全使用授权数据训练;商用版权安全的企业级首选。
2026 年 4 月 21 日发布。token 计费,Batch API 50% 折扣。
Recraft V4.1 在 AA 文生图竞技场上质量第一;GPT Image 2 在生态和定价透明度上胜出。
Seedance 2.0(字节跳动)登顶 Artificial Analysis 文生视频 Arena(含音频)ELO 1215——首个让音画联合生成达到 SOTA 的模型。Google Veo 3.5 与 OpenAI Sora 2 领跑无声电影级画质;Kling 4 守住性价比一端。
Previously: Veo 3.5
登顶 Artificial Analysis 文生视频 Arena(含音频)ELO 1215——领先 Veo 与 Sora。原生音画联合生成:从文/图/音/视频输入产出 15 秒多镜头、音画同步片段。
电影级输出,时序连贯最佳。
分钟级镜头叙事连贯最佳。
亚太短视频广告创意一家独大;行业最快迭代节奏。
Seedance 2.0 登顶含音频文生视频 Arena,领先 Veo 与 Sora。
音画同步与多镜头叙事选 Seedance 2.0;电影级画质选 Veo 3.5;西方生态集成选 Sora 2;性价比选 Kling 4。
Claude Opus 4.7-thinking 在 LMArena WebDev 上居首,前 3 名全是 Anthropic 系——一次完美横扫。GPT-5.3 Codex 仍是终端代码 Agent 的最佳选择。
Previously: GPT-5.5 (Agentic)
LMArena WebDev 居首。多文件重构与代码审查最佳。
专门化终端代码 Agent。AA Intelligence Index 54。
AA Coding Agent Index 第 3。IDE 原生结对,多文件上下文。
LMArena WebDev 前三全部 Anthropic(1566 / 1558 / 1542 ELO)。
重构 / 审查 / 多文件编辑选 Anthropic;沙盒终端 Agent 选 GPT-5.3 Codex;IDE 原生结对编程选 Cursor Composer 2.5。
OpenAI 5 月 7 日发布的 Realtime 2 把可配置推理的 speech-to-speech 推上正式版;AA TTS 冠军换成 Fun-Realtime-TTS,STT 冠军是 MAI-Transcribe-1.5。
Previously: ElevenLabs v3
5 月 7 日正式版。可配置推理 speech-to-speech,配套 translate / Whisper 流式变体。
角色声音克隆与有声书制作的行业默认。
AA TTS 榜首。
Realtime 2 系列 5 月 7 日上线(gpt-realtime-2 / -translate / -whisper)。
agentic 语音选 Realtime 2;角色声音克隆选 ElevenLabs v3;纯 TTS 质量选 Fun-Realtime-TTS;转录选 MAI-Transcribe-1.5。
Suno v6 在整曲连贯与歌词韵律上拉开差距;Udio v3 继续推进录音棚级混音;Lyria(Google)已接入 Gemini Omni 走 any-to-music 工作流。
Previously: Suno v5.5
预计 6 月底滚动发布。整曲连贯与歌词韵律最佳。
录音棚级混音,分轨输出。
已并入 Gemini Omni,支持任意输入到音乐 + 跨模态。
Suno v6 预计 6 月底滚动发布;v5.5 仍为线上默认。
整曲生成选 Suno v6;录音棚级分轨选 Udio v3;跨模态生成(图/视频/音乐)走 Gemini Omni 调 Lyria。
Anthropic 用 Opus 4.7-thinking、4.6-thinking、4.7 横扫 LMArena Vision 前 3。Opus 4.8 因刚发布尚未上 Arena ELO,预计 6 月底巩固冠军。
Previously: GPT-4o Vision
LMArena Vision 居首。OCR + 图表 + 文档理解最佳。
图像支撑的推理链最强;原生 computer-use 视觉管线。
视频理解与长时序推理最佳。
LMArena Vision 前 3 全部 Anthropic(1309 / 1303 / 1298 ELO)。
OCR / 文档问答 / 图表理解选 Anthropic;图像支撑的推理链选 GPT-5.5;视频理解选 Gemini 3.1 Pro。
Kimi K2.6(Moonshot)以 AA Intelligence Index 54 居开源权重榜首——距前沿闭源仅 7 分。DeepSeek V4 Pro(MIT,52)是开源推理第 2,Google 新发的 Gemma 4 12B(Apache 2.0,2026-06-03)把原生多模态塞进 16GB 笔记本即可运行的体量。开源与闭源的差距是有史以来最窄的一次。
Previously: Llama 4
AA Intelligence Index 开源权重榜首。距闭源前沿仅 7 分。
MIT 开源权重,AA Intelligence Index 52——全榜第 3,开源推理模型第 2(仅次于 Kimi K2.6)。
2026-06-03 发布,Apache 2.0 开放权重。encoder-free 原生多模态(文/图/音/视频),256K 上下文,16GB 笔记本即可本地跑——性能逼近上代 27B。
中文自托管部署的最佳开源选择。
Kimi K2.6(54)登顶开源;DeepSeek V4 Pro(52)第 2;Gemma 4 12B 带来 16GB 笔记本可跑的多模态。
通用开源部署选 Kimi K2.6;想要便宜的前沿级推理选 DeepSeek V4 Pro;端侧多模态选 Gemma 4 12B;中文自托管选 Qwen3.7 Plus。
2026 的性价比之战由中国开源军团主导。DeepSeek V4 Flash 以约 1/10 的价格拿到逼近旗舰的智能(Index 47),混合成本约 $0.06 / 百万 tokens。榜单点明一条警示:「Flash」「mini」标签不等于便宜——Gemini 3.5 Flash 智能分高达 55,但跑完整套 Intelligence Index 的成本高出 20 倍以上。
每美元智能之王。AA Intelligence Index 47,$0.14/$0.28 每百万 tokens——约为同档 Flash 旗舰的十分之一,cache 命中价为 2026 一线模型最低。
高智能 + 低价象限的最佳平衡。Intelligence Index 52(全榜前 3),$0.435/$0.87——仅为 GPT-5.5、Claude Opus 等同档旗舰的零头。
让性价比之战不被单一厂商垄断。Intelligence Index 53,$0.40 输入——分数高于 V4 Pro;代价是输出更贵、出速更慢。
新增类目。DeepSeek V4 Flash 领跑每美元智能;开源模型包揽性价比梯队。
超大批量低成本场景选 DeepSeek V4 Flash;要更强推理又想省钱选 V4 Pro;想避免单一厂商依赖选 Qwen3.7 Plus。
What changed across the AI model landscape this month — distilled from the data above.
Opus 4.8 拿下 AA Intelligence Index 第 1;Opus 4.7-thinking 同时占据 LMArena Vision / WebDev / Document 三冠。GPT-4 时代 OpenAI 之后,首次有一家厂商同时四榜居首。
OpenAI 4 月 24 日发布的 GPT-5.5 标配 1M token 上下文 + 原生 MCP + Skills + 托管 Shell + computer use + 工具搜索 + Web 搜索——把 API 本身做成了 agent 运行时。
5 月发布的 Gemini Omni 把图、音、视频统一在一套生成栈里;配套 Antigravity 2.0 平台把 Gemini 3.5 做成 agentic 底座。Google 押的不是单模型最聪明,而是整套栈最一体化。
Kimi K2.6(54)距 Claude Opus 4.8(61)在 AA Intelligence Index 上仅 7 分。Meta 的 muse-spark 杀进 LMArena 总榜前 5(1489 ELO)。闭源护城河有史以来最窄。
Qwen3.7 Max(阿里,57)、MiniMax-M3(55)、Kimi K2.6(Moonshot,54)、MiMo-V2.5-Pro(小米,54)、Qwen3.7 Plus(阿里,53)全部进入 AA Intelligence Index 前 15——中国厂商不再是「追赶」,已经进入前沿。
OpenAI Realtime 2(5 月 7 日)+ Gemini 3.1 Flash TTS(4 月)+ Fun-Realtime-TTS 把实时语音 Agent 从研究推向生产。带推理的 speech-to-speech 已是基础能力。
DeepSeek V4 Flash 以混合 ~$0.06 / 百万 tokens 拿下 Intelligence Index 47——DeepSeek 与 Qwen 的开源权重模型已包揽每美元智能榜首,而 Gemini 3.5 Flash 这类「Flash/mini」闭源模型跑一遍 Index 的成本高出 20 倍以上。