VOL. 2026ISSUE 06数据截至 2026-06-04

AI 大模型月度天梯榜

2026年6月

8 大类,24 款模型,月度更新,附 AI 友好的引用段。

9
categories
29
models
9
sources
分享本期XLinkedIn
01
Text Generation & Reasoning

文本生成与综合推理

5 月 28 日 Anthropic 发布 Opus 4.8,在 Artificial Analysis Intelligence Index v4.0 上把 OpenAI 顶下来——榜单重启以来 Anthropic 第一次单独登顶。

Previously: GPT-5.5

当月领跑者
Claude Opus 4.8
Anthropic

5 月 28 日发布。自适应推理 + 最大努力模式登顶 AA Intelligence Index v4.0。

评分
61
  • 01Intelligence Index v4.0:61 分
  • 02自适应推理(Adaptive Reasoning)
  • 03编码与 agentic 任务相比 4.7 全面升级
  • 04长任务一致性
  • 05发布日期 2026-05-28
Runners-up
2

GPT-5.5

OpenAI

4 月 24 日发布。1M token 上下文,原生支持 MCP + Skills + 计算机操作 + 托管 Shell。

  • Intelligence Index v4.0(xhigh):60 分
  • 1M token 上下文
  • 原生 MCP + Skills
  • 内置 computer use
  • 工具搜索 + Web 搜索
  • 发布日期 2026-04-24
60
3

Gemini 3.1 Pro Preview

Google

强势 agentic 前沿,配套 Antigravity 2.0 平台。

  • Intelligence Index v4.0:57 分
  • 与 Antigravity 2.0 agentic 平台原生集成
  • 并列 GPT-5.5 medium 与 Qwen3.7 Max
57
Change

2026 年 5 月 28 日发布。Intelligence Index v4.0 综合得分 61(自适应推理最大模式),超越 GPT-5.5 xhigh(60)。

Market

在 LMArena ELO 上久经票选的 Opus 4.6/4.7-thinking 暂时还排在 4.8 之前,纯粹因为 4.8 刚发还没攒够票——预计 6 月底翻盘。

02
Image Generation

图像生成

OpenAI 推出 GPT Image 2,token 计费 + Batch API 五折。Recraft V4.1 占据 Artificial Analysis 图像质量榜首,Adobe Firefly 仍是企业版权安全的默认选择。

Previously: GPT Image-2

当月领跑者
GPT Image 2
OpenAI

4 月 21 日发布。SOTA 质量 + token 计费 + Batch API 半价。

评分
None
  • 01按 token 计费
  • 02Batch API 50% 折扣
  • 03灵活尺寸
  • 04高保真输入
  • 05发布日期 2026-04-21
Runners-up
2

Recraft V4.1

Recraft

在 Artificial Analysis 文生图竞技场质量第一。

  • AA 文生图质量榜首
  • 强势 control / 风格迁移
  • 设计师级输出
None
3

Adobe Firefly Image 4

Adobe

完全使用授权数据训练;商用版权安全的企业级首选。

  • 训练数据全部授权
  • 企业商用赔付保障
  • 原生集成 Creative Cloud
None
Change

2026 年 4 月 21 日发布。token 计费,Batch API 50% 折扣。

Market

Recraft V4.1 在 AA 文生图竞技场上质量第一;GPT Image 2 在生态和定价透明度上胜出。

03
Video Generation

视频生成

Seedance 2.0(字节跳动)登顶 Artificial Analysis 文生视频 Arena(含音频)ELO 1215——首个让音画联合生成达到 SOTA 的模型。Google Veo 3.5 与 OpenAI Sora 2 领跑无声电影级画质;Kling 4 守住性价比一端。

Previously: Veo 3.5

当月领跑者
Seedance 2.0
ByteDance

登顶 Artificial Analysis 文生视频 Arena(含音频)ELO 1215——领先 Veo 与 Sora。原生音画联合生成:从文/图/音/视频输入产出 15 秒多镜头、音画同步片段。

评分
1215
  • 01AA 含音频视频榜 #1 · ELO 1215
  • 0215 秒多镜头 · 音画同步
  • 03多模态输入(文/图/音/视频)
  • 04双分支扩散 Transformer
Runners-up
2

Veo 3.5

Google

电影级输出,时序连贯最佳。

  • 1080p 输出
  • 物理仿真稳定
  • 长镜头时序连贯
  • 原生 Gemini API 集成
None
3

Sora 2

OpenAI

分钟级镜头叙事连贯最佳。

  • 最长 60 秒镜头
  • 角色连贯性强
  • 电影级运镜语言
  • 多镜头场景
None
4

Kling 4

Kuaishou 快手

亚太短视频广告创意一家独大;行业最快迭代节奏。

  • 原生 9:16 竖屏
  • 最快编辑迭代
  • 原生抖音 / TikTok 风格
  • 低延迟生成
None
Change

Seedance 2.0 登顶含音频文生视频 Arena,领先 Veo 与 Sora。

Market

音画同步与多镜头叙事选 Seedance 2.0;电影级画质选 Veo 3.5;西方生态集成选 Sora 2;性价比选 Kling 4。

04
Code Generation & Agentic Coding

代码生成与 Agentic Coding

Claude Opus 4.7-thinking 在 LMArena WebDev 上居首,前 3 名全是 Anthropic 系——一次完美横扫。GPT-5.3 Codex 仍是终端代码 Agent 的最佳选择。

Previously: GPT-5.5 (Agentic)

当月领跑者
Claude Opus 4.7-thinking
Anthropic

LMArena WebDev 居首。多文件重构与代码审查最佳。

评分
1566
  • 01LMArena WebDev ELO:1566
  • 02多文件重构 SOTA
  • 03代码审查最佳
  • 04支持视觉感知编码
Runners-up
2

GPT-5.3 Codex (xhigh)

OpenAI

专门化终端代码 Agent。AA Intelligence Index 54。

  • AA Intelligence Index:54
  • 内置沙盒 Shell
  • agentic 循环强势
  • Terminal-Bench 最佳
54
3

Cursor Composer 2.5

Cursor

AA Coding Agent Index 第 3。IDE 原生结对,多文件上下文。

  • AA Coding Agent Index:第 3 名
  • IDE 原生上下文
  • 多文件编辑
  • 原生 diff 工作流
None
Change

LMArena WebDev 前三全部 Anthropic(1566 / 1558 / 1542 ELO)。

Market

重构 / 审查 / 多文件编辑选 Anthropic;沙盒终端 Agent 选 GPT-5.3 Codex;IDE 原生结对编程选 Cursor Composer 2.5。

05
Voice / Speech

语音 / 音频

OpenAI 5 月 7 日发布的 Realtime 2 把可配置推理的 speech-to-speech 推上正式版;AA TTS 冠军换成 Fun-Realtime-TTS,STT 冠军是 MAI-Transcribe-1.5。

Previously: ElevenLabs v3

当月领跑者
Realtime 2
OpenAI

5 月 7 日正式版。可配置推理 speech-to-speech,配套 translate / Whisper 流式变体。

评分
None
  • 01可配置推理
  • 02speech-to-speech agent
  • 03流式翻译变体
  • 04流式 STT 变体
  • 05发布日期 2026-05-07
Runners-up
2

ElevenLabs v3

ElevenLabs

角色声音克隆与有声书制作的行业默认。

  • 角色声音克隆 SOTA
  • 100+ 语言
  • 长篇有声书质量
  • 情感控制
None
3

Fun-Realtime-TTS

Fun (Alibaba DAMO)

AA TTS 榜首。

  • AA TTS 榜首
  • 200ms 内延迟
  • 多说话人流式
  • 中日韩强势
None
Change

Realtime 2 系列 5 月 7 日上线(gpt-realtime-2 / -translate / -whisper)。

Market

agentic 语音选 Realtime 2;角色声音克隆选 ElevenLabs v3;纯 TTS 质量选 Fun-Realtime-TTS;转录选 MAI-Transcribe-1.5。

06
Music Generation

音乐生成

Suno v6 在整曲连贯与歌词韵律上拉开差距;Udio v3 继续推进录音棚级混音;Lyria(Google)已接入 Gemini Omni 走 any-to-music 工作流。

Previously: Suno v5.5

当月领跑者
Suno v6
Suno

预计 6 月底滚动发布。整曲连贯与歌词韵律最佳。

评分
None
  • 01整曲连贯 SOTA
  • 02歌词韵律最佳
  • 03多语言演唱
  • 04风格迁移
Runners-up
2

Udio v3

Udio

录音棚级混音,分轨输出。

  • 分轨输出
  • 录音棚级混音
  • 电子曲风强势
  • DAW 友好
None
3

Lyria (via Gemini Omni)

Google

已并入 Gemini Omni,支持任意输入到音乐 + 跨模态。

  • Gemini Omni 原生
  • 跨模态生成
  • 图/视频 → 音乐工作流
None
Change

Suno v6 预计 6 月底滚动发布;v5.5 仍为线上默认。

Market

整曲生成选 Suno v6;录音棚级分轨选 Udio v3;跨模态生成(图/视频/音乐)走 Gemini Omni 调 Lyria。

07
Vision / Multimodal Understanding

视觉 / 多模态理解

Anthropic 用 Opus 4.7-thinking、4.6-thinking、4.7 横扫 LMArena Vision 前 3。Opus 4.8 因刚发布尚未上 Arena ELO,预计 6 月底巩固冠军。

Previously: GPT-4o Vision

当月领跑者
Claude Opus 4.7-thinking
Anthropic

LMArena Vision 居首。OCR + 图表 + 文档理解最佳。

评分
1309
  • 01LMArena Vision ELO:1309
  • 02OCR SOTA
  • 03图表理解
  • 04文档问答
Runners-up
2

GPT-5.5

OpenAI

图像支撑的推理链最强;原生 computer-use 视觉管线。

  • 图像推理链最佳
  • Computer use 视觉
  • 1M token 多模态
  • 发布日期 2026-04-24
None
3

Gemini 3.1 Pro

Google

视频理解与长时序推理最佳。

  • 视频理解 SOTA
  • 长时序推理
  • 集成 Robotics-ER 1.6
  • 200 万 token+ 多模态
None
Change

LMArena Vision 前 3 全部 Anthropic(1309 / 1303 / 1298 ELO)。

Market

OCR / 文档问答 / 图表理解选 Anthropic;图像支撑的推理链选 GPT-5.5;视频理解选 Gemini 3.1 Pro。

08
Open-Source / Open-Weights

开源 / 开放权重

Kimi K2.6(Moonshot)以 AA Intelligence Index 54 居开源权重榜首——距前沿闭源仅 7 分。DeepSeek V4 Pro(MIT,52)是开源推理第 2,Google 新发的 Gemma 4 12B(Apache 2.0,2026-06-03)把原生多模态塞进 16GB 笔记本即可运行的体量。开源与闭源的差距是有史以来最窄的一次。

Previously: Llama 4

当月领跑者
Kimi K2.6
Moonshot AI

AA Intelligence Index 开源权重榜首。距闭源前沿仅 7 分。

评分
54
  • 01AA Intelligence Index:54
  • 02开源权重
  • 03中英双强
  • 04长上下文保持力
Runners-up
2

DeepSeek V4 Pro

DeepSeek

MIT 开源权重,AA Intelligence Index 52——全榜第 3,开源推理模型第 2(仅次于 Kimi K2.6)。

  • AA Intelligence Index:52(全榜#3)
  • MIT 许可 · 开放权重
  • MoE 1.6T 总参 / 49B 激活
  • 1M tokens 上下文
52
3

Gemma 4 12B

Google

2026-06-03 发布,Apache 2.0 开放权重。encoder-free 原生多模态(文/图/音/视频),256K 上下文,16GB 笔记本即可本地跑——性能逼近上代 27B。

  • Apache 2.0 · 开放权重
  • 256K 上下文 · 原生多模态
  • 16GB 显存可跑
  • MMLU-Pro 77.2 · GPQA-Diamond 78.8
4

Qwen3.7 Plus

Alibaba

中文自托管部署的最佳开源选择。

  • AA Intelligence Index:53
  • 最佳中文开源
  • 工具调用强
  • 开放权重
53
Change

Kimi K2.6(54)登顶开源;DeepSeek V4 Pro(52)第 2;Gemma 4 12B 带来 16GB 笔记本可跑的多模态。

Market

通用开源部署选 Kimi K2.6;想要便宜的前沿级推理选 DeepSeek V4 Pro;端侧多模态选 Gemma 4 12B;中文自托管选 Qwen3.7 Plus。

09
每美元智能

性价比 / 价格性能比

2026 的性价比之战由中国开源军团主导。DeepSeek V4 Flash 以约 1/10 的价格拿到逼近旗舰的智能(Index 47),混合成本约 $0.06 / 百万 tokens。榜单点明一条警示:「Flash」「mini」标签不等于便宜——Gemini 3.5 Flash 智能分高达 55,但跑完整套 Intelligence Index 的成本高出 20 倍以上。

当月领跑者
DeepSeek V4 Flash
DeepSeek

每美元智能之王。AA Intelligence Index 47,$0.14/$0.28 每百万 tokens——约为同档 Flash 旗舰的十分之一,cache 命中价为 2026 一线模型最低。

评分
47
  • 01AA Intelligence Index:47
  • 02$0.14 输入 / $0.28 输出 每百万
  • 03混合 ≈ $0.06 / 百万
  • 04MIT 开源权重 · 1M 上下文
Runners-up
2

DeepSeek V4 Pro

DeepSeek

高智能 + 低价象限的最佳平衡。Intelligence Index 52(全榜前 3),$0.435/$0.87——仅为 GPT-5.5、Claude Opus 等同档旗舰的零头。

  • AA Intelligence Index:52(全榜#3)
  • $0.435 输入 / $0.87 输出 每百万
  • 全榜智能前 3
  • MIT 开源权重
52
3

Qwen3.7 Plus

Alibaba

让性价比之战不被单一厂商垄断。Intelligence Index 53,$0.40 输入——分数高于 V4 Pro;代价是输出更贵、出速更慢。

  • AA Intelligence Index:53
  • $0.40 输入 / $1.16 输出 每百万
  • 性价比梯队最高分
  • 中文与工具调用强
53
Change

新增类目。DeepSeek V4 Flash 领跑每美元智能;开源模型包揽性价比梯队。

Market

超大批量低成本场景选 DeepSeek V4 Flash;要更强推理又想省钱选 V4 Pro;想避免单一厂商依赖选 Qwen3.7 Plus。

Editorial · 07 observations

本月趋势变化

What changed across the AI model landscape this month — distilled from the data above.

01

Anthropic 横扫推理 + 视觉 + 代码

Opus 4.8 拿下 AA Intelligence Index 第 1;Opus 4.7-thinking 同时占据 LMArena Vision / WebDev / Document 三冠。GPT-4 时代 OpenAI 之后,首次有一家厂商同时四榜居首。

02

GPT-5.5 带来 1M 上下文 + 原生 MCP/Skills

OpenAI 4 月 24 日发布的 GPT-5.5 标配 1M token 上下文 + 原生 MCP + Skills + 托管 Shell + computer use + 工具搜索 + Web 搜索——把 API 本身做成了 agent 运行时。

03

Google Gemini Omni —— 任意输入到任意输出

5 月发布的 Gemini Omni 把图、音、视频统一在一套生成栈里;配套 Antigravity 2.0 平台把 Gemini 3.5 做成 agentic 底座。Google 押的不是单模型最聪明,而是整套栈最一体化。

04

开源与闭源差距收窄到 7 分

Kimi K2.6(54)距 Claude Opus 4.8(61)在 AA Intelligence Index 上仅 7 分。Meta 的 muse-spark 杀进 LMArena 总榜前 5(1489 ELO)。闭源护城河有史以来最窄。

05

AA Top 15 里有 5 家中国厂商

Qwen3.7 Max(阿里,57)、MiniMax-M3(55)、Kimi K2.6(Moonshot,54)、MiMo-V2.5-Pro(小米,54)、Qwen3.7 Plus(阿里,53)全部进入 AA Intelligence Index 前 15——中国厂商不再是「追赶」,已经进入前沿。

06

亚 200ms 语音 Agent 进入商品化阶段

OpenAI Realtime 2(5 月 7 日)+ Gemini 3.1 Flash TTS(4 月)+ Fun-Realtime-TTS 把实时语音 Agent 从研究推向生产。带推理的 speech-to-speech 已是基础能力。

07

性价比之战是一场中国开源叙事

DeepSeek V4 Flash 以混合 ~$0.06 / 百万 tokens 拿下 Intelligence Index 47——DeepSeek 与 Qwen 的开源权重模型已包揽每美元智能榜首,而 Gemini 3.5 Flash 这类「Flash/mini」闭源模型跑一遍 Index 的成本高出 20 倍以上。

数据来源
  1. [01]
  2. [02]
    LMArena Leaderboardcommunity leaderboard
  3. [03]
  4. [04]
    OpenAI Changelogofficial changelog
  5. [05]
    Anthropic Newsofficial changelog
  6. [06]
    Google DeepMind Blogofficial changelog
  7. [07]
    DeepSeek API Pricingofficial changelog
  8. [08]
    Google Gemma 4 Launchofficial changelog
  9. [09]