小米 MiMo V2.5 Pro 深度评测：迄今最强大的模型？

2,124 次浏览次阅读

小米 MiMo V2.5 Pro 深度评测：迄今最强大的模型？

小米在 MiMo-V2 系列之后，推出了最新的迭代版本MiMo-V2.5-Pro。官方将其定义为 "迄今最强大的模型"，主打通用智能体能力、复杂软件工程以及长程任务，宣称在这些维度上已能与 Claude Opus 4.6、GPT-5.4 等全球顶尖 Agent 模型正面较量。

核心性能参数

测试题数：约 1.5 万
总分（准确率）：71.4%
平均耗时（每次调用）：56s
平均 token 消耗：3396
平均花费：64.3 元 / 千次调用

相比上一代的提升

对比上一代版本（MiMo-V2-Pro），MiMo-V2.5-Pro 在核心能力上实现了全面升级：

维度	MiMo-V2-Pro	MiMo-V2.5-Pro	提升幅度
整体准确率	65.8%	71.4%	+5.6%
推理与数学	71.9%	83.5%	+11.6%
法律与行政	70.7%	79.3%	+8.6%
Coding 能力	56.0%	62.9%	+6.9%
金融	80.1%	85.6%	+5.5%
教育	48.9%	53.4%	+4.5%
平均耗时	265s	56s	-79%

关键亮点：

推理维度提升幅度最大（+11.6%），反映出新版本在底层推理链路上的明显强化
响应时间大幅缩短：从 265s 缩短至 56s，降幅约 79%
榜单排名从第 35 位跃升至第 7 位，一举进入头部梯队

横向对比分析

同成本档位对比（60-80 元 / 千次）

在该主流中高端档位内，MiMo-V2.5-Pro（71.4%，64.3 元）以准确率位列同档位首位，领先于：

Kimi-K2.5-Thinking（70.8%，77.1 元）
GLM-5.1（70.7%，73.8 元）
GLM-5-Turbo（69.3%，60.8 元）

与更高档位对比

与成本更高的 gpt-5.4-high（72.6%，122.3 元）、kimi-k2.6（72.9%，100.4 元）相比，MiMo-V2.5-Pro 在准确率上存在约 1 至 1.5 个百分点的差距，但 花费仅为对方的一半左右，具备成本效率比优势。

闭源 VS 开源

在闭源阵营中，MiMo-V2.5-Pro 准确率高于：

gemini-3-flash-preview（71.2%）
Doubao-Seed-2.0-lite（70.5%）
claude-opus-4.6（70.0%）

官方基准测试表现

Coding Agent 维度

SWE-bench Pro: 57.2 分，与 Claude Opus 4.6（57.3）和 GPT-5.4（57.7）基本持平
MiMo Coding Bench: 73.7 分，优于 Claude Opus 4.6（71.5）
Terminal-Bench 2.0: 68.4 分，优于 Claude Opus 4.6（65.4）

General Agent 维度

GDPVal-AA: 1581 分
τ3-bench: 72.9 分，与 GPT-5.4（72.9）持平
ClawEval（pass³）: 63.8 分，略高于多数对手

长程任务能力展示

案例一：Rust 实现完整 SysY 编译器

官方展示了一项源自北京大学《编译原理》课程项目的任务：要求模型用 Rust 从零实现一个完整的 SysY 编译器。

耗时：4.3 小时
工具调用次数：672 次
隐藏测试集得分：233/233 满分
冷启动通过率：59%（137/233）

作为参考，北大本科生完成该项目通常需要 数周时间。

案例二：Web 视频编辑器开发

仅凭 "构建一个视频编辑器 Web 应用" 的简单指令，MiMo-V2.5-Pro 便交付了一款可运行的 Web 应用：

代码量：8,192 行
工具调用次数：1,868 次
自主工作时间：11.5 小时
功能：多轨道时间线、片段裁剪、交叉淡化、音频混合、导出流程

优势与不足总结

✅ 优势

推理能力大幅提升：推理与数学维度提升 11.6%，成效显著
响应速度飞快：平均耗时仅 56s，较上代缩短 79%
成本效益突出：在 60-80 元档位中准确率领先
长程任务能力强：能够自主完成复杂的软件工程项目
Coding 能力提升：与官方宣称的 "复杂软件工程能力跃升" 一致

⚠️ 不足

医疗与语言维度基本持平，提升空间有限
与最高档位模型（如 qwen3.6-max-preview）仍有差距
面对开源模型的竞争压力（如同档位的 Kimi-K2.5-Thinking）

结论

小米 MiMo-V2.5-Pro 作为一款面向通用智能体的旗舰模型，在中高端档位中展现了出色的竞争力。其在推理速度、长程任务处理以及成本效益方面的表现尤为突出。对于需要较强 Agent 推理能力、同时关注成本的场景，MiMo-V2.5-Pro 是一个值得考虑的选择。

当然，如果追求最顶级的准确率表现，可能需要考虑成本更高的模型。但对于大多数应用场景而言，MiMo-V2.5-Pro 已经提供了相当出色的性价比。

评测数据来源：非线智能 ReLE 评测

🎁 小米 MiMo 开发者计划：100T Token 限量免费送！

小米近日推出了 Xiaomi MiMo 开发者计划，这是面向全球高质量 AI 用户的限时 Token 发放活动。

Token 总量	30 天内发放总计 100 万亿（100T）Token 权益
权益内容	完全免费，赠完即止
最高权益	16 亿 credits 一个月 Max Plan，价值 659 元

活动时间

开始时间：北京时间 2026 年 4 月 28 日 00:00
结束时间：北京时间 2026 年 5 月 28 日 00:00

参与方式

本次活动采取 申请制。小米会认真评估每一份申请材料，并根据使用场景与需求匹配相应权益。成功入选者将收到后续邮件通知。

申请网址：100t.xiaomimimo.com

⚡ 提醒：活动资格有限，赠完即止。对 MiMo V2.5 Pro 感兴趣的开发者和研究者建议尽快申请！

正文完

发表至：文章

2026年4月28日

0

转载说明：除特殊说明外本站文章皆由YXSoft发布，转载请注明出处。

Hermes Agent 完全指南：自愈型 AI 助手深度解析