小米 MiMo V2.5 Pro 深度评测:迄今最强大的模型?
小米在 MiMo-V2 系列之后,推出了最新的迭代版本MiMo-V2.5-Pro。官方将其定义为 "迄今最强大的模型",主打通用智能体能力、复杂软件工程以及长程任务,宣称在这些维度上已能与 Claude Opus 4.6、GPT-5.4 等全球顶尖 Agent 模型正面较量。
核心性能参数
- 测试题数:约 1.5 万
- 总分(准确率):71.4%
- 平均耗时(每次调用):56s
- 平均 token 消耗:3396
- 平均花费:64.3 元 / 千次调用
相比上一代的提升
对比上一代版本(MiMo-V2-Pro),MiMo-V2.5-Pro 在核心能力上实现了全面升级:
| 维度 | MiMo-V2-Pro | MiMo-V2.5-Pro | 提升幅度 |
|---|---|---|---|
| 整体准确率 | 65.8% | 71.4% | +5.6% |
| 推理与数学 | 71.9% | 83.5% | +11.6% |
| 法律与行政 | 70.7% | 79.3% | +8.6% |
| Coding 能力 | 56.0% | 62.9% | +6.9% |
| 金融 | 80.1% | 85.6% | +5.5% |
| 教育 | 48.9% | 53.4% | +4.5% |
| 平均耗时 | 265s | 56s | -79% |
关键亮点:
- 推理维度提升幅度最大(+11.6%),反映出新版本在底层推理链路上的明显强化
- 响应时间大幅缩短:从 265s 缩短至 56s,降幅约 79%
- 榜单排名从第 35 位跃升至第 7 位,一举进入头部梯队
横向对比分析
同成本档位对比(60-80 元 / 千次)
在该主流中高端档位内,MiMo-V2.5-Pro(71.4%,64.3 元)以准确率位列同档位首位,领先于:
- Kimi-K2.5-Thinking(70.8%,77.1 元)
- GLM-5.1(70.7%,73.8 元)
- GLM-5-Turbo(69.3%,60.8 元)
与更高档位对比
与成本更高的 gpt-5.4-high(72.6%,122.3 元)、kimi-k2.6(72.9%,100.4 元)相比,MiMo-V2.5-Pro 在准确率上存在约 1 至 1.5 个百分点的差距,但 花费仅为对方的一半左右,具备成本效率比优势。
闭源 VS 开源
在闭源阵营中,MiMo-V2.5-Pro 准确率高于:
- gemini-3-flash-preview(71.2%)
- Doubao-Seed-2.0-lite(70.5%)
- claude-opus-4.6(70.0%)
官方基准测试表现
Coding Agent 维度
- SWE-bench Pro: 57.2 分,与 Claude Opus 4.6(57.3)和 GPT-5.4(57.7)基本持平
- MiMo Coding Bench: 73.7 分,优于 Claude Opus 4.6(71.5)
- Terminal-Bench 2.0: 68.4 分,优于 Claude Opus 4.6(65.4)
General Agent 维度
- GDPVal-AA: 1581 分
- τ3-bench: 72.9 分,与 GPT-5.4(72.9)持平
- ClawEval(pass³): 63.8 分,略高于多数对手
长程任务能力展示
案例一:Rust 实现完整 SysY 编译器
官方展示了一项源自北京大学《编译原理》课程项目的任务:要求模型用 Rust 从零实现一个完整的 SysY 编译器。
- 耗时:4.3 小时
- 工具调用次数:672 次
- 隐藏测试集得分:233/233 满分
- 冷启动通过率:59%(137/233)
作为参考,北大本科生完成该项目通常需要 数周时间。
案例二:Web 视频编辑器开发
仅凭 "构建一个视频编辑器 Web 应用" 的简单指令,MiMo-V2.5-Pro 便交付了一款可运行的 Web 应用:
- 代码量:8,192 行
- 工具调用次数:1,868 次
- 自主工作时间:11.5 小时
- 功能:多轨道时间线、片段裁剪、交叉淡化、音频混合、导出流程
优势与不足总结
✅ 优势
- 推理能力大幅提升:推理与数学维度提升 11.6%,成效显著
- 响应速度飞快:平均耗时仅 56s,较上代缩短 79%
- 成本效益突出:在 60-80 元档位中准确率领先
- 长程任务能力强:能够自主完成复杂的软件工程项目
- Coding 能力提升:与官方宣称的 "复杂软件工程能力跃升" 一致
⚠️ 不足
- 医疗与语言维度基本持平,提升空间有限
- 与最高档位模型(如 qwen3.6-max-preview)仍有差距
- 面对开源模型的竞争压力(如同档位的 Kimi-K2.5-Thinking)
结论
小米 MiMo-V2.5-Pro 作为一款面向通用智能体的旗舰模型,在中高端档位中展现了出色的竞争力。其在推理速度、长程任务处理以及成本效益方面的表现尤为突出。对于需要较强 Agent 推理能力、同时关注成本的场景,MiMo-V2.5-Pro 是一个值得考虑的选择。
当然,如果追求最顶级的准确率表现,可能需要考虑成本更高的模型。但对于大多数应用场景而言,MiMo-V2.5-Pro 已经提供了相当出色的性价比。
评测数据来源:非线智能 ReLE 评测
🎁 小米 MiMo 开发者计划:100T Token 限量免费送!
小米近日推出了 Xiaomi MiMo 开发者计划,这是面向全球高质量 AI 用户的限时 Token 发放活动。
| Token 总量 | 30 天内发放总计 100 万亿(100T)Token 权益 |
| 权益内容 | 完全免费,赠完即止 |
| 最高权益 | 16 亿 credits 一个月 Max Plan,价值 659 元 |
活动时间
- 开始时间:北京时间 2026 年 4 月 28 日 00:00
- 结束时间:北京时间 2026 年 5 月 28 日 00:00
参与方式
本次活动采取 申请制。小米会认真评估每一份申请材料,并根据使用场景与需求匹配相应权益。成功入选者将收到后续邮件通知。
申请网址:100t.xiaomimimo.com
⚡ 提醒:活动资格有限,赠完即止。对 MiMo V2.5 Pro 感兴趣的开发者和研究者建议尽快申请!