小米 MiMo V2.5 Pro 深度评测:迄今最强大的模型?

14 次浏览次阅读

小米 MiMo V2.5 Pro 深度评测:迄今最强大的模型?

小米在 MiMo-V2 系列之后,推出了最新的迭代版本MiMo-V2.5-Pro。官方将其定义为 "迄今最强大的模型",主打通用智能体能力、复杂软件工程以及长程任务,宣称在这些维度上已能与 Claude Opus 4.6、GPT-5.4 等全球顶尖 Agent 模型正面较量。

核心性能参数

  • 测试题数:约 1.5 万
  • 总分(准确率):71.4%
  • 平均耗时(每次调用):56s
  • 平均 token 消耗:3396
  • 平均花费:64.3 元 / 千次调用

相比上一代的提升

对比上一代版本(MiMo-V2-Pro),MiMo-V2.5-Pro 在核心能力上实现了全面升级:

维度 MiMo-V2-Pro MiMo-V2.5-Pro 提升幅度
整体准确率 65.8% 71.4% +5.6%
推理与数学 71.9% 83.5% +11.6%
法律与行政 70.7% 79.3% +8.6%
Coding 能力 56.0% 62.9% +6.9%
金融 80.1% 85.6% +5.5%
教育 48.9% 53.4% +4.5%
平均耗时 265s 56s -79%

关键亮点:

  • 推理维度提升幅度最大(+11.6%),反映出新版本在底层推理链路上的明显强化
  • 响应时间大幅缩短:从 265s 缩短至 56s,降幅约 79%
  • 榜单排名从第 35 位跃升至第 7 位,一举进入头部梯队

横向对比分析

同成本档位对比(60-80 元 / 千次)

在该主流中高端档位内,MiMo-V2.5-Pro(71.4%,64.3 元)以准确率位列同档位首位,领先于:

  • Kimi-K2.5-Thinking(70.8%,77.1 元)
  • GLM-5.1(70.7%,73.8 元)
  • GLM-5-Turbo(69.3%,60.8 元)

与更高档位对比

与成本更高的 gpt-5.4-high(72.6%,122.3 元)、kimi-k2.6(72.9%,100.4 元)相比,MiMo-V2.5-Pro 在准确率上存在约 1 至 1.5 个百分点的差距,但 花费仅为对方的一半左右,具备成本效率比优势。

闭源 VS 开源

在闭源阵营中,MiMo-V2.5-Pro 准确率高于:

  • gemini-3-flash-preview(71.2%)
  • Doubao-Seed-2.0-lite(70.5%)
  • claude-opus-4.6(70.0%)

官方基准测试表现

Coding Agent 维度

  • SWE-bench Pro: 57.2 分,与 Claude Opus 4.6(57.3)和 GPT-5.4(57.7)基本持平
  • MiMo Coding Bench: 73.7 分,优于 Claude Opus 4.6(71.5)
  • Terminal-Bench 2.0: 68.4 分,优于 Claude Opus 4.6(65.4)

General Agent 维度

  • GDPVal-AA: 1581 分
  • τ3-bench: 72.9 分,与 GPT-5.4(72.9)持平
  • ClawEval(pass³): 63.8 分,略高于多数对手

长程任务能力展示

案例一:Rust 实现完整 SysY 编译器

官方展示了一项源自北京大学《编译原理》课程项目的任务:要求模型用 Rust 从零实现一个完整的 SysY 编译器。

  • 耗时:4.3 小时
  • 工具调用次数:672 次
  • 隐藏测试集得分:233/233 满分
  • 冷启动通过率:59%(137/233)

作为参考,北大本科生完成该项目通常需要 数周时间

案例二:Web 视频编辑器开发

仅凭 "构建一个视频编辑器 Web 应用" 的简单指令,MiMo-V2.5-Pro 便交付了一款可运行的 Web 应用:

  • 代码量:8,192 行
  • 工具调用次数:1,868 次
  • 自主工作时间:11.5 小时
  • 功能:多轨道时间线、片段裁剪、交叉淡化、音频混合、导出流程

优势与不足总结

✅ 优势

  1. 推理能力大幅提升:推理与数学维度提升 11.6%,成效显著
  2. 响应速度飞快:平均耗时仅 56s,较上代缩短 79%
  3. 成本效益突出:在 60-80 元档位中准确率领先
  4. 长程任务能力强:能够自主完成复杂的软件工程项目
  5. Coding 能力提升:与官方宣称的 "复杂软件工程能力跃升" 一致

⚠️ 不足

  1. 医疗与语言维度基本持平,提升空间有限
  2. 与最高档位模型(如 qwen3.6-max-preview)仍有差距
  3. 面对开源模型的竞争压力(如同档位的 Kimi-K2.5-Thinking)

结论

小米 MiMo-V2.5-Pro 作为一款面向通用智能体的旗舰模型,在中高端档位中展现了出色的竞争力。其在推理速度、长程任务处理以及成本效益方面的表现尤为突出。对于需要较强 Agent 推理能力、同时关注成本的场景,MiMo-V2.5-Pro 是一个值得考虑的选择。

当然,如果追求最顶级的准确率表现,可能需要考虑成本更高的模型。但对于大多数应用场景而言,MiMo-V2.5-Pro 已经提供了相当出色的性价比。


评测数据来源:非线智能 ReLE 评测

🎁 小米 MiMo 开发者计划:100T Token 限量免费送!

小米近日推出了 Xiaomi MiMo 开发者计划,这是面向全球高质量 AI 用户的限时 Token 发放活动。

Token 总量 30 天内发放总计 100 万亿(100T)Token 权益
权益内容 完全免费,赠完即止
最高权益 16 亿 credits 一个月 Max Plan,价值 659 元

活动时间

  • 开始时间:北京时间 2026 年 4 月 28 日 00:00
  • 结束时间:北京时间 2026 年 5 月 28 日 00:00

参与方式

本次活动采取 申请制。小米会认真评估每一份申请材料,并根据使用场景与需求匹配相应权益。成功入选者将收到后续邮件通知。

申请网址:100t.xiaomimimo.com

提醒:活动资格有限,赠完即止。对 MiMo V2.5 Pro 感兴趣的开发者和研究者建议尽快申请!

正文完
 0
yxsoft
版权声明:本站原创文章,由 yxsoft 于2026-04-28发表,共计2256字。
转载说明:除特殊说明外本站文章皆由YXSoft发布,转载请注明出处。