小米“神秘模型”，为何被错认为DeepSeek V4？

来源：{getone name="zzc/xinwenwang"/}2026-03-20 03:35:10

文 | 世界模型工场

上周，OpenRouter突然冒出两个匿名模型——Hunter Alpha和Healer Alpha。

没logo、没团队、没官方宣称，却直接杀上API调用日榜第一，全球开发者集体沸腾。连OpenClaw创始人都在社交平台X上公开打听“谁在背后”？

所有的猜测都指向了同一个名字：DeepSeek V4。

然而今天凌晨，小米却突然官宣认领：

这两个匿名模型的真实身份，是小米 MiMo-V2系列的早期测试版。

全网瞬间集体打脸。

为什么一个手机大厂的模型，会被全世界开发者集体误认为是DeepSeek的下一代神作？

01 DeepSeek V4的“马甲”

小米这次的模型，的确有股熟悉的DeepSeek范儿。

参数规格几乎一样

小米匿名模型露出的参数规格：万亿级参数、百万token上下文、Agent专精路线，和市面流传的DeepSeek V4传闻几乎一模一样。

能力风格太像

Hunter Alpha在代码生成、超长上下文、多步Agent任务里的表现，让人瞬间联想到DeepSeek从V2到V3的“效率至上”血统。

核心人才加盟

小米MiMo大模型的掌舵人罗福莉，本身就是DeepSeek老将。

罗福莉是业内公认的“AI天才少女”，北大计算语言学硕士，曾在阿里达摩院主导多语言模型，后转战DeepSeek，成为DeepSeek-V2关键架构核心开发者。2025年底被雷军以千万年薪挖角，11月官宣加盟小米。

如今市场认识一家模型公司，不是看logo，而是看参数形态、能力风格、训练路线、核心人才的流动轨迹。

罗福莉的加入，使得DeepSeek的基因，被小米直接复刻；匿名测试的打法，也被小米学得炉火纯青。

中国AI实验室的技术路线，已经趋同到分不清你我。

02 小米瞄准Agent底座

小米官宣认领后，市场焦点迅速转向了“模型到底用来干什么”。

答案很清楚：MiMo-V2系列不是通用聊天工具，而是专为Agent场景打造的底座。

丨MiMo-V2-Pro（对应Hunter Alpha）是旗舰基座。

总参数超1万亿，激活参数42B，支持100万token上下文。优化重点是长程规划与多步推理。在OpenClaw框架下，它能独立完成复杂任务。

社区实测显示，它在编程和工具调用上的表现，已接近Claude Opus 4.6水平。

丨MiMo-V2-Omni（对应Healer Alpha）是全模态版本。

上下文262K，原生支持文本、图像、语音、视频输入与输出。它能看图、听录音、理解视频，然后直接执行操作。

例如：截图一张商品图片，它可打开电商平台完成比价、下单；输入一段会议录音加白板照片，它能自动生成结构化笔记并在文档工具中填充表格。

丨MiMo-V2-TTS 是配套的语音合成模型。

基于超过1亿小时数据训练，支持多方言、多角色、多语气切换。

三组模型结合，形成了从意图理解到执行的完整链路。

MiMo-V2官宣后，雷军迅速发文为其站台：

Mimo-V2-Pro在全球大模型综合智能排行榜Artificial Analysis上，位列全球第八。按大模型品牌来排名，排在全球第五，超过了xAI Grok。

03 跑分还是实战？

每当有大模型发布，业内都会习惯性地思考，这到底是靠刷榜拿分，还是真能在真实场景里干活？

目前，各大权威基准测试显示，MiMo-V2系列在逻辑推理和代码领域的成绩，位居全球第一梯队。

AIME 2025数学基准测试中，MiMo-V2 Flash得分94.1%表明，已具备了接近人类顶尖竞赛选手的能力。

SWE-Bench测试显示，MiMo-V2-Pro在编程任务上不仅大幅领先于国内竞品，且在多项指标上与全球顶级模型并驾齐驱。

但质疑在于，传统的静态基准测试已无法衡量真实的智能水平。那么，MiMo-V2在真实的人类任务中表现如何？

在以实战著称的PinchBench和Claw-Eval榜单上，小米这组模型展现出了强大的执行力。

PinchBench榜单中，MiMo-V2-Pro的任务完结率高达85%，目前稳居全球前三，仅次于目前顶级阵营（Claude 4.6 系列、GPT-5.4）。

在Claw-Eval中，MiMo-V2的指令服从度达到了97%，表现了对复杂工具链的理解深度。

事实上，MiMo-V2也在被开发者们用脚投票，真实调用量惊人。

OpenRouter数据显示，MiMo-V2-Pro（Hunter）上线后多日占据日榜第一，大量来自开发者真实Agent工作流。

来源：OpenRouter LLM Leaderboard（2026.3.10-2026.3.16）

社区实测后也给出了积极反馈，很多人认为这套组合把可用性拉到了新高度。

但也有开发者质疑，MiMo-V2有“面向特定框架/特定评测目标强优化”的嫌疑。

小米官方与OpenClaw生态都反复强调对OpenClaw工具调用与多步任务的优化，同时公开训练细节（数据配方、算力、RL 过程）缺失，很难从第一性原理排除“对OpenClaw等少数Agent基准过拟合”的可能性。

此外，也有开发者测试后表示，在安全对齐上，MiMo-V2-Pro与MiMo-V2-Omni差异明显，前者强审查，后者更开放。这对企业合规、跨境产品一致性、安全体验提出了挑战。

04 小米的AI野心

无论外界对这组模型的表现是否有争议，小米的这次出手，已经足够让整个大模型圈重新评价它。

2026年，中国大模型市场已经进入落地决战阶段，真正比拼的是谁能把模型真正嵌入用户日常场景。

就在这个节点，小米把MiMo-V2系列直接推上前台。

过去三年，小米AI给外界的印象始终停留在应用层：超级小爱语音助手、澎湃OS的智能插件、手机端侧的局部优化。它更像是一个终端厂商的辅助功能，而非独立的基础模型玩家。

然而，随着MiMo-V2-Flash开源冲到全球Agent榜第二，再到这次MiMo两款模型的匿名测试，小米不再是追随者，而是开始建立自己的技术谱系。

这也意味着，小米的目标不只是证明自己做得出大模型，而是要进一步证明，这套能力可以成为整个生态的新底座。

因此，小米真正的AI战略，是要构建“人-车-家”生态里的统一智能层。

通过把MiMo系列深度嵌入小米自有的垂直链路——芯片（澎湃芯片）、操作系统（澎湃OS）、大模型、终端设备（手机、汽车、智能家居），让AI不再是App里的对话框，而是系统级的原生能力。

例如，用户在手机上说一句“帮我把今天会议纪要整理好”，MiMo-V2直接理解意图，自动调用WPS生成文档，同时把关键行动项推送到车机导航和家居日程。

汽车行驶中检测到用户疲劳，MiMo-V2结合手机传感器和车内摄像头，直接调整空调、播放指定音乐，甚至提前通知智能家居煮咖啡。

这种闭环执行，依赖的是小米独有的生态优势：超过7亿月活跃用户、超过10亿IoT设备，以及澎湃OS对硬件的完整权限控制。

其他纯模型厂商只能停留在云端API调用，但小米却能把意图直接转化为物理世界的动作。

罗福莉曾在内部多次强调：小米不追求孤立的超级模型，而是要让AI“走出对话框，接管真实生活”。

这正是小米与DeepSeek、智谱、月之暗面等纯模型玩家的根本区别。前者靠生态落地，后者靠参数和API定价。

换句话说，小米正在完成一次根本转型：从卖硬件的科技公司，变成用AI重新定义用户生活方式的生态服务商。

MiMo-V2系列只是这个战略的第一张牌。

05 竞争格局将如何重塑？

小米此番发力，直接把国产大模型的竞争推入新阶段。

最先感受到冲击的是价格体系。

MiMo-V2系列API定价仅为Claude Opus 4.6的五分之一：256K上下文以内，输入1美元/百万token，输出3美元；即使扩展至1M上下文，费用也仅翻倍。

这一价格，直接把此前动辄数十美元的Agent调用门槛拉到极低。

有开发者反馈，不少团队在测试MiMo Claw免费体验后，已开始将部分生产任务迁移过来，“成本骤降”成为最常见的评价。

在国内市场，小米的突然入局也让格局出现明显裂变。

阿里通义、字节豆包等此前各自占据参数或应用优势的大模型，现在必须面对一个同时拥有顶级Agent能力和10亿IoT设备生态的对手。

小米补齐了中国大模型最缺的落地闭环，把竞争焦点从“谁的参数更大”彻底转向“谁能真正跑通真实场景”。

对DeepSeek而言，压力也很直接：技术路线被继承，Agent执行场景又被小米用硬件生态提前卡位。

全球视角下，小米正成为能与Apple Intelligence形成对标格局的硬件级AI生态。

苹果目前仍以封闭端侧小模型为主，强调隐私与本地计算；

小米则通过开放低价API+全链路权限，实现云端意图理解到物理设备执行的无缝衔接。7亿月活用户和澎湃OS的系统级控制权，可能会让小米在AI普惠速度上领先一步。

06 结语

匿名模型的发布，并不是一次简单的测试，而是小米技术自信的一次集中亮相。

这意味着，小米已经不满足于只做 AI 能力的承接者，而是在尝试进入模型、系统与生态协同更深的一层。

这套体系最终能否成立，还需要时间验证。

但可以确定的是，小米已经不再只是旁观这场竞赛，而是正式走进了牌桌中央。

[责编：{getone name="zzc/mingzi"/}]

阅读剩余全文（）

全部导航

小米“神秘模型”，为何被错认为DeepSeek V4？