刚刚，小米开源首个原生端到端语音模型，语音领域的 “GPT-3 时刻”来了？_热点资讯

刚刚，小米开源首个原生端到端语音模型，语音领域的 “GPT-3 时刻”来了？

热点资讯 2025-09-23 user795653

讯今日，小米在Xiaomi MiMo官微宣布，正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio，它基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化，并在预训练观察到明显的“涌现”行为。

官方称Xiaomi-MiMo-Audio的突破带来了语音领域的 “GPT-3 时刻”。该模型首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以“涌现”出跨任务的泛化性，表现为 Few-Shot Learning 能力。（编辑：李美涵）

Xiaomi-MiMo-Audio性能强悍，具体表现如下：

1.在通用语音理解及对话等多项标准评测基准中，MiMo-Audio 大幅超越了同参数量的开源模型，取得 7B 最佳性能

2.在音频理解基准 MMAU 的标准测试集上，MiMo-Audio 超过 Google 闭源语音模型 Gemini-2.5-Flash

3.在面向音频复杂推理的基准 Big Bench Audio S2T 任务中，MiMo-Audio 同样超越了 OpenAI 闭源的语音模型 GPT-4o-Audio-Preview

模型开源地址：https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Base

技术报告：https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/MiMo-Audio-Technical-Report.pdf

The End

免责声明：本文内容来源于第三方或整理自互联网，本站仅提供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。

刚刚，小米开源首个原生端到端语音模型，语音领域的 “GPT-3 时刻”来了？

分类导航

最新文章

本栏文章

随机文章

友情链接

刚刚，小米开源首个原生端到端语音模型，语音领域的 “GPT-3 时刻”来了？

相关阅读

分类导航

最新文章

本栏文章

随机文章

友情链接