欢迎访问赛达科技

刚刚,小米开源首个原生端到端语音模型,语音领域的 “GPT-3 时刻”来了?

热点资讯 2025-09-23 user795653

讯 今日,小米在Xiaomi MiMo官微宣布,正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio,它基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 ICL 的少样本泛化,并在预训练观察到明显的“涌现”行为。


官方称Xiaomi-MiMo-Audio的突破带来了语音领域的 “GPT-3 时刻”。该模型首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以“涌现”出跨任务的泛化性,表现为 Few-Shot Learning 能力。(编辑:李美涵)

Xiaomi-MiMo-Audio性能强悍,具体表现如下:

1.在通用语音理解及对话等多项标准评测基准中,MiMo-Audio 大幅超越了同参数量的开源模型,取得 7B 最佳性能

2.在音频理解基准 MMAU 的标准测试集上,MiMo-Audio 超过 Google 闭源语音模型 Gemini-2.5-Flash

3.在面向音频复杂推理的基准 Big Bench Audio S2T 任务中,MiMo-Audio 同样超越了 OpenAI 闭源的语音模型 GPT-4o-Audio-Preview

模型开源地址:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Base

技术报告:https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/MiMo-Audio-Technical-Report.pdf

The End
免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。

Copyright © 2099 赛达科技 |中华人民共和国增值电信业务经营许可证号:苏B2-20221286

苏ICP备2023036119号-11 |——:合作/投稿联系微信:nvshen2168

|—— TXT地图 | 网站地图 |