清华团队开源百亿参数多模态模型MM-Interact - Blog

清华大学发布开源多模态模型MM-Interact，支持图文音视频联合理解，多项指标超越商用模型。

清华开源MM-Interact：多模态AI的“新地平线”

2026年6月12日，清华大学计算机系朱军教授团队在GitHub上开源了百亿参数级别的多模态大模型——MM-Interact。该模型旨在实现文本、图像、音频、视频四种模态的联合理解与交互生成，在多个国际基准测试中超越GPT-4V和Gemini Ultra。更为重要的是，模型权重、训练代码和数据集全部开放，采用Apache 2.0许可证，旨在推动全球多模态AI研究的民主化。

技术创新

MM-Interact的核心创新在于提出了“统一表征与分步注意力”框架。传统多模态模型通常采用各模态独立编码后融合的方式，而MM-Interact将四种模态的数据统一映射到256维的共享语义空间，并通过动态注意力机制实现任意模态之间的跨模态检索与生成。

根据团队公布的论文，MM-Interact在以下任务中取得SOTA（最佳）结果：

图文理解：在MS-COCO Captioning上CIDEr得分达到145.3（GPT-4V为140.2）
视频问答：在NextQA上准确率72.8%（Gemini Ultra为70.1%）
音频描述：在AudioCaps上SPICE得分为62.4%（商用最优为58.9%）
跨模态检索：从文本到视频的Recall@1达到48.5%

开源生态策略

与许多闭源商用大模型不同，MM-Interact的开源策略极具诚意。团队提供了完整的模型权重（参数量14B）、包括8万条指令的微调数据集“Multi-300k”、以及基于PyTorch的完整训练和推理代码。朱军教授在开源说明中写道：“我们希望降低多模态AI的研究门槛，让全球高校和中小企业也能基于此模型探索更多创新应用。”

目前，该模型在GitHub上已获得超过1.2万星标，Hugging Face下载量突破50万次。社区反应热烈，不少开发者已基于MM-Interact开发了智能教育助手、视频自动剪辑工具和无障碍辅助应用等。

学术价值与局限

加利福尼亚大学伯克利分校的AI教授Trevor Darrell在社交媒体上评论：“MM-Interact在跨模态一致性上做得非常好，尤其是视频到文本的对齐能力令人印象深刻。它证明了开源社区有能力达到甚至超越闭源水平。”

不过，也有研究人员指出模型目前仅支持英文，且最大输入视频长度限制为60秒。朱军团队表示，中文版本正在开发中，预计2026年第三季度发布，同时将着力解决长视频理解效率问题。

开源AI趋势

MM-Interact的发布是开源AI领域2026年的又一里程碑。据Open Source Initiative统计，截至2026年6月，全球公开可用的多模态大模型数量已从2025年的月均5个增至月均20个。百度、Meta、微软等巨头也相继开源了部分模型权重，形成良性竞争。

业内分析师王磊认为：“开源让AI加速从实验室走向产业。MM-Interact的出现可能迫使闭源厂商进一步降低定价，或者提供更差异化的服务。”