清华大学发布开源多模态模型MM-Interact,支持图文音视频联合理解,多项指标超越商用模型。
清华开源MM-Interact:多模态AI的“新地平线”
2026年6月12日,清华大学计算机系朱军教授团队在GitHub上开源了百亿参数级别的多模态大模型——MM-Interact。该模型旨在实现文本、图像、音频、视频四种模态的联合理解与交互生成,在多个国际基准测试中超越GPT-4V和Gemini Ultra。更为重要的是,模型权重、训练代码和数据集全部开放,采用Apache 2.0许可证,旨在推动全球多模态AI研究的民主化。
技术创新
MM-Interact的核心创新在于提出了“统一表征与分步注意力”框架。传统多模态模型通常采用各模态独立编码后融合的方式,而MM-Interact将四种模态的数据统一映射到256维的共享语义空间,并通过动态注意力机制实现任意模态之间的跨模态检索与生成。
根据团队公布的论文,MM-Interact在以下任务中取得SOTA(最佳)结果:
- 图文理解:在MS-COCO Captioning上CIDEr得分达到145.3(GPT-4V为140.2)
- 视频问答:在NextQA上准确率72.8%(Gemini Ultra为70.1%)
- 音频描述:在AudioCaps上SPICE得分为62.4%(商用最优为58.9%)
- 跨模态检索:从文本到视频的Recall@1达到48.5%
开源生态策略
与许多闭源商用大模型不同,MM-Interact的开源策略极具诚意。团队提供了完整的模型权重(参数量14B)、包括8万条指令的微调数据集“Multi-300k”、以及基于PyTorch的完整训练和推理代码。朱军教授在开源说明中写道:“我们希望降低多模态AI的研究门槛,让全球高校和中小企业也能基于此模型探索更多创新应用。”
目前,该模型在GitHub上已获得超过1.2万星标,Hugging Face下载量突破50万次。社区反应热烈,不少开发者已基于MM-Interact开发了智能教育助手、视频自动剪辑工具和无障碍辅助应用等。
学术价值与局限
加利福尼亚大学伯克利分校的AI教授Trevor Darrell在社交媒体上评论:“MM-Interact在跨模态一致性上做得非常好,尤其是视频到文本的对齐能力令人印象深刻。它证明了开源社区有能力达到甚至超越闭源水平。”
不过,也有研究人员指出模型目前仅支持英文,且最大输入视频长度限制为60秒。朱军团队表示,中文版本正在开发中,预计2026年第三季度发布,同时将着力解决长视频理解效率问题。
开源AI趋势
MM-Interact的发布是开源AI领域2026年的又一里程碑。据Open Source Initiative统计,截至2026年6月,全球公开可用的多模态大模型数量已从2025年的月均5个增至月均20个。百度、Meta、微软等巨头也相继开源了部分模型权重,形成良性竞争。
业内分析师王磊认为:“开源让AI加速从实验室走向产业。MM-Interact的出现可能迫使闭源厂商进一步降低定价,或者提供更差异化的服务。”