返回博客

寒武纪发布思元590:性能对标英伟达H100

2026年6月12日阅读约 7 分钟
寒武纪发布思元590:性能对标英伟达H100

寒武纪今日推出新一代AI训练芯片思元590,采用7nm工艺,FP8算力达2.5 PFLOPS,能效比提升50%。

寒武纪思元590横空出世:国产AI芯片的“破局之战”

2026年6月12日,寒武纪科技在北京国家会议中心正式发布其最新一代AI训练芯片——思元590。这款芯片采用台积电7nm制程,集成了超过800亿个晶体管,核心尺寸约800平方毫米。据寒武纪创始人兼CEO陈天石介绍,思元590在FP8精度下算力达到2.5 PFLOPS,在BF16精度下为1.4 PFLOPS,整体性能对标英伟达H100(3.0 PFLOPS FP8),能效比相比上代思元370提升50%。

架构创新

思元590采用了寒武纪自研的“达尔文”第六代架构,包含256个AI计算核心,每个核心支持张量、向量和标量并行计算。它首次引入“3D V-Cache”技术,将片上SRAM缓存提升至128MB,配合HBM3e内存(带宽达3.2 TB/s),大幅减少访存瓶颈。此外,芯片内置了专用的多模态编码解码模块,支持文本、图像、视频、语音的混合精度训练。

在互联方面,思元590支持8路NVLink替代协议“超连”,双向带宽600 GB/s,可组成256卡集群,并通过自研的“星云”通信库实现线性扩展效率(Scaling Efficiency)超过90%。

生态建设

寒武纪同步发布了配套的“Cambricon One”软件栈,支持PyTorch、TensorFlow、JAX等主流框架。陈天石强调:“我们已与百度飞桨、华为昇思、阿里PAI等国产框架完成全面适配,并兼容CUDA API的80%以上常用接口,迁移成本极低。”

值得关注的是,寒武纪宣布与中芯国际合作,思元590将实现全流程国产化生产——包括设计、制造、封装、测试均由国内企业完成。首批量产芯片将于2026年8月交付,主要用于国内数据中心和大模型训练场景。

市场反响

发布会后,多位行业专家表示肯定。清华大学微电子所教授魏少军评论:“思元590的发布标志着国产AI芯片首次在通用训练市场逼近国际顶尖水平。虽然绝对算力仍有差距,但能效比和生态兼容性已具备实际应用价值。”

不过,也有分析人士指出挑战:英伟达H100已占据全球AI芯片市场75%以上份额,生态壁垒根深蒂固。寒武纪需要争取更多大型互联网公司和科研机构的采用。目前,百度、腾讯、字节跳动已表示将在部分非核心业务中试用思元590。

未来规划

寒武纪还公布了下一代芯片“思元700”的路线图,预计2027年底推出,采用3nm制程,目标算力达到6 PFLOPS(FP8),直接对标英伟达2027年产品。同时,公司计划在上海临港建设年产百万片的先进封装工厂,以满足不断增长的需求。

行业数据:据IDC统计,2026年第一季度中国AI芯片市场规模达到142亿元,其中国产芯片占比已从2025年的15%提升至22%。思元590有望进一步推动这一比例在年底突破30%。