首页 · 快讯 · 正文

寒武纪发布新品MLU370-X8 多芯互联技术支持8卡并行

       近日,寒武纪发布了训练卡新品——MLU370-X8,这款芯片主要面向训练任务,搭载双芯片四芯粒思元370,集成寒武纪MLU-Link™多芯互联技术。值得注意的是,在业界应用广泛的YOLOv3、Transformer等训练任务中, 8卡计算系统的并行性能平均达到350W RTX GPU的155%。

       据官方介绍显示,MLU370-X8智能加速卡支持MLU-Link™多芯互联技术,提供卡内及卡间互联功能。寒武纪为多卡系统专门设计了MLU-Link桥接卡,可实现4张加速卡为一组的8颗思元370芯片全互联,每张加速卡可获得200GB/s的通讯吞吐性能,带宽为PCIe 4.0 的3.1倍,可高效执行多芯多卡训练和分布式推理任务。

​MLU370-X8 MLU-Link 4卡桥接拓扑

       在Cambricon NeuWare SDK上实测,在常见的4个深度学习网络模型上,MLU370-X8单卡性能与主流350W RTX GPU相当;而在多卡加速方面,MLU370-X8借助MLU-Link多芯互联技术和Cambricon NeuWare CNCL通讯库的优化,在8卡环境下达到更优的并行加速比。

       长期以来,寒武纪为用户提供了覆盖不同场景、不同算力规模的全系列产品,建立起覆盖云边端、训练、推理的完整产品矩阵,同时利用平台级基础系统软件 Cambricon Neuware,连接全线产品,由点及面,实现了“训推一体、端云融合”。

       相关资料显示,在全球芯片竞争加剧以及严重缺货的大环境下,国内芯片半导体行业正式驶入快车道。据相关数据统计,仅在2020年,中国就新增超过2万家半导体相关企业,增速达到32%。在芯片设计领域,截至去年底,国内已有超过2000家芯片设计公司。

       增速喜人的背后,却是无奈的现实,2000余家芯片设计公司中,绝大多数实力单薄,技术能力储备不足,产品和市场高度趋同,创造的利润甚至不如一颗大白菜。如此现象只能造成低端市场的不断内卷。而在高端市场中,能够设计出CPU、GPU、DSP和FPGA等高性能数字芯片的企业依然凤毛麟角。

       所以,寒武纪的高端数字芯片产品,就成为了芯片市场的重要补充,稀缺度较高。目前,寒武纪的客户已经覆盖大量头部服务器厂商、云计算客户,辐射金融、交通、能源等主要应用领域。新产品推出后可以顺利进入客户选型,市场端竞争压力较小。寒武纪产品一旦实现技术突破,市场侧的突破将十分轻松。