您的位置 首页 通讯

华为闯出来了

美国商务部禁令自5月13日发布,以长臂管辖的“不讲理”方式,间接宣告了华为昇腾芯片的实力。从原文来看,美方怀疑华为似乎使用了美国的技术,换句话说,是美国不肯承认中国自有技术可以生产出高性能芯片。

美国商务部禁令自5月13日发布,以长臂管辖的“不讲理”方式,间接宣告了华为昇腾芯片的实力。从原文来看,美方怀疑华为似乎使用了美国的技术,换句话说,是美国不肯承认中国自有技术可以生产出高性能芯片。

第一个“受害者”马来西亚不得不避其锋芒。5月19日,马来西亚数字通讯部宣布启动“策略AI基础设施计划”,核心装备为3000台华为昇腾高阶GPU,搭载深度求索的开源模型。然而,24小时内,马方撤回新闻,未提供进一步说明。

华为闯出来了

马来西亚数位通讯部副部长张念群5月19日宣布,将成为第一个在其人工智能基础设施项目中采用华为升腾芯片的国家

短短数日之间,华为昇腾已搅动全球科技产业一池春水:不同的国家、区域和芯片企业纷纷关注昇腾的“虚实”。

这款令美国严防死守、英伟达CEO黄仁勋念兹在兹的中国芯片,到底有多强?

01

AI主权

马来西亚AI计划,本来是“中国AI体系首次海外落地”。

美国引爆“关税战”以来,马来西亚是东南亚国家中不肯“选边站”的中坚力量,今年正式成为金砖伙伴国,同时还担任东盟轮值主席国和中国—东盟关系协调国。

根据马来西亚最初规划,“策略AI基础设施计划”是“数据存于大马、大马人管理、大马人使用”的全栈生态,希望规避欧美云服务商的数据控制权。

配套购买华为硬件和深度求索软件,是其他国家捍卫AI主权的一种有力方式——经过本地化实践,摆脱对美国企业英伟达、OpenAI的依赖。

华为昇腾的吸引力在于提供了一套系统级解决方案:基于昇腾910系列芯片的Atlas服务器,结合CANN异构计算架构,可支持英伟达的CUDA代码70%适配率,训练成本降低75%。

展开全文

华为闯出来了

华为昇腾芯片

其实,华为的新型AI加速器早在4月10日华为云生态大会就露面了。恰巧那时美国总统特朗普掀起的关税风波沸沸扬扬,抢走了大会的风头。

生态大会上推出的华为云CloudMatrix 384超节点,达到单集群300 PFlops(每秒一千万亿即10^15次浮点运算;浮点运算是小数的四则运算)的算力突破,据悉能效比超越英伟达同类产品40%。

华为云CloudMatrix 384超节点的算力核心是昇腾910芯片,单芯片算力达256 TFLOPS(每秒一万亿即10^12次的浮点运算),性能超越英伟达A100。昇腾310芯片负责边缘计算场景。配套的AlterMatic DT250服务器性能较业界同类产品提升20%,能耗降低30%。

同时,深度求索的开源模型DeepSeek-R1,已在CloudMatrix 384超节点上实现了与英伟达 H100相当无几的性能,验证了中国算力的商业化潜力。

然而,即使马来西亚强调技术的“主权”性,仍让美国大感紧张。美国商务部先后修改昇腾禁令,想要封锁华为芯片设计、生产、使用的整个链条。

当然,对于绝大多数国家而言,AI主权的深层矛盾在于AI生态的“路径依赖”。

和其他国家一样,马来西亚现有的AI应用也多基于英伟达框架,转向昇腾需要花很大的力气和成本。一位本地AI创业者公开表示,“我们欢迎主权算力,但工程师培训、模型迁移成本,都远远超过政策的宣示。”

02

用一切换算力

华为云不仅在业内引发震动,也在“圈外”引爆了舆论——一款对标英伟达GB200NVL72系统的产品,在多项关键指标上超越了英伟达方案。

华为云,具体厉害在什么地方?

简而言之,是“用一切换算力”:用空间换算力,用能源换算力……

昇腾910诞生于2019年,采用7纳米工艺。此后910B和910C性能提升,采用5纳米工艺,而英伟达产品为3纳米工艺。也就是说,华为在芯片技术落后一代的基础上,采用了一系列扩展方案,使自家产品领先或至少与“业界顶流”英伟达、AMD产品不相上下。

CloudMatrix 384超节点, 据悉由384颗昇腾910C芯片、通过全连接拓扑结构互联而成。昇腾芯片数量达到五倍之多,足以弥补单个GPU性能仅为英伟达Blackwell三分之一的情况。

华为闯出来了

英伟达Blackwell

完整的CloudMatrix系统,可以提供300 PFLOPs的密集BF16(占用16位的计算机数字格式)计算性能,几乎是英伟达GB200 NVL72的两倍。

总之,凭借3.6倍以上的总内存容量和2.1倍的内存带宽,中国华为的AI加速器已经具备超越英伟达的AI系统能力。

“用一切换算力”自然也有其代价,其短板在于功耗达到GB200 NVL72的3.9倍,每FLOP能效低2.3倍,每TB/s内存带宽能效低1.8倍,每TB HBM内存容量能效低1.1倍。

这个功耗缺陷放在其他国家可能确实是“缺陷”,但中国的电力比较充足,使这个缺陷也没那么可怕。

中国能源体系虽然长期依赖煤炭驱动,但近年来太阳能、水电、风电装机量均居全球首位,更在核电部署领域占据领先地位。相比之下,美国核电产能还停留在20世纪70年代水平,能源电网的升级扩容能力已显萎缩,而中国自2011年以来新增的电网容量,已相当于整个美国电网规模。

华为闯出来了

2015-2024年,我国核电装机和新增装机情况(单位:万千瓦)/ 来源:中能传媒能源安全新战略研究院

由于电力相对充裕,大型AI加速器也就不需担心能耗的约束,华为放弃功率密度、转向规模扩展(包括在设计中引入光互联技术)也就成为合理选择。

像CloudMatrix 384超节点的设计,甚至考虑了机架外部的系统级限制,证明华为的解决方案将保持多种扩展路径。

03

挑战英伟达

华为AI训练集群能挑战英伟达,意味着中国人工智能产业有了坚实的基础。

也无怪黄仁勋这几天气鼓鼓的,公开批评美国政府的芯片出口管制“使中国科技公司更强大”。

值得注意的是,英伟达在人工智能芯片市场的主导地位,并非仅仅得益于出色的硬件和网络架构,也得益于其深度集成的软件生态系统CUDA。

华为闯出来了

英伟达CUDA函式库包含八大函式

英伟达的以CUDA、高性能库以及与PyTorch(最广泛使用的机器学习框架,默认情况下还能与CUDA配合使用)无缝兼容的生态系统,给开发者提供了良好体验,创造出一个活跃社区,从而进一步巩固了英伟达的领先地位。

对于软件替代,华为的办法是,扩充自主研发的软件栈,推出大量工具套件,实现CUDA同等的功能;深化与PyTorch的集成;开发ONNX(开放式神经网络交换的开放标准),方便客户用非华为芯片训练的模型也能在华为芯片上进行推理。

最典型的替代就是CANN(神经网络计算架构),这是华为给昇腾神经网络处理器打造的专有编程环境。CANN在软件栈中所处的层级与CUDA 相同。

自2019年华为被列入美国实体清单起,CANN就一直在开发中。2024年,华为的年度报告重点介绍了当年9月推出的CANN 8.0版本,称其在推进人工智能计算能力方面“迈出重要一步”。

华为闯出来了

华为针对AI场景推出的CANN AI异构计算架构

不过,CANN开发者社区的活跃度不高,公开的调试也很有限。有用户反映,让模型适配华为的平台也很麻烦,要先经过华为的深度优化,才能在华为的平台上运行……进展比较缓慢。

为了“获客”,华为还模仿英伟达在21世纪初推广CUDA的办法,直接把工程师派到客户现场,帮客户进行代码迁移。据悉华为向百度、科大讯飞和腾讯都部署了工程团队。

从目前来看,华为AI芯片的生态并不能说很成熟。同时,昇腾芯片依然离不开全球化的产业链。它的设计完全由中国完成,但生产还是有赖于其他企业:比如三星的高带宽存储器(HBM),美国、荷兰、日本等企业的设备。

只要持续推动,事情总会有所转变。英伟达花了近20年,才构建起今日的霸主地位。构建任何一个具有竞争力的生态系统,都需要多年的努力。

当科技霸凌成为常态,自主创新就是最好的回应。

作者 | 荣智慧

编辑 | 向现

本文来自网络,不代表冰河马新闻网立场,转载请注明出处:http://www.wqgzj.cn/29904.html

作者: wczz1314

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部