来源:中国经营报
本报记者 李玉洋 上海报道
近期,两场RISC-V(开源指令集架构)会议在上海、杭州两地接连召开,一场是滴水湖中国RISC-V产业论坛(以下简称“滴水湖论坛”),另一场是2024 RISC-V中国峰会。
“这两个会其实有点区别,滴水湖重在产业落地,RISC-V中国峰会则重在产业的未来,但谈的都是高性能计算。”电子创新网创始人兼CEO张国斌告诉《中国经营报》记者,AI需要大算力,当然会成为RISC-V现在最重要的发展方向。
其中,中国工程院院士倪光南在“2024 RISC-V中国峰会开幕会”表示:“根据2023年年底的数据,在芯片领域RISC-V IP核出货量达到130亿颗,完成了ARM经过30年才走过的历程。”该消息让业界振奋。随着RISC-V在物联网、嵌入式系统等领域批量应用,并在桌面计算、服务器、人工智能等领域迅速发展,未来RISC-V有望成为继X86和ARM之后的第三大主流芯片架构。
而RISC-V国际基金会人工智能与机器学习专委会主席、北京大学讲席教授谢涛则期待AI能成就RISC-V生态,就“像当年PC成就X86生态,手机成就ARM生态”一样。
在半导体行业资深产业分析师黄烨锋看来,在今年滴水湖论坛产品推介中就能看到包含AI SoC、AI CPU在内的RISC-V芯片。“这在任何CPU指令集的发展历程中都是相当罕见的:短短四届滴水湖论坛,人们见证了RISC-V的一路狂飙,现在AI又为RISC-V这辆跑车提供了一次‘氮气加速’(指加速度很快)的机会。”他表示。
RISC-V优势在开放性、灵活性
“RISC-V是CPU指令集,谈AI芯片,CPU指令集和它有什么关系?”谢涛表示,今年4月11日, RISC-V国际基金会理事会官宣,人工智能/机器学习是2024年RISC-V国际基金会顶级关键战略最优先的战略。
在今年的世界人工智能大会上,RISC-V国际基金会理事长戴路也表示,RISC-V是最适合AI的指令集架构。此外,加拿大AI芯片独角兽Tenstorrent首席CPU架构师练维汉指出,RISC-V非常适合做AI计算,比如大语言模型的存取非常破碎、混乱,这是CPU最擅长做的。
不仅如此,嵌入式处理器开发商MIPS CEO Sameer Wasson也在滴水湖论坛上表示,作为技术奇点的生成式AI,及数据驱动的资本投入,推动着RISC-V时代的到来。
谢涛认为,基于RISC-V构建AI算力的优势在于其开放性、灵活性,高度可扩展性、功耗和效率优势,以及生态系统和社区的强有力支持。“像当年PC成就X86生态,手机成就ARM生态,我们期待AI成就 RISC-V这样的生态。”谢涛说。
“目前,RISC-V AI芯片有两种主要模式:一种是紧耦合模式(integrated),适合低功耗领域(RISC-V+AI),一种是松耦合模式(attached),适合大算力领域(AI+RISC-V)。”谢涛表示,前者以CPU主干为骨架,集成在CPU内部,共享程序计数器、寄存器等流水线单元,只是在执行单元部分增加矩阵或向量单元;后者则外挂在CPU上,会有独立的流水线、寄存器堆、缓存等,是协处理器,可以接收来自及一个或多个CPU的指令,异步执行不同CPU提交的任务。
黄烨锋进一步指出,RISC-V + AI的紧耦合模式就是通过指令集扩展实现AI加速,理论上,ARM公司的Neon、Helium(前者是适用于ARM Cortex-A系列处理器的一种128位SIMD扩展结构,后者是ARM Cortex-M系列产品的MVE一种新的矢量指令集扩展)都属于此类;AI + RISC-V的松耦合模式则在RISC-V CPU的基础上,增加协处理器或加速器——ARM家族的代表是Ethos NPU(该系列是ARM推出的AI微加速器)。
以紧耦合模式的RISC-V AI芯片为例,本次滴水湖论坛展示了来自进迭时空(杭州)科技有限公司的SpacemiT Key Stone K1,号称是“全球首款8核RISC-V AI CPU”,这颗芯片采用了进迭时空自研的RISC-V智算核X60,它拥有8个核心,频率最高2.0GHz,核心单核算力比ARM Cortex-A55高30%。
不过,谢涛也指出,我国乃至全球RISC-V+AI生态仍存在生态碎片化、资源投入严重不足、缺少组织统筹以及产学研协同不够的挑战。
如何撼动CUDA
在AI芯片领域,英伟达是绝对的市场霸主,其全球市场占有率高达90%。作为最有希望挑战英伟达霸主地位的公司,AMD仍与英伟达有一个数量级的差距。
从近期的财务数据来看,数据中心业务是这两大GPU巨头增长的主要驱动力,并在2024年保持高速增长。
财报显示,英伟达在2025财年第一财季(自然年2024年2月至4月)创下了260亿美元的季度收入纪录,其中数据中心业务贡献了226亿美元,同比增长427%。作为对比,AMD在2024年第一季度和第二季度的收入分别为55亿美元和58亿美元,数据中心销售额分别达到23亿美元和28亿美元,分别同比增长80%和115%。
一个越来越为人熟知的事实是,之所以英伟达能成为AI芯片市场霸主,除其硬件产品性能优秀外,更在于它构建起了以CUDA(英伟达推出的运算平台)为基础的软件栈。
“相比于英伟达,国产Al芯片除性能差距外,软件生态差距更大。英伟达的成功不仅仅在于其芯片,更在于其软件栈CUDA的成功。”谢涛表示,CUDA是2006年英伟达推向市场的,经过这么多年的发展,英伟达为CUDA生态投入120亿美元,目前CUDA开发者已有450万。
谢涛指出,如今国内高端AI芯片企业达40多家,但软件栈层面各自为战,整体市场份额不足10%。
“一些国产和国际AI芯片公司也会采用所谓的‘打不过就加入’的思路,兼容CUDA软件生态,特别是走GPGPU(通用图形处理器)的路线。这样的道路能解燃眉之急,但长远来看还是受制于人。”谢涛表示,当然还有一些AI芯片公司走的是非CUDA路线,但整体上来说AI算力软件生态呈现小、散、弱的局面。
他还指出,指令集不统一,硬件架构分散;软件栈不统一,用户学习成本高;算子覆盖度低,用户迁移成本高,以及企业各自为战,没有足够的生态竞争力,这些都导致国产AI芯片竞争力的缺乏。
但英伟达的CUDA生态是相对封闭的。对此,谢涛指出历史上能够击败闭源霸主生态的往往是一个开源的生态。
“在IT历史上,当一个闭源生态占据主导地位的时候,基本上没有看到一个成功的例子是说第二个后来居上的闭源生态撼动(原先)霸主生态。但有两大案例,是开源的生态去震撼闭源霸主的生态,一个Linus VS Windows,一个是Android VS iOS。”谢涛说,RISC-V指令集本身是开源的,且已有了相当的芯片出货量及开发生态基础。
言下之意,选择RISC-V做AI芯片的理由又多了一个,即用开源的RISC-V生态来撼动英伟达的CUDA生态。
针对以上当前构建我国RISC-V+AI生态存在的挑战,谢涛认为,可以采用自下而上的思路,以RISC-V指令集扩展+开源系统软件栈(并推成标准)为“公共开源根”,利用国际开放/开源社区“长叶”(基于开源根的商业软件/芯片),形成“根技术开源”与“叶技术竞争”的技术生态优势。
谢涛提出,应聚焦边缘计算和智能终端等多样化应用场景,推动软件生态的发展,进而带动云上软件生态,这种“农村包围城市”的策略来与现有巨擘抗衡,逐步建立RISC-V在AI领域的市场地位。再依托日益强大的RISC-V软硬件生态,聚焦全球开源工具创新,最终达成类似Android VS iOS或Linux VS Windows的竞争格局。
关于具体破局思路,谢涛提出了国际标准+开源社区两抓手。“一是以推动RISC-V国际标准为抓手到国际借力,把握‘根技术’,快速布局新市场(如智能终端、AI PC等),以推动国际基金会标准来依托上游国际开源社区贡献系统软件栈。二是以共建国际开源软件生态为抓手到国际借力,到国际开源软件生态(如Triton、SYCL)中发出中国强声音。”谢涛说。
在谢涛看来,Triton(开源的GPU编程语言)与SYCL(由英特尔主推,和CUDA同层级的跨平台抽象层)是RISC-V AI生态发展的关键,SYCL被他类比为“编程模型中的RISC-V”,相对的CUDA是编程模型中的X86。
黄烨锋指出,Triton实现了硬件无关的中间层表示,生态兼容负担小,编程难度相较CUDA更低,但仍能实现接近于CUDA极限生态的性能。