官方网站-首页【导(dǎo)语(yǔ)】国(guó)产(chǎn)算(suàn)力(lì)芯(xīn)片(piàn)以(yǐ)“能(néng)用(yòng)、好(hǎo)用(yòng)”为(wèi)评(píng)价(jià)标(biāo)杆(gān),但(dàn)“高(gāo)性(xìng)能(néng)”与(yǔ)“易(yì)用(yòng)”间(jiān)似(shì)存(cún)鸿(hóng)沟(gōu)。业(yè)内(nèi)人(rén)士(shì)指(zhǐ)出(chū),国(guó)产(chǎn)算(suàn)力(lì)为(wèi)提(tí)升(shēng)使(shǐ)用(yòng)率(lǜ),在(zài)软(ruǎn)件(jiàn)栈(zhàn)设计上“有意”平衡,既要简化操作降低用户成本,又因场景多样、代际和异构差异面临挑战,实现“更好用”仍需突破。
对于国产算力芯片来说,“纸面上的指标不重要,真正能用、好用才重要”,几乎成为业界默认的评价标准。然而,近日记者从产业活动中了解到,算力的“高性能”和“易用”之间似乎存在着一道“看不见的鸿沟”。
好算力不易用,厂商有意为之?
“好用和用得好似乎是天然的矛盾。”摩尔线程联合创始人首席技术官张钰勃表示。对于用户而言,“好用”首先意味着使用和迁移成本低。要实(shí)现(xiàn)“好(hǎo)用(yòng)”,让(ràng)用(yòng)户(hù)先(xiān)在(zài)自(zì)己(jǐ)的(de)平(píng)台(tái)上(shàng)“用(yòng)起(qǐ)来(lái)”,算(suàn)力(lì)芯(xīn)片(piàn)企(qǐ)业(yè)就(jiù)得(de)将(jiāng)自(zì)己(jǐ)的(de)计(jì)算(suàn)平(píng)台(tái)包(bāo)装(zhuāng)得(de)非(fēi)常(cháng)简(jiǎn)单(dān),非(fēi)常(cháng)标(biāo)准(zhǔn)化(huà),甚(shén)至(zhì)做(zuò)得(de)跟(gēn)CUDA一(yī)模(mó)一(yī)样(yàng)。“这样开发者确实不需要做太多的额外学(xué)习(xí),能(néng)够(gòu)最(zuì)小(xiǎo)化(huà)学(xué)习(xí)和(hé)迁(qiān)移(yí)成(chéng)本(běn)。”张(zhāng)钰(yù)勃(bó)说(shuō)。

国(guó)产(chǎn)算(suàn)力(lì)芯(xīn)片(piàn)用(yòng)于(yú)数(shù)字(zì)人(rén)
然(rán)而(ér),单(dān)纯与国际主流保持一致,国产算力的创新性如何体现?国产卡又如何真正实现在诸多应用场景的部署,成为“有用”算力呢?
针对这一问题,北京硅基流动科技有限公司创始人、首席执行官袁进辉解释道:算力芯片中往往会设计很多细节,存在很多复杂的结构和功能,充分调用其功能需要一定的经验和技巧。如果想让更多的人尽快地用起来,芯片就要尽可能地把细节隐藏起来,用简单而抽象的指令,尽可能让使用的方式简单一些。也就是说,把软件接口做简单,使用户能“傻瓜式”地把芯片用起来,便实现了芯片的“好用”。
但算力芯片应用的场景是多样化的,场景覆盖AI、图形处理、科学计算等等诸多类型,每一种任务的工作负载不尽相同,对底层芯片的使用方式也各不相同。在不同的场景中,工程师如果发现了需要解决的问题,需要从上到下,逐层把一些工作负载细化、分解,以匹配硬件上的规格。
因此,所谓算力芯片“好用的没用”“有用的不好用”的争论,其实一定程度上是算力芯片企业为提升本品牌芯片使用率,“有意为之”的结果。
“好用不好用”,软件栈很重要
为了使用户先“用起来”而故意隐藏部分信息,既反映出算力芯片企业对用户的重视,也反映出用户习惯仍然在国产算力芯片普及化过程中扮演着相当重要的角色。软件栈的成熟度和“好用”程度,也很大程度上决定了开发者对算力芯片品牌的信赖(lài)度(dù)。
当(dāng)前(qián),用(yòng)户(hù)期(qī)待算力基础设施能够承载包括大规模训练、推理在内的诸多职能。与此同时,国产算力芯片存在代际迭代,超智融合的算力中心还存在异构情况。上述这些需求,都对底层软件栈的稳定性带来很大的挑战。
“我们期待的状态是,上层应用跑得好。”启元实验室助理研究员王豪杰在接受采访时表示。英伟达的芯片之所以受到欢迎,稳定、高效且简易的软件栈发挥了很大的作用。王豪杰举例,一个在A100芯片上训练的模型,可以部署在4090显卡上,整个过程非常顺利,不需要对软件做任何修改。“这是英伟达好用的本质核心。”王豪杰说。


国产算力用于远程作业平台
反观国产芯片生态:一方面,同一品牌的产品存在代际差异;另一方面,不同品牌之间、底层软件栈之间也存在差异。在某一款产品上进行训练,再到另一款算力芯片上推理,模型在不同的软件和底层硬件迁移之后,精度损失(shī)会非常严重。甚至可能出现,某些接口在一款产品上适配了,但(dàn)在(zài)另(lìng)一(yī)款(kuǎn)产(chǎn)品(pǐn)上(shàng)没(méi)有(yǒu)适(shì)配(pèi),模(mó)型(xíng)跑(pǎo)不(bù)起(qǐ)来(lái)的(de)可(kě)能(néng)。
“在(zài)单(dān)点(diǎn)算(suàn)力(lì)不(bù)足(zú)的(de)情况下,为了满足算力规模需求,我们需要调用异构算力。底层软件的是支撑实现这一切的基础。”王豪杰称。
基于此,国产算卡要实现“更好用”,就得使任务能够轻易地调用不同品牌的算力卡。如果存在严格的适配机制和验证机制,能够通过中间层统一的架构,保障在上层代码不作修改的情况下,任务也能够在不同品牌的算力芯片上运转起来,便能推动我国智能算力进一步朝着产业化、规模化方向拓展。