作者|洪雨晗
怎么才能让一枚芯片具有更高的功能?
许多数人的回答必定是紧跟摩尔定律,在同样尺寸的芯片体积内装进更多的晶体管,其伎俩没有外乎更领先进步的制程(从7nm到5nm)以及更领先进步的封装形式(如chiplet)。
然则,随着领先进步制程逼近1nm的物理极限,摩尔定律不可幸免的放慢,即使是在平常生活中,大家也能感触得手机Soc、电脑的CPU的进级换代成果越来越差,从往日的每代提高40%功能快速下调至20%甚而10%。
与之对应的是,当今社会对数据、算力、芯片功能的请求却越来越高,全个下游市场既然有巨大的要求显露,那末全个资产链的各方全在想方设法来提升芯片的功能,既然惯例的在晶圆上改良工艺的形式进展缓慢,那末在更上层的计算机架构上动刀也许会有意想不到的获利。
本年以来,少许跳出惯例计算机构造体制的设想正好转为探讨效果显露在各大高级期刊上,它便是“存内计算”。
存内计算,顾名思义便是把计算单元镶嵌到内存中间。平常计算机运转的冯·诺依曼体制包括存储单元和计算单元两部分,计算机实行运算须要先把数据存入主存储器,再按顺序从主存储器中取出指示,一条一条的执行,数据须要在料理器与存储器之中发展频繁迁移,假如内存的传输速度跟不上CPU的功能,就会导致计算能力遭到节制,即“内存墙”显露,比如,CPU料理运算一道指示的耗时假若为1ns,但内存读取传输该指示的耗时可能就已达到10ns,惨重作用了CPU的运转料理速度。
另外,读写一次内存的数据能量比计算一次数据的能量多消耗几百倍,也便是“功耗墙”的存留。2018年,google针对自家产物(Chome/Tensorflow Mobile/video playback/video capture)的耗能概况做了一项探讨,发觉全个体系耗能的62.7%浪费在CPU和内存的读写传输上,惯例冯·诺依曼架构导致的高延迟和高耗能的难题成为很需要解决的难题,此中的短板存储器成为了制约数据料理速度提升的最重要的阻碍。
把计算单元镶嵌到内存中间的理想概况下,存内计算可行有用消除存储单元与计算单元之中的数据传输耗能过高、速度局限的概况,从而有用解决冯诺依曼阻碍。
存内计算的概念早就有迹可循,在上世纪70年代William H。 Kautz就曾提议过存储和逻辑整合的方案,Harold S。 Stone紧继续发表了扶持逻辑运算的存储计算构造,但源于那时的功能阻碍难题不算突出,料理器的进行暂能满足数据料理的要求,于是学界、业界并未对该范畴投入过多关心。
现在,随着人力智能技艺的进行,AI在各范畴的利用渐渐广大,以深度学习为代表的神经网站算法须要体系能高效料理海量的非构造化数据,比如文本、视频、图像、语言声音等,这导致在冯·诺伊曼架构下的硬件须要频繁读写内存,其计算任务有着并行运算量大、参数多的特色,这让得AI芯片对并行运算、低延迟、带宽等有着更高的请求,也因而,存内计算在人力智能时期迎接了进行的黄金时代。
存内计算的热度肉眼可视的在各大学术会议上发酵。2018年的IEEE世界固态电路会议(ISSCC)专门用了一种议程来研讨存内计算相干话题;到2019年,电子器件范畴的高级会议IEDM上对于存内计算的研讨议程则变成了三个,相干论文也达到二十余篇;2020年的ISSCC上存内计算的论文也上升至七篇。
存内计算不单是学界的圈地自娱,三星、SK海力士、台积电、英特尔、美光、IBM等半导体范畴的巨头也在加紧对该技艺的研发,本年的竞争愈是尤为剧烈,起首三星在高级学术期刊Nature上发表了全世界首个鉴于MRAM(磁性随机存储器)的存内计算探讨,紧继续台积电在近日的ISSCC上合作发表了六篇对于存内计算存储器IP的论文,鼎力推行鉴于ReRAM的存内计算方案,SK海力士则发表了鉴于GDDR接口的DRAM存内计算探讨。
应着这阵风口,我们国家的存内计算资产也最初迅猛进行,知存科技、九天睿芯、智芯科、后摩智能、苹芯科技等国家内部专注存内计算赛道的新兴企业纷纷得到融资,提速在该范畴的早期市场布置及商业落地。
尽管不论学界、业界仍是市场对存内计算的呼声都极高,相干探讨和产物的研发在如火如荼的发展,但在现阶段存内计算的实现切实面对着诸多难点,日前市面子上仍缺乏被市场认可而广大利用的存内计算产物显露。
日前,业界实现有内计算的三种主流路径为SRAM、DRAM、Flash,容易来讲DRAM内存具备动态刷新,断电会丢失数据的特征,SRAM为快速缓存,其没有需刷新,但同样会在断电状况下丢失数据,Flash则为闪存,其有着没有需刷新,断电不丢数据的特征,平常作为硬盘运用。
抉择SRAM路径的代表性半导体公司为台积电,它可行在5nm的领先进步工艺上生产。SRAM的存储逻辑容易清楚,和此刻的数字料理器技艺更简单联合,同一时间,SRAM离CPU近读写功能优势较大,但作为易失性存储器的SRAM同一时间也有着断电后数据没有办法保留的难题,因而SRAM还须要在断电后把数据传输到其余存储器中。
Flash阵营的代表玩家为美国的Mythic企业,Flash是一个业内较为老练的存储器技艺,它在功效工艺参数、器件模子上都有着老练的用具,同一时间,其体系架构的焦点设置可行向非易失性的RRAM(电阻式随机存取存储器)等新款非挥发器件上迁移,快速达成产物的革新迭代,
鉴于DRAM的存内计算芯片,日前采纳该方案的企业不多,由于其技艺落地的时间暂不明朗。DRAM存内计算符合大算力AI芯片,其对硬件的通用性和可编程性的请求更高,这对日前专用性的架构来讲须要花更多心理来从新设置,其难度当然更高。
概括来看,存内计算的实现鉴于相对老练的易失性存储和不太老练的非易失性存储,但不论是哪种路线的实现都存留必定的挑战,几大技艺方向也全在进行中。易失性存储路线在合一料理器工艺和存储器工艺上存留诸多困难,在冯·诺依曼架构下,料理器与存储器的区隔显著,从设置、生产、封装全过程,他们各自都进行出了独立的生态,想要把两者合一成一体,其工艺难度可想而知。知存科技走的便是易失性存储路线,其CEO王绍迪曾形容过该路线早期开发的难度:“早期研发的时刻,源于缺乏晶圆工厂和EDA用具的扶持,咱们的开发事业好多就要从自动变成手动。”非易失性存储对存储日前厂家和工艺也均未老练。
极强的市场要求与暂未明朗的技艺产物,谁能首先在可控的本钱内实现有内计算存储密度与计算密度的平衡,谁也许就摸索到了成为下一种英伟达的路径。
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关心)













