造“芯”之路 (05)趋势:展望技术前沿

来源:Me工程师


前言

通过前面几篇文章的介绍,我们可以理解这一点——当今时代,芯片对信息处理的意义,就像空气之于人类的呼吸一样。而且在未来很长的时间里,人们信息处理最主要的工具还是芯片,其他技术的发展也需要依托于芯片,与芯片相结合。

那么,现在的芯片技术有哪些热点方向?有哪些重要的发展趋势?还会取得哪些革命性的进步?接下来,我们以点带面,选取“片上系统”、“AI芯片”、“可重构芯片”三个前沿进行介绍。

片上系统

要知道,自上个世纪50年代末被发明出来,芯片就一直通过“微型化”来不断提升性能的。我们在新闻里经常听到的14纳米、7纳米、5纳米,主要指的就是芯片中晶体管的尺寸。晶体管尺寸越小,电子通过晶体管的时间就越短,信息处理速度就越快。而且,在同样大小的芯片中,晶体管的数量也会越多,整体性能就越好。


图 1  晶体管尺寸的缩小及代表芯片


不过,通过缩小晶体管的尺寸来提升性能越来越难了,甚至很快就会达到理论极限。未来提升空间更大的反而是从整个系统架构、电路结构上来做文章,这就是片上系统—SoC(System-on-Chip),意思是在单独一颗芯片上集成一个有完整功能的电路系统。

SoC的思想原理还是“集成化”,毕竟芯片的本质就是在半导体上做的集成电路。当我们把越来越多的功能集成到同一颗芯片上,让各个器件、各个功能模块挨的越来越近,信号传输的路径就越来越短,信号传递也会越来越快,功耗也能越来越低。现在,智能手机、平板电脑这些移动终端里面最重要的一颗芯片就是SoC芯片,它上面集成了CPU、GPU、存储器、图形处理器、音频视频模块等等各种功能。

这种SoC芯片有多厉害呢?我们用全球第一颗5nm制程工艺手机处理器芯片——华为海思的麒麟9000——举例,它里面集成了8核CPU、24核GPU,还有3核NPU,也就是神经网络人工智能模块,还有高速闪存控制模块、图像处理模块、音频和视频处理模块等等,甚至它还把5G模块集成到了同一颗芯片上。这个指甲大小的芯片上包含了150多亿个晶体管,华为手机的所有功能,都是在这颗芯片的控制下完成的。


图 2  华为海思的麒麟9000芯片(部分)


根据一些文献的数据,如果麒麟9000这类芯片中没有集成5G模块,也就是说5G是额外挂载的一块芯片,那么两者的面积之和就会增加50%(这还没算芯片之间的连线面积)。要知道,手机里的空间是寸土寸金,SoC带来的优势是无法抗拒的。

当然这种级别的SoC设计和加工都是非常困难的。要把不同功能的模块集成到同一颗芯片上,就得按照要求最高的那个模块来决定工艺节点,高端SoC芯片的CPU、GPU、NPU这些模块一定都得使用最先进的工艺技术。工艺复杂、加工周期很长、成品率不够高等因素,造成了整颗芯片的造价非常昂贵。可以说,SoC是现在工艺最复杂、生产最高端芯片的技术方案。

既然SoC这么困难,而不同功能模块的设计和加工都有差别,那我们为什么非得都集成到一颗芯片上呢?我们完全可以按照各个模块的功能和工艺要求来分类,把CPU、GPU这些必须使用最先进工艺节点的模块集成到一颗或者几颗子芯片上,把存储模块、接口模块、电源管理模块等等,这些不需要最先进工艺的集成到另外几颗子芯片。然后,再把这些子芯片的裸片集成到同一个封装里面嘛。对,这个折中的办法就是系统级封装——SiP(System-in-Package),一种弱化版本的系统集成。

SiP的性能和功耗相比SoC虽然有些差距的,好处是加工难度小了不少。尤其是可以把不同的子芯片用不同的工艺节点来制作,既保证了最先进工艺的高性能,又有成熟工艺的稳定性。比如苹果的手表里面就是一块SiP芯片。

AI芯片

学过计算机基础的人都知道,计算机里的CPU是一种通用芯片,不仅要计算,还要分析指令、调取数据、控制操作……总之,通用芯片干的事情非常多。生活中,我们经常听到一种评价,说一个人“样样精通,样样稀松”。对于芯片来说,也会存在类似的问题——什么活都干,就不如专攻一种活更为高效。

当我们对计算机的图形渲染和图像处理有着更高需求时,就分化出来一颗专用芯片——GPU(Graphics Processing Unit)。在GPU里面,控制模块只占很小的部分,大部分的面积都放满了运算单元。GPU工作时就是一门心思不停地处理图形图像数据就可以了,效率比CPU高多了。所以,GPU和CPU的区别,就是专才和通才的区别。这也顺应现代社会分工的趋势——待解决的问题足够重要,就值得花费宝贵的资源去专门解决。

最近十多年,随着物联网、大数据和云计算的不断发展,人工智能也走进了人们的生产生活,并发挥了越来越重要的作用。比如,手机的人脸解锁,音箱的语音控制,无人车的自动驾驶等。

由于人工智能需要“投喂”大量的数据进行训练,所以一般的通用芯片根本就处理不了。早在2014年,Facebook为了让人工智能的识别准确率接近人类水平(97.35%),采用了深度学习算法,搜集了400万张图片进行模型训练。之后,不仅训练数据的规模每年都在增长,算法的模型也更加复杂。无人驾驶技术也是如此,自动躲避障碍物并规划路线,是一个计算量非常庞大的任务。如果一辆无人车的前方20米出现一个障碍物,用CPU来计算要不要躲避的话,恐怕保险公司定损员都来到现场了,结果还没出来呢。

为了保障算力,加速AI算法,人们研发了一种专用芯片——AI芯片,全称“人工智能加速芯片”。最早的AI芯片大都是用的GPU,比如上面提到的Facebook做人脸识别。因为深度学习中常用的卷积神经网络,主要的运算就是针对很大的矩阵进行大量的乘法操作。如果能针对这个特点来处理,自然就能提高计算速度。正巧,GPU在这一点上比CPU要强很多。

虽然GPU比CPU更能加速AI算法,但现在也算是比较通用的芯片了。它的显著缺点是,并没有针对每一个人工智能问题做最佳优化,功耗和价格也比较高。所以,我们就想要更专用的芯片来提高效率,就出现了半定制化AI芯片和全定制化AI芯片。

半定制化AI芯片可以看成是一颗“万能芯片”,设计加工完成之后,还能根据实际需要修改芯片里的器件连接形式,从而构成各种不同功能的芯片。全定制化AI芯片则是根据要解决的问题专门设计一颗芯片,如果你想解决另外一类问题,就得另外再做一颗芯片才行。Google的TPU(张量处理器)就是最为著名的全定制化AI芯片。根据公开的数据,TPU比起最好的GPU来说,能有几十倍将近上百倍的性能提升,能耗也有很大的降低。


图 3  芯片在处理AI问题时灵活和高效往往不可兼得

可重构芯片

通过介绍AI芯片,我们可以看出来解决某类问题的专用芯片是很有实际需求的,就像擅长某项工作的专家一样。在未来,为了满足万物互联的需求,我们还会需要更多不同类型且小批量的专用芯片。正是由于批量小,专用芯片最突出的困境就是成本高,只有谷歌、阿里这些大公司才玩得起。

CPU、GPU这类通用芯片适用于各种场景,戴尔的工作站可以用,苹果的笔记本也可以用,既可以运行Windows,也可以运行Linux和macOS。这样以来,每款芯片高达几亿美元的研发成本才可能合理地分摊到产品个体上面,这也是英特尔(Intel)、英伟达(NVIDIA)得以崛起的原因。但专用芯片的巨额成本却没有这么大的销售量来支撑,这里面天然存在性能和经济性的矛盾。

半定制化芯片、全定制化芯片能不能解决这个问题呢?目前来看,不行。半定制化芯片虽然能做到硬件可编程,但是一种静态的可编程,没法根据软件实时调整。全定制化芯片更是针对具体问题提前设计好了,一旦做出来硬件就彻底定型了,牺牲了灵活性才换来高性能。

那么,有没有高性能又兼具经济性的芯片呢?比如说,一款芯片能针对于各种不同类型的问题、各种应用软件都能自适应地形成一个最优的架构,也就是说,这颗芯片对于任何问题都相当于定制芯片,都能够高效地解决问题。

可重构芯片技术就是要实现这个目标。对于新的问题,软件改变了,硬件能够在几十纳秒的时间里面针对软件需求进行改变,即所谓的“软件定义芯片”。因为一款芯片就可以应对大量不同的场景,就有足够的销量来摊平开发成本了。可重构芯片技术是当今最前沿的领域之一,未来十年,一定会有很大的突破。


图 4  可重构芯片的基本原理

结论

本文从“集成化”、“智能化”和“可重构”三个角度,介绍了芯片的前沿技术和重要发展趋势。其实,芯片技术还很多热点研究方向,例如“类脑芯片”、“量子芯片”等等。这些全新的架构理解起来需要更多更深的专业知识,限于篇幅,我们就略过不提了。

通过本系列专题,我们不仅回顾了芯片制造的历史,探寻了突破封锁的途径,还展望了技术发展的趋势。接下来,我还会通过几个番外篇,对前面的内容作以补充,希望对你有所启发。


原文链接:https://mp.weixin.qq.com/s?__biz=Mzg5MzM1NjY2Mg==&mid=2247485233&idx=1&sn=f557e5b306a0b6b0a945d6308a66e6aa&chksm=c0315828f746d13eb0fb0823c994746db4fc245e93a5558ad9689c340f4a73333254712c52b2&scene=21#wechat_redirect