后台-系统设置-扩展变量-手机广告位-内容广告位一 |
进入 21 世纪后,算力需求呈现两个显著趋势:一,算力的使用场景,开始细分;二,用户对算力性能的要求,越来越高。通用的算力芯片,已经无法满足用户的需求。
于是,越来越多的企业,开始加强对专用计算芯片的研究和投资力度。而 ASIC(Application Specific Integrated Circuit,专用集成电路),就是一种专用于特定任务的芯片。
ASIC 的官方定义,是指:应特定用户的要求,或特定电子系统的需要,专门设计、制造的集成电路。
ASIC 起步于上世纪 70-80 年代。早期的时候,曾用于计算机。后来,主要用于嵌入式控制。这几年,如前面所说,开始崛起,用于 AI 推理、高速搜索以及视觉和图像处理等。
说到 ASIC,我们就不得不提到 Google 公司大名鼎鼎的 TPU。
TPU,全称 Tensor Processing Unit,张量处理单元。所谓“张量(tensor)”,是一个包含多个数字(多维数组)的数学实体。
目前,几乎所有的机器学习系统,都使用张量作为基本数据结构。所以,张量处理单元,我们可以简单理解为“AI 处理单元”。
2015 年,为了更好地完成自己的深度学习任务,提升 AI 算力,Google 推出了一款专门用于神经网络训练的芯片,也就是 TPU v1。
相比传统的 CPU 和 GPU,在神经网络计算方面,TPU v1 可以获得 15~30 倍的性能提升,能效提升更是达到 30~80 倍,给行业带来了很大震动。
2017 年和 2018 年,Google 又再接再厉,推出了能力更强的 TPU v2 和 TPU v3,用于 AI 训练和推理。2021 年,他们推出了 TPU v4,采用 7nm 工艺,晶体管数达到 220 亿,性能相较上代提升了 10 倍,比英伟达的 A100 还强 1.7 倍。
除了 Google 之外,还有很多大厂这几年也在捣鼓 ASIC。
英特尔公司在 2019 年底收购了以色列 AI 芯片公司 Habana Labs,2022 年,发布了 Gaudi 2 ASIC 芯片。IBM 研究院,则于 2022 年底,发布了 AI ASIC 芯片 AIU。
三星早几年也搞过 ASIC,当时做的是矿机专用芯片。没错,很多人认识 ASIC,就是从比特币挖矿开始的。相比 GPU 和 CPU 挖矿,ASIC 矿机的效率更高,能耗更低。
ASIC 矿机除了 TPU 和矿机之外,另外两类很有名的 ASIC 芯片,是 DPU 和 NPU。
DPU 是数据处理单元(Data Processing Unit),主要用于数据中心。小枣君之前曾经专门介绍过,可以看这里:火遍全网的 DPU,到底是个啥?
NPU 的话,叫做神经网络处理单元(Neural Processing Unit),在电路层模拟人类神经元和突触,并用深度学习指令集处理数据。
NPU 专门用于神经网络推理,能够实现高效的卷积、池化等操作。一些手机芯片里,经常集成这玩意。
说到手机芯片,值得一提的是,我们手机现在的主芯片,也就是常说的 SoC 芯片,其实也是一种 ASIC 芯片。
手机 SoC 芯片ASIC 作为专门的定制芯片,优点体现在哪里?只是企业独享,专用 logo 和命名?
不是的。
定制就是量体裁衣。基于芯片所面向的专项任务,芯片的计算能力和计算效率都是严格匹配于任务算法的。芯片的核心数量,逻辑计算单元和控制单元比例,以及缓存等,整个芯片架构,也是精确定制的。
所以,定制专用芯片,可以实现极致的体积、功耗。这类芯片的可靠性、保密性、算力、能效,都会比通用芯片(CPU、GPU)更强。
大家会发现,前面我们提到的几家 ASIC 公司,都是谷歌、英特尔、IBM、三星这样的大厂。
这是因为,对芯片进行定制设计,对一家企业的研发技术水平要求极高,且耗资极为巨大。
做一款 ASIC 芯片,首先要经过代码设计、综合、后端等复杂的设计流程,再经过几个月的生产加工以及封装测试,才能拿到芯片来搭建系统。
大家都听说过“流片(Tape-out)”。像流水线一样,通过一系列工艺步骤制造芯片,就是流片。简单来说,就是试生产。
ASIC 的研发过程是需要流片的。14nm 工艺,流片一次需要 300 万美元左右。5nm 工艺,更是高达 4725 万美元。
流片一旦失败,钱全部打水漂,还耽误了大量的时间和精力。一般的小公司,根本玩不起。
那么,是不是小公司就无法进行芯片定制了呢?
当然不是。接下来,就轮到另一个神器出场了,那就是 ——FPGA。
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。