在中国芯片排行榜2022最新的背景下,全球首款3D晶圆级封装处理器IPU发布,突破7nm制程极限。这一技术创新不仅影响了社会发展,也为中国乃至全球AI领域带来了新的机遇。Graphcore公司,这家总部位于英国的AI芯片公司,本周四宣布推出新一代IPU产品Bow,这是其第三代IPU系统,发布即面向客户发货。
与上一代IPU相比,Bow IPU性能提升40%,能耗比提升了16%,电源效率也提升16%。值得注意的是,这一次Bow IPU的性能提升并非主要依赖采用更先进的制程,而是通过采用和台积电共同开发的先进硅晶圆堆叠技术(3D Wafer-on-Wafer)达到性能和能耗比的提升。
Bow作为世界首款3D WoW处理器,证明了芯片性能提升的范式从先进制程向先进封装转移的可行性。新一代 IPU 性能提升40%,价格保持不变。在图像方面,无论是典型CNN网络还是近期比较热门的人工智能模型,如Vision Transformer网络,以及深层次文本到图片网络,与上一代产品相比,Bow IPU都有30%到40% 的性能提升,在EfficientNet-B4这一项中,其接近理论上限值。
BERT训练模型也是自然语言方面的一个经典模型,它基于BERT提出了GPT-1、GPT-2、GPT-3等纵向扩展或横向扩展,让模型更加精准地理解人类语言。此外,对于实际应用中的吞吐量与上一代相比,在计算机视觉ResNet50 和 EifficientNet-B4 训练模型中,比POD64多出34%和39% 的吞吐量;而对于BERT-Large Ph1 预训练模型和语音识别Conformer Large 训练模型,都有36% 的吞吐量提高。
作为英伟达竞争对手,Graphcore自然不忘将 Bow Pod16 与DGX-A100进行对比,其中EfficientNet-B4 backbone 在DGX-A100需要70个小时来完成,而在 Bow Pod16 上只需14小时左右。这一点显示了Graphcore Bow IPU在实际应用中的强大能力,即便是在同样条件下的设备下,其效率仍然高于竞争者。
Graphcore Bow IPU如何实现如此接近理论极限?答案就在于它采用的5nm不再是首选,而选择了一种更为成本高效且具有优势的地道封装方式——台积电 7nm 工艺制程,没有变化。而变化主要体现在,它是一个3D封装处理器,可以增加晶体管数量,从而获得算力和吞吐量的大幅度提高。不过,此举并不意味着所有人都可以轻易模仿,因为此类技术要求高度专业化的手段支持,并且需要制造商提供特定的服务来确保生产过程顺利进行。此外,由于这是一种全新的设计,因此对于软件兼容性的保证也是一个挑战,但幸运的是,该设计与前一代产品百分之百软件兼容,不用修改任何代码,使得老用户无需做任何适配工作就能享受性能上的改善,同时价格保持稳定。
虽然目前还未有太多关于Good Computer正式发布的情况报道,但我们知道它正在被设计成能够超越人脑水平的大型计算平台,以满足未来可能出现的人工智能需求。预计Good Computer将包含8192个IPU,为10 Exa-Flops AI算力,为存储提供4 PB空间,有望助力500万亿参数规模的人工智能模型开发。这一切听起来像是科技小说里的科幻故事,但正如卢涛所说,“我们评估从7nm、5nm,到3nm等不同工艺节点时发现,从7nm到5nm的小小升级所带来的收益远低于以往”。因此,他们选择了一条不同的道路,一条注重使用现有技术最大化其潜力的道路。在这个过程中,他们利用了“三维硅基”(Wafer-on-Wafer)技术,将两个Die结合起来,从而实现更多晶体管数目的增加,并最终实现更高效率的一些操作。但这并不是结束,只不过这是开启通往超级智能时代之门的一步。如果成功的话,我们可能会看到一个完全新的计算模式,那就是一种既快速又经济有效地运行复杂任务的情景,这将彻底改变我们的生活方式。不仅如此,还有一种可能性:如果这种类型的心脏能够普及,那么它可能会成为一种全新的工业标准,就像Intel x86架构一样,是一种广泛认可且不可或缺的心脏之一。