全球首款3D晶圆级封装处理器IPU发布突破7nm制程极限为社会带来新一代芯片技术革新

在本周四，英国的AI芯片公司Graphcore推出了他们的新一代IPU产品Bow，这是其第三代IPU系统，发布后即刻向客户发货。与上一代IPU相比，Bow IPU性能提升了40%，能耗比提升了16%，电源效率也提升了16%。

值得注意的是，这一次Bow IPU的性能提升并非主要依赖于更先进的制程，而是通过采用台积电共同开发的先进硅晶圆堆叠技术（3D Wafer-on-Wafer）来实现这一点。Bow作为世界首款3D WoW处理器，证明了芯片性能提升从先进制程向先进封装转移的可行性。

新一代 IPU 性能提升40%，价格保持不变

2016年，Graphcore成立并开创了全新类型处理器架构IPU，因其在架构上的创新曾被英国半导体之父Hermann Hauser称之为是计算机历史上的第三次。

经历6年时间的发展，Graphcore的IPU逐渐在金融、医疗、电信、机器人、云和互联网等领域取得成效。本周四，Graphcore又推出了第三代产品Bow IPU。

据Graphcore介绍，第三代IPU相对于上一代M2000，在图像方面，无论是典型CNN网络，或是近期比较热门的Vision Transformer网络，以及深层次文本到图片网络，与上一代产品相比都有30%到40% 的性能提升。在BERT训练模型中，也有很大的性能和吞吐量增加。

“我们可以看到，这些模型在我们的最新硬件形态上都有很大的性能提升。” Graphcore中国工程副总裁兼AI算法科学家金琛介绍道。

不仅如此，在实际模型中的吞吐量，与POD64相比，在计算机视觉ResNet50 和 EifficientNet-B4 训练模型中,Bow Pod64 的吞吐量能够达到34%和39% 的性能提升。而且，对于自然语言方面，如BERT-Large Ph1 预训练模型和语音识别Conformer Large 训练模型，都有36% 吞吐量增幅。

作为英伟达的一个竞争对手，不忘将 Bow Pod16 与DGX-A100进行对比。实验数据表明，当EfficientNet-B4 backbone 在DGX-A100 上进行70小时训练时，只需14小时左右即可完成同样的任务在Bow Pod16 上。这说明，即使是在相同级别设备的情况下，由于不同技术路径所带来的差异性也会显现出巨大优势。

接近理论极限的性能提高，是如何实现？

5nm不再是首选，而选择采用先进封装性价比更高

从芯片规格看,Bow IPU 是世界第一款基于台积电 3D Wafer-On-Wafer 处理器，每个封装中拥有超过600亿个晶体管，有350 TeraFLOPS 人工智能计算能力，是MK2 IPU 的1.4倍。虽然片内存储没有变化，但吞吐量从47.5TB 提升到了65TB。

“变化主要体现在，它是一个3D 封装处理器，上述所有改动都是为了让它更加强大。” Graphcore大中华区总裁兼全球首席营收官卢涛说道。而关于大家关心的问题——工艺制程—— Bow IPU 延续使用7nm 工艺制程，没有改变这点。

理论上，一颗芯片最终表现取决于工艺制程，但随着工艺不断逼近物理极限，大多数行业不得不寻找新的方法以延续摩尔定律。其中之一就是3D 封装，被认为是一种广泛接受的手段去超越摩尔定律限制。这正好验证了一位中国工程院院士吴汉明提出的观点：如果将制造过程与封装过程结合，就可以达到65nm 工艺水平提供40nm 工艺水平功耗要求。

至于为什么选择改变封装而不是更精细化工艺？卢涛解释说，因为MK2 IPU已经非常精密，从7nm 到5nm 或者甚至进一步降低到3nm 时所带来的收益并不如以往那么显著，只剩下20% 增加。此时，可以通过其他方式获得同样的效果，比如通过3D 堆叠来增加晶体管数量，并优化跨Die 电源传输，以此提高整体效率。

同时，我们还需要认识到，即便是在软件层面，我们也要考虑稀疏化以达到类脑计算效率，那样才能真正地超越人类的大脑思考速度和能力范围。这正是我们追求Good Computer 一项正在研发的人类智能超越项目的一部分。

相关文章

压缩机之死从嗡嗡声到无声的绝唱

夏日解暑空调的凉爽之谜

失去寒意的秋日分析和解决家庭空調制熱功能失效的情况