在本周四,英国的AI芯片公司Graphcore推出了他们的新一代IPU产品Bow,这是其第三代IPU系统,发布后即刻向客户发货。与上一代IPU相比,Bow IPU性能提升了40%,能耗比提升了16%,电源效率也提升了16%。
值得注意的是,这一次Bow IPU的性能提升并非主要依赖于更先进的制程,而是通过采用台积电共同开发的先进硅晶圆堆叠技术(3D Wafer-on-Wafer)来实现这一点。Bow作为世界首款3D WoW处理器,证明了芯片性能提升从先进制程向先进封装转移的可行性。
新一代 IPU 性能提升40%,价格保持不变
2016年,Graphcore成立并开创了全新类型处理器架构IPU,因其在架构上的创新曾被英国半导体之父Hermann Hauser称之为是计算机历史上的第三次。
经历6年时间的发展,Graphcore的IPU逐渐在金融、医疗、电信、机器人、云和互联网等领域取得成效。本周四,Graphcore又推出了第三代产品Bow IPU。
据Graphcore介绍,第三代IPU相对于上一代M2000,在图像方面,无论是典型CNN网络,或是近期比较热门的Vision Transformer网络,以及深层次文本到图片网络,与上一代产品相比都有30%到40% 的性能提升。在BERT训练模型中,也有很大的性能和吞吐量增加。
“我们可以看到,这些模型在我们的最新硬件形态上都有很大的性能提升。” Graphcore中国工程副总裁兼AI算法科学家金琛介绍道。
不仅如此,在实际模型中的吞吐量,与POD64相比,在计算机视觉ResNet50 和 EifficientNet-B4 训练模型中,Bow Pod64 的吞吐量能够达到34%和39% 的性能提升。而且,对于自然语言方面,如BERT-Large Ph1 预训练模型和语音识别Conformer Large 训练模型,都有36% 吞吐量增幅。
作为英伟达的一个竞争对手,不忘将 Bow Pod16 与DGX-A100进行对比。实验数据表明,当EfficientNet-B4 backbone 在DGX-A100 上进行70小时训练时,只需14小时左右即可完成同样的任务在Bow Pod16 上。这说明,即使是在相同级别设备的情况下,由于不同技术路径所带来的差异性也会显现出巨大优势。
接近理论极限的性能提高,是如何实现?
5nm不再是首选,而选择采用先进封装性价比更高
从芯片规格看,Bow IPU 是世界第一款基于台积电 3D Wafer-On-Wafer 处理器,每个封装中拥有超过600亿个晶体管,有350 TeraFLOPS 人工智能计算能力,是MK2 IPU 的1.4倍。虽然片内存储没有变化,但吞吐量从47.5TB 提升到了65TB。
“变化主要体现在,它是一个3D 封装处理器,上述所有改动都是为了让它更加强大。” Graphcore大中华区总裁兼全球首席营收官卢涛说道。而关于大家关心的问题——工艺制程—— Bow IPU 延续使用7nm 工艺制程,没有改变这点。
理论上,一颗芯片最终表现取决于工艺制程,但随着工艺不断逼近物理极限,大多数行业不得不寻找新的方法以延续摩尔定律。其中之一就是3D 封装,被认为是一种广泛接受的手段去超越摩尔定律限制。这正好验证了一位中国工程院院士吴汉明提出的观点:如果将制造过程与封装过程结合,就可以达到65nm 工艺水平提供40nm 工艺水平功耗要求。
至于为什么选择改变封装而不是更精细化工艺?卢涛解释说,因为MK2 IPU已经非常精密,从7nm 到5nm 或者甚至进一步降低到3nm 时所带来的收益并不如以往那么显著,只剩下20% 增加。此时,可以通过其他方式获得同样的效果,比如通过3D 堆叠来增加晶体管数量,并优化跨Die 电源传输,以此提高整体效率。
同时,我们还需要认识到,即便是在软件层面,我们也要考虑稀疏化以达到类脑计算效率,那样才能真正地超越人类的大脑思考速度和能力范围。这正是我们追求Good Computer 一项正在研发的人类智能超越项目的一部分。