在英国的AI芯片公司Graphcore于本周四宣布了其第三代IPU产品Bow,这款新一代IPU性能提升40%,能耗比提升16%,电源效率也提升16%。值得注意的是,Bow IPU并未采用更先进的制程,而是通过台积电共同开发的先进硅晶圆堆叠技术(3D Wafer-on-Wafer)实现性能和能耗比的提升。
这次Bow作为世界首款3D WoW处理器,证明了芯片性能提升从先进制程向先进封装转移的可行性。Graphcore成立于2016年,并开创了全新类型处理器架构IPU,因其在架构上的创新曾被英国半导体之父Hermann Hauser称之为是计算机历史上的第三次。
经历6年的发展,Graphcore的IPU逐渐在金融、医疗、电信、机器人、云和互联网等领域取得成效。本周四,Graphcore又推出了第三代产品Bow IPU。据Graphcore介绍,第三代IPU相对于上一代M2000,在图像方面无论是典型CNN网络还是近期比较热门的Vision Transformer网络,以及深层次文本到图片网络,与上一代产品相比都有30%到40%的性能提升。在BERT训练模型中,也有很大的性能提升。
不仅如此,转换到实际模型中的吞吐量,与IPU POD64相比,在计算机视觉ResNet50 和 EifficientNet-B4 训练模型中,Bow Pod64 的吞吐量能够达到34%和39% 的性能提升。在自然语言方面,如 BERT-Large Ph1 预训练模型和语音识别Conformer Large 训练模型,都有36% 吞吐量提升。此外,对于EfficientNet-B4 backbone 的训练实验表明,在DGX-A100 上需要70个小时,而在Bow Pod16 上,只需14小时左右进行同样的任务。
接近理论极限的性能提升,使得Graphcore Bow IPU成为如何实现这一目标的问题受到了广泛关注。从芯片规格来看,Bow IPU 是世界上第一款基于台积电 7nm 工艺制程 3D Wafer-On-Wafer 处理器,有超过600亿个晶体管,是上一代MK2 IPU 的1.4倍。虽然没有采用5nm工艺,但通过3D封装增加了晶体管数量,其中一个Die用于提高跨Colossus Die 的电源功率传输,从而优化Colossus Die 操作节点,以此来有效地时钟加速。
尽管选择改变封装方式而不是更先进工艺,但卢涛表示,他们评估不同工艺节点收益时发现,从7nm 到5nm 等不同工艺升级所带来的收益并不如以往那样显著。这时候他们可以通过其他手段获得同样的收益,比如利用3D堆叠技术增强算力。
值得提及的是,即便封装方式有所变化,但Bow IPU仍然保持与前一代产品软件兼容,不用修改任何代码老用户就能享受到新的性能水平,而且价格保持不变。目前美国国家实验室Pacific Northwest已经基于Bow IPU尝试做一些基于Transformer 的模型以及图神经网络,并给出了正面的反馈。
延续这种趋势,加之未来Good Computer将包含8192个IPU提供超过10 Exa-Flops AI算力,可以助力超过500万亿参数规模的人工智能模型开发,这使得我们对这个行业充满期待。而且,由于Good Computer将沿用类似的体系结构,它们还会进一步支持稀疏化以达到类脑计算效果,为超越全球最大7nm芯片A100打下坚实基础。不久前,一些专家分析指出,如果英伟达不能迅速适应这种趋势,它可能面临前所未有的挑战,因为Ipu正在崛起并变得更加重要。