在英国的AI芯片公司Graphcore于本周四宣布了其第三代IPU产品Bow,这款新产品不仅性能提升40%,而且能耗比提升16%,电源效率也增加了16%。值得注意的是,Bow IPU并没有采用更先进的制程,而是通过台积电共同开发的先进硅晶圆堆叠技术(3D Wafer-on-Wafer)来实现性能和能耗比的提升。这使得Bow成为全球首款采用这种技术的处理器。
Graphcore成立于2016年,其IPU架构被誉为计算机历史上的第三次变革。经过六年的发展,Graphcore在金融、医疗、通信、机器人等领域取得了一定的成效。本次发布的第三代IPU相对于上一代M2000,性能提高40%,每瓦性能提升16%,即能耗比实现16%的提升。
在图像处理方面,无论是典型CNN网络还是近期热门的Vision Transformer网络,以及深层文本到图片网络,与上一代产品相比,Bow IPU都有30%到40%的性能提升。在BERT训练模型方面,由于这些模型都有很大的性能提升,因此可以看到这些模型在新的硬件形态上都有很大潜力。
除了图像处理之外,转换到实际模型中的吞吐量与IPU POD64相比,在计算机视觉ResNet50和EifficientNet-B4训练模型中,Bow Pod64能够达到34%和39% 的吞吐量提高。此外,在自然语言方面,如BERT-Large Ph1预训练模型和语音识别Conformer Large 训练模型,都有36% 的吞吐量提高。
作为英伟达的一位竞争对手,Graphcore自然不忘将 Bow Pod16 与DGX-A100进行对比,其中实验数据表明EfficientNet-B4 backbone 在DGX-A100 上需要70小时,而在 Bow Pod16 上,只需14小时左右进行同样的训练任务。
接近理论极限的性能提升,使得人们关注到了如何实现这一点。从芯片规格看,Bow IPU 是世界上第一款基于台积电 3D Wafer-On-Wafer 的处理器,有超过600亿个晶体管,可提供350 TeraFLOPS的人工智能计算能力,是MK2 IPU 的1.4倍。而虽然没有改变制程,但通过3D封装方式增加了晶体管数量,并优化Colossus Die操作节点,从而转化为有效时钟加速。
尽管如此,本次发布仍然保持与前一代软件兼容,不用修改任何代码老用户无需做任何适配工作就能获得性能提升,而且价格保持不变。这意味着客户可以直接享受到最新技术带来的好处,而不是因为升级成本而犹豫不决。
未来.Graphcore正在研发名为Good Computer的一款超级智能机器,将包含8192个IPU 提供超过10 Exa-Flops AI算力,可以助力超过500万亿参数规模的人工智能模型开发。不过,这种设备价格将会非常昂贵,从100万美元到1.5亿美元之间不等。