超智融合研究报告通用全精度高算力芯片成为关键技术

11月15日,在第六届中国超级算力大会上,《2024中国算力发展研究报告之超智融合技术路线与趋势》正式发布。作为首部“超智融合研究报告”,这份报告由国家信息中心信息化和产业发展部主任单志广、中国信息通信研究院云计算与大数据研究所所长何宝宏、中国科学院计算技术研究所研究员张云泉等共同主编。

研究报告就人工智能发展催生海量算力需求背景下,超智融合技术的发展与创新路径、应用场景和实践案例等做了系统性归纳与分析。研究报告指出,超智融合是一个循序渐进的发展过程,其相关技术融合了超算强大的数据处理能力与人工智能的算法优化能力,可有效解决人工智能等新兴产业的算力瓶颈,推动计算技术发展。

兼容主流计算生态是超智融合技术的发展必然趋势。当前超算领域基于x86 CPU和GPU架构已积累海量应用软件,在人工智能等领域已占据超90%的市场份额。要实现“超智融合”目标,需要具备支撑主流计算生态的算力系统,否则将给开发者带来巨大移植负担。

这需要“超智融合”算力系统,不仅要在算力架构层面实现CPU+GPU融合的网络架构,还需在算力调度、算力运营等方面,形成高效分配核心,以及统一的服务平台。在此过程中,通用全精度高算力芯片正成为关键技术。

“传统超级计算机提供的是双精度浮点运算,主要用于解决数值模拟和第一性原理计算等科学计算。而智算系统提供的是半精度或整数运算,主要面向人工神经网络模型的训练和推理。” 何宝宏介绍,以新型GPU为代表的通用全精度高算力芯片作为研制智能超算系统的硬核技术,英伟达、英特尔等国际厂商已在布局研制。

伴随人工智能技术不断融入各行业应用领域,AI应用场景正变得复杂,单纯的半精、整型算力环境已难以满足如蛋白质结构预测、新材料设计、天气预报、大规模分子模拟等 AI for Science 场景中。因此,通过单一芯片平台提供全精度和混合精度计算,成为“超智融合”发展背景下的算力基础设施发展趋势。

“超算中心将向超智融合计算中心演进,并伴随众多如:全精度大算力高互连通用加速芯片、面向传统并行计算和分布式训练的编程模型、面向HPCamp;AI应用的智能化资源管理与作业调度工具等新型技术与应用的创新。” 张云泉说。

研究报告还显示,超智融合并非简单的“超算+智算”堆叠,而是从芯片到计算、存储、网络,算力调度、系统运维的体系化融合,包含了数据融合、算法融合、业务融合、基础设施融合等度。

单志广介绍,超算与智能计算的融合是一种双向赋能,将重塑计算科学、IT 产业的格局。如在材料科学中,通过超算模拟原子和分子层面的相互作用而产生的性能数据,可帮助智算训练预测新材料特性的模型,加速新材料的研发进程。

中国科学院院士、北京航空航天大学计算机学院教授钱德沛表示,高性能计算与AI未来有望走向融合态势,并将呈现出三个阶段性的特征:一是超算支撑AI应用,利用强大算力来提升AI性能;二是AI改进传统超算(By AI),通过AI技术使计算系统更加智能和高效; 三是超智实现内生融合(Being AI),使AI成为计算系统的核心,实现算力和算法的持续优化。

此外,研究报告还介绍了“流体仿真的AI方法”、“科研‘模型+数据驱动’演进”、“国家超算互联网建设”等前沿“超智融合”实践案例。