浪潮信息彭震:加速智算系统创新,切实解决大模型算力难题

发布时间:2024-04-27 22:17:29 来源: sp20240427

   中新网 北京11月7日电(邱牧子)2023年,生成式人工智能的爆发带来了历史性产业机遇,正在逐步改造重塑社会、经济、文化等各个领域。

  浪潮信息董事长彭震近日在接受 中新网 采访时称,生成式AI蓬勃发展的背后,算力尤其是AI算力已经成为驱动大模型进化的核心引擎。但大模型时代的算力供给,与云计算时代的算力供给,存在很大的差异性。目前大模型研发已经进入万卡时代,从事大模型研发的公司和团队,普遍面临“买不起、建不了、算不好”的困局。

  如何解决上述困境?彭震认为,需要以算力基建化改善算力供给,促进算力普惠,以算力工程化指导完善算力系统最佳实践,提升算力效率,以模型训练工具化手段,降低模型训练门槛,推动全栈智算系统创新,通过“三化”融合互补,促进产业链条各环节协同配合,加速释放大模型生产力,打造人工智能产业良好发展环境。

  一方面,要实现算力供给基建化,缓解“买不起”困境。彭震表示,大模型对海量算力资源的消耗,急剧抬高了准入门槛。除了通过政策引导、政策补贴等方式降低企业融资成本外,还应大力发展普适普惠的智算中心,通过算力基建化使得智算力成为城市的公共基础资源,供用户按需使用,发挥公共基础设施的普惠价值。用户可以选择自建算力集群,或者是采用智算中心提供的算力服务来完成大模型的开发。

  在他看来,通过大力发展智算中心新基建,中国和美国大模型产业的发展已经呈现出完全不同的发展路径。在美国,算力的私有化决定了大模型产业技术只能掌握在少数企业手中,而中国大力推动的算力供给基建化,为大模型创新发展提供了一片沃土,将使得整个产业呈现“百模争秀”的全新格局。

  另一方面,追求算力效率工程化,化解大模型算力系统“建不了”难题。彭震直言,即使解决了算力供应的问题,通用大模型开发仍然是一项极其复杂的系统工程,如同F1赛车的调校一样。F1赛车的性能非常高,但如何调校好这部赛车,让它在比赛中不仅能跑出最快圈速,而且能确保完赛,对整个车队的能力要求是非常高的。

  彭震认为,大模型不应是简单粗暴的“暴力计算”,算力系统构建也不是算力的简单堆积,而是一项复杂的系统工程,需要从多个方面进行系统化的设计架构。包括要解决如何实现算力的高效率、要解决算力系统如何保持线性可扩展以及算力系统长效稳定训练问题等。

  “因此,化解大模型‘建不了’难题,根源在于提升算力效率。但目前业界开源项目主要集中在框架、数据、神经网络乃至模型等软件及算法层面,硬件优化的方法由于集群配置的差异,难以复用而普遍处于封闭状态。这就需要具备大模型实践的公司将集群优化经验予以工程化,以硬件开源项目、技术服务等多种方式,帮助更多公司解决算力效率低下的难题。”彭震说。

  此外,还要通过模型训练工具化,解决“算不好”难题。彭震表示,解决“算不好”难题,根本上要保障大模型训练的长时、高效、稳定训练的问题。例如,大模型训练过程的失效故障,大模型训练会因此中断,不得不从最新的检查点重新载入以继续训练,这个问题在当前是不可避免的。提高算力系统的可持续性,不仅需要更多机制上的设计,更依赖于大量自动化、智能化的模型工具支撑。

  由此,彭震进一步指出,模型训练工具化保障手段,能够有效降低断点续训过程中所耗费的资源,这意味着大大降低训练成本并提升训练任务的成功率,会让更多公司和团队参与到大模型创新之中。(完) 【编辑:付子豪】