大模型的出现催生了对大算力的需求,端到端开放解耦智算方案是产业良性发展的关键。中兴通讯一直致力于成为端到端开放解耦智算方案提供商,加速AI技术的创新、研发、应用的商业化进程,努力与产业伙伴共同实现共赢的商业生态。近日,《通信产业报》全媒体采访中兴通讯副总裁陈新宇,探讨了中兴通讯如何应对挑战,助力大模型发展与应用的实践和经验。
《通信产业报》:中兴通讯在端到端开放解耦智算方案方面,做了哪些工作和取得怎样的成果。
陈新宇:中兴通讯秉承开放解耦的理念,发挥中兴软件、硬件和工程能力优势,携手合作伙伴构建多渠道供应链,通过硬件、软件和能力平台三个方面的创新,为用户提供端到端的开放解耦智算方案。
中兴通讯副总裁陈新宇表示,中兴通讯认为开放的技术生态才能构建共赢的商业生态,端到端开放解耦智算方案是产业良性发展的关键。
在硬件方面,中兴通讯采用基座灵活、适配多种CPU平台和GPU模组,实现了换芯、换卡、不换座。支持3种CPU平台,并与主流GPU完成了适配,为用户提供了多样化算力,用户就可以根据成本、政策、供货、功耗等不同的需求和情况来灵活选择算力。
在软件方面,通过异构资源管理、训推作业调度和异构集合通信,实现了软硬解耦。向下屏蔽了不同厂家芯片的差异,向上适配了主流AI框架,为模型运行提供了高性能、高可靠性、易迁移的环境。通过软硬协同深度优化,最大化了资源效率。此外,不断研究算力卸载和在网计算技术,以提升算力利用率。
在平台方面,适配主流框架如PyTorch、TensorFlow,实现向后端平台的自动编译和优化,并提供从数据处理、模型开发、训练、优化、评估、部署等端到端的工程工具集,支持全生命周期的保障和管理。同时,提供迁移工具,支持应用全域无感迁移,降低用户迁移成本。
端到端开放解耦智算平台。
“百花齐放春满园”,中兴通讯认为开放的技术生态才能构建共赢的商业生态,端到端开放解耦智算方案是产业良性发展的关键。通过软硬解耦、训推解耦、模型解耦,推动各类能力组件化和共享赋能,加速AI技术的创新、研发、应用的商业化进程,构建开放的技术生态;通过产业内的芯片厂商、硬件厂商、模型开发商、应用开发商等形成优势互补,共同做大做强,共同实现智能计算生态的蓬勃发展。
《通信产业报》:大模型的出现催生了对大算力的需求,这给基础设施带来挑战,中兴通讯采取了哪些举措来应对?
陈新宇:当前,集群规模无法满足万亿以上超大模型训练,突破国内大规模集群组网上限势在必行。从GPT3千亿模型到GPT4万亿模型,每年模型参数增长10倍,加上训练token的增长,训练总算力需要提升几十倍。但算力芯片的性能每代只能增长2~4倍,单个集群需要更多的GPU卡数才能满足万亿大模型训练需求。
为了构筑更大规模的算力集群,中兴通讯从机内和机间两个维度,不断研究优化GPU卡间高速互联技术方案,满足万亿以上大模型训练需求。在机内,提出了开放的OLink互联协议,突破机内TP8限制,支持16张到128张GPU超级计算节点的大TP算力;在机间,通过集大容量交换芯片能力的不断演进,提供基于标准RoVEv2协议的交换机框盒互联方案,满足从千卡到万卡超大规模算力的灵活组网需求。
《通信产业报》:随着智算基建的完成和大模型训练的成熟,行业应用落地成为最大的挑战,中兴通讯有什么解决方案?如何推动AI应用商业闭环?
陈新宇:企业在AI技术应用方面存在短板,同时私有数据的保护限制了模型训练的有效性。此外,不同行业、不同企业的个性化需求也增加了应用落地的复杂性。
为解决这些问题,中兴通讯提出引入AiCube训推一体机的解决方案。在软硬件方面,提供多品类高算力硬件底座和易用的训推平台,内置主流大模型和AI应用。在服务方面,提供定制化服务和代训服务。
为推动行业应用落地,中兴通讯与行业伙伴紧密合作,推出多种一体化解决方案。例如,针对工业质检领域,提供机器视觉一体机;针对医疗行业,推出智能导诊的智能问答一体机。用户不需要专业技术积累,不需要大规模投资,不需要专业机房,不需要专业团队,就可以构建自己的专属大模型,用AI提升生产力。智、算、用一体化部署可大幅降低AI推广门槛,加速行业市场规模化商用。