中兴通讯：加速智能计算生态繁荣

大模型的出现催生了对大算力的需求，端到端开放解耦智算方案是产业良性发展的关键。中兴通讯一直致力于成为端到端开放解耦智算方案提供商，加速AI技术的创新、研发、应用的商业化进程，努力与产业伙伴共同实现共赢的商业生态。近日，《通信产业报》全媒体采访中兴通讯副总裁陈新宇，探讨了中兴通讯如何应对挑战，助力大模型发展与应用的实践和经验。

《通信产业报》：中兴通讯在端到端开放解耦智算方案方面，做了哪些工作和取得怎样的成果。

陈新宇：中兴通讯秉承开放解耦的理念，发挥中兴软件、硬件和工程能力优势，携手合作伙伴构建多渠道供应链，通过硬件、软件和能力平台三个方面的创新，为用户提供端到端的开放解耦智算方案。

中兴通讯副总裁陈新宇表示，中兴通讯认为开放的技术生态才能构建共赢的商业生态，端到端开放解耦智算方案是产业良性发展的关键。

在硬件方面，中兴通讯采用基座灵活、适配多种CPU平台和GPU模组，实现了换芯、换卡、不换座。支持3种CPU平台，并与主流GPU完成了适配，为用户提供了多样化算力，用户就可以根据成本、政策、供货、功耗等不同的需求和情况来灵活选择算力。

在软件方面，通过异构资源管理、训推作业调度和异构集合通信，实现了软硬解耦。向下屏蔽了不同厂家芯片的差异，向上适配了主流AI框架，为模型运行提供了高性能、高可靠性、易迁移的环境。通过软硬协同深度优化，最大化了资源效率。此外，不断研究算力卸载和在网计算技术，以提升算力利用率。

在平台方面，适配主流框架如PyTorch、TensorFlow，实现向后端平台的自动编译和优化，并提供从数据处理、模型开发、训练、优化、评估、部署等端到端的工程工具集，支持全生命周期的保障和管理。同时，提供迁移工具，支持应用全域无感迁移，降低用户迁移成本。

端到端开放解耦智算平台。

“百花齐放春满园”，中兴通讯认为开放的技术生态才能构建共赢的商业生态，端到端开放解耦智算方案是产业良性发展的关键。通过软硬解耦、训推解耦、模型解耦，推动各类能力组件化和共享赋能，加速AI技术的创新、研发、应用的商业化进程，构建开放的技术生态；通过产业内的芯片厂商、硬件厂商、模型开发商、应用开发商等形成优势互补，共同做大做强，共同实现智能计算生态的蓬勃发展。

《通信产业报》：大模型的出现催生了对大算力的需求，这给基础设施带来挑战，中兴通讯采取了哪些举措来应对？

陈新宇：当前，集群规模无法满足万亿以上超大模型训练，突破国内大规模集群组网上限势在必行。从GPT3千亿模型到GPT4万亿模型，每年模型参数增长10倍，加上训练token的增长，训练总算力需要提升几十倍。但算力芯片的性能每代只能增长2~4倍，单个集群需要更多的GPU卡数才能满足万亿大模型训练需求。

为了构筑更大规模的算力集群，中兴通讯从机内和机间两个维度，不断研究优化GPU卡间高速互联技术方案，满足万亿以上大模型训练需求。在机内，提出了开放的OLink互联协议，突破机内TP8限制，支持16张到128张GPU超级计算节点的大TP算力；在机间，通过集大容量交换芯片能力的不断演进，提供基于标准RoVEv2协议的交换机框盒互联方案，满足从千卡到万卡超大规模算力的灵活组网需求。

《通信产业报》：随着智算基建的完成和大模型训练的成熟，行业应用落地成为最大的挑战，中兴通讯有什么解决方案？如何推动AI应用商业闭环？

陈新宇：企业在AI技术应用方面存在短板，同时私有数据的保护限制了模型训练的有效性。此外，不同行业、不同企业的个性化需求也增加了应用落地的复杂性。

为解决这些问题，中兴通讯提出引入AiCube训推一体机的解决方案。在软硬件方面，提供多品类高算力硬件底座和易用的训推平台，内置主流大模型和AI应用。在服务方面，提供定制化服务和代训服务。

为推动行业应用落地，中兴通讯与行业伙伴紧密合作，推出多种一体化解决方案。例如，针对工业质检领域，提供机器视觉一体机；针对医疗行业，推出智能导诊的智能问答一体机。用户不需要专业技术积累，不需要大规模投资，不需要专业机房，不需要专业团队，就可以构建自己的专属大模型，用AI提升生产力。智、算、用一体化部署可大幅降低AI推广门槛，加速行业市场规模化商用。

中兴通讯：加速智能计算生态繁荣

免费教学更多>>