2021-02-23 发布
一、案例概述
为响应国家“抓紧突破网络发展的前沿技术和具有国际竞争力的关键核心技术,加快推进国产自主可控替代计划,构建安全可控的信息技术体系”的号召,中国移动于2019年初全面分析NFV产品体系的自主可控风险,结合理论研究和试点验证,积极推动ARM服务器及其NFV端到端解决方案成熟应用,有效规避中国移动网络云基础设施单技术路线风险。
1. 案例背景
服务器作为数据中心提供算力的计算底座,硬件主要由主板、处理器、内存、硬盘、网络芯片和电源等组成,软件主要包含操作系统、中间件和应用,整体构成服务器软硬件生态体系。目前Intel的x86生态体系仍是主流,随着华为鲲鹏等新一代通用ARM处理器的发布,基于ARM的服务器有望在市场上获得突破。
x86和ARM是两种独立的处理器架构,二者主要差别在指令集上。x86使用CISC指令集,ARM使用RISC指令集,后者无需考虑向前兼容,无历史负担,通过针对业务的优化可极大提升处理效率,已成为x86强有力的竞争者。目前全球已有多家公司开发ARM处理器,包括华为海思、Marvell、Amazon、Ampere和飞腾等,其产品已规模上市和部署。
ARM处理器始于面向低功耗、计算量小的移动互联网场景,如智能手机、穿戴设备等领域,现已占据移动端99%以上的市场份额。随着ARM技术不断进步,从其指令集V8版本开始支持64位,并针对数据中心的算力需求引入更多物理核,多核的性能提高带来处理器质的提升,支持ARM架构从移动端侧向数据中心服务器领域发展。软件生态中,支持ARM架构的操作系统日益增多,包括RedHat、SUSE、Ubuntu、中标麒麟和深度OS等。电信领域,华为云化4/5G核心网产品已全面支持ARM。
2. 用户需求和痛点
2018年之前,中国移动集采服务器主要为x86架构,依赖单一CPU供应商。2019年以来,随着外部环境变化,单技术路线依赖风险加剧,供应链面临安全问题,给我公司云基础设施建设带来巨大挑战;5G商用在即,网络安全也面临更高要求。
以此为背景,华为推出了基于ARM的NFV体系产品。为了全面检验产品成熟度,寻求规避供应链风险的有效措施,中国移动启动了引入ARM技术路线,构建双平面资源池的可行性研究。
3. 案例概述
中国移动NFV技术架构遵从ETSI标准“三层一域”架构,并根据定制化的运维需求在编排管理域制定相应的功能和接口。考虑到ARM与x86架构的核心差异源于指令集不同,越接近底层硬件向ARM迁移的影响越大。因此针对引入ARM的可行性研究,首要关注其底层硬件能力,并聚焦对比x86的优劣势;其次关注平台层稳定搭载上层业务的能力,可否满足基础通信业务 “5个9”的可靠性要求。
通过前期理论分析和研究,中国移动启动了基于ARM的NFV解决方案试点,从2019年6月初开始至同年12月底结束,由实验室和浙江外场同步开展。验证内容全面涵盖服务器、分布式存储、虚拟层、MANO以及IMS/EPC/5GC等技术领域,对中国移动网络云平台及网元的功能、三层解耦、性能、可靠性、安全等进行全覆盖验证。
试点验证中,硬件层首次建立跨架构的性能评测体系,详细测试服务器性能,引入redfish管理接口,实现对异厂商不同类型服务器的统一管理;虚拟层研究ARM架构的Linux内核、虚拟化组件及OpenStack的ARM适配和电信级增强;业务层,验证端到端业务流程和性能测试,核心网网元跨异构资源池组POOL以及MANO统一管理异构资源池等能力。全项目最终形成以 60+本企标规范和4000+用例为主体的技术规范体系。历近半年严格测试,结果表明,基于ARM的 NFV端到端系统可满足中国移动网络云商用要求。
二. 解决方案
1. 技术架构
中国移动基于ARM的NFV解决方案与x86架构一致,遵循ETSI标准“三层一域”架构,如下图所示,包括硬件层,虚拟层、网元层以及编排管理域。硬件层采用ARM计算服务器和分布式存储,虚拟层采用OpenStack,所有虚拟化网元和资源由MANO统一编排管理。
2. 技术优势和方案亮点
(1)硬件:创新性提出跨架构硬件性能评测体系,制定基于Redfish的统一硬件管理
硬件相关研究基于华为泰山ARM服务器开展,CPU为鲲鹏920处理器,采用7nm工艺制程,主频2.6GHz,最高支持64核,配置3个万兆网卡支持业务、管理和存储三个网络平面物理隔离。
由于测试算法的局限性,行业内通用SPEC CPU工具无法全面反映CPU支持并发计算等方面的能力。在开展同代次ARM和x86对标性能测试中,创新性地提出跨架构的处理器性能测试体系,将并发处理能力、实时性能力,以及x86传统优势项-加解密处理能力-作为主要对标项,多维度全面验证处理器性能。考虑到NFV场景中,其对上层应用提供的是虚拟化后的计算资源,因此将单元计算能力也列入重要对比维度之一。测试表明,ARM处理器单核能力低于同代次x86单线程能力,与其轻核、众核的架构特性表现一致。建议ARM服务器在云计算场景下,应发挥众核优势,增加计算资源分配,保证上层应用性能。
为降低上层管理平台在对接多厂商、多服务器型号的适配开发成本,进一步推动软硬彻底解耦,需制定统一的服务器管理接口供上层调用。本项目中,ARM服务器的带外管理接口首次应用Redfish接口协议,该接口基于RESTful架构,通过DMTF标准组织推广。相比传统的IPMI、SNMP接口,Redfish接口功能齐全、架构先进、扩展性强;采用JSON明文化的数据,无需解析;基于HTTPS协议,安全性高。通过Redfish统一管理接口在ARM服务器上对服务器资产管理、部件信息查询、传感器监控、电源和风扇管理、故障告警、日志管理、BMC和BIOS参数配置等七个方面统一规定,共计180多项指标,全面提升管理和适配效率。
(2)虚拟层:完成从x86向ARM的整体迁移,保留电信级增强
虚拟层负责硬件资源的虚拟化抽象和管理,与底层硬件架构相关度高。虚拟层从x86迁移到ARM架构,包括对操作系统(Linux内核/虚拟化组件)的整体切换以及OpenStack对ARM适配。操作系统切换方面,新增对超线程功能、ARM CPU指令集和镜像规格等方面的要求。并以此为基础,进行大量电信级增强,体现在软硬解耦的标准、虚拟中断、虚拟机迁移性能和转发性能的优化。OpenStack对ARM的适配,体现在针对Nova、Glance、Neutron等组件的实现细节和运维能力等适配和增强。
基于ARM的虚拟层验证包括测试系统实时性、扩缩容性能、故障恢复性能、性能损耗等多个方面。其中,ARM虚拟层软件在并发创建、删除操作方面具有优势。
(3)网元层:完成应用软件适配,构建双平面资源池保障业务容灾
网元软件从x86到ARM的迁移需针对新架构进行适配与性能调优,以满足基础通信业务运行要求。引入ARM技术架构,构筑网络云资源池x86和ARM双平面,将大幅提升业务容灾与安全能力。
(3)针对ARM的网元软件适配
将基于其他架构的软件移植到ARM架构,有两种方式。一种是重新适配、编译和调优软件的源代码,使其支持ARM架构;此方式适合对运行性能要求较高的软件,如电信软件产品;另一种是采用指令翻译技术将软件直接运行在ARM架构上,无需获取源代码,无新增开发与适配,但综合性能约为原生应用50%~80%,适合对性能要求不高的应用软件。本项目采用前者,针对IMS、EPC和5GC网元软件进行GuestOS软件适配、重编译,尤其对媒体转发类网元重点进行性能调优,以满足业务功能的继承性,并在兼容性、功能和性能等方面满足最佳部署要求。
ARM与x86双平面资源池,支持业务容灾基于ARM的IMS、EPC、5GC等核心网各业务域网元具备与x86混合组POOL的能力,即部署于ARM资源池的网元如CSCF、MME、AMF等可与x86资源池的同类网元进行无差别组POOL。资源池独立部署,组成x86和ARM双平面资源池,编排及调度流程清晰,运维难度低,有效保障业务安全可靠运行。
图表 7 ARM与x86资源池双平面容灾
(4)MANO:降低运维难度,统一纳管ARM和x86资源池
ARM技术路线的引入,资源池类型从单一x86资源池发展成为x86、ARM两类资源池并存,为保持业务灵活性并降低部署依赖,业务网元、管理域网元需可分别部署在两类资源池,即MANO需具备同时管理两类资源池能力。如下图所示:
试点验证MANO具备对基于ARM和x86的资源池进行统一管理能力,包含:
资源管理:支持对基于ARM和x86的VIM资源池进行统一资源管理和展示;
VNF/NS生命周期管理:支持对基于ARM和x86资源池内的VNF和NS进行统一生命周期管理;
告警管理:支持对基于ARM和x86的VIM进行统一告警管理,并可按照ARM/x86 的VIM类型进行告警过滤和处理;
性能管理:支持对基于ARM/x86的VIM进行统一性能管理。
三. 商业价值
中国移动基于ARM的NFV解决方案试点项目形成基于ARM 体系的NFV全领域技术方案,构建网络云x86+ARM硬件双平台,实现面向底层、平台层及上层业务的全领域覆盖,验证x86与ARM双技术路线在网络云体系中演进的可行性,为规避单一技术依赖和防范供应链安全风险提供可选方案,为后续引进多样化技术路线积累经验。试点项目成功支撑浙江移动构建全球首个基于ARM的自主可控技术的5G SA云网络,基于试点成果,中国移动网络云八大区之一-华东南大区正开展基于ARM的5G网络部署,可在未来5G业务发展中谋得先机。
中国移动基于ARM的NFV解决方案试点项目有力地促进设备供应商的产品成熟演进和技术持续发展。基于NFV应用场景,开展ARM架构的全面适配和技术演进的系统研究,推动设备提供商加速技术迭代及产品逐步成熟,以支撑在NFV部署中分阶段推广和批量商用。
中国移动作为全球规模最大的NFV运营商,具有前瞻性地引入ARM技术路线,在通信领域实现基于ARM的NFV解决方案全球首例规模应用。针对数据中心领域ARM应用生态相对薄弱的现状,积极拓展上层应用生态,为业界展现通信领域基于ARM的商用前景,既支撑公司未来业务向好发展,也激活行业生态伙伴,有利于打造健康开放的ARM生态体系。
END
本案例为2020年9月,由SDN/NFV/AI标准与产业推进委员会指导,C114和IT168联合主办 “2019年度SDN、NFV、网络AI优秀案例征集和评选”活动,遴选出的获奖案例之一。
关于绿色计算产业发展委员会(GCC)
自2016年成立以来,GCC以协同构建绿色、开放、自主、共享生态体系为目标,致力于推动绿色计算产业发展,建设产业交流与合作平台,以促进企业在PC、服务器、存储、操作系统、数据库等领域提升,推动在计算领域的合作共赢。目前已经成为拥有包括天津飞腾、海思、Marvell、Ampere等全球最完整的Arm 基础架构服务器芯片伙伴的全球联盟。