备案 控制台
开发者社区 飞天洛神云网络 文章 正文

一群阿里人如何用 10 年自研洛神云网络平台,技术架构演进全揭秘

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: 本文主要介绍阿里云网络产品从无到规模应用的 10 年过程中,云网络技术平台洛神的发展历程。

1. 阿里云飞天洛神云网络平台

阿里云系统叫飞天,云网络平台称为洛神,洛神和飞天系统的关系如下图所示,洛神云网络平台是阿里云飞天操作系统内核的核心组件和系统服务,伴随着飞天系统一起诞生、成长。
1.jpg
图 1 阿里云网络洛神平台与飞天操作系统

整个飞天系统架构分为几个层次,底层数据中心基础设施,包含物理资源、机房、服务器,还有多地域和可用区(AZ)、物理网络等;其上是飞天操作系统的核心,支撑了整个云计算的虚拟化,包括计算平台神龙,存储平台盘古,以及网络平台洛神;基于系统核心组件,构建了面向用户的系统服务以及原生服务,支撑不同行业客户在阿里云上构建自己的应用系统。

2. 飞天洛神平台的诞生

洛神伴随飞天系统诞生,是云计算产业发展的结果,云计算首先是计算虚拟化,并提供给不同的用户使用,当用户在云上使用计算资源时,网络地址独立规划,不同用户地址可以相同,且虚拟机可以在不同机房之间迁移,地址保持不变,同时云计算是一个基础设施,支持海量用户同时使用,这些关键需求要求提供一个超大规模的虚拟化大二层的网络。
2.jpg

图 2 云计算租户网络应用需求

这些需求,使用传统商用物理交换机和路由器构建的网络,无法满足云计算的需求,也满足不了阿里云运营这张网络的需求,主要原因在于:

1)在百万级别的租户之下,如果每个租户都给到一张独立的地址空间,地址空间的数量非常庞大,传统交换机里面使用 VRF 来隔离租户之间的空间,意味着交换机要支持海量的 VRF 资源,这是目前硬件能力无法支持的。

2)服务器和虚拟机的数量增长,网络节点以及路由表的规模快速增大,虚拟机通讯和迁移要求路由表能快速同步。

3)当用户对云上网络层面的功能需求越来越多的时候,比如说用户在云上不仅希望有个虚拟机,还可以有个公网 IP;比如说用户可以自行定义这张网络 IP、路由和安全组。另外随着 NFV 技术发展,用户希望在云上运行虚拟化业务网元,例如负载均衡、NAT 网关、VPN 网络,要求对应的底层网络能快速进行功能迭代,以满足新需求和新技术的快速应用。

4)更关键的是,传统物理交换机是一个黑盒,各个厂商实现各异,接口各不一样,同时不支持设备内功能定制开发,让设备的运维成为一个难题。

3.jpg

图 3 传统网络设备应对云计算的约束

所以阿里云网络选择了一条自研的路,使用三大技术满足云计算的需求:

1)虚拟化网络;

2)SDN 技术,软件来定义网络;

3)整个技术栈自研。

阿里云网络洛神平台就此诞生。

4.jpg

图 4 洛神网络 10 年演进

洛神云网络平台随着阿里云飞天系统一起,已经经历了 10 年演进,分为两个阶段,洛神 1.0 时代,主要定位为支撑超大规模和多租户的网络。

随着阿里云的业务快速发展,尤其近几年规模增长特别快,2018 年开始推出洛神 2.0,洛神 2.0 的特点主要在高性能、弹性开放能力。

现在阿里云上运行着很多超级规模的用户,比如阿里巴巴集团的淘宝业务,这些超大规模用户对网络的性能提出了很高的要求,特别是在例如双 11 这种大型活动期间,网络流量的峰值是十分巨大的,这对网络的性能提出了非常高的要求。

同时阿里云提供了丰富的基础 IaaS、 PaaS 产品与服务,第三方的生态伙伴可以在阿里云上提供众多的 SaaS 服务,包括网络类的 SaaS 服务,例如网络管理类、网络数据分析类、网络日志管理类、网络转发类的软件。这些软件在阿里云上很好的运行,需要网络提供弹性,开放的能力,就是洛神 2.0 的定位。

3. 飞天洛神 1.0:超大规模、多租户网络

洛神 1.0 平台由很多网络组件组成,架构上主要分成两类:AVS(Apsara vSwitch)和各种网关网元。AVS 是部署在每个物理服务器上的软件网元。最早基于 XEN 的 Kernel 架构实现,转发性能不高,单机只有 15 万 PPS。随后演进到了 KVM 的架构,在这个架构下,vSwitch 还是在 Kernel 的,但已能提供单机 120 万 PPS 性能。然后在 Intel 推出 DPDK 版本后,AVS 进行了架构升级,使用用户态 DPDK,转发性能提升至 600 万 PPS。

AVS 的演进,是为了追求网络性能大幅提升的过程,是阿里云网络持续迭代和改造网络软件架构的原动力。

关于业务网关,最早也是基于 Kernel 网络协议开发。例如 Load Balance 设备,第一代也是基于 Kernel 开发,当时整台物理机性能大约只有 300 万 PPS。为了追求更高的性能,这些网元基于 DPDK 进行了重新构建,既包括公网网关、私网网关,还有 SLB、NAT 网关、VPN 网关等等,转发性能提升了 20 倍。

洛神 1.0,基于 DPDK 的 AVS 和各种网关,最终搭建出一张支持超大规模租户、超大规模虚拟机的网络。

5.jpg
图 5 洛神 1.0 支持超大规模租户网络

如图所示,在这张超大规模的租户网络里面,我们达到的核心能力包含:

1)多租户隔离,每个区域可以支持百万规模的 VPC。如果说一个租户对应一个 VPC,一个区域就可以支持百万规模的租户;

2)单个 VPC 支持超大规模虚拟实例,目前有一些超大规模的 VPC 中实际部署并运行了超过 30 万的 ECS,也就意味着此租户的这张网络里面有 30 万个以上的 IP, ECS 之间的通讯,包括东西和南北向的流量,都能很好的在虚拟网络里面运行。

3)最后就是基于 AVS 能力,单个 ECS 能够提供百万级 PPS 能力的转发性能。

4. 飞天洛神 2.0:连接全球,高性能,弹性开放网络

洛神 1.0 支撑了阿里云网络从无到有,至规模应用,随着阿里云的业务不断增长,租户越来越多,也带来了越来越多的 VPC。租户购买的虚拟机越来越多,也代表着网络里的节点越来越多,转发性能要求越来越高。此外,也有越来越多的租户在云上不但仅仅满足简单的连通性要求,提出了丰富的业务网元处理诉求。例如用户原来在自己的数据中心里面构建了防火墙和 NAT,或者自己买了一些 Load balancer 的设备,现在业务系统搬到阿里云上之后,希望原来的网络功能继续在阿里云使用。

在此背景下,洛神平台升级到 2.0。如图所示,洛神 2.0 提供了更加丰富的转发网元,既有神龙 MOC 卡,还有专用可编程芯片以及通用 ECS;同时洛神 2.0 新构建了一个 NFV 平台,支持业务网元不再依赖传统 X86 服务器,直接基于 NFV 平台构建,例如 NAT、SLB、VPN 产品,同时 NFV 平台支持开放能力,第三方的网元也可以基于 NFV 平台部署,通过 VPC 内和 VPC 间的访问。

7.jpg
图 6 洛神 2.0 架构图

洛神 2.0 的基础是阿里云遍布全球的网络基础设施和 Region 数据中心的基础设施。目前在全球有 20 个 Region、61 个可用区,100 多个 POP 节点。当国内用户需要出海或者国外的用户需要进中国的时候,不再需要自己购买很多物理形态的设备和网络连接,并花很长的时间搭建出网络基础设施。基于洛神 2.0,阿里云的网络产品就可以分钟内快速构建出运营网络、基础设施。

洛神 2.0 的 AVS 和业务网关都进行了架构跨越式升级,AVS 基于软硬件一体化方式,使用神龙 MOC 卡实现快速转发,转发性能提升数倍,达到千万 PPS。

8.jpg
图 7 软硬件一体的新一代 AVS

洛神 2.0 另一个跨越式架构升级是提供新一代的 NFV 平台,通过网元逻辑部署在通用 ECS 上,提供弹性和开放能力。当第三方厂商将其应用移植到阿里云之后,就可以在阿里云市场里对阿里云的租户进行售卖和提供能力,形成了一个非常好的生态:

1)网元可以给大量租户使用;

2)客户的白天流量很大,半夜的流量很少时,阿里云会自动帮你缩容。

如果说在某个时刻点突然碰到高峰,阿里云会自动协助扩容,也就意味着第三方的网元利用洛神 NFV 平台,不仅可以开放部署,还可以享受到自动的弹性。

9.jpg

图 8 洛神 2.0 NFV 开放平台架构

5. 飞天洛神的未来

洛神 2.0 中,还有一个齐天智能网络平台,是未来演进的重要能力,未来的网络将是一个智能化的网络。当客户业务部署在阿里云的时候,如果网络发生波动或故障,需要非常快速的排查问题,因为网络是属于最底层的服务,当业务不能对外提供服务的时候,首先会想到网络问题。这个时候网络可能是正常的,有可能是上层业务的问题。如何让上层业务团队快速定界问题所在,如何让网络的管理员能快速自证清白,提升未来生产运营服务的效率,就这是未来智能化网络需要解决的问题。

0.jpg
图 9 洛神的未来演进

未来阿里云洛神平台的发展方向就是智能化,未来会通过自研网元,采集网络中数据,并且用大数据的方式去做产品问题分析和资源规划,目前洛神齐天系统已经构建在一部分能力,在内部使用,未来会提供给阿里云的客户,让客户可以智能化的运营自己的网络基础设施,这就是阿里云洛神平台未来演进的方向。

作者简介:祝顺民(花名江鹤),阿里云智能事业群研究员,网络产品线负责人,在软件定义网络(SDN)和网络功能虚拟化(NFV)领域有多年技术研发和管理经验。他带领团队历时多年,从无到有,打造了业内最丰富的云网络产品线,并铸造了阿里云飞天系统的云网络平台-洛神,服务了百万用户,并历经 8 次天猫双十一考验,已经成为真正意义上的基础设施。

本文转载自CSDN

相关实践学习
一小时快速掌握 SQL 语法
本实验带您学习SQL的基础语法,快速入门SQL。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
小桃Crystal
目录
相关文章
龙大吉
|
19天前
|
弹性计算 监控 开发工具
【阿里云弹性计算】阿里云ECS的网络优化实践:VPC配置与网络性能提升
【5月更文挑战第29天】阿里云ECS通过虚拟私有云(VPC)提供高性能、安全的网络环境。VPC允许用户自定义IP地址、路由规则和安全组。配置包括:创建VPC和交换机,设定安全组,然后创建ECS实例并绑定。优化网络性能涉及规划网络拓扑、优化路由、启用网络加速功能(如ENI和EIP)及监控网络性能。示例代码展示了使用Python SDK创建VPC和交换机的过程。
龙大吉
268 3
老板这功能得加钱
|
1月前
|
消息中间件 分布式计算 中间件
秀出天际!阿里甩出的988页分布式微服务架构进阶神仙手册我粉了
秀出天际!阿里甩出的988页分布式微服务架构进阶神仙手册我粉了
老板这功能得加钱
57 0
阿里云瑶池数据库SelectDB
|
17天前
|
存储 运维 5G
基于阿里云数据库 SelectDB 内核 Apache Doris 的实时/离线一体化架构,赋能中国联通 5G 全连接工厂解决方案
数据是 5G 全连接工厂的核心要素,为支持全方位的数据收集、存储、分析等工作的高效进行,联通 5G 全连接工厂从典型的 Lambda 架构演进为 All in [Apache Doris](https://c.d4t.cn/vwDf8R) 的实时/离线一体化架构,并凭借 Doris 联邦查询能力打造统一查询网关,数据处理及查询链路大幅简化,为联通 5G 全连接工厂带来数据时效性、查询响应、存储成本、开发效率全方位的提升。
阿里云瑶池数据库SelectDB
857 4
基于阿里云数据库 SelectDB 内核 Apache Doris 的实时/离线一体化架构,赋能中国联通 5G 全连接工厂解决方案
龙大吉
|
19天前
|
弹性计算 运维 监控
【阿里云弹性计算】从物理机到阿里云ECS:企业IT架构转型升级之路
【5月更文挑战第29天】随着云计算兴起,企业正转向阿里云ECS以应对传统物理机的挑战。本文详述了这一转型过程,包括现状评估、迁移计划制定、测试环境搭建、应用数据迁移及后期监控优化。转型升级可提升资源利用率,降低运维成本,加快业务响应,并增强数据安全。示例代码展示了使用阿里云Python SDK创建ECS实例的过程。
龙大吉
147 1
龙大吉
|
22天前
|
弹性计算 缓存 安全
【阿里云弹性计算】阿里云ECS与CDN结合:构建高性能全球内容分发网络
【5月更文挑战第26天】阿里云ECS与CDN结合打造高性能全球内容分发网络,通过ECS的弹性伸缩和安全可靠性,配合CDN的全球覆盖、高可用性及安全防护,提升访问速度,减轻服务器压力,优化数据传输。以WordPress为例,通过配置CDN域名和ECS,实现高效内容分发,提高系统扩展性和稳定性。此解决方案满足用户对访问速度和稳定性的高要求,为企业提供优质的云计算体验。
龙大吉
120 0
众所周知
|
22天前
|
弹性计算 安全 微服务
【阿里云云原生专栏】容器网络技术前沿:阿里云Terway网络方案详解
【5月更文挑战第26天】阿里云Terway是高性能的容器网络方案,基于ECS的ENI实现,提供低延迟高吞吐的网络服务。它简化网络管理,实现安全隔离,并与阿里云服务无缝集成。Terway由CNI、Node和Controller组成,适用于微服务、混合云和多租户环境,为企业数字化转型中的复杂网络需求提供强大支持。
众所周知
178 1
阿里云
|
24天前
|
人工智能 网络协议 Linux
阿里云迎来AI网络领域两大重要突破
阿里云迎来AI网络领域两大重要突破
阿里云
58 1
众所周知
|
24天前
|
运维 Cloud Native 持续交付
【阿里云云原生专栏】从零到一搭建云原生应用:阿里云云原生应用平台实战教程
【5月更文挑战第24天】本文档是一份阿里云云原生应用平台的实战教程,介绍了如何从零开始搭建云原生应用。内容涵盖云原生应用的特点(容器化、微服务、CI/CD和自动化运维)以及阿里云提供的服务,如容器服务、服务网格和CI/CD工具。教程详细讲解了创建容器集群、编写Dockerfile、构建镜像、部署应用、配置服务网格和设置CI/CD的步骤。通过本文,读者将学会利用阿里云平台开发和管理云原生应用。
众所周知
289 0
众所周知
|
25天前
|
消息中间件 监控 Cloud Native
【阿里云云原生专栏】事件驱动架构在阿里云云原生生态中的角色与实施路径
【5月更文挑战第23天】本文探讨了事件驱动架构在阿里云云原生生态中的关键作用,强调其在微服务协同和应用创新中的效率提升。阿里云提供了EventBridge和EventMesh等服务支持EDA,其中EventBridge作为事件中枢,实现跨平台事件传递,而EventMesh提供高性能事件处理。通过事件模型设计、服务集成、开发处理器和监控优化四个步骤,用户可在阿里云上实施事件驱动架构,构建敏捷响应的云原生应用。随着云原生技术发展,EDA将成为企业数字化转型的重要推动力。
众所周知
55 0
龙大吉
|
25天前
|
弹性计算 监控 安全
【阿里云弹性计算】ECS实例监控与告警系统构建:利用阿里云监控服务保障稳定性
【5月更文挑战第23天】在数字化时代,阿里云弹性计算服务(ECS)为业务连续性提供保障。通过阿里云监控服务,用户可实时监控ECS实例的CPU、内存、磁盘I/O和网络流量等指标。启用监控,创建自定义视图集中显示关键指标,并设置告警规则(如CPU使用率超80%),结合多种通知方式确保及时响应。定期维护和优化告警策略,利用健康诊断工具,能提升服务高可用性和稳定性,确保云服务的卓越性能。
龙大吉
37 1

飞天洛神云网络

热门文章

最新文章

  • 1
    阿里云开启共享带宽新时代【二】:负载均衡,NAT网关,ECS都支持共享带宽啦
  • 2
    阿里云公网ip和弹性公网ip区别对比详解
  • 3
    详解SLB、EIP、NAT网关之间区别, 合理选择云上公网入口
  • 4
    阿里云云计算工程师ACA认证(Alibaba Cloud Certified Associate - Cloud Computing)考试大纲
  • 5
    VPC最佳实践(一):网络规划篇
  • 6
    【技术分享】unicast / multicast / broadcast
  • 7
    路由与交换系列之 GRE VPN 技术原理笔记分享
  • 8
    阿里云云计算高级工程师ACP认证(Alibaba Cloud Certified Professional - Cloud Computing)考试大纲
  • 9
    【技术分享】syslog
  • 10
    【技术分享】FTP
  • 1
    使用 Fortinet 安全 SD-WAN 解决方案进行全球跨国公司网络设计的最佳实践
    74
  • 2
    Intel HDSLB 高性能四层负载均衡器 — 基本原理和部署配置
    109
  • 3
    配置用户通过Telnet登录设备认证
    90
  • 4
    深入理解Elasticsearch倒排索引原理与优化策略
    95
  • 5
    一、基于Fortinet的出海业务访问加速方案--详细部署步骤
    113
  • 6
    linux中的sh脚本语法
    56
  • 7
    MyEclipse9.0安装jad反编译插件
    65
  • 8
    【技术分享】WAN
    65
  • 9
    【技术分享】Multilayer Switch
    86
  • 10
    【技术分享】Routing
    98
  • 相关课程

    更多
  • 5分钟玩转阿里云容器服务
  • 阿里云认证系列精品课程 - 云计算ACP
  • 相关电子书

    更多
  • 阿里云产品十一月刊来啦!
  • 阿里云产品安全基线白皮书
  • 云原生产业大会:阿里云精彩内容集锦
  • 相关实验场景

    更多
  • 容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
  • 使用阿里云Elasticsearch体验信息检索加速
  • 使用阿里云Elasticsearch快速搭建可观测系统
  • 重温童年的“五子棋”,赢取专属阿里云Serverless证书
  • 基于AT模组连接阿里云物联网平台
  • 基于阿里云短信服务的防机器人验证
  • 下一篇
    2024年阿里云免费云服务器及学生云服务器申请教程参考

    PHP网站源码韶关SEO按效果付费公司固原seo哪家好山南SEO按天计费哪家好株洲百度seo报价阿坝网站优化按天扣费推荐黄南百度seo多少钱柳州网站优化按天计费价格珠海建网站哪家好蚌埠网站排名优化推荐锦州网站推广工具价格海南关键词按天收费价格济南关键词按天计费价格六安网站排名优化推荐塔城seo价格德阳百度关键词包年推广推荐岳阳网站优化按天收费价格鸡西百度竞价哪家好东莞百度seo哪家好鹤岗外贸网站建设哪家好汕头网站建设价格聊城英文网站建设宣城网站优化排名开封seo公司自贡百度关键词包年推广哪家好河源营销网站价格湖州百度网站优化排名报价宿州关键词按天计费朔州百姓网标王哪家好安顺建站推荐惠州百度seo价格歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

    PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化