京东如何处理数据中心网络对于应用性能的影响

2017-08-21 11:34:00 作者:佚名 分类 : 比特网

  随着现代数据中心规模的不断扩张,网络拓扑和路由转发变得越来越复杂。传统的数据中心使用大型机小型机,网络规模相对较小,普通的机框式交换机就能满足网络的需求。随着CLOS集群架构的普及,标准的x86服务器集群以低成本和高扩展性逐渐取代大型机和小型机而成为数据中心的主流。

  下图就是一个典型的基于CLOS架构的数据中心解决方案,在这样的大规模网络中,如何让数据在传输过程中能以最快的速度从发送端到接收端,成为网络性能调优的关键因素。

  京东IT资源服务部举办的未来数据中心核心技术研讨会上,京东人工智能,大数据云计算团队的多位研发总监,技术骨干人员,针对网络影响应用性能的话题,展开了深入的讨论。

  网络影响应用性能的一个原因,是处理器的性能越来越高,应用到应用之间,点对点延迟越来越低。比如在高性能计算和AI应用中用到的MPI 协议,点对点传输的延迟可以小于1微秒(1us), 而现在多数交换机的单个Hop延迟超过了3微秒。

  从上面那张拓扑图中可以看到,同一数据中心需要经过5个Hop(从Rack ToR 到Row Spine,到Data Center Spine, 再到Row Spine,到Rack ToR),这需要消耗15微秒的延迟。1微秒比15微秒,在运行应用的过程中超过90%的时间消耗到了网络上,这种情形还不包括网络上有任何丢包导致的重传。

  如何减小网络对于应用性能的影响

  1、采用高性能的交换机

  如果交换机的性能能从3微秒降低到0.3微秒,这样的话,整个网络的延时会降低到原来的十分之一。

  2、采用性能高而且稳定的交换机

  有的交换机转发性能不稳定,在不同的包大小情况下,会有不同的转发性能,在小包的情况下可以有低的延迟,在大包的情况下延迟会大幅增加,导致网络性能不可预测。有的交换机转发性能可以不随着包大小的变化而波动,一直维持在低延迟的状态。

  3、避免出现多对一通讯时的不公平现象

  如果出现这种不公平现象,会导致网络转发速度不均,出现先到后得的现象。

  4、建立快速的网络拥塞控制机制

  在大型的网络中,拥塞是不可避免的,如何能有效的管理拥塞和降低拥塞带来的丢包和重传,是现在网络管理中非常重要的一个技术难点

  5、降速慢传数据策略优于丢包重传数据

  在网络中,降速慢传和丢包重传是两种被用来解决拥塞的方式,实践证明,慢传比丢包重传更能有效的解决拥塞问题。

  对网络拥塞的管理和控制

  通过研讨会上的讨论我们可以发现,应用的属性决定了网络中的通讯方式,如存储应用中的多个initiator访问单个或多个target,MPI应用中的多对多通讯,machine learning中的worker和parameter server通讯,CDN中的一对多通讯等。

  当多对一的情况发生时,为了减少丢包导致的重传,我们需要采取措施来降低发送端的速度,来减少对交换机buffer的压力。在网络的拥塞管理和控制上,业界通常采用PFC(Priority based Flow Control)和ECN(Explicit Congestion Notification)两种方式来实现。

  1、PFC 是在交换机入口(ingress port)发起的拥塞管理机制

  在通常无拥塞情况下,交换机的入口buffer不需要存储数据。当交换机出口(egress port)的buffer达到一定的阈值时,交换机的入口buffer开始积累,当入口buffer达到我们设定的阈值时,交换机入口开始主动的迫使它的上级端口降速。由于PFC是基于优先级的控制,所以这种反压可能导致同样优先级的应用受到影响。

  2、ECN是在交换机出口(egress port)发起的拥塞控制机制

  当交换机的出口buffer达到设定的阈值时,交换机会改变数据包头中的ECN位来给数据打上ECN标签,当带ECN标签的数据到达接收端以后,接收端会生成CNP(Congestion Notification Packet)并将它发送给发送端,CNP包含了导致拥塞的flow或QP的信息,当接收端收到CNP后,会采取措施降低发送速度。

  可见ECN是基于TCP flow或RDMA QP的拥塞控制机制,它只对导致拥塞的flow或QP起作用,不会影响到其他的应用。

  京东IT资源服务部的硬件系统部技术负责人王中平提出:在管理网络的拥塞中,应该综合应用PFC 和ECN 两种方式,来有效的实现性能和操作性的平衡。具体的实施过程中可参考以下推荐:

  京东IT资源服务部负责人吕科说:“如何降低网络对于应用性能的影响是一个非常复杂的问题,也是所有的数据中心管理者一直在力求解决的问题。最好的方式就是我们的网络人员和应用人员一起来讨论应用对于网络的需求,我们专业的技术团队会针对需求,测试和选择最合适的网络产品和网络方案。”

* 本文为ChinaByte比特网原创内容,版权所有,转载请注明出处和原文链接,未经授权请勿用于商业用途。

芥末视频

最近更新
科普

科普图集
带着朋友和机器人上月亮散步

带着朋友和机器人上月亮散步>>详情

邮件订阅

软件信息化周刊
比特软件信息化周刊提供以数据库、操作系统和管理软件为重点的全面软件信息化产业热点、应用方案推荐、实用技巧分享等。以最新的软件资讯,最新的软件技巧,最新的软件与服务业内动态来为IT用户找到软捷径。
商务办公周刊
比特商务周刊是一个及行业资讯、深度分析、企业导购等为一体的综合性周刊。其中,与中国计量科学研究院合力打造的比特实验室可以为商业用户提供最权威的采购指南。是企业用户不可缺少的智选周刊!
网络周刊
比特网络周刊向企业网管员以及网络技术和产品使用者提供关于网络产业动态、技术热点、组网、建网、网络管理、网络运维等最新技术和实用技巧,帮助网管答疑解惑,成为网管好帮手。
服务器周刊
比特服务器周刊作为比特网的重点频道之一,主要关注x86服务器,RISC架构服务器以及高性能计算机行业的产品及发展动态。通过最独到的编辑观点和业界动态分析,让您第一时间了解服务器行业的趋势。
存储周刊
比特存储周刊长期以来,为读者提供企业存储领域高质量的原创内容,及时、全面的资讯、技术、方案以及案例文章,力求成为业界领先的存储媒体。比特存储周刊始终致力于用户的企业信息化建设、存储业务、数据保护与容灾构建以及数据管理部署等方面服务。
安全周刊
比特安全周刊通过专业的信息安全内容建设,为企业级用户打造最具商业价值的信息沟通平台,并为安全厂商提供多层面、多维度的媒体宣传手段。与其他同类网站信息安全内容相比,比特安全周刊运作模式更加独立,对信息安全界的动态新闻更新更快。
新闻中心热点推荐
新闻中心以独特视角精选一周内最具影响力的行业重大事件或圈内精彩故事,为企业级用户打造重点突出,可读性强,商业价值高的信息共享平台;同时为互联网、IT业界及通信厂商提供一条精准快捷,渗透力强,覆盖面广的媒体传播途径。
云计算周刊
比特云计算周刊关注云计算产业热点技术应用与趋势发展,全方位报道云计算领域最新动态。为用户与企业架设起沟通交流平台。包括IaaS、PaaS、SaaS各种不同的服务类型以及相关的安全与管理内容介绍。
CIO俱乐部周刊
比特CIO俱乐部周刊以大量高端CIO沙龙或专题研讨会以及对明星CIO的深入采访为依托,汇聚中国500强CIO的集体智慧。旨为中国杰出的CIO提供一个良好的互融互通 、促进交流的平台,并持续提供丰富的资讯和服务,探讨信息化建设,推动中国信息化发展引领CIO未来职业发展。
IT专家网
IT专家新闻邮件长期以来,以定向、分众、整合的商业模式,为企业IT专业人士以及IT系统采购决策者提供高质量的原创内容,包括IT新闻、评论、专家答疑、技巧和白皮书。此外,IT专家网还为读者提供包括咨询、社区、论坛、线下会议、读者沙龙等多种服务。
X周刊
X周刊是一份IT人的技术娱乐周刊,给用户实时传递I最新T资讯、IT段子、技术技巧、畅销书籍,同时用户还能参与我们推荐的互动游戏,给广大的IT技术人士忙碌工作之余带来轻松休闲一刻。