期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
高性能计算系统RDMA Read机制研究 被引量:1
1
作者 盛腾飞 卢宏生 +2 位作者 曹志强 王梦嘉 斯添浩 《计算机工程》 CAS CSCD 北大核心 2018年第10期69-79,共11页
R&A和R2W两种远程直接存储读访问(RDMA Read)消息实现机制在设计复杂度、设计开销、通信性能方面均存在不足。为此,分别从3个方面对现有2种机制进行对比分析。在设计复杂度方面,针对2种机制设计基本的硬件实现流程并做定性分析,在... R&A和R2W两种远程直接存储读访问(RDMA Read)消息实现机制在设计复杂度、设计开销、通信性能方面均存在不足。为此,分别从3个方面对现有2种机制进行对比分析。在设计复杂度方面,针对2种机制设计基本的硬件实现流程并做定性分析,在设计开销、通信性能方面,采用基于性能分析模型的方法进行理论分析并设计软件验证平台实现实验验证。根据分析结果结合2种机制的方法和特点提出一种改进的RDMA Read实现机制。实验结果表明,相对R&A和R2W机制,该改进RDMA Read机制在设计复杂度、设计开销、通信性能方面均有较好且均衡的表现。 展开更多
关键词 远程直接存储读访问 消息机制 性能分析模型 设计复杂度 设计开销 通信性能
在线阅读 下载PDF
以太网RDMA网卡综述
2
作者 黄曼蒂 李韬 +3 位作者 杨惠 李成龙 张毓涛 孙志刚 《计算机研究与发展》 北大核心 2025年第5期1262-1289,共28页
目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处... 目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处理器功能卸载等思想,能够高带宽、低延迟地读写远端主机内存数据.兼容以太网的RDMA技术正在数据中心领域展开应用,以太网RDMA网卡作为主要功能承载设备,对其部署发挥重要作用.综述从架构、优化和实现评估3个方面进行分析:1)对以太网RDMA网卡的通用架构进行了总结,并对其关键功能部件进行了介绍;2)重点阐述了存储资源、可靠传输和应用相关3方面的优化技术,包括面向网卡缓存资源的连接可扩展性和面向主机内存资源的注册访问优化,面向有损以太网实现可靠传输的拥塞控制、流量控制和重传机制优化,面向分布式存储中不同存储类型、数据库系统、云存储系统以及面向数据中心应用的多租户性能隔离、安全性、可编程性等方面的优化工作;3)调研了不同实现方式、评估方式.最后,给出总结和展望. 展开更多
关键词 远程直接内存
在线阅读 下载PDF
RDMA协议应用及安全防护技术综述
3
作者 刘雨蒙 唐正梁 +2 位作者 路松峰 朱建新 刘运渠 《网络与信息安全学报》 2024年第2期22-46,共25页
远程直接内容读写技术是一种有效提升数据传输速率、降低CPU占用率的通信方式,在跨区域数据中心之间的转存、高性能计算、快速数据读写等领域起着重要的作用。然而,作为新兴技术,RDMA缺少得到业界广泛认同的安全方案,目前,随着大量RDMA... 远程直接内容读写技术是一种有效提升数据传输速率、降低CPU占用率的通信方式,在跨区域数据中心之间的转存、高性能计算、快速数据读写等领域起着重要的作用。然而,作为新兴技术,RDMA缺少得到业界广泛认同的安全方案,目前,随着大量RDMA应用逐渐从专用网络环境向一般以太网拓展,关注其安全风险、为其设置一套在不影响传输效率的前提下保障安全性的防护措施是很有必要的;此外,由于采用了特殊的底层实现和协议设计,RDMA技术不仅无法兼容现有的成熟安全方案,还面临其他特殊安全风险的挑战。为梳理RDMA攻防技术的发展,向即将到来的RDMA技术的大规模应用提供安全保障:以无线带宽协议和基于以太网的RDMA协议第2版为例介绍了RDMA技术及其实现原理,调查了在相关场景下RDMA应用面临的安全风险,总结了近年来RDMA安全领域的攻防研究进展,汇总了能够应对这些安全风险的有效安全方案;在证明其有效防御能力的基础上,结合理论分析和实验数据,对比了这些方案的优劣;提出了RDMA攻防领域后续的改进方案和技术优化前景。 展开更多
关键词 远程直接内容读写 无限带宽协议 基于以太网的rdma协议 协议漏洞 协议防护
在线阅读 下载PDF
基于RDMA的区块传输机制设计与实现 被引量:2
4
作者 孙栋 王彪 徐云 《计算机应用》 CSCD 北大核心 2023年第2期484-489,共6页
随着区块链技术的不断发展,区块的传输延迟成为区块链系统可扩展性的性能瓶颈。远程直接内存访问(RDMA)技术能够支持高带宽和低时延的数据传输,为低延迟区块传输提供了新的思路。因此,结合RDMA原语的特性,设计了用于区块信息共享的区块... 随着区块链技术的不断发展,区块的传输延迟成为区块链系统可扩展性的性能瓶颈。远程直接内存访问(RDMA)技术能够支持高带宽和低时延的数据传输,为低延迟区块传输提供了新的思路。因此,结合RDMA原语的特性,设计了用于区块信息共享的区块目录结构,并在此基础上设计并实现了区块传输的基本工作过程。实验结果表明,相较于基于TCP的方案,在1 MB大小的区块上基于RDMA的区块传输机制将节点间的区块传输延迟降低了44%,全网络的区块传输延迟降低了24.4%,在10000节点规模的区块链上,区块链发生临时分叉的数量降低了22.6%。可见,基于RDMA的区块传输机制充分发挥了高速网络的性能优势,降低了区块传输延迟及临时分叉的数量,提高了现有区块链系统的可扩展性。 展开更多
关键词 区块链 远程直接内存访问 可扩展性 区块传输 低延迟
在线阅读 下载PDF
面向两段锁并发控制的RDMA优化技术
5
作者 李婧瑶 张倩 +3 位作者 赵展浩 卢卫 张孝 杜小勇 《计算机科学与探索》 CSCD 北大核心 2023年第5期1201-1209,共9页
分布式事务的性能优化是学术界和工业界的研究热点之一。基于两段锁的并发控制技术可以保证并发事务调度的正确性,目前广泛应用于主流的商用和开源分布式数据库中。然而,现有的研究结果表明,基于传统TCP/IP协议以及Share-Nothing架构的... 分布式事务的性能优化是学术界和工业界的研究热点之一。基于两段锁的并发控制技术可以保证并发事务调度的正确性,目前广泛应用于主流的商用和开源分布式数据库中。然而,现有的研究结果表明,基于传统TCP/IP协议以及Share-Nothing架构的分布式事务处理技术,受制于事务调度器的CPU低利用率、事务调度器与存取节点的网络高延迟,分布式事务的性能瓶颈明显。针对上述两个问题,提出基于远程直接数据存取(RDMA)的两段锁(2PL)并发控制优化技术,利用RDMA的高带宽、低延时以及内核旁路(消除了TCP/IP协议栈所带来的CPU开销)特性,提升分布式事务的性能。主要贡献包括基于RDMA的网络通信算子重写与优化,利用RDMA单边施加、释放读写锁时的原子性保障。基于YCSB测试基准的实验结果表明:单边排他锁算法和单边读写锁算法分别在低、高冲突负载下具有相对优越性;引入RDMA的2PL并发控制,在高冲突负载下,NO WAIT和WAIT DIE两种模式最高可分别实现5.3倍和10.6倍的吞吐量提升。 展开更多
关键词 远程直接数据存取(rdma) 两段锁(2PL) 分布式数据库 并发控制
在线阅读 下载PDF
BOOM-KV:基于RDMA的高性能NVM键值数据库
6
作者 李文捷 蒋德钧 +1 位作者 熊劲 包云岗 《高技术通讯》 CAS 2023年第1期29-41,共13页
随着英特尔傲腾数据中心持久化内存模块(DCPMM)开始进入市场以及远程直接内存访问(RDMA)硬件成本的降低,设计融合非易失性内存(NVM)和RDMA的键值(KV)数据库面临新的机遇和挑战。构建基于NVM和RDMA的KV数据库的关键在于设计一个高效的通... 随着英特尔傲腾数据中心持久化内存模块(DCPMM)开始进入市场以及远程直接内存访问(RDMA)硬件成本的降低,设计融合非易失性内存(NVM)和RDMA的键值(KV)数据库面临新的机遇和挑战。构建基于NVM和RDMA的KV数据库的关键在于设计一个高效的通信协议。遗憾的是,现有工作或采用NVM不感知的RDMA协议,或采用低效的NVM感知的RDMA协议,这导致它们无法最大化KV数据库的性能。本文提出了BOOM协议——一种新型的NVM感知的RDMA协议。相较于NVM不感知的协议,BOOM协议允许直接对远端NVM进行RDMA操作,消除了冗余的数据拷贝;相较于现有的NVM感知的协议,它可以显著减少元数据请求,降低KV请求的端对端延迟。在BOOM协议的基础上构建了BOOM-KV,并针对服务端中央处理器(CPU)利用率和宕机持久化等问题进一步进行优化。将BOOM-KV与最新的研究成果进行对比,结果表明,BOOM-KV能显著降低请求延迟,其中PUT延迟最大降低了42%,GET延迟最大降低了41%,并且展现出良好的扩展性。 展开更多
关键词 非易失性内存(NVM) 远程直接内存访问(rdma) 键值(KV)数据库
在线阅读 下载PDF
基于RDMA的高性能单向数据采集技术研究 被引量:1
7
作者 梁嘉诚 余江 +2 位作者 王洪波 刘渊 王晓锋 《计算机工程》 CAS CSCD 北大核心 2023年第10期31-40,共10页
高性能数据采集技术是提高数据分析效率的重要前提。为解决当前数据采集技术中安全性低、传输时延高、CPU开销大的问题,设计一种基于远程直接内存访问的高性能单向数据采集(ODAR)架构,提高数据采集过程中的安全性和传输性能。针对传输... 高性能数据采集技术是提高数据分析效率的重要前提。为解决当前数据采集技术中安全性低、传输时延高、CPU开销大的问题,设计一种基于远程直接内存访问的高性能单向数据采集(ODAR)架构,提高数据采集过程中的安全性和传输性能。针对传输时数据正确性问题,基于可靠性的数据封装策略,设计动态内存优化策略解决内存分配时存在的时延问题,并提出基于优先级的数据传输调度算法解决高吞吐量数据传输中存在的带宽利用率低的问题。实验结果表明,相对于基于UDP协议实现的单向数据采集技术,ODAR架构的吞吐量平均提高了57.01%,传输时延与CPU开销平均降低了61.27%与68.01%,并且大幅提高了数据传输的准确率,内存分配时的时延平均降低了80.15%,网卡带宽利用率平均提高了33.03%。 展开更多
关键词 单向数据采集 远程直接内存访问 消息中间件 动态内存优化 数据传输调度
在线阅读 下载PDF
面向天河互连网络的可扩展通信框架实现技术 被引量:4
8
作者 谢旻 张伟 +1 位作者 周恩强 董勇 《计算机工程与科学》 CSCD 北大核心 2020年第10期1720-1729,共10页
开源通信框架在编程模型和互连接口之间定义标准化的通信编程接口,提供了独立于互连网络特性的高性能通信操作,提高了编程模型在新型互连网络上的开发效率。通过设计与实现多通道数据传输协议,解决了通信框架在天河互连网络上实现时的... 开源通信框架在编程模型和互连接口之间定义标准化的通信编程接口,提供了独立于互连网络特性的高性能通信操作,提高了编程模型在新型互连网络上的开发效率。通过设计与实现多通道数据传输协议,解决了通信框架在天河互连网络上实现时的性能和扩展性问题。测试数据表明,天河互连网络上的通信框架具有很低的软件层开销,提供了接近于互连硬件设计指标的通信性能,为拓展天河互连网络对各种编程模型和分布式计算框架的高效支持提供了良好的基础。 展开更多
关键词 高速互连网络 通信框架 消息传递接口 远程直接内存访问
在线阅读 下载PDF
基于天河互连的公共通信接口UCX实现与评估 被引量:2
9
作者 谢旻 周恩强 +1 位作者 董勇 张伟 《计算机应用》 CSCD 北大核心 2019年第A01期113-118,共6页
为解决在天河互连和未来高性能互连网络上支持多种高性能、可扩展并行编程模型的问题,提出了一种基于远程直接内存访问(RDMA)技术的公共通信接口UCX实现方案。该UCX实现系统建立了UCX数据抽象到天河互连系统通信资源对象的映射关系,基... 为解决在天河互连和未来高性能互连网络上支持多种高性能、可扩展并行编程模型的问题,提出了一种基于远程直接内存访问(RDMA)技术的公共通信接口UCX实现方案。该UCX实现系统建立了UCX数据抽象到天河互连系统通信资源对象的映射关系,基于短报文通信和共享的RDMA缓冲池实现了一种面向ActiveMessage和单边通信接口的高速数据传输协议,并提出了一种动态可扩展信用流控机制来提高UCX系统在大规模并行应用运行时的可扩展性。实验测试测试表明,由于UCX通信接口操作更匹配互连网络硬件特性,精简了软件处理层次,UCX软件层增加的总开销小于200ns,而基于该UCX的消息传递接口(MPI)系统,相对于现有的天河互连MPI实现架构,减少了约50ns的通信延迟,短消息速率也有约10%的性能提升。该UCX实现系统对拓展天河互连网络上的并行编程模型和应用类型,并确保并行运行效率,提供了较好的技术支撑。 展开更多
关键词 高速互连网络 并行编程模型 消息传递接口 公共通信接口 远程直接内存访问
在线阅读 下载PDF
Infiniband网络架构下RTI通信机制研究 被引量:4
10
作者 邢驰 李伯虎 《电子学报》 EI CAS CSCD 北大核心 2016年第2期327-333,共7页
复杂系统的协同仿真中需要运行支撑软件RTI(Run Time Infrastructure)来解决异构模型、异构仿真软件间的数据交互的问题.但RTI的TCP/IP通信机制却无法使得HPC(High Performance Computer)的高速网络Infiniband(IB)在仿真中发挥最大的优... 复杂系统的协同仿真中需要运行支撑软件RTI(Run Time Infrastructure)来解决异构模型、异构仿真软件间的数据交互的问题.但RTI的TCP/IP通信机制却无法使得HPC(High Performance Computer)的高速网络Infiniband(IB)在仿真中发挥最大的优势.针对这一问题,本文提出在IB网络架构下基于RDMA(Remote Direct Memory Access)通信机制对RTI进行优化,并以开源HLA项目CERTI软件为基础,研制运行在IB网络下的IB-CERTI软件,最后在不同网络环境下进行对比实验,实验结果证明了IB—CERTI软件在仿真通信中的高效性,特别是仿真邦员间的交互数据量越大,越能提高仿真数据传输效率. 展开更多
关键词 INFINIBAND网络 rdma CERTI 高层体系结构 高性能计算机
在线阅读 下载PDF
多核下基于远程直接内存访问的高效远程过程调用研究
11
作者 李波 孟丹 霍志刚 《高技术通讯》 CAS CSCD 北大核心 2011年第7期681-686,共6页
针对目前基于远程直接内存访问(RDMA)的远程过程调用(RPC)设计在多核背景下存在的性能和扩展性问题,提出了一种新的基于RDMAWrite的高效RPC设计方法并对网络文件系统(NFS)提供了支持。重点就设计中的安全性问题和内存管理机制进... 针对目前基于远程直接内存访问(RDMA)的远程过程调用(RPC)设计在多核背景下存在的性能和扩展性问题,提出了一种新的基于RDMAWrite的高效RPC设计方法并对网络文件系统(NFS)提供了支持。重点就设计中的安全性问题和内存管理机制进行了分析,并针对内存有效利用提出了被动和主动两种回收机制。测试结果表明,这种新的RPC设计方法能降低RPC延迟13%~20%。对内存文件系统及真实磁盘文件系统的测试表明,此设计能有效提高多核系统中RPC的性能和扩展性。 展开更多
关键词 远程直接内存访问(rdma) 远程过程调用(RPC) 多核 网络文件系统(NFS)
在线阅读 下载PDF
基于高性能I/O技术的Memcached优化研究 被引量:8
12
作者 安仲奇 杜昊 +2 位作者 李强 霍志刚 马捷 《计算机研究与发展》 EI CSCD 北大核心 2018年第4期864-874,共11页
内存对象缓存系统在通信方面受制于传统以太网的高延迟,在存储方面受限于服务器内可部署的内存规模,亟需融合新一代高性能I/O技术来提升性能、扩展容量.以广泛应用的Memcached为例,聚焦内存对象缓存系统的数据通路并基于高性能I/O对其... 内存对象缓存系统在通信方面受制于传统以太网的高延迟,在存储方面受限于服务器内可部署的内存规模,亟需融合新一代高性能I/O技术来提升性能、扩展容量.以广泛应用的Memcached为例,聚焦内存对象缓存系统的数据通路并基于高性能I/O对其进行通信加速与存储扩展.首先,基于日益流行的高性能远程直接内存访问(remote direct memory access,RDMA)语义重新设计通信协议,并针对不同的Memcached操作及消息大小设计不同的策略,降低了通信延迟.其次,利用高性能NVMe SSD来扩展Memcached存储,采用日志结构管理内存与外存2级存储,并通过用户级驱动实现对SSD的直接访问,降低了软件开销.最终,实现了支持JVM环境的高性能缓存系统U2cache.U2cache通过旁路操作系统内核和JVM运行时与内存拷贝、RDMA通信、SSD访问交叠流水的方法,显著降低了数据访问开销.实验结果表明,U2cache通信延迟接近RDMA底层硬件性能;对大消息而言,相较无优化版本,性能提高超过20%;访问SSD中的数据时,相比通过内核I/O软件栈的方式,访问延迟最高降低了31%. 展开更多
关键词 MEMCACHED 远程直接内存访问 NVMe固态硬盘 JAVA虚拟机 用户级IO
在线阅读 下载PDF
数据中心网络传输协议综述 被引量:22
13
作者 曾高雄 胡水海 +1 位作者 张骏雪 陈凯 《计算机研究与发展》 EI CSCD 北大核心 2020年第1期74-84,共11页
近10年来,在盛行的网络应用(如搜索、在线零售和云计算等)的需求驱动下,数据中心在全球范围内以前所未有的速度和规模发展建立起来.特别地,数据中心网络引起了学术界和工业界的广泛关注.在这样的背景下,调研了数据中心网络的一个核心方... 近10年来,在盛行的网络应用(如搜索、在线零售和云计算等)的需求驱动下,数据中心在全球范围内以前所未有的速度和规模发展建立起来.特别地,数据中心网络引起了学术界和工业界的广泛关注.在这样的背景下,调研了数据中心网络的一个核心方面——传输层协议.虽然传输协议在因特网上已经有很长的历史,它却直到2010年才在数据中心网络环境下被系统性地探索.数据中心网络有着和因特网不一样的特点(如单一控制域和同构网络架构),这给数据中心网络上的传输协议设计同时带来了机遇和挑战.在这驱使下,一系列的传输协议被设计提出.将早期(2010—2015年)数据中心网络传输设计方面的工作分成3类——基于端主机的拥塞控制、网络仲裁机制和交换机优先级调度,对这3类工作的优缺点作深入讨论.最后,分析近年来数据中心网络传输设计的研究趋势——接收端驱动的主动拥塞控制和RDMA传输协议设计. 展开更多
关键词 数据中心网络 传输层协议 拥塞控制 显式拥塞通告 远程直接内存访问
在线阅读 下载PDF
基于远程直接内存访问的高性能键值存储系统 被引量:2
14
作者 王成 叶保留 +1 位作者 梅峰 卢文达 《计算机应用》 CSCD 北大核心 2020年第2期316-320,共5页
随着数据与系统规模的不断扩大,网络传输成为了键值存储系统的性能瓶颈。同时,远程直接内存访问(RDMA)技术能够支持高带宽和低时延的数据传输,为键值存储系统设计提供了新的思路。结合高性能网络中的RDMA技术,设计并实现了高性能、低CP... 随着数据与系统规模的不断扩大,网络传输成为了键值存储系统的性能瓶颈。同时,远程直接内存访问(RDMA)技术能够支持高带宽和低时延的数据传输,为键值存储系统设计提供了新的思路。结合高性能网络中的RDMA技术,设计并实现了高性能、低CPU负载的键值存储系统Chequer;结合RDMA原语的特性,重新设计了键值存储系统的基本操作工作流程;并设计了基于线性探测的共享hash表,解决客户端缓存失效的问题以及提高hash命中率来减少客户端的读取轮数,进一步提高了系统的性能。在小规模集群上实现了Chequer系统,并通过实验验证了其性能。 展开更多
关键词 远程直接内存访问 哈希表 键值存储 高性能网络
在线阅读 下载PDF
纯用户态的网络文件系统——RUFS 被引量:1
15
作者 董豪宇 陈康 《计算机应用》 CSCD 北大核心 2020年第9期2577-2585,共9页
针对在使用高速存储硬件时常规网络文件系统会被软件开销影响整体性能的问题,提出了利用存储性能开发套件(SPDK)搭建文件系统的方法,并在此基础上实现了一个网络文件系统RUFS的原型。该系统通过键值存储模拟文件系统的目录树结构以及对... 针对在使用高速存储硬件时常规网络文件系统会被软件开销影响整体性能的问题,提出了利用存储性能开发套件(SPDK)搭建文件系统的方法,并在此基础上实现了一个网络文件系统RUFS的原型。该系统通过键值存储模拟文件系统的目录树结构以及对文件系统的元数据进行管理,通过SPDK存储文件的内容。另外,利用远程直接内存访问(RDMA)技术对外提供文件系统服务。RUFS相较于NFS+ext4,在4 KB随机访问上,读写吞吐性能分别提高了202.2%和738.9%,读写平均延迟分别降低了74.4%和97.2%;在4 MB顺序访问上,读写吞吐性能分别提高了153.1%和44.0%。在大部分元数据操作上,RUFS相比NFS+ext4也有显著优势,特别是文件夹创建操作,RUFS的吞吐性能提高了约5693.8%。该系统能够充分发挥高速网络和高速存储设备的性能优势,为用户提供延时更低、吞吐性能更好的文件系统服务。 展开更多
关键词 文件系统 远程直接内存访问 存储性能开发套件 用户态系统 固态硬盘
在线阅读 下载PDF
面向风电场景的联邦学习平台高性能通信优化 被引量:1
16
作者 于航 周继威 +2 位作者 张涵 孔祥锋 张玉会 《计算机系统应用》 2023年第3期116-124,共9页
风能作为清洁能源为改善我国能源结构发挥着越来越重要的作用.风电场机组及设备的数据可能会包含机组或风场的隐私敏感信息,这些隐私数据一旦被泄露,将会为风电场带来巨大的经济风险和法律风险.联邦学习作为重要的隐私计算手段,能够保... 风能作为清洁能源为改善我国能源结构发挥着越来越重要的作用.风电场机组及设备的数据可能会包含机组或风场的隐私敏感信息,这些隐私数据一旦被泄露,将会为风电场带来巨大的经济风险和法律风险.联邦学习作为重要的隐私计算手段,能够保证原始数据不出本地的情况下完成模型的建模和推理,实现各参与方在互不泄露隐私的前提下实现联合计算,从而有效应对风电数据分析面临的挑战.但是,联邦学习计算过程中存在大量的通信开销,这成为限制联邦学习技术在风电场景下应用的关键性能瓶颈.因此,本文以经典的联邦学习算法XGBoost为例,深入分析了联邦学习计算过程中的通信问题,提出采用RDMA作为底层传输协议的解决方案,设计并实现了一套高性能联邦学习平台通信库,有效提升了联邦学习系统的性能. 展开更多
关键词 风电 联邦学习 通信优化 rdma
在线阅读 下载PDF
Scaling out NUMA-Aware Applications with RDMA-Based Distributed Shared Memory
17
作者 Yang Hong Yang Zheng +3 位作者 Fan Yang Bin-Yu Zang Hai-Bing Guan Hai-Bo Chen 《Journal of Computer Science & Technology》 SCIE EI CSCD 2019年第1期94-112,共19页
The multicore evolution has stimulated renewed interests in scaling up applications on shared-memory multiprocessors,significantly improving the scalability of many applications.But the scalability is limited within a... The multicore evolution has stimulated renewed interests in scaling up applications on shared-memory multiprocessors,significantly improving the scalability of many applications.But the scalability is limited within a single node;therefore programmers still have to redesign applications to scale out over multiple nodes.This paper revisits the design and implementation of distributed shared memory (DSM)as a way to scale out applications optimized for non-uniform memory access (NUMA)architecture over a well-connected cluster.This paper presents MAGI,an efficient DSM system that provides a transparent shared address space with scalable performance on a cluster with fast network interfaces.MAGI is unique in that it presents a NUMA abstraction to fully harness the multicore resources in each node through hierarchical synchronization and memory management.MAGI also exploits the memory access patterns of big-data applications and leverages a set of optimizations for remote direct memory access (RDMA)to reduce the number of page faults and the cost of the coherence protocol.MAGI has been implemented as a user-space library with pthread-compatible interfaces and can run existing multithreaded applications with minimized modifications.We deployed MAGI over an 8-node RDMA-enabled cluster.Experimental evaluation shows that MAGI achieves up to 9.25:4 speedup compared with an unoptimized implementation,leading to a sealable performance for large-scale data-intensive applications. 展开更多
关键词 distributed shared memory (DSM) SCALABILITY multieore evolution NON-UNIFORM memory access (NUMA) remote direct memory access (rdma)
原文传递
Analyzing and Optimizing Packet Corruption in RDMA Network
18
作者 Yi-Xiao Gao Chen Tian +10 位作者 Wei Chen Duo-Xing Li Jian Yan Yuan-Yuan Gong Bing-Quan Wang Tao Wu Lei Han Fa-Zhi Qi Shan Zeng Wan-Chun Dou Gui-Hai Chen 《Journal of Computer Science & Technology》 SCIE EI CSCD 2022年第4期743-762,共20页
Remote direct memory access (RDMA) has become one of the state-of-the-art high-performance network technologies in datacenters. The reliable transport of RDMA is designed based on a lossless underlying network and can... Remote direct memory access (RDMA) has become one of the state-of-the-art high-performance network technologies in datacenters. The reliable transport of RDMA is designed based on a lossless underlying network and cannot endure a high packet loss rate. However, except for switch buffer overflow, there is another kind of packet loss in the RDMA network, i.e., packet corruption, which has not been discussed in depth. The packet corruption incurs long application tail latency by causing timeout retransmissions. The challenges to solving packet corruption in the RDMA network include: 1) packet corruption is inevitable with any remedial mechanisms and 2) RDMA hardware is not programmable. This paper proposes some designs which can guarantee the expected tail latency of applications with the existence of packet corruption. The key idea is controlling the occurring probabilities of timeout events caused by packet corruption through transforming timeout retransmissions into out-of-order retransmissions. We build a probabilistic model to estimate the occurrence probabilities and real effects of the corruption patterns. We implement these two mechanisms with the help of programmable switches and the zero-byte message RDMA feature. We build an ns-3 simulation and implement optimization mechanisms on our testbed. The simulation and testbed experiments show that the optimizations can decrease the flow completion time by several orders of magnitudes with less than 3% bandwidth cost at different packet corruption rates. 展开更多
关键词 datacenter network packet corruption programmable switch remote direct memory access(rdma)
原文传递
xCCL:A Survey of Industry-Led Collective Communication Libraries for Deep Learning
19
作者 Adam Weingram 李雨珂 +3 位作者 戚昊 Darren Ng 代柳瑶 鲁小亿 《Journal of Computer Science & Technology》 SCIE EI CSCD 2023年第1期166-195,共30页
Machine learning techniques have become ubiquitous both in industry and academic applications.Increasing model sizes and training data volumes necessitate fast and efficient distributed training approaches.Collective ... Machine learning techniques have become ubiquitous both in industry and academic applications.Increasing model sizes and training data volumes necessitate fast and efficient distributed training approaches.Collective communications greatly simplify inter-and intra-node data transfer and are an essential part of the distributed training process as information such as gradients must be shared between processing nodes.In this paper,we survey the current state-of-the-art collective communication libraries(namely xCCL,including NCCL,oneCCL,RCCL,MSCCL,ACCL,and Gloo),with a focus on the industry-led ones for deep learning workloads.We investigate the design features of these xCCLs,discuss their use cases in the industry deep learning workloads,compare their performance with industry-made benchmarks(i.e.,NCCL Tests and PARAM),and discuss key take-aways and interesting observations.We believe our survey sheds light on potential research directions of future designs for xCCLs. 展开更多
关键词 COLLECTIVE deep learning distributed training GPUdirect rdma(remote direct memory access)
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部