2月@@21日@@至@@23日@@,计算机体系结构顶会@@USENIX FAST 2023在@@美国圣克拉拉召开@@,阿里云@@4篇论文被顶会收录@@,涉及分布式存储架构@@、云原生存储@@、用户态存储引擎等多个@@领域@@。作为中国科技@@公司的代表@@,阿里云@@已屡次@@在@@@@FAST上斩获佳绩@@,其中@@《Perseus:A Fail-Slow Detection Framework for Cloud Storage Systems》一文还斩获了大会最@@ 佳论文@@奖@@,这也是中国企业首次@@获此殊荣@@。

图片@@1.jpg

阿里云@@与@@上海交大合作论文获大会最佳论文@@奖@@@@

FAST(Conference on File and Storage Technologies)创办于@@2002年@@,是由美国高等计算系统协会@@(USENIX)和@@美国计算机学会操作系统专业组织@@(ACM SIGOPS)联合组织的聚焦存储领域的顶级国际会议@@,代表了计算机存储领域的国际最@@ 高水平@@。创办二十多年@@来@@,FAST推动了如软硬件结合@@、RAID、闪存文件系统@@、非易失内存技术和@@分布式存储等多项存储相关技术的发展@@。

本次@@阿里云@@入选的@@ 4 篇论文主要是围绕飞天云计算操作系统核心组件之一的飞天盘古分布式文件存储@@系统@@,深入地描述了过去几年@@在@@多个@@领域的创新以及为云存储产品提升的竞争力@@。使用通用的服务器和@@磁盘@@介质@@,在@@超大规模下解决数据不丢不错和@@高可用的难题@@,让存储更加稳定可靠@@,拥有更大的容量和@@更高的性能@@,可承载不同的应用负载@@, 覆盖低延迟@@、高吞吐@@、高并发等多种复杂场景@@。

图片@@2.jpg

阿里云@@存储资深专家储道介绍阿里云@@盘古分布式存储系统论文@@

具体来说@@,阿里云@@在@@@@《More Than Capacity: Performance-oriented Evolution of Pangu in Alibaba》一文中@@介绍了阿里云@@自研的盘古分布式文件存储@@的新一代@@ 2.0 系统的创新和@@演进@@。通过基于@@介质优化的存储引擎@@、高性能存储网络@@@@、全分布式元数据的管理@@、长尾延迟优化等技术@@,极致释放硬件的能力@@,利用@@ NVMe SSD和@@ RDMA 网络的@@低延迟高带宽性能@@,降低软件系统的开销@@@@,提高性能的稳定性@@。基于@@盘古@@ 2.0,阿里云@@实现了百微秒级平均延迟@@、毫秒级长尾延迟@@,以及单存储节点打满@@200Gbps网络的@@IOPS处理能力@@,有力支撑数据库@@、搜索@@和@@推荐等众多性能敏感型业务@@。

在@@《Perseus: A Fail-Slow Detection Framework for Cloud Storage Systems》一文中@@,阿里云@@与@@上海交通大学共同提出了一种精确的慢盘检测框架@@Perseus,可将节点@@P9999长尾延迟平均降低@@33%-64%,保证业务平稳运行@@。借助@@ Perseus 对慢盘检测的主动性和@@精确性@@,不仅提供了高性能高可靠的存储@@,也保障了性能的稳定性@@,极大减少了性能的抖动@@,为客户提供了可预期的平滑的服务质量保障@@。本文因@@“其在@@理论研究上的创新性和@@实际落地应用的巨大价值@@”,被大会评为@@ FAST 2023 的最@@ 佳论文@@。该项研究由阿里巴巴创新研究计划@@(AIR)支持@@,旨在@@促进计算机科学及相关领域的前沿研究@@,加速研究成果的应用落地@@。

图片@@3.jpg

阿里云@@存储专家答案介绍@@SMRStore新存储引擎论文@@

在@@名为@@《SMRSTORE: A Storage Engine for Cloud Object Storage on HM-SMR Drives》论文中@@,阿里云@@介绍了叠瓦式磁盘@@@@HM-SMR的高性能存储引擎@@——SMRStore,通过数据冷热分离@@、端到端协同设计@@、流量打散等技术@@,大幅降低@@SMR磁盘@@上的@@GC开销@@,提供不亚于传统@@CMR磁盘@@的性能@@。基于@@ SMRStore 存储引擎的对象存储@@@@ OSS,标准和@@低频类型的存储规格规模化使用@@ SMR 磁盘@@,保障性能和@@稳定性的同时@@,降低了存储成本@@。

面向云原生大规模分布式存储的需求@@,阿里云@@在@@@@《Fisc: A Large-scale Cloud-native-oriented File System 》论文中@@提到了面向云原生的大规模文件系统@@Fisc,通过文件系统客户端的硬件卸载技术高效支持@@多容器的高并发访问@@,降低容器@@CPU和@@内存的消耗@@,节约@@ 20% 的资源@@;同时首次@@提出基于@@@@CIPU软硬件协同的分布式存储应用层网关@@,将大数据计算@@、AI训练等业务的存储访问平均延迟降低到百微秒级别@@,P999延迟优化到毫秒级别@@,展示了从@@ IO 虚拟化@@、多租户隔离@@、高性能网络@@、和@@高性能存储系统的端到端的全栈优化技术@@。

图片@@4.jpg

阿里云@@存储团队亮相@@USENIX FAST 2023

此外@@,盘古在@@分布式数据冗余算法方面也进行了持续的创新@@,支持@@跨数据中心@@、跨地域的多数据中心容灾策略@@,数据可靠性达到@@12个@@9,可用性高达@@5个@@9。在@@高性能存储网络@@@@方面也积累了一系列创新成果@@,自研的高性能@@RDMA存储网络@@(SIGCOMM 2022),HPCC流控算法@@(SIGCOMM 2019),RDMA网络的@@大规模实践和@@优化@@(NSDI 2021),引领了云存储进入微秒延迟时代@@。

今天的阿里云@@盘古分布式存储已经广泛部署在@@阿里云@@全球近百个@@可用区@@,通过块存储@@EBS、对象存储@@OSS、文件存储@@NAS、文件存储@@CPFS、表格存储@@Tablestore、日@@志服务@@SLS、网盘与@@相册服务@@PDS、备份容灾等服务云上数百万的客户@@,覆盖政企@@、互联网@@、金融@@、零售@@、制造@@、医疗等千行百业@@。

责任编辑@@:whybine