在2024年,企业级SSD存储领域出现了一系列重要的发展趋势,这些趋势将深刻影响数据密集型行业的发展轨迹。一起看过来!
随着科技行业对AI领域的投资暴增,AI带来的数据量同样呈现爆炸式增长。企业不但对存储容量的需求日益迫切,而且AI数据中心还需要性能更加出色的产品。所以,2023年曾处于市场趋势低谷的SSD领域,2024年迅速成为市场新宠。企业级用户,尤其是那些需要给AI大模型填充大量迭代训练数据的科技公司,对大容量SSD表现出前所未有的兴趣。
在北美市场,GPU算力正在飞速增长,越是先进的数据中心,越是需要及时将数据高效地传输到GPU。对于成本昂贵的GPU集群来说,GPU的负载是一定不要空闲的,否则实际成本损失很高。在这样的场景下,北美数据中心市场上已经出现SSD存力跟不上的情况。AI本身带来更加巨大的数据量,进而需要更多的存储设备,这也给SSD带来新的机会。
只有高效存储才能满足AI数据中心需求。存力的提升,有两个方面。一个是容量、一个是性能。先来看容量。2024年8月,调研机构Digital Realty在欧洲进行了一项调研,调查结果很好地证实:企业实施AI战略最大的阻碍是缺乏足够的存储空间来存放AI所需的海量数据集,这是目前的头号挑战。存储竟然排在算力和网络的前面,这也可以看出AI的需求已经并且还将继续对整个存储行业带来巨大的影响。
在这样巨大的现实需求之下,硬件厂商当然也会全力满足客户的需求。比如企业级SSD存储产品的领军者之一—Solidigm(思得)就在2024年11月推出了旗下单个产品容量创纪录的,122.88TB的D5-P5336数据中心SSD。这是目前行业里容量密度最高的SSD。相比配备传统HDD的JBOD解决方案或者TLC SSD所采用的JBOF方案,如果选择替换采用QLC的D5-P5336数据中心SSD,可以将空间利用率提升4倍到8倍,而且在总功耗、散热以及电力消耗等方面都有很出色的表现。
采用QLC技术的NAND颗粒SSD产品,在这几年已经开始成为企业级SSD存储领域的重要一环。QLC(四层单元)技术通过在每个存储单元中存储更多的数据位,能够显著提高存储密度。与传统的HDD相比,如今的QLC SSD在性能、密度、可扩展性和可靠性方面都开始展现出优势。QLC技术的成熟和优化,将推动其在数据中心、企业端以及高性能计算等更多领域的广泛应用,加速HDD的替换进程。
QLC能满足AI数据中心的需求吗?相信还是有很多企业级用户对此感到疑惑。随着QLC技术的成熟,QLC SSD的领军者—Solidigm(思得)在2024年11月拿出了一些新的实际数据,看起来业界用户对QLC的信心正在大幅提升。
比如,从2018年到现在,其QLC实际出货量已经超过100EB。其次,财富500强的前五名,70%以上的OEM AI解决方案供应商,都在大规模地使用Solidigm QLC SSD。特别是2024年年初开始,北美AIGC on Premise算力服务提供商开始大规模地采用32TB、61.44TB以及即将大规模量产的122.88TB的SSD。这些新的统计数据显示,QLC已经开始在行业里广泛应用。
Solidigm(思得)亚太区销售副总裁倪锦峰表示:“全新的122TB Solidigm D5-P5336现在已经开始给部分客户送样,将于2025年Q1左右大规模量产。”不仅是122TB,Solidigm(思得)之前大规模量产了很多企业级QLC SSD产品,比如P5430系列是配备4K的IU(间接寻址单元),可以和TLC产品无缝切换;P5336系列则已经支持16K的IU(间接寻址单元),可以支持大块数据的读写,针对AI数据密集型优化,现在最大容量可以达到122.88TB。
Solidigm(思得)新推出的122.88TB并不是简单的容量叠加,封装加倍那么简单。对于制造来说,容量增大之后,不可忽视的挑战就是质量可靠性。122.88TB意味着将一整片晶圆,大概800多个Die,全都放入一个SSD里面,这样才能做到一个122.88TB容量的SSD成品。
“这样做的成本是非常高的。因为如果这一片晶圆质量不好,容量做不到122.88TB,就只能废掉或者是降级到61.44TB。如果说电容、电阻或者是其他小的‘Non NAND BOM’有问题,那整块盘就全部废掉了。在关键技术上,做小容量和做大容量是两码事,大容量对质量的要求更高。”倪锦峰表示。
确实,对于用户来说也是如此,如果说以前16TB及以下的SSD出现故障,还能以较小的代价通过更换等方法来维护系统,如今122.88TB级的企业级SSD所带来的替换成本也会相当惊人,更不用说其中存储的数据规模也大幅度放大。那么,这么巨大的QLC SSD的可靠性真的能满足企业级需求吗?
在传统的概念里,相对于TLC来说,用户对QLC产品会存在比如性能够不够、时延行不行以及寿命够不够等都有一系列疑问。因为以前企业级用户使用的QLC SSD产品的容量通常也就16TB大小,如果工作负载控制不好,确实有可能会“写穿”(超出标称寿命)。但是,事实上当QLC的容量大到一定程度之后,比如122.88TB,那么在5年质保期限内,其实不可能出现“写穿”的情况。容量变大之后,很多传统概念也会出现变化。
这是因为对于SSD来说,有一个耐用等级指标。比如122.88TB的Solidigm P5336 SSD,它的标称耐用指标为0.6 DWPD (16K RW),也就是说,每天只要写入的数据小于总容量×0.6的规模,也就是大约73.73TB,5年总共写入量不超过“73.73×365×5≈134548.6TB”,大约131.4PB,就不会影响其耐用性。对照这款产品的32KB随机写入性能指标25000 IOPS (32K,QD256),拉长到5年时间来看,一直不停地以最大速率不停写入32KB的数据模块,其5年的总写入量约等于117480.75TB,也就是114.72PB,远小于131.4PB,所以在这个情况下不可能会出现质保期内“写穿”Solidigm P5336 122.88TB的情况。如图所示,如果是4KB的5年持续随机写入,剩余寿命更多。
当然,如果不是随机写入,而是一直顺序写入大文件,确实有可能超过目前QLC SSD的标称耐用指标。但在实际的数据中心应用案例中,事实上几乎不可能出现5年全周期完全不停,只进行顺序写入大文件的情况。这是模拟一种极端应用环境的计算方式。对于数据中心来说,读写任务指令混合、顺序大文件写入和随机小数据写入混合才是真正的常态。所以对于用户来说,随着企业级QLC产品容量的增大,可靠性方面的指标目前已经可以满足其设计寿命范围内的各种需要。
还有一个要点值得关注。虽然2024年8月,三星也宣布推出了122.88TB的QLC SSD,但为什么首先在业界官方宣布批量送样测试并明确出货时间的反而是Solidigm(思得)的D5-P5336企业级SSD呢?因为Solidigm(思得)是行业里唯一既有Floating Gate浮栅技术,又有Charge Trap电荷捕获技术的AI存储方案公司。Solidigm D5-P5336 122.88TB就是继承了英特尔在Floating Gate浮栅技术NAND Flash方面的创新经验,而Floating Gate浮栅技术在生产QLC大容量SSD方面似乎技术沉淀更完备,在耐用指标方面更快达到要求。
PCIe 5.0接口提供了更高的带宽和更低的延迟,能够更好地满足AI和高性能计算等应用对存储性能的严苛要求。随着PCIe 5.0技术的成熟和成本的降低,企业级SSD市场在近两年开始迎来新一代高性能存储解决方案,这将为机器学习、大数据分析和实时数据处理提供前所未有的速度和效率。
同样以Solidigm(思得)为例,其在2024年夏天发布的新款D7-PS1000系列SSD,就是PCIe Gen 5.0接口。这一系列产品为了加速各种复杂的工作负载而设计,专为AI数据构建了一个管道,所以拥有业界领先的顺序写带宽,可以达到10GB/s或以上。而其顺序读带宽则几乎可以占满下一代PCIe Gen6 ×4总线的带宽极限!这也意味着,它的IOPS/W(每瓦性能吞吐量)会提升很多。
D7-PS1010和D7-PS1030具备PCIe Gen5 ×4接口配置,搭载采用先进的176 层Charge Trap电荷捕获技术的海力士V7 TLC NAND 介质。作为TLC 产品,Solidigm这两款新品并未追求极端的大容量,而是提供了12.8TB(高寿命设计)和15.36TB(标准寿命设计)的选项,而且D7- PS1030 的寿命高达70PBW,而D7- PS1010 则为28PBW。
从实际性能规格来看,D7- PS1010和D7-PS1030系列的随机读取可达到3.1MIOPS ,顺序读取带宽最大高达13GB/s,性能相比此前的同级产品有所提升。而且,该系列的SSD产品的功耗不超过25W,最大平均活跃读写功率为23W,在随机写入或顺序写入操作时达到峰值。这意味着PCIe 5.0控制器也并不会带来超出设计规范的功耗。
得益于更稳定的NAND、更稳定的ASIC 以及更严格的测试,新产品的平均无故障工作时间MTBF可以做到250万小时,换算下来,每年的失效率相比当前主流的0.4%可以再降低25%。在数据可靠性方面,新产品采用UBER技术,将不可纠错的误码率提升至JEDEC标准的100倍。
也就是说,普通企业级SSD的误码率通常在1E-17(10-17),而Solidigm 的D7-PS1000系列产品将这一标准提升至1E-18(10-18),这可以显著降低数据损坏的风险。
展望未来,为了将传输速率在PCIe Gen5的基础上翻倍,从PCIe Gen 6开始,技术规范将改用PAM4 编码信号。此时,面向企业级的U.2接口会遇到一些挑战,尤其是在信号衰减的控制方面。因此,2024年Solidigm的新品开始提供两种外形与接口规格,即用户可以选择E3.S和U.2 接口的产品,以适应不同的应用场景。此外,新品也仍旧保留经典的15mm厚度设计,不仅有助于产品的散热性能,也符合市场上的通用标准。
MCer请注意,由于微信公众号调整了推荐机制,如果你发现最近很难刷到Microcomputer(微型计算机)公众账号推送的文章,但是又不想错过微机的精彩评测内容,可以动动小手指把Microcomputer设置成星标公众账号哦!