修复关键内核bug,Linux创始人给腾讯云点赞!

Linux创始人,程序员眼中的神,给腾讯云点了个大大的赞!


有图有真相。


图片


注意到了吗?图里有一行高亮的内容,「Confused thumbs up」


这是Linux 创始人 Linus Torvalds 给「鹅」的评价,说的是「鹅」修复Linux 内核bug的事儿——这个bug困扰了顶级厂商两年多,而Linux社区则因为厂商没有提供明确线索,并未引起重视。


好奇不?「鹅」决定讲讲这事儿的前因后果:


//「难解」的新特性


2021 年,Linux 内核文件系统中逐步开启了名为 Large Folio 的新特性,目的是提升文件读写性能。理论上,这个特性能让文件系统更快、更高效,但现实却让人崩溃——高并发场景下,有概率遭遇缓存损毁导致的宕机问题


有bug不奇怪,修复即可,但问题在于,该bug只有高并发环境下才有一定概率偶发,复现条件极为苛刻。


尽管较难触发,但其潜在风险仍然让社区和各大厂商感到不安。两年多时间里,Linux社区各个厂商都没有找到问题线索。从 Meta 到 Cloudflare,一票大厂,只能被迫禁用 Large Folio 特性。


//「两项优化」解决问题


今年 4 月,「鹅」的操作系统内核团队在一次性能优化中,发现了问题的根源——Linux 内核的Page Cache 与 Xarray 的交互存在问题。这是一个负责缓存索引管理的关键模块,但索引更新的部分逻辑过于复杂,在高并发环境下容易出错,直接引发数据指针错乱。


找到问题后,「鹅」快速行动,提交了两项关键优化:

● 优化索引查询: 将 XArray 的多次冗余查询简化为单次操作,大幅降低复杂度;

● 提升并发稳定性:针对高并发场景,重新梳理处理逻辑,确保指针分配准确,杜绝错乱问题。


这两项优化看似简单,却精准解决了问题。不仅如此,还让系统关键路径性能提升了约 10%。


更重要的是,作为 Linux 内核的底层优化,这次修复不仅提升了系统稳定性,还让全球运行 Linux 的设备跑得更快。



近年来,「鹅」在性能优化、内存管理、交换空间等领域持续发力,为全球 Linux 社区贡献了多项技术创新。同时,「鹅」开发的自研服务器操作系统版本 TencentOS Server ,装机规模超过1000万套,除了支撑腾讯自研的业务外,也广泛服务了互联网、金融、工业、能源等行业客户。


故事讲完了,但技术探索不会停止。「鹅」将继续钻研,为全球开源社区贡献更多力量。


图片