12月30日获悉,腾讯云操作系统(Tencent OS)内核团队在 Linux 社区默默提交的两项改进,成功解决了自 2021 年以来一直困扰着一线厂商,并在近期让多个Linux顶级Maintainer(软件维护者)困惑的关键内核bug。这一改进方案最终被合并进入后续的 Linux LTS(Long-term support) 版本中,并获得了 Linux 之父 Linus Torvalds 的高度评价。
Linus:“不明,觉赞”
大约两个月前,Linux 社区中的一封邮件引起了广泛关注。其内容主要是,自 2021 年 12 月起,Linux 内核中启用了 Large folio 特性(能够提升系统访存性能)的 XFS 文件系统用户(但不仅限于 XFS)有概率遭遇缓存损毁导致的宕机问题。该问题受到了社区的高度重视。
XFS 是最常见的 Linux 文件系统之一,在常见的 Linux 使用场景中,如服务器、桌面等,XFS 被作为主力文件系统大量采用。尽管该bug较难触发,但其潜在风险仍然让社区和各大厂商感到不安。Meta 和 Cloudflare 等公司甚至不得不暂时禁用 XFS 的 Large folio 特性以确保系统稳定。
一个多星期的讨论中,大家迟迟没有捕捉到bug所引发的具体位置或线索,只是确认 bug确实存在而且亟需修复。几位顶级 Maintainer,以及 Linus Torvalds 本人也参与进入讨论。
社区在广泛排查的过程中,突然发现这个问题在新的 Linux 内核版本中已经不复存在。进一步的调查发现,这一变化归功于腾讯云操作系统内核团队在今年 4 月提交的两项改进。
原来,腾讯云操作系统内核团队在进行操作系统性能优化研发时发现,操作系统内核使用 XArray(内核中用于处理广范围地址索引结构的基数树处理库)管理 Page Cache(页面缓存)时,会因XArray在分配内存时没有考虑好并发修改的问题,导致分配的内存指针可能指向错误的数据,对外表现为 XFS 与其他引入了 Large Folio 特性的文件系统均有概率出现卡死宕机甚至数据丢失的情况。
针对这一问题,腾讯云操作系统内核团队在优化 Page Cache 对 Xarray 的使用上,引入了一个新的辅助函数,简化了 Xarray 的中 Large Folio 的插入算法,并进一步梳理和修复了内存分配的并发处理,确保了即使在多线程环境下,内存分配和释放也能正确进行。这些改动不仅修复了数据损坏的问题,还提升了操作系统系统的性能。
经历了数个星期的讨论与分析后,这些改动被社区认为是最佳的修复方案。
如今,这一修复方案已经被合入了最新的操作系统版本中,为这一问题画上了句号。同时,方案也极大提升了大文件在 Page Cache 中的读入性能,数以十亿计运行 Linux 的设备,都会因此快一点。
除了这次贡献外,腾讯云操作系统内核团队近年来通过与社区的紧密合作,在 swap(交换空间)、memory cgroup(内存控制组)、页面与热度管理等方面持续进行技术创新,不断提升 Linux 内核的性能和稳定性,助力操作系统技术发展。
目前,腾讯云也开发了自研的服务器操作系统版本TencentOS Server,装机规模超过1000万套,除了支撑腾讯自研的国民级应用,也广泛服务了互联网、金融、政务、工业、能源、交通等行业客户。