法国国家铁路集团(Groupe SNCF) 是一家重要的铁路运营商,它已经成功地从传统的基于虚拟机(VM)的 Kubernetes 部署迁移到基于 Talos OS 和 OpenStack 构建的云原生平台上,这解决了重大的运维挑战,同时能够应对复杂的组织变革。在 TalosCon 2025 会议上发表演讲后,InfoQ 采访了高级主任工程师 Thomas Comtet,讨论了这次迁移。
该组织的 Kubernetes 之旅始于一个严重受限的 DMZ 着陆区(DMZ landing zone)),服务有限且强制使用 虚拟机(VM)。这个从头开始在现有 VM 上构建的初始实现,成为了团队所描述的“怪物”,它的维护和运维都极其困难。
当项目扩展到一个更传统的带有标准 VLAN 和服务的内网区域时,团队采取了一种完全不同的方法。他们没有简单地部署另一个 Kubernetes 发行版,而是构建了一个全面的云原生平台,这解决了所有关键问题,包括网络、负载均衡、存储和运维。
该解决方案将 OpenStack 作为私有云的基础,Talos OS 作为 Kubernetes 操作系统。这种架构从第一天起就提供了自动化的能力,可用于动态存储提供、负载均衡和网络子网操作。
最大的障碍是组织上的,而不是技术上的。向习惯于传统 IT 运维的团队引入云原生概念需要根本性的思维方式转变。传统团队擅长脚本编写、基于工单的工作流程和响应式的操作,但云原生实践强调不可变基础设施、GitOps 和原子回滚。
该组织没有试图重新培训现有团队,而是创建了与云原生原则一致的新团队,允许两种方法自主共存。这一决定承认,改变根深蒂固的运维习惯和观点需要的不仅仅是培训,还需要不同的组织结构。
技术实现也带来了自己的挑战。当 Kubernetes 平台在 OpenStack 之上启动时,OpenStack 团队仍在成熟中,这从一开始就创造了一个要求很高的客户关系。云原生团队立即需要处理复杂任务的能力,包括自动化存储、动态负载均衡和子网操作。
开始时,OpenStack 是全新的,仍在部署中。我们立即基于它构建了整个 Kubernetes 云原生平台:自动化存储、负载均衡和子网管理等。我们不是只有简单需求的客户。两个团队并行运行:他们部署 OpenStack,我们在其上构建云原生平台。
这需要非常紧密的合作,团队之间要保持不断的沟通,了解变化及其影响。尽管面临挑战,这种紧密集成最终加强了这两个平台。
对于专注于 Kubernetes 的团队来说,Talos OS 被证明是理想的选择。大多数团队成员是 Kubernetes 专家,而不是操作系统专家,而 Talos 提供了一个开箱即用的、设计安全的、生产就绪的解决方案。每天与 Talos 合作的两名工程师特别欣赏其配置驱动的方法和极简设计。
回顾这段旅程,团队确定了一项重大的改进机会,即为期两年的研究阶段,探索裸机 Kubernetes 解决方案。团队在最终转向基于 OpenStack 的解决方案之前,花费了大量时间研究以 Kubernetes 为中心的方法。如果对替代观点更加开放的话,这种转变可能早在六个月到一年前就发生了。
然而,与遗留团队合作的组织挑战是不可避免的。文化和运维转型都需要时间,不能急于求成。
在当前的路线图上,重点是扩展现有的平台,让更多应用程序部署上来,以实现投资回报。下一个里程碑涉及将高度关键的应用程序迁移到云原生平台,展示对其稳定性和能力的信心。
鉴于行业推广的长期性和铁路运营中潜在边缘位置的多样性,边缘部署的决策仍在评估中。
查看英文原文:
Groupe SNCF Modernizes Infrastructure with Talos OS and Kubernetes(https://www.infoq.com/news/2025/10/sncf-kubernetes-talosos/)
声明:本文为 InfoQ 翻译,未经许可禁止转载。