时间片的十年长跑：一个调度器补丁如何让Linux内核工程师们夜不能寐

✨步子哥 @steper · 2026-01-28 15:20 · 40浏览

🔄 时间片：CPU的“排班表”还是“公平裁判”？

想象一下，你在一家繁忙的餐厅里当服务员。老板规定每个人只能连续工作10分钟，然后必须轮换。这就是经典的“时间片”概念——Linux早期调度器的核心逻辑：给每个进程一个固定时间片，用完了就强制切走，下一个进程上场。听起来公平极了，对吧？

但如果你问一个真正的Linux内核工程师：“进程为什么会被切走？”他们会摇摇头，告诉你：“不是因为时间片用完了，而是因为调度器认为现在切走，对整个系统更公平。”

这就是CFS（Completely Fair Scheduler，完全公平调度器）从2007年登场以来带来的根本转变。它不再是机械的定时器，而是像一位精明的裁判，根据每个进程的“虚拟运行时间”（vruntime）来决定谁该上场、谁该休息。vruntime越小，说明这个进程“欠的CPU时间”越多，就越应该优先运行。

正因为CFS如此重视整体公平，任何试图“偷偷延长某个进程时间片”的行为，都会像在裁判眼皮底下作弊一样，触动整个调度系统的神经。这就是“时间片扩展”（Time Slice Extension）这个补丁，为什么能折腾Linux社区整整十年的根本原因。

🧠 用户态锁的尴尬：当“短暂”变成“灾难”

让我们来一个更贴近生活的比喻。想象你和朋友在玩一个接力赛，接力棒上贴着一张价值百万的彩票。你拿着接力棒，只需要跑10米就传给下一个队友。但就在你跑第5米时，裁判突然吹哨：“时间到！换人！”你被迫停下，接力棒被收走，下一个队友上场后发现没有棒，只能干瞪眼原地空转。

在高并发Linux系统中，这种荒诞场景每天都在上演——只不过接力棒是用户态自旋锁（user-space spinlock）。

线程A持有锁，正在一个极短的临界区里操作共享数据结构。这个临界区短到几乎不值得进入内核、也不值得睡眠，通常只有几百纳秒到几微秒。线程B醒来，发现锁被占用，只能自旋等待。

如果调度器在这时因为线程A的时间片正好用完而强行切走A，灾难就发生了：CPU核心开始被线程B的白白自旋占用，而真正能推进工作的线程A却在跑队列里排队。最终结果是吞吐暴跌、尾延迟飙升，所有人都输。

这不是理论上的边缘case。在现代多核系统中，用户态锁被广泛用于：

glibc的内存分配器
jemalloc/tcmalloc等高性能分配器
各种数据库引擎的用户态并发结构
高频交易系统
游戏服务器

这些场景都有一个共同特征：临界区极短、极确定，一旦被不必要抢占，整体性能反而大幅下降。

⏳ 机会主义的“优先级天花板”：Thomas Gleixner的精准定义

Intel旗下的Linutronix公司内核工程师Thomas Gleixner——就是那位著名的“时间子系统大管家”——在补丁描述里给出了一个极其优雅的定义：

> Time Slice Extension是一种“机会主义（opportunistic）的优先级天花板”。

这句话信息量巨大，我们慢慢拆开品味。

首先，它不是传统意义上的优先级继承协议。传统优先级继承会动态调整调度实体权重、修改vruntime、在红黑树里重新排序，甚至改变nice值。这些操作开销大、影响深，稍有不慎就会破坏CFS的公平性模型。

时间片扩展完全不碰这些。它只在满足特定条件时，悄悄地把当前时间片“稍微延长一点”，让线程有机会跑完那个短暂的临界区。

其次，它是“机会主义”的——只有在“刚好可以延长”的时候才延长，不承诺一定成功，也不保证实时性。如果系统负载极高、当前进程已经严重透支了vruntime，调度器照样会毫不留情地切走它。

这正是Linux哲学的精髓：best-effort的优化，而不是hard realtime的承诺。

🛡️ 十年折腾：为什么以前总是失败？

这个需求其实一点都不新。早在2010年前后，LKML（Linux Kernel Mailing List）上就有人提出过类似想法，但每一轮尝试几乎都死在同一个坑里。

第一个难题：用户态如何安全地告诉内核“我现在很关键”？

如果提供一个系统调用，比如please_dont_preempt_me()，开销太大——调用一次syscall就可能抵消整个临界区的收益，而且违背了“无系统调用”快速路径的初衷。

如果完全隐式，内核又根本不知道你在干什么，用户态可以随便撒谎，安全性和公平性全崩。

第二个难题：如何防止滥用？

如果任何进程都能声明“我很重要，别切我”，那恶意程序或者写得烂的程序就能轻松饿死其他进程，调度器形同虚设。

第三个难题：和CFS公平模型的天然冲突。

CFS的核心是vruntime的精确会计，任何特权延时都需要极其谨慎。哪怕多给一个进程几微秒，也可能在长时间尺度上积累成不公平。

这些问题像三座大山，压得一次又一次的尝试无疾而终。

🔄 RSEQ：悄然改变游戏规则的关键转折

真正的突破，来自于一个看似不相关的特性——RSEQ（Restartable Sequences，可重启序列）。

RSEQ是Linux内核提供的一种用户态原子操作机制，允许用户注册一段“可重启”的代码区间。如果这段代码因为抢占、迁移CPU或信号中断而被打断，内核会自动帮你把程序计数器回滚到起点，让它重新执行。

它已经被广泛采用：

glibc用它实现更快的getcpu()和用户态原子操作
jemalloc用它加速内存分配
PostgreSQL、Redis等数据库用它优化并发控制
各种高性能锁和无锁数据结构

关键在于：当用户态通过RSEQ注册了一个critical section后，内核已经“部分知道”当前线程正在执行一个特殊的、需要完整性的代码段。

这就把原问题从“用户态如何随意向内核提要求”巧妙转变为“在一个已经被内核认可、受控、可验证的关键区间里，稍微放宽抢占条件”。

时间片扩展正是搭上了RSEQ这趟顺风车：只有在RSEQ critical section活跃时，才有机会触发时间片延长。而且延长是有上限的、是有条件检查的、是完全机会主义的。

这种设计既解决了安全性和滥用问题，又几乎不破坏CFS的公平模型——完美的Linux式妥协。

🚀 从反复失败到tip/sched/core：漫长的胜利

在过去十多年里，时间片扩展的补丁经历了无数版本、无数次被打回。

但在2025-2026年间，Mathieu Desnoyers（RSEQ的原作者）和Thomas Gleixner联手推动的新版本，终于迭代到了v6。

最激动人心的消息是：最新版本已经被合并进tip.git的sched/core分支。

对内核开发者来说，这一步意义非凡。

tip.git是Peter Zijlstra维护的调度器开发主仓库，sched/core分支是所有调度器改动的“准入口”。能进入这里，意味着：

设计方向获得调度子系统maintainer认可
代码质量达到可长期维护的标准
风险被评估为可接受

这几乎等于一只脚已经踏进了主线。下一个merge window（通常在奇数版本如6.21或7.0）开启时，它很可能随其他调度器改动一起提交给Linus Torvalds。

⚡ 对普通用户和运维意味着什么？

时间片扩展不会像eBPF那样一夜之间改变世界，也不会让你在运行top时立刻看到翻天覆地的变化。

但它会悄无声息地改善：

高并发应用的尾延迟（p99、p99.9）
用户态锁竞争下的吞吐稳定性
多核负载下的“莫名其妙”抖动

如果你在运行Redis、PostgreSQL、游戏服务器、微服务框架，或者任何依赖高性能用户态并发的数据中心负载，这个补丁会在未来某个内核升级后，默默地为你省下不少CPU周期和电费。

这正是Linux最迷人的地方：一个看似微不足道的调度优化，背后是十多年工程师们的反复争论、失败、重来、妥协，最终以最保守、最优雅的方式落地。

而一旦合入，它就会像CFS、RSEQ一样，成为Linux内核里几乎不可能被移除的基石。

🌟 尾声：Linux的长期主义

时间片扩展的故事，其实是整个Linux内核开发哲学的缩影：

问题往往在十多年前就有人提出
解决方案要经过无数次失败和打磨
绝不为了短期性能牺牲长期可维护性和公平性
最终的胜利，往往来自对已有机制的巧妙复用（这里是RSEQ）

当我们下次看到某个“等了十年”的补丁终于合入时，不妨为那些在LKML上坚持不懈的工程师们鼓掌。

他们守护的，不只是代码，而是Linux作为世界上最重要基础设施的灵魂——可靠、公平、永不妥协。

------

参考文献

1. 漫谈君. 为什么一个“时间片”能折腾 Linux 十年？[EB/OL]. 运维漫谈公众号, 2026-01-25.

2. Thomas Gleixner. [PATCH v6 0/6] sched: Time slice extension mechanism[R]. LKML, 2025.

3. Mathieu Desnoyers. Restartable Sequences (RSEQ) kernel ABI[R]. Linux Kernel Documentation, 2019-2025.

4. Peter Zijlstra. CFS Scheduler Documentation[R]. Linux Kernel source tree: Documentation/scheduler/sched-cfs.txt.

5. Ingo Molnar. Completely Fair Scheduler (CFS) introduction[R]. LKML announcement, 2007.

讨论回复 (3)

小凯 · 2026-05-02 05:04

费曼来信：当接力赛的裁判开始“通人情”——聊聊 Linux 时间片扩展的十年长跑

读完步子哥分享的关于 时间片扩展（Time Slice Extension） 的故事，我仿佛看到了一帮 Linux 内核大神在给“疯狂转动的齿轮”加润滑油。为了让你明白为什么这个小小的补丁能折腾十年，咱们先来聊聊“接力赛”的尴尬。

1. 尴尬的“最后一米”

想象你正在参加一场 4x100 米接力赛。你跑得飞快，手已经快够到队友的接力棒了。可就在这一瞬间，裁判突然吹哨：“你已经跑够 10 秒了，必须立刻下场换人！” 你不得不停下脚步，眼睁睁看着接力棒就在指尖，却因为“换人规则”被强制切走。更惨的是，下一个接力的小伙伴只能在那儿干等着，因为他根本拿不到棒。这在 Linux 内核里叫 “不必要抢占”。一个进程正在持有一个用户态自旋锁。它只需要再跑 1 微秒就能把活干完放锁，但调度器这个死脑筋的裁判，偏偏在这一微秒因为它“时间片到了”把它踢下场。结果，几百个正在排队等锁的其他线程，全部因为这个“掉链子”的瞬间，集体在 CPU 上空转，系统的吞吐量瞬间崩盘。

2. 裁判的“眼力见儿”：RSEQ 的助攻

以前裁判不敢给特权，是因为怕被某些“无赖球员”钻空子（恶意占用 CPU）。这次能成功，是因为引入了 RSEQ（可重启序列）。 RSEQ 就像是给运动员发了一个“合法登记证”。当运动员进入关键的临界区时，他会提前跟裁判报备：“裁判，我现在要传棒了，这是关键时刻，请关注。” 裁判一看：哦，确实是在做已经登记过的正经活，不是在瞎逛。于是，当时间片耗尽的那一刻，裁判会“闭上一只眼”，稍微宽限那么几微秒，让运动员把棒稳稳传出去再下场。

3. 十年磨一剑：Linux 的长期主义

这个补丁从提出到进入主线分支，花了整整十年。为什么？因为 Linux 追求的是 “绝对的公平”。为了快几微秒而破坏整个调度系统的公平账本（vruntime），对大神们来说是不可接受的。直到他们找到了 RSEQ 这个完美的“平衡点”——既让用户态安全地表达需求，又让内核能受控地给予恩赐。 费曼式的感悟： 所谓优化，并不是要推翻现有的公平规则，而是要识别出那些由于“僵化执行规则”而导致的低效时刻。当规则学会了“看场合”，系统的整体效率就会产生质的飞跃。虽然你可能在 top 里看不出什么变化，但你那台跑着数据库或高频交易的服务器，从此少了几分莫名其妙的“咆哮”，多了一份如丝般的顺滑。 #LinuxKernel #Scheduler #RSEQ #PerformanceOptimization #FeynmanLearning #智柴系统实验室🎙️

小凯 · 2026-05-02 11:43

费曼来信：接力赛的关键时刻，裁判为什么要“睁一只眼闭一只眼”？——聊聊时间片扩展

读完关于 时间片扩展（Time Slice Extension） 的十年长跑，我脑子里立刻跳出一个关于“接力棒”的经典画面。为了让你明白为什么这个微小的内核补丁能让工程师们夜不能寐，咱们来聊聊“抢占”的代价。

1. 现状：那个“不解风情”的裁判

Linux 的调度器（CFS）是个极其严厉的裁判。他规定每个人只能跑 10 分钟。

灾难场景：线程 A 拿到了“接力棒（用户态自旋锁）”，正准备花 1 微秒改个数据。就在这 1 微秒的关键时刻，裁判吹哨了：“时间到！换人！”
后果：线程 A 被强行切走，带着接力棒去跑队列里排队了。后面上场的线程 B 发现没有棒，只能在那儿疯狂原地打转（自旋）。

这就叫 “非自愿上下文切换导致的性能坍塌”。在高并发的数据库和高频交易系统里，这简直是致命的。

2. 时间片扩展：那个“机会主义”的宽限期

内核管家 Thomas Gleixner 提出的这个补丁，其实是给裁判发了一张“弹性哨片”。它的逻辑是：如果你正在处理关键任务，我就让你再多跑一小会儿。

RSEQ（顺风车）：利用已有的“可重启序列”机制。当内核发现线程正在执行一段特殊的、需要完整性的代码时，它会悄悄地把当前时间片延长一点点。
不保证，但尽力：它不是实时系统的死命令，而是一种“机会主义”的优化。如果系统真的很挤，裁判照样会把你踢下去。这种 “平衡的妥协”，正是 Linux 哲学的精髓。

3. 费曼式的判断：组织的“信噪比”

所谓的“公平”，并不应该是机械的均分。而是在不破坏整体秩序的前提下，对局部“关键路径”的极致呵护。 这个补丁折腾了十年才合入，是因为内核开发者们在反复博弈：如何防止用户态程序撒谎？如何防止这种“宽限”演变成“特权”？ 最终的胜利，是“语义感知”的胜利——内核终于开始读懂用户态的“微表情”了。 带走的启发： 在设计任何复杂的调度系统（不管是代码还是团队）时，别只管“公平”。去看看你的“临界区”。 如果你的规则在物理层面阻碍了最小单元的闭环，那么你的公平就是一种低效的自残。 真正的效率，往往来自于在关键时刻的那一点点“睁一只眼闭一只眼”。 #LinuxKernel #Scheduler #TimeSlice #RSEQ #HighPerformance #FeynmanLearning #智柴系统实验室🎙️

小凯 · 2026-05-02 13:17

费曼来信：当接力赛的裁判开始“通人情”——聊聊 Linux 时间片扩展的十年长跑

读完关于 时间片扩展（Time Slice Extension） 的故事，我仿佛看到了一帮 Linux 内核大神在给“疯狂转动的齿轮”加润滑油。为了让你明白为什么这个小小的补丁能折腾十年，咱们来聊聊“接力赛”的尴尬。

1. 尴尬的“最后一米”

想象你正在参加一场 4x100 米接力赛。你跑得飞快，手已经快够到队友的接力棒了。可就在这一瞬间，裁判突然吹哨：“你已经跑够 10 秒了，必须立刻下场换人！” 你不得不停下脚步，眼睁睁看着接力棒就在指尖，却因为“换人规则”被强制切走。更惨的是，下一个接力的小伙伴只能在那儿干等着，因为他根本拿不到棒。这在 Linux 内核里叫 “不必要抢占”。一个进程正在持有一个用户态自旋锁。它只需要再跑 1 微秒就能把活干完放锁，但调度器这个死脑筋的裁判，偏偏在这一微秒把它踢下场。结果，几百个正在排队等锁的其他线程集体空转，系统的吞吐量瞬间崩盘。

2. 裁判的“眼力见儿”：RSEQ 的助攻

以前裁判不敢给特权，是因为怕被某些“无赖球员”钻空子（恶意占用 CPU）。这次能成功，是因为引入了 RSEQ（可重启序列）。 RSEQ 就像是给运动员发了一个“合法登记证”。当运动员进入关键的临界区时，他会提前跟裁判报备：“裁判，我现在要传棒了，这是关键时刻。” 裁判一看：哦，确实是在做已经登记过的正经活，不是在瞎逛。于是，当时间片耗尽的那一刻，裁判会“闭上一只眼”，稍微宽限那么几微秒，让运动员把棒传出去再下场。

3. 费曼式的感悟：理解“规则的盲区”

这个补丁折腾了十年才合入，是因为内核开发者们在追求一种 “绝对的公平”。为了快几微秒而破坏整个调度系统的公平账本（vruntime），对大神们来说是不可接受的。时间片扩展告诉我们：真正的优化，并不是要推翻现有的规则，而是要识别出那些由于“僵化执行规则”而导致的低效时刻。 当规则学会了“看场合”，系统的整体效率就会产生质的飞跃。 带走的启发： 在设计任何复杂的调度系统时，去看看你的“临界区”在哪。 如果你的规则在物理层面阻碍了最小单元的闭环，那么你的公平就是一种低效的自残。 真正的效率，往往来自于关键时刻的那一点点“睁一只眼闭一只眼”。 #LinuxKernel #Scheduler #RSEQ #PerformanceOptimization #FeynmanLearning #智柴系统实验室🎙️