A/B's Blog

首页 Home.

博客，再次堂堂复活...

高松，濑户内海，直岛，男木岛——Summer Pockets圣地巡礼之旅

日语N1通过，既惊且喜

食在首尔：韩国真的是“美食荒漠”吗？

盗版超级马里奥诡异城堡音乐成因分析：一次 NES ROM 逆向考古

自制操作系统（0）：开始与结束的序言

【吉他指弹】summer pockets 《紬の夏休み》

iEmo主题推荐，及定位解决无法正确统计浏览量问题

韩国二次元之旅之二：弘大Animate

自制操作系统 / 项目

自制操作系统（36）：kilo移植，tty能力加强

上一节，我们的Ext2文件系统之旅告一段落。干了许久的基础设施建设的事情，今天我们来做一件更有意思的事情——给我们的操作系统移植一个文本编辑器，并借此机会把tty能力狠狠地加强一波。 kilo 是 antirez 写的一个极简的文本编辑器，代码只有一千多行。虽然短小，但它用到了不少 POSIX 终端接口——termios、ioctl、VT100 转义序列等等。恰好这些是我们的操作系统还缺少的东西，正好拿它来驱动我们的开发。补全缺少的头文件我们直接从kilo的编译开始，kilo编译，我们缺少的东西便一览无遗。kilo 编译时发现缺少一堆头文件：我们来一个一个补全吧。 libc/includ […]

2026年6月18日 28 次浏览

阅读更多
AI / 技术

vllm源码阅读：scheduler与pd分离

今天来读vllm的scheduler.py。两个关键词：调度器，PD分离调度器说到调度器，我便会不自觉地往操作系统的调度器去靠，但是vllm的调度器有诸多不同，从队列分类上看，不同于操作系统常见的MLFQ，vllm的调度器只有两个队列，而且不以优先级区分，而是以状态区分：running和waiting。 running first vllm的scheduler逻辑其实很直观，他会在一开始给出一个整体的算token的预算，先把running里面的请求跑完，还有预算的话再去跑waiting里面的任务。为什么要running first？如果waiting的请求一直进来，将没有能够完成的任务！而 […]

2026年6月16日 26 次浏览

阅读更多
自制操作系统 / 项目

自制操作系统（35）：Ext2文件系统驱动——写入支持

自制操作系统（35）：Ext2文件系统驱动——写入支持上一节，我们实现了inode分配器，但有了inode分配器之后，我们只是能找到新的写入空间，里面的内容（即inode）还需要我们写一个新的函数来初始化。更新inode元数据 inode包含两部分，一部分是元数据，另一部分是数据块索引。我们先来实现一个更新inode元数据的函数： set_inode_by_id 其实就是get_inode_by_id的改版，把buffer里面指定的inode内容改下，把这个缓存标成脏的就可以了： static int set_inode_by_id(ext2_data* data, uint32_t i […]

2026年6月12日 24 次浏览

阅读更多
AI / 技术

vLLM vs SGLang 性能实测：5090、Qwen2.5 7B、吞吐与 p99 延迟

vLLM vs SGLang 推理框架性能实测:RTX 5090 + Qwen2.5-7B,关闭前缀缓存、对齐关键参数、保证 KV cache 不打满,用同一压测器扫出吞吐量与 p99 延迟(TTFT/TPOT)曲线。无前缀复用场景下 vLLM 吞吐与延迟均优于 SGLang,附完整复现代码与踩坑记录。

2026年6月3日 74 次浏览

阅读更多
自制操作系统 / 项目

自制操作系统（34）：Ext2文件系统驱动——目录遍历，路径分量解析，块、inode分配器，缓存刷新

自制操作系统（34）：Ext2文件系统驱动——目录遍历，路径分量解析，块/inode分配器，缓存刷新我们先来实现一个找到目录inode下指定文件名的inode的函数dir_lookup。上一节说过，目录项也是以一定的不定长结构存储于目录文件的数据块的，其组织单元如下： struct ext2_dir_entry { uint32_t inode; uint16_t rec_len; uint8_t name_len; uint8_t file_type; // 1=普通文件, 2=目录, 7=符号链接 ... char name[]; // 不以 \0 结尾！ }; dir_lookup: […]

2026年6月2日 40 次浏览

阅读更多
AI / 技术

从 static batching 到 continuous batching：一文看懂 LLM 推理吞吐量优化

本文从 Prefill 与 Decode 的性能差异出发，介绍 LLM 推理中的 Static Batching 与 Continuous Batching，分析 Orca 提出的迭代级调度思想，以及 vLLM 的 PagedAttention 如何解决 KV Cache 管理问题。通过实际 Benchmark 结果，理解 Continuous Batching 为何能够显著提高 GPU 利用率、提升吞吐量并降低延迟。

2026年5月30日 63 次浏览

阅读更多
AI / 技术

初探ollama源码

走读 Ollama 源码:从 ollama run 一条命令理清 client/server/model 三层架构,解析 cobra 命令分发、Go build tag 多平台编译、Setpgid 后台进程、推理引擎子进程通信等关键实现。

2026年5月29日 53 次浏览

阅读更多
自制操作系统 / 项目

自制操作系统（33）：Ext2文件系统驱动——inode解析，打开、读取文件

自制操作系统（33）：Ext2文件系统驱动——inode解析，打开、读取文件我们来实现inode的解析和打开、读取文件。 inode解析上一节我们已经解析好inode了，这一节我们要实现一个把inode对应的数据块读出来的函数。读取inode对应的数据内容是一件比较麻烦的事，因为会涉及到块对齐、偏移、多级指针、跨级读取这些事情…我们有必要细细想好，再来做这件事情。难题读取这样的文件，以下是我能想到的最棘手的情况：用户给出了一个偏移，在二级指针的某块的中间，而用户给出的长度，又卡在了三级指针的某块的中间… 这个时候，我们不仅要先去定位这两个左右端点对应的是哪 […]

2026年5月29日 30 次浏览

阅读更多
AI / 技术

从Attention讲到如何计算你家的显卡能塞下多大的大模型

「我这张显卡能跑多大的模型?」要回答这个问题,得先搞懂显存被什么占用。本文从零讲起注意力机制——把 Query 理解成"提问"、Key 理解成每个词的"回答能力"、Value 理解成"词的特性",再延伸到多头注意力(MHA)和分组查询注意力(GQA)。在打好概念基础后,我们推导出 KV Cache 的显存占用公式,并用 Llama-3 和 Qwen2.5 的真实参数,手把手估算单请求显存、并发上限,以及为什么长上下文如此昂贵。读完你将能凭一份 config.json 估算任意模型的显存预算——这是推理工程师的基本功。

2026年5月28日 61 次浏览

阅读更多
AI / 技术

PagedAttention 是什么？从 OS 分页机制看懂 vLLM 的吞吐量优化

大语言模型推理的吞吐量瓶颈在哪里？答案是 KV Cache 引发的内存碎片。vLLM 团队借鉴操作系统的虚拟内存与分页机制，提出 PagedAttention，将 KV Cache 分块管理并支持共享与写时复制，吞吐量较 SOTA 提升数倍。本文从 OS 视角解读这一设计。

2026年5月26日 61 次浏览

阅读更多

加载更多文章

博客相关 / 记事 721 次浏览

博客，再次堂堂复活...

博客历经半年沉寂再度复活！因服务器到期及备案波折，虽遭遇数据库丢失惨剧，终靠老备份与AI辅助完成重构。

2026年2月5日

阅读更多
旅游 / 日本 1,227 次浏览

高松，濑户内海，直岛，男木岛——Summer Pockets圣地巡礼之旅

记录端午期间赴高松、直岛及男木岛的《Summer Pockets》圣地巡礼，分享与同好不期而遇的惊喜及男木岛“口袋猫基地”的感动体验。

2025年6月6日

阅读更多
学习 / 日语 809 次浏览

日语N1通过，既惊且喜

记录意外通过 JLPT N1 考试的心路历程。在备考有限、估分胶着的情况下压线过级，感叹运气之余，也重新审视了语言学习的门槛与价值。

2024年9月5日

阅读更多
旅游 / 日本 243 次浏览

在富士山下听《富士山下》

记一次在富士山下的听觉旅程。当经典的旋律在现实景观中响起，音乐与风景交织成一份独特的旅行感悟。

2024年5月2日

阅读更多
旅游 / 韩国 427 次浏览

食在首尔：韩国真的是“美食荒漠”吗？

韩国真的是“美食荒漠”吗？作者通过亲身经历，从10元的便利店泡面到600元的炭火烤肉，全方位测评首尔饮食文化，带你体验真实的韩国味道。

2023年12月22日

阅读更多
兴趣 / 动漫 358 次浏览

Merci, Furina

记录《原神》枫丹剧情后的感慨，通过一系列游戏精美截图表达对角色芙宁娜（Furina）的喜爱与致敬：“芙芙值得。”

2023年11月17日

阅读更多

好像就这么多