5000 篇公众号文章怎么管:我的分类 + 标签 + 自动归档方案

系列上一篇讲了 vault 怎么分层,把知识库分成公众号文章、笔记、资料库、收集箱四个区。这篇来说公众号文章这一层怎么管。

先说一个数字。目前我追踪了 108 个公众号,Obsidian vault 里存了快 9000 篇文章。这个量级不会像几十万篇那样需要上搜索引擎,但纯靠记忆翻找已经不够用了。

管理 9000 篇文章的核心思路就一条:按公众号名分目录,然后交给自动流程。

**按号分目录,别按主题分**

很多人搭知识库的第一反应是按主题分类。比如建一个「AI 技术」文件夹、一个「运维」文件夹、一个「效率工具」。听起来合理,实际有问题。

一篇文章可能同时涉及 AI 和运维,一篇工具教程里也可能聊到编程。硬塞进一个目录总觉得别扭。更麻烦的是,新文章进来需要人工判断属于哪个主题——这一步既慢又不准确。

我的做法很简单:完全按公众号名建目录。108 个号,每个号一个文件夹。

“`
公众号文章/
├── AI科技前沿/
├── 编程教学号/
├── 商业评论号/
├── 效率工具号/
├── 科技资讯号/
├── 技术管理号/

“`

这个结构没什么高深的。好处是稳定——公众号名不会变,新文章进来直接往对应目录丢,不需要任何判断。

文件名也统一:`YYYY-MM-DD_公众号名_标题.md`。比如 `2026-06-10_AI4SE_Dify精品案例系列.md`。日期在前便于排序,公众号名在中间防重名,标题在最后。

**三档分类,自动统计**

文件夹层面按号分。浏览的时候,需要知道哪些号文章质量高。

我搞了三档分类:

– **高频关注**:100 篇以上。这类号持续关注了很久,内容稳定,值得逐篇看。目前有 20 多个。
– **常规关注**:20-99 篇。内容不错,还没到每篇必看的程度。
– **低频关注**:20 篇以下。刚订阅或偶尔有好文章。

这个分类不用手动维护。脚本每天自动扫描每个目录的文件数,按三档排版到 `_index_公众号文章.md` 里。打开这个索引文件,扫一眼「高频关注」区块,就知道近期该优先看什么。

**标签表来源,不表主题**

标签系统只用来标记来源,不标记内容主题。

每篇文章入库时自动打两个标签:

“`
#来源/公众号
#公众号/AI科技前沿
“`

想查AI科技前沿的所有文章,点 `#公众号/AI科技前沿` 就行。想看所有公众号来源的文章,搜 `#来源/公众号`。

为什么不打主题标签?给一篇讲 Kubernetes 的文章打 `#技术/容器`,听起来合理。但 9000 篇文章,每篇读一遍再打标签,工作量太大了。更关键的是,打完标签也未必记得自己怎么分的类。

所以策略很简单:标签只标记客观属性(来源),不标记主观判断(主题)。找文章靠全文搜索,不是靠分类目录。

**自动归档的完整流程**

文章怎么进来?不需要手动操作。

走的是之前(系列 #3)讲的那套采集管线:WeRSS 和 wechat-exporter 定时抓取新文章,notes bot 自动下载全文,按公众号名归类到对应目录,文件名自动生成,标签自动打上。

自动化之后,唯一要做的就是每周打开索引文件,扫一眼更新了哪些内容。感兴趣的打开看看,不感兴趣的直接划过。存不存在、分类对不对——这些都是机器干的。

**总结**

这套方案的核心逻辑:

– 按公众号名分目录,不用主题分类。避免交叉和判断成本。
– 三档分类:高频 / 常规 / 低频。自动统计,不用手动维护。
– 标签只表来源,不表主题。减轻维护负担。
– 文件名统一:日期 + 公众号名 + 标题。全局唯一。

用了半年多没出过问题。核心思路就是:把人需要判断的事情降到最低,把能自动化的事情全部交给脚本。

前几篇讲了 vault 的四层架构(#1)、103 个公众号的自动采集方案(#3),这篇讲了公众号文章的分类管理(#2)。系列还剩一个话题:从采集到入库的整条知识管线,包括清洗、去重、图片本地化这些细节。下一篇来说说。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部