你每天收藏多少篇文章?存了之后还翻过吗?
—
系列上一篇讲了怎么用 Markdown 写公众号、一键同步到多个平台。这篇来说说写完的内容怎么存、怎么管,以及怎么让 AI 帮你自动干这些事。
我的知识库长这样 —— 一个 Obsidian vault,里面躺着三千多篇公众号文章。它们不是我一篇篇导入的,是 Hermes 的 notes 机器人每天自动帮我采集和归档的。
每天睡醒打开 Obsidian,当天关注的所有公众号新文章已经躺在里面。每篇带标题、作者、发布日期、原文链接、AI 摘要。不需要打开任何一个公众号翻历史消息。
下面说具体怎么搭。
—
## 分三层理解
整个流程分三层:采集、加工、存储。谁去拿、谁处理、谁存档。
### 采集
微信公众号没有公开的 RSS 接口。我们用了两条路并行。
第一条:wechat-article-exporter。开源工具,部署在服务器上跑一个 Web 界面。把要监控的公众号链接贴进去,它就能定时扫更新、自动下载。
第二条:Agent Reach。Hermes 内置的能力,能直接搜索和读取公众号文章。exporter 没扫到的用它兜底。
两条路并行,基本全覆盖。
### 加工和存档
采集到的文章是原始 HTML 或 Markdown,直接丢进 Obsidian 很乱。需要过一遍清洗:
– 去掉 HTML 标签残留(``、`` 这种东西)
– 清理多余空行和乱码字符
– 去重 —— 同一篇文章可能被两个渠道都抓到了
– 生成 frontmatter:标题、作者、发布日期、原文链接
清洗完的文章按规则归档。我的 vault 长这样:
“`
Obsidian Vault/
├── 公众号文章/
│ ├── 量子位/
│ ├── 刘言飞语/
│ └── AI赋能说/
├── 笔记/
├── 资料库/
└── 收集箱/
“`
文件名字规则是 `YYYY-MM-DD_公众号名_文章标题.md`。按公众号分目录,看名字就知道来自哪里。
### 自动归档
串起整个流程的是一个 cron 定时任务。每天晚上自动跑一轮:
调 wechat-article-exporter 接口拉新文章列表 → 下载转 Markdown → 跟 vault 里已有的比对去重 → 新文章写入对应目录 → 发一条飞书通知:「今日新增 5 篇,累计 3,247 篇」
整个流程跑下来大概 3 分钟。我每天早上一看通知就知道今天有什么新内容值得读。
—
## 你需要什么
一个运行的 Hermes 实例(第一篇讲过怎么装)、一个 Obsidian vault、一台能跑定时任务的服务器。如果只是想先试,在本地搭就行。
| 组件 | 说明 |
|——|——|
| Hermes Agent | 核心调度 |
| Obsidian | 知识库容器 |
| wechat-article-exporter | 文章采集 |
| cron | 定时触发 |
—
## 常见问题
**会不会重复存?** 不会。标题加内容摘要双重校验,同一篇文章不会进 vault 两次。
**会不会存太多?** Obsidian 纯文本,三千篇也才几十 MB。不手动删永远不会撑爆。
**采集违不违规?** 不公开发布、不商用、不爬付费内容。采集的是你在微信上能正常打开的公众号文章,和处理自己的 RSS 订阅是一个性质。不过各平台条款不一样,建议自己确认。
—
## 下一篇预告
同一个 Hermes 实例里,可以跑多个机器人各干各的。下一篇讲怎么让总指挥管调度、yunwei 管巡检备份、notes 管笔记 —— 三个 bot 分工协作。
(完)