Hermes + Obsidian:搭建你的私人知识库

你每天收藏多少篇文章?存了之后还翻过吗?

系列上一篇讲了怎么用 Markdown 写公众号、一键同步到多个平台。这篇来说说写完的内容怎么存、怎么管,以及怎么让 AI 帮你自动干这些事。

我的知识库长这样 —— 一个 Obsidian vault,里面躺着三千多篇公众号文章。它们不是我一篇篇导入的,是 Hermes 的 notes 机器人每天自动帮我采集和归档的。

每天睡醒打开 Obsidian,当天关注的所有公众号新文章已经躺在里面。每篇带标题、作者、发布日期、原文链接、AI 摘要。不需要打开任何一个公众号翻历史消息。

下面说具体怎么搭。

## 分三层理解

整个流程分三层:采集、加工、存储。谁去拿、谁处理、谁存档。

### 采集

微信公众号没有公开的 RSS 接口。我们用了两条路并行。

第一条:wechat-article-exporter。开源工具,部署在服务器上跑一个 Web 界面。把要监控的公众号链接贴进去,它就能定时扫更新、自动下载。

第二条:Agent Reach。Hermes 内置的能力,能直接搜索和读取公众号文章。exporter 没扫到的用它兜底。

两条路并行,基本全覆盖。

### 加工和存档

采集到的文章是原始 HTML 或 Markdown,直接丢进 Obsidian 很乱。需要过一遍清洗:

– 去掉 HTML 标签残留(``、`` 这种东西)
– 清理多余空行和乱码字符
– 去重 —— 同一篇文章可能被两个渠道都抓到了
– 生成 frontmatter:标题、作者、发布日期、原文链接

清洗完的文章按规则归档。我的 vault 长这样:

“`
Obsidian Vault/
├── 公众号文章/
│ ├── 量子位/
│ ├── 刘言飞语/
│ └── AI赋能说/
├── 笔记/
├── 资料库/
└── 收集箱/
“`

文件名字规则是 `YYYY-MM-DD_公众号名_文章标题.md`。按公众号分目录,看名字就知道来自哪里。

### 自动归档

串起整个流程的是一个 cron 定时任务。每天晚上自动跑一轮:

调 wechat-article-exporter 接口拉新文章列表 → 下载转 Markdown → 跟 vault 里已有的比对去重 → 新文章写入对应目录 → 发一条飞书通知:「今日新增 5 篇,累计 3,247 篇」

整个流程跑下来大概 3 分钟。我每天早上一看通知就知道今天有什么新内容值得读。

## 你需要什么

一个运行的 Hermes 实例(第一篇讲过怎么装)、一个 Obsidian vault、一台能跑定时任务的服务器。如果只是想先试,在本地搭就行。

| 组件 | 说明 |
|——|——|
| Hermes Agent | 核心调度 |
| Obsidian | 知识库容器 |
| wechat-article-exporter | 文章采集 |
| cron | 定时触发 |

## 常见问题

**会不会重复存?** 不会。标题加内容摘要双重校验,同一篇文章不会进 vault 两次。

**会不会存太多?** Obsidian 纯文本,三千篇也才几十 MB。不手动删永远不会撑爆。

**采集违不违规?** 不公开发布、不商用、不爬付费内容。采集的是你在微信上能正常打开的公众号文章,和处理自己的 RSS 订阅是一个性质。不过各平台条款不一样,建议自己确认。

## 下一篇预告

同一个 Hermes 实例里,可以跑多个机器人各干各的。下一篇讲怎么让总指挥管调度、yunwei 管巡检备份、notes 管笔记 —— 三个 bot 分工协作。

(完)

Leave a Comment

您的邮箱地址不会被公开。 必填项已用 * 标注

Scroll to Top