如何从零搭建Obsidian知识库:让AI替你当信息守门员

Hello啊朋友们,我是Simonlin,用通俗易懂的语言手把手带你玩转AI,提高10倍效率!


前几篇我把Agent+知识库是第二大脑的最佳解法、知识库怎么搭、怎么让AI从问答变成执行者都讲了一遍。但有一个问题一直没正面回答。


如何从零搭建Obsidian知识库:AI Agent不是问答机器,它是执行者(附日报模板+工具)

如何从零搭建Obsidian知识库:Karpathy框架+手把手实操

本地知识库+AI协作,才是真正的第二大脑!


知识库建好了,然后呢?


大多数人的知识库是这样的:建好那天很兴奋,塞了一堆东西进去。然后,就没有然后了。两周之后打开一看,里面还是那堆东西,跟现实完全脱节了。


问题出在哪?不是你懒,是知识库需要持续喂养,而你每天的注意力就那么多。


这一篇我想聊聊我是怎么解决这个问题的——让AI在后台替你当守门员,有好东西就收进来,你只需要定期来看一眼。


一、知识库的两种死法


我观察过,知识库基本上死于两种情况。


第一种,收集癖发作。看到什么都想存,越存越多,多到你自己都不想翻。这种知识库最后变成数字垃圾堆。


第二种,完全不动。建的时候很兴奋,用了两天觉得没意思,扔那了。这种知识库最后变成数字遗物。


图片


两种死法的根源是一样的——你把知识库当成一个需要你去"维护"的东西,而不是一个会自动运转的系统。


那怎么让知识库自己转起来?


二、 AI守门员的思路


上一篇文章,我提到一个观点:AI Agent不是帮你回答问题的,是帮你执行任务的。这篇把这个思路再往前推一步——让AI替你做信息监控和剪藏。


具体怎么工作的?


我的X扫描脚本每天会做三件事:


  • 第一,定时打开Chrome,自动滚动X的For You页面。
  • 第二,抓取每一条推文的内容,用关键词过滤一遍。
  • 第三,命中的推文,提取文字内容,加上作者、时间、原始链接,存档到知识库的X资源文件夹里。


整个过程我不需要做任何事情,它就在后台跑。我只需要每天早上打开知识库,看一眼昨天AI帮我收了什么。


图片


就这样,每天早上打开本地Agent助理的对话框,看一眼,从X抓取的信息就自动躺在里面。


甚至能直接在IM里面告诉你的Agent,让它帮你跑几轮,然后返回结果。


图片


然后遇到感兴趣的,直接追问,全程不用开电脑,不用打开浏览器。


图片


爽翻了!


我也开源了我自己做的这个脚本,自动扫描X上的推文,存档到知识库,链接我放在文章末尾了。


如果你安装了,怎么让它跑起来?三步就行。


第一步,Chrome浏览器保持打开,X网页登录状态。


第二步,打开终端(Mac叫"终端",Windows叫"命令提示符"),输入命令启动扫描脚本:


Mac用户:

python3 x-scan.py --schedule 60


Windows用户:

python x-scan.py --schedule 60


后面的参数都一样。--schedule 60表示每60分钟自动扫描一次。


第三步,脚本自己滚动、抓取、过滤、存档,你什么都不用管。、


如果你不想开电脑,不想搞复杂的配置,直接复制我文章底下的那个项目地址,然后告诉你的Agent:


帮我下载并配置好这个项目,然后告诉我它要怎么使用。


在这里,我强烈推荐一泽大佬的Web-Access-skill,我用过最好用的Skill之一。


它的强大在于——直接把你的Agent联网能力拉满,可以让Agent做到任何用浏览器能做到的事情,用它搭配我做的X扫描脚本,简直是夯爆了。


图片


链接我放在文章最底下,还会给你一些我用的那些很好用的工具。


所以,如果你用的是装了web-access的AI,更简单——直接跟它说"去X上看看有没有AI相关的新东西,存进我知识库",它连Chrome都不需要你开,自己联网搞定。


这个模式有个专门的叫法——信息守门员(Information Gatekeeper)。


图片


你的知识库不需要你每天主动去找东西,它有一个代理在替你看着信息来源,发现有价值的东西就收进来。你从"收集者"变成"筛选者"。


这个转变很重要。收集者的角色是主动出击、不断扩大来源,累。筛选者的角色是在一堆已经有人帮你挑好的东西里,挑真正值得看的,轻松。


三、关键词过滤:AI的判断标准


整个系统里最关键的一步,不是抓取,是过滤


我见过有人把关键词设成50个,恨不得覆盖整个AI领域。结果知识库里堆满了各种相关文章,真正有用的反而被稀释掉了。


关键词要少,要准,抓取到的内容才不会乱。


我的中文关键词现在只有这些:


ai、人工智能、chatgpt、claude、llm、agent、大模型、gpt、deepseek、openai、anthropic、提示词、prompt、自动化、工作流、工具、智能体、代码、编程、cursor、obsidian。


就这么二十来个,覆盖我真正关心的范围。超出这个范围的,说明我对它的了解程度还不到需要存档的程度。


同时还要设忽略词。我设了"高考""房子""房价""股市",这几个词经常跟AI一起出现,但跟我真正想存档的内容没有半毛钱关系。


图片


过滤这件事,宁可少收,不要乱收。少收了你还有搜索空间,乱收了你连搜索都搜不准。


四、存档格式:让知识库里的东西可检索


收进来的东西,如果只是随便一存,跟不收没有区别。存了找不到,等于没存。


我的存档格式是这样的:


文件名:自动扫描-日期.md

文件内容:

  • 原始链接
  • 作者和发布时间
  • 推文正文
  • 一句话摘要(我自己定期补充)


这样每次打开知识库,我看到的是"5月10日X上有3条相关内容",而不是一堆链接列表。


图片


更关键的是,Obsidian的搜索功能在这种格式下特别好用。你想找"Claude Code"相关内容,直接搜,全文检索,秒出结果。不用记这条存在哪个文件夹里。


图片


知识库里存的东西,最重要的不是"放在哪",是"能不能找到"。


五、定期翻库:人最后还是要看一眼


图片


AI帮你做监控和存档,但最终判断一条内容值不值得深入,还是得你自己来。


我现在的节奏是这样的:早上喝咖啡的时候,打开知识库的X资源文件夹,花五分钟过一遍昨天收进来的内容。看到有意思的,标个星,或者在摘要栏写两句话。看到没用的,直接删。


这个五分钟的回顾,不只是筛选内容,也是在校准关键词。如果最近发现某类内容总是出现但没什么用,说明关键词设得不够精准,需要调整忽略词。如果某类内容很有价值但AI没捕捉到,说明关键词覆盖不够。


知识库不是建好了就丢给AI的,它是一个你和AI在共同维护的东西。AI负责收集,你负责判断。判断的结果反过来优化AI的收集规则。


这个反馈循环,才是让知识库持续运转的核心。


六、监控源不只有X


图片


X是我最常用的信息来源,但监控源不只有它。


我同时在跑的有:HN(Hacker News)的新帖子、几个特定RSS源、GitHub Trending。这些信息来源不同,价值也不同——X上的是实时讨论和一手爆料,HN上的是技术趋势和产品发布,RSS上的是长文章和深度分析。


每种来源的关键词可以不一样,忽略词也可以不同。X上信息杂,可以设严一点。RSS上本来就是精挑细选的内容源,可以设宽一点。


信息来源越多元,知识库越不容易陷入信息茧房。你不需要每个来源都盯着,AI替你看着,你定期来翻就行。


很多人问我,你每天哪来那么多时间折腾这些工具。


说实话,一开始我自己也是什么都想存,结果知识库越来越乱,人越来越不想打开。后来我想通了,收集这件事交给AI,我专门做筛选。答案是,我大部分时间不在"收集",而在"筛选"。收集这件事,我交给AI了。我只做筛选。


知识库不是图书馆,是活的系统。图书馆等着你来翻,它不会动。


活的系统有AI在后台替你收东西,你每天来翻翻看看,挑真正有意思的去吸收。


再也不需要每天花两小时维护知识库。你需要的是,一个在后台帮你盯着、收着、存着的代理。


剩下的事,交给你自己。


七、我最常用的几个工具,让知识库直接起飞


说几个我实际在用的工具:


  • 想让AI替你监控X?我用的是x-scan脚本(https://github.com/simonlin000/x-scan),Chrome保持打开就能自动跑。


  • Obsidian里想加结构化metadata提升检索精度?试试Metadata Menu插件(https://github.com/mdelobelle/metadatamenu)。


  • 想让AI直接读写Obsidian笔记?obsidian-cli(https://github.com/yakitrak/obsidian-cli)这个skill可以让AI自己整理知识库。


  • 想让AI直接读X、知乎、小红书这些普通AI抓不到的页面?web-access skill(https://github.com/eze-is/web-access)就是干这个的,装上之后AI能像浏览器一样去读动态渲染的内容,不用你手动复制粘贴。


  • 做图想用GPT Image 2但不知道怎么让AI直接调用?GPT Image 2 Skill(https://github.com/wuyoscar/gpt_image_2_skill)有prompt画廊和CLI工具,开箱即用。

图片





感谢收看。


觉得这篇文章不错的话,欢迎点赞、推荐、转发给你的朋友,或者转发给你的Agent,让它学,充当你的”信息守门员“。


我是Simonlin,下次见。