前段时间,Karpathy 发了他自己的Wiki知识库方案。
看起来只不过是用LLM把输入又滤了一遍,好像也没什么。
但是事实上,他的那套Wiki方案的厉害之处在于,它解决了知识库最关键的问题:人该以什么样的身份与知识库共存?
传统的知识库往往是单向输出,人类把数据集中起来,然后根据内容问问AI问题,AI再给予解答。看起来好像很好用,召回率也可以,经常也能返回一些知识库内的信息。
可是问题在于,在这个过程中,我们始终只是接收者,没有对整个系统产生持续成长化的指导影响,简而言之,这种知识库是死的,就像现在的LLM。内部的”权重”自从出生之后就不变,外界的交互对它不会产生任何影响。无论你是用了一天、一周,还是一年,增加的只有知识库的内容,却没有你自己的思考和习惯,更无法形成飞轮。
而卡帕西的Wiki版知识库就彻底不一样了。
当我们的输入和思考都 真正的把知识库做成了一个和人一起成长的体系,一个会在不断的与现实世界交互中进步进化的体系。
它们的区别其实并不在于是否使用RAG等等工具来辅助调用,工具只是手段,我依然可以给他的Wiki加上RAG,在有些应用场景下反倒会更好用。
这套体系使得它的知识库可以在持续的与我们的交互中逐渐习得更多的经验,更多的方法,习得我们的决策模式,习得现实中一些LLM没有概念,没有理解的问题。
“编译”知识库的玄妙
要理解这件事为什么重要,我们得先搞清楚传统RAG到底在做什么。
RAG的本质是一个”每次都从零开始”的过程。你有一堆文档,你问一个问题,系统把文档切成碎片,算向量相似度,找出最相关的几段话,喂给LLM,生成答案。下次你再问一个相关的问题,同样的过程再来一遍。系统不会因为你上次问过类似的问题而变得更聪明,它甚至不记得你问过。
这就像一个学生,每次考试都要从课本第一页开始读起,读完了答题,答完了就把读过的全忘掉。他永远不会形成自己的理解框架。
卡帕西做的事情本质上是给这个学生加了一本笔记本。
LLM不再是一个检索器,而是一个编译器。它读原始资料,但它的输出不是一次性的回答,而是一篇结构化的wiki页面——带有交叉引用、带有标签分类、带有和其他知识点的关联链接。这篇页面会被保留下来,成为下次问答的基础。
这意味着,知识不再是”每次推导”,而是”逐步积累”。
真正的循环是什么
但如果只是”LLM自动生成笔记”,这件事也不会那么有趣。市面上做自动摘要、自动知识图谱的工具一大堆,大多数都沦为了玩具。
卡帕西这套方案真正有意思的是它构建了一个三角循环:
原始资料 → LLM编译 → 人类审查/提问 → 知识库更新 → 更好的编译基础
这个循环里,人的角色不是标注员,不是审核员,而是策展人(curator)。
你决定什么资料值得被录入raw目录。这个决定本身就是一种知识——你在告诉系统”这个领域是重要的”。
你问什么问题,决定了wiki往哪个方向生长。一个关于竞品定价策略的问题,会触发系统去交叉分析几篇竞品报告,然后把分析结果沉淀为一篇新的wiki页面。如果你从来不问这类问题,这个知识维度就不会被展开。
你在审查wiki页面时做的每一次修正——“这个结论不对,实际情况是……”——都会直接改变系统的编译产物。下次有人(或者你自己)问相关问题,拿到的就是被你修正过的知识。
你的判断、你的关注方向、你的领域经验,通过这个循环持续地编码进了系统里。
这和传统知识库的区别,就像一个只会背课本的学生和一个跟着师傅学了三年手艺的学徒之间的区别。前者的”知识”是静态的、通用的、去语境化的;后者的知识里沉淀着师傅的审美、判断和经验,是活的。
隐性知识的编码问题
不过,说到这里需要诚实地面对一个问题:这套系统目前能”习得”的,主要还是显性知识。
什么是显性知识?事实、数据、分类法、因果链条——可以被文字明确表达的东西。wiki页面天然擅长承载这类知识。
但我们真正宝贵的经验里,有大量的隐性知识——直觉判断、模式识别、“说不清但就是知道”的那些东西。比如一个资深投资人看一个项目,可能扫两眼就知道”这个不靠谱”,但让他写出来为什么,他可能得想半天,而且写出来的理由未必是他真正做判断的依据。
目前卡帕西的Wiki方案对隐性知识的编码是间接的、不完整的。它通过wiki页面的结构、措辞的选择、知识节点之间的关联方式,隐约地编码了一些决策倾向。但这更像是一种”痕迹”,而不是真正的”习得”。
这也是为什么,卡帕西自己提到了一个更远的方向:用wiki生成合成训练数据,去微调一个模型,让这些知识真正进入模型的权重。那才是从”外置记忆”到”内化能力”的跳跃。
但即便还没走到那一步,wiki方案的价值已经很明确了——它把知识库从一个工具变成了一个和你共同成长的实体。而这个转变的关键,恰恰是很多做知识库产品的人忽略的。
对知识库产品的启示
回头看现在市面上的知识库产品,从Notion AI到各种RAG SaaS,它们大多数都在”检索效率”这条路上卷。上下文窗口多大、向量检索多快、reranking多精准——这些当然重要,但它们都在优化同一个范式:静态存储 + 动态查询。
这个范式的天花板,不在于检索有多准确,而在于系统没有状态。
一个没有状态的系统,永远无法积累,永远无法进化,永远无法真正理解使用它的人。
卡帕西的方案指出了一条不同的路:知识库的核心竞争力不是检索,而是编译和积累。 产品该思考的问题不是”怎么让用户更快地找到答案”,而是”怎么让系统在每一次交互中都变得更好”。
这是一个范式转移。从”数据库思维”转向”生命体思维”。
有趣的是,这个思路如果继续推演下去,它最终指向的其实是一个更大的命题:AI和人类的关系,到底应该是工具关系还是共生关系?
传统知识库是工具——我用它的时候它是有用的,我不用的时候它就在那静静地躺着,不会因为我的使用而变得更好或更差。
卡帕西的Wiki是共生体的雏形——它因为我的使用而成长,我也因为它的存在而做出更好的决策。我们之间有一个正反馈循环。
这种关系,和我们与LLM本身之间的关系,走的其实是同一条路。只不过知识库这个场景,因为它足够轻、足够可控、足够透明(markdown文件,人随时可以看,随时可以改),反而成了最好的试验田。
也许若干年后回看,卡帕西这个看似简单的Wiki方案,会是”人机共生”这个大叙事里一个不起眼但很关键的节点。
不是因为它的技术有多先进,而是因为它第一次在实践层面,清晰地回答了那个根本性的问题:
人和知识库的关系,不应该是使用者和数据库的关系,而应该是一个人和他的第二大脑之间的关系——你塑造它,它也塑造你。