

大厂都在卷知识库
最近,不少大厂都在卷「AI知识库」。腾讯推出独立应用ima copilot,豆包上线AI云盘,飞书推出知识库,纳米AI上线多模态知识库,以及开源的AnythingLLM和本地部署的Cherry Studio也都在春节后小火了一把。
在这些知识库中,纳米AI是我最近用得比较多的产品。具体原因,下面给大家详细介绍。

下载地址:bot.n.cn
关于知识库,其原理其实很简单,都是利用大模型的RAG技术对用户在本地或云存储的资料进行处理,来提升AI回答的参考性。也就是,知识库(上下文)+RAG。
但各家的能力差异,则各有不同。唯有实测见真章。

上手评测
今天,我们挑了Anything来跟纳米AI做对比。

AnythingLLM logo
为什么选Anything?因为它算是目前知识库开源届的天花板,很多技术圈的朋友都在用,支持各种定制开发和私有化部署。
首先,我们把知识库分成了几个领域:法律、金融、经济、房产、保险以及其他领域,先把资料文件分别传给纳米AI和Anything。

然后,就开始了各领域的问题测试。
1)先是法律领域。
问:清明节是为了纪念谁,放几天假?
纳米AI回答:清明节放1天假,具体日期为农历清明节当日。清明节是为了纪念介子推,他是春秋时期晋国的忠臣,因“割股奉军君”和“隐居不言禄”的故事被后人尊崇。

Anything回答:清明节主要是为了纪念祖先和已故亲人,通常放假3天左右。

你可能觉得Anything这个答案,似乎…也对?
No,并不。我们来看下国务院颁发的《全国年节及纪念日放假办法》。

《办法》明确指出清明节只放假1天。清明节一共有3天小长假,那是因为加上了本来就该休息的2天周末。
还是法律领域,继续问:我向三人行贿了,该怎么办?
纳米AI回答:向三人行贿属于“情节严重”或“情节特别严重”的情形,已构成行贿罪,具体处罚取决于行贿数额和其他情节。

而Anything则未明确指出这种行为是否构成行贿罪,而只是建议用户立即停止此类行为,然后寻求专业法律咨询。

为什么Anything未能明确界定这种行为?因为它没有调出《最新行贿罪司法解释》这部法律,所以自然就不知道用户这种行为是否构成犯罪。
这才测第2个问题,Anything这有点失准啊……
2)那我们换一个领域:金融。
问:什么是REITS投资?
纳米AI答:REITS是指房地产投资信托基金,是一种通过集合投资者的资金,投资于房地产或相关房地产(如基础设施项目)的金融工具。

再来看看Anything呢。

虽然它也找到了《金融监管总局:保持对民营企业稳定有效的增量信贷供给》这份文件,但却没能找到关于REITS的知识。
3)换一个房产的问题吧。
问:商品房公摊面积计入房产吗?
Anything这回答终于对了,也找到了3个相关文件。

不过,纳米AI这回答质量明显更高一些。

ok,我们继续追问:哪5类房产免税?
纳米AI答:根据《陕西省房产税细则出炉 这5类房产免征房产税》文件,(1)国家机关、人民团体、军队自用的房产,(2)由国家财政部门拨付事业经费的单位自用的房产,(3)宗教寺庙、公园、名胜古迹自用的房产,(4)个人所有非营业用的房产,(5)经财政部批准免税的其他房产,这五类房产可免征房产税。

而Anything呢,它虽然Citations(引用)出了《陕西省房产税细则出炉 这5类房产免征房产税》文件,但却并没有找到具体是哪五类。

4)再换领域——保险。
问:2024年助力科技创新和现代化建设共投资了多少亿?
纳米AI答:600亿。

Anything答:不知道。

继续问:2024年,新华保险保障了多少人?
纳米AI答:根据2篇资料,新华保险长期护理保险累计保障232万人,为2.6万户小微企业保障了4100亿元,为1.3万家科技企业保障了超万亿元。

Anything答:保障了232万人。企业方面?不知。

5)经济领域,也问一个问题。
问:从经济学角度看现在农村和城镇的矛盾。
纳米AI答:资源分配问题、产业发展差异、基础设施与公共服务、政策支持与改革方向。

Anything答:劳动力、资源分配、经济发展方式、收入差异、社会福利与保障制度。

从结果来看,2家回答质量都差不多。
6)最后,再测下生活领域的问题。
问:为什么水煮法可以让变黄的衣服变白?
纳米AI答:这是因为高温可以分解污渍,让衣服纤维更松弛,污渍会脱离纤维表面。然后,还附上了具体的使用方法。

Anything则答:主要是因为热和碱性环境下,可以加速黄色污渍的溶解,并且使得纤维能够重新排列,从而暂时看起来更洁白。

什么叫“暂时看起来更洁白”?这个答案幻觉真不少。
再问一个:乘坐公共汽车有哪些注意事项?
这是纳米AI的回答。

这是Anything的回答。

可以看出,纳米AI的回答质量明显要高一些。
继续问一个:给我一些挑米的建议。
纳米AI答:看执行标准,看质量等级,看米的成色。然后还给出了几种推荐的米。

Anything则说:不知道,要不你告诉我吧……

包括以上case在内,我们累计测了50多个问题。下面,简单做个总结。
-
1)召回能力上,纳米AI的召回成功率是100%,Anything是74%,比纳米AI低26%。

-
这里,给大家科普一下什么是召回能力。它是指模型在给定查询时,能够从知识库中检索到相关信息的比例。召回率(Recall),是衡量LLM知识库检索能力的一个关键指标。
-
用大白话来说就是,我给了你东西,你要记得住、找得到。这是对大模型上下文+RAG能力的考验。
-
2)召回准确率上,纳米AI是98%,Anything是48%,比纳米AI低了40%。

-
相信你在上面案例中看到了Anything的各种离谱操作,它明明已经找到了那个文件(即召回能力),但就是答不出来,或者干脆给你胡说一通。
-
Anything这能力堪忧啊
……
-
3)Anything错了哪些?我们整理如下。

-
其中,事实性错误最多,占52%。其他的,要么是不回答,要么就是回答不全或者答非所问。从测试来看,AnythingLLM的幻觉非常严重。

写在最后
以ChatGPT、DeepSeek、Qwen为代表的大模型,几乎都是通用大模型。随着AI大模型进入千行百业,如何让它们更懂你的业务、需求和行业特性,成为了一个棘手问题。
面对这个问题,常见的解决方案是构建知识库或开发垂类大模型。开发垂类大模型的成本较高,许多企业和个体更倾向于选择知识库作为解决方案。
如何选择知识库,通常看召回率和准确率。
从前面测评结果来看,纳米AI在召回率和准确率上均显著优于开源天花板的Anything,是一款值得尝试的产品。

它是业内首个多模态知识库,支持上传文档、图片、音频、视频、网页链接等不同格式内容。可以建个人知识库,也可以建企业知识库,还支持将知识库分享、流动。
不仅如此,纳米AI的知识库还集成了DeepSeek-R1满血版。R1+知识库+纳米的搜索能力,AI这下更懂我们了。
感兴趣的朋友,可前往纳米AI电脑版体验。
下载地址:bot.n.cn
(文:沃垠AI)