从卡片到 Agent：搜索百年演化史

前几天，纳米开了一场发布会，老周演示了「超级搜索智能体」

“2025 年新能源汽车补贴政策取消后，汽车行业格局预计会发生哪些变化？”

一段时间后，30页报告完成：带图、注释、引用

放在几年前，这是：「未来已来」
放在现在，这是：「Agent 默认感」

正是这种默认感，让我意识到
我们已经很久，没自己找过信息了

本文非教程，来聊:「搜索演化史」

目录系统

在今天，查资料不过是「搜一下」
在过去，查资料确是难如登天

想象一下，你回到上世纪初
如果找一份关于「辛亥革命」的材料
该怎么办？

你可能会想：
走进图书馆，跟管理员说：「清末革命，讲武昌起义那场」

想得美…找资料没那么简单
档案管理，资料浩如烟海，层层叠叠

正确的流程，是这样：
一、先去查卡片柜：这里一整柜小卡片，记录着书名、作者、主题、馆藏位置
二、再去找索引：「清末」-「民国初年」-「辛亥革命」
三、记录下编号和位置：2楼，3排，5号书架，6层，编号 114514
四、跑过去，看看在不在：如果被借走了，那就明儿再来

图书馆目录卡系统，是那个时代的「搜索引擎」：结构化、可查找，但完全依赖人工。

这东西，所有卡片都是人来维护，可用性，取决于执行者的专业性

这种方法，虽然效率低，但却是当时唯一能让知识「被找到」的方法

1918年，北大图书馆
有位图书管理员，在整理各种刊物《申报》《京报》《大公报》，还有英文日文刊物…

他熟悉报刊种类，清楚时效来源，知道如何摆放检索

他广泛阅读各种刊物，博闻强识，为广大师生提供服务

这个人是毛主席

文本检索

时间到了二战后
东西角力，科技爆发
知识、论文、报告爆炸增长
信息膨胀，人工整理跟不上了

还是查「辛亥革命」
不用翻抽屉了
而是通过计算机，输入类似：

"辛亥革命" AND "武昌起义" NOT "北洋军阀"

（当然，这并不是 SQL）

这是早期的「机器搜索」

用逻辑表达式、布尔运算、关键词精确匹配来匹配信息，让机器成为信息的入口

进一步的突破，来自 Gerard Salton，现代搜索技术之父

他在 60 年代开发出了 SMART，真正的文本检索系统：

• 把每篇文档看成一串词语的集合
• 计算关键词的出现频率（TF）和稀有程度（IDF）
• 用数学方法把文本转成”向量”，算出文档和查询的”距离”

换句话说
SMART 不是筛选匹配，而是寻找「哪篇最相近」

比如你搜「辛亥革命」，返回可能包括：清末史教科书、清政府财政困境论文、张之洞思想访谈

标题看上去可能没啥关系，但内容上相似度极高

现代的各类搜索引擎，其底层原理都可以追溯到 SMART
自此，信息不再是被存起来的档案，而是可以被算出来的资源

SMART: System for the Mechanical Analysis and Retrieval of Text

信息检索，也从人工经验变成了数学计算

网络搜索

最早的网上冲浪，没有搜索，纯靠翻阅。

门户网站是当时的主流，Yahoo 是当时的王者。国内也有所谓「三大门户」：网易、新浪、搜狐。

用户翻栏目、点频道，一层层进去

最开始还能维护，但内容一多就难办了：
更新不及时、分类不统一、死链泛滥

搜索引擎因此而生，最知名的便是谷歌：
你说关键词，获得相关的网页

搜索方法也很暴力：
关键词匹配，后面还加了 PageRank 等方法，让排序更加准确

真正的变化发生在 2010 年前后：搜索开始理解人话了

Google 上线了 Knowledge Graph，可以直接显示答案

你搜“乔布斯妻子”，它不光返回网页，还在顶部给出了”摘要”

微软的 Bing 也做了类似尝试，百度那时候也开始引入问答卡片
都在尝试告诉”你想知道的答案”

这一阶段也出现了不走寻常路的产品

比如 Wolfram Alpha，它不是去找网页，而是从知识库里直接算。你问它”光速是多少”，它不会推荐百科，而是返回一个公式计算出来的结果
不是搜索，是推导

Manus 的联合创始人季逸超（Peak），之前做了个项目叫 Magi 并成功被收购，方法也是从网页中抽取结构化知识，并进行结构化展示

须知：每一代技术都有它的局限

门户能让你看到内容，搜索能让你找到内容，语义理解能提炼内容。

它们都还只是”告诉你”，还没有”替你去做”

AI 时代

2022年11月30日，ChatGPT上线。

几天后，朋友圈、知乎、即刻开始试着「让它写点什么」
写年终总结、写邮件模板、写开场白、写月报
语气自然、段落清楚，确实不错

人们开始问它各种问题
“光速是多少？”
“哥白尼是哪国人？”…
都答得上来，逻辑清晰，用词贴切

问题很快浮现：胡言乱语
“这些数据有出处吗？”
GPT 会开始自信地胡编乱造：打不开的网页，不存在的文献…

AI并不是查到了信息，而是基于训练数据生成了看似合理的答案。

为解决这个问题，AI被接入了搜索功能

方法相当粗暴：提取关键词、调用搜索API、获取网页片段、掺入对话正式生成

本质是在大模型的生成能力上，叠加了传统搜索的信息获取

虽然粗暴，这种叠加的效果确实不错

从检索到理解

真正的变化始于2023年中，AI搜索开始向智能体（Agent）方向演进：尝试进行任务规划。这里顺道说一下，任务规划这东西，有两种实现方式：直接做到模型中（比如 OpenAI 的 o1/o3…），或者通过外部工程化的方式，坐在产品里（比如 Manus)

如果说传统搜索是单次查询，智能体则会将复杂需求拆解成任务树，再加上点 React，最知名的当属「OpenAI DeepResearch」

比如「分析新能源车市场」，会被拆解为：市场规模数据、主要厂商份额、技术路线对比、政策影响分析等多个子任务。

至于其它示例，以「纳米 AI 超级搜索智能体」为例

每个子任务不是孤立的，而是相互关联，甚至是能回退&重新规划的

当发现「2024年销量数据」存在多个版本时，系统会启动新的验证任务：
查找官方统计口径、对比不同数据源、分析差异原因

循环推理机制，让搜索有了初步的思考能力
它不再是机械地返回结果，而是会判断信息的完整性、可信度，以及是否需要进一步挖掘。

跨越信息孤岛

网络上的信息，是一个个孤岛

学术论文在专业数据库，用户评价在电商平台，真实反馈在社交媒体，专业讨论在垂直论坛

在层层拆解复杂任务的同时，「纳米AI超级搜索智能体」通过深度搜索能力，打破平台间的“信息围墙”，实现跨平台搜索，方便用户决策

新一代搜索通过两种方式打破围墙：

一方面是数据突破：通过浏览器自动化、API集成、内容解析等技术，实现对不同平台的统一访问。系统能够理解网页结构、提取关键信息、处理动态内容。

一方面是语义理解：不同平台的信息表达方式差异很大——论文的严谨表述、社交媒体的口语化、电商评论的情绪化。AI需要理解这些差异，提取真正有价值的信息。

比如查询一个医疗问题，系统会综合：专业论文的研究结论、医生社区的临床经验、患者论坛的真实案例、药监部门的官方信息。不同来源相互印证，形成更全面的认知。

从信息到执行

搜索的演进不止于找到信息，更重要的是完成任务

这需要三个层次的能力：

理解层，准确理解用户意图：「帮我做个PPT」背后，可能是要做项目汇报、产品介绍或者是数据分析。不同场景需要不同的处理逻辑。

规划层，将意图转化为可执行的步骤：制作PPT需要：确定框架、收集素材、整理数据、设计版式、生成内容。每一步都可能需要不同的工具和数据源。

执行层：调用具体工具完成任务：这包括文档生成、数据可视化、图像处理等。关键是这些工具的调用是自动的、连贯的，用户无需逐步操作。

图片：纳米AI工作流程可视化界面

你会发现，思考的整个过程是透明的：用户能看到系统的推理过程、数据来源、执行步骤。这种透明性既保证了可控性，也便于用户理解和调整。

尾声

回到开头那个「默认感」

• 以前，我们默认要自己找
• 现在，我们默认有人帮我们做

从图书馆的卡片、到AI的理解

一百年来，我们都在回答一个问题：
怎么能最少动一下，就让知识为我所用、为我所动

这个门槛，每一代都会变得更低
现在的我们，不再说“拨号上网”、不再说“翻电话本”

或许未来的人们，也不会再说“搜一下”
他们会说什么？或许什么都不说

最好的技术，是看不见的技术

（文：赛博禅心）

2025 年 11 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30