Vector数据库退位，AI记忆Memvid登场！

近期一个基于视频的AI记忆库Memvid大火（目前7.2k star），并宣称要彻底革新了AI记忆管理。它将数百万个文本片段存储在MP4文件中（没错，是MP4），实现闪电般（不到一秒）快速的语义搜索，无需数据库（No database needed）。

与传统解决方案的比较

从文档构建记忆

from memvid import MemvidEncoderimport os
# Load documentsencoder = MemvidEncoder(chunk_size=512, overlap=50)
# Add text filesfor file in os.listdir("documents"):    with open(f"documents/{file}", "r") as f:        encoder.add_text(f.read(), metadata={"source": file})
# Build optimized videoencoder.build_video(    "knowledge_base.mp4",    "knowledge_index.json",    fps=30,  # Higher FPS = more chunks per second    frame_size=512  # Larger frames = more data per frame)

高级搜索与检索

from memvid import MemvidRetriever
# Initialize retrieverretriever = MemvidRetriever("knowledge_base.mp4", "knowledge_index.json")
# Semantic searchresults = retriever.search("machine learning algorithms", top_k=5)for chunk, score in results:    print(f"Score: {score:.3f} | {chunk[:100]}...")
# Get context windowcontext = retriever.get_context("explain neural networks", max_tokens=2000)print(context)

有网友对Memvid技术进行了分析，并给出了测试报告（链接在文末）：

它仍然在底层使用FAISS进行向量搜索，所以这里没有什么新东西或革命性的内容。
它将文本片段作为二维码存储在mp4文件的视频帧中，因此写入速度非常慢，读取速度比纯文本文件慢4倍。
最终的视频文件也比压缩过的txt文件大得多。

我承认这是一个很酷的项目，但它绝对不是RAG的革命性和改变游戏规则的解决方案。

❌❌❌Memvid仓库的issues也有性能警告测试预警，该库的性能与README中声称的完全相反：

文本将占用100倍的磁盘空间
搜索速度将降低5倍
设置需要数小时，而不是几分钟

https://github.com/Olow304/memvid测试与分析报告 https://github.com/janekm/retrieval_comparison/blob/main/memvid_critique.md

（文：PaperAgent）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

发表评论 取消回复

发表评论取消回复