Multi-Agent记忆系统MIRIX:比RAG性能飙升35%,存储减少99.9%

尽管现有的AI记忆方案存在局限性,MiRIX提出了多智能体记忆系统MIRIX,突破文本限制融合视觉和多模态体验,并由六种不同类型的记忆组成:核心记忆、情景记忆、语义记忆、程序记忆、资源记忆和知识库。通过动态控制更新与检索的设计,MIRIX在ScreenshotVQA测试中提高了35%的准确率,在LOCOMO对话基准测试中达到了85.4%的新性能。

「0污染」LLM理解基准来了!20000道题14个学科全覆盖,来自微软

MMLU-CF是微软亚洲研究院推出的一个新的多任务语言理解基准测试,旨在消除数据污染并提供更为公平、可靠的评估。该基准包含20,000道题目,涵盖14个学科领域,验证集公开透明,测试集闭源防泄露。研究人员通过去污染规则防止恶意数据泄露,并在Huggingface上开放了该数据集。