中文网页检索挑战上线!GPT-4o准确率仅6.2%,这份新基准打脸所有大模型

港科大联合发布的新基准测试集BrowseComp-ZH显示,20多个主流大模型在中文网页检索任务中的准确率普遍低于10%,OpenAI的DeepResearch仅得42.9%。研究强调当前主流模型还需提升多轮搜索和信息整合能力。

WWW 2025 数据洪流→数据精炼:北理工等提出高效文本行人检索新范式

北京理工大学、澳门大学与新加坡国立大学联合提出Filtering-WoRA范式,实现无需全量训练的高效行人检索。该方法通过两阶段数据过滤和Weighted Low-Rank Adaptation(WoRA)显著减少模型参数并提高计算速度。

时隔两月,Mistral AI终于上新Medium 3,近期还有「One more thing」

Mistral Medium 3 是一款新的性能层级的语言模型,介于轻量级和大规模模型之间。它在关键基准测试中优于 GPT-4o 和 Claude 3.7 Sonnet。目前可通过 Mistral 的官网和 API 或其合作伙伴的 API 使用,且成本仅为开源模型的一小部分。

ICML 2025 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」

Sparse VideoGen 提出了一种无需重新训练模型的方法来加速视频生成过程。通过挖掘注意力机制中的空间与时间稀疏性,该方法成功将推理时间减半,并保持了接近原模型的视觉质量。