学术归档 - 第94页共283页

中文网页检索挑战上线！GPT-4o准确率仅6.2%，这份新基准打脸所有大模型

2025年5月8日16时作者 PaperWeekly

港科大联合发布的新基准测试集BrowseComp-ZH显示，20多个主流大模型在中文网页检索任务中的准确率普遍低于10%，OpenAI的DeepResearch仅得42.9%。研究强调当前主流模型还需提升多轮搜索和信息整合能力。

2025年5月8日16时作者 PaperWeekly

北京理工大学、澳门大学与新加坡国立大学联合提出Filtering-WoRA范式，实现无需全量训练的高效行人检索。该方法通过两阶段数据过滤和Weighted Low-Rank Adaptation（WoRA）显著减少模型参数并提高计算速度。

2025年5月8日16时作者机器之心

Mistral Medium 3 是一款新的性能层级的语言模型，介于轻量级和大规模模型之间。它在关键基准测试中优于 GPT-4o 和 Claude 3.7 Sonnet。目前可通过 Mistral 的官网和 API 或其合作伙伴的 API 使用，且成本仅为开源模型的一小部分。

2025年5月8日16时作者机器之心

真理：出门旅游，光靠一腔热情远远不够。
翻了三十个小红书帖子，打开十几个 App 对比攻略，还没出发

2025年5月8日16时作者 PaperWeekly

且在一些模型上取得了优于监督微调（SFT）的成果。
RFT 利用可验证的奖励进行训练，鼓励模型在回答

2025年5月8日11时作者 HyperAI超神经

和慕尼黑工业大学的研究人员共同提出了一个专为 3D 血管分割而设计的基础模型 vesselFM，在零

2025年5月8日11时作者机器之心

rning with Verifiable Rewards（RLVR）范式下涌现出一批
「Zero

2025年5月7日23时作者机器之心

Sparse VideoGen 提出了一种无需重新训练模型的方法来加速视频生成过程。通过挖掘注意力机制中的空间与时间稀疏性，该方法成功将推理时间减半，并保持了接近原模型的视觉质量。

2025年5月7日23时作者机器之心

符号逻辑推理的有效性与普遍性，
提升大模型的逻辑推理能力
成为解决幻觉问题的关键途径。
为推进大语言

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进