学术归档 - 第72页共283页

全靠Claude4！30年FAANG老工程师：AI帮我解决了4年老bug

2025年5月27日23时作者机器之心

AI 模型 Claude Opus 4 成功解决了程序员多年的 Bug，展示了其在复杂代码任务中的强大能力。虽然 AI 可能会替代某些工作，但与人类结合使用仍可发挥巨大作用。

2025年5月27日23时作者极市干货

本文介绍了一种名为AnomalyAny的创新框架，利用Stable Diffusion生成能力仅需单个正常样本和文本描述即可生成逼真且多样化的异常样本，解决了视觉异常检测中异常样本稀缺的问题。

2025年5月27日16时作者机器之心

本文介绍的研究团队将语言模型 LLaDA 拓展至多模态领域，推出扩散大语言模型 LLaDA-V。该模型在多个基准测试中表现出色，并展示了扩散模型在多模态理解领域的巨大潜力。

2025年5月27日16时作者机器之心

帮助该公司制定了 AI 战略，某种程度上也改变了全世界的大模型格局。然而，令人意想不到的是，短短几年

2025年5月27日16时作者机器之心

北京大学宋国杰教授团队综述论文首次系统梳理大语言模型心理测量学，提出三大革新方向，涵盖评估原则变革、新范式设计与应用项目反应理论。

2025年5月27日16时作者机器之心

上海交大等团队推出Visual-ARFT项目，专为视觉语言模型设计多模态智能体训练方法，实现图像理解与操作能力。项目开源并测试表明其在复杂任务中超越GPT-4o，展现强大工具调用和推理能力。

2025年5月27日16时作者 PaperWeekly

现。但过度依赖思维链（CoT）推理会降低模型性能，产生冗长输出，影响效率。
研究发现，长 CoT 推

2025年5月27日16时作者机器之心

理能力。然而，RL 在推理任务之外的应用，尤其是在目标检测和目标定位等感知密集型任务中的应用，仍有

2025年5月27日16时作者 PaperWeekly

信赖，可能远远不够。
你是否知道：
评估一个大模型完整跑完一套标准测试（如 HELM），可能耗时超过

2025年5月27日16时作者机器之心

本文提出了一种新的端到端视觉 tokenizer 调优方法 ETT，解决了传统方法存在的问题，显著提升了多模态任务的性能。