学术归档 - 第187页共283页

大模型强化学习新发现：删减84%数据反提升效果

2025年2月19日23时作者机器之心

多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，

仅用1.44M参数超越SOTA 4.5个点！小红书&中科大提出轻量高效的AI图像检测模型

2025年2月19日23时作者极市干货

仅用1.44M参数量实现了通用AI图片检测，研究团队提出SAFE方法，在33个测试子集上达到96.7%准确率，优于SOTA模型4.5个百分点。

200多行代码，复旦大学超低成本复现DeepSeek R1「Aha Moment」！

2025年2月19日16时作者 PaperWeekly

复旦大学知识工场实验室团队基于 GRPO 算法高效复现 R1-zero 自发反思能力，项目代码简洁、依赖简单，资源消耗低。

ICLR 2025 精度近乎无损！首个Mamba系列模型量化方案MambaQuant

2025年2月19日16时作者 PaperWeekly

uant: Quantizing the Mamba Family with Variance Al

撞车DeepSeek NSA，Kimi杨植麟署名的新注意力架构MoBA发布，代码也公开

2025年2月19日16时作者机器之心

机制 NSA；加上还有创始人兼 CEO 梁文锋亲自参与，一时之间吸引眼球无数，参阅报道《
刚刚！De

有望开发癌症新疗法！杜克大学用PepPrCLIP破解「不可成药」难题

2025年2月19日12时作者 HyperAI超神经

epPrCLIP，可以设计短蛋白质以结合和破坏以前无法用药的致病蛋白质。与使用目标 3D 结构生成肽

清华团队构建大型社会模拟器AgentSociety，推动智能社会治理与研究范式变革

2025年2月19日12时作者机器之心

多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，

Claude挣钱强于o1！OpenAI开源百万美元编码基准，检验大模型钞能力

2025年2月19日12时作者机器之心

OpenAI 推出并开源 SWE-Lancer 基准测试，用于评估 AI 大模型在现实世界软件工程任务中的表现。包含 1400 多个自由软件工程任务，总价值 100 万美元。包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在内的前沿模型未能解决大多数任务，仅 Claude 3.5 Sonnet 拿到最高报酬 403,325 美元。

DeepSeek V3+R1满血微调工具上线！一键启动，硬件要求降10倍

2025年2月19日12时作者机器之心

Colossal-AI 发布了大模型后训练工具箱，包含低成本监督微调解决方案及强化学习工具链等。通过 Colossal-AI 的一键启动脚本，用户可以快速完成 DeepSeek V3/R1 模型的微调，并支持多种硬件配置。同时，团队还验证并实现了 GRPO 算法及奖励设计方法用于深度学习模型优化。

ICLR 2025 Spotlight 让城市「动」起来！DynamicCity突破4D大场景生成技术边界

2025年2月19日12时作者机器之心

多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31