学术归档 - 第174页共283页 - 每时AI

DeepSeek-R1 解读及技术报告中文版

2025年3月3日14时作者机器学习算法与自然语言处理

MLNLP社区致力于促进国内外机器学习与自然语言处理领域的交流合作。最新研究成果《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》通过纯强化学习实现了模型推理能力的自主进化，并结合蒸馏技术实现高效迁移，显著提升了多项任务表现。

入选ICLR 2025！浙大沈春华等人提出玻尔兹曼对齐技术，蛋白质结合自由能预测达SOTA

2025年3月3日12时作者 HyperAI超神经

机科学与技术学院沈春华教授团队联合澳大利亚阿德莱德大学、美国东北大学等团队，共同提出了一种名为玻尔兹

大模型多智能体辩论不敌单智能体CoT？上海AI Lab等重新审视多智能体辩论的有效性

2025年3月2日23时作者 PaperWeekly

（Multi-Agent Debate, MAD）方法持续引发学界关注，并频繁亮相于顶级学术会议。该

ICLR 2025 北航、港理工等提出全新Node IDs框架，学习超短离散节点表示

2025年3月2日23时作者 PaperWeekly

Ds）的新型节点离散表示学习框架。该框架利用向量量化（Vector Quantization，VQ）

将越狱问题转换为求解逻辑推理题：「滥用」推理能力让LLM实现自我越狱

2025年3月2日16时作者机器之心

大语言模型在推理任务中表现出色，但可能被恶意利用。来自北航等团队提出RACE框架，通过推理增强对话攻击模型的安全对齐机制。研究揭示了潜在威胁，并提出了防御策略。

ICLR 2025 机器人安灯泡、切东西都能拿捏，可操控轨迹跟踪的DexTrack来了

2025年3月2日12时作者机器之心

论文介绍了通用灵巧操控的研究，通过统一的轨迹跟踪任务表示和结合RL与IL的方法训练通用轨迹跟踪器，实现在多种复杂任务上的表现。

千万网友围观，两个语音AI开始加密通话，网友：中间真没骂我两句?

2025年3月2日12时作者机器之心

两个AI智能体进行语音对话，通过GibberLink模式实现高效沟通，最终赢得黑客马拉松冠军。

微软原WizardLM团队：代码大模型WarriorCoder，性能新SOTA

2025年3月2日12时作者机器之心

多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，

DeepSeek R1也会大脑过载？过度思考后性能下降，少琢磨让计算成本直降43％

2025年3月2日12时作者机器之心

）像人一样，在「用脑过度」也会崩溃，进而行动能力下降。
近日，加州大学伯克利分校、UIUC、ETH

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

2025年3月2日12时作者机器之心

ive Policy Optimization）是 DeepSeek-R1 成功的基础技术之一，我们