ICML 2025 细粒度奖励建模:判别式策略优化下的Q-RM方法

近日,中山大学计算机学院与腾讯微信搜索团队联合提出 Q-RM(Q-function Reward Model),在 ICML 2025 正式发表。这一方法专注于构建更精确的 token-level 奖励信号,显著提升了大语言模型的训练效率和效果。

TIP 2025 从噪声图像到精准报告:CMCRL两阶段因果框架重构医疗多模态学习

论文提出CMCRL框架解决放射学报告生成任务中的挑战,包括长序列文本生成、病灶定位和视觉-语言偏倚问题。通过两阶段设计有效捕捉并校正跨模态数据中的偏倚,显著提高准确率和临床可信度。

通杀主流LLM!用知识图谱“撬开”大模型安全门,黑盒越狱新范式HBS-KGLLM发布

南京航空航天大学团队提出HBS-KGLLM框架,通过增强知识图谱挖掘有害信息结构化知识,实现有效探测LLMs的安全性能。该方法成功率高、成本低,并已在多款主流模型上测试表现优异。