ToMAP:赋予大模型「读心术」,打造更聪明的AI说服者

本文提出了一种名为ToMAP的新模型,它结合了心智理论机制以增强语言模型在说服任务中的表现。通过引入反驳预测器和态度预测器两大模块,ToMAP能够预判对方可能提出的反论点并评估其态度变化,从而实现更具个性化、灵活性和逻辑性的说服过程。

ICML 2025 细粒度奖励建模:判别式策略优化下的Q-RM方法

近日,中山大学计算机学院与腾讯微信搜索团队联合提出 Q-RM(Q-function Reward Model),在 ICML 2025 正式发表。这一方法专注于构建更精确的 token-level 奖励信号,显著提升了大语言模型的训练效率和效果。

CVPR’25 workshop冠军方案!中科院&字节Seed提出BridgeVLA:视觉干扰、任务组合等泛化场景轻松拿捏

中科院自动化所与字节跳动联合提出BridgeVLA,通过将预训练和微调的输入输出对齐到统一的2D空间来改进3D VLA模型设计,大幅提高了数据效率和任务成功率。