学术归档 - 第90页共283页

CVPR2025｜MCA-Ctrl：多方协同注意力控制助力AIGC时代图像精准定制化

2025年5月12日16时作者机器之心

本文提出了一种无需微调的通用图像定制方法——多主体协同注意力控制（MCA-Ctrl），通过扩散模型实现精确的背景和布局控制，解决了现有技术方案中的关键瓶颈。

2025年5月12日16时作者 PaperWeekly

MICAS 提出首个专为点云上下文学习设计的多粒度自适应采样方法，通过任务级和查询级采样提升 ICL 在 3D 多任务处理中的稳健性和适应性。

2025年5月12日16时作者机器之心

CMU 研究员开发出一种基于文本生成 3D 乐高的模型，其生成的乐高设计既稳定又可搭建，可在虚拟现实、游戏等领域实现应用。

2025年5月12日16时作者 PaperWeekly

音频输出，有效降低了体感延迟，但在生成首个音频片段时仍存在较高的等待时间，成为制约实时部署的关键瓶颈

2025年5月12日16时作者机器之心

CoRT（Chain-of-Recursive-Thoughts）结合递归思考与自我批判，提升语言模型推理能力。两周内GitHub星标数突破2k。

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

MLNLP
社区致力于推动国内外自然语言处理与机器学习领域的交流合作。近期，
Seed-Coder团队开发了一种能自我筛选数据的代码模型，该模型在多个测试中表现优异。

2025年5月12日11时作者 HyperAI超神经

不断累加，传统的数据处理方法已经难以应对。对此，俄罗斯科学院的研究人员，开发出一种基于机器学习的搜索

2025年5月11日16时作者机器之心

本周解读机器之心PRO会员通讯第19期，涵盖2项专题解析及29项AI&Robotics要事速递。重点讨论了Native多模态模型的训练过程差异以及早融合晚融合的优劣。

2025年5月11日16时作者机器之心

近期，可灵研究团队推出的CineMaster电影级文本到视频生成框架允许用户通过3D感知控制目标和相机运动来创作高质量视频内容。该方法在SIGGRAPH 2025会议中被收录，并展示了从任意视频中提取3D控制信号的数据构建流程。