PaperWeekly
NeurIPS 2024 基于视觉-语言预训练模型的提示词微调理论分析框架
本文介绍了上海科技大学 YesAI Lab 在 NeurIPS 2024 发表的工作《Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method》。研究针对视觉-语言模型在联邦学习中的提示词微调提出理论分析框架,引入特征动力学理论并设计了PromptFolio机制,在平衡全局与个性化提示词的同时提升性能。
澳国立推出A³-CodGen框架:多维知识融合助力代码仓库级别代码生成
论文提出A³-CodGen框架,通过整合本地、全局和第三方库信息提升LLMs生成高质量代码的能力。该框架包括知识构建、三类知识检索及代码生成三个阶段。实验表明,全面知识增强显著提升了LLMs的复用能力和正确性。
KDD 2025 人大团队提出多任务贝叶斯联邦学习算法,同时处理分类和回归
本文介绍了一篇关于多任务贝叶斯联邦学习的文章,该文章在KDD 2025上被接收。通过结合局部设备下的多任务学习与全局水平的联邦学习,缓解了有限数据下的过拟合问题,并展示了其在分类和回归任务中的优越性能。
AAAI 2025 港大提出SparX:强化Vision Mamba和Transformer的稀疏跳跃连接机制
本文分享香港大学计算和数据科学学院俞益洲教授及其研究团队发表于 AAAI 2025 的论文——Spa
阿里、中科大等提出ExecRepoBench:仓库级可执行代码补全新基准
本文提出ExecRepoBench,一个面向仓库级代码补全的新测试基准,并设计了基于抽象语法树的多层次代码遮掩方法用于构造指令微调数据集Repo-Instruct。基于该数据集训练的Qwen2.5-Coder-Instruct-C模型在多项基准测试中表现优异。