邱锡鹏老师团队发现SFT与DPO破壁统一:内隐奖励作为桥梁
本文探讨了SFT与DPO的理论关联及其改进方法,提出小学习率策略与基于f散度的新目标可显著提升LLM性能,揭示隐式奖励在两者优化中的作用,并为未来统一框架提供了基础。
本文探讨了SFT与DPO的理论关联及其改进方法,提出小学习率策略与基于f散度的新目标可显著提升LLM性能,揭示隐式奖励在两者优化中的作用,并为未来统一框架提供了基础。
上海交通大学科研团队在AI设计热辐射超材料方面取得突破,研发的逆向设计AI模型能在短时间内生成大量候选设计方案,并从中选出最优方案。该技术有望应用于建筑节能和极端环境温控等领域。
这是一个简单的科研和播客生成项目,使用LangGraph与谷歌Gemini 2.5模型系列结合三个实用功能。用户可以输入科研主题并提供YouTube视频URL,系统会搜索研究主题、分析视频,并生成带有引用的报告及短播客。
上海交通大学联合团队提出MAS-GPT,通过生成式设计范式简化多智能体系统构建,只需一句Query就能生成一套可执行的MAS。MAS-GPT已在多个基准任务上超越现有方法,展示了高效和泛化能力。