无需RLHF显著提升GPT-4性能,北大团队提出对齐新范式「残差修正」 NeurIPS 2024 Oral
学习对齐答案和未对齐答案之间的残差,要比直接学习问题到答案之间的映射更容易。
背景
当下大语言模型(
学习对齐答案和未对齐答案之间的残差,要比直接学习问题到答案之间的映射更容易。
背景
当下大语言模型(
AI4S攀登者行动计划旨在解决传统研究模式的限制,推动具有重大变革潜力的下一代技术。该计划聚焦发展跨学科颠覆式创新,并通过多维度的支持体系助力科研团队加速项目实施和价值转化。
近日,贾佳亚团队联手 Adobe 团队提出 GenProp 模型。GenProp 能完成几乎所有 ‘传播’ 任务,并能追踪实例(如影子、反射),弥补感知模型缺陷。它还能移除物体的 side effects,插入独立运动物体,进行物体替换和背景替换,以及编辑特效。
MLNLP社区发布《LLMs-from-scratch》汉化项目,致力于推动LNLMS学习与研究。该课程包含详细的Jupyter代码注释、精准术语翻译等内容,涵盖Transformer架构、序列建模等基础构建及深度学习模型的底层实现。
HyperAI超神经官网上线了『一键部署 Cosmos 世界基础模型』教程。Cosmos是一种用于物理感知视频生成的开放式扩散和自回归 Transformer 模型,基于2000万小时的真实数据训练而成。通过简单的步骤即可在 HyperAI超神经平台上运行 Cosm
os,方便用户尝试这一革新性的世界基础模型。
Meta员工在匿名社区发帖称,国内AI创业公司DeepSeek发布的DeepSeek-V3和DeepSeek-R1模型成本低廉、性能强劲,引发恐慌。该帖子提到DeepSeek-V3在多项评测成绩超越其他开源模型,并指出其训练成本仅为558万美元。
论文提出慢感知概念,通过分解和流动感知几何图形来提高视觉系统2的精细感知能力。研究显示,慢感知能提升模型对几何线段的解析能力,并在多种指标上优于基线方法。