睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升
UC伯克利研究者提出”睡眠时计算”技术,让AI模型在空闲时间提前思考,从而提升推理效率。通过减少测试时计算量和降低查询成本,模型可在保持准确率的同时,大幅减少资源消耗。
UC伯克利研究者提出”睡眠时计算”技术,让AI模型在空闲时间提前思考,从而提升推理效率。通过减少测试时计算量和降低查询成本,模型可在保持准确率的同时,大幅减少资源消耗。
UC伯克利和艾伦实验室团队提出了一种新的推理方法NoThinking,通过简单的prompt直接让模型生成最终解决方案,无需显式的思考过程。结果显示,在低资源情况下,NoThinking方法在多个任务上的表现优于传统Thinking方法,并且具有更高的效率。
英伟达等机构发布首个多模态模型DAM,仅3B参数即可精准描述图像和视频中的任何细节。通过焦点提示和局部视觉骨干网络创新,生成更详细、准确且连贯的描述。
研究提出「描述一切模型」(DAM),能生成图像或视频中特定区域的详细描述。用户可通过点、框等方式指定区域,DAM则提供丰富的上下文描述。此模型在多个任务中均表现优异,并支持多粒度输出。
UC伯克利研究发现,强制要求模型跳过思考过程仍能保持或提高推理能力。使用DeepSeek-R1模型,在定理证明任务中仅需30%的Token就能达到与完整思考相同的准确率。
前苹果ASIC架构师Nils Graef与UC伯克利本科生Andrew Wasielewski提出Slim Attention,通过只存储K而不直接存储V实现更少的内存占用和更高精度。
近期伯克利等机构提出COAT方法,通过动态范围扩展和混合粒度FP8精度流技术,在保持模型精度的同时显著减少FP8量化误差及激活值占用,实现了端到端内存占用减少1.54倍、训练速度提高1.43倍。
OpenThinker-32B 是由斯坦福、UC伯克利等机构联合发布的 SOTA 级推理模型,仅需 1/8 数据就与 DeepSeek-R1 达成同等性能。项目使用精心选择的验证数据集,并通过数据规模化、推理过程验证和模型规模扩展的方法实现。
UC伯克利团队通过RL微调改进Deepseek-R1-Distilled-Qwen-1.5B,使其在AIME基准上Pass@1准确率高达43.1%,参数量仅为1.5B且超越OpenAI o1-preview。