阶跃星辰刚刚开源了其30B参数视频生成模型:Step-Video-T2V
阶跃星辰发布30B参数视频生成模型Step-Video-T2V,支持中英双语输入及可变长度视频生成,提供标准版和加速版。采用DiT架构与3D全注意力机制,使用DPO技术优化质量,配置推荐使用步骤推理步数及cfg_scale值。
阶跃星辰发布30B参数视频生成模型Step-Video-T2V,支持中英双语输入及可变长度视频生成,提供标准版和加速版。采用DiT架构与3D全注意力机制,使用DPO技术优化质量,配置推荐使用步骤推理步数及cfg_scale值。
Awesome-Slow-Reason-System介绍了一种慢思考推理系统的前沿进展与实践,涵盖了50多篇最新研究成果,涉及多种技术如MCTS、RL等,并提供复现资源。
中国研究员与DeepMind合作发布《Lavender》研究,仅需少量数据和注意力对齐技术便大幅提升多模态问答模型性能。
微软发布OmniParser 2.0版本,能将屏幕截图转化为LLM可读结构化元素,提高多模态大模型的视觉识别准确度,并支持与多种语言模型集成。
OpenAI 总裁 Greg Brockman 提出了一种目标明确、要求清晰的 o1 提示词撰写方法,旨在提升工作与沟通效率。文章以旧金山徒步路线为例,展示了如何通过具体目标来筛选和优化徒步路线信息。
从零实现DeepSeek R1的强化学习项目,探索GRPO算法的应用,仅用单个H100 GPU400步训练提升模型性能,完全自研且提供多脚本结构。
微软推出的PIKE-RAG旨在提高大型语言模型在复杂工业应用中的性能,其亮点包括在HotpotQA上的高准确率、多领域知识支持及灵活的模块化设计。