NLP工程化，作者每时AI

专注于强化学习（RL）提升大语言模型（LLM）推理能力的资源库

2025年2月19日8时作者 NLP工程化

Awesome-RL-based-LLM-Reasoning 是一个专注于提升大语言模型推理能力的资源库，汇集了最新的相关论文、幻灯片和开源项目，涵盖多种RL方法和LLM推理优化技巧。

2025年2月19日8时作者 NLP工程化

阶跃星辰发布30B参数视频生成模型Step-Video-T2V，支持中英双语输入及可变长度视频生成，提供标准版和加速版。采用DiT架构与3D全注意力机制，使用DPO技术优化质量，配置推荐使用步骤推理步数及cfg_scale值。

2025年2月19日8时作者 NLP工程化

Awesome-Slow-Reason-System介绍了一种慢思考推理系统的前沿进展与实践，涵盖了50多篇最新研究成果，涉及多种技术如MCTS、RL等，并提供复现资源。

2025年2月19日8时作者 NLP工程化

业界首个能够生成RAP和哼唱的TTS模型Step-Audio-TTS-3B发布，标志着语音合成领域的一次重大进步。

2025年2月19日8时作者 NLP工程化

天工基于混元微调的图生视频模型支持400多种自然动作组合，专注于捕捉33种独特面部表情。

2025年2月18日8时作者 NLP工程化

中国研究员与DeepMind合作发布《Lavender》研究，仅需少量数据和注意力对齐技术便大幅提升多模态问答模型性能。

2025年2月18日8时作者 NLP工程化

微软发布OmniParser 2.0版本，能将屏幕截图转化为LLM可读结构化元素，提高多模态大模型的视觉识别准确度，并支持与多种语言模型集成。

2025年2月18日8时作者 NLP工程化

CodeWeaver 自动生成 Markdown 文档，支持正则表达式过滤文件和目录，提供详细路径记录功能。

2025年2月18日8时作者 NLP工程化

OpenAI 总裁 Greg Brockman 提出了一种目标明确、要求清晰的 o1 提示词撰写方法，旨在提升工作与沟通效率。文章以旧金山徒步路线为例，展示了如何通过具体目标来筛选和优化徒步路线信息。

2025年2月18日8时作者 NLP工程化

从零实现DeepSeek R1的强化学习项目，探索GRPO算法的应用，仅用单个H100 GPU400步训练提升模型性能，完全自研且提供多脚本结构。