o1圈卷起来,百川智能开源Baichuan-M1-14B~
国内首个全场景深度思考模型Baichuan-M1-preview发布,并开源了行业首个开源医疗增强大模型Baichuan-14B-M1,该模型在通用和医疗领域表现出色,具备语言、视觉和搜索能力。
国内首个全场景深度思考模型Baichuan-M1-preview发布,并开源了行业首个开源医疗增强大模型Baichuan-14B-M1,该模型在通用和医疗领域表现出色,具备语言、视觉和搜索能力。
国产大模型一周动态回顾,包括新发布的UI-TARS GUI Agent模型,这是一个集成了视觉语言模型的原生GUI代理系统,旨在实现端到端任务自动化。
检索增强生成(RAG)在开放域问答任务中表现出色,但传统搜索引擎可能只进行横向网页搜索,限制了大型语言模型(LLM)对复杂信息的处理能力。为了解决这一问题,提出WebWalkerQA作为评估LLM执行网页遍历能力的新基准,并引入WebWalker多代理框架模拟人类网页导航过程。
Kimi发布新一代多模态思考模型k1.5,其在数学、代码、视觉和通用能力测试中达到或超越了GPT-4等领先水平。训练过程包括预训练、监督微调以及强化学习三个阶段,重点展示了数据构建、长上下文扩展及策略优化技术。
《大语言模型基础与前沿》介绍了大语言模型的基础和前沿知识,并探讨了其方法、应用场景及对环境的影响。内容全面且系统性强,适合高年级本科生和研究生、博士后研究人员等阅读。
DeepSeek-R1正式发布,API上线、技术报告公开、开源8个模型,涵盖从小至32B的多种规模。报告亮点包括后训练RL和流水线开发技术,并证明了小模型也能达到强大性能。
我是小冬瓜AIGC,原创超长文知识分享。手撕o1实现课程已帮助多名同学上岸,低成本完成o1类模型复现,环境4×4090训练7天内完成,成本低于200元。课程内容包括实操项目、RL/RLHF、LLM加速等专题,涵盖多种算法和模型训练实践。
ReaderLM-v2 是一个拥有1.5B参数的语言模型,能够将HTML转换为美观的Markdown或JSON格式,并支持29种语言。它在生成复杂元素、使用预定义模式输出JSON以及处理长文本方面表现出色,并通过强化学习提升稳定性。
Devin 被测试的项目中只有 14% 成功完成,多数任务失败或结果不明。主要问题包括代码错误、难以理解的实现以及对复杂任务的理解不足。开发者主导的工作流程更为有效。
一周内国产大模型如InternLM3、MiniCPM-o 2.6等相继开源,涵盖多模态、数学推理等领域。阿里云通义千问团队则公布了Qwen2.5-Math-PRM/RM和Qwen2.5-VL两个新模型,展示了在数学推理和多模态处理上的进展。