<200元的o1复现,尽管对比
我是小冬瓜AIGC,原创超长文知识分享。手撕o1实现课程已帮助多名同学上岸,低成本完成o1类模型复现,环境4×4090训练7天内完成,成本低于200元。课程内容包括实操项目、RL/RLHF、LLM加速等专题,涵盖多种算法和模型训练实践。
我是小冬瓜AIGC,原创超长文知识分享。手撕o1实现课程已帮助多名同学上岸,低成本完成o1类模型复现,环境4×4090训练7天内完成,成本低于200元。课程内容包括实操项目、RL/RLHF、LLM加速等专题,涵盖多种算法和模型训练实践。
ReaderLM-v2 是一个拥有1.5B参数的语言模型,能够将HTML转换为美观的Markdown或JSON格式,并支持29种语言。它在生成复杂元素、使用预定义模式输出JSON以及处理长文本方面表现出色,并通过强化学习提升稳定性。
Devin 被测试的项目中只有 14% 成功完成,多数任务失败或结果不明。主要问题包括代码错误、难以理解的实现以及对复杂任务的理解不足。开发者主导的工作流程更为有效。
一周内国产大模型如InternLM3、MiniCPM-o 2.6等相继开源,涵盖多模态、数学推理等领域。阿里云通义千问团队则公布了Qwen2.5-Math-PRM/RM和Qwen2.5-VL两个新模型,展示了在数学推理和多模态处理上的进展。
OpenAI和Anthropic秘密开启了递归自我改进行动。OpenAI可能开发了GPT-5但选择内部保留;Anthropic的Claude Opus 3.5未发布或用于生成训练数据。专家认为未来O4/O5将能自动化研发。
Google提出Titans架构通过引入长期记忆模块增强模型处理长序列数据的能力,超越现有模型如GPT-4、Llama3.1-70B等,并结合适应性遗忘机制和门控遗忘来管理有限的记忆资源。
随着Agentic AI和OpenAI Agent应用的增多,多智能体协作系统(MASs)正朝着多个基于大型语言模型(LLMs)的智能体方向发展。未来的研究将聚焦于如何通过协作机制实现有效、高效的任务解决。
MiniCPM-o 2.6 是性能最佳的多模态大模型之一,支持视觉、语音和多模态流式能力达到GPT-4级别,并新增了可配置声音功能及情感/语速/风格控制等新特性。