月薪3500的AI程序员Devin一个月试用期都没过~
Devin 被测试的项目中只有 14% 成功完成,多数任务失败或结果不明。主要问题包括代码错误、难以理解的实现以及对复杂任务的理解不足。开发者主导的工作流程更为有效。
Devin 被测试的项目中只有 14% 成功完成,多数任务失败或结果不明。主要问题包括代码错误、难以理解的实现以及对复杂任务的理解不足。开发者主导的工作流程更为有效。
一周内国产大模型如InternLM3、MiniCPM-o 2.6等相继开源,涵盖多模态、数学推理等领域。阿里云通义千问团队则公布了Qwen2.5-Math-PRM/RM和Qwen2.5-VL两个新模型,展示了在数学推理和多模态处理上的进展。
OpenAI和Anthropic秘密开启了递归自我改进行动。OpenAI可能开发了GPT-5但选择内部保留;Anthropic的Claude Opus 3.5未发布或用于生成训练数据。专家认为未来O4/O5将能自动化研发。
Google提出Titans架构通过引入长期记忆模块增强模型处理长序列数据的能力,超越现有模型如GPT-4、Llama3.1-70B等,并结合适应性遗忘机制和门控遗忘来管理有限的记忆资源。
随着Agentic AI和OpenAI Agent应用的增多,多智能体协作系统(MASs)正朝着多个基于大型语言模型(LLMs)的智能体方向发展。未来的研究将聚焦于如何通过协作机制实现有效、高效的任务解决。
MiniCPM-o 2.6 是性能最佳的多模态大模型之一,支持视觉、语音和多模态流式能力达到GPT-4级别,并新增了可配置声音功能及情感/语速/风格控制等新特性。
Codestral 25.01 正式发布,优化了80多种编程语言支持,并在 LMsys Copilot 排行榜中排名第一(并列)。
香港大学提出MiniRAG,一种专为极简和高效设计的新型RAG系统,解决SLMs在语义理解和文本处理上的局限性。通过引入语义感知的异构图索引机制和轻量级拓扑增强检索方法,MiniRAG在使用SLMs时与基于LLM的方法性能相当,同时节省25%存储空间。