代码生成
中科院提出DEER:让Reasoning提前退出,推理提速50% 准确率涨10%
MLNLP是国内外知名的机器学习与自然语言处理社区。旨在促进学术界、产业界和爱好者的交流合作。近期提出DEER技术来解决大型语言模型冗长推理的问题,通过监测思考转折词和置信度评估实现。
DeepSeek-R1-Zero被“轻松复现”?10%训练步数实现数学代码双领域对齐
通过SRPO方案,快手Kwaipilot团队在处理数学与代码混合数据时实现了效率和效果的双赢。SRPO结合了两阶段训练范式和历史重采样技术,仅用10%的训练步数,在AIME24和LiveCodeBench基准测试中超越了现有模型的表现。
速递|AI编程争夺战,GPT-4.1用32KToken输出上限碾压前代,却藏50%准确率滑坡
OpenAI发布了新的编码模型GPT-4.1,宣称其在代码生成和指令遵循方面表现卓越。该模型拥有100万token上下文窗口,并且能够处理约75万单词的内容长度。
Meta 你摊上事了!Llama 4 vs DeepSeek:谁才是最强开源模型?
Meta 新发布的Llama 4因基准测试成绩亮眼但遭用户质疑,称其实际表现不佳。Meta 因疑似数据污染技术而受到批评。此外,Meta的Llama 4 Maverick模型在多个任务如前端开发、逻辑推理等方面的表现也不尽人意。
DeepSeek V3“小版本更新”背后,V3和R1正在融合成一个模型
DeepSeek发布V3-0324版本升级,强调推理能力、前端开发能力、中文写作能力和搜索能力提升。此次更新注重实用性和用户需求,特别是代码生成和前端视觉设计能力显著增强,模型免费使用且参数较小。
DeepSeek发布V3更新:代码和审美有了质的提升,附5大维度测评
DeepSeek发布最新版本V3,代码生成能力及审美大幅提升,参数规模达到685B,已在官网等平台开放使用。新版本在数学推理、代码编写、知识问答等方面表现优秀,并支持上下文窗从64k提升至128k。