刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
DeepSeek 更新其R1推理模型至0528版本,提升性能并参加LMArena大模型公共基准测试平台的排行榜,DeepSeek-R1(0528)在文本、编程、数学等多个领域排名领先。
DeepSeek 更新其R1推理模型至0528版本,提升性能并参加LMArena大模型公共基准测试平台的排行榜,DeepSeek-R1(0528)在文本、编程、数学等多个领域排名领先。
r Science;曹峻泰是英属哥伦比亚大学研究生,主要研究兴趣集中在大模型推理和可解释性研究;本文
在金融科技智能化转型背景下,哈工大团队联合度小满发布EFFIVLM-BENCH,解决多模态大模型部署算力瓶颈问题。该平台提供统一评估框架,涵盖20多种高效化方法,覆盖多种前沿LVLM架构、任务和基准,揭示加速方案的适用场景差异与复杂性,并在GitHub开源以促进技术发展。
最近在 X 上冲浪发现一段袋鼠在飞机上吵架的视频被误认为真实,其实是由 AI 生成。AI 内容鉴伪工具 SynthID 可以识别谷歌系内容中的水印,但不适用于所有 AI 模型或第三方服务。
七个大模型在2025年数学新课标I卷中的成绩公布,Gemini 2.5 Pro表现最佳;小米开源模型MiMo-VL在7B参数下击败Qwen-3-235B。
本期通讯解读 Agentic AI 时代的流量入口变化。通用 Agent 并非唯一可能性,不同玩家通过语音指令、自然语言编程等路径争夺新入口。