月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1
Kimi-Dev-72B是首个在SWE-bench Verified编程基准测试中取得全球最高开源模型成绩的代码大模型,参数量仅为72B。通过大规模强化学习优化,Kimi-Dev-72B不仅能在错误修复和单元测试方面表现出色,还支持自我博弈机制以同时担任BugFixer和TestWriter的角色。
Kimi-Dev-72B是首个在SWE-bench Verified编程基准测试中取得全球最高开源模型成绩的代码大模型,参数量仅为72B。通过大规模强化学习优化,Kimi-Dev-72B不仅能在错误修复和单元测试方面表现出色,还支持自我博弈机制以同时担任BugFixer和TestWriter的角色。
文章推荐了咕泡科技的一站式科研辅导服务,帮助解决科研过程中选题、实验设计及验证、创新点设计等问题。导师会从多个方面进行细致指导,并提供快速投稿支持和高资质专家的配套服务,适合多种科研需求人群。
iMeanAI Coyage 是一个基于AI的新平台型产品,它不仅能帮用户搜索航班、预订酒店,还能识别用户的意图并自动组合行程,提供最优方案。通过智能决策和风险提示,帮助用户避免高峰时段和潜在问题。
今天是2025年6月16日,星期一,北京晴。文章提到了DeepResearch Bench评测和E^2GraphRAG提速思路的两个项目。DeepResearch Bench包含100个博士级别任务,评估了四种早期发布的Agent。而E^2GraphRAG提出了在索引阶段构建摘要树和实体图,并在检索阶段利用自适应检索策略来提高效率和效果。