大模型归档 - 第6页共147页 - 每时AI

Kimi 刚登顶，阿里连发两模型反击！国产大模型，卷疯了

2025年7月24日14时作者 AI信息Gap

最近国产大模型竞争激烈，阿里Qwen发布新版本Qwen3-235B-A22B-Instruct-2507及Qwen3-Coder。Qwen3-235B-A22B-Instruct-2507为纯非推理模型，性能优于Kimi K2和Claude 4 Opus；Qwen3-Coder采用MoE架构，支持代理式编程任务，并提供命令行工具以接入开发环境。

史上最强AI代码大模型发布

2025年7月24日12时作者路过银河AI

0B-A35B-Instruct 与 Qwen3-235B-A22B-Instruct-2507 。

ACL 2025 AI唱歌也内卷？浙大开源发布TCSinger2，多语言歌声零样本自由定制

2025年7月23日16时作者 PaperWeekly

音频或文本提示，生成具有未见过的多级别风格的高质量歌声。该领域在专业音乐创作和短视频配音方面具有广泛

Jailbreak迎来“最后一卷”？港科大用“内容评分”重塑大模型越狱评估范式

2025年7月23日16时作者 PaperWeekly

港科大团队提出GuidedBench评估框架，系统评估LLM越狱攻击方法，并使用该框架对10种主流Jailbreak方法在5个主流模型上的成功率进行评估，结果发现没有一种方法的攻击成功率超过30%。

多模态大模型在OCR生成上表现如何？多页文档理解数据集Doc-750K

2025年7月23日14时作者老刘说NLP

2025年7月23日，北京晴。文章介绍了多模态大模型在OCR生成任务和长文档问答数据集方面的进展。前者评估了最新多模态模型在多种OCR生成任务上的表现；后者则针对多页理解问题，通过开源数据集Doc-750K研究提升模型处理复杂文档的能力。

大模型应用开发的本质——就是对提示词的封装

2025年7月23日14时作者 AI探索时代

大模型应用开发的核心是围绕提示词进行业务能力封装。除了提示词外，还包括上下文管理、工具集成、状态流程管理和性能优化等工程化工作。

吴恩达 YC 最新演讲：真正杀死 AI 创业者的，是“想太久”

2025年7月23日14时作者 AI信息Gap

吴恩达在Y Combinator举办的AI Startup School上分享了《Building Faster with AI》，强调执行速度是创业成功的关键因素。他提出，AI时代创业更看重的是实际行动和快速试错的能力，而不是完美的点子或长期的技术研发。

超越DeepSeek和Kimi K2，史上最强开源大模型发布

2025年7月23日12时作者路过银河AI

，阿里发布了新版的Qwen3，一举超过了Kimi K2和DeepSeek，成为最为强大的开源大模型（

ACL 2025 过程奖励模型深陷“信任泥潭”，PRMBench撕开伪高精度面具

2025年7月22日23时作者 PaperWeekly

（PRMs）的赋能。PRMs 作为 LLMs 进行多步推理和决策的关键“幕后功臣”，负责评估推理过程

智能搜索要变天了？AI Search Paradigm登场，多智能体协同搞定复杂Query

2025年7月22日23时作者 PaperWeekly

m》，是第一篇提出完整 AI 搜索概念、详细介绍 AI 搜索算法实现并在亿级日活用户规模的搜索场景落