Kimi 刚登顶,阿里连发两模型反击!国产大模型,卷疯了

最近国产大模型竞争激烈,阿里Qwen发布新版本Qwen3-235B-A22B-Instruct-2507及Qwen3-Coder。Qwen3-235B-A22B-Instruct-2507为纯非推理模型,性能优于Kimi K2和Claude 4 Opus;Qwen3-Coder采用MoE架构,支持代理式编程任务,并提供命令行工具以接入开发环境。

Jailbreak迎来“最后一卷”?港科大用“内容评分”重塑大模型越狱评估范式

港科大团队提出GuidedBench评估框架,系统评估LLM越狱攻击方法,并使用该框架对10种主流Jailbreak方法在5个主流模型上的成功率进行评估,结果发现没有一种方法的攻击成功率超过30%。

多模态大模型在OCR生成上表现如何?多页文档理解数据集Doc-750K

2025年7月23日,北京晴。文章介绍了多模态大模型在OCR生成任务和长文档问答数据集方面的进展。前者评估了最新多模态模型在多种OCR生成任务上的表现;后者则针对多页理解问题,通过开源数据集Doc-750K研究提升模型处理复杂文档的能力。

吴恩达 YC 最新演讲:真正杀死 AI 创业者的,是“想太久”

吴恩达在Y Combinator举办的AI Startup School上分享了《Building Faster with AI》,强调执行速度是创业成功的关键因素。他提出,AI时代创业更看重的是实际行动和快速试错的能力,而不是完美的点子或长期的技术研发。