Kimi 刚登顶,阿里连发两模型反击!国产大模型,卷疯了
最近国产大模型竞争激烈,阿里Qwen发布新版本Qwen3-235B-A22B-Instruct-2507及Qwen3-Coder。Qwen3-235B-A22B-Instruct-2507为纯非推理模型,性能优于Kimi K2和Claude 4 Opus;Qwen3-Coder采用MoE架构,支持代理式编程任务,并提供命令行工具以接入开发环境。
大语言模型
最近国产大模型竞争激烈,阿里Qwen发布新版本Qwen3-235B-A22B-Instruct-2507及Qwen3-Coder。Qwen3-235B-A22B-Instruct-2507为纯非推理模型,性能优于Kimi K2和Claude 4 Opus;Qwen3-Coder采用MoE架构,支持代理式编程任务,并提供命令行工具以接入开发环境。
港科大团队提出GuidedBench评估框架,系统评估LLM越狱攻击方法,并使用该框架对10种主流Jailbreak方法在5个主流模型上的成功率进行评估,结果发现没有一种方法的攻击成功率超过30%。
2025年7月23日,北京晴。文章介绍了多模态大模型在OCR生成任务和长文档问答数据集方面的进展。前者评估了最新多模态模型在多种OCR生成任务上的表现;后者则针对多页理解问题,通过开源数据集Doc-750K研究提升模型处理复杂文档的能力。
吴恩达在Y Combinator举办的AI Startup School上分享了《Building Faster with AI》,强调执行速度是创业成功的关键因素。他提出,AI时代创业更看重的是实际行动和快速试错的能力,而不是完美的点子或长期的技术研发。