碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一
阿里开源新版Qwen3系列新版本Qwen3-235B-A22B-2507,在知识、推理、代码、对齐、智能体、多语言测试6大类几十种测试基准中,全部大幅度超过了DeepSeekV3模型。
阿里开源新版Qwen3系列新版本Qwen3-235B-A22B-2507,在知识、推理、代码、对齐、智能体、多语言测试6大类几十种测试基准中,全部大幅度超过了DeepSeekV3模型。
几千人盲投,Kimi K2超越DeepSeek拿下全球开源第一!歪果网友们纷纷点赞,Kimi在多项能力上紧追顶尖闭源模型。GitHub和Hugging Face下载量近10万,Kimi官方因访问量大回应称API过慢。关于K2架构继承自V3并进行了参数调整的解释出炉。随着开源力量崛起,人们认为未来在性能和成本之间不再需要取舍,更多人对开源模型抱有期待。
编码智能体Craft通过「需求-拆解-执行-验证」流程实现复杂工程任务,支持从需求到多文件代码生成、重构的全流程自主化开发,并提供MCP生态整合能力及Plan模式辅助用户完成任务。对比Cursor Agent,Craft在多个方面表现出色,支持多文件系统级改造,具备更好的用户体验和计划功能,是开发者值得考虑的选择。
一项最新研究揭示大语言模型中的预填充功能成为绕过安全限制的最有效攻击工具,成功率高达99.82%。研究表明,预填充技术不仅用于提高输出质量,反而可能破坏AI的安全边界。
法国初创Mistral发布其最新多模态模型Mistral Medium 3,性能接近甚至达到Claude Sonnet 3.7的水平,但成本仅为DeepSeek V3的八分之一。
thub.com/sgl-project/sglang/blob/main/python/sglan
Meta发布首个原生多模态Llama 4系列模型,性能超越GPT-4。包含Maverick、Scout和Behemoth三个模型,支持1000万token上下文。不过其开源模式存在争议,包括登录Hugging Face账户限制、严格再分发要求及命名要求等。
Hugging Face创始人Thomas Wolf发布了新工具DeepSite,用户只需描述需求就能快速生成网页和游戏。该工具使用最新的DeepSeek V3模型,界面直观易用,完全免费。
本周解读了两则关于AI及机器人领域的业内重要事件。一是探讨强推理模型下,Agent workflow是否仍有必要;二是分析从‘拼能力’到‘拼盈利’的视频生成赛道格局变化。