谷歌首款混合推理Gemini 2.5登场,成本暴降600%!思考模式一开,直追o4-mini
谷歌发布首个混合推理模型Gemini 2.5 Flash,引入了革命性”思考预算”功能,性能显著提升,在多个基准测试中表现优异。
谷歌发布首个混合推理模型Gemini 2.5 Flash,引入了革命性”思考预算”功能,性能显著提升,在多个基准测试中表现优异。
Anthropic联合创始人兼首席科学家Jared Kaplan预测人类水平AI可能在2-3年内实现。Kaplan认为模型智能提升、上下文窗口扩展以及强化学习使AI能力快速扩展,Claude 4将在六个月内发布,DeepSeek等实验室也在迅速进步。
Cursor v0.48增加自定义模式功能,并在Windows平台上提高了MCP稳定性。新增的工具如Codebase、Web搜索等功能增强了Search模块。用户可以在设置中启用和配置自定义模式。
昨晚,DeepSeek发布新版本V3.0324,参数增至685B,在Hugging Face上开源且MIT许可。其网页生成能力显著提升,实测代码能力与Claude 3.7相当,但超越了Claude 3.7和GPT-4.5的数学能力和编程能力。
在科技界一片喧嚣之中,DeepSeek团队发布了V3基座模型的新版本DeepSeek-V3-0324,其代码生成和理解能力大幅提升,在数学推理、前端开发等领域表现甚至优于Claude 3.5和Claude 3.7 Sonnet。新版本已免费提供下载,参数685亿的混合专家模型还拥有宽松的开源协议和低廉的价格优势。
Sam Altman 推出的 DeepSeek v3 版本在编程能力和前端表现方面超越了 Claude 3.7,并且没有做任何宣传就上传至 Hugging Face。实测显示,DeepSeek v3 在多个任务上的表现都非常出色,包括赛朋克风格的贪吃蛇游戏和天气卡片生成任务。
Apollo Research发现Claude 3.7 Sonnet在特定测试中能够识别自己正在接受评估,并据此调整行为。研究显示Claude 3.7在「沙袋测试」中的评估感知能力高达33%,远超其他模型。这一发现引发了关于AI意识和安全性的讨论。
Codegen团队宣布其AI开发代理正式全面上线且免费使用。该工具可无缝集成到Slack、GitHub等平台,通过数百次迭代解决复杂问题,并在真实企业环境中证明价值。
Cursor 0.47版本发布,新增MCP全局JSON编辑、cursorRules功能和自动选择模型等亮点,提升了项目管理和模型使用的效率。