机器之心
Claude挣钱强于o1!OpenAI开源百万美元编码基准,检验大模型钞能力
OpenAI 推出并开源 SWE-Lancer 基准测试,用于评估 AI 大模型在现实世界软件工程任务中的表现。包含 1400 多个自由软件工程任务,总价值 100 万美元。包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在内的前沿模型未能解决大多数任务,仅 Claude 3.5 Sonnet 拿到最高报酬 403,325 美元。
DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍
Colossal-AI 发布了大模型后训练工具箱,包含低成本监督微调解决方案及强化学习工具链等。通过 Colossal-AI 的一键启动脚本,用户可以快速完成 DeepSeek V3/R1 模型的微调,并支持多种硬件配置。同时,团队还验证并实现了 GRPO 算法及奖励设计方法用于深度学习模型优化。
ICLR 2025 Spotlight 让城市「动」起来!DynamicCity突破4D大场景生成技术边界
多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,
最豪华大模型创业阵容!OpenAI前CTO组建,翁荔、Schulman等ChatGPT核心成员加盟
nking Machines Lab 的新创业公司建立了,而其背后有一个堪称有史以来最豪华的大模型创
20万张GPU!马斯克掏出「地表最强」大模型Grok-3,排行榜登顶,复仇OpenAI
马斯克发布了Grok3大模型系列,包括轻量版Grok3mini。Grok3大幅超越了其他多个AI模型,在数学、科学和编程等领域表现突出,并且具备强大的推理能力和智能体能力。