Grok还没热,OpenAI就来新基准:百万美元测试,Claude竟拿下40万! 2025年2月19日14时 作者 AI进修生 OpenAI发布SWE-Lancer测试基准,评估AI代码能力。该基准基于真实项目任务,涵盖软件工程全栈开发和管理任务,价值100万美元。Claude 3.5 Sonnet表现最佳,但远不及人类开发者水平。