前OpenAI CTO 成立思维机器实验室
专注AIGC领域,文章介绍了新成立的思维机器实验室及其三大研究方向:调整AI系统满足需求、开发坚实基础构建更强系统以及培养开放科学文化。强调弥合人工智能理解和应用之间的差距,并提出一系列举措推动科技进步和安全措施。
专注AIGC领域,文章介绍了新成立的思维机器实验室及其三大研究方向:调整AI系统满足需求、开发坚实基础构建更强系统以及培养开放科学文化。强调弥合人工智能理解和应用之间的差距,并提出一系列举措推动科技进步和安全措施。
OpenAI发布了推理模型的最佳实践,包括何时使用这些模型(如模糊任务、大海捞针)、如何有效利用以及一些基本原则和技巧。
OpenAI宣布ChatGPT周活跃用户突破4亿,同比增长33%。首席运营官Brad Lightcap表示这是由于产品的实用性不断提高及消费者采用的增长。同时,企业用户增长更是惊人,从去年9月到现在翻了一倍,达到200万用户。
DeepSeek-R1开源满血版工具链,Colossal-AI团队将6710亿参数的大模型驯化为开发者私有化模型,降低硬件需求和成本,标志着AI竞争正式进入’场景深水区’。
OpenAI发布SWE-Lancer基准测试,评估AI模型在现实任务中的编码能力。Anthropic的Claude 3.5 Sonnet表现最佳,挣得403,325美元报酬,远超GPT-4o和o1模型。
OpenAI发布SWE-Lancer测试基准,评估AI代码能力。该基准基于真实项目任务,涵盖软件工程全栈开发和管理任务,价值100万美元。Claude 3.5 Sonnet表现最佳,但远不及人类开发者水平。
OpenAI 推出并开源 SWE-Lancer 基准测试,用于评估 AI 大模型在现实世界软件工程任务中的表现。包含 1400 多个自由软件工程任务,总价值 100 万美元。包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在内的前沿模型未能解决大多数任务,仅 Claude 3.5 Sonnet 拿到最高报酬 403,325 美元。