Claude 3.5 Sonnet 归档 - 第2页共4页 - 每时AI

Claude挣钱强于o1！OpenAI开源百万美元编码基准，检验大模型钞能力

2025年2月19日12时作者机器之心

OpenAI 推出并开源 SWE-Lancer 基准测试，用于评估 AI 大模型在现实世界软件工程任务中的表现。包含 1400 多个自由软件工程任务，总价值 100 万美元。包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在内的前沿模型未能解决大多数任务，仅 Claude 3.5 Sonnet 拿到最高报酬 403,325 美元。

OpenAI推出真实世界百万报酬AI编程能力测试基准：实测Claude 3.5 最强！

2025年2月19日12时作者 AI寒武纪

OpenAI联合一众大佬发布SWE-Lancer，一个评估前沿LLM在真实软件工程任务中的基准测试。它从Upwork精选了超过1400个真实的软件工程任务，总价值高达100万美元。SWE-Lancer包含个人贡献者和技术领导者的两种类型的任务，采用端到端测试模拟真实环境。研究结果显示模型表现仍有提升空间，OpenAI开源了数据集以促进更多研究。

不要学编程！大佬警告别报AI专业，全美15万IT精英被裁员，CS毕业即失业

2025年2月14日16时作者新智元

暴降的图全网爆火。AI没有创造更多IT岗位，反而引爆了科技行业大裁员，如今全美IT失业率已经涨至5.

GPT-4o、Claude 3.5全部被攻破，开源大模型超强攻击框架

2025年2月10日8时作者 AIGC开放社区

文章介绍了大模型安全防护的重要性及研究进展，特别强调了斯坦福大学联合开发的Best-of-N Jailbreaking (BoN)框架用于检测和应对大模型的安全漏洞。

通过输入公司网址，快速获取全面的公司信息，AI 投资系统，jarvis编程助手

2025年1月9日12时作者每日AI新工具

本文介绍了5个开源项目，包括Company Researcher、AI投资系统、J.A.R.V.I.S.、Cool Cline和Kokoro-FastAPI，涵盖了公司研究、智能投资助手、编程辅助工具、复杂软件开发支持及文本转语音服务等方面。

微软医疗论文泄密：GPT-4o 200B 「大未必强」，Claude 175B 「小未必弱」

2025年1月2日23时作者毫河风报

微软在最新发布的医疗 AI 评测论文中披露了多个头部 AI 模型的关键参数数据，引发关注。包括 MEDEC 在内的研究团队开发的 MEDEC 评测基准用于检验 AI 模型识别和纠正医疗文档错误的能力，列出了一系列令人瞠目的数据，引发了对 AI 领域技术路线、大模型架构与实际应用效果等议题的讨论。

4o-mini只有8B，Claude 3.5 Sonnet有175B，微软论文「透露」了下顶级模型参数

2025年1月2日16时作者机器之心

OpenAI 发布的 GPT-4-mini 算法参数只有 8B？微软论文引发广泛讨论。

微软论文意外「走光」，OpenAI参数全泄密！GPT-4o仅200B，o1 300B

2025年1月2日12时作者新智元

新智元报道
编辑：桃子好困
【新智元导读】
穿越重重迷雾，OpenAI模型参数终被揭开！一份来自微