Claude 3.5 归档 - 第2页共2页

字节跳动发布了对标Cursor的IDE，可免费使用Claude

2025年1月20日22时作者 AI大模型实验室

字节跳动推出AI IDE工具Trae，支持原生中文，集成Claude 3.5等大模型，目前免费开放MacOS版使用。

打脸！GPT-4o输出长度8k都勉强，陈丹琦团队新基准测试：所有模型输出都低于标称长度

2025年1月15日23时作者量子位

最新研究提出LONGPROC基准测试评估长上下文语言模型处理复杂信息并生成回复的能力。尽管主流模型声称能处理32K tokens，但在实际应用中的表现并不尽如人意，尤其是对于复杂的多任务生成任务。

GPT-4o最自私，Claude更慷慨！DeepMind发布全新「AI道德测试」

2025年1月6日16时作者新智元

新智元报道
编辑：LRS
研究者通过对智能体在捐赠者游戏中的表现，分析了Claude 3.5、Gemini 1.5 Flash和GPT-4o等模型的合作行为差异。结果显示，Claude 3.5表现出更有效的合作和惩罚搭便车行为的能力，而GPT-4o则更自私。未来人机协同社会中需要考虑不同LLM智能体的道德和行为差异。

反转！Claude 3.5超大杯没有训练失败，最新爆料：内部自留，用于合成数据和RL训练

2024年12月12日14时作者量子位

最新文章揭示了Claude 3.5 Opus的训练内幕，并指出Anthropic倾向于用最好的模型进行内部训练以提升性能。尽管存在一些未发布的原因，顶尖实验室仍在加速建设和投资硬件基础设施，表明大模型的Scaling Law仍然有效。

视觉语言模型能否实现鲁棒的数学推理？UC伯克利发布测评基准DynaMath

2024年12月11日13时2024年11月23日20时作者 PaperWeekly

本文介绍了一项新的动态生成的测评基准DynaMath，用于评估和研究视觉语言模型在处理多模态数学问题时的推理能力。通过分析当前最强的一些视觉语言模型（如GPT-4o）在简单数学题上的表现，发现它们存在漏洞和鲁棒性不足的问题。DynaMath提供了501个高质量、多主题的种子问题及其变体，评估了14个最先进的视觉语言模型的表现，揭示了其推理稳健性的局限性。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31