字节,悄咪咪做了个 Cursor
一年里,字节在 AI 编程领域取得显著进展,其中 Trae 是一款智能协作 Native IDE,其功能包括用户管理和模型调用量管理等,旨在成为一站式大模型管理平台。
一年里,字节在 AI 编程领域取得显著进展,其中 Trae 是一款智能协作 Native IDE,其功能包括用户管理和模型调用量管理等,旨在成为一站式大模型管理平台。
最新研究提出LONGPROC基准测试评估长上下文语言模型处理复杂信息并生成回复的能力。尽管主流模型声称能处理32K tokens,但在实际应用中的表现并不尽如人意,尤其是对于复杂的多任务生成任务。
Anthropic提出的computer use概念带动了相关模型和工具的发展,近期介绍了一款名为browser-use的自动化工具,能够控制浏览器进行网页操作、信息提取等任务,支持多种AI模型,如OpenAI和Anthropic的LLM。
新智元报道
编辑:LRS
研究者通过对智能体在捐赠者游戏中的表现,分析了Claude 3.5、Gemini 1.5 Flash和GPT-4o等模型的合作行为差异。结果显示,Claude 3.5表现出更有效的合作和惩罚搭便车行为的能力,而GPT-4o则更自私。未来人机协同社会中需要考虑不同LLM智能体的道德和行为差异。
最新文章揭示了Claude 3.5 Opus的训练内幕,并指出Anthropic倾向于用最好的模型进行内部训练以提升性能。尽管存在一些未发布的原因,顶尖实验室仍在加速建设和投资硬件基础设施,表明大模型的Scaling Law仍然有效。
本文介绍了一项新的动态生成的测评基准DynaMath,用于评估和研究视觉语言模型在处理多模态数学问题时的推理能力。通过分析当前最强的一些视觉语言模型(如GPT-4o)在简单数学题上的表现,发现它们存在漏洞和鲁棒性不足的问题。DynaMath提供了501个高质量、多主题的种子问题及其变体,评估了14个最先进的视觉语言模型的表现,揭示了其推理稳健性的局限性。