大语言模型归档

LIFBENCH：解锁大语言模型长文本指令理解的“黑箱”

MLNLP社区发布论文介绍LIFBENCH基准测试工具评估大语言模型在长文本输入场景下的指令遵循能力和稳定性，揭示现有模型不足，并提出未来研究方向。

2025年7月25日8时作者 AIGC开放社区

阿里巴巴开源超强AI Agent模型Qwen3-Coder，在OpenAI基准测试中得分69.6%，参数量4800亿。它在代码领域表现突出，并且支持256K上下文窗口和大规模强化学习，还提供命令行工具方便使用。

2025年7月18日14时作者智能涌现

AI玩具退货率高达40%，电商平台七天无理由退货政策加剧问题。产品大多在300-400元价位，依赖平台投流，存在响应延迟、联网困难等问题。多数厂商已线下铺货但销售仍受制约。

2025年7月11日23时作者 Founder Park

随着AI的广泛应用，搜索正在从人类直接使用的产品转变为支持AI运转的信息供给系统。未来，每个软件产品都将配备自己的搜索引擎，以满足不同的需求，如快速搜索和质量要求。

2025年7月11日16时作者新智元

SciArena是首个专为科学文献任务量身定制的大模型评估平台，通过用户投票和分析来测试大语言模型的科研能力。

2025年7月10日14时作者 AI技术研习社

AI 智能体通过上下文工程管理‘心智世界’。它涉及信息选择、组织和注入方式，以及上下文的动态性、可扩展性和准确性，以高效填充LLM的上下文窗口。

2025年7月10日12时作者量子位

Inception Labs发布Mercury模型，采用扩散技术一次性生成代码并纠正错误。它比传统工具快10倍，支持多语言语法树嵌入和双向注意力机制。该模型在线可试用。