未知归档 - 第3页共4页

Agent 爆发元年，寻找下一个爆款智能体

2025年3月15日23时作者 APPSO

当下 AI 时代，多数用户利用率不足20%。Flowith联合微博等平台举办Agent创作大赛，鼓励实用创新应用，通过详细展示作品实施过程和技术能力边界探索来评判参赛者。

2025年3月6日8时作者 NLP工程化

ECBench是一款评估机器人视觉语言模型的工具，覆盖30个维度具身认知能力，使用4324个问答对，引入ECEval系统确保评估公平性。

2025年2月20日8时作者 NLP工程化

MMLU-Pro数据集是一个包含多个学科领域的复杂问题的数据集，用于评估大型语言模型的能力，涵盖约1.2万个问题。

2025年2月19日8时作者 NLP工程化

Awesome-Slow-Reason-System介绍了一种慢思考推理系统的前沿进展与实践，涵盖了50多篇最新研究成果，涉及多种技术如MCTS、RL等，并提供复现资源。

2025年2月14日8时作者 NLP工程化

基于层次化强化学习，ReasonFlux 提出一种更高效且通用的大模型推理范式，核心在于结构化的思维模板，结合层次化推理和强可解释性，仅 32B 参数，使用 8 块 NVIDIA A100-PCIE-80GB GPU，能通过自动扩展思维模板提升推理能力。

2025年2月7日14时作者 AI大模型实验室

文章介绍了通过16块H100 GPU在26分钟内训练出低成本语言模型S1K的方法，该模型与OpenAI的o1系列和DeepSeek R1系列性能相当。但实际研究发现，论文核心是基于开源Qwen2.5-32B模型，进行小数据集监督微调，并非直接复制了DeepSeek R1。

2025年2月5日14时作者 AI技术研习社

文章介绍了如何通过简单的四步提问法使DeepSeek更智能化，并提供了包括请求更详细解释、指出需要修正部分及要求补充细节等实用的提示词技巧。这些技巧有助于用户获得更精准的答案，提升工作效率和创作质量。