Agent 爆发元年,寻找下一个爆款智能体
当下 AI 时代,多数用户利用率不足20%。Flowith联合微博等平台举办Agent创作大赛,鼓励实用创新应用,通过详细展示作品实施过程和技术能力边界探索来评判参赛者。
当下 AI 时代,多数用户利用率不足20%。Flowith联合微博等平台举办Agent创作大赛,鼓励实用创新应用,通过详细展示作品实施过程和技术能力边界探索来评判参赛者。
今天介绍了Composio这个MCP托管服务平台,并演示了Github、Supbase和Neon三个实用工具。通过MCP协议,开发者可以轻松配置数据库和API服务。
nanoGRPO:一个轻量的Group Relative Policy Optimization (GRPO) 实现,仅需8GB显存即可运行,显著提升语言模型表现。
ECBench是一款评估机器人视觉语言模型的工具,覆盖30个维度具身认知能力,使用4324个问答对,引入ECEval系统确保评估公平性。
Awesome-Slow-Reason-System介绍了一种慢思考推理系统的前沿进展与实践,涵盖了50多篇最新研究成果,涉及多种技术如MCTS、RL等,并提供复现资源。
基于层次化强化学习,ReasonFlux 提出一种更高效且通用的大模型推理范式,核心在于结构化的思维模板,结合层次化推理和强可解释性,仅 32B 参数,使用 8 块 NVIDIA A100-PCIE-80GB GPU,能通过自动扩展思维模板提升推理能力。
文章介绍了通过16块H100 GPU在26分钟内训练出低成本语言模型S1K的方法,该模型与OpenAI的o1系列和DeepSeek R1系列性能相当。但实际研究发现,论文核心是基于开源Qwen2.5-32B模型,进行小数据集监督微调,并非直接复制了DeepSeek R1。
文章介绍了如何通过简单的四步提问法使DeepSeek更智能化,并提供了包括请求更详细解释、指出需要修正部分及要求补充细节等实用的提示词技巧。这些技巧有助于用户获得更精准的答案,提升工作效率和创作质量。