PaperAgent
LangGraph全新4大预构建Agents框架登场
LangGraph预构建Agents生态新增5个开源项目:多智能体Swarm、记忆管理库LangMem、工具调用库trustcall以及层次化多智能体系统langgraph-supervisor,支持流式处理、长期记忆管理和复杂JSON结构操作。
聪明人已经抓住DeepSeek风口发表SCI了
科研圈又有新进展!意大利研究团队借助DeepSeek模型在知名期刊发表论文,从投稿到接收仅用一天。清华大学出版《DeepSeek:从入门到精通》,详细介绍这一深度学习和人工智能工具的使用方法。此外,还有大模型实战系列课和华为全联接大会上的大模型免费试用机会。
刚刚,高效部署DeepSeek R1的秘密被DeepSeek公开了~
DeepSeek的开源周Day2发布了DeepEP库,这是一个为MoE模型训练和推理定制的通信库,支持高吞吐量、低延迟的All-to-All GPU内核,并提供针对非对称域带宽转发优化的内核。
DeepSeek开源周Day1,硬核发布…
DeepSeek开源了FlashMLA,这是一个为Hopper GPU开发的高效MLA解码内核,已投入生产使用,支持BF16和分页KV缓存(块大小64),在H800上可实现高达580 TFLOPS的计算性能。
阿里QwQ-Max 以及 Qwen2.5-Max即将开源
阿里发布Qwen Chat中的新模型’思考(QwQ)’,基于Qwen2.5-Max的推理模型,支持思考、联网和Agent工具。预览版本在数学理解、编程和代理方面表现优异,计划于近期开放源代码并发布正式版APP。
Kimi 模型,硬核开源…
AI研究者Kimi发布了首个大规模混合专家模型Moonlight-16B-A3B,其使用Muon优化器在5.7T tokens的训练中实现了约2倍的计算效率提升,并开源了分布式Muon实现版本和预训练模型。