LLM
R1复现基座选用Qwen or Llama?兼看Audio-Reasoner多模态语音推理思路
在2025年3月7日的周五,文章探讨了AI内容的影响范围及R1复现基座的一些解释,并介绍了多模态语音大模型在R1方面的尝试。
一文看懂 DeepSeek 刚刚开源的 FlashMLA,这些细节值得注意
今天正式推出DeepSeek开源周,FlashMLA在极短时间内收获超过3.5K Star。它是针对HopperGPU优化的高效MLA解码内核,支持变长序列处理。FlashMLA通过优化减轻了内存占用并加速计算过程。
Deepseek还是Grok3?不如全都要!南洋理工联手IDEA提出多智能体路由方案MasRouter
多智能体系统领域提出MasRouter框架,通过选择合适的协作模式、角色分配和LLM调度,实现每个任务的最佳智能体团队定制。
微软开源OmniParser V2,直接将DeepSeek-R1变成使用电脑的 AI Agents~
微软发布OmniParser V2,一款开源屏幕解析工具,能够将任何LLM变成能操作计算机的Agent,并包含改进后的数据集和模型,实现更低延迟和更高准确率。
微软发布一个基于纯视觉的 GPU 智能体:OmniParser 2.0 版本
微软发布OmniParser 2.0版本,能将屏幕截图转化为LLM可读结构化元素,提高多模态大模型的视觉识别准确度,并支持与多种语言模型集成。