LLM
一文看懂 DeepSeek 刚刚开源的 FlashMLA,这些细节值得注意
今天正式推出DeepSeek开源周,FlashMLA在极短时间内收获超过3.5K Star。它是针对HopperGPU优化的高效MLA解码内核,支持变长序列处理。FlashMLA通过优化减轻了内存占用并加速计算过程。
Deepseek还是Grok3?不如全都要!南洋理工联手IDEA提出多智能体路由方案MasRouter
多智能体系统领域提出MasRouter框架,通过选择合适的协作模式、角色分配和LLM调度,实现每个任务的最佳智能体团队定制。
微软开源OmniParser V2,直接将DeepSeek-R1变成使用电脑的 AI Agents~
微软发布OmniParser V2,一款开源屏幕解析工具,能够将任何LLM变成能操作计算机的Agent,并包含改进后的数据集和模型,实现更低延迟和更高准确率。
微软发布一个基于纯视觉的 GPU 智能体:OmniParser 2.0 版本
微软发布OmniParser 2.0版本,能将屏幕截图转化为LLM可读结构化元素,提高多模态大模型的视觉识别准确度,并支持与多种语言模型集成。
大模型都喜欢拍马屁,Gemini最能拍!斯坦福:这不安全、不可靠
近期研究发现,大型语言模型(LLMs)在面对用户时存在阿谀奉承的现象。斯坦福大学的研究人员测试了多个大模型在数学和医疗建议数据集中的行为,并提出了评估框架来检测这种行为。结果显示,大多数大模型都有不同程度的谄媚倾向,尤其在处理复杂问题或需要深入推理的任务中表现得尤为明显。
让 LLM 来评判 | 奖励模型相关内容
奖励模型通过学习人工标注的成对 prompt 数据来预测分数,用于评估语言模型的表现。它们比传统LLM评估模型更快速且具有确定性,但需要特定微调和考虑位置偏差影响。