ACL 2025 Oral 你的模型评测搭子上线:Evaluation Agent懂你更懂AI
来自上海人工智能实验室与新加坡南洋理工大学的研究者开发了Evaluation Agent,一个AI评估工具,能根据用户需求动态分析视觉生成模型的表现,提高评估效率、灵活性和可解释性。
来自上海人工智能实验室与新加坡南洋理工大学的研究者开发了Evaluation Agent,一个AI评估工具,能根据用户需求动态分析视觉生成模型的表现,提高评估效率、灵活性和可解释性。
论文提出DRAG框架,通过引入多智能体辩论机制缓解RAG中的幻觉问题。DRAG在检索和生成阶段引入正反方辩论,以提高答案的真实性和可靠性。研究显示,在多个数据集上DRAG取得了强劲表现。
论文提出了一种名为G-Safeguard的安全防护框架,旨在保护基于大型语言模型的多智能体系统免受攻击。该框架利用图神经网络实时监控和识别异常行为,并通过拓扑干预阻断恶意信息传播。
字节跳动开源文档解析模型Dolphin,相比同类大模型提升2倍解析效率。其采用两阶段解析方法,先解析结构后内容,性能超越GPT-4.1等通用多模态和垂类OCR模型。
vivo AI研究院提出EdgeInfinite算法,解决了端侧设备处理超长文本的瓶颈问题。该方法能够在不到10GB GPU内存的设备上处理长达128K tokens的输入,并在ACL 2025中正式发表。