智能体丝滑玩手机,决策延迟0.7秒!MSRA等提出验证器架构,不直接依赖大模型生成最终操作

V-Droid使用验证器驱动架构在移动GUI任务自动化中实现了高成功率和低延迟。通过解析UI界面提取基本操作,并利用精细训练的验证器评估候选动作,V-Droid在多个基准测试中的任务成功率显著提高,决策响应时间降至0.7秒。

2个百度T11推出超级智能体火爆硅谷!免费使用无需邀请码,靠AI搜索功底估值已破38亿

Genspark超级智能体发布,能够在无需编程的情况下执行复杂任务,包括制作做饭视频和创建HTML游戏。其背后公司MainFunc由前百度高管景鲲创立,展示了从AI搜索转向智能体的新方向。

视觉Token无缝对齐LLMs词表!V²Flow:基于LLMs实现高保真自回归图像生成

V²Flow团队发布的新开源框架V²Flow解决了视觉Token与大语言模型词表的不一致问题,实现了高保真自回归图像生成。该技术通过视觉词汇重采样器将视觉内容嵌入到LLM的词汇空间中,并使用掩码自回归流匹配解码器进行视觉重建,显著提高了压缩效率和生成质量。

10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原模型

CalibQuant团队在InternVL-2.5模型上提出了一种1比特量化方法,通过校准策略缓解了低比特数量化带来的失真问题。实验结果显示,在多种任务和内存限制下,该方法相比基线有显著的性能提升。