7B智能体仅凭9个任务训练即超越R1!上交大打造AI-for-AI新范式

研究提出了一种新的训练框架,让大模型自主设计和优化AI算法,显著减少人类干预。通过经验学习范式,7B参数的大模型ML-Agent在9个任务上持续探索学习,最终超越了671B规模的智能体。

单应计算加速数十倍、计算量减少95%!基于几何的SKS和ACA矩阵分解被提出

本文提出了一种基于几何变换的快速且可解释的2D单应矩阵分解方法(Similarity-Kernel-Similarity, SKS和Affine-Core-Affine, ACA)。该方法大幅减少了4点求解单应的时间,尤其适用于二维码扫描等应用。

工业异常检测新突破,复旦等多模态融合监测入选CVPR 2025

复旦大学、荣旗工业科技、腾讯优图实验室等机构联合发布了高精度多模态数据集Real-IAD D³,并提出了一种基于此数据集的创新多模态融合检测方法,提升了工业异常检测性能。

知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳

东南大学联合多所研究机构提出了KRIS-Bench,一个评估图像编辑模型知识结构的基准。该基准从事实性、概念性和程序性知识三个层面测试编辑能力,并包含1267对图像指令样本,覆盖初级到高级任务难度。

一招缓解LLM偏科!调整训练集组成,“秘方”在此上交大&上海AILab等

MLNLP社区发布了一项创新方法IDEAL,用于解决大型语言模型(LLM)在多任务场景下可能出现的偏科现象。通过调整监督微调(SFT)训练集组成,研究团队发现优化后的模型在多种领域上的综合性能显著提升。

CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分

Video-Bench通过链式查询和少样本评分技术,实现了对视频生成质量的高效评估。该框架能够全面覆盖视频生成的多个维度,并在视频-条件一致性、视频质量等方面显著优于现有方法。

103K「硬核」题,让大模型突破数学推理瓶颈

本文介绍了一篇关于 DeepMath-103K 数据集的研究论文,该数据集旨在解决当前大语言模型在数学推理训练中的数据瓶颈问题。论文详细描述了其高难度、新颖性和纯净性的特点,并展示了在多个基准测试中的卓越性能。

一招缓解LLM偏科!调整训练集组成,“秘方”在此 上交大&上海AI Lab等

上海交通大学及上海AI Lab联合团队提出IDEAL方法,通过调整SFT训练集的组成来提升LLM在多种领域上的综合性能。研究发现增加训练数据数量并不一定提高模型整体表现,反而可能导致“偏科”。

AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板

研究团队发布了一项包含1000个高质量问题的音频理解评估基准MMAR,测试了30款模型的表现。结果表明大多数开源模型在面对复杂音频推理任务时表现不佳,而闭源模型Gemini 2.0 Flash则表现出色。该基准展示了当前AI在音频理解方面的不足,并强调了数据和算法创新的重要性。