告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025
LensLLM研究提出了一种全新的选型框架,通过数学推导揭示了大模型微调中的相变规律,并实现了极低成本下的精准预测和优化选择,大幅提升了选型效果。
LensLLM研究提出了一种全新的选型框架,通过数学推导揭示了大模型微调中的相变规律,并实现了极低成本下的精准预测和优化选择,大幅提升了选型效果。
谷歌发布Gemini 2.5系列大模型技术报告,详细介绍了AI玩《宝可梦》的具体行为。其中特别提到Gemini 2.5 Pro在游戏过程中表现出惊人的创造力和长期规划能力,如飞行技能逃脱困境、为复仇训练特定宝可梦等。同时指出AI存在幻觉问题及思维定势现象。
香港中文大学、字节跳动Seed和斯坦福大学研究团队提出SeqPO-SiMT框架,实现70亿参数规模下SOTA性能。该方法通过序贯策略优化解决同声传译中的质量-延迟权衡问题,翻译质量媲美Qwen-2.5-7B离线翻译水平。
普林斯顿大学和Meta联合推出的新框架LinGen,以线性复杂度的MATE模块替代传统自注意力,使单张GPU在分钟级长度下生成高质量视频成为可能。
加州大学圣克鲁斯分校提出GRIT模型,让多模态大语言模型既能条理清晰地思考又能真正将推理过程『落到画面』上。仅需20个带标注图像与问题的数据就能教会模型画框+推理,实现真正的‘图像思维’。