ICML 2025 长文本救星!清华等提出傅里叶位置编码,多项任务全面超越RoPE
清华大学团队研究发现,RoPE 带来的周期性延拓受到频谱损坏影响限制了 LM 的长度外推能力。他们提出傅里叶位置编码(FoPE)来提升 Transformer 的长文本泛化能力。
清华大学团队研究发现,RoPE 带来的周期性延拓受到频谱损坏影响限制了 LM 的长度外推能力。他们提出傅里叶位置编码(FoPE)来提升 Transformer 的长文本泛化能力。
智源研究院发布三款向量模型BGE-Code-v1、BGE-VL-v1.5和BGE-VL-Screenshot,分别在代码检索、多模态检索和视觉化文档检索中取得最佳效果,并已开源。
5月20日消息,英特尔发布全新锐炫Pro B系列GPU及AI加速器,并宣布与全球x86架构生态系统合作庆祝40周年。陈立武强调英特尔将大力投资互联技术,重返产业领先地位。
启元实验室启动”启智杯”算法大赛,聚焦卫星遥感图像、无人机目标检测和多模态大模型对抗三大方向。大赛设立75万元奖金池,面向研究机构、企事业单位等开放参赛。
Unsloth 框架从支持 LoRA 和 QLoRA 适配器微调到引入全参数微调,解决了大规模模型训练内存占用的问题。通过梯度检查点、激活值卸载和优化器状态分页等技术实现了高效的内存管理和加速训练过程。
首届「What Bimanual Can Do」双臂机器人挑战赛将在ICRA 2025上举办,旨在验证双臂机器人的落地性能。赛事包括物流包装、生命科学实验和餐桌服务三项任务,吸引了88支队伍参赛,并设有多家赞助商提供支持。