业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术

研究人员提出了一项新技术OThink-MR1,通过动态强化学习提升多模态语言模型的泛化推理能力。该技术结合了动态KL散度策略和精心设计的奖励模型,显著改善了模型在多种任务上的表现。

自动驾驶首次应用测试时计算!港大英伟达等新技术让AI边开边学,无人车遇变道自如应对

香港大学、英伟达和图宾根大学联合提出Centaur方法,通过在线数据驱动动态调整模型权重,提高自动驾驶汽车在不确定性场景中的适应性和安全性。论文已上传至arXiv,代码和checkpoint即将开源。