OpenAI的强化微调:RL+Science 创造新神还是灭霸?

OpenAI 发布了新的 Reinforcement Finetuning 方法,用于构造专家模型。只需上传少量数据,就能通过微调找到最合适的决策。该技术基于已广泛应用于 Alignment 和 Coding 的方法,并且适用于医疗诊断和科学决策等领域。不过,也引发了对潜在风险的关注。

NeurIPS 2024|拆解高复杂运筹问题的砖石,打破数据稀缺的瓶颈,中科大提出高质量运筹数据生成方法

中科大团队提出MILP生成框架,有效解决运筹优化领域数据稀缺问题。该方法通过考虑分块结构生成高质量的优化问题样例,显著提升AI求解器性能。