图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

Sutton 提出的新算法 Swift-Sarsa 结合了时序差分学习 SwiftTD 的核心思想与 True Online Sarsa (λ),用于线性控制问题。实验表明,Swift-Sarsa 在操作性条件反射基准测试中的性能随元步长和初始步长参数的变化而变化,并且结合预处理方法后在复杂问题上可达到与深度强化学习算法相当的性能水平。

实测3060可跑!Flux官方最佳模型

Flux.1 Krea Dev 是由 BFL 与 Krea 合作开发的先进文本生成图像模型。黑森林称这是目前最好的开源权重 FLUX 模型,专为文本到图像生成而设计。文章展示了多幅图片,包括金发水手、红发人物、皇室风范者、猫耳少女和传统服饰女子等,背景信息丰富且细节生动。