打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度

最新研究提出LONGPROC基准测试评估长上下文语言模型处理复杂信息并生成回复的能力。尽管主流模型声称能处理32K tokens,但在实际应用中的表现并不尽如人意,尤其是对于复杂的多任务生成任务。

史上最快,英伟达Sana模型安装和使用

英伟达联合清华大学和麻省理工开发的Sana AI绘画大模型,在4090显卡上可实现不到一秒出高清图的效果。它在中国开发者中表现出色,有望降低大规模应用的成本。文章介绍了如何安装和使用该模型,并附有工作流下载链接。

清华团队靠强化学习让 7B 模型打败GPT-4o数学推理

专注AIGC领域的专业社区分享了PRIME(Process Reinforcement through IMplicit REwards)算法在训练数学能力强大的7B模型方面的进展,该方法仅用8张A100、花费一万左右的成本,在不到10天内高效训练出了一个超过GPT-4和Llama-3.1-70B的7B模型Eurus-2-7B-PRIME,实现美国IMO选拔考试AIME 2024中准确率提升至26.7%。