阿里云通义点金发布DianJin-R1金融领域推理大模型,32B模型荣膺榜首

本文介绍了一个名为DianJin-R1的金融大模型,它融合了先进的技术和全面的数据支持。该模型包含一个开源的推理数据集DianJin-R1-Data,并且已向公众开放了两个大型预训练模型DianJin-R1-7B和DianJin-R1-32B。通过监督微调和强化学习,这些模型在复杂金融任务中的表现卓越。

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

InfiGUI-R1 是基于 Actor2Reasoner 框架训练的一个 GUI 智能体,旨在提升其规划和反思能力。该模型通过小规模参数量实现了出色的表现,包括强大的 GUI 元素定位能力和复杂任务执行能力。

ICML 2025放榜!接收率26.9%,高分被拒,低分录用惹争议

第42届国际机器学习大会ICML将于2025年7月在加拿大温哥华举行,共收到12107篇论文,接收率为26.9%。313篇论文被选为Spotlight Poster。高分论文包括Neural Discovery in Mathematics等,如字节跳动的MARS和伊利诺伊大学厄巴纳-香槟分校的EmbodiedBench。一些被拒论文同样值得讨论,因为这些论文的价值可能未被充分挖掘。

被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作

这篇论文是2015年发布的《End-to-End Memory Networks》,它包含了当前大型语言模型的许多要素,如完全用注意力机制替代RNN、引入带键值投影的点积软注意力机制和堆叠多层注意力等。尽管其影响力不及后来的《Attention is all you need》