MLNLP社区
谷歌发现LLM是Greedy Agent,提出用RL调教出理性决策
MLNLP社区是国内外知名的机器学习与自然语言处理社区,旨在促进学术界、产业界和爱好者的交流与进步。最新论文揭示了大模型决策中的三大缺陷,并通过强化学习微调结合思维链技术提升其决策能力。
Synthetic-Data-Zero-RL:让 RL 左脚踩右脚
MLNLP社区致力于促进自然语言处理领域的学术与产业交流合作。通过PromptCoT等方法生成高质量数据集,提高模型性能。近期实验表明基于PromptCoT合成的数据可用于零样本强化学习训练,提升效果接近官方预训练模型。
经验分享!从0开始做一篇Benchmark
MLNLP社区致力于推动自然语言处理领域的学术交流与进步,涵盖硕博生、高校老师及企业研究人员等多个群体。文章详细介绍了如何构建高质量的Benchmark,包括数据准备、清洗、审核、模型评估等步骤及其重要性。
李开复加入福建福耀科技大学
MLNLP社区致力于促进国内外机器学习与自然语言处理的交流合作。福建福耀科技大学聘请李开复博士为理事会理事,助力‘高等教育+AI’创新教育模式。李开复分享了AI在教育领域的应用,并期望培养具备创新能力和全球视野的人才。
NUS发布Reasoning中的安全问题综述,idea满满~
MLNLP社区致力于推动国内外自然语言处理领域的学术与应用交流。最新文章探讨了大型推理模型的安全性问题及其对隐私、法律合规等多方面的影响,强调了构建动态防护体系的重要性以平衡AI能力与发展安全之间的关系。
中科院提出DEER:让Reasoning提前退出,推理提速50% 准确率涨10%
MLNLP是国内外知名的机器学习与自然语言处理社区。旨在促进学术界、产业界和爱好者的交流合作。近期提出DEER技术来解决大型语言模型冗长推理的问题,通过监测思考转折词和置信度评估实现。
清华提出Test-Time RL,无需标注,模型自学,正确率飙升159%,实现终身学习
MLNLP社区致力于促进国内外机器学习与自然语言处理的交流合作。论文介绍了一种无需标注数据的新方法TTRL,展示了其在数学推理任务上的显著提升效果。
重磅!国家科学技术奖励:鼓励主要论著优先在国内学术刊物上发表
MLNLP社区致力于促进国内外机器学习与自然语言处理的交流合作。科技部发布了修订后的《国家科学技术奖励条例实施细则》,明确每年评审改为每两年一次,新增了提名评审机制、诚信监督和保密要求等内容。