长文 大模型Post-Training总结 下午2时 2025/01/11 作者 机器学习算法与自然语言处理 MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企
长文本+o1?评估LLM在真实世界长文本多任务中的深度理解与推理能力 下午2时 2024/12/27 作者 PaperWeekly 近年来,长文本大语言模型的研究取得了显著进展,模型的上下文窗口长度已经从最初的 8k 扩展到 128
Qwen预训练并未终结~ 下午2时 2024/12/16 作者 PaperAgent Qwen团队成员认为预训练在智能体、合成数据和推理方面仍具有重要作用,并且需要更多时间进行优化以覆盖整个互联网知识。同时,强调了预训练模型质量对合成数据和后训练的影响以及训练大型模型的挑战。