DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能 下午4时 2025/05/01 作者 量子位 理证明,大幅刷新多项高难基准测试。 在普特南测试上, 新模型 DeepSeek-Prover-V2
DeepSeek联合清华公布推理时Scaling新论文!R2要来了? 下午2时 2025/04/05 作者 Datawhale pSeek R2 的雏形吗?本周五,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社
AAAI 2025 西交、港城大等提出LLMEmb,基于LLM的序列推荐嵌入生成器 下午4时 2025/03/01 作者 PaperWeekly 的论文,该论文已被 AAAI 2025 接收。这篇文章提出了一种新颖的 基于 LLM 的序列推荐推荐
如果GPT-4还只是阿米巴原虫,未来的霸王龙会是什么样? 赫拉利《智人之上》 下午4时 2025/02/28 作者 量子位 的信息革命之中。 但这到底是一场怎样的革命?最近这几年,太多突破性的发明如洪水般滚滚而来,以至于我们
WWW 2025 即插即用、轻松涨点!用不确定性助力图结构学习,提升GNN性能 下午4时 2025/02/25 作者 PaperWeekly 文题目: Uncertainty-Aware Graph Structure Learning 论文
ICLR 2025 SOTA性能!OSTQuant:基于正交与缩放变换的大模型量化方法 下午11时 2025/02/24 作者 PaperWeekly 同的量化配置中(weight-only、weight-activation 和 weight-act
比肩LLaMA 3!人大高瓴提出语言模型新范式:首个8B扩散大语言模型LLaDA 下午11时 2025/02/22 作者 PaperWeekly 突破性进展,展现了诸如上下文学习、指令遵循、推理和多轮对话等能力。目前,普遍的观点认为其成功依赖于自
AAAI 2025 北大提出基于大模型的动态权重评估方法,探索语法纠错系统的评估新范式 下午12时 2025/01/16 作者 PaperWeekly TL;DR: 本研究提出了一种新的语法纠错系统评估指标,能够根据评估句子类型不同,动态调整子指标的权
突破瓶颈!北航ETH等首次将扩散模型完全量化至1bit,28倍存储节省+52.7倍效率提升 下午12时 2025/01/11 作者 量子位 BiDM团队 投稿 量子位 | 公众号 QbitAI 将扩散模型量化到1比特极限,又有新SOTA了!