PaperAgent
刚刚,DeepSeek-GRM模型发布,全新推理时Scaling,为R2打前站!
DeepSeek联合清华发布研究成果,提出DeepSeek-GRM模型通过点式生成奖励建模提高通用查询的性能,利用自我原则批评调整等方法实现推理时扩展。该模型在多个基准测试中表现出色,在推理时的性能随着采样数量增加而显著提升。
里程碑,GPT-4.5大模型正式通过图灵测试!
加州大学圣迭戈分校的研究学者首次提供了人工系统通过标准三方图灵测试的实证证据。GPT-4.5和LLaMa-3.1在相同提示下被判断为人类的比例分别为73%和56%,显著高于真实人类参与者被选中的比例,表明这些系统已经非常接近人类智能水平。
8大类,100+技术:大模型 AI Agents 优化最新综述
华东师范大学等综述了针对大型语言模型的AI智能体优化方法,分为参数驱动和非参数驱动两大类,并详细探讨了基于强化学习、混合策略及经验反馈等多种具体技术。
Claude“大脑”被Anthropic扒开了,发现它是这么思考的~
Anthropic分享了Claude是如何思考的:心算采用多条并行计算路径;多步推理通过连接独立的事实得出答案;幻觉被默认拒绝但可通过干预产生。此外还展示了其多语言能力和写押韵诗的能力。
刚刚,阿里Qwen2.5-Omni又开源,实时语音与视频,太卷了~
Qwen2.5-Omni 是一款端到端的多模态模型,旨在感知包括文本、图像、音频和视频在内的多种模态,并以流式方式生成文本和语音响应。其关键特性包括Thinker-Talker架构、TMRoPE位置嵌入技术以及跨模态卓越性能等。