PaperAgent

一篇全新知识导向 RAG 全栈技术综述

2025年3月30日14时作者 PaperAgent

中科大综述了知识导向检索增强型生成(RAG)的基本原理、关键组件和应用，并探讨其未来发展方向和技术形态。RAG结合内部知识与外部知识库中的信息生成连贯输出。

分类分享标签 Agentic RAG、 Retrieval-Augmented Generation、中科大、用户意图理解、知识图谱提升推理能力、知识导向检索增强型生成发表评论

Claude“大脑”被Anthropic扒开了，发现它是这么思考的~

2025年3月29日14时作者 PaperAgent

Anthropic分享了Claude是如何思考的：心算采用多条并行计算路径；多步推理通过连接独立的事实得出答案；幻觉被默认拒绝但可通过干预产生。此外还展示了其多语言能力和写押韵诗的能力。

分类分享标签 Anthropic、 Claude、并行计算、心算、押韵诗歌、语言模型发表评论

刚刚，阿里Qwen2.5-Omni又开源，实时语音与视频，太卷了~

2025年3月27日14时作者 PaperAgent

Qwen2.5-Omni 是一款端到端的多模态模型，旨在感知包括文本、图像、音频和视频在内的多种模态，并以流式方式生成文本和语音响应。其关键特性包括Thinker-Talker架构、TMRoPE位置嵌入技术以及跨模态卓越性能等。

分类分享标签 Qwen团队、全模态多智能体系统、多模态模型、实时交互、性能超越、阿里云发表评论

一篇100种多模态CoT推理技术最新综述

2025年3月26日19时作者 PaperAgent

新加坡国立大学和香港中文大学发布了一份关于多模态链式思考(MCoT)推理的系统性综述，介绍并分析了该领域的发展及其应用。

分类分享标签 3D场景、图像领域、多模态链式思考、新加坡国立大学、视频领域、香港中文大学发表评论

DeepSeek与Qwen组团开源了模型，冲!

2025年3月26日14时作者 PaperAgent

阿里通义千问和DeepSeek分别开源了Qwen2.5-VL-32B-Instruct和DeepSeek-V3-0324两个模型，前者主要提升了数学推理、细粒度图像理解与推理能力，并且调整输出样式以提供更符合人类偏好的答案；后者则强调编程能力和前端开发功能。

分类分享标签 32B规模、 Qwen、图像理解、大语言模型、数学推理、阿里云发表评论

第一篇100种多模态CoT推理技术最新综述

2025年3月26日14时作者 PaperAgent

多模态链式思考(MCoT)推理的系统性综述介绍了其基本概念、应用和方法，并探讨了不同模态下的挑战与进展。

分类分享标签 AVQA-CoT、 MCoT推理、新加坡国立大学、视觉问答、语音翻译、香港中文大学发表评论

0.35秒OCR整页文档，比Qwen2.5 VL高出10%的文档转换多模态模型！

2025年3月24日14时作者 PaperAgent

SmolDocling 是一种高效文档转换的多模态图文到文本模型，由IBM Research联合推出，在A100 GPU上每页仅需0.35秒完成处理，并使用256M参数比Qwen2.5 VL更高效。其功能特性包括高效的文档表示、光学字符识别、布局和定位保留、代码识别、公式识别、图表识别及表格识别等。