增强RAG系统落地效果的9条最佳实践
通过系统研究RAG系统的多个关键因素,包括语言模型大小、提示设计、文档块大小等,得出了9条最佳实践,并提出了一系列实验设计以评估RAG系统的性能,涵盖TruthfulQA和MMLU数据集。
通过系统研究RAG系统的多个关键因素,包括语言模型大小、提示设计、文档块大小等,得出了9条最佳实践,并提出了一系列实验设计以评估RAG系统的性能,涵盖TruthfulQA和MMLU数据集。
DeepSeek开源新一代统一多模态模型Janus-Pro,包含两个尺寸:Janus-Pro-1B和Janus-Pro-7B。该模型在多模态理解和生成方面超越了Meta、Google等知名机构的模型,并改进了训练策略、扩展数据集和扩大模型规模。
今天除夕,阿里千问开源了Qwen2.5-VL模型,包含3B、7B和72B三个尺寸,并具有感知丰富世界、作为视觉Agent、理解长视频和捕捉事件、精准的视觉定位及结构化输出等新特性。
阿里千问开源了Qwen 2.5-1M模型及其对应的推理框架,支持百万Token上下文处理,并分享了训练和推理框架的设计细节及消融实验结果。
中科院提出PPTAgent,一种基于编辑的两阶段PPT生成框架,它通过分析和生成高质量PPT,显著提高了文本、设计和连贯性的评估评分,并在多个领域表现出色。
微软对100多款生成式AI产品进行了红队测试,并分享了八个主要教训和五个案例研究,以指导实际的AI安全测试,包括识别风险、评估大模型聊天机器人的应对能力等。
OpenAI发布首个智能体Operator后,Every CEO和联创Dan进行了实测,仅成功完成2项任务。结论包括浏览限制、任务范围有限及提示的重要性。Operator在购票、房屋清洁等具体任务上表现出色,但在复杂分析或需要深入了解的任务中表现不佳。
本文回顾了大型语言模型在推理能力方面的最新进展,从SFT到RLHF,再到ORM和PRM等技术的演变,讨论了测试时扩展的重要性,并介绍了各种增强LLMs推理能力的技术方法。
智谱、ByteDance和清华大学发布GLM-PC等智能体后,OpenAI发布了首个AGI L3级智能体Operator,可以执行网络任务并交互网页。Operator结合了GPT-4的视觉能力和强化学习推理能力。构建开源Computer-Using Agent的技术挑战包括安全隔离、精确点击、视觉理解和部署LLM等。