Kimi又上新!抢先实测视觉思考模型k1,甚至比o1更聪明
国产大模型月之暗面 Kimi 发布视觉思考模型 k1,支持端到端图像理解和推理,已上线网页版及APP。k1 模型通过强化学习技术打造,在数学、物理、化学等基础科学领域表现优于多个标杆模型。
Long Term Memory:揭开人工智能自我进化的核心秘密!
随着大型语言模型的进步,通过长期记忆实现AI的自我进化成为新的研究方向。本文探讨了LTM作为基础如何助力模型在复杂任务中实现终身学习和适应性。
Qwen预训练并未终结~
Qwen团队成员认为预训练在智能体、合成数据和推理方面仍具有重要作用,并且需要更多时间进行优化以覆盖整个互联网知识。同时,强调了预训练模型质量对合成数据和后训练的影响以及训练大型模型的挑战。
3分钟用AI让照片开口说话,去造属于自己的梦吧。
上周写了关于海螺新上线的AI声音克隆的文章,引起了广泛关注。今天写一篇文章介绍口型驱动的做法,使用即梦工具生成照片开口视频。分享了如何制作帅哥用坤哥声音模仿经典台词的效果演示和具体步骤。
OCR噪声直接命中了RAG的软肋~
在RAG系统中,基于OCR的非结构化PDF文档抽取导致知识库中的语义噪声和格式噪声问题,影响RAG系统的性能。OHRBench评估了当前OCR解决方案,并推荐使用Marker实现最佳检索性能,但所有解决方案仍存在性能下降。