无问芯穹推出大模型 Megrez-3B-Omni了
端侧智能模型Megrez-3B-Omni发布,支持图像、音频和文本理解,适用于智能家居、媒体、自动驾驶、医疗健康等多个领域,预计推动AI技术普及及产业发展,增强我国在全球AI领域的竞争力,并带来商业机会与挑战。
端侧智能模型Megrez-3B-Omni发布,支持图像、音频和文本理解,适用于智能家居、媒体、自动驾驶、医疗健康等多个领域,预计推动AI技术普及及产业发展,增强我国在全球AI领域的竞争力,并带来商业机会与挑战。
Qwen团队成员认为预训练在智能体、合成数据和推理方面仍具有重要作用,并且需要更多时间进行优化以覆盖整个互联网知识。同时,强调了预训练模型质量对合成数据和后训练的影响以及训练大型模型的挑战。
上周写了关于海螺新上线的AI声音克隆的文章,引起了广泛关注。今天写一篇文章介绍口型驱动的做法,使用即梦工具生成照片开口视频。分享了如何制作帅哥用坤哥声音模仿经典台词的效果演示和具体步骤。
在RAG系统中,基于OCR的非结构化PDF文档抽取导致知识库中的语义噪声和格式噪声问题,影响RAG系统的性能。OHRBench评估了当前OCR解决方案,并推荐使用Marker实现最佳检索性能,但所有解决方案仍存在性能下降。
OpenAI计划推出每月2000美元的企业级AI助手,号称能替代人类员工。该服务据称能像律师助理一样协助工作、进行研究,并自动执行复杂任务。虽然有人认为价格昂贵,但OpenAI表示其定价基于企业创造的价值和替代成本。
Topology发布全新持续学习模型CLM,能记住对话内容并自主学习思考。相比传统大语言模型,CLM解决了失忆、缺乏内心世界及灵魂三大痛点,并支持数十亿条记忆存储与检索。
微软发布的Phi-4大语言模型在数学推理方面表现出色,准确率达到91.8%。该模型通过高质量合成数据集、精心策划的数据以及先进的后训练技术实现了这一成就,并已在Azure AI Foundry平台发布。