字节开源多模态理解与生成统一模型,对视觉的理解到达开源顶峰,AI图片编辑能力超强。
字节跳动开源多模态模型BAGEL,支持图像生成、修改及动态变化理解。具备聊天、生成图片、编辑图片、风格转换和导航等能力。
字节跳动开源多模态模型BAGEL,支持图像生成、修改及动态变化理解。具备聊天、生成图片、编辑图片、风格转换和导航等能力。
PaddleOCR 3.0发布全面适配飞桨框架,提升文字识别精度并新增国产硬件支持。PP-StructureV3在文档解析方面表现突出,精度和专精能力领先众多方案。PaddleOCR系列解决方案为AI大模型文档处理提供了强有力的支持。
AgenticSeek 是一个完全本地化的 AI 助手项目,替代 Manus AI。它具有智能网页浏览、自主编码等功能,并能自动分配最佳代理完成任务。
今天推荐的AI-Media2Doc开源项目能将音视频转换为多种文档形式,支持AI问答和思维导图导出等功能。MIT协议下可自由商用。
苹果开发的高效视觉语言模型FastVLM采用新型混合视觉编码器FastViTHD,实现高分辨率图像处理速度提升3.2倍的同时保持精度。
深度研究报告基于搜索整理信息,改变用户习惯。AI搜索提高效率和准确性,未来可能使人变得更懒或不爱动脑。字节发布的DeerFlow结合大语言模型和多种工具实现高效研究自动化。
字节开源的Seed1.5-VL是视觉-语言多模态大模型,支持多种复杂任务如盲人判断红绿灯和智能导盲。其包含5.32亿参数视觉编码器和200亿激活参数混合专家大语言模型,已在多个公开基准中表现出色。
FantasyTalking 是一款先进的音频驱动肖像动画生成技术,支持通过音频信号控制表情、唇部动作和身体姿态生成自然流畅的动画。
MAGI-1是SandAI-org开发的开源视频生成模型,具有高时间一致性和流式生成能力。它支持多种任务并采用先进的架构和技术以提升生成效率。