阿里巴巴开源需OCR的文档处理模型:mPLUG-DocOwl 1.5
阿里巴巴人大开源的mPLUG-DocOwl 1.5无需OCR理解文档、网页、表格和图表,支持结构感知文档解析、表格转Markdown、图表转Markdown等。
阿里巴巴人大开源的mPLUG-DocOwl 1.5无需OCR理解文档、网页、表格和图表,支持结构感知文档解析、表格转Markdown、图表转Markdown等。
Megrez-3B-Omni是无问芯穹研发的端侧全模态理解模型,基于Megrez-3B-Instruct扩展,在图像、语音和文本领域均取得最优精度。
Robo Blogger是一款智能工具,能够将语音内容自动转化为结构化的专业博客文章,并支持引用参考资料和定制文章结构。适用于技术、生活随笔等场景,极大提升写作效率。
字节最新发布的INFP是一款新颖的声控头部生成框架,支持双边互动。它能够根据输入的双轨道音频实时生成虚拟头像,并实现角色自动切换、高度真实的表情与动作同步等特性。
Facebook开源的AnimatedDrawings项目让儿童简笔画里的主体角色动起来,其功能强大且适合儿童艺术创作领域。项目通过人物检测、图像分割、姿态估计和动画制作等步骤实现这一目标,并使用深度学习与传统图像处理方法相结合的技术解决相关难题。
阿里的CosyVoice 2.0通过流式合成技术大幅降低延迟,提升语音交互体验。该模型支持多种语言和方言,并提供情感音频、顺口溜等多种功能,已开源。
本文介绍了五个开源项目:video-analyzer用于视频分析;Robo Blogger简化博客文章创作;nano-VectorDB是一个简单的向量数据库实现;Reservoirs Lab是一款可视化高维向量数据的轻量级应用;PromptWizard是一种任务感知提示优化框架。
Genesis 是一个开源的生成式物理引擎,专为机器人和物理AI的仿真平台设计。它能够精确模拟现实世界中的各种复杂物理现象,提升机器人开发和AI训练效率。刚开源一天便获得了超过9,000个星标。该引擎具备物理引擎、轻量级机器人仿真平台、强大的渲染系统及生成式数据引擎四大核心能力,支持实时高速仿真,并在多个应用领域展现出巨大优势。
阿里的CosyVoice2迎来重大升级,通过流式合成输出大幅降低语音识别和合成的延迟,提升软件、硬件交互体验。该模型支持多种语言及情感控制功能,已在多个开源项目中得到应用。