开源归档 - 每时AI

开源即巅峰！微软VibeVoice 7B模型：跨语言、多说话人、长文本一次到位

2025年9月1日19时作者小兵的AI视界

体内容创作。
然而，传统的
TTS
系统在处理长文本、多说话人对话以及情感表达方面存在诸多限制
。

2025年9月1日19时作者 Hugging Face

等多维信息，让AI能够像人一样理解世界、解决问题，为用户带来更流畅、更可信赖的交互体验。在多模态大模

2025年8月9日0时作者开源星探

ScreenCoder 是一款通过截图或设计稿自动生成 HTML/CSS 代码的开源工具，利用模块化多智能体框架实现精确视觉理解和布局分析，支持多种模型集成，并提供图像处理和自定义选项。

2025年8月8日19时作者小兵的AI视界

腾讯混元Dense模型作为腾讯开源的高效大型语言模型系列，在消费级显卡上运行，支持边缘设备到高并发生产系统的灵活部署。原生支持256K上下文窗口和快速与慢速思考模式，具有增强的Agent能力和强大的文本生成能力，适用于智能座舱、智能家居、客服系统等场景。

2025年8月6日12时作者每日AI新工具

的
gpt-oss
项目发布了
gpt-oss-120b
和
gpt-oss-20b
两款开放权重模

2025年8月6日12时作者 GitHubStore

AI-Researcher系统通过全新架构实现自动化科学发现，提供全流程自主化、无缝协同和先进AI整合等功能，支持两种研究需求输入模式，并具备快速安装指南。

2025年8月6日8时作者开源星探

Chunkr 是一款基于视觉语言模型的文档处理API，能够将PDF、PPTX、DOCX等复杂文档转为RAG/LLM就绪的结构化数据。它解决了OCR识别不准和格式转换耗时等问题，支持多格式文档解析、带边界框的高精度OCR、语义分块等功能，并提供Python SDK和多种输出形式。

2025年8月5日23时作者开源AI项目落地

Podcastfy 是一个开源工具，能将多种模态内容（文本、图片、网站、视频、PDF等）转化为播客，支持自定义风格和语言模型，生成长度从2-5分钟到30分钟以上的音频。

2025年8月5日23时作者 GitHubStore

BillionMail 是一个开源邮件服务器和电子邮件营销平台，提供完全控制、高级分析等功能，帮助企业和个人轻松管理电子邮件营销活动。

2025年8月5日23时作者 GitHubStore

Qwen-Image 是一款基于20B参数MMDiT架构的多模态图像基础模型，能在复杂文本渲染和精确图像编辑方面实现重大突破。它特别擅长中文文本渲染，并具备高保真文本渲染、多种艺术风格生成及智能图像编辑等核心能力。