免费开源吉卜力风格图像生成,Anything-to-Audio生成音频AudioX,免费且强大的编码助手Serena

EasyControl_Ghibli是一款免费且易于使用的AI模型,生成吉卜力风格图像。AudioX是统一的扩散Transformer模型,支持多种模态输入和自然语言控制。Serena是一个免费代码助手集成LLM功能。uniOCR是通用Rust OCR引擎,提供本地及云服务。MCP Server for Milvus为LLM应用提供Milvus向量数据库访问桥梁。

清华大学推出Dolphin语音识别模型!专攻40种东方语言,方言识别准确率提升54%!

清华大学和海天瑞声联合开源的Dolphin语音识别模型专为东方语言设计,支持40种东方语言和22种汉语方言,其small版本仅为Whisper large v3大小的一半,却提高了54.1%的平均字错率。

6.5k星星!做一个AI版的自己,代替自己去思考、工作,生命不是永恒的,但精神永远都在。

一个名为Second Me的开源项目能克隆数字人以延续人类精神和经历。它通过AI技术捕捉用户记忆,支持角色切换适应不同场景,并学习用户的偏好和行为模式。

字节开源MegaTTS3-轻量高效语音合成模型,Wan 团队开源 All-in-One 视频编辑框架 VACE

本文介绍了五种新兴的人工智能技术与系统:轻量级高效语音合成模型MegaTTS3、集视频创作与编辑于一体的AI模型VACE、半自动科学发现系统CodeScientist、终端AI编程助手Gemini Code,以及基于多智能体的医疗问诊框架hospital_multiagent_system。

零代码打造个人AI助手!AutoAgent:Manus和Deep Research的开源版方案!

一款完全自动化、零代码的 LLM 智能体框架 AutoAgent 由香港大学 HKUDS 团队开发并开源,目标是让 AI 开发无门槛。它支持三种使用模式和两种交互模式,内置向量数据库强化 AI 记忆能力。适用于智能搜索、数据分析、信息处理等场景,用户只需用日常语言描述需求即可生成智能助手。

3K+ Star!FinRobot:一个开源的金融分析AI Agent平台

FinRobot 是一个开源的金融分析人工智能代理平台,利用大型语言模型为金融行业提供全面解决方案。它采用了四层架构,并支持多种金融工具和 API 集成,适用于市场预测、财务报告生成及交易策略制定等多种场景。