开源
字节开源了一款多主体视频模型!掩码黑科技解锁多主体丝滑控制!
字节跳动MAGREF项目通过掩码引导机制实现了连贯多主体视频生成,支持单人、多人及人物+物品组合。该框架采用像素级通道拼接和区域感知动态掩码技术,生成自然流畅的多主体视频。
PandasAI:让数据“开口说话”,用LLM赋能数据分析!
PandasAI 是一个基于 Python 的开源平台,通过结合大语言模型和检索增强生成技术,让用户以自然语言形式与数据进行交互。它支持多种数据格式,并提供 Docker 沙盒环境保障数据安全。
MIT和加州联手打造多智能体大语言模型的金融交易框架TradingAgents
TradingAgents是一个多智能体交易框架,模拟公司运作模式。它包括基本面分析师、情绪分析师等角色进行市场评估和策略讨论,以制定最优交易决策。
OpenAI联合创始人Ilya精选的AI论文清单
OpenAI联合创始人Ilya精选的AI论文清单包含30篇基础、优化和应用类论文,涵盖RNN/LSTM、CNN、Transformer等技术,内容涉及正则化、生成模型、对齐等多个领域。
Cosmos-Predict2:NVIDIA开源的物理AI世界模型,可生成高质量图像和未来视觉世界
NVIDIA开源的Cosmos-Predict2模型,提供两种规模以满足不同需求,支持多种生成方式,并附有详细安装、使用和训练指南。
21.7K 标星的开源TTS!FishAudio开源情感语音核弹:200万小时炼成“声优AI”!
FishAudio团队发布了全新的OpenAudio S1语音模型,在TTS-Arena榜单上荣登第一名。该模型基于200万小时音频数据训练,支持50+情感标记和多种语言,提供了旗舰版S1(4B参数)和开源版S1-mini(0.5B参数)。