开源
腾讯混元发布视频生成大模型
腾讯发布混元视频生成大模型HunyuanVideo,具备高清质感、运动流畅及多视角切换等功能,现已开源。该模型采用Transformer设计和MLLM文本编码器,并通过3D VAE进行压缩训练,支持多种重写模式以适应不同用户需求。
DeepMind 发布中期天气预报模型GenCast,OpenAI十二天的第一天,微软发布3D生成模型TRELLIS
GenCast是一个基于扩散模型的中期天气预报工具,提供多个预训练模型及示例代码。TRELLIS是大型3D生成模型,支持多种格式的3D资产生成和灵活编辑。Report mAIstro是一款报告生成工具,利用LLM快速创建定制化报告。Qodo Cover 是一个测试用例自动生成工具,帮助提高代码覆盖率。OpenAI发布完整版O1模型及ChatGPT Pro订阅服务,包括多模态输入支持、处理速度快等特性。
微信聊天消息总结MCP 服务器mcp-server-chatsum
这个 MCP 服务器用于总结微信聊天消息。通过我们自己的机器人收集消息,并使用 MCP Server 解耦存储和查询功能。用户可以通过 Claude 桌面版随时查询和总结聊天内容,实现私有化部署和数据安全性。
亚马逊推出的新一代基础模型Nova,AIMedia帮助用户自动抓取热点新闻、生成新闻内容,并自动发布到各大平台
亚马逊Nova推出新一代基础模型提升AI应用智能性和成本效益;AgentLab为网页代理研究提供开放框架;ComfyUI为HunyuanVideo提供包装节点简化使用;TinyFusion优化扩散变换器结构提高训练效率和性能;AIMedia是一款全自动AI媒体软件,实现热点新闻抓取及自动发布。
微软开源多语言翻译工具Co-op Translator
Co-op Translator 是一个Python包,利用Azure AI服务和先进的大语言模型自动翻译项目中的多语言文本及图像。它简化了技术文档的本地化过程,支持多种语言的技术开发、学习与研究。
李飞飞AI巨制:一张图生成3D世界,玩家可自由探索,沉浸式人机对话Dippy,专为长视频描述而设计的系统StoryTeller
文章介绍了五项创新技术与工具,包括World Labs的3D场景生成、Dippy Empathetic Speech Subnet用于沉浸式对话、StoryTeller针对长视频描述的技术、ComfyUI-KLingAI-API让用户直接使用KLing AI API以及Flow作为轻量级任务引擎简化AI代理构建。
ChatRex是一个多模态大语言模型,FreysaAI 智能体黑客比赛尝试说服AI释放奖金, 快速构建MCP服务器
本期介绍多模态大语言模型ChatRex、3D物体物理材质生成方法Material Anything、简洁高效Python库FastMCP、开源AI语音处理工具包ClearerVoice-Studio以及对抗性人工智能代理游戏Freysa。