在线教程丨北大施柏鑫团队联合贝式计算提出视频实例重绘方法 VIRES,多项性能指标达 SOTA

北京大学相机智能实验室联合团队提出了一种结合草图与文本引导的视频实例重绘方法 VIRES,支持对视频主体的多种编辑操作。该方法在多个指标上优于现有模型,已上线至HyperAI超神经官网教程板块。

在线教程丨获CVPR 2025最佳论文,通用3D视觉模型VGGT推理速度可达秒级

HyperAI超神经官网上线VGGT教程版块,支持一键部署体验基于纯前馈Transformer架构的通用3D视觉模型。该模型能够从多个视角推断场景三维属性,并在多种三维任务中达到SOTA级别表现。

在线教程丨刷新TTS模型SOTA,OpenAudio S1基于200万小时音频数据训练,深刻理解情感及语音细节

HyperAI超神经官网推出OpenAudio-s1-mini教程,介绍高效文本转语音生成工具。OpenAudio S1包含OpenAudio-S1和OpenAudio-S1-mini版本,在大规模音频数据上训练,参数扩展至40亿,并引入奖励建模及RLHF训练机制,显著提升音频质量、情感表达和说话人相似度。该模型仅需每百万字节15美元(约0.8美元/小时),支持多种情感、语调和特殊标记。HyperAI超神经提供免费RTX 4090资源体验OpenAudio-s1-mini功能。

谷歌发布MedGemma,基于Gemma 3构建,专攻医学文本与图像理解

HyperAI超神经上线教程板块,提供一键部署MedGemma-27b-text-it医学推理大模型教程。该模型支持医疗文本理解与临床推理任务,如病人问诊、分诊等。HyperAI还为新用户准备了注册邀请码福利。

Gemini 2.5 全系更新,Deep Think 加持碾压 OpenAI

Google 在 I/O 2025 大会发布了多项重要更新,包括 Gemini 2.5 全系更新、Gemma 3 系列的内存优化和 Imagen 4 的图像细节提升等。同时,Veo 3 支持视频与音频同时生成,Imagen 4 提升了写实和抽象风格图片处理能力,并集成至多个 Google 软件产品中。

在线教程丨ControlNet 作者开源新作!低门槛生成长视频,FramePack 革新视频生成

「FramePack 低显存视频生成 Demo」已上线至 HyperAI超神经官网的教程板块。FramePack 压缩了输入帧的上下文信息,仅需6GB显存即可生成120秒全帧率视频,解决了传统视频生成中显存占用高、漂移和遗忘等问题。

多主体驱动生成能力达SOTA,字节UNO模型可处理多种图像生成任务

字节跳动 Intelligent Creation 团队推出的 UNO 模型解决了多主体生成任务中的挑战,利用扩散 Transformer 模型的上下文生成能力,在 DreamBench 和多主体驱动生成基准测试中取得了最佳效果。教程已上线至 HyperAI超神经官网的教程板块,支持用户快速体验 UNO 的通用定制化图像生成功能。