英伟达开源语音识别模型!0.6B 参数登顶 ASR 榜单,1 秒转录 60 分钟音频!
英伟达发布Parakeet TDT 0.6B V2开源语音识别模型,参数仅600M,平均词错误率(WER)6.05%,可在1秒内完成60分钟音频转录,支持英文,已入驻Hugging Face Open ASR榜单首位。
英伟达发布Parakeet TDT 0.6B V2开源语音识别模型,参数仅600M,平均词错误率(WER)6.05%,可在1秒内完成60分钟音频转录,支持英文,已入驻Hugging Face Open ASR榜单首位。
阿里云万相2.1视频生成模型开源,支持文生视频和图生视频任务。通过高效VAE和DiT架构增强了时空上下文建模能力,实现无限长1080P视频的编解码,并在VBench榜单上夺冠。与老朋友“可灵”对比,万相2.1生成速度更快但物理规律处理稍逊。
PyTorch Forecasting:一个基于PyTorch的时间序列预测工具,支持用户实现高精度预测,适用于专业人士和初学者。
东京发布高分辨率3D数字孪生模型,涵盖城市环境的实时数据与分析。此模型可通过简易点云数据补充缺失部分,并用于灾害应急救助和能源管理优化。