转录工具SoftWhisper
该项目使用Whisper.cpp将音频/视频中的音频转为文字,兼容多种平台且性能优越。相较于传统方法,使用Whisper.cpp可以在大约2-3分钟内转录2小时的音频。
该项目使用Whisper.cpp将音频/视频中的音频转为文字,兼容多种平台且性能优越。相较于传统方法,使用Whisper.cpp可以在大约2-3分钟内转录2小时的音频。
Vision-R1项目通过两阶段策略解决了多模态推理数据稀缺的问题,提出冷启动初始化和RL训练方案,并创新性地引入PTST策略和HFRRF奖励函数,显著提升了模型在多个数学推理基准测试中的表现。
专注于AIGC领域,讨论微软&OpenAI、百度文心一言等大语言模型的发展与应用。提出Inner Thinking Transformer架构(ITT),通过动态分配计算资源和思考步骤提升模型性能而不增加参数,显著优于基线模型。
AMD发布了RDNA 4架构和Radeon RX 9000系列新显卡,对标英伟达产品。RDNA 4加速器支持更多游戏,并与FSR 4技术结合提升性能。苏姿丰表示,AMD将专注于AI推理和高性能计算。
DeepGEMM是DeepSeek开源的一款支持FP8 GEMM的库,为V3/R1训练和推理提供动力,在Hopper GPU上性能高达1350+ FP8 TFLOPS。该库采用JIT即时编译技术,核心逻辑约为300行,仅支持英伟达Hopper Tensor Core架构,设计简单高效,且在某些形状上的表现优异。