支持40种东方语言和22种汉语方言!清华大学开源自动语音识别模型Dolphin

Dolphin 是由 Dataocean AI 和清华大学合作开发的多语言语音识别模型,支持40种东方语言和22种汉语方言。它在210,000小时的数据上训练完成,包含专用数据集和开源数据集。该模型能执行语音识别、VAD、分割和LID任务。

2个百度T11推出超级智能体火爆硅谷!免费使用无需邀请码,靠AI搜索功底估值已破38亿

Genspark超级智能体发布,能够在无需编程的情况下执行复杂任务,包括制作做饭视频和创建HTML游戏。其背后公司MainFunc由前百度高管景鲲创立,展示了从AI搜索转向智能体的新方向。

“一脑多形”具身智能机器人企业「星海图」完成3亿元融资

星海图近期完成A2和A3轮融资,总融资额超3亿元人民币,由凯辉基金领投,IDG资本、高瓴创投等多家机构参投。公司专注于具身智能机器人研发,已完成多轮技术突破与硬件能力构建。

免费开源吉卜力风格图像生成,Anything-to-Audio生成音频AudioX,免费且强大的编码助手Serena

EasyControl_Ghibli是一款免费且易于使用的AI模型,生成吉卜力风格图像。AudioX是统一的扩散Transformer模型,支持多种模态输入和自然语言控制。Serena是一个免费代码助手集成LLM功能。uniOCR是通用Rust OCR引擎,提供本地及云服务。MCP Server for Milvus为LLM应用提供Milvus向量数据库访问桥梁。

视觉Token无缝对齐LLMs词表!V²Flow:基于LLMs实现高保真自回归图像生成

V²Flow团队发布的新开源框架V²Flow解决了视觉Token与大语言模型词表的不一致问题,实现了高保真自回归图像生成。该技术通过视觉词汇重采样器将视觉内容嵌入到LLM的词汇空间中,并使用掩码自回归流匹配解码器进行视觉重建,显著提高了压缩效率和生成质量。

10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原模型

CalibQuant团队在InternVL-2.5模型上提出了一种1比特量化方法,通过校准策略缓解了低比特数量化带来的失真问题。实验结果显示,在多种任务和内存限制下,该方法相比基线有显著的性能提升。