清华系大模型独角兽又融资,30亿元!今年商业化收入翻倍

智谱近期完成30亿人民币新一轮融资,主要用于研发基座大模型,提升其复杂推理和多模态任务能力。公司商业化成绩显著,今年迄今收入增长100%,MaaS平台吸引70万用户,API年收入同比增长30倍,日均Tokens消耗量增长150倍。业务覆盖智能汽车、制造等多行业,C端产品智谱清言用户达2500万,年化收入超千万美元。

GPT-4其实根本听不懂声音?港中文、斯坦福等联合打造视觉听觉评估新基准

多模态大模型在听觉任务上表现不佳,甚至无法正确分辨明显不同的声音大小。研究团队提出了DeafTest和AV-Odyssey基准测试,揭示了现有模型在音频感知上的短板,并激发了对未来AI模型的改进方向。

12K Star 适配多场景!MarkItDown:微软开源多格式文档处理工具,轻松将文件转为 Markdown 格式!

一款多功能文档处理工具MarkItDown由微软开源提供,支持PDF、Office文档、图片、音频等多种格式文件转换为Markdown格式,具备OCR文字识别、语音转文字等功能。适用于文档批量处理、索引检索和数据分析等场景。

今日软荐:MSST WebUI:一个集成了音源分离训练框架和 UVR(终极人声消除器)的强大 Web 界面。

MSST 是一款集成了音源分离训练框架和UVR(终极人声消除器)的强大Web界面工具,提供直观的用户界面、灵活的自定义处理流程以及多种预训练模型支持,满足音频爱好者和专业工作者的需求。