月度归档: 2025 年 3 月
13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”
预测”方法正面临严重的效率瓶颈。
怎么办?
来自浙大、上海AI Lab等机构的研究人员提出了一种全新
业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术
研究人员提出了一项新技术OThink-MR1,通过动态强化学习提升多模态语言模型的泛化推理能力。该技术结合了动态KL散度策略和精心设计的奖励模型,显著改善了模型在多种任务上的表现。
AIGC第一股年报详解:AIGC业务暴涨88.5%营收2.2亿,95%智能硬件交付出海,跑通规模化「软件订阅+出海」
一份、也是足够亮眼的一份年终财报。
出门问问日前发布2024年度业绩报告,关键数字如下:
AIGC业
强推理模型下,Agent workflow 仍有必要吗?
本周解读了两则关于AI及机器人领域的业内重要事件。一是探讨强推理模型下,Agent workflow是否仍有必要;二是分析从‘拼能力’到‘拼盈利’的视频生成赛道格局变化。
Linux之父对AI泡沫开大:90%是营销!
Linux 创始人 Linus Torvalds 批评 AI 行业炒作现象,认为目前大部分产品主要为了吸引投资而非解决实际问题。他建议等待技术成熟后再做决策,并强调未来五年将是关键期。
GPT-4o 吉卜力爆火!Prompt SD 白学了?
GPT-4o 是 OpenAI 最新的多模态大模型,引发了图像生成领域的革命。它通过简单的文本提示就能生成高质量的图像,并挑战了传统的提示词工程和 Stable Diffusion 技术。但这些技术仍有其独特价值,在特定场景中仍发挥作用。
字节开源MegaTTS3:0.45B参数实现高保真语音克隆,中英文混合无缝切换。
MegaTTS3 是字节跳动最新开源的 TTS 模型,仅 0.45B 参数,在普通设备上流畅运行并生成自然逼真的语音。它支持中英文混合场景和口音控制。