AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板
研究团队发布了一项包含1000个高质量问题的音频理解评估基准MMAR,测试了30款模型的表现。结果表明大多数开源模型在面对复杂音频推理任务时表现不佳,而闭源模型Gemini 2.0 Flash则表现出色。该基准展示了当前AI在音频理解方面的不足,并强调了数据和算法创新的重要性。
研究团队发布了一项包含1000个高质量问题的音频理解评估基准MMAR,测试了30款模型的表现。结果表明大多数开源模型在面对复杂音频推理任务时表现不佳,而闭源模型Gemini 2.0 Flash则表现出色。该基准展示了当前AI在音频理解方面的不足,并强调了数据和算法创新的重要性。
苹果近期发布的关于AI研究的论文因测试方法问题引发吐槽。研究人员发现模型并非因为推理能力不足而失败,而是受限于输出token数量。汉诺塔问题需要大量token才能完成全部解答,导致模型在处理盘子数超过13个时准确率变为0,无法完整输出所有步骤。其他研究者指出,这并非AI本身的问题,而在于实验方法的缺陷。
谷歌发布的Gemini 2.0 Flash模型不仅支持文本聊天,还具备原生生图功能。其去水印能力惊艳,仅需几秒钟即可去除图片中的水印标识,并能自动填补因去除水印而留下的空白,但有时会引入自己的水印或影响其他文字部分的清晰度。
谷歌 Gemini 2.0 Flash 图像编辑功能意外被网友用于去除图库水印,却无法处理复杂情况。尽管存在漏洞,该模型展示了强大的图像生成能力及多模态结合的潜力。
Google AI Studio中的Gemini 2.0 Flash实验性功能支持原生图像生成和多模态对话式编辑。它能根据用户故事描述生成插图,并且允许通过多轮对话来修改图像细节,同时还提供个性化的AI研究助手Deep Research。
GitHub Copilot 迎来了三项重要升级:Agent模式预览版、Copilot Edits正式发布以及全用户模型库新增 Gemini 2.0 Flash选项。同时,首次披露了代号 ‘Project Padawan’ 的自主 Agent 模式,赋予 Copilot 自主迭代代码并实现错误识别与自动修复的能力。
Google DeepMind 推出的新模型 Gemini 2.0 系列在性能和性价比方面表现出色。Gemini 2.0 Pro 在所有类别中排名第一,Flash和Lite版本则以合理的价格提供多模态能力和API接口等功能。Gemini 2.0系列通过降低价格门槛,提升了AI技术的可访问性和实用性。
谷歌旗下的NotebookLM更新推出Gemini 2.0 Flash实验版本及更多功能。新界面简化了内容管理、生成和讨论流程;新增’加入’对话功能支持用户与AI主持人实时互动。高级版NotebookLM Plus提供音频转录、团队协作等额外功能,并将于2025年初通过Google One AI Premium提供。