月度归档: 2025 年 3 月
CVPR 2025 Qwen让AI「看见」三维世界,SeeGround实现零样本开放词汇3D视觉定位
重要任务,旨在让 AI 根据
自然语言描述
在 3D 场景中找到指定物体。
具体而言,给定一个 3D
给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 AAAI 2025
BPO-AVASR通过双焦点偏好优化方法提升了视觉和音频结合的语音识别性能,解决了噪声、口语化表达及同音词混淆等问题,在多个基准数据集上取得了最优表现。
蚂蚁自研2900亿大模型用国产AI芯片训练,计算成本508万元低于DeepSeek|
蚂蚁集团Ling Team团队利用AI Infra技术开发了两个百灵系列开源MoE模型,并在训练阶段使用国产AI/GPGPU芯片产品降低了成本。相关成果发表在预印版Arxiv平台上。
刚刚,谷歌Gemini Live上新功能,能看懂手机屏幕、还能实时视频
谷歌在MWC上推出Project Astra与Gemini Live集成的新AI功能,包括屏幕共享和实时视频回答问题。这些功能提升了实时人工智能交互的能力,使Gemini Live能够更好地理解和响应用户的需求。
比Playwright更高效!BrowserTools MCP 让Cursor直接控制当前浏览器,AI调试+SEO审计效率狂飙!
ainee,欢迎
阅读本期新文章。
在可能的路上把工具的Buff叠满,就能效率起飞了。
今天我们来说