机器之心
微软推出深度视频探索智能体,登顶多个长视频理解基准
论文提出 Deep Video Discovery (DVD),通过将长视频分割成多粒度片段并利用LLM推理能力自主规划工具获取信息来回答问题。在最新的推理模型OpenAI o3帮助下,DVI以74.2%准确率超越现有工作,在LVBench上大幅领先。
充分激发模态协作,MokA量身打造MLLM微调新范式
本文提出了一种名为MokA的方法来解决当前主流多模态微调策略的问题,该方法兼顾单模态信息的独立建模和跨模态交互建模。研究团队在多个场景下进行了实验,并证明了其有效性。
OpenAI转向谷歌TPU:宿敌也能变朋友?
OpenAI 开始租用谷歌 TPU 芯片支持 ChatGPT 及其产品,这是 OpenAI 首次采购非英伟达芯片,可能对其与微软的关系和对 Google 的依赖产生影响。