学术
视觉语言模型能否实现鲁棒的数学推理?UC伯克利发布测评基准DynaMath
本文介绍了一项新的动态生成的测评基准DynaMath,用于评估和研究视觉语言模型在处理多模态数学问题时的推理能力。通过分析当前最强的一些视觉语言模型(如GPT-4o)在简单数学题上的表现,发现它们存在漏洞和鲁棒性不足的问题。DynaMath提供了501个高质量、多主题的种子问题及其变体,评估了14个最先进的视觉语言模型的表现,揭示了其推理稳健性的局限性。
再投40亿美元!亚马逊向OpenAI劲敌Anthropic追加投资
亚马逊向生成式 AI 初创公司 Anthropic 再额外投资40亿美元,使总投资达到80亿美元,并与 AWS 合作开发定制芯片用于训练 AI 模型。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
机器之心报道 tokenizer 对于图像和视频生成模型的重要性被研究者们所关注。谷歌的研究表明,好的tokenizer能够提升模型效果至最佳diffusion模型水平。英伟达开源的Cosmostokenizer采用因果结构确保只使用过去和现在的帧信息,提高学习效率并保持高质量重建。
阿里国际版o1来了,Marco-o1:聚焦开放式问题推理
阿里巴巴国际数字商业集团MarcoPolo团队发布Marco-o1,旨在推进开放式问题解决的大型推理模型。通过集成CoT微调、MCTS和推理动作策略等技术,提高复杂任务处理能力,并在翻译任务中表现出高级理解和推理能力。
NeurIPS 2024 Oral 还原所见!揭秘从脑信号重建高保真流畅视频
NeuroClips 是一种用于 fMRI-to-video 重建的新颖框架,通过感知重建和语义重建实现高质量、高帧率视频的重建。该方法在多项指标上优于现有技术,并展示了良好的神经科学解释性。
NeurIPS’24|VL-SAM:北大出品,完全无训练的开放式检测分割模型
北大团队提出VL-SAM,结合视觉-语言模型和Segment-Anything模型,通过注意力图作为提示解决开放式物体检测与分割任务,性能在LVIS和CODA数据集上良好。