o1圈杀疯了,阿里又开源Marco-o1

阿里开源Marco-o1,旨在解决缺乏明确标准且奖励难以量化的开放式问题。Marco-o1结合链式思考、蒙特卡洛树搜索等技术增强推理能力,在MGSM上提高了准确性,并展示了扩展解决方案空间和利用更细粒度动作策略的优势。

NeurIPS’24|VL-SAM:北大出品,完全无训练的开放式检测分割模型

北大团队提出VL-SAM,结合视觉-语言模型和Segment-Anything模型,通过注意力图作为提示解决开放式物体检测与分割任务,性能在LVIS和CODA数据集上良好。

MMRel:多模态大模型时代的评测物体间关系理解新基准

MMRel是首个大规模、高质量的物体间关系理解数据集,用于评估和提升多模态大模型能力。包含超过22K问答对,覆盖三个领域与三种关系类型,通过半自动流程生成并提供高难度子集测试极限性能。

体验完Vidu划时代的新功能,我觉得可以正式抛弃3D渲染了。

近日发现一款优秀的2D动漫AI视频工具Vidu,其最新版本1.5引入了多主体一致性功能,实现了风格、角色和场景的一致性。用户可通过上传最多三张图片来生成一致性的视频内容,显著提高了AI视频的制作效率和效果。

一篇小型语言模型技术最新全面综述

小型语言模型因其低延迟、成本效益等优势受到青睐,特别适用于资源受限的环境和领域知识获取。介绍了构建SLMs的基础概念及技术,如架构、训练技术和从大型语言模型(LLMs)获取SLMs的方法,包括剪枝、知识蒸馏和量化。分析了SLMs在问答、编程、推荐系统等领域的应用,并讨论了在移动设备上的部署策略。