视觉生成
港大与字节提出TokenBridge:离散和连续token优点我都要!|自回归视觉生成模型解读系列
模简单的优点,又可以保持连续 token 的强表示能力。
>>
加入极市CV技术交流群,走在计算机视
迈向长上下文视频生成!NUS团队新作FAR同时实现短视频和长视频预测SOTA,代码已开源
本文由 NUS ShowLab 指导完成,首次系统性研究长上下文视频生成。提出帧自回归模型FAR,有效解决长视频训练计算挑战,显著提升长时序一致性。
让奥特曼直呼“天才”的o3 和 o4-mini,被曝捏造事实问题严重!拓展强化学习、图像思维链等亮点成陪衬?
之前思考更长时间而训练。
这些推理模型首次实现了自主调用并整合 ChatGPT 内的全量工具:包括网
DeepSeek多模态能力起底!一探究竟Janus 系列模型:解耦统一多模态理解和生成模型的视觉编码
解统一架构代表作 Janus 以及后续扩大版本 Janus-Pro。
>>加入极市CV技术交流群,走
两个提高图片分辨率工具,抱抱脸开源Smolagents工具,使用多模态把pdf转成md
本文介绍了五个技术项目:Infinity,一种基于位的自回归图像生成模型;InvSR,用于灵活超分辨率的技术方案;PeterCat,为社区维护者和开发者提供的智能答疑机器人解决方案;Smolagents,简化构建和运行智能代理的轻量级库;以及Vision Parse,能够将PDF文档转换为格式化的Markdown内容的工具。