极市干货
ICCV 2025|BinEgo‑360:融合全景与双目第一视角的多模态场景理解workshop及挑战赛现已启动
BinEgo-360Workshop及挑战赛旨在探索融合全景与双目第一视角下的多模态视频理解任务,大赛包括两个赛道:复杂场景理解和时序动作定位。参赛者需基于360+x数据集完成相关任务,涵盖视觉、空间音频等多种模态信息。
DINO V2 算法详解:自监督学习的“炼丹炉”,Transformer 的“魔法棒” (25000字+)
lan.zhihu.com/p/27428676605
编辑丨极市平台
极市导读
DINO V2从头
Prefix Grouper:加速GRPO训练,即插即用,长上下文场景计算效率跃升!
为解决GRPO训练中因冗余计算导致的效率瓶颈,本文提出Prefix Grouper算法。该方法通过共享前缀前向计算减少冗余,显著降低FLOPs和内存开销,并已在开源平台上提供技术报告与代码。
ICLR 2025 | DynAlign:跨域语义分割中无监督动态类别对齐的创新突破
DynAlign 框架通过结合 GPT-4、SAM 和 CLIP,实现了跨域语义分割中前所未有的无监督动态类别对齐能力。该方法无需目标域标注,在智能驾驶和城市管理等场景中表现出色。
有数据、会算法、想搞事?芜湖AI大赛数据与算法赛道全解析!
6月5日,2025长三角(芜湖)算力算法创新应用大赛上海站线下沙龙圆满结束。来自极视角、智谱AI等企业参加,聚焦大模型落地、IoT智能进化等多个维度。数据赛道和算法赛道全面开放解读,鼓励高校团队参与,提供百万奖金池。
NeurIPS 2024 TextHarmony:和谐统一的多模态文字理解与生成大模型
TextHarmony是首个在单一模型中实现视觉文本感知、理解与生成任务的OCR研究,通过ViT+MLLM+Diffusion架构及Slide-LoRA缓解模态不一致问题,显著提高OCR相关任务性能。
2.7M 样本即可同时支持图像理解、生成等多种任务!北大团队开源统一大模型UniWorld-V1
一个整合高分辨率对比语义编码器与多模态大模型的统一生成框架,仅用 2.7M 样本即支持图像理解、生成、编辑与感知等多种任务。