3B挑战70B!月之暗面Kimi-VL新版开源:数学、视频等多项指标超越GPT-4o
月之暗面开源多模态模型Kimi-VL-A3B-Thinking-2506,该版本在多个基准测试中超越GPT-4、Qwen2.5等模型,并提升了视觉和视频推理能力。
月之暗面开源多模态模型Kimi-VL-A3B-Thinking-2506,该版本在多个基准测试中超越GPT-4、Qwen2.5等模型,并提升了视觉和视频推理能力。
研究团队提出像素空间推理范式,让视觉语言模型具备原生视觉操作能力,打破文本对视觉语义的翻译牢笼。通过视觉主动操作和视觉主导推理实现高效视觉理解,在高清图像、复杂场景计数及长视频推理中均取得显著性能提升。
小米大模型Core团队推出多模态开源模型MiMo-VL-7B系列,该模型在视觉理解和推理任务中表现出色,并在多个数学竞赛中超越了Qwen2.5-VL-7B和DeepSeek等同级别模型。