跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

视频理解

LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

2025年2月6日12时 作者 机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000

分类 学术、 资讯 标签 LLaVA-Mini、 图像理解、 显存使用、 视频推理、 视频理解、 计算负载 发表评论

阿里巴巴达摩院发布了专注于图像和视频理解的多模态基础模型:VideoLLaMA 3

2025年1月24日16时 作者 NLP工程化

阿里巴巴达摩院发布VideoLLaMA3多模态基础模型,支持看懂视频内容、理解图片并能对话,基于Qwen2.5架构。

分类 开源 标签 3、 VideoLLaMA3、 多模态基础模型、 智能看视频助手、 视频理解、 阿里巴巴达摩院 发表评论

TPAMI-2024 Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!

2025年1月17日16时 作者 机器之心

Uni-AdaFocus 是一个通用的高效视频理解框架,通过降低时间、空间和样本冗余性实现了统一建模,并已在多个数据集上验证了其有效性。

分类 学术、 资讯 标签 AdaFocus、 TPAMI、 动态计算、 平均加速比5倍、 清华大学、 视频理解 发表评论
较新文章
← 上一页 页面1 页面2

AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • 中国队首次在“机器人足球世界杯”夺冠,清华领衔,国产机器人成赛场香饽饽
  • 季逸超亲述 Manus 构建之谜,一文读懂 AI 智能体的上下文工程
  • 中国首个算力小镇实探:1毫秒城市算网,加速AI应用落地
  • 首个开源「AI智能语音转文本模型」,质量超whisper,成本爆降。
  • WAIC前瞻:多厂商智能体产品首发首秀,Agent迎发布潮

2025 年 7 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
28293031  
« 6 月    

归档

  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×