跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

注意力机制

阶跃公开了自家新型注意力机制:KV缓存消耗直降93.7%,性能不减反增

2025年1月17日16时 作者 机器之心

研究提出多矩阵分解注意力(MFA)及其变体 MFA-Key-Reuse,大幅降低语言模型推理成本的同时实现性能提升。

分类 学术、 资讯 标签 MFA-Key-Reuse、 多矩阵分解注意力、 性能提升、 注意力机制、 清华大学、 阶跃星辰 发表评论

谷歌推出Transformer架构的继任者Titans:训练代码也会公开

2025年1月16日23时 作者 AI寒武纪

谷歌发布的新架构Titans引入了神经长期记忆模块,能够在测试时学习记忆,提高模型上下文长度的同时保持快速推理能力。

分类 国际、 资讯 标签 二次方计算成本、 注意力机制、 泰坦架构、 神经长期记忆模块、 谷歌、 遗忘机制 1 条评论

机器学习入门学习资源列表:awesomeMLSys

2025年1月10日8时 作者 NLP工程化

GitHub 上的 awesomeMLSys 提供了机器学习入门的学习资源列表,涵盖多个方面的内容,帮助深入学习和理解机器学习。

分类 开源 标签 分布式计算、 性能优化、 机器学习、 注意力机制、 神经网络、 量化 发表评论

从文字到视觉:EvalMuse-40K如何评价T2I模型的进化

2025年1月6日16时 作者 PaperWeekly

©PaperWeekly 原创 · 作者 |
李重仪
单位 |
南开大学教授
研究方向 |
计算机视

分类 大模型、 学术 标签 FGA-BLIP2、 MLM、 PN-VQA、 图文匹配、 正负问答、 注意力机制 发表评论

Transformer编码器与解码器和神经网络之间的关系

2024年12月31日14时 作者 AI探索时代

编码器是神经网络模型的一部分,用于将输入数据映射到更紧凑的特征空间。它们通常是任务驱动的模块,由多个神经网络组件组成。

分类 大模型 标签 Transformer、 上下文感知、 注意力机制、 特征提取、 编码器、 边缘 发表评论

OpenAI o1如何炼成?原理逆向工程图解

2024年12月21日14时 作者 机器学习算法与自然语言处理

MLNLP
社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企

分类 学术 标签 MCST树搜索、 o1模型、 多模态学习、 思考因子、 注意力机制、 自回归模型 发表评论

让多视角图像生成更轻松!北航和VAST推出MV-Adapter

2024年12月18日14时 作者 机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000

分类 学术、 资讯 标签 3D纹理生成、 MV-Adapter、 任意视角生成、 光线图、 注意力机制、 消融实验 发表评论

Ilya Sutskever连续三年获NeurIPS 终身成就奖

2024年12月14日8时 作者 AGI Hunt

AI界传奇人物Ilya Sutskever因发表的论文’Sequence to Sequence Learning with Neural Networks’获得NeurIPS最高荣誉。该论文展示了序列学习的革命性方法,并在自然语言处理领域影响深远。

分类 分享 标签 Ilya Sutskever、 LSTM、 NeurIPS、 seq2seq模型、 注意力机制、 深度学习 发表评论

LSTM之父:我也是注意力之父!1991年就发表线性复杂度,遥遥领先Transformer 26年

2024年12月13日12时 作者 新智元

新智元报道
编辑:LRS
【新智元导读】
Transformer模型自2017年问世以来,已成为AI

分类 资讯 标签 Jürgen Schmidhuber、 Manduchi、 Tomasi、 Transformer、 多头注意力、 注意力机制 发表评论

中科院最新综述|万字长文搞懂车道线检测

2024年12月12日8时 作者 极市干货

↑ 点击
蓝字
关注极市平台
作者丨Xin He等
来源丨自动驾驶之心
编辑丨极市平台
极市导读
本

分类 学术 标签 任务范式、 参数化模型、 注意力机制、 深度学习、 相机透视效应、 车道线检测 发表评论
较早文章
较新文章
← 上一页 页面1 … 页面3 页面4 页面5 下一页 →

AGI AI AI技术 Anthropic ChatGPT Claude Cursor DeepSeek DeepSeek-R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • Cursor 中最受欢迎的 5 个 MCP Server!
  • 从GPT-5到DeepSeek V3.1,顶尖AI大模型的新方向出现了!
  • “AI购物代理”——电商下一个必争之地
  • 无账号&特殊网络,如何畅跑 Claude Code|附智谱「特别折扣」
  • 文档多模态RAG方案哪个更好?9类Embedding+3类MLLM+4类框架对比及古籍文档数据合成工具

2025 年 9 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 8 月    

归档

  • 2025 年 9 月
  • 2025 年 8 月
  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×