GraphRAG遇见事件图谱及llama、Qwen、DeepSeek等主流大模型架构对比总结 2025年7月21日14时 作者 老刘说NLP .2,Qwen3-4B,SmolLM3-3B,DeepSeek-V3,Qwen3-235B-A22B
从架构特性到生态建设,沐曦董兆华深度剖析国产 GPU 上的 TVM 应用实践 2025年7月17日12时 作者 HyperAI超神经 rAI超神经主办的第 7 期 Meet AI Compiler 技术沙龙活动上,沐曦集成电路的高级总
盘一盘,2017年Transformer之后,LLM领域的重要论文 2025年6月29日16时 作者 机器之心 了热烈讨论,他提出了「软件 3.0」的概念,自然语言正在成为新的编程接口,而 AI 模型负责执行具体
初探最大更新参数化muP:超参数的跨模型尺度迁移规律 2025年3月30日23时 作者 PaperWeekly 经网络 众所周知,完整训练一次大型 LLM 的成本是昂贵的,这就决定了我们不可能直接在大型 LLM
重磅!NeoBERT横空出世:2.1万亿token训练,开源碾压传统编码器 2025年3月4日23时 作者 AGI Hunt ude、Grok、DeepSeek 这些对话式 AI 迷得神魂颠倒时,却很少有人意识到,这些模型仅仅
大模型之嵌入与向量化的区别是什么? 2025年1月6日14时 作者 AI探索时代 嵌入和向量化都是将数据转化为向量的过程,但嵌入更注重保留语义关系并能通过学习捕捉深层关系;向量化则侧重直接性,不需学习,通常基于规则或统计生成稀疏向量。二者可以结合使用以优化表示质量。
2024年度AI报告(五):中国信通院《人工智能发展报告(2024)》深度解读 2025年1月1日14时 作者 子非AI 回首2024,我们共同见证了人工智能领域的蓬勃发展,也一同探索了大模型时代的无限可能。感谢每一位读者
实践教程|图解NumPy,这是理解数组最形象的一份教程了 2024年12月29日22时 作者 极市干货 ↑ 点击 蓝字 关注极市平台 作者丨机器之心 来源丨https://jalammar.github.