月度归档: 2025 年 3 月
新注意力让大模型上下文内存占用砍半!精度不减还能加速2倍
前苹果ASIC架构师Nils Graef与UC伯克利本科生Andrew Wasielewski提出Slim Attention,通过只存储K而不直接存储V实现更少的内存占用和更高精度。
李开复力推DeepSeek!零一万物发布模型一体机,搭载华为GPU,自家产品也全线替换了
零一万物发布万智企业大模型一站式平台,支持企业快速部署和应用DeepSeek模型。该平台提供一体机部署方案、集成API应用及行业定制服务,助力企业从通用大模型转向实际应用场景。
SIGIR 2025 AgentIR研讨会征稿:探索Agent驱动的信息检索新边界
第二届AgentIR研讨会将于2025年7月17日与SIGIR 2025同期举行,聚焦Agent视角下的信息检索创新。活动将讨论深度强化学习和大语言模型在信息检索中的融合应用及其理论基础、工业应用瓶颈等问题。
实话!写博士论文,别太老实了……
文章介绍了写学术论文时遇到的问题和解决方法,推荐了咕泡科技的一站式科研辅导服务。该服务汇集多位顶尖科研专家,覆盖多个细分领域,帮助初学者高效完成从选题到发表的全过程,提升论文质量与发表几率。
第一批抓住DeepSeek风口的研究生已经论文自由了
文章介绍了科研过程中的重要性,并强调了执行力和扎实工作的重要性。文中还推荐了《顶会顶刊12节论文写作课》,并提到了研梦非凡的论文辅导方案,指出好的idea是靠实干产生的。
LLM从构建到应用工具全集:推理大模型Github索引梳理
2025年3月17日文章总结:介绍了两个关于LLM和推理大模型的GitHub汇总项目。第一个涵盖数据处理、训练、部署等多个方面,第二个专注于语言模型及多模态推理技术,并提供相关论文、代码库等资源。