大模型归档 - 第92页共147页

一文图解大模型量化：量化的目的、内涵及若干实现策略

2025年3月4日14时作者老刘说NLP

个模型在GPU上运行），GGUF（可能将层卸载到CPU上）又是啥？本质是啥？这些都是困扰已久的问题。

2025年3月4日14时作者 AI信息Gap

的流量渠道，再加上疯狂砸钱投广告，腾讯元宝app目前已经超越字节的“豆包”冲到了苹果 App Sto

2025年3月4日14时作者 AI探索时代

文章介绍了神经网络的核心——神经网络层及其在不同模型中的作用和类型，并强调了学习简单结构的重要性来理解各层功能。

2025年3月3日16时作者 PaperWeekly

外训练的“可视化干预”方法，巧妙地挖掘并利用模型自身的内部知识（注意力与梯度信息），从而提升模型对小

2025年3月3日16时作者 PaperWeekly

dge Distillation: Towards New Horizons of Intellig

2025年3月3日14时作者 AI技术研习社

DeepSeek发布免费开源模型DeepSeek-R1，性能媲美OpenAI o1。通过Kaggle平台进行微调训练，使AI更懂特定任务需求。

2025年3月3日14时作者老刘说NLP

，发现一些有趣的问题，比如模型参数融合的玩法，会有更多收获。
围绕模型参数融合，MOE可视化图解，d

2025年3月3日14时作者 AI技术研习社

《北京大学》精彩讲座分享DeepSeek核心价值与应用技巧

2025年3月3日14时作者 AI信息Gap

文章介绍了OpenAI发布的满血版o1以及其对应的Pro套餐，强调了提示词在提升模型回答质量上的作用，并通过具体例子展示了如何利用神级提示词让推理模型Grok 3 – Think提供更深入、有深度的答案。

2025年3月3日12时作者路过银河AI

使用Janus Pro反推模型和bento动漫大模型结合Anime Style LoRa与插画LoRa，实现真人向漫画风格的转换。