大模型归档 - 第116页共147页

神经网络理论与技术学习以及工具

2025年1月27日14时作者 AI探索时代

文章介绍了神经网络模型的学习方法，包括数学计算工具（如PyTorch和TensorFlow）以及神经网络模型结构。强调了理论基础的重要性，并提到了训练过程中的损失计算、反向传播等步骤。学习建议是从案例开始实现自己的神经网络模型，理解其工作机制再深入实践。

2025年1月27日14时作者 AI信息Gap

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研

2025年1月27日12时作者路过银河AI

一款专为美式漫画爱好者设计的Lora模型，支持超级英雄、科幻场景等多场景应用，具有高还原度美漫风格、强烈动态感和力量感等特点。

2025年1月26日23时作者 PaperWeekly

©作者 |
彭岩松
单位 |
中国科学技术大学博士生
研究方向 |
实时目标检测
引言
在当前内卷严

2025年1月26日23时作者 PaperWeekly

LLM 如何在多轮任务中对齐人类偏好？通义提出多轮对齐 SDPO 效果上大幅度超过标准 DPO，让

2025年1月26日14时作者 AI信息Gap

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研

2025年1月26日14时作者 AI信息Gap

木易在公众号分享了关于国产模型DeepSeek-R1和老牌强手o1之间的比较，并引入了更高算力的o1-pro。近期，Eric Zelikman对Grok 3进行了测试，结果表明Grok 3在碰撞效果上表现最优，引发热议。

2025年1月25日23时作者 PaperWeekly

本文介绍了一篇关于多模态大模型的研究论文《Reconstructive Visual Instruction Tuning》，提出通过重建输入图像作为监督信号来提升视觉部分的学习效果，显著提高模型的细粒度理解能力，并且代码已开源。

2025年1月25日23时作者 PaperWeekly

2025年1月25日14时作者 AI技术研习社

最近，我尝试对 Qwen2-VL-2B 进行微调。这是一款强大的多模态大语言模型，既能处理文本，又能