开源归档 - 第132页共201页

24小时，一块GPU，就能训练出顶级语音模型

2025年2月27日16时作者 NLP工程化

本文提出了Slam训练秘诀，在单张GPU和24小时资源限制下高效训练高质量语音语言模型，显著提升AI研究效率。

2025年2月27日16时作者 NLP工程化

Qwen发布了QwQ-Max-Preview模型，该模型基于Qwen2.5-Max推理模型，具有更强的数学理解、编码和代理能力。即将发布QwQ-Max正式版，并在Apache 2.0下开放源代码。

2025年2月27日16时作者 NLP工程化

阿里万相支持消费级GPU生成视频，能生成中英文文本，并开源。

2025年2月27日16时作者 NLP工程化

Claude 3.7 Sonnet 是一款混合推理模型，重点在于减少潜在伤害，通过训练和周边安全系统进行评估。

2025年2月27日16时作者开源星探

olmOCR 是由 Ai2 推出的新工具，通过 Qwen2-VL-7B-Instruct 进行训练，能高效准确地提取 PDF 文档中的纯文本，并以 Markdown 格式输出。它特别擅长处理复杂布局和手写内容，成本低且完全开源。

2025年2月27日16时作者每日AI新工具

本文介绍了五个AI工具包和模型，包括olmOCR用于处理PDF文档、DeepGEMM优化FP8矩阵乘法、R1-OneVision多模态大语言模型、Baichuan-Audio语音交互模型以及MyCoder AI编程工具。

2025年2月27日14时作者小兵的AI视界

在人工智能飞速发展的背景下，清华大学联合实验室研发的Migician多模态视觉定位模型解决了复杂场景下的目标定位难题。该模型能结合文本描述和图像信息，在安防监控、自动驾驶、医疗影像分析及机器人具身智能等多个领域实现高效准确的目标定位，显著提升系统的感知与决策能力。

2025年2月26日23时作者开源AI项目落地

英伟达推出DeepSeek R1在Blackwell架构上的优化，其推理性能提升了25倍，成本降低了20倍。通过使用FP4精度，DeepSeek-R1实现了更低的成本和更高的效率，可能带动API价格大幅下降。

2025年2月26日14时作者小兵的AI视界

将带你深入探索如何使用
vLLM
框架部署
DeepSeek-R1-Distill-Qwen
大语言

2025年2月26日14时作者小兵的AI视界

阿里巴巴Qwen团队发布了深度推理模型QwQ-Max-Preview，其在数学、编程及通用任务中表现出色，并支持联网搜索和思维链展示。该模型将开源，并推出Android和iOS应用程序，促进AI技术在全球范围内的传播和应用。