学术归档 - 第109页共283页

刚刚，OpenAI图像生成模型API发布，Token计价，一张图花掉1.4元

2025年4月24日11时作者机器之心

OpenAI 推出 gpt-image-1 API，允许开发者轻松集成高质量图像生成功能。此模型具备准确、多样的视觉风格等特性，支持通过文本提示生成图像，并按 token 进行定价。

2025年4月24日8时作者极市干货

oder Transformer 能否加速收敛并增强样本质量？
>>
加入极市CV技术交流群，走在计

2025年4月24日8时作者极市干货

仅调整5%骨干网络参数，Mona方法在实例分割、目标检测等视觉任务中超越全量微调效果，显著降低适配和存储成本。

2025年4月24日8时作者极市干货

本文介绍了一种名为Zig-RiR的新型医学图像分割模型，通过创新的嵌套结构和锯齿状扫描机制实现了对二维和三维医疗图像的高效精准分割，显著提升了计算效率并降低了GPU内存使用。

2025年4月23日23时作者机器之心

本文通过最优控制理论建立起数据选择与训练动态之间的数学联系，为理解预训练数据的价值提供了理论抓手。这一方向不仅有望替代传统依赖直觉与试验的数据筛选流程，也为未来自动化、可解释的大模型训练打开了新思路。

2025年4月23日23时作者机器之心

机器之心报导，Dia-1.6B 是一个在 GitHub 等平台上走红的开源语音模型，不仅能生成说话的声音、对话，还能合成真实感强的各种声音。其参数量为1.6B，目前已被下载超过5600次，热度排名Hugging Face第二，已收获大量好评和星标。

2025年4月23日16时作者机器之心

，开源 100 万真实用户池，助力计算社会科学的交叉研究
随着大语言模型角色扮演能力的提升，越来越多

2025年4月23日16时作者机器之心

曾任爱奇艺虚拟机云平台负责人，小红书商业化算法工程团队负责人。
刚刚，清华大模型团队
LeapLab

2025年4月23日16时作者 PaperWeekly

2025 年 AMD AI PC 应用创新大赛开幕，以 AI PC 芯进化为主题，面向全球开发者、企业团队等开放报名。大赛旨在打造软硬件协同创新的顶级舞台，提供丰厚现金奖励和资源支持。

2025年4月23日16时作者机器之心

本文由 NUS ShowLab 指导完成，首次系统性研究长上下文视频生成。提出帧自回归模型FAR，有效解决长视频训练计算挑战，显著提升长时序一致性。