3 月 2025 - 第160页共274页

arXiv科研神器：Mistral OCR、Claude 3.7合体实现论文速读

2025年3月14日12时作者机器之心

2025年arXiv论文将自动生成博客风格概述。alphaXiv结合Mistral OCR和Claude 3.7生成清晰易懂的文章，大幅提高科研效率。

2025年3月14日12时作者机器之心

一轮 AI 技术爆发才刚开始，激烈的应用侧竞争也进入了正在进行时。
由于官方服务器经常遭遇繁忙、限流

2025年3月14日12时作者新智元

OpenAI提交了一份长达15页的政策建议报告，呼吁美国政府立法禁止DeepSeek，并为AI公司提供豁免权以换取模型共享。目的是在中美竞争中确保美国的技术领先地位。

2025年3月14日12时作者机器之心

清华系科创企业清程极智联合清华大学团队开源大模型推理引擎”赤兔”，支持非H卡设备运行原生FP8模型，相比vLLM方案，使用GPU数量减少50%，输出速度提升3.15倍。

2025年3月14日12时作者机器之心

本文介绍了一篇关于 MIDI 模型的研究论文，MIDI 能够从单张图像生成高几何质量的组合式 3D 场景。该模型在多个数据集上的表现超越现有方法，并有望应用于建筑设计、虚拟现实等多个领域。

2025年3月14日8时作者 NLP工程化

潞晨科技推出Open-Sora 2.0开源视频生成大模型，性能媲美OpenAI Sora，支持720p高分辨率和流畅24FPS视频生成。

2025年3月14日8时作者 NLP工程化

基于SSE的MCP协议实现方案概述了双向异步通信、会话状态管理、标准通信协议及可扩展性特点，强调其在浏览器中的直观性和调试便利性。

2025年3月14日8时作者开源星探

通过MCP-Playwright协议，大语言模型如Claude能够直接控制浏览器进行网页交互、数据抓取等任务。它支持点击按钮、填写表单、执行JavaScript代码等功能，并提供截屏和分析页面的能力。

2025年3月14日8时作者 NLP工程化

国内外研究者综述了LLM的后训练方法进展及五种范式（微调、对齐、推理、效率和集成适应），并介绍了相关数据集与应用场景，同时讨论了当前面临的伦理问题及未来方向。

2025年3月14日8时作者开源星探

Google开源Gemini 2.0多模态生图功能，用户只需一句话即可对图片进行修改或创作，如换发色、闭眼、改变对象身份等，展示了生成式AI在图像编辑领域的巨大进步。