高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后

新智元报道编辑:定慧AI模型在基准测试中表现优秀,但在人类容易解决的问题上却频频出错。创意评测兴起,如MC-Bench利用Minecraft方块来评估模型能力,普通用户也能参与评测。这种测评范式更贴近人类对AI直观和创造力的实际期待。

CVPR 2025高分论文:从照片重建3D矢量,告别模糊渲染,重建边缘更清晰

三维高斯泼溅技术在几何和纹理边界处存在模糊问题,研究提出BG-Triangle方法结合Bézier三角形的矢量图形特性与高斯概率模型,通过引入不连续感知渲染技术降低物体边界的不确定性,实现更锐利的渲染效果。

Adobe黑科技:视频扩散降维图像编辑,ObjectMover秒懂物理规律

论文提出的新模型ObjectMover结合视频扩散模型和虚幻引擎合成数据,实现了图像中物体的真实感移动。它不仅能处理物体的插入、删除和移动任务,还能有效保持物体的身份特征及光照效果。

大模型黑盒探秘:通过“电路追踪”(Circuit Tracing)揭示大模型内部推理机制?

2025年3月29日周六,北京晴天。文章提到了创业的观点和MCP的概念,并介绍了大模型推理可解释性的电路追踪分析方法及其应用实验。通过类比神经回路来揭示语言模型内部的计算机制,研究者构建了归因图以可视化模型的中间步骤,发现大模型在处理各种任务时具有多步推理、规划及复用不同语言特征的能力。

大,就聪明吗?论模型的“尺寸虚胖”

文章介绍了Gemma-3和DeepSeek V3在参数量上的对比,并指出模型效果不仅仅取决于参数大小。通过详细解释Dense和MoE架构的区别及其实际应用效果,强调了参数数量并不能直接反映模型性能优劣的观点。同时讨论了知识蒸馏技术如何让小模型继承大模型的能力,而不仅仅是关注模型的规模大小。

Agent&RAG&KG&LLM&文档智能5大技术前沿:老刘说NLP技术社区持续对外纳新

老刘说NLP技术社区通过每日早报、不定期分享和专题讨论等方式介绍大模型、知识图谱、RAG等多个领域内容,目前已有39次线上交流活动。社区成员可以享受前沿文章推送、技术答疑等权益。

AI开源生态:共创智能科技的新纪元|Devface推荐

devface.ai是专注于展示和发现顶级人工智能黑客和项目的在线平台。该平台列出了23,580名AI开发者和28,041个开源AI项目,覆盖机器学习、自然语言处理等多领域。平台结合大数据分析与开源项目展示,确保用户能根据个人需求找到最合适的AI项目。