月度归档: 2025 年 5 月
Meta「轻量级」KernelLLM颠覆GPU内核生成,8B参数碾压GPT-4o
Meta发布KernelLLM,一个基于Llama 3.1微调的8B模型,能够在PyTorch代码基础上生成高效的Triton GPU内核,单次推理性能超越GPT-4o和DeepSeek V3。
大厂程序员:AI正在将我们变成高速流水线工人,受不了了
亚马逊工程师因使用AI写代码导致工作量增加、效率提高但质量下降,迫使他们成为‘代码审核员’。员工表示不得不依赖AI才能跟上项目进度,否则绩效会受影响,甚至可能被毕业。
谷歌·搜索:献给AI的第一个「祭品」?
谷歌通过AI Overviews和AI Mode大幅削弱用户点击网站的需求,导致搜索结果从信息入口变为信息终点。这引发了谷歌自身商业模式的危机,并预示着传统搜索引擎可能走向终结。
阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜
阿里开源的QwenLong-L1模型在HuggingFace今日热门论文第二,其32B参数版本性能优秀。对比基础模型,QwenLong-L1通过回溯和验证机制成功处理了长文本推理中的干扰信息问题,准确计算了金融文档中涉及优先票据发行成本与第一年利息支出合并的总资本成本。
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
上海交大等团队推出Visual-ARFT项目,专为视觉语言模型设计多模态智能体训练方法,实现图像理解与操作能力。项目开源并测试表明其在复杂任务中超越GPT-4o,展现强大工具调用和推理能力。