一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调
由Transformer作者之一创立的SakanaAI公司近期推出Text-to-LoRA(T2L),简化了模型适配流程,一句话就能生成LoRA。该方法通过动态调制大模型实现高效参数压缩,同时在零样本场景下表现突出。
由Transformer作者之一创立的SakanaAI公司近期推出Text-to-LoRA(T2L),简化了模型适配流程,一句话就能生成LoRA。该方法通过动态调制大模型实现高效参数压缩,同时在零样本场景下表现突出。
AMD发布MI350X和MI355X两款GPU,采用3nm工艺,包含1850亿晶体管。算力提升4倍,推理速度提高35倍,内存是英伟达B200的1.6倍。搭配ROCm 7软件栈,FP8算力达到1.3EFLOPs,支持超过180万个Hugging Face模型。MI400系列将于明年推出,预计比MI300系列快10倍。
清华大学联合腾讯提出 Scene Splatter,利用视频扩散模型从一张图像生成满足三维一致性的多视角视频片段,解决单张图片条件下三维重建的病态问题。
东南大学联合多所研究机构提出了KRIS-Bench,一个评估图像编辑模型知识结构的基准。该基准从事实性、概念性和程序性知识三个层面测试编辑能力,并包含1267对图像指令样本,覆盖初级到高级任务难度。
Figure创始人发布60分钟未剪辑版机器人进厂视频,展示了其在物流分拣中的灵活处理能力。通过高质量数据集扩展和视觉电机策略改进,机器人的工作效率显著提高,吞吐量提升了58%,条形码成功率从88.2%提升至94.4%。
仅用不到1200行代码实现Nano-vLLM,该项目由DeepSeek研究员俞星凯创作。Nano-vLLM有三大特点:快速离线推理、可读性强的代码库以及优化套件。通过比较vLLM与Nano-vLLM在不同硬件和模型配置下的基准测试结果,Nano-vLLM表现出色。
韦东奕与两位合作者的论文《On blow-up for the supercritical defocusing nonlinear wave equation》发表于数学顶刊《Forum of Mathematics, Pi》,研究了散焦非线性波动方程在特定条件下的爆破解现象。该研究成果填补了相关空白,并提出了新的证明方法,可以推广到其他偏微分方程的爆破研究。