何恺明LeCun联手改造Transformer!9行代码替代归一化层,性能不减还加速
何恺明和LeCun团队提出替代Transformer归一化层的DyT方法,其性能达到或超过标准Transformer。通过几行PyTorch代码实现,适用于多种任务和模型架构。
何恺明和LeCun团队提出替代Transformer归一化层的DyT方法,其性能达到或超过标准Transformer。通过几行PyTorch代码实现,适用于多种任务和模型架构。
ChatGPT最新更新支持Python数据分析功能。OpenAI表示现在可以通过两款模型调用Python完成数据分析、可视化及基于场景的模拟任务。量子位测试发现,o1与o3-mini能够利用Python进行数据分析和可视化等操作。对比Claude的表现,o1在数据处理上更准确,并能生成交互式图表。此外,OpenAI还宣布Work with Apps功能对所有用户开放。
港大和蚂蚁的研究人员提出PromptCoT方法,利用思维链生成高质量问题数据,提高了模型训练的效果。他们基于Llama3.1-8B训练了一个问题生成模型,并用合成的问题数据训练了DeepSeek-R1-Distill-Qwen-7B模型,使其在MATH-500、AIME 2024以及AIME 2025上的表现优于大模型。
谷歌发布两款专为机器人打造的模型Gemini Robotics和Gemini Robotics-ER,使机器人能够理解并执行复杂指令,在物理世界中完成精细动作如折纸、系鞋带等,并且具有适应不同身体形态的能力。
最新研究显示DeepSeek-R1模型存在安全隐患。上海交大与上海AI Lab联合提出X-Boundary防御方案,通过分离安全和有害表征并定向消除有害表征来实现精准高效的安全加固,避免了过度安全导致的模型性能下降的问题。
SCoT团队提出了一种新的推理范式SCoT,它能动态调整推理链长度来适应不同复杂度的问题。AtomThink框架则是一个全过程训练和评估的系统,旨在提升多模态大模型在复杂推理任务上的表现。
小明 发自 凹非寺。AI视频研究取得新突破,Open-Sora 2.0正式开源,支持高压缩比视频自编码器,可大幅降低推理成本并加速训练过程。
搭载M3 Ultra的Mac Studio本地跑满血版DeepSeek R1,实际速度为11 tokens/秒。价格约小15万元。相比需要6-7张A100显卡的情况,性价比颇高。