ICML2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑
多模态理解与生成新方法ThinkDiff在ICML2025上提出,仅需少量数据和计算资源,让扩散模型具备推理能力,并通过视觉-语言训练和掩码策略传递VLM的多模态推理能力,大幅提高图像生成质量。
多模态理解与生成新方法ThinkDiff在ICML2025上提出,仅需少量数据和计算资源,让扩散模型具备推理能力,并通过视觉-语言训练和掩码策略传递VLM的多模态推理能力,大幅提高图像生成质量。
国产开源项目爱派提出「Python use」概念,让AI像程序员一样工作,无需配置、本地部署和隐私安全。它可处理复杂任务如网络安全审计,并在B站展示实际案例,被推荐给非技术用户作为Manus的替代品。
,这些模型真的理解了推理过程吗?还是只是看起来“像那么回事”就蒙出来的?
不等式问题是检验模型“真会
Elon Musk旗下的xAI推出虚拟伴侣角色Ani和Rudi,并发布职位招聘启事。年薪最高可达44万美元。职位要求包括Python、Rust编程能力等。Grok允许所有用户使用虚拟伴侣功能,引发热议。
苹果为MLX框架增加对CUDA的支持,以利用英伟达GPU训练模型。此举标志着苹果正式向英伟达生态妥协,尽管此前因禁用部分MacBook的英伟达显卡而与英伟达产生过矛盾。
2025世界人工智能大会将举行,深谋科技亮相H3馆D710展位。深谋展示其面向新一代人形机器人的全栈自研技术布局,包括动态视觉伺服系统、六维力传感器等。
本文介绍了Kimi K2的发布过程及其背后的故事。文章描述了Kimi在知乎等社交媒体上进行了开放的技术分享,并通过内部工程师和研究员的讨论,让K2模型变得立体化。同时,Kimi团队还强调其公司的独特品味和文化氛围。最终,Kimi通过更透明的方式展示了自己,与整个技术社区建立了紧密联系。