视频可以精准控制了!一句话给熊戴眼镜的那种,扩散模型立功,浙大悉尼科技大学出品 ICLR 2025
心思想编辑哪就编辑哪呢?
Sora掀起了一股视频生成的热潮,视频编辑作为视频生成的一个热门方向一直饱
心思想编辑哪就编辑哪呢?
Sora掀起了一股视频生成的热潮,视频编辑作为视频生成的一个热门方向一直饱
清华大学和哈佛大学的研究团队提出了一种新的方法4D LangSplat,利用视频分割模型生成物体级语言描述,并通过大语言模型提取高质量的句子特征来重建动态语义场。该方法解决了现有静态语义场重建在动态场景中的应用难题,显著提升了时间敏感查询的准确性。
腾讯AI Lab和清华大学提出的新模型StdGEN能够在3分钟内生成具有精细细节的可分拆3D角色,质量超过现有方法。StdGEN使用语义感知的大规模重建模型从多视角图像中联合重建几何、颜色和语义信息,并通过迭代优化提高质量。
西湖大学、香港科技大学等团队提出Niagara框架,首次有效解决单视角复杂室外场景三维重建问题。该方法结合深度与法线信息,采用几何仿射场和3D自注意力机制,显著提升细节捕捉精度及几何一致性。在RealEstate10K数据集上验证效果,优于当前最先进的Flash3D方法。
阿里联合人大交大开源WritingBench评估基准,覆盖6大领域100个细分场景。通过四阶段人机协同流程构建评测集,基于写作意图动态生成评测指标,实现87%的人类一致性得分。团队发现带思维链模型在创意写作中表现更优,但长文本生成仍面临挑战。
华为发布Pura X折叠屏手机,搭载自研鸿蒙系统和AI功能。屏幕比例为16:10,提升视觉体验;AI功能包括小艺助手、智感支付等;余承东宣布纯血鸿蒙将覆盖更多设备。
宇树的Unitree G1机器人成功完成站立侧空翻,引起网友热议。这款身高1米3、售价9.9万元起的机器人展示了强大运动能力,并已完成原地起跳侧空翻等动作。对比之下,波士顿动力在前年发布的Atlas也展现了类似的复杂动作,但宇树的视频更具视觉冲击力。
OpenAI上线o1-pro模型API,其输入价格为150美元/100万输入/输出token,输出价格为600美元。相比R1贵270倍,引起网友争议。