一次搞定自驾场景的可控生成和长时序生成?科大和地平线提出DrivingWorld:基于视频GPT构建自动驾驶世界模型
DrivingWorld模型通过创新的空间-时间解耦机制和高效的编码解码模块,实现了自动驾驶场景的可控生成和超长时间视频生成。该研究由香港科技大学与地平线联合完成,论文、代码均开放获取。
AAAI 2025 川大提出首个基于介观表征的图像篡改检测新范式,定义IML任务SOTA新高度
Mesorch 模型首次提出从介观表征的角度融合非语义信息和语义信息,构建并行多尺度 CNN 与 Transformer 网络混合架构来提高图像篡改检测性能。
快上车!吴恩达老师分享自用 AI 辅助编程快速打造软件原型最佳实践
吴恩达分享了使用Python + FastAPI、Uvicorn、MongoDB等技术栈的优势,并探讨了通过明确选择工具和优化开发流程来提升开发效率的方法。
Dirk Ulrich 推出 ROCKFORCE,AI 将彻底改变专业音频中的 AI
Dirk Ulrich推出ROCKFORCE.AI计划,旨在探索AI在专业音频领域的潜力,并与全球创意人士探讨其现状及未来可能性。