阿里开源Qwen-Image,AI会写汉字了!
阿里开源Qwen-Image模型,拥有20B参数的MMDiT多模态扩散变换器,支持多种语言文本渲染和多样化艺术风格图像生成。该模型在复杂文本渲染和精确图像编辑方面取得显著进展,已在HuggingFace上排名首位。
阿里开源Qwen-Image模型,拥有20B参数的MMDiT多模态扩散变换器,支持多种语言文本渲染和多样化艺术风格图像生成。该模型在复杂文本渲染和精确图像编辑方面取得显著进展,已在HuggingFace上排名首位。
AI-Researcher系统通过全新架构实现自动化科学发现,提供全流程自主化、无缝协同和先进AI整合等功能,支持两种研究需求输入模式,并具备快速安装指南。
闫维新博士即将离职智元机器人,因资源聚焦教育领域。曾任上海交通大学机械与动力工程学院博士生导师、教授及首席科学家。长期从事机器人研究,主导多项国家级科研项目。
日注定会成为AI技术和商业竞争格局演变里重要的一个时刻。
同一天,Google先扔出了Genie 3
谷歌DeepMind发布Genie 3通用世界模型,能实时生成720p画面且一致性高。支持即时交互、物理模拟及自然系统生成等能力。
谷歌DeepMind发布新一代通用世界模型Genie 3,支持720P画质、每秒24帧实时导航和分钟级一致性保持。Tejas Kulkarni体验后评价其通用性强且能学习物理特性。Genie 3现已以研究预览形式发布,并展示在雅典风格建筑中漫步的场景画面中物体能够保持一致。
谷歌DeepMind发布的Genie 3是首个支持实时交互的通用世界模型,能生成逼真、一致的720p分辨率3D环境,支持天气变化和新角色操作,并用于测试未来Agent训练兼容性。但目前仍存在行动空间有限、与其他Agent交互复杂、无法精确模拟真实位置等局限性。
硅谷三巨头同日发布新模型,OpenAI开源两款参数量接近o4-mini的GPT-oss模型;DeepMind推出Genie3世界模型实现实时交互和高一致性场景;Anthropic发布Claude Opus 4.1,提升智能体任务及编程能力。