480P的元宇宙入口:Midjourney不是在做视频,是在造”任意门”

归藏分享了Midjourney发布的第一个视频模型Video V1测试结果。该模型美学表现顶级,色彩和氛围处理优秀;生成速度快至65秒即可完成一个视频生成任务,并支持视频延长功能;在提示词理解、复杂运动稳定性等方面仍有改进空间。总体来说,归藏认为Midjourney更注重生成速度和长期一致性,其长远目标是实现实时图像生成系统,而非单纯追求高分辨率或物理准确性。

开源还要IPO?MiniMax不想被遗忘在这个夏天

六小虎中的MiniMax和智谱正通过发布新模型和产品来证明其在AI领域的能力。近期,MiniMax发布了M1推理模型,参数量为72亿,并推出了通用Agent MiniMax Agent;而智谱则已经提交了上市辅导备案,计划IPO。企业需要面对的挑战之一是实现足够的营收规模。

美团提出首个语音交互GUI智能体,端到端语音训练能力优于传统文本训练

美团与浙江大学联合推出GUIRoboTron-Speech,通过语音指令和截图实现端到端决策的自主GUI智能体,旨在提升用户体验。该系统解决了现有文本依赖问题,利用声纹识别技术准确区分不同用户并执行个性化任务。