77万人围观的吉卜力风「游戏」视频,我们用3个国产AI整出来了(含提示词)

机器之心报道

编辑:杨文

Reddit上爆火的吉卜力风「游戏」视频


前段时间 GPT-4o 爆火,网友拿它各种爆改吉卜力风格照片。现在,又有网友搞出了吉卜力风格的游戏视频,还一度登上了 Reddit 热榜。



a16z 合伙人 Justine Moore 也在 X 上转发该视频,短短一天时间就获得超 77 万浏览量。


她配文称,如果能够通过提示词创建自己的虚拟世界,并与由大语言模型和语音模型驱动的其他角色互动,那将会非常震撼,由此暗示了 AI 在游戏开发,特别是生成动态、沉浸式的虚拟环境中的潜力。



 网友在底下纷纷评论:





其实,要制作这样一则视频并不难,该网友放出了操作全流程,甚至连提示词都整理好了。


他先分别使用 Midjourney 和 Kling 2.1 生成图像和视频,再通过 Joystick png 添加一些画面中的按钮、小地图等 HUD 元素,并配上 ASMR 声音使其更加生动。


接下来,我们就拿国产 AI 复刻一下。


第一步:生成图片。


在之前的评测文章《实测完即梦 3.0,我后悔大学选了设计专业……》中,我们让即梦 3.0 单挑 GPT-4o、Ideogram 3.0,丝毫不落下风。相比于之前的版本,即梦 3.0 属实进步了一大截,不仅用色布局审美在线,生成中英文字体也几乎能一次过,不用反复抽卡。


这次我们再来试下即梦 3.0 的「文生图」功能。


提示词:First-person POV video game screenshot, playing as a young anime protagonist in a slightly oversized white t-shirt and knee-length blue shorts. Visible hands pushing open a sun-faded wooden door, forearms resting on the frame. In a dusty hallway mirror reflection: character’s soft Ghibli-style face with windblown hair. Inside a cozy coastal cottage: slanted sunlight through lace curtains, pastel walls with watercolor seascapes, overstuffed bookshelf spilling seashells. Foreground: ‘E: Rest’ prompt over a quilted sofa. Background: steaming teacup on a driftwood table, open window revealing distant lighthouse and Miyazaki fluffy clouds. Soft painterly textures, slight fisheye lens, identical HUD (minimap corner, health bar)



提示词:First-person POV video game screenshot, playing as a young anime protagonist in a slightly oversized white t-shirt and knee-length blue shorts. View includes visible hands gripping a steering wheel, sunlit arms resting on car door, and rearview mirror showing character’s soft Ghibli-style face with windblown hair. Driving through a vibrant coastal town: cobblestone streets, pastel houses with flower boxes, distant lighthouse. Soft painterly textures, Miyazaki skies with fluffy clouds, slight fisheye lens effect, HUD elements (minimap corner, health bar).



提示词:First-person POV video game screenshot, playing as a young protagonist in a loose white t-shirt and faded denim shorts. Visible arms holding a woven basket, sneakers stepping on rain-damp cobblestones. Walking through a chaotic Ghibli street market: cramped stalls selling glowing mushrooms, floating lanterns, and spiral-cut fruits. Fishmonger shouts.Soft painterly lighting, depth of field, subtle HUD (minimap corner, health bar). Studio Ghibli meets Grand Theft Auto.(注:原提示词更适合动态效果,我们对此进行了简化。)



提示词:First-person POV video game screenshot, playing as a young anime protagonist in a slightly oversized white t-shirt (salt-stained sleeves) and knee-length blue shorts, visible hands gripping a bamboo fishing rod. Kneeling on a mossy dock pier at sunset, arms resting on knees. Foreground: ‘E: Reel In’ prompt as line pulls taut. Background: pastel fishing boats, distant lighthouse under Miyazaki’s fluffy clouds. Glowing koi fish breaching turquoise water.A school of fish swims gracefully through crystal-clear water. Identical soft painterly textures, fisheye lens effect, HUD (minimap corner, health bar).(注:原提示词更适合动态效果,我们对此进行了简化。)



第二步:生成视频。


受谷歌 Veo 3 的「刺激」,国产 AI 视频生成模型又开始卷了。


5 月 29 日,可灵 2.1 正式上线;6 月 11 日,字节推出了视频生成模型 Seedance 1.0 pro,也就是即梦视频 3.0 Pro;昨天凌晨 Minimax 也发布了新视频生成模型 Hailuo 02。


而且即梦和可灵均上线了 AI 音效功能,只要在生成的视频中点击相应的按钮就能自动生成 3-4 条音效,Hailuo AI 目前还未推出该功能。


我们把这三个视频模型放在一起对比下,看看谁更能打。


提示词 1:The black-haired boy strides from the rustic house toward the ocean, the camera tracking his movement in a GTA-style third-person perspective as coastal winds flutter white curtains and sunlight glimmers on distant sailboats, blending warm interior details with expanding seaside horizons under a tranquil sky.



提示词 2:The brown-haired boy drives a vintage blue convertible along the coastal cobblestone street, colorful flower-adorned buildings passing by as the camera follows the car’s journey toward the sunlit ocean horizon, sea breeze gently tousling his hair under a serene sky.



提示词 3:The young boy navigates the bustling cobblestone market, basket of oranges in arm, as vibrant stalls and fluttering awnings frame his journey, the camera tracking his focused stride through chattering crowds under swaying traditional lanterns.



提示词 4:A school of fish swims gracefully through crystal-clear water, sunlight filtering through the surface, coral reefs swaying gently, creating a serene underwater scene with the camera stationary.



最后,我们来看看成品效果:


  • 即梦 3.0 Pro:



  • 可灵 2.1 :



  • Hailuo 02:



传统游戏的开发周期通常冗长而昂贵,特别是在高质量场景、美术资产和动画内容的制作方面,需要大量人力和时间投入。就拿去年爆火的 3A 大作《黑神话·悟空》来说,每小时的开发成本就有 1500 万元到 2000 万元,整个项目的开发成本保守估计达到了 4 亿元。


而视频生成模型的不断进化则为游戏产业带来了颠覆性可能,它们可以根据文本甚至玩家的对话风格、选择偏好和操作习惯等,实时生成符合其个性的剧情发展和视觉风格。


比如谷歌 GameNGen 模型通过扩散模型和强化学习,实现无引擎状态下的帧序列预测,动态生成游戏画面,GameGen-O 可以依据玩家选择实时生成剧情线等。这不仅改变了游戏开发的工作流程,也重新定义了玩家体验。玩家将不再被限制于开发者预设的剧情和地图,而是在 AI 的协助下进入一个可以随时扩展、因人而异、真正「开放」的世界。


此外,AI 的引入还可能降低游戏门槛,鼓励更多独立开发者甚至非专业用户参与创作。比如去年初创公司 BuildBox AI 就曾发布 Buildbox 4 Alpha 这一 AI 游戏引擎,用户只需输入提示词即可为游戏添加资产和动画,这在一定程度上解放了创作力,未来或许还能催生出全新的商业模式。


当然,技术上的挑战仍然不少,实时生成内容需要巨大的算力支撑,如何平衡质量与响应速度仍是一大难题,谷歌 GameNGen 模型就仅支持简单游戏如 1993 版《Doom》,且受限于 3 秒历史记忆,复杂场景易出现图像故障;AI 生成内容的版权归属、虚拟角色的行为规范等问题也仍需明确。


尽管如此,我们还是愿意相信,AI + 游戏大有可为。正如英伟达 CEO 黄仁勋作出的预测那样,未来 5-10 年,我们或许真的可以看到完全由 AI 生成的游戏


(文:机器之心)

发表评论