一句话核心

Project Genie+Street View = AI世界模型第一次有了真实世界的地理锚点。 开发者不再只能凭空生成幻想场景,而是可以把旧金山的金门大桥变成水下世界,把东京涩谷十字路口改造成赛博朋克雨夜——并且这些场景的几何和光照是可推理的。

事件回顾:Project Genie是什么,街景又给它加了什么

今年1月,Google悄悄上线了Project Genie——一个实验性的生成式AI世界模型web应用。它和Sora、Genie 2这类视频/3D生成工具最大的区别是:你输入的是一张图片或一段文字,输出的是一个可以交互的3D世界,而不是一段视频。你可以在这个世界里“走”动,改变视角,调整光照。

这次Google I/O 2026上,Google宣布Project Genie接入了Google Maps的Street View数据。这意味着:

  • 输入不再是“海边悬崖上的城堡”,而是“把曼哈顿时代广场变成森林”
  • AI不再凭空想象建筑结构,而是以街景的真实几何数据为底版,再叠加风格迁移和元素生成

原文举例:你可以选择金门大桥,然后选择“Ocean World”风格,AI会在真实的大桥模型上,添加海底植物、潜水员和鱼群。

关键细节:这不是滤镜,是几何级重建

很多人第一反应是:这不就是AI滤镜吗?

不是。关键区别在于:Project Genie构建的是可交互的3D场景,不是2D图像。它利用街景提供的:

  • 点云数据:建筑、道路、地标的精确空间位置
  • 多视角图像:从不同角度拍摄的同一地点,用于重建纹理和光照
  • 地理标签:经纬度、海拔、朝向,确保生成的世界符合物理规则(比如太阳方向、阴影投射)

然后Project Genie的生成模型(基于Google自家的World Transformer架构)在这个真实骨架上,用diffusion模型生成风格化的纹理、物体、动态元素(如鱼群、雾气、灯光)。

实际效果:你可以在生成的3D场景中自由移动,视角变化时,远处的建筑会正确遮挡近处的物体——这是视频生成模型做不到的。

对开发者:这意味着什么?

1. 游戏开发:快速搭建真实感关卡

以前做游戏关卡,你需要:

  1. 找参考图
  2. 手动建模
  3. 调整光照和材质
  4. 添加动态元素

现在你可以:

  1. 选择真实地点(比如巴黎圣母院广场)
  2. 选择风格(“末日废墟”或“奇幻森林”)
  3. 得到可导出的3D场景(支持glTF/USD格式,Google在文档中已确认)
  4. 直接在Unity/Unreal里使用

但注意:目前生成的世界分辨率有限(官方未公布具体数值,但从演示来看,单个场景约50m×50m的范围,面数控制在10万以下),适合做原型验证或背景场景,不适合做精细的交互核心。

2. 影视:预可视化(Previs)成本骤降

影视行业做场景预可视化,通常需要概念设计师花几周画图,或者用3D软件搭建简易场景。现在导演可以说:“我要一个赛博朋克版的东京涩谷,但保留真实的建筑轮廓。”——10分钟就能拿到可交互的3D场景,直接用于镜头设计。

3. 数字孪生:从“静态地图”到“动态世界”

对智慧城市、城市规划领域,Project Genie意味着:你可以基于真实地理数据,快速生成“如果……会怎样”的场景。比如:“如果上海外滩的防洪堤提高2米,水面上升后景观会变成什么样?”

个人观点:真正的价值不在“生成”,在“锚定”

我关注AI生成3D内容很久了,之前最大的痛点是:生成的场景没有物理一致性。你让AI生成一个城堡,它可能四面墙的窗户数量都对不上;你让AI生成一条街道,远处的建筑可能在移动视角后消失。

Project Genie+街景解决的核心问题,不是“画得更好”,而是“画得对”。真实世界的数据提供了空间约束,AI只需要在约束内发挥创意。这就像给一个天才画家先打好素描底稿,他只需要负责上色——出错的概率大大降低。

Project Genie Street View 3D world generation comparison
左:纯AI生成的幻想场景(几何错误常见);右:基于街景的真实锚定场景(结构正确,风格自定义)

开发者现在可以做什么?

  1. 注册Google AI Ultra:目前Project Genie的街景功能只对AI Ultra订阅用户开放($29.99/月),但值得一试。
  2. 关注导出格式:Google承诺会开放glTF和USDZ导出,这是游戏引擎和3D软件的通用格式。一旦开放,工作流就打通了。
  3. 准备你的场景库:如果你做游戏或影视,可以开始整理需要改造的真实地点列表。比如“我想把东京塔变成魔塔”“我想把罗马斗兽场变成太空竞技场”——现在只需要一张街景截图就能开始。
  4. 性能测试:在本地跑一个轻量级3D场景(比如Unity中的10万面场景),对比Project Genie生成的同等复杂度场景的帧率,评估是否满足你的应用需求。

一句话收尾

Project Genie+街景不是AI版的《我的世界》,它是AI版的Google Earth + 想象力引擎——真实世界是画布,AI是画笔,开发者是策展人。