一句话核心
Project Genie+Street View = AI世界模型第一次有了真实世界的地理锚点。 开发者不再只能凭空生成幻想场景,而是可以把旧金山的金门大桥变成水下世界,把东京涩谷十字路口改造成赛博朋克雨夜——并且这些场景的几何和光照是可推理的。
事件回顾:Project Genie是什么,街景又给它加了什么
今年1月,Google悄悄上线了Project Genie——一个实验性的生成式AI世界模型web应用。它和Sora、Genie 2这类视频/3D生成工具最大的区别是:你输入的是一张图片或一段文字,输出的是一个可以交互的3D世界,而不是一段视频。你可以在这个世界里“走”动,改变视角,调整光照。
这次Google I/O 2026上,Google宣布Project Genie接入了Google Maps的Street View数据。这意味着:
- 输入不再是“海边悬崖上的城堡”,而是“把曼哈顿时代广场变成森林”
- AI不再凭空想象建筑结构,而是以街景的真实几何数据为底版,再叠加风格迁移和元素生成
原文举例:你可以选择金门大桥,然后选择“Ocean World”风格,AI会在真实的大桥模型上,添加海底植物、潜水员和鱼群。
关键细节:这不是滤镜,是几何级重建
很多人第一反应是:这不就是AI滤镜吗?
不是。关键区别在于:Project Genie构建的是可交互的3D场景,不是2D图像。它利用街景提供的:
- 点云数据:建筑、道路、地标的精确空间位置
- 多视角图像:从不同角度拍摄的同一地点,用于重建纹理和光照
- 地理标签:经纬度、海拔、朝向,确保生成的世界符合物理规则(比如太阳方向、阴影投射)
然后Project Genie的生成模型(基于Google自家的World Transformer架构)在这个真实骨架上,用diffusion模型生成风格化的纹理、物体、动态元素(如鱼群、雾气、灯光)。
实际效果:你可以在生成的3D场景中自由移动,视角变化时,远处的建筑会正确遮挡近处的物体——这是视频生成模型做不到的。
对开发者:这意味着什么?
1. 游戏开发:快速搭建真实感关卡
以前做游戏关卡,你需要:
- 找参考图
- 手动建模
- 调整光照和材质
- 添加动态元素
现在你可以:
- 选择真实地点(比如巴黎圣母院广场)
- 选择风格(“末日废墟”或“奇幻森林”)
- 得到可导出的3D场景(支持glTF/USD格式,Google在文档中已确认)
- 直接在Unity/Unreal里使用
但注意:目前生成的世界分辨率有限(官方未公布具体数值,但从演示来看,单个场景约50m×50m的范围,面数控制在10万以下),适合做原型验证或背景场景,不适合做精细的交互核心。
2. 影视:预可视化(Previs)成本骤降
影视行业做场景预可视化,通常需要概念设计师花几周画图,或者用3D软件搭建简易场景。现在导演可以说:“我要一个赛博朋克版的东京涩谷,但保留真实的建筑轮廓。”——10分钟就能拿到可交互的3D场景,直接用于镜头设计。
3. 数字孪生:从“静态地图”到“动态世界”
对智慧城市、城市规划领域,Project Genie意味着:你可以基于真实地理数据,快速生成“如果……会怎样”的场景。比如:“如果上海外滩的防洪堤提高2米,水面上升后景观会变成什么样?”
个人观点:真正的价值不在“生成”,在“锚定”
我关注AI生成3D内容很久了,之前最大的痛点是:生成的场景没有物理一致性。你让AI生成一个城堡,它可能四面墙的窗户数量都对不上;你让AI生成一条街道,远处的建筑可能在移动视角后消失。
Project Genie+街景解决的核心问题,不是“画得更好”,而是“画得对”。真实世界的数据提供了空间约束,AI只需要在约束内发挥创意。这就像给一个天才画家先打好素描底稿,他只需要负责上色——出错的概率大大降低。

左:纯AI生成的幻想场景(几何错误常见);右:基于街景的真实锚定场景(结构正确,风格自定义)
开发者现在可以做什么?
- 注册Google AI Ultra:目前Project Genie的街景功能只对AI Ultra订阅用户开放($29.99/月),但值得一试。
- 关注导出格式:Google承诺会开放glTF和USDZ导出,这是游戏引擎和3D软件的通用格式。一旦开放,工作流就打通了。
- 准备你的场景库:如果你做游戏或影视,可以开始整理需要改造的真实地点列表。比如“我想把东京塔变成魔塔”“我想把罗马斗兽场变成太空竞技场”——现在只需要一张街景截图就能开始。
- 性能测试:在本地跑一个轻量级3D场景(比如Unity中的10万面场景),对比Project Genie生成的同等复杂度场景的帧率,评估是否满足你的应用需求。
一句话收尾
Project Genie+街景不是AI版的《我的世界》,它是AI版的Google Earth + 想象力引擎——真实世界是画布,AI是画笔,开发者是策展人。