从看不见未来到创造3D无限世界：李飞飞教授的世界模型将改变什么？

微信邦 · 发表于 2025-9-25 08:49:18

上周，一个产品官网上的更新博客让我愣了一下。

李飞飞教授的World Labs发布了一篇博客，不是什么惊天动地的技术论文，也不是巨额融资的新闻，而是宣布了她这个创业公司的最新进展。

首先是推出了世界模型Marble模型的测试版本，发布了一个简单的邀请：任何人都可以申请测试他们的Marble系统，自己创造3D世界。

此外，他们还宣布不仅可以在他们的系统里创建自己的梦想世界，还可以导出创造的项目文件。加上他们开源的渲染程序，用户或团队也可以将创造的3D世界用在网页、智能眼镜、VR设备、游戏等各种场景中。

我提交了内测申请，如果能拿到测试权限的话，我会和你再讲讲这个模型的细节。不过今天我很想跟你聊聊李飞飞教授和她创办的这个创业公司。

不少朋友都知道，我在得到AI学习圈的快刀广播站里推荐过李飞飞教授的自传《我看见的世界》，这本书我完整地看过三遍。

第一遍是英文版上线时，我借助翻译软件，一页页地看完。第二遍是在这本书的中文版要出版前，我应出版社的邀请，写了一篇中文版的导读，当时读完了内部审定版本。第三遍是在她要离职创业时读的，当时又翻了一遍，有了很多不同的感受。

01 从“给你看看”到“你来试试”

今天这篇更新，我并不想简单地介绍这次更新的技术有多炫酷——因为从一张照片生成3D世界这事儿，半年前他们就能实现了，只不过这次生成的世界更大更逼真。

真正让我觉得有意思的是这个转变：李飞飞教授半年前的展示，还是“我们给你看看我们能做什么”，而现在进化到了“你来试试你能做什么”。

这个变化挺有意思的，就像当年iPhone从“看我们的手机多厉害”变成“App Store让你自己开发应用”一样，感觉是从展示技术到让用户自己折腾的转变。

她的自传名字叫做《我看见的世界》，她自己曾经解释过，这个书名本身就含有两层意思：

第一层意思，呼应的是她一直在从事的视觉识别领域。对了，大家经常听说的硅谷AI大神卡帕西，当年就是李飞飞教授的亲传弟子。

第二层意思，她想表达的其实是：虽然世界是客观存在的，但是在每个人的心中，世界都是不一样的。她现在的创业公司名字叫做World Labs，也有点儿呼应这个观点。她现在的创业项目，其实就是让每个人可以用AI把自己的想象世界创建出来。

02 从“看不见路径”到“让机器看见世界”

而做出这个项目的她，是一个曾经在新泽西州中餐厅打工12小时、“看不到任何通往机会的路径”的15岁移民少女。这句“看不到通往任何机会的路径”也是她自传中描述的当年的心理状态。

说实话，我每次想到李飞飞的故事，都觉得像是好莱坞编剧写出来的励志片剧本，但这确实是真实发生的。

1991年，15岁的李飞飞跟着母亲从成都移民到新泽西州的帕西帕尼小镇。她的父亲是电气工程师，母亲出身于一个知识分子家庭，在八九十年代的中国，条件算是不错的。但到了美国，一切都得重新开始。一家三口挤在一套狭小的一居室里，家具是从路边捡来的，生活用品是每周从车库二手市场淘来的。父亲在台湾商人的店里修相机，母亲在礼品店当收银员，收入都微薄得可怜。

而李飞飞，这个15岁的女孩，必须在课余时间打工赚钱。她在狭小昏暗的中餐厅做过服务生，每天工作12个小时，也给人做过家政，帮人遛狗。她后来在自传里写道：“这些工作让人感到疲倦的地方在于移民经历笼罩的不确定性。我们希望寻求机会，但我却看不到任何通往这些机会的路径。”

你想想，“看不到任何通往机会的路径”——这句话现在读起来特别有深意。

30多年后，这个曾经看不到路径的女孩，不仅自己找到了路径，还成为了人工智能领域的世界顶级专家。

她创造的ImageNet数据集，让机器学会了“看见”世界；她现在创造的Marble系统，让任何人都能从一张照片“创造”出一个完整的3D世界。

你可能会好奇，这中间到底发生了什么？

李飞飞的转折点来得并不算早。高中毕业后，她考上了普林斯顿大学，学的是物理。但真正让她找到方向的，是在加州理工学院读博士期间接触到的计算机视觉。

2009年，她做了一件在当时看起来“特别傻”的事情——花了几年时间，组织全球4.8万名贡献者，从10亿张候选图片中筛选出1500万张图片，手工标注了2.2万个不同类别，创建了ImageNet数据集。

这个工作量之大，听起来就让人头皮发麻。当时很多同行都觉得她疯了，花这么大力气做一个“图片收集”的工作，有什么学术价值？

但李飞飞有她的坚持。她相信，要让机器真正理解世界，首先得让机器看见世界。而要看见世界，就需要足够大、足够丰富、足够准确的数据集。

事实证明，她的判断没错。ImageNet确实成了深度学习发展的重要基础，更关键的是，它也让李飞飞找到了自己的方向：让技术变得更实用。

当然，大家都知道的去年诺贝尔物理学奖的获得者辛顿，当年就是他带领两名研究生参加李飞飞教授组织的比赛，将识别结果大幅度的提高，才让深度学习这一研究方向重新受到关注。我们现在使用的AI工具，都是在这个方向上发展起来的。

2013年到2018年，她担任斯坦福大学人工智能实验室主任，成为少有的美国国家工程院、国家医学院和艺术与科学院的三院院士。按理说，这样的学术地位已经是很多人一辈子的终点，可以尽情享受荣誉了。

但李飞飞没有停下来。2019年，她在斯坦福成立了“以人为本人工智能研究院”，专门研究AI对医疗决策、性别偏见、难民重新安置等社会问题的影响。

再到去年，李飞飞教授进入了为期两年的休假状态，创办了一家公司，名为World Labs，致力于为AI提供空间智能。

所以，当我看到9月16日World Labs的这次更新时，我立马想到了这个逻辑。

03 从“看见”，到“创造”

从ImageNet到Marble，李飞飞教授的思路非常清晰：先是教机器看见世界，然后让机器创造世界，最终让普通人也能用机器创造世界。

ImageNet解决“看见”问题

ImageNet解决“看见”问题。李飞飞用1500万张图片、2.2万个类别，给机器上了一堂“世界认知课”。这就像给一个刚出生的婴儿看图识字，从苹果、香蕉开始，一点点教会机器认识这个世界。

但李飞飞的野心不止于此，她在2017年的一次演讲中说过：“如果我们给机器视觉，我们不仅仅是在教它们看见，我们是在教它们思考。”

从“看见”到“思考”，再到“创造”，这是一个自然的进化过程。

Marble实现“创造”突破

Marble解决的就是“创造”问题。你给它一张照片，它不仅能理解这张照片里有什么，还能想象照片外面是什么样子，然后构建出整个3D世界。

这听起来很神奇，但其实逻辑很简单。就像你看到一张客厅的照片，你的大脑会自动脑补：这个客厅的后面可能是厨房，左边可能是卧室，窗户外面可能是花园。Marble做的就是把这种“脑补”能力赋予了机器，而且做得比人脑更详细、更准确。

更重要的是，Marble生成的3D世界是持久的。这是什么意思呢？就是你今天创造的世界，明天还在那里，后天也还在那里。你可以在里面自由导航，从不同角度观察，也可以邀请朋友一起探索。

我特别注意到World Labs在这次更新中强调的一句话：用户可以把多个生成的空间“拼接”起来，构建更大的环境。这意味着什么？意味着你可以先生成一个客厅，再生成一个厨房，然后把它们连接起来，变成一个完整的家。你甚至可以和朋友合作，一个人负责室内设计，一个人负责花园景观，最后拼成一个完整的社区。

这不正是AI版的《我的世界》吗？但比《我的世界》更强大的是，你并不需要一个方块一个方块地搭建，只需要一张照片，或者一句话描述，AI就能帮你生成整个世界。加上社交的功能，是不是有点像前几年火爆的Switch游戏《动物森友会》，自己建设自己的小岛，盖房子、种树、挣钱，还能去朋友的岛上玩，看看别人家的装修风格。

World Labs拿到2.3亿美元融资，估值超过10亿美元，这些数字很震撼，但更震撼的是李飞飞的目标：让任何人都能创造3D世界。

你想想，以前要做3D建模，你必须学习Maya和3ds Max这些专业软件，得懂建模、贴图和渲染这些概念。没有几年的功夫，根本没法入门。但现在，你只需要一张照片或一句话描述，AI就能帮你生成一个完整的3D世界。

04 技术普惠与广泛影响

从某种意义上讲，李飞飞教授的创业选择仍然延续了她一贯的理念：技术得让更多人用上才有意思。在学术界，她能够影响同行和学生；但在商业界，她的影响可能更为广泛。

而9月16日的这次更新，挺能说明问题的。

技术突破带来稳定性

Marble能够从单张图片或文本描述生成完整的3D世界，而且生成的世界具有“持久性”——不会变形、不会消失，也不会出现不一致的问题。这听起来简单，但实际上解决了AI领域一个长期存在的难题。

以前的AI生成内容，最大的问题就是不稳定。你用相同的提示词，每次都会生成不同的结果，这对于创作者来说简直是个噩梦，因为这让人无法在一个稳定的基础上进行持续创作。

但Marble不同，它生成的3D世界是固定的、持久的。你今天在这个世界里放了一把椅子，明天这把椅子还在原来的位置。你可以邀请朋友来参观你的世界，可以在这个基础上继续创作，可以将多个世界拼接起来形成更大的环境。

这就像小时候玩乐高，搭好了就能一直放在那里。你可以今天搭个城堡，明天在旁边加个花园，后天再建个停车场，而不是像沙画那样，风一吹就没了。

交互体验的升级

Marble支持在浏览器中实时导航，用户可以用键盘和鼠标自由探索3D场景，调整景深效果，修改物体颜色和光线。而且这一切都是免费的，无需下载任何软件，也不需要高端硬件。

咱们想想，以前要体验高质量的3D内容，你得有游戏主机或者高配电脑。但现在，你只需要一个浏览器，就能在李飞飞他们做的3D 世界里转悠。门槛确实降低了不少。我把他们官网地址放在文稿末尾了，建议好奇心强的同学都去看看用几句话生成的3D世界是什么样子的。也许在体验的过程中，你就可以思考：如果这项技术再过三年，门槛非常低，效果非常好，那么你能用这个技术做什么？

我先抛砖引玉，比如得到电子书或课程里提到的例子，未来能够有新的展现形式，能够通过3D世界形式展示情节。例如看《射雕英雄传》时，整个人就可以沉浸在黄沙漫天飞舞的大漠中。

空间智能的未来愿景

但我觉得最有意思的是，李飞飞把Marble定义为空间智能，而不是简单的3D生成软件。

这什么意思呢？就是说，这个技术不仅仅是让AI生成3D内容，更是让AI理解和创造空间。

李飞飞说过：“只有让模型感知3D，它才能做3D的事情。”这句话很深刻。现在的AI大多还停留在2D层面，理解文字、生成图片，但对3D空间的理解还很有限。而Marble代表了AI向3D空间智能的重要跨越。

这个变化的意义，可能比我们想象的还要大。因为我们人类生活在3D世界里，我们的思维、我们的行为、我们的创造，都是基于3D空间的。如果AI也能理解和创造3D空间，那它就能更好地理解我们、帮助我们。

想象一下这样的场景：

一个建筑师不再需要花几个月时间做设计图和模型，他只需要描述一下自己的想法，或者拍一张灵感照片，AI就能帮他生成完整的建筑3D模型。客户可以在虚拟空间里实地“参观”，提出修改意见，设计师可以实时调整。

一个老师不再需要用平面的PPT讲解复杂的概念，她可以带学生“走进”古罗马斗兽场，“参观”人体内部的血液循环，“探索”原子内部的结构，学习变成了一种沉浸式的体验。

一个普通人想要装修房子，不再需要费尽心思想象效果图，他只需要拍一张现在房间的照片，告诉AI自己的想法，就能看到装修后的3D效果，甚至可以邀请家人朋友一起在虚拟空间里讨论方案。

说实话，这些场景听起来很科幻，但其实离我们并不遥远。我特别注意到，李飞飞在介绍Marble时强调的一点：这个技术是为了“supercharge creativity and productivity”，也就是增强创造力和生产力。

这个表述很有意思，她没有说“替代”人类的创造力，而是说“增强”。

当然，一个要探索如此前沿领域的创业公司，并不会是一帆风顺的。不过，我非常希望这个在未知领域中挑战的团队能做出一些不一样的东西。我相信随着研究的深入，会产生许多想象不到的技术落地案例。

我会持续关注项目的内测进展，并与你分享值得讨论的内容。

		自动登录	找回密码
密码			立即注册

从看不见未来到创造3D无限世界：李飞飞教授的世界模型将改变什么？

相关帖子

浏览过的版块