微信邦

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 45|回复: 0

从看不见未来到创造3D无限世界:李飞飞教授的世界模型将改变什么?

[复制链接]
发表于 2025-9-25 08:49:18 | 显示全部楼层 |阅读模式
上周,一个产品官网上的更新博客让我愣了一下。
李飞飞教授的World Labs发布了一篇博客,不是什么惊天动地的技术论文,也不是巨额融资的新闻,而是宣布了她这个创业公司的最新进展。
首先是推出了世界模型Marble模型的测试版本,发布了一个简单的邀请:任何人都可以申请测试他们的Marble系统,自己创造3D世界。
此外,他们还宣布不仅可以在他们的系统里创建自己的梦想世界,还可以导出创造的项目文件。加上他们开源的渲染程序,用户或团队也可以将创造的3D世界用在网页、智能眼镜、VR设备、游戏等各种场景中。
我提交了内测申请,如果能拿到测试权限的话,我会和你再讲讲这个模型的细节。不过今天我很想跟你聊聊李飞飞教授和她创办的这个创业公司。
不少朋友都知道,我在得到AI学习圈的快刀广播站里推荐过李飞飞教授的自传《我看见的世界》,这本书我完整地看过三遍。
第一遍是英文版上线时,我借助翻译软件,一页页地看完。第二遍是在这本书的中文版要出版前,我应出版社的邀请,写了一篇中文版的导读,当时读完了内部审定版本。第三遍是在她要离职创业时读的,当时又翻了一遍,有了很多不同的感受。
01 从“给你看看”到“你来试试”
今天这篇更新,我并不想简单地介绍这次更新的技术有多炫酷——因为从一张照片生成3D世界这事儿,半年前他们就能实现了,只不过这次生成的世界更大更逼真。
真正让我觉得有意思的是这个转变:李飞飞教授半年前的展示,还是“我们给你看看我们能做什么”,而现在进化到了“你来试试你能做什么”。
这个变化挺有意思的,就像当年iPhone从“看我们的手机多厉害”变成“App Store让你自己开发应用”一样,感觉是从展示技术到让用户自己折腾的转变。
她的自传名字叫做《我看见的世界》,她自己曾经解释过,这个书名本身就含有两层意思:
第一层意思,呼应的是她一直在从事的视觉识别领域。对了,大家经常听说的硅谷AI大神卡帕西,当年就是李飞飞教授的亲传弟子。
第二层意思,她想表达的其实是:虽然世界是客观存在的,但是在每个人的心中,世界都是不一样的。她现在的创业公司名字叫做World Labs,也有点儿呼应这个观点。她现在的创业项目,其实就是让每个人可以用AI把自己的想象世界创建出来
02 从“看不见路径”到“让机器看见世界”
而做出这个项目的她,是一个曾经在新泽西州中餐厅打工12小时、“看不到任何通往机会的路径”的15岁移民少女。这句“看不到通往任何机会的路径”也是她自传中描述的当年的心理状态。
说实话,我每次想到李飞飞的故事,都觉得像是好莱坞编剧写出来的励志片剧本,但这确实是真实发生的。
1991年,15岁的李飞飞跟着母亲从成都移民到新泽西州的帕西帕尼小镇。她的父亲是电气工程师,母亲出身于一个知识分子家庭,在八九十年代的中国,条件算是不错的。但到了美国,一切都得重新开始。一家三口挤在一套狭小的一居室里,家具是从路边捡来的,生活用品是每周从车库二手市场淘来的。父亲在台湾商人的店里修相机,母亲在礼品店当收银员,收入都微薄得可怜。
而李飞飞,这个15岁的女孩,必须在课余时间打工赚钱。她在狭小昏暗的中餐厅做过服务生,每天工作12个小时,也给人做过家政,帮人遛狗。她后来在自传里写道:“这些工作让人感到疲倦的地方在于移民经历笼罩的不确定性。我们希望寻求机会,但我却看不到任何通往这些机会的路径。”
你想想,“看不到任何通往机会的路径”——这句话现在读起来特别有深意。
30多年后,这个曾经看不到路径的女孩,不仅自己找到了路径,还成为了人工智能领域的世界顶级专家。
她创造的ImageNet数据集,机器学会了“看见”世界;她现在创造的Marble系统,让任何人都能从一张照片“创造”出一个完整的3D世界
你可能会好奇,这中间到底发生了什么?
李飞飞的转折点来得并不算早。高中毕业后,她考上了普林斯顿大学,学的是物理。但真正让她找到方向的,是在加州理工学院读博士期间接触到的计算机视觉。
2009年,她做了一件在当时看起来“特别傻”的事情——花了几年时间,组织全球4.8万名贡献者,从10亿张候选图片中筛选出1500万张图片,手工标注了2.2万个不同类别,创建了ImageNet数据集
这个工作量之大,听起来就让人头皮发麻。当时很多同行都觉得她疯了,花这么大力气做一个“图片收集”的工作,有什么学术价值?
但李飞飞有她的坚持。她相信,要让机器真正理解世界,首先得让机器看见世界。而要看见世界,就需要足够大、足够丰富、足够准确的数据集。
事实证明,她的判断没错。ImageNet确实成了深度学习发展的重要基础,更关键的是,它也让李飞飞找到了自己的方向:让技术变得更实用。
当然,大家都知道的去年诺贝尔物理学奖的获得者辛顿,当年就是他带领两名研究生参加李飞飞教授组织的比赛,将识别结果大幅度的提高,才让深度学习这一研究方向重新受到关注。我们现在使用的AI工具,都是在这个方向上发展起来的。
2013年到2018年,她担任斯坦福大学人工智能实验室主任,成为少有的美国国家工程院、国家医学院和艺术与科学院的三院院士。按理说,这样的学术地位已经是很多人一辈子的终点,可以尽情享受荣誉了。
但李飞飞没有停下来。2019年,她在斯坦福成立了“以人为本人工智能研究院”,专门研究AI对医疗决策、性别偏见、难民重新安置等社会问题的影响。
再到去年,李飞飞教授进入了为期两年的休假状态,创办了一家公司,名为World Labs,致力于为AI提供空间智能。
所以,当我看到9月16日World Labs的这次更新时,我立马想到了这个逻辑。
03 从“看见”,到“创造”
从ImageNet到Marble,李飞飞教授的思路非常清晰:先是教机器看见世界,然后让机器创造世界,最终让普通人也能用机器创造世界。
ImageNet解决“看见”问题
ImageNet解决“看见”问题。李飞飞用1500万张图片、2.2万个类别,给机器上了一堂“世界认知课”。这就像给一个刚出生的婴儿看图识字,从苹果、香蕉开始,一点点教会机器认识这个世界。
但李飞飞的野心不止于此,她在2017年的一次演讲中说过:“如果我们给机器视觉,我们不仅仅是在教它们看见,我们是在教它们思考。”
从“看见”到“思考”,再到“创造”,这是一个自然的进化过程。
Marble实现“创造”突破
Marble解决的就是“创造”问题。你给它一张照片,它不仅能理解这张照片里有什么,还能想象照片外面是什么样子,然后构建出整个3D世界。
这听起来很神奇,但其实逻辑很简单。就像你看到一张客厅的照片,你的大脑会自动脑补:这个客厅的后面可能是厨房,左边可能是卧室,窗户外面可能是花园。Marble做的就是把这种“脑补”能力赋予了机器,而且做得比人脑更详细、更准确。
更重要的是,Marble生成的3D世界是持久的。这是什么意思呢?就是你今天创造的世界,明天还在那里,后天也还在那里。你可以在里面自由导航,从不同角度观察,也可以邀请朋友一起探索。
我特别注意到World Labs在这次更新中强调的一句话:用户可以把多个生成的空间“拼接”起来,构建更大的环境。这意味着什么?意味着你可以先生成一个客厅,再生成一个厨房,然后把它们连接起来,变成一个完整的家。你甚至可以和朋友合作,一个人负责室内设计,一个人负责花园景观,最后拼成一个完整的社区。
这不正是AI版的《我的世界》吗?但比《我的世界》更强大的是,你并不需要一个方块一个方块地搭建,只需要一张照片,或者一句话描述,AI就能帮你生成整个世界。加上社交的功能,是不是有点像前几年火爆的Switch游戏《动物森友会》,自己建设自己的小岛,盖房子、种树、挣钱,还能去朋友的岛上玩,看看别人家的装修风格。
World Labs拿到2.3亿美元融资,估值超过10亿美元,这些数字很震撼,但更震撼的是李飞飞的目标:让任何人都能创造3D世界。
你想想,以前要做3D建模,你必须学习Maya和3ds Max这些专业软件,得懂建模、贴图和渲染这些概念。没有几年的功夫,根本没法入门。但现在,你只需要一张照片或一句话描述,AI就能帮你生成一个完整的3D世界。
04 技术普惠与广泛影响
从某种意义上讲,李飞飞教授的创业选择仍然延续了她一贯的理念:技术得让更多人用上才有意思。在学术界,她能够影响同行和学生;但在商业界,她的影响可能更为广泛。
而9月16日的这次更新,挺能说明问题的。
技术突破带来稳定性
Marble能够从单张图片或文本描述生成完整的3D世界,而且生成的世界具有“持久性”——不会变形、不会消失,也不会出现不一致的问题。这听起来简单,但实际上解决了AI领域一个长期存在的难题。
以前的AI生成内容,最大的问题就是不稳定。你用相同的提示词,每次都会生成不同的结果,这对于创作者来说简直是个噩梦,因为这让人无法在一个稳定的基础上进行持续创作。
但Marble不同,它生成的3D世界是固定的、持久的。你今天在这个世界里放了一把椅子,明天这把椅子还在原来的位置。你可以邀请朋友来参观你的世界,可以在这个基础上继续创作,可以将多个世界拼接起来形成更大的环境。
这就像小时候玩乐高,搭好了就能一直放在那里。你可以今天搭个城堡,明天在旁边加个花园,后天再建个停车场,而不是像沙画那样,风一吹就没了。
交互体验的升级
Marble支持在浏览器中实时导航,用户可以用键盘和鼠标自由探索3D场景,调整景深效果,修改物体颜色和光线。而且这一切都是免费的,无需下载任何软件,也不需要高端硬件。
咱们想想,以前要体验高质量的3D内容,你得有游戏主机或者高配电脑。但现在,你只需要一个浏览器,就能在李飞飞他们做的3D 世界里转悠。门槛确实降低了不少。我把他们官网地址放在文稿末尾了,建议好奇心强的同学都去看看用几句话生成的3D世界是什么样子的。也许在体验的过程中,你就可以思考:如果这项技术再过三年,门槛非常低,效果非常好,那么你能用这个技术做什么?
我先抛砖引玉,比如得到电子书或课程里提到的例子,未来能够有新的展现形式, 能够通过3D世界形式展示情节。例如看《射雕英雄传》时,整个人就可以沉浸在黄沙漫天飞舞的大漠中。
空间智能的未来愿景
但我觉得最有意思的是,李飞飞把Marble定义为空间智能,而不是简单的3D生成软件。
这什么意思呢?就是说,这个技术不仅仅是让AI生成3D内容,更是让AI理解和创造空间。
李飞飞说过:“只有让模型感知3D,它才能做3D的事情。”这句话很深刻。现在的AI大多还停留在2D层面,理解文字、生成图片,但对3D空间的理解还很有限。而Marble代表了AI向3D空间智能的重要跨越。
这个变化的意义,可能比我们想象的还要大。因为我们人类生活在3D世界里,我们的思维、我们的行为、我们的创造,都是基于3D空间的。如果AI也能理解和创造3D空间,那它就能更好地理解我们、帮助我们。
想象一下这样的场景:
一个建筑师不再需要花几个月时间做设计图和模型,他只需要描述一下自己的想法,或者拍一张灵感照片,AI就能帮他生成完整的建筑3D模型。客户可以在虚拟空间里实地“参观”,提出修改意见,设计师可以实时调整。
一个老师不再需要用平面的PPT讲解复杂的概念,她可以带学生“走进”古罗马斗兽场,“参观”人体内部的血液循环,“探索”原子内部的结构,学习变成了一种沉浸式的体验。
一个普通人想要装修房子,不再需要费尽心思想象效果图,他只需要拍一张现在房间的照片,告诉AI自己的想法,就能看到装修后的3D效果,甚至可以邀请家人朋友一起在虚拟空间里讨论方案。
说实话,这些场景听起来很科幻,但其实离我们并不遥远。我特别注意到,李飞飞在介绍Marble时强调的一点:这个技术是为了“supercharge creativity and productivity”,也就是增强创造力和生产力。
这个表述很有意思,她没有说“替代”人类的创造力,而是说“增强”。
当然,一个要探索如此前沿领域的创业公司,并不会是一帆风顺的。不过,我非常希望这个在未知领域中挑战的团队能做出一些不一样的东西。我相信随着研究的深入,会产生许多想象不到的技术落地案例。
我会持续关注项目的内测进展,并与你分享值得讨论的内容。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

微信邦网联系QQ|Archiver|手机版|小黑屋|鲁公网安备 37082802000167号|微信邦 ( 鲁ICP备19043418号-5 )

GMT+8, 2025-12-13 22:47 , Processed in 0.079107 second(s), 20 queries .

Powered by Discuz! X3.4

© 2001-2013 Wxuse Inc. | Style by ytl QQ:1400069288

快速回复 返回顶部 返回列表