01
我对马斯克大模型发布会的看法
这两天,全球的AI焦点都被马斯克的大模型发布会给吸引了。估计大家也从各大
自媒体看到不少标题,什么“地表最强”“性能炸裂”之类的,形容这次发布的Grok 3模型。说实话,我感觉现在“炸裂”“最强”这些词,已经在AI领域变得不值一提了。
看完发布会,我的感觉只有两个字,麻木。之所以有这样的反应,得归功于DeepSeek。最近这一波DeepSeek的开源模型浪潮,让我最大的感受就是,终于可以平视那些国外的顶级AI公司和产品了。
说实话,过去一两年里,每次用到ChatGPT或者Claude,我总会想,什么时候咱们也能有一个第一梯队的AI产品呢?
但最近这两个月,从DeepSeek R1掀起的浪潮开始,到Kimi和元宝纷纷推出自己的长思考模型,咱们的顶尖模型已经跻身全球第一梯队。
这也间接导致我在看马斯克的新模型发布会时,感觉大部分内容都无法让我激动,反而有两个跟技术无关的点吸引了我的注意,等会儿我跟大家分享一下。
对于没看发布会的同学,我极其概括地跟你说一下这场发布会的要点。
马斯克这次拉着三个技术负责人一起开发布会,之前他自己说Grok 3是地球上最聪明的AI,所以发布会一开始就说,这个模型的目标是“理解宇宙”。
这个发布会上,最受关注的就是马斯克说,Grok 3的计算能力比上一代提高了10倍。但实际上,基于他们自研的Colossus超级计算机,它们第一阶段用了10万张英伟达H100 GPU训练,第二阶段又增加到20万张。要知道,DeepSeek的论文中提到,训练使用了2048张H800显卡,而马斯克这里,光显卡数量就比DeepSeek多了近100倍,而且H800单卡性能不如H100。所以有分析说,Grok 3的算力消耗是DeepSeek V3版本的263倍。
至于Grok 3模型本身的能力,主要是增强了思维链能力,这个就是追齐了OpenAI和DeepSeek模型的推理能力。这种发布会,肯定有那种测试跑分,而对于这种秀出来的排行榜,肯定是马斯克把自己排在第一。
发布会后,曾在OpenAI和特斯拉效力的AI大神安德烈·卡帕西表示,这次马斯克发布的新模型大概和OpenAI最强的o1-pro模型相当,就是那个一个月要收200美元的版本,稍微比DeepSeek的R1强一点。
这就像班里那个富二代,请了全球最强的科学家当家教,结果发现自己只比班里那个穷学生DeepSeek高两分。要知道,人家别说家教了,连教辅书都买不起。
02
两个有意思的细节
除了上面说的,这个发布会其他的东西都没有给我留下什么印象,但是技术之外,有两个细节挺有意思。
第一个就是,在发布会中,至少有三张图表,特别是模型排行图表,埋下了一个数据陷阱——纵坐标并没有从零开始。
在我这里,我不仅仅给大家解读新闻,更希望能分享我擅长的领域。
比如这个“纵坐标不从零开始”,这就是一种常见的数据操控手段,目的是通过人为放大数值之间的视觉差异。
我给大家举个经典案例,大家一看就明白了。2016年,专栏作家安德鲁·波特教授在加拿大新闻杂志《麦克林》上发表了一篇评论,说的是在加拿大魁北克地区,人与人之间的信任度特别低,完全不像其他地区那么亲密无间。问题就出在他放的图表上,柱状图的纵坐标不是从0开始,这让很多读者一眼看去,觉得差距简直大得惊人。可是,如果把纵坐标从0开始,重新做一张图,大家就能看到,其实差距并没有那么大,这就相当于在视觉上把一个小差距拉大了好几倍。
这种统计陷阱在职场中,特别是各种汇报和提案里,实在是太常见了。未来同学们在看到柱状图时,第一反应就应该先看看纵坐标的原点。因为有些图表,不仅仅是把差距拉大,有些纵坐标干脆从负数开始,结果简直可以把黑白颠倒。
当然,纵轴能做手脚,横轴也不例外。最常见的操作就是通过选择数据范围,轻松地引导你得出不同的结论。
比如,2018年7月,脸书,也就是现在的Meta,发布了一份令人失望的季度财报,股价大幅下跌。当时《商业内幕》的头条写道:“脸书的灾难抹去了1200亿美元市值,这是美国股市历史上最大的一次损失。”旁边配的,就是脸书4天内的股价图。
如果只看这个图,你肯定会觉得这个公司完了,股价跌到谷底,翻不了身了。其实,这就是数据想给你留下的印象。要是把图表的时间跨度拉长到五年,你就会发现,股价一直在上涨,即便现在大跌,也还是五年前的三倍多。
同时,我也建议大家去股票软件或网上看看英伟达的股价走势。今年1月的时候,因为DeepSeek的火爆,英伟达打破了脸书的下跌纪录。看看英伟达在1月28号左右五天的走势图,再对比过去两年的走势,感受一下是不是给你带来同样的印象。
所以,希望大家记住一句话:数据从来不会骗人,但数据可以误导人。
接下来,我想和大家聊聊这场发布会让我记住的第二个点。那就是除了马斯克,发布会上的三个技术大神中,有两位是华人,而且这两位华人都坐在最中间,反倒是马斯克,看起来像个旁边的主持人或者点头机器。
其中一位华人叫Jimmy Ba,他的名气更大一些。因为他的本科、硕士和博士都在加拿大多伦多大学,而他的导师就是去年拿了诺贝尔物理学奖的AI大神辛顿。毕业后,他成为了多伦多大学计算机系的助理教授。他2014年发表的一篇深度学习领域的经典论文,提出了一种高效的自适应学习率优化算法,成为AI领域被引用最多的论文之一,引用超过10万次。
另一个华人叫吴宇怀,他在多伦多大学博士毕业后,又在斯坦福大学做了博士后研究。他专注于深度学习和数学推理,目标是开发出能解决复杂数学问题的AI。其实他也是Jimmy Ba在多伦多大学的学生。
至于马斯克发布会出现两个华人,我们也不需要太惊讶。毕竟在2023年7月,马斯克刚成立xAI时,首批公布的12个创始成员中,有三分之一都是华人AI科学家。
从这个角度来看,未来中美两国的AI竞争,不仅仅是在产品和模型层面,更是在人才层面。越多华人科学家站在AI科研的顶端,越能推动中国AI的发展和人才培养。
最后说一下,Grok 3现在还在小范围测试中,算是个内部实验,就算能用,也会优先提供给X(也就是之前的推特)用户。咱们了解了解就行,真正使用的话,可能也不比DeepSeek或Kimi更适合我们。