微信邦

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 4|回复: 0

维基百科正式封禁AI生成内容,聊聊志愿者“起义”背后的规则与破例

[复制链接]
发表于 前天 08:35 | 显示全部楼层 |阅读模式
44票赞成,2票反对。这是3月20日,英文维基百科710万条词条的核心守护者,给“是否禁止AI生成内容”的判决结果。这么大的分差,完全可以说是“共识”了。
快刀青衣老师认为,比这个投票结果更值得说的,是这个决定是怎么来的。这不是维基百科基金会的大佬们从上往下发的一道命令,而是维基百科的志愿者编辑们自发推动的。
这群长期默默维护词条的志愿者,自己站出来说:我们不要AI来写我们这里的内容。这个“自下而上”的细节,很重要。
今天,AI学习圈主理人快刀青衣老师就和你聊聊这件事的来龙去脉,以及背后几个很值得我们停下来想一想的细节。
作者:快刀青衣
来源:得到App《AI学习圈》
01
为啥维基百科对AI内容这么敏感?
我先把这次维基百科的政策改变说清楚,因为有些细节和你想象的可能不太一样。这次封禁的核心是:禁止使用AI来生成或重写维基百科的条目内容。具体来说,AI生成的文章、AI写的摘要、AI补充的引用,全部禁止。维基百科在官方的《大型语言模型政策》页面里明确写道,AI生成的文本经常违反维基百科的三条核心原则:中立性、可供查证性,以及禁止原创研究。我来和你解释下这三个原则,讲完你就知道为啥维基百科对AI内容这么敏感了。首先是中立性。如果要展示一个词条,例如转基因食品,维基百科要求只陈述各方事实,不站队、不表态、不推销观点,但AI是从人类文章中学习的,所以天然带着观点和偏见。第二个是可供查证性。这个容易理解,AI爱“编造幻觉”,经常生成不存在的人名、日期、数据,甚至伪造看起来很真实的参考文献(假期刊名、假页码、假作者),这些根本查不到,完全违反“可查证”原则。第三条是禁止原创研究,这个值得展开讲讲。维基百科一直强调自己做的并不是“知识创造者”,而是“知识搬运工”,所以词条里绝对禁止出现没被可靠来源发表过的内容,或自己“发明”的新分析或者结论。但AI本质上就是个“超级缝合怪”,它会把海量文本碎片拼在一起,生成看起来很有道理的新句子、新段落,而这些内容往往是没有任何可靠来源支撑的“原创组合”。这三个核心原则在AI还不可用的时候就已经有了,只不过那时都是要求人类提交的内容,而现在有了AI,正好把维基百科所有的红线都踩了一遍。不过这个封禁,也并不是我们想象的一刀切把AI赶出门,拒绝所有AI的参与,而是在政策里保留了两个例外的使用场景。第一个例外是基础语法润色。编辑可以用AI来检查自己写的内容有没有拼写错误、语法问题,或者做基础的格式调整,前提是AI不能在这个过程中引入任何新的实质性内容。注意这个边界划得非常精准:改错别字可以,但不能让AI帮你“顺便”加一句话。第二个例外是翻译辅助。维基百科有超过360种语言版本、总词条数超过6600万条,很多语言版本的志愿者极度稀缺。允许用AI做初步翻译、再由人工校对,这个被保留了下来。你看,这两个例外其实有一个共同的逻辑:翻译可以用AI,是因为底稿是人类写的,AI只是换了一件语言的外壳,人类编辑依然在验证链条里;语法润色可以用AI,是因为判断内容对不对的还是人,AI只是在做检查拼写和格式这种体力活。但如果让AI直接生成条目,人类就从这个链条里彻底消失了,也就是没有人对内容负责,没有人来核实这句话是不是真的,没有人为这段描述提供证据。这才是维基百科真正在防范的事情:不是要防备AI,而是防止人类验证环节的缺席。

02
守护整个AI训练数据最重要的一块净土
政策定了,接下来的问题是怎么执行。这里有一个细节,我觉得是这件事里最值得说的。维基百科宣布,不依赖任何AI检测工具。官方指南里直接写明:“AI检测不是内容政策。”理由很直接:现有的AI检测工具误判率太高,一旦用了,误伤真实编辑的风险反而更大。所以他们选择的执行方式是:100%依靠人类志愿编辑的同行评审、事实核查和共识机制。你看,为了防止AI内容混入,他们拒绝用AI来帮忙检测。这本身就是一个态度声明:用人类来守护人类的知识。那么问题来了,人类怎么查?其实AI生成的内容还是有一些症状的。维基百科的编辑社区总结了几个识别方法。比如文本里出现“根据我最后的知识更新”这类短语,这基本是AI的口头禅;或者用非常浮夸的语气来描述一个普通事物,读起来像旅游网站的介绍;还有一种很典型的情况是,当缺乏精确信息的时候,AI会用大量描述常见特征的话来填充,比如夸一个村庄,就说“肥沃的农田、遍地的牲畜、风景如画的乡村”,哪怕这个村庄其实处在干旱的沙漠里。但编辑们说,识别文字风格其实不是最关键的。最关键的是验证来源。AI生成内容最大的问题,从来不是文字本身,而是参考文献。它能写出一篇读起来非常专业的文章,但引用的来源要么是不相关的链接,要么干脆是虚构的文献。只要认真去查参考文献,很多AI内容就会原形毕露。说实话,我关注维基百科怎么对待AI这个问题,已经有两年时间了。我之前聊过一件事:维基百科的志愿者自发成立了一个叫“清理AI小组”的项目,专门负责识别和删除平台上AI生成的低质量内容。当时小组已经聚集了一批核心成员,负责人说,相比AI生成内容的速度,他相信这个工作只会越来越难。我还讲到一个很典型的案例。维基百科上曾经出现过一个词条,写的是位于土耳其特拉布宗的一座奥斯曼堡垒,叫做安布尔里希萨尔。整个词条写得非常详细,建造时间、建造者、建筑材料、在历次战役中发挥的作用,一应俱全,读起来非常真实。结果有编辑在查证参考文献的时候发现,虽然里面提到的几场历史战争确实存在,但这座堡垒本身根本不存在,整个词条都是AI编造的,只是夹杂了一些真实的历史词汇,让内容看起来有据可查。这件事让我印象很深。AI的“以假乱真”能力,在两年前就已经到了一个很微妙的程度:不是一眼假,而是真假参半,需要你有足够的专业知识和耐心才能识破。到了2025年5月,我又聊了维基百科发布的新AI战略,他们的态度是:AI可以用,但永远只能当助手。他们把AI用在翻译、帮新手推荐编辑任务、自动识别破坏行为这些地方,每一步都经过社区充分讨论。然而就在这个策略发布后不久,维基官方悄悄推出了一个移动端的“AI摘要”功能,用AI给词条生成一段内容摘要。结果这个实验直接被志愿者编辑社区骂到下线。大家在反馈里用的词是“Yuck”(恶心)、“可怕的主意”。编辑们认为,AI摘要不仅多此一举,更严重损害了维基百科“可靠、可追溯”的品牌声誉。基金会随即暂停了项目。从“清理AI小组”,到“AI只能当助手”,再到“AI摘要”功能被社区直接否掉,最后走到今天全面封禁——这条线索串起来,你会发现这不是一个冲动的决定,而是一个社区在两三年里反复试探、反复碰壁之后,做出的一个明确选择。说到这,我还想提一个很多人没有注意到的角度。维基百科是全球几乎所有主流大语言模型(比如ChatGPT、Gemini等等)训练数据的核心来源之一。整个英文版维基百科已超过50亿字,相当于大英百科全书的超过90倍,而且是高质量、多语言、经过人类反复验证的内容。那如果AI生成的内容大量混入维基百科,然后下一代AI模型再用这些数据来训练,会发生什么?这有点像近亲繁殖——每一代都在复制上一代的缺陷,最终结果是退化。更可怕的是,那些虚假的AI编造内容一旦“挤进”权威渠道,进入权威论文库、案例库、期刊、维基百科,就成了下一次AI引用的“合法来源”。它不再是一个明显的谎言,而是一个有出处的“事实”。2024年《Nature》上有一项研究给这个现象起了个名字,叫“模型崩溃”:当AI模型持续用AI生成的数据来训练自己,输出质量会不可避免地退化。生成的内容越来越像AI自己,而不是像真实的人类知识。所以你看,维基百科封禁AI内容,表面上是在保护一个网站的内容质量,实际上是在守护整个AI训练数据最重要的一块净土。这件事的影响,远比“一个百科网站不让用AI写文章”要大得多。维基百科官方在25周年活动中说过一句话:“知识是人类的,知识需要人类。”维基百科的创始人吉米·威尔士(Jimmy Wales)在多次采访中也反复表达了同样的立场,他并不担心AI会取代维基百科,但他极度担心的是,那些负责验证、辩论和审核信息的人类编辑,会从这个等式里消失。当然,维基百科不是唯一一个对AI内容划线的内容平台。著名的程序员问答社区Stack Overflow在ChatGPT发布几天后就全面禁止了AI回答。2024年,专栏内容平台Medium禁止AI内容参与付费分成。大家的策略各有不同,但都在回答同一个问题:人类和AI之间,这条界限到底划在哪。我觉得这件事真正的意义在于:在AI时代,信息的生成成本已经趋近于零,但验证信息的成本在急剧上升。当任何人都可以用AI生成一篇看起来头头是道的文章时,“这是真的吗”“来源在哪里”“谁来负责”这些问题,比任何时候都更重要。咱们每个人判断真假、判断美丑、判断高低的能力,也会变得异常重要。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

微信邦网联系QQ|Archiver|手机版|小黑屋|鲁公网安备 37082802000167号|微信邦 ( 鲁ICP备19043418号-5 )

GMT+8, 2026-4-5 21:48 , Processed in 0.077031 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2013 Wxuse Inc. | Style by ytl QQ:1400069288

快速回复 返回顶部 返回列表