维基百科正式封禁AI生成内容，聊聊志愿者“起义”背后的规则与破例

微信邦 · 发表于前天 08:35

44票赞成，2票反对。这是3月20日，英文维基百科710万条词条的核心守护者，给“是否禁止AI生成内容”的判决结果。这么大的分差，完全可以说是“共识”了。
快刀青衣老师认为，比这个投票结果更值得说的，是这个决定是怎么来的。这不是维基百科基金会的大佬们从上往下发的一道命令，而是维基百科的志愿者编辑们自发推动的。
这群长期默默维护词条的志愿者，自己站出来说：我们不要AI来写我们这里的内容。这个“自下而上”的细节，很重要。
今天，AI学习圈主理人快刀青衣老师就和你聊聊这件事的来龙去脉，以及背后几个很值得我们停下来想一想的细节。
作者：快刀青衣
来源：得到App《AI学习圈》
01

为啥维基百科对AI内容这么敏感？

我先把这次维基百科的政策改变说清楚，因为有些细节和你想象的可能不太一样。这次封禁的核心是：禁止使用AI来生成或重写维基百科的条目内容。具体来说，AI生成的文章、AI写的摘要、AI补充的引用，全部禁止。维基百科在官方的《大型语言模型政策》页面里明确写道，AI生成的文本经常违反维基百科的三条核心原则：中立性、可供查证性，以及禁止原创研究。我来和你解释下这三个原则，讲完你就知道为啥维基百科对AI内容这么敏感了。首先是中立性。如果要展示一个词条，例如转基因食品，维基百科要求只陈述各方事实，不站队、不表态、不推销观点，但AI是从人类文章中学习的，所以天然带着观点和偏见。第二个是可供查证性。这个容易理解，AI爱“编造幻觉”，经常生成不存在的人名、日期、数据，甚至伪造看起来很真实的参考文献（假期刊名、假页码、假作者），这些根本查不到，完全违反“可查证”原则。第三条是禁止原创研究，这个值得展开讲讲。维基百科一直强调自己做的并不是“知识创造者”，而是“知识搬运工”，所以词条里绝对禁止出现没被可靠来源发表过的内容，或自己“发明”的新分析或者结论。但AI本质上就是个“超级缝合怪”，它会把海量文本碎片拼在一起，生成看起来很有道理的新句子、新段落，而这些内容往往是没有任何可靠来源支撑的“原创组合”。这三个核心原则在AI还不可用的时候就已经有了，只不过那时都是要求人类提交的内容，而现在有了AI，正好把维基百科所有的红线都踩了一遍。不过这个封禁，也并不是我们想象的一刀切把AI赶出门，拒绝所有AI的参与，而是在政策里保留了两个例外的使用场景。第一个例外是基础语法润色。编辑可以用AI来检查自己写的内容有没有拼写错误、语法问题，或者做基础的格式调整，前提是AI不能在这个过程中引入任何新的实质性内容。注意这个边界划得非常精准：改错别字可以，但不能让AI帮你“顺便”加一句话。第二个例外是翻译辅助。维基百科有超过360种语言版本、总词条数超过6600万条，很多语言版本的志愿者极度稀缺。允许用AI做初步翻译、再由人工校对，这个被保留了下来。你看，这两个例外其实有一个共同的逻辑：翻译可以用AI，是因为底稿是人类写的，AI只是换了一件语言的外壳，人类编辑依然在验证链条里；语法润色可以用AI，是因为判断内容对不对的还是人，AI只是在做检查拼写和格式这种体力活。但如果让AI直接生成条目，人类就从这个链条里彻底消失了，也就是没有人对内容负责，没有人来核实这句话是不是真的，没有人为这段描述提供证据。这才是维基百科真正在防范的事情：不是要防备AI，而是防止人类验证环节的缺席。

02

守护整个AI训练数据最重要的一块净土

政策定了，接下来的问题是怎么执行。这里有一个细节，我觉得是这件事里最值得说的。维基百科宣布，不依赖任何AI检测工具。官方指南里直接写明：“AI检测不是内容政策。”理由很直接：现有的AI检测工具误判率太高，一旦用了，误伤真实编辑的风险反而更大。所以他们选择的执行方式是：100%依靠人类志愿编辑的同行评审、事实核查和共识机制。你看，为了防止AI内容混入，他们拒绝用AI来帮忙检测。这本身就是一个态度声明：用人类来守护人类的知识。那么问题来了，人类怎么查？其实AI生成的内容还是有一些症状的。维基百科的编辑社区总结了几个识别方法。比如文本里出现“根据我最后的知识更新”这类短语，这基本是AI的口头禅；或者用非常浮夸的语气来描述一个普通事物，读起来像旅游网站的介绍；还有一种很典型的情况是，当缺乏精确信息的时候，AI会用大量描述常见特征的话来填充，比如夸一个村庄，就说“肥沃的农田、遍地的牲畜、风景如画的乡村”，哪怕这个村庄其实处在干旱的沙漠里。但编辑们说，识别文字风格其实不是最关键的。最关键的是验证来源。AI生成内容最大的问题，从来不是文字本身，而是参考文献。它能写出一篇读起来非常专业的文章，但引用的来源要么是不相关的链接，要么干脆是虚构的文献。只要认真去查参考文献，很多AI内容就会原形毕露。说实话，我关注维基百科怎么对待AI这个问题，已经有两年时间了。我之前聊过一件事：维基百科的志愿者自发成立了一个叫“清理AI小组”的项目，专门负责识别和删除平台上AI生成的低质量内容。当时小组已经聚集了一批核心成员，负责人说，相比AI生成内容的速度，他相信这个工作只会越来越难。我还讲到一个很典型的案例。维基百科上曾经出现过一个词条，写的是位于土耳其特拉布宗的一座奥斯曼堡垒，叫做安布尔里希萨尔。整个词条写得非常详细，建造时间、建造者、建筑材料、在历次战役中发挥的作用，一应俱全，读起来非常真实。结果有编辑在查证参考文献的时候发现，虽然里面提到的几场历史战争确实存在，但这座堡垒本身根本不存在，整个词条都是AI编造的，只是夹杂了一些真实的历史词汇，让内容看起来有据可查。这件事让我印象很深。AI的“以假乱真”能力，在两年前就已经到了一个很微妙的程度：不是一眼假，而是真假参半，需要你有足够的专业知识和耐心才能识破。到了2025年5月，我又聊了维基百科发布的新AI战略，他们的态度是：AI可以用，但永远只能当助手。他们把AI用在翻译、帮新手推荐编辑任务、自动识别破坏行为这些地方，每一步都经过社区充分讨论。然而就在这个策略发布后不久，维基官方悄悄推出了一个移动端的“AI摘要”功能，用AI给词条生成一段内容摘要。结果这个实验直接被志愿者编辑社区骂到下线。大家在反馈里用的词是“Yuck”（恶心）、“可怕的主意”。编辑们认为，AI摘要不仅多此一举，更严重损害了维基百科“可靠、可追溯”的品牌声誉。基金会随即暂停了项目。从“清理AI小组”，到“AI只能当助手”，再到“AI摘要”功能被社区直接否掉，最后走到今天全面封禁——这条线索串起来，你会发现这不是一个冲动的决定，而是一个社区在两三年里反复试探、反复碰壁之后，做出的一个明确选择。说到这，我还想提一个很多人没有注意到的角度。维基百科是全球几乎所有主流大语言模型（比如ChatGPT、Gemini等等）训练数据的核心来源之一。整个英文版维基百科已超过50亿字，相当于大英百科全书的超过90倍，而且是高质量、多语言、经过人类反复验证的内容。那如果AI生成的内容大量混入维基百科，然后下一代AI模型再用这些数据来训练，会发生什么？这有点像近亲繁殖——每一代都在复制上一代的缺陷，最终结果是退化。更可怕的是，那些虚假的AI编造内容一旦“挤进”权威渠道，进入权威论文库、案例库、期刊、维基百科，就成了下一次AI引用的“合法来源”。它不再是一个明显的谎言，而是一个有出处的“事实”。2024年《Nature》上有一项研究给这个现象起了个名字，叫“模型崩溃”：当AI模型持续用AI生成的数据来训练自己，输出质量会不可避免地退化。生成的内容越来越像AI自己，而不是像真实的人类知识。所以你看，维基百科封禁AI内容，表面上是在保护一个网站的内容质量，实际上是在守护整个AI训练数据最重要的一块净土。这件事的影响，远比“一个百科网站不让用AI写文章”要大得多。维基百科官方在25周年活动中说过一句话：“知识是人类的，知识需要人类。”维基百科的创始人吉米·威尔士（Jimmy Wales）在多次采访中也反复表达了同样的立场，他并不担心AI会取代维基百科，但他极度担心的是，那些负责验证、辩论和审核信息的人类编辑，会从这个等式里消失。当然，维基百科不是唯一一个对AI内容划线的内容平台。著名的程序员问答社区Stack Overflow在ChatGPT发布几天后就全面禁止了AI回答。2024年，专栏内容平台Medium禁止AI内容参与付费分成。大家的策略各有不同，但都在回答同一个问题：人类和AI之间，这条界限到底划在哪。我觉得这件事真正的意义在于：在AI时代，信息的生成成本已经趋近于零，但验证信息的成本在急剧上升。当任何人都可以用AI生成一篇看起来头头是道的文章时，“这是真的吗”“来源在哪里”“谁来负责”这些问题，比任何时候都更重要。咱们每个人判断真假、判断美丑、判断高低的能力，也会变得异常重要。

		自动登录	找回密码
密码			立即注册

维基百科正式封禁AI生成内容，聊聊志愿者“起义”背后的规则与破例

相关帖子