不经讨论的对齐就是强加
本文为译文,原文为西班牙语 · 阅读原文
如何让人工智能与人类价值观对齐,这个技术问题并不是一个技术问题。它是一个伪装成工程问题的管辖权问题。2026年5月25日,教皇利奥十四世发布了其任内的第一道通谕magnifica humanitas,在第95段到第111段之间,藏着今年针对这一概念最锋利的批评。而那个自称关注这些系统安全的行业,选择不这样去读它,或者干脆不读。
这份文件早已是众所周知的新闻。媒体报道的只是那些标题:"教皇呼吁为人工智能解除武装","警告其对未成年人的影响","警告人工智能使劳动者去技能化"。这些都在文本里。但最尖锐的实质内容在别处,在教皇为了讨论这个被行业称为"对齐"的技术问题而构建的概念框架之中。
通谕第107段是这样说的:
"我们不能仅仅满足于呼吁机器的道德化,即所谓人工智能与人类价值观的'对齐',而没有勇气提出一个进一步的条件:让所使用的伦理准则可以被讨论,并使其接受共享社会正义标准的检验。否则,控制人工智能的人将强加自己的道德观,而这种道德观将成为这些系统的隐形基础设施。如果这种道德由少数人决定,一个更有道德的人工智能也毫无用处。"
这才是应该注视的地方。
并非技术问题的技术问题
在行业主流的讨论中,对齐问题是这样被提出的:我们拥有通过优化目标函数来学习生成回答的系统,我们想确保这些目标函数与人类真正珍视的东西相符。当这些系统的能力强大到足以在开放情境中做出决定时,问题就变得尖锐:招聘、信贷、诊断、法律协助、内容生成。如果系统追求的是一个被错误设定的"我们想要的东西"的版本,它会造成难以逆转的伤害。
行业里最严肃的公司为这个问题投入了数年时间和数十亿资金。存在着一整套研究方向,专门用来改进训练流程,使模型的回答符合一组被宣告的价值观。其中一家公司把自己的方法称为宪法式人工智能(constitutional ai):一组明确的原则,模型在训练过程中据此进行自我评估。"宪法"这个词不是比喻,而是刻意的。它实际上是在提出一种管辖权。
教皇的观察并不针对技术程序本身,而是关于程序被应用之后,政治问题落在了哪里。他在同一段中继续写道:
"需要一种更在场的政治,能够在一切都在加速的地方放慢脚步,能够保护那些让共同体得以继续参与和自我追问的空间。"
把这个想法翻译成没有礼仪色彩的语言就是:如果你用你自己定义的价值观去对齐一个系统,而没有就这些价值观应该是什么进行公共讨论,那你并没有解决问题,只是把它转移到了一个再也无法讨论的层面。系统的道德变成了基础设施,是字面意义上的:在下面的、支撑着一切的、看不见的东西。
这是一种结构性批评,不是审美批评。而这恰恰是关于人工智能安全的公共讨论一贯回避的批评。
认识论上的让步
在进入对"对齐"的批评之前,教皇在第98段承认了一件行业能淡化就淡化的事情:
"现代的人工智能更像是被'培育'出来的,而不是被'建造'出来的:开发者并不直接设计每一个细节,而是创造一个让人工智能在其上'生长'的架构。因此,那些根本性的科学问题,比如这些系统的内部表征和计算过程,至今仍然不为人知。"
值得为这句话停顿一下。它在学术上是正确的。任何严肃的机制可解释性研究者都会在上面签名。引人注目的是,它出现在一份教会训导文件里,由教皇签署,于5月25日在主教会议新厅发布。这种对内部表征的认识论不确定性的承认,从罗马说出来,具有一种特定的政治功能:它抽掉了那些声称"我们知道我们在部署什么"的人的论证地基。
这个让步之所以重要,是因为第107段的批评正建立在它之上。如果这些系统是被培育出来的,没有人完全理解它们在内部如何处理信息,那么对齐程序就是在一个部分不透明的箱子上运作。被"注入"系统的价值观,无法像审查一部法律那样被审查,只能像检验一个生物学假说那样被检验:依靠外部证据、测试、反馈。换句话说,它们在可以被商议之前,就已经可以被执行了。
这改变了问题的性质。关于价值观的决定不是实施之前的行为,而是通过实施得到追认的行为。而今天,实施掌握在总部设在两个国家的少数几家私营公司手里。
认知垄断
第108段毫不委婉地点出了这种不对称:
"正如每一次重大技术进步一样,人工智能首先增强的是那些已经拥有经济资源、专业能力和数据获取渠道的人的权力。从公共利益和财货普遍归属的角度看,这一现象引起严重的忧虑:少数极具影响力的群体可以引导信息和消费,左右民主进程,并为自身利益影响经济动态,这与社会正义和各民族之间的休戚与共相违背。"
紧接着一行,它提出了具体的主张:
"数据的所有权不能只托付给私营部门,而必须加以规范。数据是众人贡献的果实,不能被出售或托付给少数人。"
用天主教的语言说,这就是对人工智能认知原材料的集体所有。在社会训导中,这一原则被称为财货的普遍归属,历史上适用于土地和水。把它适用于训练数据是一次刻意的延伸,它打破了那种市场逻辑:谁收集了数据,谁就有权用这些数据去构建那些日后决定信贷、就业和服务准入条件的模型。
接下来的第109段完成了这一步:
"在一个少数主体集中了数据、算力资本和规范能力的世界里,谈论公共利益就意味着揭露这种新的认识论、经济和政治上的不对称,点名人工智能的新垄断。"
"点名新垄断"是关键的那句话。不是监管,不是审计,不是认证:是点名。这道通谕用平实的语言要求公共话语不要再把这些公司当作中立的基础设施,而开始把它们当作它们本来的样子来对待。
安全行业不用的那个动词
在第110段,利奥十四世特别强调了一个词,并把它标记为自己的用词:
"最后,我想使用一个对我非常重要的词:'解除武装'。为人工智能解除武装,意味着把它从军备竞赛的逻辑中抽离出来,这种竞赛今天已不仅是军事性的,也是经济性和认知性的。这是一场争夺最高效算法和最庞大数据库的竞赛,为的是巩固对所有其他人的地缘政治或商业优势。解除武装意味着打破技术权力与统治权之间的这种等价关系。"
当一位教皇强调一个动词时,那是深思熟虑的。解除武装与监管不是一回事。监管假定的是一个合法的基础设施,只需整顿其过度之处。解除武装假定的则是这个基础设施本身就是一场军备竞赛的一部分,必须先把它从竞赛中抽离出来,才谈得上使用它。
人工智能安全行业有自己的一套词汇:微调(fine-tuning)、评估(evals)、红队(red team)、基准测试(benchmark)、审查委员会。这整套词汇都假定问题在于调校,而不在于竞赛。这道通谕指出,竞赛本身才是问题,而没有解除武装的调校,只是武装态势内部的优化。
这一段以一句值得慢慢读的话收尾:
"因此,仅仅监管它是不够的;必须为它解除武装,并使它成为接纳人的。"
接纳人的(acogedora)。这个词在行业词汇表之外。它不出现在任何使用政策、任何公司文件、任何已知的监管议程里。然而,这正是教皇选来描述人工智能应被引向的状态的那个词。
谁来决定在蒙得维的亚执行的价值观
第95段已经说出了对任何生活在旧金山或西雅图之外的人来说至关重要的话:
"对平台、基础设施、数据和计算能力的控制权,并不掌握在国家手中,而是掌握在大型经济和技术行为者手中,是他们在事实上决定着准入条件、可见性规则乃至参与的可能性本身。"
而导言的第5段更早就说过:
"在过去,推动和引导创新的主要是国家。而今天,发展的主要引擎是私人行为者,他们往往是跨国的,拥有超过许多政府的资源和行动能力。技术权力由此呈现出一副前所未有的、以'私人'为主的面孔,也因此更难辨识、治理和引向公共利益。"
在乌拉圭对信贷、招聘、内容审核和临床辅助做出自动化决定的那些系统,并不是按照在乌拉圭商议出来的价值观对齐的。它们最好的情况,是按照北美公司伦理委员会里商议出来的价值观对齐的。最坏的情况,是没有按照任何明确的东西对齐,只是反映了训练数据中的统计偏差,而那些数据也不是在这里收集的。
问题不在于这些价值观是好是坏。问题是管辖权的问题。当一个在加利福尼亚训练的系统判定蒙得维的亚的一份信贷申请属于高风险,或者判定一份提到udelar的简历不如一份提到mit的简历有竞争力,或者判定拉普拉塔河流域西班牙语里的某个词在论坛上构成毒性内容时,我们面对的不是人工智能安全问题,而是道德主权问题。这个系统的伦理准则,用第107段的话说,是"由少数人"决定的。而那少数人不住在这里。
教皇在第111段说得更直白,直接对建造这些系统的人说:
"因此,开发者背负着重要的伦理和精神分量,因为每一个设计选择都表达着一种对人的看法。"
每一个设计选择。每一次给数据打标签、定义一个参数、配置一个默认行为的决定。这些选择中的每一个,分散在少数几家公司的数千名员工身上,正在建造一个隐形的基础设施,世界其他地方数以百万计的人与之互动,却从未参与过它的设计。
重新定调
关于人工智能安全的公共讨论从一开始就提错了问题。它假定问题在于建造出按我们意愿行事的系统。教皇没有提出技术方案,却做出了一个更简单也更令人不适的观察:任何系统,无论表现得多么规矩,执行的都是建造者的价值观。紧迫的问题不是我们如何对齐,而是由谁来决定哪些价值观算作对齐。
这个问题不是靠更好的训练流程来回答的,而是要靠尚不存在的制度来回答。而只要这些制度不存在,那些在布宜诺斯艾利斯、利马、拉各斯和马尼拉使用的系统里被执行的决定,就仍然是在一些办公室里做出的,而这些地方的人从未在那些办公室里坐过。
今年关于对齐问题发表的最有意思的文件,出自一位生于芝加哥、职业生涯大部分在秘鲁度过的教会法学家之手,文中引用了圣奥古斯丁和汉娜·阿伦特。它没有出现在某个机器学习会议上,而是在5月25日于主教会议新厅发布,签署日期比1891年首次点名社会问题的那道通谕的135周年纪念日早几天。它有110页。我敢肯定,那个自称关注这一问题的行业,至今还没有把它完整读完,或者因为它的出处而把它当作无关紧要的文本弃置一旁。
值得一读。
资料来源:
[1] 利奥十四世。magnifica humanitas, carta encíclica sobre la custodia de la persona humana en el tiempo de la inteligencia artificial。圣座,2026年5月15日(5月25日发布)。https://www.vatican.va/content/leo-xiv/es/encyclicals/documents/20260515-magnifica-humanitas.html
[2] 信理部。通谕公开发布会,主教会议新厅,2026年5月25日。枢机víctor manuel fernández的发言。
[3] bai, yuntao et al. constitutional ai: harmlessness from ai feedback. arxiv:2212.08073,2022年12月。
[4] 方济各。laudato si',§§101-114,论技术官僚范式。被magnifica humanitas §92引用。
[5] 若望保禄二世。centesimus annus,§§31-48,论财货的集体所有。被magnifica humanitas §108引用。