波士顿评论｜人工智能无法为民主做什么？

日新说Copernicium

2024-12-22 21:29发布于江苏国际领域创作者

全文6928字，阅读约需20分钟，帮我划重点

划重点

01人工智能在提高公民参与度、改善治理和民主方面的应用取决于政策制定者希望从公众那里学到什么。

02然而，人工智能在公民参与方面的应用面临信息过载挑战，需要更好地理解不同类型的学习及其对人工智能的潜在应用。

03为此，政策制定者需要克服信息过载问题，确保“真正倾听公民的声音”以提高政府的响应能力。

04另一方面，人工智能在特定语境知识对识别新价值更为重要的场景中可能面临更大的问题。

05综合来看，更好地理解特定语境和时间外推的重要性有助于明确当前一代人工智能进步仍然不甚适合的任务类型。

以上内容由腾讯混元大模型生成，仅供参考

人工智能参与民主

它能否提高公民参与度，关键取决于政策制定者希望从公众那里学到什么。

作者：丹尼尔·柏林纳

编辑：阿K

随着人工智能工具的迅速发展，许多人欢呼数字技术有望提高公民参与度，改善治理和民主。例如，政治理论家海伦·兰德莫尔认为，“人工智能有可能带来更具包容性、参与性和协商性的民主形式，包括在全球范围内。”

许多人欢呼数字技术有望提高公民参与度，改善民主。这种乐观情绪是否合理？

她并非孤例。麻省理工学院治理实验室的蔡莉莉及其同事表示，“在线平台和生成式人工智能为我们提供了参与大规模讨论和政策审议的绝佳新机会。”尼尔斯·吉尔曼和本·切尔维尼认为，“技术驱动的持续民主参与形式有望让政府更有效、更高效、更直接地响应公众意愿。” 新泽西州首位首席人工智能战略师贝丝·诺维克向美国参议院委员会作证，称“人工智能在分析公众情绪、管理反馈以及扩大不同人群的参与度方面具有无可比拟的潜力”。对一些人来说，这也是一个商机：2023年5月的一份报告发现，“未来五年，欧洲在线参与和讨论的市场预计将增长到3亿欧元”。
简而言之，理论家和实践者对技术驱动的公民参与振兴或深化民主的潜力越来越乐观。这种乐观情绪是否合理？

答案取决于我们对公民参与的作用的看法。政治代表往往对普通民众的偏好反应迟钝。他们对公众需求和偏好的误解是部分原因，但民主失灵的根源比信息本身更深刻、更具结构性。因此，在权力分配意味着决策者没有动力去执行公民意见的情况下，努力确保“公民的声音真正被听到”对于提高政府的响应能力作用不大。正如一些批评家所言，这甚至可能转移对其他问题的认识和补救，形成一种合法性的表象——健康政策专家雪莉·阿恩斯坦曾对此予以嘲讽，称其为“门面功夫”。

尽管如此，在许多情况下，公民的贡献可以凸显需要解决的新问题，提供理解问题的新视角，并提出解决公共问题的新思路——从寻求公众意见的行政机构到寻求解决居民投诉的城市政府，以及审议气候政策的公民大会。但即使在这些和其他情况下，也有理由怀疑人工智能的全面实用性。人工智能在公民参与方面的应用取决于政策制定者究竟想从公众那里了解什么。对于某些类型的知识，人工智能的应用可以大大提高信息处理的效率和有效性。而对于另一些知识，要想充分理解公众的意见，人类注意力以及特定情境下的知识是必不可少的。我们需要更好地理解这些差异，避免将资源浪费在可能无法提供有用信息的工具上。

2010年，英国联合政府就一项承诺的新“自由法案”举行了在线咨询，该法案旨在“扫除烦琐的立法，使个人和企业摆脱霸道的规则。”超过45,000人提交了废除法律法规的建议。但内部人士称，面对“海量的信息”，副首相尼克·克莱格感到“不知所措”，最终他“觉得自己被捆住了手脚，于是放弃了”，众筹活动也宣告失败。

大规模参与性举措深受此类信息过载之苦。处理海量评论（有时数量高达数百万）是美国监管规则制定方面持续面临的挑战。韩国2017年总统过渡时期的在线平台在短短49天内就收到了超过18万条建议。智利2019-2022年宪法制定过程的参与性部分吸引了超过15万人参与16,000多次在线或面对面的对话。欧盟2021-2022年欧洲未来会议的多语言数字平台收到了来自43,000多名参与者的近17,000条意见。美国一项关于地方政策众包的研究将这个问题称为“公民数据过载”。

在政策制定者没有动力按照公民的意见行事的情况下，努力确保“真正倾听公民的声音”对于提高响应能力的作用不大。

这些例子凸显了大规模公民参与所面临的挑战。虽然面对面交流（如市民大会或焦点小组讨论）能够提供相对易于处理的信息量，从而转化为可付诸实践的政策学习，但越来越多的现实世界“民主创新”旨在更大规模地运作，参与者往往数量庞大，有时甚至涉及国家政府层面。这些创新包括参与式预算、政策众包和公民大会。在中国的某个省，政策制定者甚至利用审议大会来制定人工智能政策。如果希望从公民参与中有效学习，政策制定者需要克服信息过载的问题。

人工智能在这个问题上的潜在应用——包括机器学习、LLM和聊天机器人等工具——可以根据其旨在提高的决策阶段分为三种类型。

一种类型侧重于公民的意见，旨在减少参与障碍或提高参与质量。自动翻译总结工具可以帮助不同人群共同商议。聊天机器人可以提供自动协助。基于LLM的工具可以帮助个人起草更清晰、更详细的提案或关注点。其他工具可以介入商议，防止出现恶意言论，甚至充当主持人、协调员或事实核查员。还有一些工具可以帮助识别与他人已提交的意见相似的输入，从而减少冗余或确定共识领域。

另一种类型关注公民参与的产出，旨在帮助更广泛的公众更好地理解或评估这些产出。最近的一个例子是，一位接受过定制法学硕士培训的人员利用法国公民大会关于生命终结政策的材料，帮助公众更好地理解这一过程和结果。最近一项关于将人工智能整合到公民大会中的建议提出，为了更好地传达结果，“他们可以生成不同版本的文本，以吸引不同的受众”。

第三种类型涉及输入和输出之间的中间阶段：信息处理阶段，在此阶段，公众的意见被浓缩为可解释且可操作的信息，适合决策者进行有意义的学习。这是信息过载挑战的关键所在。鉴于这一挑战的普遍性，人工智能很有可能做出重要贡献。事实上，目前已有多种工具可供使用。最近一项关于文本计算分析方法的综述调查了重复检测、主题分组、论点挖掘和情感分析工具，而最近开发的LLM（如ChatGPT）则进一步扩展了可能性。

但每种工具都只适用于某些类型的任务。如果政策制定者希望从公众那里了解的信息与人工智能工具的实际功能不匹配，那么结果可能会令人失望。对于某些类型的学习，人工智能仍然没有太大用处。为了更好地评估人工智能在公民参与中信息处理的潜力，我们需要了解这些不同类型的学习是什么，以及它们的差异对人工智能的潜在应用意味着什么。

决策者希望从公众那里了解什么？对于任何形式的公民参与意见——例如在市政厅会议上的评论、对咨询的回应、向投诉或众包平台提交的意见，甚至社交媒体帖子——人们可能希望得出截然不同的结论。其中两个关键特征是特殊性和新颖性。

首先，决策者希望了解的信息可以是整体性的——涉及全部输入，例如参与者投票的结果，或者他们提出的所有议题的摘要；也可以是特定性的，涉及所报告的特定问题、所提出的特定建议，或者某个特别有说服力的观点。为了得出整体性的结论，可以对信息进行汇总，从而提供易于理解的摘要，但代价是破坏了单个输入本身的内容。但是，为了得出具体结论，需要对信息进行过滤，保留一些单独输入的内容，但将其数量限制在决策者实际关注的足够小的子集内。这需要单独关注每个输入，无论是通过人工还是机器，以决定保留哪些输入。

信息是新颖的还是熟悉的也很重要。其衡量标准或类别是否可提前预测和定义？有时这很简单，例如当公民被问及一个是非题、对预先确定的问题列表进行优先排序，或提出易于用通用指标进行评分的解决方案时。但有时决策者希望发现他们尚未意识到的全新问题，找到解决棘手问题的创新方案，或者提出他们之前没有想到的问题。这种学习需要根据特定背景知识和超越过往经验的推断，识别这些类型的输入及其特殊之处，而不能轻易套用已经熟悉的定义或类别。

这两个特征为公众参与的不同学习类型提供了四向分类法：整体或具体、熟悉或新颖的组合。这些组合并不一定比其他的更有用或更无用，这完全取决于决策者在任何特定情况下想要学习什么。它们之间的区别在于将输入转化为决策者真正想要学习的输出所需的潜在成本。

人工智能如何帮助解决这些问题？让我们逐一考虑每种情况。

首先，有整体性的、熟悉的学习。这是预先定义的选项之间的投票所传达的信息。如果公众的输入已经是数字或分类形式，则除了简单的统计分析外，无需进一步处理。这里不需要人工智能！然而，当公众的输入是开放式的时，一系列人工智能工具可以帮助降低将它们转换为用于聚合的度量或类别的成本。

这包括用于衡量赞同或反对情绪的分析工具、用于衡量政策偏好的意识形态量表，以及用于根据过往案例对意见进行分类的监督式机器学习。虽然人工智能在此处可以发挥有效作用，但此类学习通常不会从一开始就面临信息过载这一主要挑战。而且，对于存在根深蒂固的利益和众所周知的极端观点的问题，仅凭公众偏好的信息不太可能产生影响。

我们需要了解人工智能无法提供帮助的地方，从而避免将资源浪费在可能无法提供有用信息的工具上。

其次，对于整体但新颖的学习，人工智能工具可用于总结公众意见，从而产生可能出乎意料的新成果。所谓的“主题模型”和其他相关的关键词聚类工具可以识别经常一起出现的词组。与预先定义的类别集不同，主题模型可以识别意想不到的新主题，但需要人工判断来解释这些主题的实际含义。同样，LLM以及诸如论点挖掘之类的工具可用于生成整体摘要。

最近许多人工智能用于公民参与的事例正是如此：汇总所有贡献，而不是过滤具体内容，但并不依赖于预先定义的衡量标准或类别。最近的一项评论指出，“一些平台已经使用人工智能来按共同主题对建议进行分组，或在评论中建议关键词。” 一家公司为政府机构提供工具，帮助其“在几秒钟内轻松地将大型数据集转化为关键主题，揭示对社区最重要的议题”。英国政府正在开发基于主题建模的“咨询分析器”，希望借此节省每年约8000万英镑的咨询费用。美国消费者金融保护局（U.S. Consumer Financial Protection Bureau）使用包括主题模型在内的工具来“识别大量投诉中的新兴趋势和统计异常”。

当然，人工智能撰写的公众咨询摘要可能存在失真或偏见（尽管它们可能比人工生成的摘要更少偏见）。当澳大利亚证券和投资委员会在2024年初试用人工智能对公众意见进行总结时，他们发现“总结非常糟糕，评估人员一致认为使用它们可能需要更多后续工作”。

但即使总结有效，也存在一个更根本的限制。汇总的信息输出就是：汇总。例如，得知25%的评论涉及基础设施与得知某座桥梁出现裂缝，表明即将倒塌的危险，这两者之间是有区别的。后一种信息会被汇总淹没；它不会出现在主题摘要中。即使像“与城市对话”这样先进的AI工具（台湾的人工智能协调会议也使用了该工具）也认识到“保留个人意见的多样性和细微差别”的重要性，但它们仍然主要将输入汇总到主题类别中。在目前这股对公民参与人工智能的热情中，出现了大量基于总结的工具，从业人员也有可能因此忽略从具体贡献中学习的重要性。

第三，对于特定的、熟悉的学习，雇用非主题专家或某种形式的人工智能来使用明确的规则或过去的例子来过滤输入是相对简单的。虽然监督式机器学习的方法多种多样，但它们都遵循相同的基本原理：推断训练数据中出现的模式，然后使用这些模式对新案例进行分类。

例如，过去已经分类并分配给不同政府机构的市民投诉可以作为训练数据，用于对未来的投诉进行分类——前提是你不担心未来会出现新的用例。同样，过去被决策者接受或拒绝的公众建议也可以作为训练数据来预测未来建议的价值——前提是人们可以放心地假设过去的决策没有偏见，并且与“有用性”相关的特征不会随着时间的推移而改变。

其他形式的AI也可以用于过滤。基于明确的提示，LLM有时能很好地将开放式输入分类到预定义的类别中，例如识别调查回复中表达的“最重要的问题”。如果决策者希望过滤单一指标上特别高的或特别低的值，可以使用自然语言处理工具根据近似重复贡献之间的相似度得分、情感分析、语言标记、审议质量或从主题模型中得出的主题概率来生成度量。但这些方法所衡量的概念是否对政策制定者真正有用，则取决于具体情况。从业者仍需警惕算法偏差和数据选择偏差等基本问题。如果仅使用来自网络平台的训练数据来自动处理投诉，那么对于倾向于通过电话投诉的人群（通常是老年人）而言，结果可能会降低性能。

最后，还有具体而新颖的学习。公众参与政府事务的许多承诺正是基于其能够向决策者提供公众提出的新颖问题、新颖解决方案或新颖观点。例如，法国在线平台Parlement et Citoyens通过就农药使用立法草案进行咨询，将新颖信息提请立法者注意，当时“521名参与者之一发现了一个潜在的漏洞……并提出了一个修正案，该修正案后来得到了实施”。同样，乌干达的U-Report SMS平台最初主要用于民意调查，但最终也帮助政府发现了意想不到的公共问题，因为参与者自发发送的信息突出了农村地区的疾病爆发。

将政策学习的范围限制在已知措施和类别上，甚至可能只是简单地固化现有的政治不平等。

但是，为了使这种学习发挥作用，政策制定者需要能够从那些不太有用的公众意见中成功过滤出有用的意见——而且要做到这一点，所依据的措施不能事先轻易定义，也不能用明确的规则解释或用过去的例子来证明。虽然这种信息处理有多种方法，但所有方法都不可避免地在降低成本、减少偏见和减少不准确之间进行权衡。

以克莱格副首相2010年的众包尝试为例。具备识别新价值所需监管知识的政策专家本可以亲自阅读数以万计的提交材料，但这需要投入大量宝贵时间。鉴于人们对政客与官僚之间冲突的担忧由来已久，克莱格可能担心公务员不会认同他的目标，因此在筛选过程中会有所偏颇。

过滤任务本可以委托给政府以外的第三方——具有相关知识并愿意承担自行阅读大量提交材料的费用的倡导或行业团体。但正是因为这些团体具有相关材料或意识形态利益，结果将存在严重偏见，缺乏公众合法性。

另一种方法是，将过滤任务委托给普通公民，让他们以个人或团体形式自愿进行审查。虽然志愿者的时间对政府来说可能并不昂贵，但不能保证没有特定领域知识（此处指监管专业知识）的普通人能够识别出最有用的建议（无论“有用”是指公共价值还是更广泛的政治目标）。

鉴于这些限制，人们很容易认为人工智能可以为这种学习提供变革性的改进。但是，如何自动过滤未知的标准呢？监督式机器学习需要标记的训练数据，这意味着要从过去的例子中学习所需的度量或类别。在任何情况下，如果世界的相关特征随着时间的推移而变化，那么简单地应用过去的训练数据将无法识别真正新颖的问题、解决方案或观点。

同样的基本限制也适用于最近开发的语言模型。虽然它们在根据明确规则进行分类或汇总方面表现相对较好，但识别特定个体贡献的真正新颖重要性意味着在没有任何预先定义的指令或训练数据的情况下进行操作。如果存在这些数据，那么它就不是一项新颖的任务。结果需要超出训练数据的推断，而语言模型通常在这方面表现不佳。

即使有越来越多的数据（通常是通过非法手段收集的）用于训练，但事实证明，在训练数据中不常见的场景中，例如非西方语境、使用范围较窄的语言或不太常见的主题，LLM的表现会更差。这种“普遍性”偏见恰恰会在特定语境知识对识别新价值更为重要的场景中成为更大的问题。

综合这四个案例，我们发现人工智能能否更好地处理信息，关键取决于政策制定者真正想要了解的信息类型。如果他们想要学习既具体又新颖的事物——在这种情况下，信息处理既需要个人关注，也需要特定背景知识——那么除非社会愿意接受严重的偏见或重大的不准确性，否则人工智能不太可能非常有用。而且，将政策学习范围限制在已知的措施和类别上，甚至可能只是加剧现有的政治不平等。

如果决策者表现出“自动化偏见”，即决策者不加批判地采纳算法建议，即使他们自己的专业知识和经验表明应该采取其他做法，那么这些危险只会加剧。例如，如果决策者仅凭人工智能生成的摘要或优先级评分，可能会忽略训练数据存在偏差或过时、评分不准确或摘要失真等问题。

尽管最近的一些进展表明有可能解决这些问题，但我们仍然应该持怀疑态度。使用特定上下文的文档（所谓的“检索增强生成”）的本地化 LLM 实施能否有所帮助？尽管它们可能会改善普遍性偏差问题，但它们仍然面临着任何基于训练数据的 AI 形式的局限性：这些文档与过去有关，而不是与未来有关。一个投诉平台如果仅根据过去的投诉和回应进行人工智能训练，就无法识别以前从未出现过的全新问题——而这类问题恰恰是最迫切需要识别的问题。

最近，布鲁斯·施奈尔和内森·桑德斯为美国监管咨询提出了另一种方法，他们认为异常值检测有助于识别“那些不属于常规的数据点——即那些评论没有使用适合整齐小簇的论点”。虽然这种方法可能很有成效，但很可能会出现严重的准确性问题：漏检率（未检测到有用评论）和误检率（检测到实际上没有用的异常值）都很高。在大多数现实世界的公众贡献场景中，大多数异常值只是奇怪的东西，没有用。仍然需要花费大量人力来判断有用的异常值和只是奇怪的东西。

有些事情仍然需要具备特定背景知识的人来处理，而这正是他们稀缺的精力所在。

更乐观地看，类似这样的建议仍然可以发展成为混合方法，将人工智能、集体智慧和人类专业知识相结合，在提高效率的同时减少两者的一些局限性。即使基于人工智能的工具可能难以识别最有用的创新贡献，它们仍然可以帮助剔除最无用的贡献，例如所谓的“大量、计算机生成且错误归因的评论”。主题模型和类似的聚类方法虽然不太可能帮助识别最有用的具体贡献，但它们可能有助于提高领域专家的效率，确保每个贡献都由最能评估其特定品质的人进行审查。而像Polis、All Our Ideas或Policy Synth这样更复杂的工具，则可以帮助从参与者对众包提案的评分中提取更多信息，因为参与者确实拥有特定背景知识。

多种不同方法的结合可能会提供最有希望的前进方向。正如各种人工智能应用设置中的建议都强调保持“人在循环中”的重要性一样，对于公民参与来说，最好的建议可能是找到保持“特定背景知识在循环中”的方法。这绝对不是说不应该将人工智能应用于公民参与，至少在正确的监管下是可以的。关键的经验教训是关于背景的重要性，以及确保决策者的学习目标与他们使用的工具之间正确匹配。人工智能的实用性和局限性将取决于它们的应用方式和学习类型。

也许未来人工智能的发展会继续减轻这些权衡。但即使最新一代的 LLM 仍然基于训练数据，因此从根本上说，它们仍然存在任何训练数据所固有的局限性和风险：算法偏差、时间依赖性、“垃圾输入，垃圾输出”。从更广泛的意义上讲，更好地理解特定语境和时间外推的重要性有助于明确当前一代人工智能进步仍然不甚适合的任务类型。有些事情仍然需要具备特定语境知识的人类来处理。

作者

丹尼尔·柏林纳是伦敦经济学院政治学和公共政策教授

文章信源

波士顿评论

我们是谁

我们的世界不止有一种声音 | 独立·多元·深度

日新说深耕国际议题，秉持普世价值与人文精神，致力于多元视角讲述与思考我们的世界。

关注我们

文章仅供交流学习，不代表日新说观点，观点不合，欢迎投稿~

查看原图 431K