算法治理的技术迷思与行动选择丨湖南智库·大数据产业研究所

2022-07-21 08:56 加入收藏


算法治理可能的且有效的行动选择是什么?


算法侵害源于算法偏见。可是算法偏见不是算法自己的偏见,而是人类偏见在算法中的再现甚至放大。如此,阻止乃至防止算法偏见需首先纠正人类的偏见。落实到算法治理中,一是过程治理,二是结果治理。算法的技术迷思决定了过程治理是低效率的和高成本的,算法的动态性也决定了试图通过过程治理来预防算法侵害无异于与风车作战。针对算法偏见带来的结果进行治理在理论上是更加有效的行动选择。


在数字时代的国际三方中,美国的算法治理采用了算法侵害的事后问责模式,同时,也为问责实现如便于算法审查作了算法透明、数据证据化等约定,形成了从算法治理法理到实践的逻辑闭环。欧盟的算法治理从保护数据的守势入手,也在迈向美国的算法问责模式。中国的算法治理以网络安全为起点,以总体安全为目标,尚未呈现清晰的法理,在实践上颁布了一些点位性规则,却还没有形成以法理为依据、以社会平等为依归的算法治理逻辑。我们认为,针对算法偏见的事后问责或许是殊途同归的有效选择。


一、进入算法治理时代


算法古已有之。在中国之外,算法的最早证据可以追溯到古代美索不达米亚的巴比伦数学;在中国,算法的最早证据则可追溯到《黄帝历》。算法在人类历史中始终存在,在近代社会也没有停止演化,且早已运用于生产和生活之中。可是,为什么直到现在,人们才那么关注算法治理?


归纳既有文献,我们观察到三种主要理由。一种理由认为,算法侵害是触发人们关注算法治理的根由。人们认为,现实生产和生活中已经出现了算法歧视、算法偏见、算法共谋、算法垄断、算法黑箱、算法遮蔽、算法短视、算法霸权、算法操纵、算法劫持、算法剥削等与算法关联的社会、经济、甚至政治侵害,给人类社会的政治、经济、社会生活带来了负面影响。


另一种理由认为,算法风险是触发算法治理的根由。人们认为,在个体层次,算法强化着信息茧房,带来人的认知窄化风险。在市场层次,算法遵循商业逻辑,酝酿着监控资本主义的风险。在国家层次,算法隐藏着被特定利益集团用于社会控制和政治权力再生产的政治风险。从个体层次到国家层次的风险给人类社会的政治、经济、社会生活带来巨大的不确定性。


除了算法带来的侵害和风险,还有人将算法影响上升到制度层次,认为算法权力、算法规则是触发规则竞争、权力竞争甚至规则垄断、权力垄断的根由。值得特别注意的是,这也是西文文献探讨算法治理的主流。早在中文文献关注算法之前,西文文献就以著作形态探讨算法权力了。人们认为,算法正在从人类手里获得决策权,在越来越多的领域或行动中成为人类的代理人,不仅在日常生活中代理个体,还在组织行动中代理组织或机构。如果个体和组织层次的代理行动涉及社会秩序的建构和预测,在逻辑上,算法已经进入政治生活领域,直接触碰到了政治权力。在中文文献中,算法权力也在成为一个重要论题。


我们认为,社会关注聚焦于算法治理其实是由两个因素推动的,除了算法影响的广度和深度,还有算法影响的覆盖面。算法影响的覆盖面到底有多大呢?


在数字时代,算法影响的第一个条件是接入互联网络。没有互联网络的接入,就没有个体或组织行动与数字网络的数据交换,也不会有任何数字化算法介入,无论是个体还是机构或组织都被排除在算法的影响之外。尽管世界上依然有超过三分之一的人口没有接入互联网,尚处在算法影响的范围之外,中国却实现了互联网接入的充分供给,如果以家庭为单位计算,则人口整体处于算法影响的覆盖之内。在数字接入的意义上,算法有机会影响到几乎每一位中国人,如果愿意,每一位中国人也有机会接受算法的影响。算法覆盖的无边界性,在历史上是不曾出现的现象。


算法影响的第二个条件是数据成为人类生产与生活的环境。如果只是接入网络,也不足以让算法影响触达每一个接入的节点(人、组织、事物等)。在网络上,两个节点之间流动的只要不是不断产生的数据,即使伴随着算法,算法的影响也仅限于有限的节点之间,不足以引发广泛的社会关注。但当网络上流动的是关系性数据时,算法影响的溢出点便出现了。数据对算法影响溢出的推动不在于数据本身,而在于数据的量。数据量巨大到远远超出人类加上简单工具的处理能力,在历史上也是不曾出现的现象。数据已经成为接入数字网络的人口之生产和生活环境,巨量的数据和应用是人类依靠其生物属性无力应付和处理的,由此带来的直接后果是:算法成为了人类生产与生活必备的外生性能力。


算法影响的第三个条件是算法成为人类生产和生活的必备工具。数据和算法的组合正在从根本上改变人类的生产,推动着人类从工业经济迈向数字经济;也在从根本上改变人类的生活,推动着人类从工业社会迈向数字社会,数据和算法因此成为人类迈向数字时代的标志性指标。而任何一项终端工具应用的背后都有算法,算法的工具化无处不在。


二、算法治理的技术迷思


尽管算法早已存在于人类社会,可作为概念,算法的词源却来自波斯数学家花剌子模(Muḥammad ibn Mūsā al-Khwārizmī)的名字。花剌子模名字的拉丁语写法(Algoritmi)便是今天人们见到的算法作为术语的拼写原型。算法的现代意义源自公元9世纪花剌子模向西方译介印度计算方法。可是,直到计算机和计算机科学进入人们的生产和生活之前,人们都没有算法的概念。那么,算法到底是什么?在不同的历史阶段、不同的应用场景中,算法有着不同所指,从最简单的算法到最复杂的算法。可在本质上,算法只是一种求解逻辑。


第一,算法是面对问题的,无论是现实问题还是理论问题,总之是需要解决的问题。尽快到达目的地是需要解决的现实问题,如何把某个商品卖给愿意出高价的人是需要解决的理论和现实问题,人们为什么在搜索引擎上搜索感冒药也是需要解决的理论和现实问题。人类需要解决的问题无处不在,故算法从不缺乏需要解决的问题。


第二,算法是通过计算解决问题的。因此,任何用到算法的问题,都需要将问题数学化为可计算模型。其中又内含着一个问题的两面。一方面,要解决的问题可以被数学化即用数学模型刻画,不能建模或暂时不能建模的问题是无法运用算法的,如人类或许暂时还无力将A爱恋B的程度数学化。另一方面,建构的数学模型是可计算的。满足可计算的条件是,至少有用于计算的数据,至少计算可以获得解,即存在着运用数据进行计算而获得的解。没有数据,无法计算;有数据却没有计算解也无法计算。通俗地说,运用计算机不是为了计算,而是为了运用计算机的算力更有效率地获得计算的解。


第三,算法是一系列问题和求解数学模型的集合。从一个人的算法到一座城市的算法,在数量规模扩大的同时,算法也完成了它的华丽转身,从一个数学模型变成了无数个数学模型,且无数个数学模型之间不是独立的,相互之间不仅有关系,而且关系还异常复杂,可能形成有条件的、多层次卷积的、多卷积关联网络的或更加复杂的关系,且模型之间的关系不仅有结构,还有时序,结构与时序之间还不是确定的。以前置算法为条件的算法以及人类对计算效率的追求,还促进了算法的自我迭代,即以算法为数据而改进算法。而算法不仅与算法交互,也与人类行为或事物的发展变化交互。


第四,算法是由代码连接且结构化的一系列问题和求解数学模型的集合。通俗地说,任何由计算机执行的指令都是代码。复杂算法的代码量可以多达数亿行,可代码向计算机传递的每一条指令却只有一个动作,做或不做,再复杂的数学模型都需要将其转化为向计算机传达的简单指令。复杂的简单也因此变成了复杂的复杂的一部分,计算机代码也因此成为了算法的有机组成部分。实现算法代码化的不是别人,正是人们将数学模型转化为结构化的计算逻辑和被称为电子计算机鼻祖的图灵将计算逻辑转化为可由计算机执行的指令逻辑,其中,每一条指令都以代码形式呈现。在算法代码化的进程中,代码的确是规则,代码的确在指示计算机做或不做。由此推演下去,表面上,正是由代码携带的简单指令构成的复杂算法影响着计算结果的输出,带来了文献关注的算法侵害、算法风险、算法权力、算法规则。


综上所述,如果仅从技术上观察,算法不过是面对理论和现实问题的数学求解过程,只是因为求解面对的复杂性超出了人类生物属性的能力范围,人们创造出一种机器,且机器能够理解人类将复杂求解过程简化为做或不做的机器指令,交给机器去求解而已。通俗地说,理解当下热议的算法治理,我们必须认识到,算法对人类社会的影响是随着第一台可编程电子计算机和第一种计算机编程语言的出现而出现的,随着计算机和计算机科学的发展,算法才真正开始在解决人类问题的需求中发挥核心作用,从初期的军事和科学领域,到商业和管理领域,再到当下的日常生产和生活领域,算法的影响随着算法应用的拓展和对人群覆盖性的扩大而呈现。只是,从解决问题的需求到问题解决的数学求解,从极为简单的数学求解到数学求解之间的关系结构化、复杂化、动态化,算法已经不再简单如出租车司机的行车路线运筹,在数字时代,算法已经转型为一系列关系和关系动态的代码化,问题、模型、代码已经成为算法的内核。


三、算法治理的行动选择


如果说数字连接、数据丰盈、人类必备是算法影响的三项必要条件,问题求解对能力的要求超出人类生物属性的极限是算法影响的充分条件;那么,在人类跨入数字时代、中国进入数字发展加速期的当下,算法又如何产生影响呢?我们认为,只有理解算法影响人类的机理,才能从出发点找对算法治理的方向。


既有文献对算法影响社会的机制认识大致可以归结为两个本质性的争议。第一,算法是中立的还是有偏见的?斯廷森指出,人们以为算法是中立的,干净的数据和良好的意图可以消除偏见,其实,算法并不是中立的,除了有偏见的数据和算法生产者以外,算法自身也会产生偏见。这种偏见不一定来自于数据,也不一定来自算法生产者,而是来自于机器学习的进程,算法在不断的迭代中从用户对算法推荐的响应中进行学习,创建着针对用户的选择性偏差,即偏见。这些偏见不仅具有统计学意义,也会带来不同类型不同程度的算法侵害后果,而算法决策的普遍性会让算法侵害对人类社会构成侵害。


第二,算法是人类意志的产物还是自主自为的?认同“算法即规则”观点的研究者认为,算法已经作为独立行为主体参与人类生产、生活,算法规则也外化为社会行为规则,对人类产生深度影响。有人甚至认为,算法的自主自为性形成了算法利维坦,成为建构人类环境的重要乃至决定性的力量,不仅每一位社会成员正逐渐在成为算法的附庸,国家权力运行也在日益依赖算法,社会的技术理性至上实践建构了算法的绝对权威。


在探讨算法治理行动之前,我们认为有必要针对算法影响机制的争议进行澄清和回应。一项对谷歌图片算法的研究,对4个以上种族所有年龄段的4万多张面孔的算法展开的审查显示,谷歌图片算法再现了白人男性父权制结构。研究团队借鉴布迪厄的文化再生产理论对算法进行再培训。结果显示,经过再培训的算法呈现了算法对社会文化实践的刻画,改善了之前呈现的社会歧视。


这项研究告诉我们,如果代码生产者以客观为由,真实地拟合社会现实,那么,算法的确会携带偏见,进而制造算法侵害。复刻部分人群(如代码编写者、数据汇集者等)的社会歧视和刻板印象,不只是将现实社会的社会歧视和刻板印象算法化,还意味着将部分人群的社会歧视和刻板印象通过高度互联的社会网络传递给不明真相的用户,因此也不再只是布迪厄意义上的文化再生产,而是对社会歧视的扩散与传播,甚至是社会歧视的教唆。


对算法再培训带来的算法改善则清晰地说明,第一,算法侵害看起来是算法偏见制造的,实际却是编写算法的人群制造的,算法只是做了算法可做的事:有效率地运行代码,为人类提供计算结果。无论是通过算法迭代还是自编码,算法都只是放大人类在初始阶段植入的偏见和规则,而不是算法自主自为地形成偏见和规则。以为算法存在独立于算法生产者之外的偏见或规则,以为算法不再是人类生产的产品,其实是一种方向性的误解。第二,算法并不具有自主自为性。算法的确可以自我改善,自己编写代码,可是算法却没有自带偏见、也没有自造规则,即使有偏见、有规则,也是人类将自己的偏见和规则变成算法代码形成的偏见和规则。没有人类输入的第一行代码,便不会有算法的其他代码,算法的自主性自为性便失去了载体,也根本没有机会。第三,支持算法偏见和规则影响力的不是算法本身,而是对算法的运用。算法的个体应用不会对其他人群产生影响,算法的平台化运用则是促成算法影响力的机会和力量,无论是算法偏见、算法规则,还是其他。当然,算法的平台运用并非只是出租车司机头脑里的交通路线运筹,而是更广泛的行动关系(复杂算法、网络算法),一方面是面对问题的技术解决方案,另一方面是平台组织与技术解决方案的关系体系。同时,由于技术解决方案和平台都是面向用户的,庞大的用户规模又具有社会性,最终形成的是技术解决方案、平台组织、社会之间的不仅关涉生产效率,还牵扯社会平等的综合关系体系。


如此,算法治理的方向选择直接摆在了我们的面前。第一,算法不具有自由意志,算法是人类行动的产出。因此,算法治理是针对人类生产算法的行动治理。第二,算法治理一方面是针对算法偏见的治理,另一方面也是针对算法平台运用的治理。算法治理的目标,前者是为算法纠偏,后者则是约束算法运用的方向和范围,以期最大限度地减少算法偏见带来的算法侵害,维系和促进社会平等。


算法治理发端于美国,美国如何应对算法侵害呢?直接的答案是,问责模式,问责对象是有潜力让算法产生广泛且深刻影响的算法生产者和使用者,问责内容包括算法内容和非算法流程,问责的主体是政府或第三方。美国把因算法偏见带来的不良社会后果直接归责到算法生产者和使用者,而没有归咎于算法自身。


虽然欧盟与美国一样在形成算法治理的逻辑闭环,却在实践中从数据保护入手,建立了保护个体、组织不受算法侵害的防御性治理框架和法律制度,在算法治理理念上则已向美国靠拢,即采用政府和第三方问责模式治理算法可能带来的侵害,且将算法侵害责任归咎于算法生产者和使用者。


算法的复杂性使得算法自身始终处于迭代之中。换句话说,在生产和生活中运行的算法不是一个确定现象,而是一个动态。算法的实时迭代意味着对算法代码进行实时督导和审查需要具备与算法生产和使用相当或超越的技术能力。仅此,便意味着在技术上不可行;或者即使可行,至少也是艰难的和代价高昂的。对超出能力范围的技术过程进行监管,需要跳出技术和技术过程本身,寻求算法治理的关键节点和效率节点。那么,算法治理的关键节点在哪里呢?


算法的生产是一个过程,从算法设计、代码编写到算法产品;算法的应用也是一个过程,从算法部署、算法迭代到算法产出。如果沿着算法的生产与应用逻辑和流程进行治理,可以称之为过程治理。一旦算法投入应用并达到足够的规模,算法便会产生相应的社会后果,包括算法偏见。如果针对算法的产出展开治理,可以称之为结果治理。算法治理的社会特征在于过程治理的不可行性或代价高昂以及结果治理的简单易行,是故,算法治理的关键节点便已不言而喻,那就是,针对算法结果进行治理。


算法问责便是对结果的治理,也显然采用了删繁就简原则。第一,在法律上约定算法可追责性。要求算法透明、算法解释、数据证据化等,正是为结果可追责提供事实前提和法理逻辑前提。第二,在规则上约定算法责任实体性。尽管算法即规则,可算法规则只适用于计算过程,不适用于外化的社会过程,算法生产者和使用者才是算法的责任主体,即算法的责任主体是人或人的集合体,不是算法自身。


作为数字时代三方国际力量之一的中国,从1994年制定第一部相关行政指令《计算机信息系统安全保护条例》到目前,中国共出台了60多部相关法律法规和行政指令。从时间顺序来看,可以认为中国的算法治理是从总体安全出发的。遗憾的是,到此为止,中国的算法治理只有目标,相关法律法规尚没有像欧美那样形成从治理理念到判例实践的闭环,其中,尤其是还看不出算法治理的法治理念,更没完成算法治理的司法证据化约定。


如果说算法偏见带来的算法侵害是算法治理面对的核心问题;那么,在给定算法偏见人因化或组织化,给定算法技术处于不断迭代且动态演化的场景下,实施算法治理的行动选择其实不多。


第一,鉴于算法的技术复杂性和动态性,约定算法透明是让算法可以作为算法审查和追责的前提,却不是实施算法监测的理由。如前所述,算法的技术迷思已经宣告了算法监测的低效率和高成本,因此,过程治理不是算法治理的可选项。可是,针对过程的治理要求却是其他治理选项的必备条件。


第二,如果我们把算法安全风险理解为算法侵害的一个类型,则结果治理即使不是算法治理的唯一选择,也是有效选择。防范风险是保障安全的一种策略,治理侵害则是防范风险的明智之举。在算法无处不在且覆盖广泛而深刻的数字时代,算法已经成为人类生产和生活的环境,这也意味着算法风险时时刻刻无处不在,而不只是学者们列出的个体、组织、国家,政治、经济、社会的风险。对时时刻刻无处不在的风险,优化的行动选择是治理出现的侵害并将其作为未来可能的风险源,而不是治理出现概率极小的、可能出现侵害的预设风险。


第三,算法侵害的人因化意味着治理行动的对象是算法的生产者和使用者,而不是算法。在相当长一段时间内,支持通用人工智能的算法还不会出现,算法依然是人类的产品,即使算法具备学习能力,第一行代码依然是人类编写的。因此,算法治理的关键是约束算法生产者写对第一行代码,约束算法使用者用对第一行代码,问责模式至少是当下可行且有效的治理模式。


第四,鉴于算法的生产者和使用者以及对人类构成广泛且深刻影响的主要是平台组织,把算法治理纳入平台治理、作为平台治理的一项内容,在形成成熟的算法治理进程中至少可以作为一项过渡性的行动选择。的确,平台组织汇集了人类的代码精英,用问责模式敦促平台组织约束代码精英在代码生产中融入人类的积极价值观,融入人类共同的伦理,融入保障人类平等的相关法律和法规,可以从源头治理算法偏见,预防算法侵害,进而最大限度地降低算法风险。

上一篇:湖南智库:政务大数据“热”的冷思考
下一篇:没有了