大数据如何破解腐败
推动数据驱动型反腐的三种方法
世界各地的新闻证实了数据能为促进反腐行动带来极大的机会。但是,如果没有进一步的支持,这一前景将无法完全实现。具体而言,可以通过三种方法来实现数据在全球反腐行动中的最大潜能,即便是在贪腐长期存在且数据搜集和分析能力普遍偏弱的发展中国家。
第一,提高数据的质量和覆盖范围。只有当输入的数据可靠且来源广泛时,先进的分析工具才能提供有用的见解。关于数据方案的公共讨论倾向于强调传播(开放数据)和使用(大数据),却忽略了数据的产生。如果我们要在决策时更重视数据,我们就应该从一开始就在意数据的质量。政府应能够生成、收集和传播高质量的官方统计数据,并维护可及时生成可靠数据的有效管理登记系统。
在覆盖范围方面,数据的可用性和整体经济水平有着密切的关系。大多数发展中国家的整体情况和发达国家形成了鲜明的对比:电子政务不够发达,互联网普及率和数字化能力较低,某些地区的电网不可靠甚至根本就不存在。因此,这些国家产生的数据较少,也未能广泛传播,这有可能导致不平等现象长期存在和造成社会排斥的风险。首先,基于数据的决策可能偏向于有数据可用的区域,而忽略没有数据的区域。其次,基于数据的问责机制可能会缺乏效力。无法上网的公民不能查阅在线发布的采购合同或学校绩效排名,也无法做出决定。以上风险提醒我们,需要继续努力扩大宽带覆盖范围,向公民提供基础的计算机和互联网技能培训,提升他们使用透明度高的门户网站等政府监督工具的能力。
提升数据的覆盖范围和公开性,特别是用于反腐,可能会在发展中国家遇到较大的政治阻力,特别是在那些公共机构能力有限及政府机构自主性受限的国家。在权势阶层眼中,即使是像普查数据这类基础信息的传播都可能会影响到他们的利益。例如圭亚那禁止在2015年的总统大选前公布2012年的人口普查数据(显示了重大的人口变化),起因就是担心公布该数据会带来的政治影响。而在反腐行动中更敏感的信息,比如收入和财产申报以及公共部门合同的细节,自然会面临更大的阻力。考虑到权势阶层认为发布数据可能带来的风险,以及支持开放数据的政治势力的相对实力,开放数据和大数据的影响或许在最需要这些数据的地方仍然会非常有限。
第二,培养政府的数据分析能力。为了发挥大数据和开放数据在反腐方面的潜力, 政府必须建设自身能力,以产生有用的洞见并将其融入政策制定和实施过程中。政府自身的技术能力对反腐的可持续性非常重要。虽然将某些具体任务外包给企业或许是有效的解决方案,但算法和软件通常具有专有性,这意味着一旦这些企业离开(或将价格提升到无法接受的高度),政府就无法升级、修改或扩展方案。与此同时,政府在吸引和保留数据分析师方面也遇到了困难,因为他们即便是在私营部门也是稀缺资源。考虑到人才的普遍缺乏,拥有专业技术的数据人才通常会同给出最好待遇的雇主签约,而政府很少能提供这样的待遇。
在一些国家,政府创新实验室也在为应对这些挑战提供帮助。它们不仅为有志于公共服务的数据专业人员提供具有吸引力的就业机会,而且还拓展了大数据在政府的应用领域,这类拓展从描述性分析开始,并越来越多地转向预测性分析和某些规范性分析。这些实验室可将政府的投诉和检察系统同政府的反腐机构联系在一起,从而制定惩治措施。在此方面的典范包括丹麦和英国,它们专注于通过孵化创新方案和利用数据来完善政策。在拉丁美洲,智利、哥伦比亚、墨西哥、巴西和乌拉圭等国家,以及布宜诺斯艾利斯、墨西哥城、基多和蒙得维的亚等城市都建立了这样的实验室。
对于调查组织和检察机构,它们的数据分析能力还存在重大差距,大数据可在此方面提供很大的帮助,特别是反腐机构应通过建立反腐实验室来提高其分析能力。例如在巴西,联盟总审计长办公室在2008年建立了公共开支观察站(Observatorio da Despesa Publica),为发现可疑交易和制止腐败行为提供帮助。它将采购支出数据与其他政府数据库进行交叉检查,从而识别出那些不能作为非法行为的直接证据但需要进一步审查的非正常情况。
更重要的是,数据分析若要对公共政策的设计和实施产生影响,就必须更直接地融入政策制定过程中,这样官员才能专注于正确的问题,选择合适的问题来寻求数据的帮助,并在政策制定过程中做出回应,从而实现反腐败改革。虽然数据分析可提高政府的监督、洞察和预见能力,但它不能取代经验丰富的决策者的深思熟虑,也不能在进行更大程度整合的情况下改善决策。如《经济学人》最近指出,“算法可以帮助人们做出决定,但不能为人们做决定”。
当然,单单凭借大数据无法解答所有问题,也无法应对所有政策挑战。有效的大数据反腐策略将确定应重点注意的政策问题,以及应向数据提出什么问题,其更大的目标是设计最有效的改革来解决腐败的根本原因。此外,还需要国际发展实践者所称的变革理论——实现既定目标所需的先决条件、行动、预期结果和相关假设的计划——用以指导对数据的研究。在此方面的主要挑战是从大量的描述性分析转向规范性分析,后者在政策层面上更容易付诸实践。更具体地说,反腐分析必须同一国的廉政体系(包括投诉机制、调查与检察机构)相联系,才能产生第一时间防止腐败的纠正措施。
第三,使数据分析更加透明,并扩大其作用范围。任何需要高度专业技能的工具都面临只有少数人掌握的风险,大数据也不例外。正如非营利性民间新闻网站“为了人民”
(ProPublica)的记者茱莉亚·安格文(Julia Angwin)在《纽约时报》一篇专栏文章中要求的那样,大数据运动需要通过揭露决策过程来“让算法变得通俗易懂”:数据来自何处?支持计算的假设是什么?不同数据点的权重为多少?用于确定危险的阙值是多少? 算法必须接受核查,从而避免数据产生或存在偏见。必须有保留地看待从数据探索和推断中得到的结果,并谨记相关性(不管暗示性有多么强)并不能确定因果关系。
此外,大数据运动的反腐行动若要有可信度,就必须更积极主动地应对企业部门的风险。巴拿马文件带来的愤怒加剧了提高国际税收和企业透明度的压力。一些创业项目正在应对这一挑战。数字平台“开放企业”(Open Corporates)正在通过汇集政府和企业公开的数据,打造一个开放数据库,其内容包括全球所有注册公司的全部实益拥有人(不一定具名出现在公司所有权证上,却分享公司收益的实际所有人)。该数据库目前涵盖来自115个不同司法管辖区的1.1亿多家企业的信息。
此外,致力于根除腐败的公司内部审计人员越来越多地使用数据分析来调查采购和 支付模式中的交易,检查违规情况,识别非法资金流动等可疑交易。安永会计师事务所2014年发布的一份报告强调了司法鉴定技术在私营企业管理合规性和减少欺诈风险方面的相关性。
某些经济部门极易受到腐败的影响,从而为大数据运动提供了特殊机会。例如在石油、天然气和采矿行业,咨询公司“开放石油”(Open Oil)推出了一款搜索引擎,可以从4万多家采掘公司获取关键的企业数据,包括所有权、合同和特许权信息。这些数据库解决方案正在逐渐改变行业的运营环境。在腐败的另一个高风险部门房地产业,也可以采取进一步的措施如公开房产登记来确定高价值房产的真正受益人。