如何实现可信AI？

摘要
尽管对可信AI稳健性、可解释性、隐私保护和公平性的四项基本技术原则学界已达成了共识，但已有研究指出目前的技术尚无法实现这四项原则的和谐统一。实现可信AI不能将这四项原则割裂看待，而需要针对构建一体化研究框架，以保持不同原则之间的最优动态平衡。除了在技术上实现这四项原则充满挑战，在治理层面上可信AI也还处于一个初期探索的阶段，具体细则仍需进一步明确。

图源：https://us19.campaignarchive.com/?u=eaeece823e606d2458a568db9&id=df29be1ff7

伴随着人工智能应用逐渐渗透各个行业，其自身技术的不完善以及监管体系的缺失带来了一系列问题。例如，自动驾驶事故频发，电商平台的大数据杀熟现象，聊天机器人使用歧视性语言，AI换脸带来的新型诈骗手段。这些由AI引发的风险隐患引发了人类对这项新技术的信任危机。在用户对人工智能服务逐渐失去信任的背景下，构建可信AI是实现人工智能在日常生活大规模应用的前提。可信AI不仅仅是AI面对的技术问题，同时也是一个深刻的社会问题。虽然仍处于发展早期，各界已达成共识，实现可信AI既需要底层的技术支持，也要需要顶层的治理规范。

一、可信AI的基本原则
欧盟委员会发布的《可信赖人工智能道德准则》提出了7个可信AI的关键要素，即人工能自治的治理（人的监督）、技术强大性和安全性、隐私和数据治理、透明度、多样性、非歧视性和公平性、社会和环境福祉以及问责。美国国家人工智能倡议（American AI Initiative）将可信AI定义为具有“准确性、可解释性、隐私性、可靠性、稳健性、安全性”等特征的AI。经合组织（OECD）《确定OECD的人工智能发展原则》报告将创新和值得信赖的人工智能定义为包括：尊重人权和民主价值观；为包容性增长制定标准；以人为本的价值观和公平性；透明度和可解释性；稳健性、安全性；以及问责制。在可信AI发展的早期阶段，尽管国际各界对可信AI的具体定义略有不同，但其核心的原则都包括了稳定性、可解释性、隐私保护和公平性这四项基本技术原则。稳健性指AI能在存在各类环境噪声以及恶意攻击的情况下做出正确决策的能力；可解释性是指AI作出的决策需要让人能够理解；隐私保护指AI系统保护个人或群体隐私不被泄露的能力；公平性指AI系统需要包容人的个体差异，公平对待不同群体。

澳大利亚科学院院士、京东探索研究院院长陶大程指出在这四项基本技术原则已成为各界共识的背景下，如何找到合适的标准来量化这四项原则成为了可信AI目前亟待解决的技术难题。若能对这四项原则进行定量分析，也将有助于相关治理条例的规范与完善。目前，稳定性可以通过各类攻击算法的攻击成功率或攻击性能来衡量; 可解释性可通过失真度、敏感度以及用户满意度来衡量; 隐私保护能力常通过差分隐私法来刻画，也能通过各类隐私攻击算法的攻击成功率或攻击性能来评估; 公平性可使用个体公平性及群体公平性指标来进行衡量。实现可信AI需要将这四项技术原则作为一个整体看待，从技术和治理上层面上同时开展研究。

二、可信AI的技术基础
尽管这四项原则各有其技术支持，越来越多的学者认识到需要重视这些原则间的相互联系，将它们作为人工智能产品的全生命周期中始终需要实现的原则。一个典型的人工智能产品的的生命周期可以被划分为数据准备、算法设计、管理部署三个阶段。在每个阶段对这些原则的考虑，激励了实现可信AI的技术探索。
数据准备对人工智能系统的设计都是从数据源的选择、设计、整理完善开始的。多项研究发现，由于用于训练算法的数据源本身就带有偏见或歧视性，因此造成了算法对特定人群的歧视事件。而这些存在于数据源中的偏见却并非总是显而易见。例如，美国早期的预测性警务算法虽然并未使用种族的数据，但种族主义却通过种族相关的地理数据(如邮政编码)悄悄影响了算法结果。
那么，如何在数据准备阶段实现可信AI？最近，斯坦福大学计算机科学系李飞飞等人在《自然-机器智能》上共同发表的文章在AI数据全流程的各个环节上讨论了如何评估、筛选、清洗和注释用于训练和测试AI模型的数据。例如，为了避免数据源中存在历史性偏见以及个人数据涉及的隐私问题，可以使用计算机自动创建的合成数据作为现实世界敏感数据的代替品。合成数据不仅可以做到使数据源中所含数据更加多样化从而增强算法的泛化能力，而且可以避免披露隐私信息以满足合规要求。合成数据的技术目前已被逐渐商业化，在自动驾驶和医疗保健这两个对数据需求量巨大、对数据隐私要求高的领域得到了广泛使用。为了实现可信AI的基本原则，除了在数据收集阶段使用合成数据外，常用的数据预处理手段还包括异常情况检测、恶意数据预清洗以及数据匿名化。
算法设计如果说数据是人工智能系统的血液，那么算法设计便是其骨架。目前与可信人工智能相关的研究为增强算法的稳健性、可解释性、公平性和隐私保护提供了大量的设计实践。可通过设计具有一定解释性的算法或为黑箱算法提供事后可解释方法来实现算法的可解释性。通过对抗性训练，即在自然样本上添加微小的扰动而形成的对抗样本来训练AI模型，从而提升模型对于特殊构造的攻击样本的干扰，实现算法的稳健性。通过加密算法设计、差分隐私技术、安全多方计算实现隐私保护。通过人为降低算法对于敏感数据的依赖，可避免对特定群体的明显歧视。通过对算法的人为监督，在训练阶段发现算法可能产生的歧视风险。
管理部署在完成算法设计后，对于投入使用算法的管理应重视风险的发现和控制。通过对人工智能系统定期的审计，来确保其使用过程中对可信AI原则的遵循。通过审计发现的问题，应该被及时地改进。对公众适当的披露算法审计结果，也被视作获得公众信任的有效方法。另一方面，也要确保系统内置紧急关停功能。在突发情况下，能够人为的终止人工智能系统的服务，实现对紧急风险的有效控制。微软、谷歌、IBM也通过内设负责AI伦理践行的机构来进行对算法的内部审查，实现可信AI原则的落地。
三、实现可信AI充满挑战
尽管对可信AI稳健性、可解释性、隐私保护和公平性的四项基本技术原则学界已达成了共识，但已有研究指出目前的技术尚无法实现这四项原则的和谐统一。若只考虑一方面的要求则会造成其他要求的冲突。在特定场景下，稳健性和公平行可能会相互冲突。例如，提高深度学习稳健性的对抗性训练已被证实会在不同群体之间引入显著的性能和稳健性差距，以牺牲模型的公平性为代价来提高模型的稳健性。因此实现可信AI不能将这四项原则割裂看待，而需要针对构建一体化研究框架，以保持不同原则之间的最优动态平衡。除了在技术上实现这四项原则充满挑战，在治理层面上可信AI也还处于一个初期探索的阶段。尽管各国对于实现可信AI有一定的政策建议，但明确的统一治理框架尚未形成，具体细则也仍需进一步明确。学术界和企业的技术创新为可信AI提供了基础的技术支持，而政府对可信AI治理的探索则为技术研究指明了方向。实现可信AI仍然前路漫漫。正如旷视联合创始人兼CEO印奇所言：“AI不仅要在技术创新和应用落地上下功夫，也需在治理上使力气，这离不开所有AI从业者和社会各界的共同努力。”

刊物介绍

《人工智能资讯周报》探讨人工智能对公共政策、治理和政策建议的影响，探索人工智能对商业、政治和社会的影响，以确定潜在的研究领域，探讨可能的合作研究和机构伙伴关系。本刊着重提供中国人工智能发展动态和对人工智能的思考，同时关注全球范围内人工智能相关研究动态。本刊旨在通过可靠的研究，来帮助企业、研究机构和公民预测和适应技术引领的变化。

人工智能