合成数据的虚假承诺与真实风险-太阳集团tcy8722

 合成数据的虚假承诺与真实风险-太阳集团tcy8722
太阳集团tcy8722  > 文学·副刊

合成数据的虚假承诺与真实风险

2024-10-17 15:23:34 来源:法治日报·法治周末

智道

栏目主持人:於兴中

即便技术企业在创建合成数据时实施的收集和处理数据的行为可能侵犯隐私,监管者也难以有效识别,甚至可能面临审查上的“不能”


黎娟 詹凯漫

合成数据,也被称为虚拟数据,是通过模拟现实数据的统计特性和结构特征,或者依据现有的模型和专业知识而创造的数据。在生成式人工智能迅猛发展、全球高质量语料资源日益稀缺的时代,合成数据备受青睐。

合成数据具有两大核心优势:一是能够丰富训练数据的多样性,二是有利于隐私保护。合成数据技术不仅能够创造出传统数据收集方法难以获取的各类训练数据,包括罕见病例和极端气候条件数据等,还能够在生成过程中利用匿名化技术切断数据与个人身份之间的直接联系,从而确保个人隐私安全。

然而,当数据涉及身份识别信息、生物识别信息、行为信息等敏感信息时,人们对合成数据技术的安全性会有更高的期待。因此,合成数据治理领域涌现出一些新的议题:合成数据如何在敏感信息领域内确保数据的实质多样性,从而有效预防算法歧视?怎样确保合成数据在敏感信息领域内的隐私保护是合法、充分的?

合成数据的技术机遇与虚假承诺

谷歌deepmind在《自然》期刊上发表的一项最新研究成果表明,在不涉及敏感信息的领域,合成数据技术的应用为提升模型能力开辟了新的可能性。该研究展示了一款完全依托合成数据集训练而成的欧几里得平面几何定理证明器——alphageometry。

在面对包含30个最新奥林匹克级几何问题的测试集时,alphageometry成功解决了其中的25个问题。这一成绩超越了此前的最优方法。这也意味着,alphageometry的表现几近于国际数学奥林匹克(imo)金牌获得者的平均水准。

然而,当合成数据被应用于与“人”相关的敏感信息领域时,它却带来了数据多样性和隐私保护上的“虚假承诺”。

以微软的facesynthetics合成数据集为例,微软声称该数据集是基于511个真实人脸特征的扫描而构建,但在样本构成中,黑人男性样本仅占5.9%,其他族裔样本的占比更少。这种样本选择意味着数据集潜藏算法歧视的风险,微软所标榜的多样性其实名不副实。

另外,尽管该合成数据集声称在技术上实现了对原始数据的匿名化处理,但仅凭这一处理手段并不足以全面保障数据主体的隐私权益。隐私保护不应仅依赖于匿名化技术的应用,而应该涵盖更广泛的方面,包括数据集的合法获取、数据处理的透明度,以及在收集和处理数据时获得数据主体的充分知情同意。

合成数据制造的“多样性欺骗”

“多样性欺骗”衍生于合成数据的生成过程。合成数据由原始数据派生而来,在此过程中,原始数据本身存在的多样性不足或者内含偏见等问题,可能在生成合成数据集时被复制,并在使用合成数据集训练ai模型时被进一步强化。

具体而言,一些数据集数量庞大、类别丰富,为生成合成数据提供了多样性基础,但这种多样性无法抵销其固有的数据偏见。imagenet是机器学习和计算机视觉领域中最著名的数据集之一,包含了超过1400万张标记图像,这些图像被细致地分为超过两万个类别。其中,“person”类别包含了数千个子类别,涉及种族、国籍、职业等多样化信息。

然而,imagenet数据集是根据图像内容的表面特征进行标注的,而不是以更深层次的语义理解作为标注依据,这导致一些标签与图片内容不匹配,或者过于简化原本复杂的人类特征和行为。

例如,一个微笑的女性被错误地标记为“荡妇”,一个喝啤酒的年轻人被标记为“酗酒者”,而一个戴墨镜的孩子被标记为“失败者”。可以预见,当imagenet数据集用于生成合成数据集时,原始数据本身含有的偏见将不可避免地在创建后的合成数据复现,甚至在应用中被进一步放大。

值得注意的是,技术企业常以“全新合成”“中立”“无歧视”等语言来描述合成数据集,以突显合成数据与原始数据无关。然而,这种刻意的渲染恰恰可能是为了掩盖合成数据可能继承原始数据存在的偏见的事实,从而导致固有偏见的加剧。

正如社会学家鲁哈·本杰明在批判“技术中立性”假象时指出,现代技术常被标榜为客观和进步的象征,但往往通过原始数据、生成方式等媒介,使原本根深蒂固的种族偏见和社会歧视被复制甚至放大。

合成数据诱发的“隐私侵犯”

对合成数据所声称的“匿名化”特性的过分强调,可能引发隐私侵犯的风险。当前,不少技术企业宣称,通过匿名化技术处理的合成数据与原始数据不存在直接关联,因此,在创建合成数据的过程中,没有必要获取数据主体的明确同意。

然而,这种将“匿名化”等同于隐私安全的观点是站不住脚的。事实上,合成数据的匿名化并不是确保数据主体隐私安全的充分必要条件。确保隐私安全还应当保障数据主体对个人信息收集情况及使用情况的知情权。任何未经数据主体同意处理个人信息的行为,包括将其用于生成合成数据的行为,都是对数据主体隐私权的侵犯。

不过,即便技术企业在创建合成数据时实施的收集和处理数据的行为可能侵犯隐私,监管者也难以有效识别,甚至可能面临审查上的“不能”。这具体表现在:

第一,监管者难以追踪原始数据的同意状态。这一难题的根源在于算法处理的复杂性,它使得合成数据的属性和来源变得难以辨认。当原始数据的收集未能获得数据主体的明确同意,或者同意的对象不够明确时,合成数据的生成可能会进一步混淆同意的界限。这种模糊性导致监管者难以确定数据同意的具体范围,进而无法准确判断原始数据的同意状态。在数据滥用或隐私泄露等事件发生时,监管者若无法依据同意规则来追究过错方的责任,并对受害者提供适当赔偿,将严重削弱数据保护法规的效力。

第二,监管者难以审查数据处理的混淆行为。由于技术企业可以将合成数据设计得与真实数据极其相似,并将合成数据与真实数据混用,这使得部分未经同意的真实数据被滥用,从而引发隐私侵犯的风险。在没有额外信息的情况下,监管者无法区分真实数据与合成数据,也难以对合成数据背后的混淆行为作出有效的审查。相比之下,技术企业则可以利用真实数据与合成数据难以验证的特性,混用两种数据,以规避监管者的审查。

第三,监管者难以确认技术企业已彻底删除侵权数据。美国《联邦贸易委员会法》规定,模型创建者如果通过不公平行为或者欺骗性行为收集与公民个人信息相关的数据,将面临模型删除、数据删除、罚款等处罚。相应地,联邦贸易委员会不仅可以要求删除侵权数据并通知受影响的数据主体,还可以要求删除所有“受影响的工作产品”,包括基于该数据训练的模型。该规定表明,监管者意图采用“模型删除”的方法,阻碍技术企业从不公平、欺骗性的数据收集行为中获利,并从根本上杜绝对侵权数据的二次使用。不过,在实践中,由于合成数据的生成与应用通常涉及多个模型,并且模型之间存在复杂的依赖关系,这就使得监管者难以准确定位哪些模型使用了侵权数据。另外,随着数据集的不断扩充以及数据的多次处理,侵权数据逐渐变得“无迹可寻”,因此,即便技术企业宣称已经删除了涉及侵权数据的模型,监管者也无从复查和确认。

构建群体参与的数据治理框架

合成数据的生成与应用不是一个单向的过程,而是一个多方群体共同参与、共同决策的过程。在此过程中,数据主体作为关键的利益相关者,应当充分参与到合成数据生成与应用的各个环节,以维护其正当的数据权利和利益。技术企业作为数据处理者,必须遵守数据治理规则,并在数据主体的授权和控制下负责任地处理数据。

然而,当前合成数据生成和应用中一个突出的问题是数据主体参与不足。研究表明,合成数据生成与应用过程往往由大型技术企业主导,而数据主体在此过程中常常被边缘化。这种状况的出现,部分原因是大型技术企业掌握了合成数据生成的关键技术和大量数据资源,从而占据了优势地位。与此同时,数据主体由于缺乏必要的信息和参与渠道,难以充分参与到这一过程中。

尽管如此,数据主体不应被排除在外。作为合成数据的信息所有者,数据主体有权参与合成数据的生成、应用和决策过程,以维护其合法的数据权益。为了实现这一目标,需要确立以群体参与为治理理念的数据治理框架。

一方面,群体参与有助于建立对合成数据的信任,消解“多样性欺骗”风险。群体参与的治理理念要求不同背景和身份的群体参与合成数据的生成过程,尊重并体现多元文化特征,以更加真实地刻画社会的多样性,从而增加合成数据集的实质多样性。

另一方面,群体参与有助于获取明确同意。群体参与对数据收集、使用和处理的要求更高,技术企业需要明确数据处理的目的和方式,使得数据主体在充分理解合成数据的前提下作出同意与否的决定,从而确保数据的使用建立在数据主体充分知情同意的基础上。

(作者分别为中南大学法学院副教授、中南大学法学院硕士研究生)

责编:尹丽

——法治周末
太阳集团tcy8722的版权所有 太阳集团tcy8722 copyrights © 2014-2023 www.legalweekly.cn all rights reserved 《法治周末》
网站地图