发布于: May 17, 2023

生成式 AI(Generative AI)的兴起,给定义、衡量和消除公平性、合规和知识产权等方面的问题带来了全新挑战。但是,越来越多的企业已经开始研究相应的解决方案。”

Michael Kearns
Amazon Scholar、宾夕法尼亚大学
计算机信息与信息科学系教授

Michael Kearns

近几年,甚至是最近几个月,生成式 AI 技术取得了显著性发展与进步。生成式 AI 基础模型是在大规模文本、代码、图像和其他内容的数据集上进行训练的。现在,它们能够按需生成连贯、引人入胜的故事,新闻摘要,诗歌,歌词,绘画作品和程序等。我们相信,生成式 AI 的潜在应用场景才刚刚开始被发掘,会有涉及多个方面并兼具革命性的场景迎来爆发式增长,其中包含写作辅助、创意内容生成和提炼、个人助手、广告文案撰写、代码生成等。

因此,人们对于生成式 AI 带来的转变和新机遇感到兴奋。但同时,也伴有一些担忧——其中一些是传统负责任的 AI(如公平性和隐私性)的新转变,还有部分是真正的新问题(例如对艺术或文学风格的模仿)。在本文中,我们研究了这些问题以及它们如何随着时间推移得到解决。

我们主要关注了消除风险的技术方法,同时承认社会、法律、监管和政策机制也将发挥重要作用。在亚马逊云科技,我们希望此类兼具平衡性的方法可显著降低风险,同时仍然保留生成式 AI 的许多激动人心和有用的特性。

生成式 AI 中的“生成式”是指:该技术可生成开放式内容,内容会在重复尝试后不断变化。因此,对于生成式 AI 生成的翔实、极富创造性和开放式内容,我们为此付出的其中一个代价是,与传统预测机器学习相比,定义、衡量和落实公平性的困难度更高。

同样地,我们需要考虑隐私问题。生成式 AI 具备的开放性扩大了大众的关注范围,从一字不差地泄露训练数据到更微妙的复制现象。例如,如果程序员使用特定变量名称编写部分代码,然后要求大语言模型帮助编写子例程,大语言模型会从训练数据生成代码,但程序员选择的变量名称也将替换原始变量名称。当然,训练数据虽包含生成的代码,但也只是外观略有不同。

市面上,现有一些针对这些挑战的防御措施,其中包含管理训练数据、排除私人信息,以及检测代码段相似性的技术,但更微妙的复制方式也可实现。传统机器学习虽已开始开发可解释训练模型的决策或预测的技术,但并非始终适用于生成式 AI,其中的部分原因是现有生成式模型偶尔会生成无法解释的内容(例如实际不存在的科学引文)。

对于生成式 AI 而言,日常关注负责任的 AI 领域愈发困难,生成式 AI 也带来了挑战。我们来讨论以下这些方面的内容。

▌违规。生成式 AI 的主要问题是生成冒犯、令人焦虑或其他不当内容(无论是文本、图像或其他形式)的可能性。而且,甚至难以定义和确定问题的范围。确定哪些因素构成有害内容涉及的主观性是一项额外挑战,限制违规内容与审查之间的界限可能模糊不清,这取决于背景和文化。如果明确标记为引文,是否应屏蔽被视为具有冒犯性和断章取义的引文?对部分用户具有冒犯性但明确标记为观点的内容意见,将如何处理?技术挑战包括冒犯性内容,这些内容采用非常微妙或间接措辞的形式,而非明显的煽动性语言。

▌错觉。鉴于大语言模型采用后续词汇分布抽样,因此在更客观或更真实的用例中,大语言模型极易受偶尔称为错觉的影响,即似乎可信但实际验证不正确的断言或主张。例如,当前大语言模型的常见现象是,创建实际不存在的科学引文。如果通过请求“请与我分享一些迈克尔·卡恩斯撰写的论文”提示其中一个大语言模型,实际并不会搜索合法引文,而是从与该作者关联的词汇分布中生成引文。生成的结果是机器学习领域的实际标题和主题,而非真正的文章,内容可能包含看似合理的合著者,实际内容却没有。

同样地,财经新闻报道的提示不会触发搜索(例如)《华尔街日报》文章,而是大语言模型使用财经词汇随意捏造的新闻文章。请注意,在童话创作场景中,此类创造力无害,甚至可取。但现有大语言模型不支持用户区分“使用创造力”和“未使用创造力”的用例。

▌知识产权。早期大语言模型的问题是偶尔倾向于生成特定文本或代码段,这些内容会一字不差地对部分训练数据进行“反流”,进而引发隐私和其他问题。但即使这方面有所改进,也未能阻止复制更模糊和微妙的训练内容。请考虑,上述多模式生成式模型的提示“以安迪沃霍尔(Andy Warhol)的风格创作一幅猫在玩滑板的画作”。如果模型可以令人信服但仍以原始的方式实现创作,将对此类模仿提出异议,这是因为该模型接受真实的沃霍尔绘画的训练。

▌剽窃和作弊。生成式 AI 的创造性引发了大众担忧,具体是该模型用于撰写大学论文,为工作申请书编写样本,以及其他形式的作弊或非法复制。各大院校和众多其他机构就此话题展开激烈讨论,而且态度差异明显。部分人同意明确禁止在分级内容或评估环境中使用生成式 AI,另一部分人认为教育实践活动应当适应甚至接受新技术。但验证指定内容片段是否由某人创作的潜在挑战,大概率会在多数情况下引发争议。

▌对工作特性的负面影响。生成式 AI 可熟练创建备受好评的文本和图像,在标准化测试中性能稳定,针对指定主题创作整篇文章,并成功总结或更正指定文章的语法,这引起了小范围焦虑,该技术可能取代部分职业或产生较大的负面影响。虽为时尚早,但似乎生成式 AI 会对工作的诸多方面产生革命性影响,支持机器处理大量此前超出自动化范畴的任务。

以上挑战貌似困难重重,部分原因是与前几代人工智能相比,大众不太熟悉这些模型。但随技术人员和大众深入了解生成式 AI 及其用途和局限性,科学界或相关政府机构会划分新科学和制定新政策,从而应对这些挑战。

对于违规和公平性,谨慎管理训练数据可能会有些许帮助。但毕竟,如果数据不含任何冒犯性或偏见的词汇或词组,大语言模型根本无法生成任何内容。但此类方法又要求我们提前标识这些令人不悦的词组,并确定绝对没有这些内容适用地输出上下文。特定于用例的测试也有助于解决公平性问题——例如,在消费者贷款等高风险领域应用生成式 AI 前,可针对特定应用开展公平性测试,这一点与适用范围更狭窄的预测模型相似。

对于针对性更小的违规概念,一种自然方法是训练护栏模型,检测并筛出训练数据,输入提示和生成输出不需要的内容。此类模型需要人工对训练数据进行注释,确定其中类型和程度不同的违规或偏见,便于模型完成生成作业。通常,由于我们计划解决任务的极端通用性,因此控制生成模型输出比管理训练数据和提示更容易。

对于没有任何错觉的高真实度内容,创作此类内容的挑战在于重要的第一步是向用户讲解生成式 AI 的实际工作方式,避免产生引文或类似新闻报道始终真实或事实正确但不切合实际的期待。实际上,在问到无法引用实际引文时,一些现有的大语言模型会告知用户它们是语言模型,不会使用外部来源验证内容。此类免责声明应更加频繁,内容更加明确。使用已验证的独立引文数据库和相似来源增强大语言模型,并采用检索增强生成,可在一定程度上解决错觉引文的具体问题。另一种新出现的有趣方法是,制定将生成输出归因于特定训练数据片段的方法,支持用户评估这些来源的有效性。这对解释问题也有所帮助。

随时间推移,技术、政策和法律机制的综合方案有望缓解围绕知识产权产生的担忧。短期内,科学开始融入围绕模型追缴的各种概念,进而减少或消除受保护的内容或其对生成输出的影响。一种最终证明相关性的技术是差分隐私,对于模型随后生成的输出,模型的训练方式确保了任何特定训练数据片段对其的影响忽略不计。

另一种方法是所谓的分片方法,将训练数据拆分为更小的部分,使用这些部分对单独的子模型进行训练;然后,合并子模型,从而构成整体模型。为消解任何特定数据项对整体模型的影响,仅需将其从分片中移除并重新训练该子模型,而非重新训练整体模型(对于生成式 AI,成本过于昂贵,令人望而却步)。

最后可考虑筛选或屏蔽方法,在为用户提供前,显式对比生成的内容与训练数据或其他位置的受保护内容,若相似度高,屏蔽(或替换)。对任何特定内容片段在训练数据中出现的次数加以限制,这也有助于减少一字不差的输出。

目前,正在开发一些使用生成式 AI 阻止作弊的有趣方法。一种方法是,仅训练模型检测指定文本(例如)由人类提供或生成式模型生成。潜在缺点是,这在检测模型与生成式 AI 之间引发了军备竞赛。由于生成式 AI 的目的是创作由人类合理生成的高质量内容,因此从长远来看,目前尚不明确检测方法是否有效。

一种有趣的备选方案是,由生成式模型的开发人员自行实施的水印或指纹识别方法。例如由于大语言模型在每个步骤会从指定文本的后续词汇分布中提取,可将候选词汇分为“红色”和“绿色”列表,每个列表的概率约为50%;然后,支持大语言模型仅从绿色列表提取。由于用户不清楚绿色列表中的单词,因此他们仅使用从绿色列表提取的10个词汇生成语句的概率是½,并提高到10次方,也即大约0.0009。采用此方式,可将全绿色内容视为大语言模型生成的虚拟证明。请注意,作为部分服务产品,大语言模型开发人员需提供此类证明或证书。

在每个步骤,模型私下会自行将可能的后续词汇分为绿色和红色列表。然后,仅从绿色列表采样后续词汇。

对于生成语句的用户,他们并不清楚划分绿色和红色列表,因此非常有可能选择混搭绿色和红色词汇的次序。由于在长语句中,人类选择全绿色次序的可能性几乎为零,因此可将全绿色语句视作包含由负责任的 AI 生成的证明。

众所周知,没有任何有效的技术预防措施可消除对工作的负面影响,关于解决方案的意见分歧存在较大差距。显而易见,在多个专业领域中,生成式 AI 可能是高效的效率工具,至少改变了目前人类与机器的分工。该技术也有可能为更广泛的社区拓展现有职业(最近社交媒体出现特定文化但又并不完全荒谬的热词是 “英语是新编程语言”,这便是对大语言模型代码生成能力的认可),甚至创造全新的就业形式,例如提示工程师(现有维基百科条目主题,于今年 2 月创建)。

最后,我们发现,在生成式 AI 的生成和安全使用过程中,最终用户引导和培训将发挥关键作用。随着生成式 AI 的潜在用途越来越完善,弊端越来越得到广泛理解,用户也会利用自己的常识完善上述的部分预防措施。

生成式 AI 激起了大众热烈的讨论,也诱发了合理的恐惧。我们尝试对关切的问题开展部分调查,并提出了解决这些问题的前瞻性方法。值得强调的是,在生成式时代解决负责任的 AI 风险是一个迭代过程:不可能一劳永逸。随着技术以及我们对该模型的态度发生变化,这种情况肯定也会相应变化;唯一不变的是,必须在热情与对关切问题的实际和有效检查之间取得平衡。