世辉律师事务所王新锐:营销领域安全合规应用大模型的四个建议
2023-12-11
2023年11月15日,由秒针营销科学院发起,明略科技集团及旗下秒针系统承办,以“‘大’有可为”为主题的2023第七届营销科学大会,于上海安莎国际会议中心圆满落幕。本次大会中,营销科学实践者的精彩分享让我们洞察到了未来营销的无限可能,也让我们对中国“大”市场、“大”需求、“大”模型、“大”生态、“大”责任的理解进一步加深。
世辉律师事务所权益合伙人王新锐律师受邀出席,以《大模型在营销科学中的安全合规实践与挑战》为主题进行演讲,结合今年以来在大模型领域的实际工作与思考,深入分析当前生成式AI的潜在安全风险、管理措施,并为广大企业提供了营销场景下大模型落地的参考建议。
以下为演讲内容整理。
在从业的20多年以来,我一直在做支撑立法和监管的工作,在数据保护和大语言模型方面也有所涉猎。今年,我们发现营销和大语言模型这两块业务有很多结合。那么企业如何做好安全、合规的策略呢?在探讨这个问题之前,我想先从“什么是不安全”说起。
世辉律师事务所权益合伙人 王新锐
大语言模型的安全风险来源于法律、技术等不同层面,支撑监管的权威专家做过四点总结。
第一,强人机交互挑战技术的可信可靠性。以前的人工智能技术无法实现与人的交互。例如,人脸识别闸机无法与人进行交互,能够通过人脸识别就可以通过,无法通过人脸识别就没办法通过。相比之下,大语言模型的交互性更强。
第二,新信息呈现形式危及人类主体性。在人机共同工作的情况下,外界对人类主体性的识别难度在加深。
第三,语料强依赖性影响内容生成质量。大语言模型是用巨量语料进行预训练,然后通过概率计算产生生成式的结果。预训练阶段语料的质量决定了输出结果的质量。
第四,根基础设施属性带来更大安全威胁。大语言模型未来会赋能千行百业,一旦底层模型产生风险,就会带来风险扩散的问题。
生成式AI全流程监管思路
谈到大模型的技术特点,我们可以用一个更简单的描述:能力越大,责任越大。我们今天的会议主题是“大有可为”,相比于之前的判别式人工智能,大语言模型的能力提升,也带来了新的风险管控问题。
我们国家在生成式人工智能方面是有立法脉络的,早在2017年就已经有与当前技术相关的规定。如今,生成式人工智能依然适用于之前的法规。最新的法规是2023年7月出台的《生成式人工智能服务管理暂行办法》,与之前的《互联网信息服务深度合成管理规定》《互联网信息服务算法推荐管理规定》构成了一整套规则。
除此之外,相关的国家标准也正在起草中。针对生成式人工智能服务的安全问题,相关国家标准会对使用过程中的数据安全、消费者权益保护、内容安全提出更细化的要求。
站在监管者、立法者的角度,生成式人工智能的管理可以分成四个方面:
源头管理:
如果大语言模型在源头上存在偏见或不实的内容,输出的结果也会存在风险,这意味着企业不能等到产品完全落地之后再去管理。目前很多国内公司会借鉴国外的开源模型做二次开发、调参和优化训练,在选择大模型时,企业需要先去了解它的底层语料、训练数据是否存在问题,确保源头合法合规。
过程管理:
结果管理:
渠道管理:
企业对生成式人工智能的管理手段,在一定程度上会影响到风险的责任分配,是由生成式人工智能服务提供者承担责任,还是渠道、品牌,抑或是其他的使用者来承担。
营销场景应用大模型的挑战
具体到营销领域,企业在应用大模型的过程中会遇到哪些挑战,又该如何应对?
今年我们接到大量在营销场景下使用大语言模型的咨询。在三四月份,我们刚开始接到一些需求的时候,企业对这件事的态度是重要但不紧急。但是,仅仅过了一周,企业的态度就变成了重要且紧急。我们看到各大品牌方、各个渠道都开始咨询怎样引入大语言模型、如何具体实施落地。
大语言模型的强项是可以“多快好省”地“无中生有”,而且非常具有话题性。与一幅人类拍摄的照片相比,从营销的角度来讲,企业更愿意使用AIGC生成的照片,因为可以吸引更多流量。
问题在于,大语言模型具有“以假乱真”和“似是而非”的特点。如果我们在营销物料中使用“以假乱真”的内容,这些内容又被掐头去尾,或者在不同的语境下传播,就有造成混淆的风险。
最近陆续有一些大语言模型应用层产品通过了上线备案,可以面向公众提供服务。与ToB的产品相比,直接面向C端用户的产品,有较高的准入门槛。而且,两者在后续的管控、安全措施上都会存在一定差异。
根据今年3月以来参与相关工作总结下来的经验,我给大家提供一些大模型落地的参考建议。
第一,应在输入和输出环节加以管控,避免输入个人信息、保密信息,避免产生和传播违法不良信息。过去针对人工智能的技术管控,侧重于管输入端或者输出端中的一头。但是,由于大语言模型的强互动性、输入输出内容的复杂程度,以及多模态的特征,决定了企业在输入和输出端都要进行管控。如果大量个人信息、保密信息,或包含知识产权的信息,进入到大语言模型中,有可能存在泄密风险,对个人或企业产生不利影响。
第二,接入境外大语言模型用于营销内容生产,需谨慎评估(因预训练数据集产生的)内容安全风险。我们说的是谨慎评估,而不是一刀切。正如之前所说,生成式人工智能的技术风险包含了它作为基础设施对语料的强依赖。境外大语言模型预训练阶段的数据可能和我们的价值观、法律要求不尽一致。因此,在这种情况下生成的物料,可能存在一些风险。比如,我们对地图的要求和国外对地图的要求有所差异,如果境外大语言模型中包含地图信息,就可能带来一些风险。所以,并非哪个产品的技术领先,就一定是最优的方案。
第三,根据具体语境,明显标注“由人工智能生成”或“由AI生成”。大语言模型具有以假乱真、似是而非的特点。有时明明是一个广告,被人截取使用后就可能产生混淆,从而引发舆情和争议。一旦产生舆情或争议后,公司在营销场景中使用大语言模型有可能会被叫停,或者要求公司提供说明。因此,企业需要预先对生产内容进行标识、标注。当然,一些可以明显看出是人工智能与人类交互的场景,未标注的风险会相对低一些。
第四,特别关注和防范生成内容出现种族、民族、信仰、国别、地域、性别、年龄、职业等方面的歧视或偏见。被人歧视和被机器歧视的感受是不同的,国际社会对这件事的关注程度一直很高。人工智能产生的偏见和人的主观偏见的区别在于,人工智能会把人类社会已经存在的偏见在算法中永久化或固化,可能会在大量数据训练中继续强化。因此,在预训练阶段,我们需要剔除带有歧视或偏见的语料,从而避免歧视或偏见的放大。
当前,大语言模型的落地难点在于覆盖各行各业时,如何界定风险,防范风险传导。就我个人的实际观察,在垂直行业的落地风险则相对可控。随着人们对科技伦理关注度的提升,我们希望大语言模型的落地是符合大众认知的,因为一旦出现风险,把整个机制讲清楚非常困难。当公司利用大数据做精准营销时,肯定不希望被别有用心的人用于非法目的。如果我们能够从源头上做好输入信息的把控,就能有效控制在具体场景下应用的风险。
信息填写