新浪新闻客户端

数美科技携AIGC内容风控解决方案参展2024云栖大会

数美科技携AIGC内容风控解决方案参展2024云栖大会
2024年10月09日 15:53

  9月19日,以“云启智跃,产业蝶变”为主题的2024云栖大会在杭州正式开幕。作为全球最具影响力的科技盛会之一,云栖大会自2009年以来已连续举办15届,始终站在云计算发展的前沿,见证中国云计算发展三次浪潮的每个重要时刻。本届云栖大会设置人工智能+、计算、前沿应用三大主题馆,全景式呈现展示AI时代云计算最新技术形态与产品进展,邀请全球顶尖的科技专家、学术精英、行业领袖以及创新先锋共聚一堂,通过400场并行话题和论坛,共话技术、产业及社会可持续发展等议题。

  数美科技作为数字风控领域的AI厂商,携AIGC内容风控解决方案参与大会的展览与论坛活动,在生成式AI安全、治理与伦理的主题论坛,数美科技人工智能研究院院长齐路作了《大模型时代内容安全实践》的主题分享,与行业伙伴共同探讨AI发展带来的机遇与挑战。以下为分享的要点内容:

  1. 内容安全不容小觑

  内容风险的治理,在社交平台兴起时,数美就建议平台将内容风控能力作为基础能力建设的一部分,内容安全必要性可以从以下几个维度来看:

  (1)监管合规性:企业在全球不同地区运营时,必须遵守当地的监管合规政策。无论是在中国、欧洲还是北美,每个国家和地区都有其特定的法规要求。企业必须确保其业务活动符合这些政策,以合法合规地进行运营。

  (2)用户体验:良好的用户体验是企业成功的关键。以平台弹幕为例,不当内容的出现可能会破坏用户体验,如不雅弹幕可能会在全家一起观看过程中造成尴尬。

  (3)社会价值与责任:平台在运营中不仅要追求商业利益,还要承担起社会责任,尽量防止用户受到诈骗、歧视以及自我伤害,这是平台社会责任和价值凸显的一部分。

  2. 更复杂多变的内容风险及挑战

  数美目前已经为国内数十家大模型公司提供了内容风控服务,覆盖通用问答、AI搜索、社交智能体、图像处理、智能助手、AI创作等场景下的多模态内容。在实际的服务中,我们总结了用户与大模型问答、交互的过程中,内容安全面临的挑战:

  

  (1)更高的时效性要求:当AIGC广泛应用到各个领域,区别于其他应用以浏览为主,AIGC频繁的生成内容,包括用户的提问和模型的输出,内容量非常庞大,而且流式的输出,如何保障加了一层审核的内容安全防火墙后,仍不影响用户体验,保障其时效性?第二个时效性的问题在于,内容风控的本质是攻防竞争,新的攻击手段和风险内容会越来越多,也要求做内容风控要持续缩短应对不断新增的风险内容的能力迭代时效。

  (2)更长的上下文理解:在大模型应用中,生成的文本通常较长,无论是输入还是输出,通常涉及多轮对话和复杂上下文,这与社交应用中的文本长度相比有显著增加。这种长文本处理需求对计算资源提出了更高的要求,尤其是在需要准确识别长内容的场景中,要求对长文本和对话进行深入理解,从而带来了巨大的挑战。

  (3)更复杂的语义理解:需要从对象和主题的识别,升级到意图和观点的识别,以更准确地判断内容的风险。在大模型内容安全领域,与传统内容安全的区别在于,它不仅关注对象和主题的识别,还需要深入到意图和观点的识别。例如传统方法可能只需标记和拒绝涉及违禁品或敏感主题的内容,但这种方法不适用于大模型,因为它可能会损害用户体验。例如在提及毒品时,不是所有提及都需要被拦截,而是要区分其意图是否在于教授制作、买卖、运输或诱导使用毒品等有害行为。如果内容是在客观描述、批判抵制或使用比喻手法,这些则不需要被拦截。这种对意图和观点的深入理解,使得大模型的内容安全管理更为复杂,需要更高级的语义分析技术。

  (4)更多样的内容风险:在大模型安全领域,风险类型更为多样和复杂。除了传统内容安全风险如政治歧视、仇恨言论、恐怖主义、违禁色情和辱骂广告等,还引入了以下新风险:

  1)生成内容识别:需要识别图片、视频和文本是否由AI模型生成,以应对伪造内容和欺诈行为;

  2)指令注入和攻击:包括角色扮演和间接注入;商业和个人隐私泄露以及价值观导向的风险等等

  3. 内容安全的实践

  (1)内容安全体系构建

  数美科技以领先的 AI 风控技术为 AIGC 行业提供覆盖全流程、全场景、全维度的内容风控解决方案。

  1)模型训练阶段:尽可能不生成有害内容

  样本清理与风险识别:对各种样本进行清理,识别风险,包括预训练样本和人工标注样本(SFT)中潜在的敏感问题。

  敏感问题处理:由于敏感问题的识别需要专业知识,如政治和历史知识,一旦识别出敏感问题,会交由专业人员进行进一步的标注。

  安全对齐:在安全对齐阶段,尝试引入Harmless,并通过奖励机制来判断内容是否有害,以确保模型训练与安全目标的一致性。 

  2)模型备案阶段:

  在《生成式人工智能服务管理暂行办法》的监管框架下,形成了由算法备案制度和生成式人工智能备案构成的“双备案制”的实践机制。大模型上线前必须完成相应的备案流程,数美已为多家大模型厂商提供备案服务支持。

  3)应用阶段:阻止有害内容传播,为敏感问题提供恰当的答案

  promp提示词审核

  对prompt识别,分为有风险和无风险两类。对于无风险的输入,模型将进行正常的识别和回答;有风险的prompt根据内容进一步分类为:不可回答的问题、需要准确回答的问题、需要纠错回答的问题和需要正向引导的回答。

  准确回答的问题:国内涉政问题;海外未成年人及种族问题

  纠错回答的问题:不正确的知识或者不规范的表述,尤其涉及到敏感地区以及历史知识的问题

  正向引导回答的问题:负向、极端或者是涉及人身伤害等问题

  模型输出内容审核

  如果用户输入是有风险的,可以使用敏感问题知识库和安全代答模型,去给出一个安全的输出,另外即使用户输入是安全的,模型输出仍可能存在风险,要对模型输出进行风险检测,确保内容的安全性。

  (2)1800+风险标签体系

  定义风险是内容安全体系建设的核心部分。数美现在内部已经建立了四级内容标签体系,覆盖文本、视觉、音频多模态内容的1800+个细化内容标签,一级标签是风险大类别,二三级标签主要是对对象和主题的分类。最后一级标签是伴随着AIGC的发展,在这2年新引入的,是对内容意图和观点的分类。

  (3)强大的复杂语义理解能力

  1)上下文语义理解:基于上下文去做对象和主题的识别,尤其在识别敏感对象或主题时,必须基于上下文进行,以区分真实情况和虚构或历史情境。

  2)意图和观点的细化:从对象和主题的识别扩展到意图和观点的识别。如违禁品类,分析是否在教授制作、买卖、运输或诱导他人参与;人物类,需识别如辱骂、诋毁、戏谑、轻浮、讽刺等不同态度和表达方式。

  (4)多模态内容精准识别

  1)文本:对于长文本采用滑动窗口技术进行分段处理,维护上下文信息提高识别效率和准确性,减少重复计算,提高处理速度和降低成本

  2)音频内容识别: 包括语音识别和声纹识别两部分,区分声音内容和声源是否安全。

  3)视觉内容识别: 识别画面中的对象主题以及视频、画面背后隐含的意图,如侮辱或诋毁行为。 专注于文本和视觉的结合,采用多模态方法,对齐不同模态的语义空间,以提高识别的准确性。

  (5)完备的安全知识库

  建立了完备的安全知识库,知识库内容的准确性和适用性高,用于支持需要准确回答、正向引导和纠错回答的内容。

  未来,随着大模型的广泛落地应用,会出现越来越多复杂多变的“风险”问题数美将聚焦大模型内容生态层面, 在持续的内容安全实践中,不断迭代对抗新风险突破新挑战的能力,以AI护航生成式大模型的发展

  (来源:资讯中国)

责任编辑:何奎良

AI云栖大会

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2024 SINA Corporation

All Rights Reserved 新浪公司 版权所有