中关村科金推出得助智能填单系统，95%准确率切实提升坐席服务效率

　　基于大模型优秀的问答、总结和话术生成能力,主流联络中心纷纷接入大模型升级智能知识库、智能工单、智能陪练等应用。

　　以智能填单为例,借助大模型能够轻松从对话中提取出实体信息、判定对话意图、识别情绪、生成沟通摘要等。通过简单的Prompt,完成工单字段的提取任务更是轻而易举。

　　然而在初期效果测试中,大模型获取的工单填单结果对比客服的真实填写结果准确率不足30%,且大模型的处理速度也达不到业务方提出2秒内返回结果的要求。

　　大模型并非传统的NLP技术,无法依靠业务标注数据进行自主优化,那么大模型的调用方在业务应用中,该如何进行使用效果优化成为了现实考题。

　　现实考题:五大因素影响填单可用率

　　提不准

　　众所周知,工单填写对字段有着明确的格式要求,尤其是选项或统计类的字段,需要大模型严格按照格式输出指定结果。

　　幻觉问题:

　　例如,若需要判断客户的注册渠道,大模型必须严格返回“支付宝”三个字段。而现实情景中,大模型往往返回连篇累牍的描述,导致工单系统无法收到准确的结果。

　　此外大模型不仅“啰嗦”,还容易“胡编乱造”,返回的结果是经过“理解”、“联想”加工的,这在对容错性有着严格要求的现实业务场景中是不能被接受的。

　　缺乏业务背景:

　　在真实业务场景中,客户和坐席之间的对话内容往往无法清晰、明确地对照工单中所需记录、填写的信息标准发生。例如,坐席能够根据消费者的模糊描述,“使用的是一款能够进行AI画脸的产品”精准匹配出对应的产品。而大模型则难以做出正确的判断,无法胜任绝大多数的工单填写任务。

　　缺乏判断能力:

　　更大的挑战是,在退订业务等双方存在复杂拉扯的对话场景中,大模型容易按照任意一方的“片面之词”判定最终结果,而不是根据业务逻辑得出准确结论。例如,客户申请退回三个月的费用金额,客服表示只能退回一个月。

　　如果客户同意,那实际双方达成一致的退回金额为一个月的费用,而非三个月。如果客户表示不同意,则实际退回费用为0。如果大模型没有“理解”这一判定标准,则最终退回的金额会在一个月或三个月中随机生成。

　　填太慢

　　实际业务中,坐席的工作节奏非常快,需要在通话进行中,2秒内完成工单内容的填写,通话结束后5秒内完成通话小结的填写。如果大模型不能比坐席的填写速度更快,那么大模型应用的意义与价值将大打折扣。

　　实时场景的时延问题:

　　坐席辅助场景要求低时延,而智能填单旨在自动帮助人工填写工单,如果填单时间超过2秒,便基本失去了帮助坐席提率的可能。坐席不可能在对话过程中,等待大模型输出结果后再询问客户下一个问题。但即使只调用一次大模型进行小结,平均时延也在5秒左右。

　　而通话会话小结的评价指标为:要素完备性、要素准确率、业务接受率。若对会话小结中的细分场景、业务细则、专有名词等方面有更高的要求,便需要在通用格式的会话小结中再补充业务要素。这就需要多次调用大模型,智能小结的时延将会达到10秒左右。

　　连接调用不稳定产生漏损:

　　大模型调用会有失败的情况,就像有时会遇到偶发的不响应情况,这在C端应用中用户尚可容忍,但是在企业服务应用中,尤其是嵌入核心作业流程的场景下,业务对于偶发的漏损情况则较为敏感,小结的漏损率会在5%左右。

　　四大路径:巧妙解决准确率与时效性问题

　　作为领先的对话式AI解决方案提供商,中关村科金【会话洞察产研组】始终致力于打破技术应用瓶颈,为用户带来更加卓越、智能的体验。经过一年的研究和内部测试,我们有了一些新的解决方案,或许正是众多企业苦苦找寻的答案。

　　考题一:大模型应用的准确率与延时如何改善?

　　路径一:小模型对输出结果进行验证以解决幻觉问题

　　最初,大多技术专家通过JSON对大模型的输出进行限制,以确保大模型每次输出的结果都尽可能满足业务要求,但仍存在一定概率的幻觉问题。为此,中关村科金另辟蹊径,在大模型输出结果后,叠加一层相似度判定模型,让大模型的输出结果对齐到预设的选项中。

　　在此基础上,中关村科金还增加了对大模型输出结果的各类格式转化,以满足将大模型输出内容转化为工单所需的数值、百分比、日期、时间等各类字段类型的需求。

　　路径二:让运营人员便捷地将业务背景“录入”大模型

　　中关村科金利用不同行业的客户数据,对Prompt进行了针对性的优化,并在自研的模型上进行了微调,以确保大模型在不同行业、不同场景中,拥有通用的“领域知识”。与此同时,我们还通过对常见的智能填单场景进行抽象,让用户可以便捷地输入企业专属知识。通过将运营人员输入的信息与经过验证的Prompt进行拼接后,大模型的数据准确率最高提升到了95%以上。