EP14 到了颠覆AI客服的时候了吗？

Original AI芋圆子共识粉碎机 2024-04-14

关注共识粉碎机，获取历史讨论会纪要

我们尽量每隔一周都会组织不同领域的AI讨论会，覆盖软件行业的所有细分。为了保持一个活跃的讨论环境，对参与人群会有限制。

下一期将定于1月14日上午10点，主题为《2024是RAG的爆发年吗》，形式为线上闭门讨论会，详细的下一期内容和报名形式请见文末的阅读原文。

本期讨论会参与者：

潘胜一老师，Shulex算法合伙人，专注出海LLM客服，服务安克、公牛等全球标杆客户

智权老师，探迹算法负责人，国内领先营销服一体化解决方案，在AI电销领域投入多年

以及一位来自头部互联网公司的资深客服产品负责人

1 LLM改变AI客服构建知识的过程

LLM现有对客服质量提高主要体现在构建知识上

体现AI客服构建差异主要有几个点：构建的速度和质量，以及AI将答案吐出去的效果和带来的用户体验的提升。
从效果来看，最重要的是工单解决率。解决率的定义一般是AI回复最后一轮后，用户间隔一段时间不再发文就可视作为工单已解决。在不同行业和客户意图下，解决率的差异非常大。
如3C卖家产品的排故相比游戏攻略咨询的解答难度就高很多，游戏攻略咨询可以轻松达到90%+的解决率，但3C排故解决率做到70%就很难。以3C类的Trouble Shooting为例，目前如果是传统的FAQ Bot，解决率能够达到70%-80%。这是一个比较高的解决率，达成有很多前置关键因素和条件，抛开算法效果优化等，最关键的是FAQ的构建质量。
LLM Bot可以做到在70-80%解决率情况下，比FAQ Bot花费更少的构建精力。在知识更新上，比FAQ Bot更加容易。

LLM可以提高知识构建的速度和质量

传统的AI客服需要花费大量的人力进行业务梳理和交付，需要逐条构建出QA List。而大模型本质上是一个生成模型，只要提供合适的语料和设计出COT（Chain of Thought），就能快速地构建知识。
对于大模型来说，输入来源可能是用户历史积攒的语料、用户网站的帮助中心，甚至之前客服的沟通记录，借助大模型可以快速将知识库拉到不错的基线水平。然后基于这个基线水平，再往上做精做细，从而提升知识的质量。
达到相同的解决率，基于大模型的构建ROI会比传统AI客服高很多。例如，如果都需要达到70%的解决率，之前的方案需要花费很长时间梳理和构建知识，需要设计一套Dialog Flow模板配置，此类的模板可能非常复杂。现在基于大模型方便很多，可以用几百条语料做到过去几千上万条语料的效果。
LLM可以加速FAQ的构建过程，但目前尚不能实现全部流程的自动化，需要行业的专业客服人员介入一起构建。如果客户对回答质量要求非常高，专业客服必须要介入构建的过程。

在大促和上新快的场景应用大模型构建尤其方便

传统的AI客服构建方法提供知识库给商家，商家按照知识库模板，商品粒度加上每个商品下面挂FAQ的方式构建结构化知识库。例如，一万个商品乘以每个商品对应的上百FAQ，FAQ的整体数量就会到百万级，整体量级太大造成非常难维护。在每次上新和活动期间，也都需要人工去动态配置。
LLM将传统非结构化知识变成结构化知识的过程跳过，可以直接基于非结构化知识进行构建。可以通过更原始的生产资料进行构建，例如Excel文档或者DOC文档。
以Excel为例，不同商家和供应商虽然都是Excel，但是表格中每个cell的粒度和内容都不同。行业属性，比如数码行业和服装行业，表格Schema格式不同。传统方法是将Excel转换为FAQ工作，现在可以通过LLM直接消化Excel文件，理解不同表格中的内容的含义以及每个cell的内容，然后就可以通过大模型进行商品信息问答。相当于商家上传Excel后直接基于Excel进行对话，这是工作上的极大简化。
对于很多电商客户来说，运营的时效性要求很高，尤其是大促的时候。不同电商平台的大促活动相关信息更新频繁，大促期间商品的卖法也会有变化，客户很难及时更新传统的知识库，这已经成为不少商户客服运营时候的瓶颈。LLM的出现可以节省人员和时间，在大促期间可以使知识库的更新更加灵活。

在尝试根据图片来构建，但还无法达到商用效果

现在也有一些尝试使用大模型将图片作为输入直接构建问答，依托商品的规格图和说明书PDF等。
这些图片和PDF没有必要翻译成文字，再翻译成FAQ提供给机器人。LLM模型能够在这个领域实现，可以直接通过看图说话。
这里的商业价值非常明确，但从实际效果来看，测试过许多开源模型，目前效果仍然不能达到商用，需要继续打磨。

2 LLM客服的其他优势

LLM客服在语言、情绪帮助很大

出海场景上，很多客户需要提供多语言支持，同时需要提供8-9种语言的情况非常常见，LLM天生具备多语言转换能力。在传统的FAQ Bot上，针对不同语言、不同国家都需要重复配置，LLM可以只需配置一次。
特别对于SMB客户，成本不允许其在海外搭建客服中心，对于SMB出海客户的帮助是非常大的。
在不同场景意图下，解决情绪相关的问题也有一定的价值价值，例如在客户投诉意图下，情绪安抚就非常重要。从效果上来看，LLM的效果远远超过过去的NLP情绪识别，在回复上也更加贴合场景。
另外，当LLM识别出用户情绪变得越来越差时候，仍可将其转移到人工客服作为兜底的办法，进一步降低业务风险。

准确性与LLM的关联不大

LLM的方案仍然是进行知识召回，Ranking排序，然后提炼答案。这套体系在FAQ Bot和LLM Bot上差别不大，仍然是传统排序算法。
基于这套方法论后，最终答案是否出现在Top5或者Top10，称之为最终答案的hit rate，这体现了回答的准确性。LLM的工作主要体现在上游的构建内容，和下游的提炼总结、互动。
归根结底，准确性取决于知识库内的知识准不准，准确性的前提是标准答案存在。

LLM客服更容易获得更高的客户满意度

在关注ROI之外，也需要关注客户满意度指标，客户满意度很难直接用财务体系去换算。
例如LLM客服可以更加人性化，在沟通时候让客户觉得更加舒服，增加了复购，满意度本身的价值比较难量化。
在售前环节，LLM也可以提高转化率，也需要从GMV视角去折算成本。

3 LLM客服在Agent上的探索

LLM客服的Task Bot需要用到Agent

AI客服分为FAQ Bot和Task Bot，需要用到Agent，目的是解决用户业务查询和办理的需求。
以Trouble Shooting为例，如果排故排不了，需要补单退货，这时需要用户告知AI订单号，才能继续使用接口识别用户进行处理。
许多场景用户可能只能拍一张小票，实际订单号在小票里面，需要通过多模态模型验证订单号，例如现在应用GPT4就可以识别订单号了，就可以把整个流程走完。
因此在Task Agent形态里面，不光Agent非常重要，多模态也非常重要。对于AI客服公司来说，不会去挑战自研多模态这类这么困难的场景，更多是依赖目前领先的商业模型。

Task Bot仍然面临很多技术难点

幻觉在FAQ Bot和Task Bot中都存在，在检索问题和提问问题时候，存在问题未被覆盖时模型开始瞎编的情况，这是所有LLM Bot都会面临的长期挑战，但随着模型迭代，目前看到已经得到了很大幅度的优化。
在业务中，例如售后问题上，需要收集大量信息，去整合信息，并调用大量系统协同完成。以退款意图为例，，需要收集客户信息，包括订单、物流凭证单号等。同时，还需要处理这些单子并进行判责，判断是消费者还是商家的问题。内部还需要串联一系列系统，调用商家后台信息和物流信息，甚至还需要商家和消费者双方的历史信用、交易记录。在判责完成后，可能还涉及打款和结算。
另外，Agent的目的是提高整体的自动化率水平。目前已经有客户上线Task Bot了（例如安克创新上线了Shulex Task Bot），在过程中需要通过邮件来询问用户的订单号和售后地址，中间可能还需要手机验证，每个环节都可能造成流程的中断。这方面的创业软件公司需要摸清楚每个场景下的所有流程，还需要与客户进行甲乙方联调，才能做到好的效果。

4 将LLM应用在电销上难度更大

电销有很多AI实践，但LLM替换比例仍然比较低

一个完整的销售链路包括获取客户线索、触达联系客户、客户跟进管理。其中联系客户的环节已经有很多AI用例了。AI电销会用AI机器人联系客户，搜集客户意愿以及其他细粒度信息，然后过滤出意向较高的客户名单交给负责增长的销售进行二次触达。
例如探迹在17年就进入这个领域，经历过好几代技术路线迭代，最初采用规则+机器学习的方式。到18、19年，逐渐替换成以预训练+下游finetune的范式。在LLM出现之后，也正在用LLM将某些环节进行替换。
但总体来看，电销应用LLM的难度比Chat Bot难度更大，替换比例也更低。

LLM替换的难点主要在延迟

延迟对于电销来说，影响最为直接。时间一长就会使得用户产生抵触情绪。而通话的效果又会直接关联到客户中间是否会直接挂断，以及能否搜集客户的有效信息。结合销售线索的利用情况，又会直接关联到ROI。
AI客服的延迟有一个经验范围，在900ms-1200ms之内进行回答会比较合适，太快会让客户感觉在抢话，太慢则会让客户觉得回答迟缓很不像真人。
从技术流程上需要ASR（语音转译成文本）→对话模型反馈→TTS。从性能角度来看，TTS已经做了很多优化了，实时TTS不是时间性能瓶颈。甚至过去多数场景是通过FAQ的方式调出提前录制好的声音，节约时间，不需要实时TTS。
那扣掉传输、ASR和TTS的时间，留给模型反馈的时间可能大概在200ms内。这对现在的LLM模型推理都还很困难很有挑战，尝试了各个商用模型都还做不到。
至于Agent也非常适合电销场景，但Agent更加复杂，会增加更多prompt内容和更多的调用LLM次数，导致模型处理的反馈时间更长。
国内AI电销因为各种政策问题，是不能使用OpenAI系列产品的。

GPT 4.5 Turbo可能能解决语音客服的延迟要求？

到了GPT 5 Turbo，可能就能解决电销的延迟要求？

LLM在通知类的场景可以承担语音客服

目前在需要互动的电销和客服场景下都还有延迟困难。
但在一些通知类型场景，或客户回访、催收等，涉及的信息密度不高，不需要频繁互动，LLM场景已经可以落地了。
为了降低延迟，也会尝试在可能落地的场景中将Prompt设计得更短，以满足延迟要求。

LLM电销如果技术成熟想象力会非常大

刚刚主要介绍的都是初次触达客户的环节，所涉及的信息不会复杂，在应用的时候AI客服也会避重就轻，一旦遇到难度更大的问题时，会邀请资深顾问联系客户，约定下次联络的时间，将复杂情况留给真人电销来处理。这也是LLM目前最有希望落地的场景。
后续还有更大的场景可以替代，长期目标应该是替换90%的电销工作。在电销过程中，LLM可以作为引导者，通过沟通了客户的需求，推荐产品甚至产品组合，最后给出综合报价。LLM在应用说服客户的时候，也可以结合客户目前的意愿状态，针对性举例过往成功案例。总的来说，是对话逻辑更像真人的销售顾问，能覆盖更复杂的对话问题。
但这个过程还需要Agent能力的长远发展，以及对延迟的要求也会更高。每当延迟进步一点，Agent推理能力进步一点，就可能解锁新的电销能力。
销售流程中的合同环节很难被LLM替代。合同环节绝对不能出错，无论LLM进化得多智能，最终可能都还需要人来把关。但在合同签订之前，所有的环节都有一定的容错能力，LLM都有替代的机会。但整体来看，电销的容错率要求都比客服要高很多，错误积少成多甚至会影响到最后的合同签订环节，客户甚至会认为AI电销某些前后环节有矛盾，最后给人不够专业的印象。

AI电销不能脱离呼叫中心软件

呼叫中心软件的功能很多，不仅包括对话的支持，还有线路管理、预先录制的话题管理和质检等功能，以及工单分配以及AI转人工等。AI在功能层面无法等同于呼叫中心，还是属于呼叫中心的一部分。
呼叫中心软件的供应商有渠道优势，也有语料优势，但缺少技术理解和场景理解。创业公司在做客户案例的时候都需要做很多共创和联调，可以在熟悉的行业里面深度覆盖。
更多的可能还是双方配合。从海外案例来看，包括Five9、NICE、Zoom等也都投资并购或者深度合作了适合的创业公司。

除了电销，LLM更容易应用到获客和分析上

找客户上就很结合LLM。例如探迹的底层就有全国ToB的企业知识图谱，用户其实很难跟复杂庞大的底层图谱进行有效直接的交互，用户需要学习理解图谱里庞大丰富的价值维度，构建复杂筛选条件来找客户。现在通过LLM，可以为两者架起一条以自然语言交互的桥梁。用户用自然语言和对话把用户画像构建起来，通过这种方式进行自动潜在用户筛选。
在海外，也看到了不少创业公司和上市企业，已经通过LLM来完成质检等分析环节，以及将LLM当成实时提词器来使用。

5 交付缩短同时还可以更加智慧

客服交互包括行业模版落地、知识构建、意图挂靠等

不同行业的行业模板会有区别，早先一般是与头部标杆客户一起以SLG的方式打磨出来的，成为标准化方案后再推广到其他行业客户。
在确立客户的行业方向后，会有基础的意图模板。在构建知识时，输出会自动挂靠到一级意图模板。
业务同学会跟进看知识构建是否有问题，是否挂在正确的分类体系下，然后进行下一步校验。
例如Shulex在实施时会通过真实的对话记录训练集构建知识，然后通过验证集尝试回复真实数据。在真实数据回复完成后，业务同学会进来以行业眼光判断对错。
通过了上一轮验证后，会继续在意图下分部门、品类逐步上线。如果中间出现了问题，那就明确问题来源，继续迭代知识构建，最后达到客户需要的上限标准。
在大模型之前，走完一套流程需要半个月到一个月的时间，有大模型后时间可以压缩到几天时间。

减少对客户经验沉淀的依赖，将很多人的智慧提取成大模型的智慧

很多大公司客服做得好是因为有长期的培训和实践，得到了知识+经验的组合。但也有很多客户的经验是靠口口相传，甚至不同的客服小组有内部沉淀的经验文档但不会跨组分享。
对于经验沉淀较少的客户，过去的AI客服搭建的时候都需要花很多时间去沟通，梳理成合适的FAQ。但现在对于LLM客服可以通过对话记录去提取经验，而不再仅依靠经验文档。
以及在很多的场景，例如退款场景，客服的规则性文档只会讲什么时候不能退款，什么情况是用户的责任而不是商家的责任。但对用户不买账的时候，如何劝服客户却很少有相应的经验规则。这些经验虽然在沉淀的文档中没有，但在对话的历史记录中有案例，那LLM就有机会把很多人的智慧提取成大模型的智慧。
但从历史对话训练上来看，仍然很有挑战性。这是因为客服对话中有大量的重复数据，很多是基于客服的对话模版套用的，如果直接进行训练模型其训练效率就很低。在拿不到一手数据的情况下，如果要基于二手数据去训练，去提取人的经验，不光是销售经验，还是服务经验，形成一个大模型可用的知识库，都很具有挑战性。

6 模型选择

Turbo在成本上有明显变化，同时也没有看到质量和稳定性下降，延迟略有提升

明显感到Turbo的成本下降，过去GPT的单条回复成本很贵，甚至超过了部分客户的人工客服成本，成本下调后明显客户群受众变大了。
一般在与客户沟通的时候，都会帮客户算经济账，例如会首先看下他们一年的客服成本是多少。然后如果应用了AI方案，解决率能到多少，能节约多少成本。或者如果明年客户的用量翻翻，能不能在不增加人力的情况下服务弹性的需求，现在更多的客户也能算得过来了。
效果层面略有提升，质量和稳定性没有下降，Function的识别准确性略有提升，延迟也略有优化。
除了成本和效果，另一个关键变化是3.5 Return Type的调整，过去返回经常不是一个严谨的Json格式，需要做数据清洗很多打补丁的工作，现在新版本出来后全部都解决了，对开发者非常友好。

模型选择可以结合商用模型和自研模型

在意图识别环节，如果一开始积累的数据不够，先用通用大模型分类，数据多了之后然后用小型的大模型进行意图的识别。
AI Bot答案吐出来后续处理有几个环节，包括意图的识别、问题的总结、问题的改写、Embeding、召回、合并、排序、知识答案的提炼。在这个过程中，开源的方案和自研大模型是一个平衡使用过程。把最后有挑战的Agent交给商业大模型完成，剩下的一些环节去积累数据逐渐由自研大模型来完成。
在业务跑POC的时候，经常会先用GPT4快速跑通Demo和POC，如果POC验证成立，再投入资源到自研模型中，这样也更节省时间，避免无效投资。

Agent只能适用OpenAI，但分析场景可以用到Claude

需要用到Agent的场景，目前只有OpenAI很好的在原生层面支持Function Call，没法选择。
在分析场景，Claude可以做到200K，是目前Context Window最长的，而且知识性问答也不错，可以使用Claude。
Gemini现在听到的客户Use Case还比较少，可能在多模态上会有场景。

7 客户眼中的LLM客服与落地仍然有预期差

LLM在构建知识的过程中还无法全知全能

很多客户对大模型的效果预期是高估的。比如有客户需要做自动化的提炼，会提供大量培训资料、产品文档、CAD 文档、PDF资料、图片等。
希望通过LLM全自动构建FAQ，但实际上是没法这样实现的，还需要人工配合，是一个Human in Loop的过程。
评论分析里面涉及大量的通用任务，比如分类、标签体系、情感识别、做摘要等等。这些任务一开始用大模型去做ROI不一定高，需要很多次交互才能完成，可能先进行初步的处理，再输入大模型ROI才会越来越高。

客户对LLM

的容忍度也比传统AI客服要低