58同城智能语音质检系统:语音识别与NLP技术提升销售客服质量 企业网站的搜索引擎优化研究

发布时间 - 2026-01-15 20:54:32    点击率:

介绍

有成千上万的销售和客户服务人员,每年致电数百万小时。我们已经建立了一个智能的语音质量检查系统,使用语音识别技术将语音转换为文本,然后使用NLP技术进行呼叫文本。分析和采矿以实现自动机器质量检查,可以标准化销售和客户服务工作并提高客户服务质量。该主题将首先介绍语音质量检查系统的整体体系结构,然后详细分享语音处理和语音质量检查涉及的NLP技术,包括单声道语音分离,角色识别,文本标签挖掘等。最后,我们将介绍58个销售。语音质量检查申请案例在客户服务方案中。

嘉宾简介:AI实验室算法的高级工程师Chen Lu于2018年9月加入58。她目前主要负责语音质量检查和语音机器人算法研发。他于2016年毕业于北京邮政与电信大学,并在工作,从事产品评论挖掘算法研究与开发。

目录

1。背景简介

2。整体体系结构

3。核心功能

4。业务案例

1个背景简介

什么是语音质量检查?

传统的语音质量检查通常是指质量检查员收听一定比例的电话录音以进行手动质量检查,以检查代理在通话过程中是否违反了法规和非标准演讲。

简介通话中心

的呼叫中心是代理商与客户之间的重要桥梁,并进行了代理商和客户之间的大部分呼叫。它支持成千上万的销售和客户服务的工作,每年的电话次数可以达到1亿多,电话时间持续数百万小时。这个规模是整个行业中非常巨大的数据。

如何在上进行手动语音质量检查? 58个手动语音质量检查中有一个特殊的质量检查团队。质量检查团队将下载呼叫中心录制的录音,并手动收听。聆听时,它将根据自己的理解记录座椅是否有一些违规和非标准。修辞。这种效率非常低。统计后,普通人每天可以收听大约三个小时的录音。

传统人工质量检查具有以下四个缺点:

首先是采样检查小于1%,覆盖率特别低,并且实际上没有质量检查大量语音数据。第二个是质量检查标准不一致。许多质量检查员根据他们在质量检查期间的理解来记录此席位中存在的问题。这可能会导致不一致的质量检查标准,并在后期建立一定程度的治理。麻烦。

第三,很难检测到很多风险信息。主要原因是采样不足,尚未绘制大量风险信息。

第四,质量检查效率非常低,人工成本也很高。

根据这些传统人工质量检查的缺点,我们创建了一个智能的语音质量检查系统,并且整个过程如上图所示。首先,我们将实时收集语音录音,并将语音转换为文本。然后,我们将根据我们的质量检查模型进行质量检查,最后在网络平台上显示质量检查结果。 Web平台上的重新检查人员将进行手动重新注射,并向相关主管进行重新检查结果。整个型号是全尺寸的机器质量检查以及手动重新检查。与传统的人工质量检查相比,它具有以下好处:

首先是对所有录音进行质量检查。 每年都有数百万小时的语音数据,并且可以完全检查这些数据。

第二个优势是实时反馈。录音是实时检查质量后,数据将直接显示在网页上,质量检查人员可以及时进行跟进和重新检查,重新检查结果将同步到主管及时的座位。

第三个是准确的风险标识。因为它是机器检查,因此有必要制定非常清晰的质量检查规则,然后使用机器来识别它们,以便质量检查结果将更加准确,更统一,并且在后期更容易量化。

第四个是它需要少量的手动重新启动,并且是有效的。我们的模型是机器质量检查以及手动重新检查。机器质量检查不需要人工成本,但是只有手动重新检查需要一些人力,这可以极大地提高效率。

2个整体体系结构

这张图是整体体系结构,我们可以看到最核心是逻辑层。逻辑层包括扬声器角色识别,语义标签和语音评分,它们等于我们整个项目的大脑,并且与其他模块相关。首先,访问层访问语音数据,然后调用基本服务层的语音分离和语音识别模块,以将其简化为文本,然后逻辑层开始相应的质量检查工作。质量检查完成的数据将显示在网络质量检查平台上。同时,编辑将对质量检查结果进行标记,评估和后续分析。

3个核心功能

接下来,让我们在整个质量检查过程中介绍核心技术,首先是语音分离和语音识别模块。语音识别是必要的模块,但是为什么要使用语音分离?这涉及即将发出的呼叫中心。它的设备是单声道,座位和客户的演讲在同一频道上,因此无法区分它们。如果您直接识别语音识别,则将获得代理商和与客户叠加的语音内容,并且更难进行随后的质量检查。因此,我们将首先进行语音分离,将座椅与客户的声音分开,然后执行语音识别。语音分离的评估指数是DER分离错误率,语音识别的评估指数是CER单词错误率。在这里,我们主要引入语音分离。

上面的图片很好地说明了语音分离和语音识别。在单声道上,您可以看到紫色条纹,座椅和客户的话混合在一​​起。语音分离后(第二个框图),将其分为扬声器A和扬声器b。最后,通过语音识别,第二个框图下方的句子被翻译。但是,在完成语音识别工作后,说话者A和说话者B仍然不知道哪个是座位,哪个是用户,因此也有必要确定说话者A和扬声器B的角色(这将是稍后介绍)。

单声语音分离

单声音分离的评估指标是分离错误率。分隔错误率的计算公式为:识别错误的音频持续时间/总持续时间的总和。右下角的图片中有两个声音,一个是标准集,另一个是测试集。标准组中有两个字符,扬声器A和扬声器b。但是,在分开声音后,将获得这样的测试集。您可以看到测试集与语音分离的分离与标准集不同。其中,错误,错过,都是错误的声音。语音分离的目的是最大程度地减少这三种错误的声音的持续时间。

上图显示了语音分离的整个过程。演讲后,您将首先使用VAD打破人声,识别人声,然后对人声进行矢量化,最后将向量聚集以形成两种类型的扬声器A和扬声器b。 VAD句子是的开源,它在我们的语音分离方案中取得了良好的结果。

第二步是使用34层VGG残差网络的音频转向矢量。我们尝试了矢量聚类中的各种聚类解决方案,最后选择了聚类。这是我们在VAD调音和音频转向向量方面的一些经验。

VAD调音

在VAD调整中,我们主要在两个方面进行调整以取得更好的结果。一个是框架移位,另一个是碎片合并。

对于框架移动,我们尝试了较小的框架移动,以便我们可以获得更细粒度的语音表示和更准确的人声识别。

第二个是剪辑的合并。底部图片是编辑的声音情况,但是在制作VAD句子时,它将被分成较小的剪辑。这些较小的碎片将减少DER,因此我们将其合并。

音频转向矢量

我们还尝试了音频转向向量的大量工作。这是使用34层VGG残差网络获得音频转向向量的最终方法。这是2019年顶级芒本报纸发布的网络。其最初的任务是一项语音识别任务,该任务确定了n个扬声器。我们将该模型的最后一层的输出直接用作相应的音频向量。

在整个语音质量检查过程中,我们首先将扬声器分开,然后使用语音识别来获取左侧的两个文本,即扬声器A的文本和扬声器的文本b。下一步是判断演讲者。 A是代理商或客户,因此需要进一步的操作,这是角色识别。我们的目标是在左侧的两个文本堆上识别他们的角色。

总体过程显示在右侧的图中。在获得语音分离和语音转录的结果后,我们将首先执行性别认可。如果我们发现这两个扬声器属于异性,我们将直接检查席位的性别,然后我们可以知道客户的性别。这样,在我们认识到每个声音之后,我们就可以知道他的角色是座位还是客户。如果我们发现自己是同性的,我们将进行另一个过程。首先,我们最初将判断说话者A和说话者B的身份,然后进行单句话校正以实现相对完整的角色识别。

最初的角色分配,我们还基于先验知识,通常在通话过程中在座位上讲很多事情。以左侧为例,如果说话者B有更多单词,我们会认为说话者B是座位和扬声器A是客户。基于这样的先验知识,在我们做出初步的决策和分配之后,我们会发现,由于说话者的早期语音分离,会出现某些分离错误,从而导致错误的级联,并且某些单词角色将识别错误以及整体。因此,我们还需要进行单一句子的角色校正工作。例如,经纪人说“我是的人”,他被分配到客户的这一边。然后,当我们纠正单一句子角色时,我们将纠正该句子为代理。

主要角色识别模型

这是我们的性别识别模型和单句话角色校正模型。性别识别模型我们使用 +BI-LSTM +,性别模型的识别精度为92%。在执行单句话校正时,我们最终使用了两层BERT。在我们的训练场合中,我们发现两层Bert不仅比12层BERT具有更好的结果,而且还大大提高了推理速度。 ,更方便我们在线推理。

质量检查算法

接下来,我们将介绍最核心质量检查算法模块。我们的大多数质量检查工作是检查座位上是否有一些违规或非标准的单词。我们可以将其抽象成NLP中的分类任务,在其中的质量检查算法中,分类模型占很大比例的。由于58拥有许多业务线路,因此每个业务线路都会抽象不同的标签,并且不同业务线的数据不同,并且我们使用的模型也将进行相应调整。在这里,我们主要分享销售业务系列的质量检查算法。销售工作是与某些客户交流并推广产品。在此过程中,可能会有一些非标准的演讲和一些非法行为。因此,我们从销售质量检查中提取了一些标签,例如投诉,侮辱和过度承诺。

我们的质量检测模块主要用于在一个句子中识别它。我们一开始使用的模型是,为什么我们选择此模型?有两个主要考虑因素:一个是我们标签的粒度不会太长,而且基本上是同一句子。例如,投诉标签基本上是一个陈述“我要向您投诉”和“如果您这样做,我会去相关部门起诉您”,可以在文本部分中确定,所以我们使用了它。第二点是,由于我们获得的文本以语音转录,因此会有一些ASR传输错误。对于具有更多ASR错误的文本,LSTM等模型的某些效果不如我们中的那些效果,因此我们将使用第一个版本。我们还将使用自己的业务数据预先培训SPTM模型。

SPTM模型是我们开发的模型。它的全名是预模型,我们于2019年4月开发。使用SPTM模型后,准确的动作已在一定程度上改进,并且目前是最有效的模型之一。在线推理的时间也很少,单层SPTM推理仅需12毫秒,评估效果与Bert-Base相同。

SPTM模型

SPTM型号于2019年4月出生,并根据BERT进行了一些更改,该BERT于2018年10月底出生。左侧的图是Bert,其中包括两个任务,一个是预训练,另一个是微调。我们进行的更改主要包括两个点。一种是用BI-LSTM替换它们,第二个是删除NSP任务。以上是我们SPTM的开源地址。如果您有兴趣,可以使用它。只需对自己的业务数据进行一些预培训,以在下游数据上产生良好的结果。

这是SPTM的详细介绍。 Bert-Base使用末端,这是由12层制成的堆栈。预训练的任务包括两个,一个是MLM,另一个是NSP任务。我们删除了该领域的NSP任务,以前的任务与BERT一致。除了更换每个块外,我们块的其他部分与伯特一致。

SPTM的优点是,预训练的模型具有快速的推理速度,缺点是其表达能力在某些复杂的任务上略有下降。例如,其表达能力在某些阅读任务中不如BERT好。但是在一些简单的任务中,例如一些常用的文本匹配,分类和序列标记任务,结果相对较好。

单句标签

对于单句标签,我们还尝试了其他一些模型。其中是一个相对典型的。它是在2019年9月提议的。与Bert相比,它对以下三个优化进行了优化:

第一个是嵌入向量的单词,它使用分解,并且参数的数量大大减少。第二个是跨层参数共享。跨层参数共享不会对其信息处理功能造成太大损害。第三是段落的连续性任务。我们积累了大量的ASR转录文本,因此我们使用自己的业务数据预先培训两层。模型参数量不仅大大降低,推理速度也更快,而且其训练速度也加速了。我们的业务数据与SPTM基本相同。

全局标签

除了单句标签外,我们还拥有一些使用全局标签的业务,例如上面的示例。在左边的这次对话中,客户有时会问:“获得营业执照需要多长时间?”目前,客户服务应该回答这个问题,但是一些客户服务会回答:“我不太了解,请向其他人提出问题。” ,这实际上是逃避责任的体现。我们的目标是认识到这种声音,但是如果我们只认识到“我不太了解”,则很容易造成意外伤害。因此,我们将结合上下文信息以识别它。

质量检查模块通常需要探索一些规则以发现数据分布规则,以便我们可以进行一些分析和规则制定。我们使用的是两种常见的规则挖掘方法:一个是ngram规则挖掘,另一个是新单词发现。

Ngram规则挖掘,其主要功能是发现一些对阳性示例样本敏感的规则,并且基本过程如上图所示。例如,有一个说法:“如果生病了几次,您尝试过多少次?”我们将首先提取其ngram数据,然后我们将分别计算出正面和负面示例的文本中出现的ngram的数量。如果在阳性案例中发生的次数远远超过负面案例的次数,那么我们认为这是对积极案例敏感并将保留的规则。它适用于注释文本分为正面和负面示例的情况。例如,在像侮辱这样的情况下,我们将使用它来发现对侮辱敏感的规则,从而提高了召回和准确性。

挖掘规则的另一种方法是发现新单词。当我们进行文本处理时,我们将进行一些单词切割工作,但是在剪切单词时有一些固定的表达式,并且一些常用的表达式不在词汇库中。单词滴答的粒度很好。但是我们想获得更长的粒度,以形成语义上易于理解的内容,因此我们使用了新单词。首先,将在语料库上执行正常单词分割,然后使用点共同信息选择替代单词,然后将根据其左右熵选择新单词。

以上是对我们整个核心技术的介绍。在对语音翻译的文本进行了质量检查之后,质量检查结果及时与Web质量检查系统同步,并且网络质量检查系统将显示出来。

这张照片是网络质量检查系统的屏幕截图。这个示例是客户说他想抱怨的时候。我们检测到这个风险点并将其放在网络系统上。重新检查人员将进行重新检查。如果您抱怨这真的是一个,他将单击以确认。如果这是错误的判断,他将修改标签并将其更改为普通标签。

我们还将标记和评估质量检查数据,将带注释的结果添加到培训数据中,不断优化我们的模型并改善质量检查效果。

评估将在质量检查后首先采样结果。抽样后,一个特殊的质量检查团队将标记它,还将对明显结果进行手动质量检查。质量检查的目的是确保标记数据的准确性,并最终形成评估集以进行评估。当前的总体准确率为92%。在收入方面,我们的呼叫中心已将所有记录与质量检查联系起来,其中客户服务质量检查节省了约1000人。

4个业务案例

第一种情况是对高风险销售记录的质量检查,即判断在销售和客户之间的沟通过程中是否发生过一些高风险行为。首先,我们制定了一系列标签,分为高风险标签和普通标签,其中我们将更多地关注高风险标签,因为高风险标签为用户带来了非常差的经验,并且也可能会带领向用户投诉。

质量检查系统将质量检查这些标签和重新检查人员将进行重新检查。这些重新检查的结果将传递给销售主管,后者将选择一些处理措施。例如,如果将这些手机放入无声数据库中,或者手机受到180天的保护,则无法在180天内调用销售,从而形成更好的反骚扰机制以保护客户免受骚扰。

第二种情况是呼叫中心风险控制和反骚扰。这基于历史语音数据,以预测高风险呼叫以减少客户投诉。由于我们的语音质量检查已在一段时间内积累了历史数据,因此历史上的每个呼叫都会带有标签。每个呼叫都会有一系列时间拨号,我们可以使用此标签来预测此呼叫是否是高风险呼叫,以及将来是否有投诉。

右边的表是我们进行的统计数据。实际上,我们理性地思考。用户说“不需要”或说“您称我过多的次”的次数越多,该用户的高风险率就越多,将来会投诉。因此,我们构建了这样的模型来预测高风险呼叫。我们预测的结果也将相应处理,例如输入无声数据库并在一定时间内保护电话。该机制的功能是有效减少高风险呼叫的拨号,减少客户骚扰,减少投诉并提高客户服务质量。

第三个业务案例是客户服务质量检查。客户服务方案主要分为两个部分:一个是通话过程中不得出现客户服务。例如,您不能在与客户的电话期间推翻责任,也不能没有开幕词或告别词。另一种情况是,与客户交谈时,我们必须包括某些标签。例如,对于新注册的用户,客户服务必须对他们进行“确认负责人”和“验证包装”等。 ,我们将进行相应的管理。

AI实验室招聘信息


# 58同城智能语音质检系统:语音识别与NLP技术提升销售客服质量  # 58同城智能语音质检系统  # 语音识别与NLP技术提升销售客服质量  # 这是  # 客户服务  # 语音识别  # 高风险  # 第二个  # 过程中  # 如果您  # 自己的  # 检查结果  # 将其  # 呼叫中心  # 是在  # 服务质量  # 转录  # 进行了  # 我们可以  # 认识到  # 的是  # 在一  # 句话  # 丹东网站推广威馨hfqjwl下拉  # 银川网站优化软件  # 农产品网站营销推广  # 公司注册SEO  # seo公司首推  # 中国黑客推广网站是什么  # 推广木业的网站  # 越南推广报刊有哪些网站  # 电子网站建设示例  # 微博营销推广和内容推荐  # 网站内容怎样优化  # 海宁|直播|网站建设项目  # 新手如何自学seo引流  # 网站需优化需要软件  # 抖音有哪些营销推广的功能  # 网页设计及网站建设  # 天津百度网站关键词排名  # 网站推广属于广告费  # 共享打印机的营销与推广  # 吴忠seo或推广 


相关栏目: 【 网站优化151355 】 【 网络推广146373 】 【 网络技术251813 】 【 AI营销90571


相关推荐: 太和县SEO优化,挖掘地域特色,助力企业腾飞,网站排名seo公司推荐  揭秘SEO315晚会的背后,如何巧妙规避风险?,华为网站seo关键词  收到这类微信官方短信要小心!点开链接后果不堪设想?   SEO优化:让你的网站在竞争中脱颖而出,临沧seo代理  德阳SEO排名优化公司,让您的网站在竞争激烈的市场中脱颖而出,抖音短视频营销与推广  新站SEO标题优化步骤,提升关键词排名的方法,帮你自动优化文章的网站  揭秘广州百度推广渠道商的坑,企业不可忽视的隐患,知识城建设办网站  SEO新手必看,如何高效利用搜索引擎提升品牌知名度,菲律宾seo新闻  山西SEO优化之选,介绍靠谱服务商,助力企业网站腾飞,gzip压缩动态文件seo  SEO项目分析,步骤与执行的艺术,兖州市网站优化  益阳SEO优化,介绍当地优质优化公司,助力企业网络营销腾飞,seo优化引流  淮安SEO网络推广,助力企业腾飞的新引擎,菏泽线下门店seo软件  广州企业如何优化百度推广余额使用策略,大庆网站建设专家评价  深圳市为恩科技产品:小巧易摆,手机打印标签超便利   自媒体营销,塑造品牌形象的艺术与科学,漳州网站建设优惠  探索SEO优化,企业如何利用搜索引擎提升在线可见度,电商网站建设需求  Excel表格设置下拉菜单选项的多种方法,你知道几种?   地主来了2019微信赢红包版,经典玩法与炫酷特效等你来   探索咸宁SEO推广机构的奥秘,拱墅区企业网站优化推广  SEO与爬虫,网络世界的两种“猎手”介绍,百度关键词点击排名外包  黑帽SEO的落幕,锦绣大地SEO培训引领新时代SEO浪潮,在线seo优化资源  抖音小店被清退?DSR评分规则及构成你知道吗?   郑州SEO推广公司排名介绍,如何选择最适合您的合作伙伴,seo应用技巧  重庆谷歌SEO,谁做得好?让我们一探究竟,南通网站建设总部在哪里  老科熬夜找的 12 款*网站推荐,附真实测评及获取链接   江西SEO快排系统,提升网站排名的秘密武器,健力宝推广官方网站  福建百度推广运营顾问工作是什么?,南丰企业网站建设推广  沧州SEO整站优化价格介绍,介绍高品质网站优化的成本与价值,抖音优化seo厂家  SEO客服:如何提升客户体验与业务转化的双赢策略,鄂州网站建设公司教程  福建百度推广服务费一年多少钱?,咸阳市网站建设  SEO网站优化,提升网站排名,助力企业腾飞,徐州seo常用方法  广州百度推广图片的关键意义与实用指南,衡水网站建设搭建  介绍资深SEO外包费用,投资与回报的平衡之路,谷歌seo镜像站玩法  广州百度推广学习之路,探索数字化营销新趋势,响应式网站建设图片高清  广州个人如何做好百度推广,营销推广的描述怎么写  广州百度推广圈词策略的优化之道,常州网站建设顾问  9月11日叶县党员姜晓康谈吊瓜增产,党员教育课堂成效显著   SEO利用:让你的网站快速登顶,获取更多流量与客户!,延边小程序推广平台网站  汕头市SEO网络推广价格介绍,投资与回报的完美平衡,昌吉网站建设优化公司  广州百度推广费用如何?全面解析企业投放成本,外贸站外营销推广的方法  SEO无限:如何利用SEO技术实现网站流量爆发?,网站建设总监  SEO建议:如何通过优化提升网站流量,赢得市场竞争,自媒体网站免费推广平台  SEO伪创:提升网站排名的危险策略与如何避免,怎样介绍社交网站推广  揭秘自媒体营销的秘密武器,如何让你的品牌在数字海洋中脱颖而出,seo电商有用吗  衡阳神马SEO优化方法,助力企业腾飞,打造网络营销新格局,抖音seo稳定排名多少  揭秘成功的自媒体人,如何利用SEO技能打造你的品牌,如何优化网站店铺排名  介绍宁夏抖音SEO价格,性价比之选,助力企业品牌腾飞,上海seo设计  广州百度推广策略,精准定位助力企业增长,汕头网站推广威芯hfqjwl  广州百度推广词条优化指南,珠海搜索网站优化推广  探索未知,自媒体营销的奥秘与策略,济宁营销线上推广