Udesk AI Lab受邀参加SMP2019大会并分享人机对话最新研究成果

Udesk AI Lab受邀参加SMP2019大会并分享人机对话最新研究成果

由中文NLP最权威学会-中国中文信息学会主办的SMP2019全国社会媒体处理大会近日在深圳召开,大会共分为社交机器人、情感分析、表示学习等10个技术论坛,吸引了国内相关领域的100余所顶尖学术机构和60+顶尖企业的积极参与。

 

Udesk AI Lab受邀参加SMP2019大会并分享人机对话最新研究成果

SMP2019大会开幕

 

作为智能客户体验服务领军者,Udesk一直致力于利用人工智能技术提升客户体验的研究实践工作。Udesk研究员Jeff Hou在会上分享了基于BERT联合训练的自然语言理解,报告了Udesk AI Lab团队在自然语言理解方面的最新研究进展。下面是报告的详细内容:

 

Udesk AI Lab受邀参加SMP2019大会并分享人机对话最新研究成果

Udesk AI Lab研究员Jeff Hou分享前沿研究成果

 

Udesk AI Lab受邀参加SMP2019大会并分享人机对话最新研究成果

Udesk AI Lab 获奖

任务型对话

近年来,人机对话技术受到了学术界和产业界的广泛关注。学术上,人机对话作为人机交互最自然的方式之一,其发展影响及推动着语音识别与合成、自然语言理解、对话管理以及自然语言生成等研究的进展;产业界,通过人机对话来解决用户问题正在逐步改变着企业服务的方式,通过智能客服对客户进行服务,既可以提高服务的效率,又可以提供服务的质量,极大的推动企业服务质量的提升,具有巨大的实用价值。

任务型对话作为人机对话的重要组成部分,具有广泛的应用前景,近年来受到学术界和工业界的越来越多的关注。任务型对话系统是指以人机对话的形式提供信息或服务的系统。通常情况下是为了满足带有明确目的的用户,例如查流量、查话费、订餐、订票、咨询等任务型场景。

任务型对话系统核心模块主要包括三部分:自然语言理解(NLU)、对话管理(DM)、自然语言生成(NLG)。自然语言理解作为核心的技术,主要包括下面三个子任务:领域分类、意图识别和语义槽填充。其中,领域分类任务是把语句划分到指定的不同领域标签内[1]。例如:给定一句用户的指示,“我想听周杰伦的菊花台”需要将其划分到领域“music”下,进而根据领域“music”有针对性的对指示给出响应。与领域分类任务类似,意图识别任务是把语句划分到不同的意图标签内。而语义槽填充则是需要识别出用户指令语句中的实体部分,并进行标注。例如,上例中的意图为“PLAY”,语义槽为“artist:周杰伦”,“song:菊花台”。特别的,本次评测任务中,意图识别任务、语义槽填充任务都与领域分类任务有关联。例如:判定领域为“music”的,意图一定为“PLAY”;在填充语义槽时,同样是始发地与终点,判定领域为“bus”时,其语义槽为“Src”与“Dest”而判定领域为“flight”时,其语义槽为“startLoc_city”,“endLoc_city”。

模型及方法介绍

本节主要介绍BERT基础模型处理相关任务及本文所使用的基于BERT的两种联合训练模型。

BERT基础模型
Bidirectional Encoder Representations from Transformers(BERT),是谷歌于2019年底提出的一种基于Transformer模型的双向编码器[1]。与Generative Pre-Training(GPT)[2]两阶段训练法类似,BERT也采用语言模型进行预训练作为第一阶段,第二阶段在下游任务进行微调,其在多种自然语言(NLP) 处理任务上取得了最佳成绩。
BERT中的特征抽取器完全使用Transformer模型[3],与传统的循环神经网络 (RNN)和卷积神经网络(CNN)作为encoder-decoder的其他大多数模型不同,在中文中使用字级别的特征,并在建模时每个字都与句中的其他字建立联系,故而可以结合上下文中较远的关键信息。双向Transfromer深度结构的使用极大增强了模型的语言表征能力。

基于BERT联合训练模型I
为了融合多个任务的信息,我们采用多任务共享模型参数的方式训练多个任务的模型,即多个任务的模型分别训练,但是训练一个模型时以其他模型的训练结果进行模型的初始化,模型结构及训练流程如下图所示,三个模型共享BERT的参数,采用分别单独循环训练的方式训练模型,即先训练一轮Domain,再在Domain的BERT参数基础上训练Intent,然后在Intent的BERT参数基础上训练Slots,一轮之后重新在Slots的BERT参数基础上训练Domain;如此往复进行训练,直到各个模型都达到最优。

Udesk AI Lab受邀参加SMP2019大会并分享人机对话最新研究成果

模型结构

 

Udesk AI Lab受邀参加SMP2019大会并分享人机对话最新研究成果

训练流程
 
基于BERT联合训练模型II
模型II与模型I在代码结构上基本一样,只是训练方式不同,模型II采用多个模型共同训练的的方式进行训练,即将多个模型的输出loss进行加权求和,作为联合模型的loss进行训练,模型的参数同时更新,如下图所示

Udesk AI Lab受邀参加SMP2019大会并分享人机对话最新研究成果

加入额外特征的BERT模型
BERT本身的特征提取的能力和语义表达能力已经非常优秀,但是加入一些额外的特征依然会有一定的提升效果,我们在BERT的输出层之后,又加了一个额外的特征层,与BERT的输出层结果concat起来作为下一层的输入,使模型可以获取到更加丰富的特征。这儿我们加入的特征为关键词特征,采用onehot的方式接入。

Udesk AI Lab受邀参加SMP2019大会并分享人机对话最新研究成果

实验结果及分析

实验数据
SMP2019自然语言理解评测的数据总体情况如表1所示。领域包含“app”、“websit”、“health”等29类,意图包括“LAUNCH”、“QUERY”,“PLAY”等24类,语义槽包括“artist”、“category”、“datetime”等60类。

Udesk AI Lab受邀参加SMP2019大会并分享人机对话最新研究成果

训练集语料各任务数量统计

 

 

评价指标
对于领域分类、意图识别,我们采用准确率(acc)来评价,对于语义槽填充,我们采用F值来评价,为了综合考虑模型的能力,我们最终采用句准确率(sentence acc)来衡量一句话领域分类、意图识别和语义槽填充的综合能力。

实验结果与分析
采用联合训练模型的结果如下表所示,联合模型I训练2个循环之后达到最优;联合模型II在Slots的效果表现上较差;联合模型I+II的方式为先用模型II训练基础模型,然后在模型II的BERT参数基础上,再采用模型I的训练方式分别对模型进行优化,最终的效果达到最优。

Udesk AI Lab受邀参加SMP2019大会并分享人机对话最新研究成果

联合训练模型效果比较

加入词特征对模型的影响如下表所示

Udesk AI Lab受邀参加SMP2019大会并分享人机对话最新研究成果

词特征对模型的影响

 

然后本文分别对三个任务单独抽取关键词表,并对结果进行约束,例如,出现“红烧”、“清蒸”等关键词则约束其为“cookbook”,出现“歌曲”约束其为“music”,出现“到北京”约束其为“end_city”等。并加入规则对其进行约束,例如“播放一首英文歌曲”,同时出现两个及以上的关键词则取最后一位的关键词所在domain。加入关键词表及规则约束后的最终的结果如下表所示:

Udesk AI Lab受邀参加SMP2019大会并分享人机对话最新研究成果

加入关键词及规则效果比较

 

Udesk作为智能客户体验服务行业的领军者,一直致力于人机对话技术的前沿研究,在语义计算、任务式对话、知识图谱等方面都有比较深入的研究,并将研究成果应用到产品中,不断的提升客户的服务水平。

 

———————————–

参考文献

  1. Tur G, Deng L, Hakkani-Tür D, et al. Towards deeper understanding: Deep convex networks for semantic utterance classification[C]. Proceedings of the 37th IEEE International Conference on Acoustics, Speech,
  2. Devlin J, Chang M, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv: Computation and Language, 2018.
  3. Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J], 2018.
  4. Vaswani A, Shazeer N, Parmar N, et al. Attention is All you Need[J]. neural information processing systems, 2017: 5998-6008.

———————————–

 

Udesk是国内领先的智能服务平台,拥有数万家云上企业用户,通过整合AI、大数据、云计算为企业提供了一套集文本/ 语音机器人、智能质检、全渠道在线客服系统现场服务、数据分析为一体的全场景智能客户体验解决方案。

 

Udesk客户有光大银行、中国人寿、国家电网、海底捞、星巴克、故宫博物院、中青旅耀悦、伊利、蒙牛、自如、巧虎、养乐多、李宁、壳牌等。覆盖了股份银行、餐饮、本地生活、旅游等行业。

 

Udesk于2018年9月完成C轮3亿人民币融资,投资方为老虎环球基金、君联资本、DCM。

原文始发于微信公众号(Udesk技术团队): Udesk AI Lab受邀参加SMP2019大会并分享人机对话最新研究成果

分享到:

评论已关闭