智能系统学报
CAAI Transactions on Intelligent Systems
ISSN 1673-4785,CN 23-1538/TP
大规模的复述平行语料,当面向新的语言或新的领域时,模型性能急剧下降。面对这一困境,
我们提出低资源的迭代式复述生成增强方法,最大化利用单语语料和小规模复述平行语料迭代式训练复述生成模型
并生成复述伪数据,以此增强模型性能。此外,我们提出句子流畅性、语义相近性和表达多样性为基准设计的伪数
据筛选算法,选取高质量的复述伪数据参与每轮模型的迭代训练。在公开数据集 Quora 上的实验结果表明,我们提
出的方法仅利用 30%的复述语料在语义和多样性指标上均超过了基线模型,验证了所提方法的有效性。
关键词:低资源;迭代式;复述生成;数据增强;筛选算法;神经网络模型;编码-解码框架;注意力机制
中图分类号:TP18 文献标志码:A
中文引用格式:张琳,刘明童,张玉洁,等. 探索低资源的迭代式复述生成增强方法[J]. 智能系统学报,DOI:
.
英文引用格式:ZHANG Lin, LIU Mingtong, ZHANG Yujie, et al. Explore the Low-resource iterative paraphrase
generation enhancement method [J]. CAAI transactions on intelligent systems, DOI:. 202106032.
Explore the Low-resource iterative paraphrase generation enhancement
method
ZHANG Lin,LIU Mingtong,ZHANG Yujie,XU Jin’an,CHEN Yufeng
(School of Computer and Information Technology, Beijing Jiaotong University, Beijing, 100044, China)
Abstract:Paraphrase generation aims
探索低资源的迭代式复述生成增强方法 张琳 来自淘豆网www.taodocs.com转载请标明出处.