1/58
文档分类:IT计算机

基于神经网络的中文词表示方法研究.pdf


下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

特别说明:文档预览什么样,下载就是什么样。

下载所得到的文件列表
基于神经网络的中文词表示方法研究.pdf
文档介绍:
大连理工大学硕士学位论文
摘 要
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,词的语义表示
是自然语言处理中的基础工作,传统的 one-hot 表示方法,把每个词表示为一个很长的
01 向量,这种方法仅仅将词符号化,不能捕捉任何语义信息。随着深度学****和表示学****的发展,基于神经网络的分布式词表示技术得到了越来越多的关注。分布式词表示,即
词嵌入,将词表示为低维实值向量,这种方法不仅可以捕获词的语义信息,同时也能解
决词的歧义问题。
现有的中文词表示技术大多直接沿用英文的解决思路,直接基于词的层面建模。然
而不同于英文,中文词常常由多个字组成,中文词的语义信息也通常由词的内部字及其
上下文共同决定。考虑到中文的特点,最近的一些研究也证明了词的内部字对中文词表
示有很好的提升作用。本文同时考虑词的内部字及其上下文字信息,提出了一个新的基
于字词联合训练的中文词表示模型 ECWE。该模型通过对加强对汉字的有效建模,使得
汉字之间以及汉字同词之间的关系得到加强,同时丰富了词的上下文信息,从而使得词
表示蕴含更多的语义信息,提升了词表示的效果。通过引入外部上下文汉字信息,原本
孤立的字之间有了更多的联系,使得字向量包含更多的语义信息,进而提高中文词表示
的有效性。
本文在词义相似度计算,类比推理和文本分类任务上对中文词表示进行了评价,实
验表明我们提出的模型训练得到的中文词向量相比 CBOW、Glove、CWE 等词表示模型,
有效性有显著地提升。同时,我们调整字词建模比例和语料大小,实验证明了我们的模
型具有很好的鲁棒性。

关键词:自然语言处理;词向量;神经网络;表示学****


- I -
基于神经网络的中文词表示方法研究
Chinese Word Embeddings based on Neural Network Approaches

Abstract
Natural language processing is an important direction in the field of Computer Science and
Artificial Intelligence, word semantic representation is the basic work in Natural language
processing. The traditional one-hot representation which express each word as a long 01 vector,
can’t capture any semantic information. With the development of Deep learning and
Representation learning, the technology of distributed word representation based on neural
network has more and more attention. Distributed word representation, also known as word
embeddings, these high-dimensional, real-valued vectors, which can be used to capture
semantic and withstand ambiguity.
The previous research of learning word embeddings of Chinese, often directly using the
way of processing English, ignores the particularity of Chinese. In Chinese, a word is usually
composed of
内容来自淘豆网www.taodocs.com转载请标明出处.
非法内容举报中心
文档信息
  • 页数58
  • 收藏数0 收藏
  • 顶次数0
  • 上传人陈潇睡不醒
  • 文件大小2.35 MB
  • 时间2021-10-12