一种快速获取领域新词语的新方法本文承“国家语言资源监测”(项目号:L2004-01-01-04)资助,特此致谢!
刘华刘华,1975年生,男,博士,讲师,研究方向:计算语言学,信息检索
(暨南大学华文学院,广州,510610)
摘要:针对新词语识别问题,直接抽取分类网页上人工标引的关键词,按照其网页栏目所属类目存储进各分类词表,快速完成新词语识别和聚类任务,简单快捷。从15类6亿字网页中抽取到229237个词条,新词语175187个,%,其中游戏类新词率最高,时政_社会类新词率最低。新词语以命名实体为主,结构固定,意义完整性和专指性强,有助于解决歧义切分和未登录词问题,并能提高文本表示如分类和关键词标引的效果。
关键词:新词语;识别;聚类
中图分类号:TP391
A Short Cut of New Classified Words Detection
Liu Hua
(College of Chinese Language and Culture of Jinan University,Guangzhou,510610)
Abstract:Extracts directly key words labeled by specialist in web pages, and stored them in classified wordlist according to the column of source web page, detects new words and clusters quickly. From 6 hundred million web pages covering 15 kinds, extracted 229237 words, including 175187 new words, the new words ratio is %. New words are mostly Named Entities, with steady structure and integrated meaning, conducive to ambiguity and unknown words in Chinese word segmentation, would improve text representation, such as text categorization and key words indexing.
Keywords:New Words;Detection;Clustering
新词语的识别和领域聚类是自然语言处理、信息检索、信息提取中的一项基础研究。新词语可以丰富人类语言知识,帮助解决一些歧义切分的问题;而且,新词语常常表达更为精确完整的概念,能提高向量空间模型的文本表达能力和文本分类的效果。
本文在简要回顾新词语识别和聚类的基础上,介绍了一种简便快捷的新词语发现和聚类的新方法。该方法直接抽取网页上人工标引的“关键词”和其他词语信息,并按照该网页栏目的对应类别将新词语分类,同时达到了新词语识别和领域聚类的目的。最终从15类6亿字的语料中抽取出了约18万条分类新词语,并分析了这些新词语的特点及其在语言信息处理中的应用。
1 新词语识别和聚类简述
新词语识别
A Short Cut of New Classified Words Detection 来自淘豆网www.taodocs.com转载请标明出处.