下载此文档

一种面向自然语言表达的不确定时态数据的建模方法.doc


文档分类:IT计算机 | 页数:约12页 举报非法文档有奖
1/12
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/12 下载此文档
文档列表 文档介绍
该【一种面向自然语言表达的不确定时态数据的建模方法 】是由【读书百遍】上传分享,文档一共【12】页,该文档可以免费在线阅读,需要了解更多关于【一种面向自然语言表达的不确定时态数据的建模方法 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。一种面向自然语言体现的不拟定期态数据的建模措施
第31卷第5期
1O月
河北科技大学
JournalofHebeiUniversityofScienceandTechnology
,

文章编号:1008—1542()05—0463-05

种面向自然语言体现的不拟定
时态数据的建模措施
侯来宾,曹卫东.
(,河北秦皇岛066004;,河北秦皇岛
066002;,河北秦皇岛066022)
摘要:在医疗信息系统中,
,在此对时态数据

.
核心词:时态不拟定性;时态原语;NLTM模型;持续时间;时态元素
中图分类号:TP311文献标志码:A
Amodelingwayforindeterminatetemporal
databasedonnatural1anguageexpressions
HOUGui—bin".CAOWei—dong.
(,YanshanUniversity,QinhuangdaoHebei066004,China;
PortCompanyLimited,QinhuangdaoHebei066002,China;,Qinhuangdao
Hebei066022,China)
Abstract:ThetemporalinformationthatincludesnaturallanguageexpressionsisthekeytOthemedicalinformationsystem.
However,
needofthemedicalinformationsystem,thecurrentresearchtechnologiesofthetemporaldatamodelandsomeclassicalindeter—

model,namedNLTM,basedonnaturallanguageexpressions,tOdealwiththeaboveproblemsinthemedicalinformationsys—
temandextendsallsortsoftemporalprimitivetypestOsupporttimeindeterminacyaccordingtOtheattributesdefinitionof
NI,TM.
Keywords:temporalindeterminacy;temporalprimitives;NLTMmodel;duration;temporalelement
1问题的提出
时间是现实生活中的一种重要因素,,对
,时态信息解决技术已经成为许多新一代数据库与信息系统的核心
技术,特别在电子商务,财经系统,医疗系统,土地规划系统,地理信息系统,预约系统中扮演日益重要的角
.
收稿日期:—04—07;责任编辑:李穆
作者简介:侯来宾(1968一),男,内蒙古商都人,高档工程师,博士研究生,重要从事数据仓库,数据挖掘方面的研究.
河北科技大学
时态数据的管理问题重要涉及时态数据模型的建立,模型的完整性和一致性约束的原则,关系演算和代
数运算的建立,时态查询语言的构造,时态数据的存储和索引,
,时态信息也许是不拟定的[1].由于不拟定期态数据
自身的特点,,为了访问和使用这些不拟定期
态数据,必须对它们进行建模和存储.
基于既有时态数据模型和自然语言中时态数据不拟定性的特点,针对自然语言中存在不拟定期态信
息的数字化表达,笔者给出不拟定期态数据的表达,在此基本上探讨了时态数据模型在医疗信息系统中
的应用.
2不拟定期态原语类型及其表达措施

型:时问点(又称时刻),时问区间和持续时间(又称时间跨度).时态元素(timeelement),指不相交时间区间
的有限并集.
笔者采用离散时间域T一[0,NOW]一{o,1,2,…,NOW),并且T满足线性序≤,即(T,≤
).用非负
整数来表达时间值,其中"0"表达最小时间值,"NOW"表达目前时间,"CXD"表达数据库系统中的最大时间.
以老式的时态数据为基本,不拟定性时态数据可扩展为4种,分别为不拟定期间点(indeterminatetime
point),不拟定期间区间(indeterminateinterva1),不拟定持续时间(indeterminateduration)和不拟定期态元
素(indeterminatetemporalelement).

,月,日和小时等不同步间粒度描述的时间都是
时间点的体现.
定义1令t和t为时间域内的拟定期间点,且有t≤,可表达为P,一<£~
te>,其中P,∈{tlt,为时间域丁,且t≤£≤t}.t和t分别表达不拟定期问点的上界(upper)和下界
(1ower).

拟定期间区间ID是2个拟定期间点之间的持续有限集.
定义2开始和/或结束点不拟定的时间区间称为不拟定期间区间().不拟定期间区间用2个时间点
构成的二元组[s,],
时,.

1)1个区间端点不拟定,形如[s,e]或[s,].星号()表达在该端点是不拟定的.
2)2个端点均不拟定,形如[s,].[95,loo]表达开始时间在95后来,结束时间在100之前.
以上2种状况没考虑不拟定期问区间[S,]和[s,e],由于这2种区间可以转换为[s,e],[O,s]或[e,
NOW],[S,e]一Eo,s]U[s+1,e],[,e]一[s,e一1]U[s,NOW].其中:
[s+1,e]和[s,e一1]是拟定的时间区间.
3)时间区间端点中有1个未知,形如[?一,r]或者[c,?+].符号"?一"和"?+"分别表达开始时间和结
束时间是未知的.

形如[t]"大概"和"3点左右"之类的时态数据就
是相对不拟定的."大概"可表达为[].

持续时间指2个时间点之间的长度,
不拟定的,它有最小值和最大值.
(例如年,月,El和小时等).不拟定持续时
间的规范表达是D,一<d.~.>,,持
第5期侯来宾等一种面向自然语言体现的不拟定期态数据的建模措施465
续时间是拟定的.

时间区间上的集合操作有交,并和差,这些集合操作的成果并不一定是区问类型,而也许是区间的集合.
时态元素指不相交时间区间的有限并集.
定义3不拟定期态元素(TE)
示为TE,一{…,},其中jn工,一,1≤i,≤.

上面的不拟定期态数据是在时间范畴已知的基本上建立的,
要有3种类型:1)已知数据存在,但未知具体值,用unk(unknown)表达;2)数据不存在用dne(donotexist)
表达;3)无数据的信息用ni(noinformation)表达.
3NLTM模型的设计
近年来,有关时态表达和时态推理的研究越来越多,这些研究者把不同窗科中的基本措施和技术结合在

起,涉及人工智能,数据库管理,多媒体系统,历史管理系统和医疗信息系统,以此来推动医疗信息系统的
发展[4].由于现实世界的动态变化,,例如
粒度不匹配,日期的测定技术,筹划的不拟定性,
持这些信息的存储和提取,除了与自然语言有关的数据的复杂构造外,还需要解决临床数据的时间维,一般
采用有效时间j.
,结合以
上这些问题,提出一种时态数据模型NLTM(temporalmodelofnaturallanguage)管理医疗数据的不拟定期
态信息.

时间在临床医学中的重要性重要表目前病情的诊断,治疗措施及预后(指从病中痊愈的也许性)的拟定.
,相对
日期和时间,持续时间,基于事件的时态体现式,模糊时间和反复时间].绝对日期和时间此类时态体现式
重要有日期,时间,星期,一天中的某段时间和四季5种;相对日期和时间具有"今天","来年","两天前"和
"上个月以内"等的时态体现式;持续时间是指时间轴上2个时间点之间的距离,它表达事件持续了多久;基
于事件的时态体现式运用事件作为绝对时间,它一般指一种事件的端点受其她事件的约束,即某个事件的发
生时间与其她事件有关;模糊时间指时态体现式是模糊的,如"上午早些时候","半夜"的确切时间边界是很
难拟定的;反复时间此类时态体现式表白事件发生在规则的时间区间内,以一定的时间区间反复发生.

NLTM模型的时态原语类型,涉及时间点,时间区间,持续时间和时态元素.

假定期间域TD是非空,有限的全序集,
,此处采用时间单
位"秒",同一条自然语言体现式中也许同步涉及不同的时间粒度和不拟定
性l7].笔者采用原则日期格式YY—mm—,采用格式hh:mi:SS.

时间点(PD)是时间域TD中的一种元素.
定义4令£和t为2个拟定期间点,IPT是时间点类型的变量的域,对于该类型的变量,定义函数
lower()和upper():IPT---~ELEM.
则不拟定期间点Pf一<£~£>,其中P,∈{tIt∈U,t≤≤).

,,£.]一{tlt∈U,t≤≤£.).
定义6开始和/,J]表
466河北科技大学
示,其中和/,对于区间类型的变量,函数start(),
end()和dur()返回属于集合IPT的值.

()和upper():
DUR—,它有最小值和最大值.

为了表达时态信息的不同语义,笔者扩展了时态元素的概念.
定义7不拟定期态元素TE,
TE={工,z,…,J}.I"n工D=:=,14i,≤,对于该类型的变量,函
数first()和last()返回属于类型IPT的值.

在管理或推理医疗数据时,:一
是所采用的时间模型,一般来说重要有线性,分支和循环3种[2;
医疗信息领域相对时间也很常用,.
定义8支持不拟定期间属性的医疗信息时态数据模型NLTM由三元组M一<P..,P,P>构成,其
,P.∈A,P表达病人病例,P.∈
拟定期间的病人病例表达措施.
下面根据不同的时态体现式,定义P的几种表达措施.
1)符号'yy','YY—mm'等表达Et期元素,可以是拟定的或不拟定的,如"05,%03—03-22,03—04-10~"等.
2)符号'hh','hh:mi'表达日期中的时间,"<14:20:3O~14:30>"表
示不拟定期间点.
3)对于涉及自然语言体现式"持续3个小时","30天至4O天"之类的句子,可用形如"3h,<30d~
40d>"表达拟定或不拟定的持续时问.
4)与老式的时间区间不同,在NLTM模型中,区间的开始和结束时间都可以是持续时间.
5)特殊时间元素NOW表达某事件的有效时问持续到目前状态.
4实例验证
例:某医院部分病人的病情及治疗时间状况如下所示.
1)病人1在12月3日浮现胸口痛,持续时间为2小时55分钟.
2)病人2自称在1月29日13时20分15秒到13时56分23秒有强烈的胸痛感.
3)病人2在1月被容许使用紧急看护病房,并经历了36小时的紧急医疗管理.
4)病人3在2月15日发生心肌梗塞.
5)在4月12日下午3点,病人2经历了7分钟35秒的胸口痛.
6)从12月到4月之间病人4曾服用过阿司匹林.
7)从1月30El开始,病人3接受溶解血栓剂治疗,共持续了35~38小时.
8)病人5在6月6日患有头痛病,开始时间在1O时到1o时3O分之间,结束时间在12时10
分到12时3O分之间.
9)病人4从3月21日开始接受皮肤病治疗,并且持续到目前.
10)病人5在1月21日15:30患失语症,共持续20小时.
一方面需要在数据库中表达和存储这些自然语言语句,还需要用不同的粒度和不拟定性来查询这些数据.
NLTM模型的表达措施如下.
,采用"YY—mm—dd"的形式表达日
历时间(年,月和日).用"hh:mi:SS"表达小时,<>
的定义表达该医疗信息自然语言时态体现式.
1)<1#,胸口痛,O5—12—03,2h55rain~.
2)<2#,胸口痛,06—01-29,[13:20:15,13:56:233>.
第5期侯来宾等一种面向自然语言体现的不拟定期态数据的建模措施467
3)<2#,急救,06—01,36h>.
4)<3,心肌梗塞,06-02—15>.
5)<2#,胸口痛,O6一O4—12,15:OO,7rain35s>.
6)<4,服用阿司匹林,<04—12,O6—04>>.
7)<3,溶解血栓剂治疗,O6—01—3O,<35~38h>>.
8)<5,头痛,O6—06—06,[<10:O0~10:30>,<12:0O~12:3O>]>.
9)<4,皮肤病治疗,Eo6—03—21,NOW]>.
1O)<5#,失语症,2Oh,05-01—21,15:30>.
医疗信息系统中的时态属性是非常复杂的,
围较小时,该存储措施既简朴可行,
于反复的时间属性—01-29只存储一次,,

一种面向自然语言表达的不确定时态数据的建模方法 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数12
  • 收藏数0 收藏
  • 顶次数0
  • 上传人读书百遍
  • 文件大小30 KB
  • 时间2022-12-07