- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中醫症状术语体系库的建立’
中医症状术语体系数据库优化建设
The construction of TCM symptoms terminology database
周任材 林端宜
(福建中医药大学 图书馆 福建福州 350122)
摘 要:目的:为开展中医药数据分析与挖掘研究产生规范化、结构化数据集提供后台数据库支持。方法:主要采用数据预处理技术中的数据转换、数据集成等方法。结果:建立了含有3061条症状术语记录,且包括术语之间的上下位类关系和同义关系的“中医症状术语体系数据库”。结论:“中医症状术语体系数据库”的研建思路为专业领域术语体系库的建立提供了可行方案,亦为日后数据分析与挖掘所需的规范化和结构化数据集的产生莫定基础。
关键词 中医症状;术语体系数据库;数据转换;数据集成
中图分类号:R2-03 文献标识码:B 文章编号:
1引言
众所周知,中医药文化源远流长,?中医药理论博大精深,?该领域积累了大量数据,这些数据多以文献信息为?主,?常因地域、?时代、?编者认识及表述习惯的不同,?普遍存在着同一个概念表述不一致等现?象,而如何对现有数据?进行充分利用,并进一步挖掘出新的规律和知识,更是一个亟待解决的问题。??
笔者认同,具有科学价值的数据库或数据仓库应能实现基于数据库的数据挖掘,并支持相关科学研究。因此其理想的情况,一是数据库中的数据是不含噪声的正确数据;二是数据库中的数据是结构化的,计算机能自动阅读、处理,并支持数据挖掘。这就包括①数据集成:将多个数据源组合在一起。②数据清理:消除噪声,消除无关数据,消除不一致的数据,去除空白数据域,统一数据格式等。③数据变换:将数据统一组织加工和结构化,变换成计算机可处理或挖掘的形式。鉴于此,?本研究开展中医症状术语体系数据库的优化建设,以中医症?状信息为核心,?选择黎敬波教授《中医临床常见症状术语规范》(以下简称“《黎敬波·?症?状》”)[1]、?朱文锋教授《常见症状中医鉴别诊断学》(以下简称“?《朱文锋·?症状》”?)[2]?、?从国家标准《中医临床诊疗术语·?证候部分、?疾病部分》中抽取的中医症状术语(以下?简称“《国标·?症状》”)[3]?为数据源,?经数据变换、?数据集成等建立了含有3061条症状术?语记录的“?中医症状术语体系数据库”(以下简称“症状体系库?”?),?作为规范化中医症状信息的后台参考数据库。?该研究为?专业领域术语体系库的建立提供了可行方案,?亦为日后中医药数据分析、?挖掘及中医诊疗系?统所需的规范化和结构化数据文件的产生奠定了基础。
2 症状体系库研建的技术路线图
图1 建立症状术语体系数据库技术路线图
3 中医症状术语数据源选择?
首先明确中医症状术语的数据源选择必须满足下述条件:1)术语规范、?全面,?包含定义?及同义词关系;2)存在较为完整、?上下位概念层次明确的症状术语体系。?经领域文献调研,?因 《黎敬波·?症状》源于国家中医药管理局重点专项课题,?并收集了2000多条常见症状术语、?且包括定义和完整的术语体系,?具有弥补中管局《中医临床诊疗术语》(GB/T16751 1997)无 “?症”?术语的不足,因此作为第一优先数据源采用。?其次,?选择《朱文锋·?症状》中的600症状术语和从《中医临床诊疗术语·?证候部分、?疾病部分》经词频统计抽取出的305条症状?术语作为症状体系库的3个数据源。?上述数据源均具有一定的权威性,?体现了本领?域研究的最高水平,?但又因各自特点和侧重给术语的集成处理造成了困扰。?因此,?对中医症状?术语原始数据的预处理显得十分重要。
4 原始数据预处理
4.1特殊体例符号的处理
不论是在《黎敬波·?症状》,?还是在《朱文锋·?症状》中均具有较为统一的原始数据撰?写体例,?即在术语条目中存在方括号、?圆括号、?顿号和斜杠。?其中,方括号[ ]?所括起的内容,表示放在方括号中间的词可以代替部分前面的词;圆括号( )所括起的内容,?表示可以省略;顿号(、)表示用顿号分开的词是同义词或顿号后的词可以代替部分前面的词;?用斜扛(/)分?开的词,?表示放在斜扛后面的词可以代替部分前面的词。?如《黎敬波?·症状》中“?得气行(暖?气、?矢气、?肠鸣)痛减”?需要预处理为“?得气行痛减”、“?得暖气痛减”、“?得矢气痛减”、?“?得肠鸣痛减”?四条症状术语,?且四条术语含义相同。?具体数据预处理结果如下:
(1)《黎敬波·症状》原始数据有2138条,经处理带顿号(、)数据4条;带圆括号( )数据21条;带斜扛(/)数据23条之后,因1条原始数据可能含有2个或2个以上特殊符号,故新增术语67条,最终产生2205条症状术语。
(2)《朱文锋·症状》原始数据有746条,经处理处理带顿号(、)数据23条;带圆括号( )数据4条;
文档评论(0)