- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
道地药材图谱检测数据处理基础信息模型
1范围
本标准规定了道地药材图谱检测数据处理中所涉及的信息实体及语义关系,用于指导
设计数据驱动的图谱检测和分析系统的底层数据存储结构和信息交互格式。
2规范性引用文件
无
3术语和定义
下列术语和定义适用于本标准。
;.1道地药材DodiMedicinalMaterials
指经过中医临床长期应用优选出来的,产在特定地域,与其他地区所产同种中药材相比,品质和疗
效更好,且质量稳定,具有较高知名度的中药材。
3.2图谱检测SpectroscopicProfiling
包括质谱及其联用、振动光谱(如拉曼、红外、紫外光谱)及核磁共振谱等检测方式。
3.3本体Ontology
本体(ontology)起源于哲学,指组成现实(reality)的各类实体(entity)。在信息学领域,本体是对目标领域内客观实体的规范化表示。本体实现了计算机系统对于领域知识的一致性“理解”,为构建各
种应用提供基础的语义支撑,是一种信息模型。
3.4实体Entity
客观物理世界的事物在计算机系统中的表征。
4信息模型的核心实体
麻勒有多个匹建D(B甚窦腩CE蛴猊盔杭保存加悯生成顿炯
麻勒
有多个
匹建
D
(
B甚窦腩
C
E
蛴猊
盔杭
保存
加悯
生成
顿炯
A窦腩
额出
+,-
+,-喵
额入
有多个有多个
有多个
额出
mzML,
mzML,JCAMP-DX
似
似
獒掠
獒掠
愁
实线箭头表示底层数据库中具体的外键引用,虚线表示外部引用,如URL或资源路径。椭圆表示
实体,文档图标表示外部或中间文件对象。
4.1数据集
“数据集”是多个“图谱”实例的集合。一个数据集的图谱是面向同一检测主题的(例如,分类牛奶品牌和识别特定的地道药材),通过相同的检测模态(拉曼或MALDI-TOF-MS),使用相同的数据预处理
方法(如过滤、平均、基线校准),并具有相同的数据维数(如峰值数)。
“数据集”可以导出为矩阵或表格形式,供主要的科学数据分析平台导入,如MATLAB、R或Python。
在实际的系统操作中,这种中间数据格式更易于驱动整个图谱数据的分析过程。
4.2图谱数据
“图谱”表示一个图谱数据。该数据已经过必要的数据预处理,可以直接用于后续的数据分析。一个图谱对象包含一个X值数组(如,用于拉曼的波数,或用于MALDI-TOF-MS的m/z)和一个可选的y
标签(在有监督数据分析的情况下)。图谱数据是信息模型的核心实体。
每个“图谱”实例可以序列化为第三方标准文件格式,如mzML(MS)或JCAMP-DX。对于第三方仪器系统,如Agilent,Bruker,Horiba,Shimadzu,Thermo,Waters等,这些标准文件格式可以用于交换和共享
图谱数据。
4.3日志
每个“图谱”实例有多个“日志”项,用于追踪数据状态的变化。该实体定义了图谱数据生命周期的几
个阶段,包括生成、预处理、审查、分析和报告。
4.4流水线
“流水线”是一组算法单元组织起来的流程序列。每个“流水线”都针对于特定的数据集和分析目的。一个典型的图谱数据流水线通常包含若干预处理单元(如过滤、归一化、降维)及一个回归器/分类器。流水线在运行时(runtime)环境中被实例为复合模型(如特征选择+逻辑回归、支持向量机或神经网络),并由目标数据集训练。训练后的模型可以持久化到文件中(如MATLAB的.mat文件或python的.pkl文件)。此后,模型文件反序列化后可以加载回运行时环境中,对新样本进行预测分析后,可以生成人可读的报
告和计算机可处理的结构化报告形式,服务于进一步的决策支持。
4.5算法单元
算法单元包括基线漂移去除、平均滤波、特征缩放、特征选择、分类器、回归器等。每个算法单元需提供实现代码或伪代码。不同的算法单元针对不同的数据科学平台和编程语言可以有多种实现。算法工程师既可以直接调用使用现有的库,也可以上传编译后的二进制代码来实现。附录A列举了基本
的算法单元,应内置到相关分析系统中。
5信息模型实体及属性字段定义
5.1数据集
描述:为相同的目的而生成的谱数据集合。具有相同的检测模态(拉曼或MALDI-TOF-MS),采用相同的
数据预处理方法(过滤、平均、识别、基线漂移去除等),具有相同的数据维度。
字段
类型
描述
数据集ID
属性
唯一的ID,主键。
数据集名称
属性
数据集的名称。
数据集检
您可能关注的文档
- 大闸蟹养殖技术规程.docx
- 大中型沼气工程沼渣堆肥发酵工艺技术规程.docx
- 大众乒乓球技术等级(段位)标准与评价.docx
- 大宗固体废弃物在道路工程中的应用技术规程.docx
- 大宗固体废物资源综合利用评价指南.docx
- 代耕代种服务规范.docx
- 代驾服务安全管理要求.docx
- 代建工作规程第1部分通用篇.docx
- 代建工作规程第2部分房建专业篇.docx
- 代建工作规程第3部分路桥专业篇.docx
- 第二章资源安全与国家安全 章末检测卷(含解析)人教版(2019)选择性必修3 资源、环境与国家安全.pdf
- 河南省开封市祥符区2024-2025学年九年级上学期期中语文试题(含答案).pdf
- 25 王戎不取道旁李 课件(共41张PPT).pptx
- 26 西门豹治邺 课件(共43张PPT).pptx
- 广西壮族自治区柳州市柳南区柳州铁一中学2024-2025学年高二上学期12月月考语文试题(含答案).pdf
- 26.《手术台就是阵地》课件(共31张PPT).pptx
- 湖北省黄石市阳新县富川中学教联体2024-2025学年九年级化学上册期末总复习达标训练题(含答案).pdf
- 安徽省合肥市庆平希望学校2024~2025学年九年级上学期期末模拟化学试题(含答案).pdf
- 海南省东方市西大实验学校、第三实验学校等三校2024-2025学年九年级上学期期中作业质量检测道德与法治试题(含答案).pdf
- 湖北省荆楚联盟2024-2025学年七年级上学期期中考试数学试卷(含详解).pdf
文档评论(0)