网站大量收购独家精品文档,联系QQ:2885784924

T CIATCM 100—2023 中医药文本挖掘数据集构建规范.pdf

T CIATCM 100—2023 中医药文本挖掘数据集构建规范.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

ICS35.240.80

团体标准

T/CIATCM1002023

中医药文本挖掘数据集构建规范

SpecificationfortheconstructionofTraditionalChineseMedicinetextmining

datasets

2023-07-15发布2023-08-01实施

中国中医药信息学会发布

T/CIATCM100—2023

目次

前言II

1范围1

2规范性引用文件1

3术语和定义1

4构建原则1

4.1目标明确1

4.2确定标准1

4.3迭代改进1

4.4评估性强1

5构建一般步骤2

6构建主要方法2

6.1明确建模需求2

6.2数据标注加工2

6.3数据审核评估2

6.4数据修订完善2

附录A(资料性)文本数据常见标注加工模式3

A.1需求方标注3

A.2第三方标注3

A.3众包标注3

附录B(资料性)面向信息抽取的文本数据常见标注方法4

B.1命名实体识别数据集标注方法4

B.2关系抽取数据集标注方法4

I

T/CIATCM100—2023

中医药文本挖掘数据集构建规范

1范围

本文件规定了中医药临床病历、古籍、文献等适用于机器学习领域文本挖掘数据集构建的基本

原则和要求。

本文件适用于中医医疗、科研、教学、信息化建设等领域数据处理、交换与共享。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注明日期的引

用文件,仅该日期对应的版本适用于本文件;未注明日期的引用文件,其必威体育精装版版本(包括所有的修

改单)适用于本文件。

GB/T20000.1—2014标准化工作指南第1部分:标准化和相关活动的通用术语

T/CIATCM058—2019中医药信息标准编制通则

3术语和定义

下列术语和定义适用于本文件。

3.1

基准数据集benchmarkdataset

用于机器学习模型训练的,符合一定规范要求的数据集。

3.2

文本挖掘数据集datasetfortextmining

适用于文本挖掘任务,如命名实体识别、关系抽取、文本分类等模型训练与测试要求的数据集。

4构建原则

4.1目标明确

明确数据集所要解决的实际问题,确定数据标注的深度与广度。

4.2确定标准

数据集自身采用的标签与特征应达到行业共识,确保数据集的规范性和可靠性。

4.3迭代改进

构建最小必要数据集完整闭环

文档评论(0)

130****8991 + 关注
实名认证
内容提供者

注册安全工程师、一级消防工程师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月13日上传了注册安全工程师、一级消防工程师

1亿VIP精品文档

相关文档