网站大量收购闲置独家精品文档,联系QQ:2885784924

《信息技术 基因数据压缩 第1部分:测序数据》.docxVIP

《信息技术 基因数据压缩 第1部分:测序数据》.docx

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

T/AIXXX—XXXX

PAGEII

MACROBUTTONMTEditEquationSection2SEQMTEqn\r\hSEQMTSec\r1\hSEQMTChap\r1\hICSFORMTEXT35.040

FORMTEXTL71

T/AIFORMTEXTXXX—FORMTEXTXXXX

FORMTEXT?????

FORMTEXT信息技术基因数据压缩

第1部分:测序数据

FORMTEXTInformationtechnology-GenomicDataCompression-

Part1:SequencingData

(征求意见稿)

FORMTEXTXXXX-FORMTEXTXX-FORMTEXTXX发布

FORMTEXTXXXX-FORMTEXTXX-FORMTEXTXX实施

中关村视听产业技术创新联盟发布

团体标准

T/AIXXX—XXXX

PAGE50

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。

本文件是T/AIXXX《信息技术基因数据压缩》的第1部分。

请注意本文本的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。

本文件由数字音视频编解码技术标准工作组提出。

本文件由中关村视听产业技术创新联盟归口。

本文件起草单位:鹏城实验室、深圳大学、深圳华大生命科学研究院、哈尔滨工业大学、西安电子科技大学、深圳华大智造科技股份有限公司、华为技术有限公司、香港城市大学。

本文件主要起草人:朱泽轩、张勇、徐讯、刘贤明、牛毅、陈毓新、李胜康、王荣杰、王诗淇、谢少辉、马明明、周倩、江俊君、孙杰、黎宇翔、古圣昌、郭良顺、谢寅龙、曾文君、魏晓峰、单日强、刘元盛、曾湘祥、黄铁军、高文。

引言

T/AIXXX《信息技术基因数据压缩》是为了适应基因测序、基因序列比对、分析等应用中对基因数据压缩技术的需求而制定的。T/AIXXX采用一系列技术来达到基因数据的高效率压缩编码包括有参考碱基序列压缩、基于自组装参考序列的碱基压缩、基于上下文的质量分数压缩等,拟由以下五个部分构成:

——第1部分:测序数据。目的在于确立适应于基因测序数据中碱基序列、元数据、质量分数等的压缩编解码。

——第2部分:比对数据。目的在于确立基因数据比对结果中参考基因组序列、高通量碱基序列、比对位置、错配信息等的压缩编解码。

——第3部分:分析结果数据。目的在于确立基因测序数据变异检测结果中参考序列、变异位置、变异结果等的压缩编解码。

——第4部分:参考软件。包含了T/AIXXX第1、2、3等部分所定义的工具集的模拟软件。该软件由在T/AIXXX制定过程中的一系列验证模型演变而来。

——第5部分:符合性测试。定义了如何测试验证编码位流和解码器是否满足T/AIXXX所规定的要求。

PAGE50

信息技术基因数据压缩

第1部分:测序数据

范围

本文件给出了高通量测序产生的FASTQ和FASTA数据的压缩表示,包括基因组序列、测序碱基序列、元数据、质量分数等的编解码。

本文件适用于基因测序数据产生、识别、分析等过程中涉及数据存储和传输的相关应用。

规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其必威体育精装版版本(包括所有的修改单)适用于本文件。

GB/T29859生物信息学术语

GB/T35890高通量测序数据格式规范

术语和定义

下列术语和定义适用于本文件。

参考基因组referencegenome

通过对一个或多个个体的DNA进行测序而组装得到的一组核酸序列,是一个物种的理想个体生物中一组基因的代表实例。

测序sequencing

测定氨基酸或者核苷酸序列的过程。

[来源:GB/T29859-2013,2.4]

测序序列reads

高通量测序平台产生的序列片段,包含元数据、碱基序列和质量分数信息。

[来源:GB/T35890-2018,3.2,有修改]

错配mismatch

序列比对过程中碱基序列和参考基因组或参考序列不匹配的碱基。

EBML元素EBMLelements

EBML的基本单元,包含元素ID、元素数据大小和元素数据三部分。

反向互补reversecomplement

基因序列反向互补是指呈现相反方向的两个互补碱基序列。具体来说,就是A-T和C-G的配对关系在两个互补序列上呈现相反的方

文档评论(0)

*** + 关注
实名认证
文档贡献者

资料来源网络,仅供学习交流,如有侵权,请【私信】删除!

版权声明书
用户编号:5313124133000044

1亿VIP精品文档

相关文档