- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据校验手册
数据质量校验说明手册-------------------------------------------HIVE目前支持的所有校验规则模型校验规则包括单字段校验、多表多字段关联校验。单字段校验非空(exist)字段不能为空,如果为空则数据不符合要求。具体配置文件填写方法:必须为空(nexist)字段必须为空,如果不为空则数据不符合要求。列的最大长度(maxLength)字段的值的长度不能大于参数指定的最大长度,如果大于则数据不符合要求。列的最小长度(minLength)字段的值的长度不能小于参数指定的最小长度,如果小于则数据不符合要求。不包含空格(ncontainsBlank)字段的值不包含空格。不包含回车(ncontainsEnter)字段的值不包含回车,即\r 。不包含换行符(ncontainsEnterN)字段的值不包含换行符,即\r 。不包含Tab(ncontainsTab)字段的值不包含Tab,即\t 。字符等于(stringValue)字段的值等于规则里写的字符串。字符不等于(nstringValue)字段的值不等于规则里写的字符串。值小于(valueLess)字段的值是个数字,且必须小于规则里指定的数。值大于(valueMore)字段的值是个数字,且必须大于规则里指定的数。值等于(valueOf)字段的值是个数字,且必须等于规则里指定的数。值不等于(nvalueOf)字段的值是个数字,且必须不等于规则里指定的数。值为0(zero)字段的值是个数字,且必须等于0。值属于(枚举值)(valueIn)枚举值判断:规则里写下 11,12,13,14 这些值,用逗号隔开。然后程序把这些转化为一个数组11 12 13 14 ,字段的值是这几个数字里的其中1个即满足规则。值属于(包含)(valueBetween)Between判断:规则里写下11,12,13,14这些值,用逗号隔开。然后程序把这些转化为一个数组11 12 13 14,假如字段的值的一部分包含数组里其中某一个数字即满足规则。比如字段的值是110,那么110包含11,满足规则。连接点号校验(ndLong)校验连接点号(nd或ind或jnd等)是否按规范填写。具体规则如下:连接点号是8字节long型,高4位为0,第3字节保存区域号,第0-2字节保存节点号,需要校验连接点号是否按该规则填写,区域号是否属于该地区。注:福建省调(区域号35)模型不考虑该规则。唯一性校验字段的值全表唯一。有重复的则重复的不符合规则,需记录到日志里。HIVE-OnlyOne-Columntrue/HIVE-OnlyOne-Column多表多字段关联校验关联字段非空且填写一致校验关联字段非空且填写一致校验:表A的字段a能在表B的字段b里找到。关联相互校验(清洗)库A里的表A的字段a和库B里的表B里的字段b均不为空,且能互相在对方里找到记录。流转过程唯一标识校验具体描述:同一个设备在多次同步过程中,唯一标识不能发生变化。比如:fj_ems.busbarsection的字段code和fj_global_ems.busbarsection的字段code相同,且name必须相同;fj_global_ems.busbarsection的字段id,code和fjudm4.hive_mr_ems_oms_busbarsection的字段id,code这两个字段都相同,且name也必须相同。其中name是在这三个表2次流转过程中都相同的字段。流转次数配置成动态的次数;id活code这些流转过程中相同的字段也配置成动态可配置的。拓扑连接校验拓扑连接点非悬空校验设备的连接点(nd或ind或jnd等)没有连接其他设备,即该连接点空挂。拓扑连接设备的属性一致性校验关联到同一连接点的设备所属电压等级、所属基准电压、所属厂站需一致。数据校验规则模型数据关联校验模版示例HIVE单表和多表关联的校验模版如下:里面已经包含了各种规则的具体填写方式,请按照示例填写。双击可打开:具体例子如下:该例子是按照《数据清洗校验规则-V2.0docx》配的。以下两文件,双击可打开:如何填写配置文件第一部分为描述:该部分如下,可随意填写,不影响校验任务。第二部分为任务参数:如模版里所示,写在JobParam/JobParam里。1.任务类型,值必须为HDFS或HIVE2.如注释所写,这个属性是HIVE里的是否优先级方式校验,如果有一个不满足就不再进行其他校验则写true,一般都是写false 全部规则全都校验3.同一个表的单表校验写在同一个JobInfo/JobInfo里,这样任务可以生成一个任务链来校验。4.其他一些基本的JobParam/JobParam里的校验参数,这些根据注释即可知道意义 第三部分为校验
您可能关注的文档
- 数据库软件架构设计些什么.docx
- 数据库通用规范.docx
- 数据库选择判断题(中英文).docx
- 数据恢复HYPERLINK.docx
- 数据抽取过程.doc
- 数据抽象及三种抽象方法.ppt
- 数据挖掘-DM3Concept.ppt
- 数据挖掘6聚类.ppt
- 数据挖掘导论英文chap1_intro.ppt
- 数据挖掘导论英文chap4_basic_classification.ppt
- 2025年中国铸管沥青漆喷涂机市场调查研究报告.docx
- 2025至2031年中国聚四氟乙割管料行业投资前景及策略咨询研究报告.docx
- 2025至2031年中国屏蔽箱行业投资前景及策略咨询研究报告.docx
- 2025年中国B级电源电涌保护器市场调查研究报告.docx
- 2025至2031年中国陶瓷印章行业投资前景及策略咨询研究报告.docx
- 2025至2031年中国保冷材料行业投资前景及策略咨询研究报告.docx
- 2025至2031年中国金彩立雕玻璃行业投资前景及策略咨询研究报告.docx
- 2025至2030年中国机箱螺母柱数据监测研究报告.docx
- 2025至2030年中国小GS管装饰头数据监测研究报告.docx
- 2025至2030年中国气动电阻焊机数据监测研究报告.docx
文档评论(0)