- 1、本文档共18页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号CN102663025A
(43)申请公布日2012.09.12
(21)申请号CN201210078995.4
(22)申请日2012.03.22
(71)申请人浙江盘石信息技术有限公司
地址310011浙江省杭州市拱墅区祥园路45号盘石大厦
(72)发明人张兰兰田宁谭磊刘崟
(74)专利代理机构杭州天正专利事务所有限公司
代理人王兵
(51)Int.CI
G06F17/30
G06Q30/00
权利要求说明书说明书幅图
(54)发明名称
一种违规在线商品检测方法
(57)摘要
一种违规在线商品检测方法,包括
以下步骤:(1)通过网络爬虫对待检测在线
商品所在页面的信息进行爬取;(2)通过分
析待检测在线商品所在的电子商务网站的
DOM树结构,找到包含网页中多个结构相
似的信息块的最小深度的节点为临界节
点,形成相关联信息点进行抽取的规则并
建立模板,从爬虫获取的网页信息中提取
商品属性信息数据;(3)建立语义字典,对
提取的商品属性信息通过基于字符匹配的
方法进行分词;(4)采用人工建立违规语义
库,通过函数IllegalList将违规语义库中的
词汇,和经过分词的商品属性信息相关内
容词语字段进行识别判断,根据函数返回
结果,判定违规在线商品的违规类别。本
发明简化计算、及时性良好、适合多变的
页面模式。
法律状态
法律状态公告日法律状态信息法律状态
权利要求说明书
1.一种违规在线商品检测方法,其特征在于:所述检测方法包括以下步骤:
(1)通过网络爬虫对待检测在线商品所在页面的信息进行爬取:
(11)对页面内容及页面URL进行分析,计算页面与商品信息主题的相关度
并设定阀值,过滤掉与主题相关度小于阀值的页面,保留主题密切的链接放
入队列,根据优先级从队列选取链接爬取,直到存放页面URL的
队列为空为止;
(12)对网络爬虫抓取的HTML网页,利用HTMLCleaner解析其结构层次
关系,获取页面的DOM树结构,并删除形式标签,分析页面的结构;
(2)通过分析待检测在线商品所在的电子商务网站的DOM树结构,查找网页中
与商品相关的信息在DOM树中的位置,并通过分析商品信息在
DOM树中的位置,找到包含网页中多个结构相似的信息块的最
小深度的节点作为临界节点,形成相关联信息点进行抽取的规则:
(a)临界节点只可能是块类型节点的子集,不可能是其他类型节点;
(b)临界节点的孩子节点中必然同时包括文本类节点、图片类型节点及样式类型
节点;
(c)临界节点的兄弟节点必然大于等于2,且兄弟节点和当前边界节点有相同的
节点名称及相似的属性;
根据抽取的规则建立模板,从爬虫获取的网页信息中提取商品属性信息数据;
(3)建立语义字典:首先对产品标记和产品属性采用人工方法进行语义提取,形
成语义字典的静态部分;其次对电子商务
产品涉及的概念,结合产品分类体系进行人工语义提取与构建;最
后在人工构造初级字典的基础上,对语义字典进行扩充;
对提取的商品属性信息进行分词采用基于字符匹配的方法,在匹配词和分字
典过程中采用二分查找,若检索词在字典中,返回表示结果的对象,
此对象为词,
文档评论(0)