一种违规在线商品检测方法.pdf

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

(19)中华人民共和国国家知识产权局

(12)发明专利说明书

(10)申请公布号CN102663025A

(43)申请公布日2012.09.12

(21)申请号CN201210078995.4

(22)申请日2012.03.22

(71)申请人浙江盘石信息技术有限公司

地址310011浙江省杭州市拱墅区祥园路45号盘石大厦

(72)发明人张兰兰田宁谭磊刘崟

(74)专利代理机构杭州天正专利事务所有限公司

代理人王兵

(51)Int.CI

G06F17/30

G06Q30/00

权利要求说明书说明书幅图

(54)发明名称

一种违规在线商品检测方法

(57)摘要

一种违规在线商品检测方法,包括

以下步骤:(1)通过网络爬虫对待检测在线

商品所在页面的信息进行爬取;(2)通过分

析待检测在线商品所在的电子商务网站的

DOM树结构,找到包含网页中多个结构相

似的信息块的最小深度的节点为临界节

点,形成相关联信息点进行抽取的规则并

建立模板,从爬虫获取的网页信息中提取

商品属性信息数据;(3)建立语义字典,对

提取的商品属性信息通过基于字符匹配的

方法进行分词;(4)采用人工建立违规语义

库,通过函数IllegalList将违规语义库中的

词汇,和经过分词的商品属性信息相关内

容词语字段进行识别判断,根据函数返回

结果,判定违规在线商品的违规类别。本

发明简化计算、及时性良好、适合多变的

页面模式。

法律状态

法律状态公告日法律状态信息法律状态

权利要求说明书

1.一种违规在线商品检测方法,其特征在于:所述检测方法包括以下步骤:

(1)通过网络爬虫对待检测在线商品所在页面的信息进行爬取:

(11)对页面内容及页面URL进行分析,计算页面与商品信息主题的相关度

并设定阀值,过滤掉与主题相关度小于阀值的页面,保留主题密切的链接放

入队列,根据优先级从队列选取链接爬取,直到存放页面URL的

队列为空为止;

(12)对网络爬虫抓取的HTML网页,利用HTMLCleaner解析其结构层次

关系,获取页面的DOM树结构,并删除形式标签,分析页面的结构;

(2)通过分析待检测在线商品所在的电子商务网站的DOM树结构,查找网页中

与商品相关的信息在DOM树中的位置,并通过分析商品信息在

DOM树中的位置,找到包含网页中多个结构相似的信息块的最

小深度的节点作为临界节点,形成相关联信息点进行抽取的规则:

(a)临界节点只可能是块类型节点的子集,不可能是其他类型节点;

(b)临界节点的孩子节点中必然同时包括文本类节点、图片类型节点及样式类型

节点;

(c)临界节点的兄弟节点必然大于等于2,且兄弟节点和当前边界节点有相同的

节点名称及相似的属性;

根据抽取的规则建立模板,从爬虫获取的网页信息中提取商品属性信息数据;

(3)建立语义字典:首先对产品标记和产品属性采用人工方法进行语义提取,形

成语义字典的静态部分;其次对电子商务

产品涉及的概念,结合产品分类体系进行人工语义提取与构建;最

后在人工构造初级字典的基础上,对语义字典进行扩充;

对提取的商品属性信息进行分词采用基于字符匹配的方法,在匹配词和分字

典过程中采用二分查找,若检索词在字典中,返回表示结果的对象,

此对象为词,

文档评论(0)

***** + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体社旗县兴中文具店(个体工商户)
IP属地河南
统一社会信用代码/组织机构代码
92411327MAD627N96D

1亿VIP精品文档

相关文档