* * * * * * * * Implementation issues Web信息采集当前研究方向 基于整个Web的信息采集(Universal Web Crawling) 增量式Web信息采集 (Incremental Web Crawling ) 基于主题的Web信息采集(Focused Web Crawling ) 基于用户个性化的Web信息采集(Customized Web Crawling ) 基于Agent的信息采集(Agent Based Web Crawling ) 迁移的信息采集(Relocatable Web Crawling ) 基于元有哪些信誉好的足球投注网站的信息采集(Metasearch Web Crawling) 实际的采集器往往是几种采集技术的结合 * Chapter 10: Link Analysis Road map * Introduction Social network analysis PageRank HITS Summary PageRank * Sergey Brin 和 Lawrence Page于1998年提出PageRank算法 Google 采用的一种链接分析方法 仅通过权威性对网页排序,这样可以有校防止人为加工的页面欺骗有哪些信誉好的足球投注网站引擎。即由Web间的超链关系发现重要页面 应用于整个网络而不是围绕一个query结果主页的局部临近主页 PageRank * 根据社会关系网中的等级权威值,网页i的重要程度(它的PageRank)由指向它的其他网页的PageRank之和决定 由于一个网页可能指向许多其他的网页,那么PageRank值将被所有他所指向的网页所共享 PageRank 按照以上的用户行为模型,每个网页可能被访问到的次数越多就越重要 可能被访问的次数就定义为网页的权值,PageRank值 公式如下: Wj代表第j个网页的权值,li,j只取0,1的值,代表从网页i到网页j是否存在连接,ni代表网页i有多少个连向其他网页的链接,d代表“随机冲浪”中沿着链接访问网页的平均次数 * Advantages of PageRank * Fighting spam. A page is important if the pages pointing to it are important. Since it is not easy for Web page owner to add in-links into his/her page from other important pages, it is thus not easy to influence PageRank. PageRank is a global measure and is query independent. PageRank values of all the pages are computed and saved off-line rather than at the query time. Criticism: Query-independence. It could not distinguish between pages that are authoritative in general and pages that are authoritative on the query topic. HITS算法的提出 * 基于商业或竞争因素考虑,很少有WEB网页指向其竞争领域的权威网页。 例如“Microsoft” 和 “Netscape”都是浏览器的权威主页,但并不互指 权威网页很少具有显式的描述 比如Google主页不会明确给出WEB有哪些信誉好的足球投注网站引擎之类的描述信息 PageRank算法中对于向外链接的权值贡献是平均的,Hits算法考虑了不同链接的重要性 HITS * HITS stands for Hypertext Induced Topic Search. Unlike PageRank which is a static ranking algorithm, HITS is search query dependent. When the user issues a search query, HITS first expands the list of relevant pages returned by a search engine and then produces two rankings of the expanded set of pages, authority ranking and hub ranking. 网页的权威性 Authority * 权威性是公认的提供重要度,


