- 1、本文档共43页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
于是 用6台机器,花120小时,我们将4.3亿网页集合划分成了6800万个相似网页子集,其精度和召回率均好于公认较好算法的结果(性能相当) 为什么精度会高? 我们采用了LCS作为判据,直觉上,它就是反映两个文档相似情况的 其他算法(simhash,shingling)本质上都是用“相似的概率”作为判据,是间接的 为什么性能也不错? Myer算法和分治方法,加上在实现中的细节处理 计算中国万维网的“形状” 网络信息“形状”是它的基本特点之一,也是每隔几年就有人发表新的研究成果的。 计算Web结构的一个例子 2006年1-2月间执行了一次比较彻底的搜集,得到8.3亿网页(在同样的时间段,在百度的协助下,CNNIC报告的是9.47亿) 搜集能力的体现 基于该网页集合,构造了一个巨大的有向图( 8.3亿节点),对应超过400GB数据量 链接提取能力的体现 在16节点的机群上运行一个结构发现算法,得到了相应的成分数据 变随机访问为多次顺序访问(磁盘) SCC 44.10% IN 25.50% OUT 14.60% TENDRILS 15.80% 算法流程 用邻接表(adjacency list )表达8.3亿节点的图,对应顺序磁盘文件 选几个肯定在SCC中的网页作为种子,例如新浪首页 宽度优先向前有哪些信誉好的足球投注网站(BFS forward)直到收敛,得到节点集合FS 还是从种子开始,宽度优先向后有哪些信誉好的足球投注网站(BFS backward)直到收敛,得到节点集合BS FS 和 BS 的交集就是 SCC FS – SCC is OUT;BS – SCC is IN 从FS and BS的并集开始做无向BFS,得WCC Total – WCC is the DISKs WCC – SCC is the TENDRILs 天网收藏+网页消重(聚类)?历史信息有哪些信誉好的足球投注网站 想象我们到了2050年 问题一:关于三峡大坝,自酝酿到建成,历经数年,一定有各种观点和争论,我想研究一下其中的沿革。哪里找得到有关材料? 国图,翻旧报纸,查有关文献资料;(需要一个月吧)。 问题二:“超女现象”曾经在中国风靡一时,据说有个叫李宇春的最后脱颖而出,当时关于她有哪些报道呢? 基于天网收藏的事件报道历史有哪些信誉好的足球投注网站引擎 索引的数据 输出 排序 用户 普通有哪些信誉好的足球投注网站 引擎 各种网页 在爬取时得到的 网页清单 按相关性 普通百姓 基于天网 收藏的 有哪些信誉好的足球投注网站引擎 文章型网页 历史网页清单 按照时间 社会科学 研究人员 与普通有哪些信誉好的足球投注网站引擎的比较 事件报道历史有哪些信誉好的足球投注网站引擎 这背后是2001年以来,中国网上曾经出现过的4.3亿篇文章型网页,分成了6300万个转载组(相当于这么多篇不相同的文章。目前Wikipedia有多少文章—300万) 事件报道历史 这样一个有哪些信誉好的足球投注网站引擎的建立过程 Step 1: 取天网大全中25亿网页 Step 2: 从中挑出“文章型网页”,大约4.3亿 Step 3: 将这4.3亿篇文章型网页划分成了6800万转载网页集 Step 4: 在每一个集合中确定最早的发表时间 Step 5: 建立索引,提供查询服务 重要事件信息的综合展示应用 天网荟萃—2008北京奥运会(WebDigest – Beijing Olympics) 关注100个重要的网站(不同的省份) 每天的信息(搜集并留下来) 多层面的展示 时间上的积累 实体关系的分析 信息强度的变化 (实体及其关系的提取与分析能力的体现) WebDigest – Beijing Olympics Information about an athlete 关于一个运动员的舆论的变化 August 8 August 10 August 14 August 18 August 22 August 26 天网荟萃 – 2008北京奥运会的运行 4pm – 12pm, 网页爬取 ? 1~2百万 12pm – 2am, 过滤出奥运网页 2am – 8am, 网页中的噪音消除 8am – 10am, 实体提取 10am – 12am, 实体关系发现 12am – 2pm, 建索引,数据融合 2pm: 提供服务 (显然,这样的服务有趣,但信息不一定可靠) 结束语(summary) 基于实际数据的评测和验证,是网络信息处理方法和技术研究的基本方法(论) 数据的代表性是一个基本挑战 网络难以实现科学抽样?尽量接近全体(不要与全体相比太少)?海量网络信息处理(效率很重要) 计算机技术与产品的发展带来了高价效(cost-effectiveness)处理海量网络信息的基本能力 对于特定
文档评论(0)