- 1、本文档共25页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
web-based information architectures 研究生课程
* 网络信息体系结构Web-based Information Architectures 研究生课程 北京大学信息科学技术学院 2005年,秋 * 这一讲(概论)内容提要 这门课的由来和“历史” 课程目的 大规模搜集、分析与处理Web信息的方法与技术 课程主要内容 大规模处理Web信息的意义 Web信息的特点 常用方法与技术 应用 挑战 课程的组织与安排 * 课程的由来 2001年秋,我们实验室开始建设“中国Web信息博物馆”,2002年1月18日第一批数据上线。 2002年秋,遇到Kahle Brewster,知他从1997年开始就建了“Internet Archive”。 2003年1月,在印度遇到CMU的Jaime G. Carbonell教授,一起参加“中美百万册图书”项目讨论,他讲正在上一门课 Web-based Information Architectures * “中美百万册图书项目” 已经发展成“中美印” Raj Reddy, 1994 Turing Award Winner(人工智能) 让100万册书籍上网,为全人类“便捷”共享 有史以来,人类大约出版了1亿种书,分散在各个图书馆和民间(Raj Reddy提供) 中华人民共和国:250万种 中华民国(1911-1949):15万种 中国古籍(1911年前):10多万种 (上述三个数据由王益明教授提供) * 2003年学生的“表现”(总体) 第一次课,40人;最后参加考试,30人 * 2004年情况 116学生参加考试 * 课程目的 介绍大规模搜集与处理Web信息的方法与技术 大规模 搜集 处理(消重,去噪,分类,聚类,分析,过滤,信息检索,信息提取,信息挖掘) 方法与技术 * 课程主要内容 大规模处理Web信息的意义 Web信息的特点 常用方法与技术 应用 挑战 * 关于社会信息 * 人们在做的事情 书籍的数字化:例如“百万册图书”项目,形形色色的数字图书馆项目 报纸的OCR:据说四川有一个公司投资,每天买来全国所有报纸,扫描、识别、存档… 互联网信息:与生俱来的数字化、网络化 使得工作的群众性更强,一个小组就可能做出很了不起的事情 * 信息与生俱来的数字化、网络化 想想“数字图书馆”的困难:将原来“海量”的纸质内容数字化! 扫描,去噪,OCR,建立元数据,… 人工费:5毛钱一页; 时间:?? 还有版权问题 网页,一台PC机,一天可以搜集1000万篇;不要扫描,不要OCR 存在形式?带来便利,使我们有可能以一种新的方式开展研究 * 网络实验室做的几个例子 * 人们对互联网不同层次的研究 网络层(TCP/IP) 路由算法、流量模型,拥塞控制,服务质量 目标:更高效,更可靠、更经济的数据传输 成果主要形式:高技术,上市公司 网页层(HTTP/HTML) 规模的成长,网页、网站之间的互连关系,各种随机现象 目标:作为一个大尺度复杂系统(生态系统,自然系统),探索其中的物理规律 成果主要形式:在Nature,PRL,PNAS等杂志上发表论文 * 人们对网络不同层次的研究 内容层(content) 不同类型内容的识别,出现与消失的规律,它们在时空上的分布 目标:民情、社情预报 成果形式:SCI论文,SSCI论文,政策建议 反映层(reflection) Web的演进和社会演进之间的互动关系,Web信息对社会现实的反映和影响 目标:构建更加和谐的社会 * 利用计算机技术,通过网络信息进行社会科学研究框架 考虑这种想法的实现,我们提出一种支持人们开发社会科学研究系统的基础设施: * “网络文本知识计算机” 假设1: 我们能得到所有的Web数据(网页,大型有哪些信誉好的足球投注网站引擎的查询日志),集中组织存贮,每天不断积累,永远不删除 支持证据:我们Web InfoMall每天在以百万网页,20万日志增加 假设2: 很多人发现这是一个巨大的“金矿”,纷纷来索要数据(“矿石”),拿回去进行分析和挖掘 支持证据:到目前为止,已有10多家单位从我们这里拿去了数据 * 我们还能干什么? 也跟别人一样,在制造金矿的同时也开采金子 — 当然有得天独厚的条件 但我们认识到 开采金子都需要榔头、小镐、气钻等,也许还要某些大型矿山机械 做Web信息分析和挖掘都需要切词、分类、去噪等,也许还要某些复杂工具 我们来提供工具,或者提供比“矿石”高级一些的“半成品”如何? * “网络文本知识计算机” 进一步超越 将Web InfoMall数据以多种便利访问的方式组织起来 提供一个可以用程序访问它们的环境(语言+运行支持) 让这样的程序能在客户端开发与运行(当然需要服务端的配合) 这就是:制造工具的机床;加工半成品的工厂 这样的计算机只有一台! * How fast can we understand the
文档评论(0)