web-based information architectures 研究生课程.ppt

下载文档 降价啦

1
0
约6.04千字
约 25页
2017-06-10 发布于湖北
举报
版权申诉
保障服务

web-based information architectures 研究生课程.ppt

1、本文档共25页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

web-based information architectures 研究生课程

* 网络信息体系结构Web-based Information Architectures 研究生课程北京大学信息科学技术学院 2005年，秋 * 这一讲（概论）内容提要这门课的由来和“历史” 课程目的大规模搜集、分析与处理Web信息的方法与技术课程主要内容大规模处理Web信息的意义 Web信息的特点常用方法与技术应用挑战课程的组织与安排 * 课程的由来 2001年秋，我们实验室开始建设“中国Web信息博物馆”，2002年1月18日第一批数据上线。 2002年秋，遇到Kahle Brewster，知他从1997年开始就建了“Internet Archive”。 2003年1月，在印度遇到CMU的Jaime G. Carbonell教授，一起参加“中美百万册图书”项目讨论，他讲正在上一门课 Web-based Information Architectures * “中美百万册图书项目” 已经发展成“中美印” Raj Reddy, 1994 Turing Award Winner（人工智能）让100万册书籍上网，为全人类“便捷”共享有史以来，人类大约出版了1亿种书，分散在各个图书馆和民间（Raj Reddy提供）中华人民共和国：250万种中华民国（1911-1949）：15万种中国古籍（1911年前）：10多万种（上述三个数据由王益明教授提供） * 2003年学生的“表现”（总体）第一次课，40人；最后参加考试，30人 * 2004年情况 116学生参加考试 * 课程目的介绍大规模搜集与处理Web信息的方法与技术大规模搜集处理（消重，去噪，分类，聚类，分析，过滤，信息检索，信息提取，信息挖掘）方法与技术 * 课程主要内容大规模处理Web信息的意义 Web信息的特点常用方法与技术应用挑战 * 关于社会信息 * 人们在做的事情书籍的数字化：例如“百万册图书”项目，形形色色的数字图书馆项目报纸的OCR：据说四川有一个公司投资，每天买来全国所有报纸，扫描、识别、存档… 互联网信息：与生俱来的数字化、网络化使得工作的群众性更强，一个小组就可能做出很了不起的事情 * 信息与生俱来的数字化、网络化想想“数字图书馆”的困难：将原来“海量”的纸质内容数字化！扫描，去噪，OCR，建立元数据，… 人工费：5毛钱一页；时间：?? 还有版权问题网页，一台PC机，一天可以搜集1000万篇；不要扫描，不要OCR 存在形式?带来便利，使我们有可能以一种新的方式开展研究 * 网络实验室做的几个例子 * 人们对互联网不同层次的研究网络层（TCP/IP）路由算法、流量模型，拥塞控制，服务质量目标：更高效，更可靠、更经济的数据传输成果主要形式：高技术，上市公司网页层（HTTP/HTML）规模的成长，网页、网站之间的互连关系，各种随机现象目标：作为一个大尺度复杂系统（生态系统，自然系统），探索其中的物理规律成果主要形式：在Nature，PRL，PNAS等杂志上发表论文 * 人们对网络不同层次的研究内容层（content）不同类型内容的识别，出现与消失的规律，它们在时空上的分布目标：民情、社情预报成果形式：SCI论文，SSCI论文，政策建议反映层（reflection） Web的演进和社会演进之间的互动关系，Web信息对社会现实的反映和影响目标：构建更加和谐的社会 * 利用计算机技术，通过网络信息进行社会科学研究框架考虑这种想法的实现，我们提出一种支持人们开发社会科学研究系统的基础设施： * “网络文本知识计算机” 假设1：我们能得到所有的Web数据（网页，大型有哪些信誉好的足球投注网站引擎的查询日志），集中组织存贮，每天不断积累，永远不删除支持证据：我们Web InfoMall每天在以百万网页，20万日志增加假设2：很多人发现这是一个巨大的“金矿”，纷纷来索要数据（“矿石”），拿回去进行分析和挖掘支持证据：到目前为止，已有10多家单位从我们这里拿去了数据 * 我们还能干什么？也跟别人一样，在制造金矿的同时也开采金子 — 当然有得天独厚的条件但我们认识到开采金子都需要榔头、小镐、气钻等，也许还要某些大型矿山机械做Web信息分析和挖掘都需要切词、分类、去噪等，也许还要某些复杂工具我们来提供工具，或者提供比“矿石”高级一些的“半成品”如何？ * “网络文本知识计算机” 进一步超越将Web InfoMall数据以多种便利访问的方式组织起来提供一个可以用程序访问它们的环境（语言+运行支持）让这样的程序能在客户端开发与运行（当然需要服务端的配合）这就是：制造工具的机床；加工半成品的工厂这样的计算机只有一台！ * How fast can we understand the