网站大量收购独家精品文档,联系QQ:2885784924

页面提取技术及资源挖掘.ppt

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
页面提取技术及资源挖掘.ppt

网站技术概览 2009年11月19日 本次讲座的目的 消除对技术的恐惧感 “XML/JSP/RSS等等,太神秘了,我搞不懂。。。” 确立基于网络生存状态的思考框架 “我知道互联网很重要,但我找不到切入点。。。” 抓住技术-业务逻辑构建的要点 “我最大的担心是,系统开发完之后,根本不能解决我的业务问题。。。” 建立与技术人员对话的界面语言 “技术人员老爱问‘你需要什么’,我的问题却是:我需要到东西很多。。。你做得到吗?‘” “技术不是问题!?” 技术不是问题! 正确的表达:现阶段互联网技术已经比3年前、5年前有了飞速的发展;编程工具、开发平台已经相当成熟,而且有一大批训练有素的研发工程师。 前提条件: 你了解技术的“底细”吗? 你能否听得通技术人员在谈论什么? 你能否把握技术与业务的关联? 你知道如何选择正确的技术团队,如何判断正确的研发方案与路径,如何防范技术开发的风险,以及如何平衡技术与业务之间的相互角力? 技术不是问题? 正确的表达: 技术对业务的冲击是如何体现的? 如何比较可选技术方案的优劣? 如何组织和掌控项目研发过程:提出需求;判断路线;取舍方案;控制风险;促进沟通? 举例:Java、JSP和JavaScript是一回事吗? NO! Java和JavaScript无论在概念上还是在设计上都是两种完全不同的语言! Java (由Sun Microsystems公司开发)是一种功能强大且复杂的程序设计语言 – 它与C/C++属于同一类型 JSP并不是JavaScript的缩写,而是Java服务器页(Java Server Pages)的缩写, 它是一种服务器端的脚本语言, 因而与PHP, ASP属于同一类别 讲座大纲 认识互联网(网站) 网络改变了什么 网络技术的演化路径是什么 网站原理 若干重要的基础概念 网站开发原理 网站内容的组织与管理 网站优化与推广 管理者如何制定互联网策略 做什么(需求分析/目标设定/方案筛选/项目组织) 怎么做(业务流程重组/研发/运营与维护) 如何评价(测试/进程/质量/预算/绩效) 1、认识互联网(网站) 网络改变了什么 表达方式 交易方式 交往方式 网络技术的演化路径 第一波:1991-1995——萌芽期(超文本) 第二波:1995-2002——Web1.0 (超媒体) 第三波:2002- ——Web2.0 (超空间) 2、网站原理 C/S vs B/S 网站基本原理图 网站的后台与前台 后台(Web服务器软件) 在网络上的某一台计算机(服务器)上 基本状态: 守候(24小时) 由某个操作系统支持 具有特定的地址 IP地址: 8; 端口号: 80 (8080) 域名: 基于Windows系统的IIS(Internet Information Service) 开源的Apache(阿帕奇) 网站地址与网页地址 网站地址 http:// 8 如果网站未使用标准的80端口号,则需注明,如: http:// 8:8080 网页地址 网站地址含有默认的网页(网站首页, 也称主页)名称 index.htm, index.html, default.htm, default.html Index.asp, index.php, default.asp, default.php /qlshx/yingxin/index_yx.htm 可以收藏网站或网页地址 网页/动态网页与静态网页 HTML: HyperText Markup Language, 超文本标记语言 定义了一整套的标记关键字结构化地描述网页文本 浏览器通过解释标记实现网页中信息的良好展示 有专门的HTTP协议传输HTML文档 提供了超链接功能(一种特殊的标记)实现网页间的有机切换 标记关键字要放在“key”中,标记关键字以/key结束 动态网页/静态网页 网络架构 网络内容组织与内容管理 什么是CMS Content Management System 建议采用的CMS系统 微软平台:风讯、动易 开源平台:PHPCMS、帝国CMS、SupeSite、Joomla!(中文) 建议采用的论坛系统 微软平台:动网论坛、Discuz!NT、 开源平台:Discuz!、PHPWind 信息采集/抽取 主题爬行器 主题爬虫是根据事先确立的主题,在受 限领域内进行定向页面的采集,而有别于普通爬虫采用完全遍历Web 的方式。它 是垂直有哪些信誉好的足球投注网站引擎的基础与核心,它尽可能多地爬行与某个主题相关的Web 资源, 扩大该主题资源的覆盖度。 1) 主题确立 主题确立是对抓取目标的描述或定义,它是主题爬虫工作的基础。本文通过 关键词集来确定主题,其中每个关键词都有权值,权值的设置有两种方法:手工 设置和特征提取。 2) 主题识别 主题识别是对网页或数据的分

文档评论(0)

docinppt + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档