- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
NET抓取和分析网页的类
主要功能有:1、提取网页的纯文本,去所有html标签和javascript代码2、提取网页的链接,包括href和frame及iframe3、提取网页的title等(其它的标签可依此类推,正则是一样的)4、可以实现简单的表单提交及cookie保存using?System;using?System.Data;using?System.Configuration;using?System.Net;using?System.IO;using?System.Text;using?System.Collections.Generic;using?System.Text.RegularExpressions;using?System.Threading;using?System.Web;///?summary///?网页类///?/summarypublic?class?WebPage{
????#region?私有成员????private?Uri?m_uri;???//网址????private?ListLink?m_links;????//此网页上的链接????private?string?m_title;????????//此网页的标题????private?string?m_html;?????????//此网页的HTML代码????private?string?m_outstr;???????//此网页可输出的纯文本????private?bool?m_good;???????????//此网页是否可用????private?int?m_pagesize;???????//此网页的大小????private?static?Dictionarystring,?CookieContainer?webcookies?=?new?Dictionarystring,?CookieContainer();//存放所有网页的Cookie????private?string?m_post;??//此网页的登陆页需要的POST数据????private?string?m_loginurl;??//此网页的登陆页????#endregion
????#region?私有方法????///?summary????///?这私有方法从网页的HTML代码中分析出链接信息????///?/summary????///?returnsListLink/returns????private?ListLink?getLinks()????{????????if?(m_links.Count?==?0)????????{????????????Regex[]?regex?=?new?Regex[2];????????????regex[0]?=?new?Regex((?m)a[^]+href=(\|)?(?url([^\\\s)])+)(\|)?[^]*(?text(\\w|\\W)*?)/,?RegexOptions.Multiline?|?RegexOptions.IgnoreCase);????????????regex[1]?=?new?Regex([i]*frame[^]+src=(\|)?(?url([^\\\s)])+)(\|)?[^]*,?RegexOptions.Multiline?|?RegexOptions.IgnoreCase);????????????for?(int?i?=?0;?i??2;?i++)????????????{????????????????Match?match?=?regex[i].Match(m_html);????????????????while?(match.Success)????????????????{????????????????????try????????????????????{????????????????????????string?url?=?new?Uri(m_uri,?match.Groups[url].Value).AbsoluteUri;????????????????????????string?text?=?;????????????????????????if?(i?==?0)?text?=?new?Regex(([^]+)|(\\s)|(nbsp;)||\,?RegexOptions.Multiline?|?RegexOptions.IgnoreCase).Replace(match.Groups[text].Value,?);??????????????????
文档评论(0)