网站大量收购闲置独家精品文档,联系QQ:2885784924

HTMLparser技术解析HTML源代码.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HTMLparser技术解析HTML源代码

package test; import java.io.FileOutputStream; import java.io.InputStream; import java.io.OutputStream; import .URL; import .URLConnection; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.tags.ImageTag; import org.htmlparser.tags.LinkTag; import org.htmlparser.util.NodeList; import org.htmlparser.util.ParserException; import com.sun.corba.se.spi.orbutil.fsm.State; /** * 用HTMLparser抓取img标签的路径 * @author Administrator token@ * @param content:要爬取的文本 * @return 返回SRC路径改为服务器路径的文本 * @throws Exception:io异常 */ public class HtmlparserDemo { /** * example : new HtmlparserDemo().parserto(img src = /aa/,D:\test); * @param contentString 要取img标签的内容 * @param pathString 要存到服务器的路径 */ public static String parserto(String contentString,String pathString,String dispPath) { String stringBuffer=null; try { List list = new ArrayList(); Parser parser = Parser.createParser(contentString, UTF-8); NodeList nodeList = parser .extractAllNodesThatMatch(new NodeFilter() { public boolean accept(Node node) { if (node instanceof ImageTag)// img标记 return true; return false; } }); for (int i = 0; i nodeList.size(); i++) { ImageTag n = (ImageTag) nodeList.elementAt(i); list.add(n.getImageURL()); int start = 0; start = n.getImageURL().lastIndexOf(/); String picname=n.getImageURL().substring(start,n.getImageURL().length()); contentString=contentString.replace(n.getImageURL(), dispPath+picname); if(n.getImageURL().indexOf()==1){ contentString.replace(,); } } ListString listImg = new ArrayListString(); listImg.add(.jpg); listImg.add(.JPG); listImg.add(.jpeg); listImg.add(.JPEG); listImg.add(.bmp); listImg.add(.BMP); listImg.add(.gif); listImg.add(.GIF); listImg.add(.png); listImg.add(.PNG); Iterator ite = li

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档