- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HTMLparser技术解析HTML源代码
package test;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.OutputStream;
import .URL;
import .URLConnection;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.ImageTag;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import com.sun.corba.se.spi.orbutil.fsm.State;
/**
* 用HTMLparser抓取img标签的路径
* @author Administrator token@
* @param content:要爬取的文本
* @return 返回SRC路径改为服务器路径的文本
* @throws Exception:io异常
*/
public class HtmlparserDemo {
/**
* example : new HtmlparserDemo().parserto(img src = /aa/,D:\test);
* @param contentString 要取img标签的内容
* @param pathString 要存到服务器的路径
*/
public static String parserto(String contentString,String pathString,String dispPath) {
String stringBuffer=null;
try {
List list = new ArrayList();
Parser parser = Parser.createParser(contentString, UTF-8);
NodeList nodeList = parser
.extractAllNodesThatMatch(new NodeFilter() {
public boolean accept(Node node) {
if (node instanceof ImageTag)// img标记
return true;
return false;
}
});
for (int i = 0; i nodeList.size(); i++) {
ImageTag n = (ImageTag) nodeList.elementAt(i);
list.add(n.getImageURL());
int start = 0;
start = n.getImageURL().lastIndexOf(/);
String picname=n.getImageURL().substring(start,n.getImageURL().length());
contentString=contentString.replace(n.getImageURL(), dispPath+picname);
if(n.getImageURL().indexOf()==1){
contentString.replace(,);
}
}
ListString listImg = new ArrayListString();
listImg.add(.jpg);
listImg.add(.JPG);
listImg.add(.jpeg);
listImg.add(.JPEG);
listImg.add(.bmp);
listImg.add(.BMP);
listImg.add(.gif);
listImg.add(.GIF);
listImg.add(.png);
listImg.add(.PNG);
Iterator ite = li
文档评论(0)