JAVA技巧：一个简单的java网络爬虫(spider)

会计考友 · 发表于 2012-8-4 12:28:23

一个简单的java收集爬虫,因为时刻原因,没有进一步诠释. 　　需要的htmlparser.jar包到官方网上去下.
　　---------------Spider.java---------------------------
　　import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection; import java.util.ArrayList; import java.util.HashMap; import java.util.Iterator; import java.util.List; import org.htmlparser.RemarkNode; import org.htmlparser.StringNode; import org.htmlparser.Node; import org.htmlparser.tags.*; import org.htmlparser.Parser; import org.htmlparser.filters.StringFilter; import org.htmlparser.util.NodeIterator; import org.htmlparser.util.NodeList; import org.htmlparser.util.ParserException; import java.util.Queue; import java.util.LinkedList;
　　public class Spider implements Runnable {
　　boolean search_key_words = false;
　　int count = 0;
　　int limitsite = 10;
　　int countsite = 1;
　　String keyword = "中国";//搜索关头字
　　Parser parser = new Parser();
　　// List linklist = new ArrayList();
　　String startsite = "";//搜索的其拭魅站点
　　SearchResultBean srb;//保留搜索结不美观
　　List resultlist = new ArrayList();//搜索到关头字链接列表
　　List searchedsite = new ArrayList();//已经被搜索站点列表
　　Queue linklist = new LinkedList();//需解析的链接列表
　　HashMap disallowListCache = new HashMap();
　　public Spider(String keyword, String startsite) { this.keyword = keyword; this.startsite = startsite; linklist.add(startsite);
　　srb = new SearchResultBean();
　　}
　　public void run() {
　　// TODO Auto-generated method stub
　　search(linklist);
　　}
　　public void search(Queue queue) {
　　String url = "";
　　while(!queue.isEmpty()){ url = queue.peek().toString();//查找排队

　　try {

会计考友 · 发表于 2012-8-4 12:28:24

</p>　　if (!isSearched(searchedsite, url)) {
　　if (isRobotAllowed(new URL(url)))//搜检该链接是否被许可搜索
　　processHtml(url);
　　else
　　System.out.println("this page is disallowed to search");
　　}
　　} catch (Exception ex) {
　　}
　　queue.remove();
　　}
　　}
　　/**
　　*解析HTML
　　* @param url
　　* @throws ParserException
　　* @throws Exception
　　*/
　　public void processHtml(String url) throws ParserException, Exception { searchedsite.add(url);
　　count = 0;
　　System.out.println("searching ... :" + url); parser.setURL(url); parser.setEncoding("GBK"); URLConnection uc = parser.getConnection(); uc.connect(); //uc.getLastModified(); NodeIterator nit = parser.elements();
　　while (nit.hasMoreNodes()) { Node node = nit.nextNode();
　　parserNode(node);
　　}
　　srb.setKeywords(keyword); srb.setUrl(url); srb.setCount_key_words(count); resultlist.add(srb); System.out.println("count keywords is :" + count); System.out.println("----------------------------------------------");
　　}
　　/**
　　*措置HTML标签
　　* @param tag
　　* @throws Exception
　　*/
　　public void dealTag(Tag tag) throws Exception {
　　NodeList list = tag.getChildren(); if (list != null) { NodeIterator it = list.elements(); while (it.hasMoreNodes()) { Node node = it.nextNode();
　　parserNode(node);
　　}
　　}
　　}
　　/**
　　*措置HTML标签结点
　　* @param node
　　* @throws Exception
　　*/
　　public void parserNode(Node node) throws Exception{
　　if (node instanceof StringNode) {//判定是否是文本结点
　　StringNode sNode = (StringNode) node;
　　StringFilter sf = new StringFilter(keyword,false); search_key_words = sf.accept(sNode);
　　if (search_key_words) {
　　count++;

　　}

会计考友 · 发表于 2012-8-4 12:28:25

</p>　　// System.out.println("text is :"+sNode.getText().trim());
　　} else if (node instanceof Tag) {//判定是否是标签库结点
　　Tag atag = (Tag) node;
　　if (atag instanceof TitleTag) {//判定是否是标TITLE结点
　　srb.setTitle(atag.getText());
　　}
　　if (atag instanceof LinkTag) {//判定是否是标LINK结点
　　LinkTag linkatag = (LinkTag) atag;
　　checkLink(linkatag.getLink(), linklist); // System.out.println("-----------------this is link --------------");
　　}
　　dealTag(atag);
　　} else if (node instanceof RemarkNode) {//判定是否是注释
　　// System.out.println("this is remark");
　　}
　　}
　　/*
　　*搜检链接是否需冲要手排队
　　*/
　　public void checkLink(String link, Queue queue) { if (link != null && !link.equals("") && link.indexOf("#") == -1) { if (!link.startsWith("http://") && !link.startsWith("ftp://") && !link.startsWith("www.")) {
　　link = "file:///" + link;
　　} else if (link.startsWith("www.")) {
　　link = "http://" + link;
　　}
　　if (queue.isEmpty()) queue.add(link);
　　else {
　　String link_end_=link.endsWith("/")?link.substring(0,link.lastIndexOf("/")):(link+"/"); if (!queue.contains(link)&&!queue .contains(link_end_)) { queue.add(link);
　　}
　　}
　　}
　　}
　　/**
　　*搜检该链接是否已经被扫描
　　* @param list
　　* @param url
　　* @return
　　*/
　　public boolean isSearched(List list, String url) {
　　String url_end_ = "";

		自动登录	找回密码
密码			立即注册

[其他] JAVA技巧：一个简单的java网络爬虫(spider)

JAVA技巧：一个简单的java网络爬虫(spider)

JAVA技巧：一个简单的java网络爬虫(spider)