JAVA基础：Webharvest网络爬虫应用总结

会计考友 · 发表于 2012-8-4 12:37:27

Web-Harvest是一个Java开源Web数据采纳工具。它能够收集指定的Web页面并年夜这些页面中提取有用的数据。其实现事理是，按照预先界说的设置装备摆设文件用httpclient获取页面的全数内容（关于httpclient的内容，本博有些文章已介绍），然后运用XPath、XQuery、正则表达式等这些手艺来实现对text/xml的内容筛选操作，拔取切确的数据。前两年斗劲火的垂直搜索（好比：酷讯等）也是采用近似的事理实现的。Web-Harvest应用，关头就是理解和界说设置装备摆设文件，其他的就是考虑怎么措置数据的Java代码。当然在爬虫起头前，也可以把Java变量填充到设置装备摆设文件中，实现动态的设置装备摆设。
　　此刻以爬取海角论坛的所有版面信息为例，介绍Web-Harvest的用法，出格是其设置装备摆设文件。
　　海角的版块地图页面时：http://www.tianya.cn/bbs/index.shtml
　　[海角的部门版面列表]
　　我们的方针就是要抓取全数的版可托息，搜罗版块之间的父子关系。
　　先查看版块地图的页面源代码，追求纪律：
　　
　　
　　社会平易近生

　　

海角杂谈3 ~2 \ @. ?. {
　　; W* W- j0 X" k1 Z& W; ~
国际不雅察看# E1 Q2 F2 _$ B& B5 d2 C0 ^0 k) y, {
　　+ g" H% ^* p4 P( X
海角时空
8 c2 j0 v' S' ?% w9 Y' j, Z　　
3 J" D: C+ x5 V; v6 o" m! i
传媒江湖
+ U: {& K* Z# E　　…… //省略) t1 I, w' o, q9 p
　　" m( u3 M1 F, \( P3 P! r) l7 ?

　　

　　

　　

　　
　　
　　文学念书

　　

莲蓬鬼话
) T t' ?8 m4 E9 |# X9 Z- b$ v　　! n0 d- a9 C( l: I- r8 T+ w
煮酒论史
6 V4 j. O" ^8 q# h. j# r) a2 A4 m　　
7 r% V; o# u7 |
舞文弄墨9 F+ M, F O' B" r1 f1 b9 N
　　……. //省略
; T& F+ d- J- k- V. V, p) J$ q* F　　
' x( h% Z( X6 R4 R. v+ p" j

　　

　　

　　

　　……. //省略
　　经由过程页面源码剖析，发现每个年夜板块都是在
的搜罗之下，而年夜板块下面的小版块都是下面的形式包含的。
　　xxx
，这些纪律就是webharvest爬数据的轨则。
　　下面先给出全数的设置装备摆设：(tianya.xml)
　　
　　
　　
　　
　　
　　
　　
　　
　　
　　
　　
　　
　　 ]]>
　　
　　
　　
　　
　　
　　
　　
　　　　declare variable $item as node() external;
　　

会计考友 · 发表于 2012-8-4 12:37:28

　　{
　　for $row in $item//li return
　　
　　}
　　
　　]]>
　　
　　
　　
　　 ]]>
　　
　　
　　这个设置装备摆设文件分为三个部门：
　　1. 界说爬虫进口：
　　
　　
　　
　　
　　
　　爬虫的进口URL是：http://www.tianya.cn/bbs/index.shtml
　　同时，指定了爬虫的爬数据的编码，这个编码应该按照具体的页面编码来定，例如膳缦沔的进口页面的编码就是utf-8。其实，有良多的中文页面的编码是gbk或者gb2312，那么这个处所的编码就要响应设置，否则会呈现数据乱码。
　　2. 界说数据的过滤轨则：
　　
　　
　　
　　
　　
　　膳缦沔设置装备摆设就是按照XPath年夜爬得的数据中筛选合适的内容。这里需要获得所有的
信息。有关XPath和XQuery的语法请网上发芽。
　　3. 最后一步就是措置数据。可以写入XML文件，也可以使用SetContextVar的体例把收集的数据塞到一个集结变量中，供Java代码挪用（好比：数据直接入库）。
　　这里是直接写入XML文件，然后解析XML即可。
　　注重下面的for轮回，这是XQuery的语法，供给遍历的功能。因为年夜版面小版块是一个树状结构，需要这种遍历。
　　
　　{
　　for $row in $item//li return
　　
　　}
　　
　　相关的Java代码如下：
　　String configFile="tianya.xml";
　　ScraperConfiguration config = new ScraperConfiguration(configFile);
　　String targetFolder="c:\chenxinhan";
　　Scraper scraper = new Scraper(config,targetFolder);
　　//设置爬虫代办代庖
　　scraper.getHttpClientManager().setHttpProxy("218.56.64.210","8080");
　　scraper.setDebug(true);
　　scraper.execute(); </p>

		自动登录	找回密码
密码			立即注册

[基础知识] JAVA基础：Webharvest网络爬虫应用总结

JAVA基础：Webharvest网络爬虫应用总结