JAVA技巧：Webharvest网络爬虫应用总结

会计考友 · 发表于 2012-8-4 12:28:23

Web-Harvest是一个Java开源Web数据采纳工具。它能够收集指定的Web页面并年夜这些页面中提取有用的数据。其实现事理是，按照预先界说的设置装备摆设文件用httpclient获取页面的全数内容（关于httpclient的内容，本博有些文章已介绍），然后运用XPath、XQuery、正则表达式等这些手艺来实现对text/xml的内容筛选操作，拔取切确的数据。前两年斗劲火的垂直搜索（好比：酷讯等）也是采用近似的事理实现的。Web-Harvest应用，关头就是理解和界说设置装备摆设文件，其他的就是考虑怎么措置数据的Java代码。当然在爬虫起头前，也可以把Java变量填充到设置装备摆设文件中，实现动态的设置装备摆设。
　　此刻以爬取海角论坛的所有版面信息为例，介绍Web-Harvest的用法，出格是其设置装备摆设文件。
　　海角的版块地图页面时：http://www.tianya.cn/bbs/index.shtml
　　[海角的部门版面列表]
　　我们的方针就是要抓取全数的版可托息，搜罗版块之间的父子关系。
　　先查看版块地图的页面源代码，追求纪律：
　　
　　
　　社会平易近生

　　

海角杂谈7 `2 m" u [# H1 c8 ]' V4 h
　　. ?4 T6 }2 P4 q
国际不雅察看. t" i* e; v, @1 Y5 |
　　7 K9 k& L' O K$ t, v) {/ E# d0 m
海角时空, G3 a* w/ f5 L! k
　　 n) f" i; B- E! B% ^7 L
传媒江湖+ Z6 ]* W1 U: R; C. }; G
　　…… //省略
4 P4 i' U3 M- N& W. G　　' A1 V- E- n) z4 v# B6 `

　　

　　

　　

　　
　　
　　文学念书

　　

莲蓬鬼话) |5 m& i: _0 F7 Q$ o9 E9 g" l
　　
0 H9 B/ d! K- c' [
煮酒论史
4 X" q8 F; t( l3 G4 x　　% ~2 e* |$ u2 R, b) C. |* v
舞文弄墨; O3 w* U5 d Q3 N+ K
　　……. //省略
( Y8 W7 Q# Y! m: A! `　　. R/ ^) |( N4 D6 R* @$ W- f

　　

　　

　　

　　……. //省略
　　经由过程页面源码剖析，发现每个年夜板块都是在
的搜罗之下，而年夜板块下面的小版块都是下面的形式包含的。
　　xxx
，这些纪律就是webharvest爬数据的轨则。
　　下面先给出全数的设置装备摆设：(tianya.xml)
　　
　　
　　
　　
　　
　　
　　
　　
　　
　　
　　
　　
　　 ]]>
　　
　　
　　
　　
　　
　　
　　
　　　　declare variable $item as node() external;

会计考友 · 发表于 2012-8-4 12:28:24

　　
　　{
　　for $row in $item//li return
　　
　　}
　　
　　]]>
　　
　　
　　
　　 ]]>
　　
　　
　　这个设置装备摆设文件分为三个部门：
　　1. 界说爬虫进口：
　　
　　
　　
　　
　　
　　爬虫的进口URL是：http://www.tianya.cn/bbs/index.shtml
　　同时，指定了爬虫的爬数据的编码，这个编码应该按照具体的页面编码来定，例如膳缦沔的进口页面的编码就是utf-8。其实，有良多的中文页面的编码是gbk或者gb2312，那么这个处所的编码就要响应设置，否则会呈现数据乱码。
　　2. 界说数据的过滤轨则：
　　
　　
　　
　　
　　
　　膳缦沔设置装备摆设就是按照XPath年夜爬得的数据中筛选合适的内容。这里需要获得所有的
信息。有关XPath和XQuery的语法请网上发芽。
　　3. 最后一步就是措置数据。可以写入XML文件，也可以使用SetContextVar的体例把收集的数据塞到一个集结变量中，供Java代码挪用（好比：数据直接入库）。
　　这里是直接写入XML文件，然后解析XML即可。
　　注重下面的for轮回，这是XQuery的语法，供给遍历的功能。因为年夜版面小版块是一个树状结构，需要这种遍历。
　　
　　{
　　for $row in $item//li return
　　
　　}
　　
　　相关的Java代码如下：
　　String configFile="tianya.xml";
　　ScraperConfiguration config = new ScraperConfiguration(configFile);
　　String targetFolder="c:\chenxinhan";
　　Scraper scraper = new Scraper(config,targetFolder);
　　//设置爬虫代办代庖
　　scraper.getHttpClientManager().setHttpProxy("218.56.64.210","8080");
　　scraper.setDebug(true);
　　scraper.execute();

		自动登录	找回密码
密码			立即注册

[其他] JAVA技巧：Webharvest网络爬虫应用总结

JAVA技巧：Webharvest网络爬虫应用总结