網絡爬蟲第一個要面臨的問題,就是如何抓取網頁,抓取其實很容易,沒你想的那么復雜,一個開源`HtmlUnit`包,4行代碼就OK啦,例子如下:
~~~
final WebClient webClient= new WebClient();
final HtmlPage page=webClient.getPage( "http://www.yanyulin.info" );
System.out.println(page.asText());
webClient.closeAllWindows();
~~~
在程序中寫上上面的4行代碼,運行,就可以得到煙雨林博客首頁的全部內容,上面代碼在運行的過程中會出現很多警告,出現這些警告的主要原因是由于以下兩點:
1、`HtmlUnit`對`Javascript`的支持不是很好
2、`HtmlUnit`對`CSS`的支持不是很好
明白了上面的兩點后,將代碼重新改寫一下,該禁用的就禁用,同時禁用一些不必要的功能,也有利于提高程序的運行效率,再者說網絡爬蟲也不需要CSS的支持滴
~~~
final WebClient webClient= new WebClient();
webClient.getOptions().setCssEnabled( false );
webClient.getOptions().setJavaScriptEnabled( false );
final HtmlPage page=webClient.getPage( "http://www.yanyulin.info" );
System.out.println(page.asText());
webClient.closeAllWindows();
~~~
`HtmlUnit`的使用: 簡介:`HtmlUnit`說白了就是一個瀏覽器,這個瀏覽器是用Java寫的無界面的瀏覽器,正因為其沒有界面,因此執行的速度還是可以滴,`HtmlUnit`提供了一系列的API,這些API可以干的功能比較多,如表單的填充,表單的提交,模仿點擊鏈接,由于內置了`Rhinojs`引擎,因此可以執行`Javascript`
作用:web的自動化測試(最初的目的),瀏覽器,網絡爬蟲
重要API的使用 在介紹API的使用之前要先明白的一個問題是,WebClient,WebWindow,Page三者之間的關系,所有的頁面最終都是在一個 WebWindow對象里面,WebClient在創建時會自動的創建一個WebWindow對象,當調用getPage時會將新頁面加載到 WebWindow里,你可以理解成WebClient就是IE內核,WebWindow就是呈現頁面的瀏覽器窗口,三者之間的關系圖如下圖所示:
1、模擬特定瀏覽器,也可以指定瀏覽器的相應版本(HtmlUnit最新版2.13現在可以模擬的瀏覽器有`Chrome`/`FireFox`/`IE`)
~~~
//模擬chorme瀏覽器,其他瀏覽器請修改BrowserVersion.后面
WebClient webClient= new WebClient(BrowserVersion.CHROME);
~~~
2、查找特定元素,通過get或者XPath可以從HtmlPage中獲得特定的Html元素,如下例子
方法一,通過get方法獲取
~~~
HtmlPage page=webClient.getPage( "http://www.yanyulin.info" );
//從[煙雨林博客]上獲取標簽hed的內容
HtmlDivision div=(HtmlDivision)page.getElementById( "hed" );
~~~
方法二,通過XPath獲取,XPath通常用于無法通過Id搜索,或者需要更為復雜的搜索時,XPath的相關教程
XPath相關教程請查看我的個人博客
~~~
//同樣可以打印出hed的內容,//div中//表示搜索整個文檔中的div,并將這些div
//放入list中,然后獲取第一個div
final HtmlDivision div = (HtmlDivision) page.getByXPath( "//div" ).get( 0 );
System.out.println(div.asXml());
~~~
3、代理服務器的配置,代理的配置很簡單,只需要配置好地址,端口,用戶名與密碼即可
~~~
final WebClient webClient = new WebClient(BrowserVersion.CHROME, "http://127.0.0.1" , 8087 );
final DefaultCredentialsProvider credentialsProvider = (DefaultCredentialsProvider) webClient.getCredentialsProvider();
credentialsProvider.addCredentials( "username" , "password" );
~~~
4、模擬表單的提交
~~~
//獲取表單
final HtmlForm form = page.getFormByName( "form" );
//獲取提交按扭
final HtmlSubmitInput button = form.getInputByName( "submit" );
//一會得輸入的
final HtmlTextInput textField = form.getInputByName( "userid" );
textField.setValueAttribute( "test" );
//點擊提交表單
final HtmlPage page = button.click();
~~~
API的使用就介紹到這,網絡爬蟲中主要目的就是獲取頁中所有的鏈接,代碼如下:
~~~
java.util.List achList=page.getAnchors();
for (HtmlAnchor ach:achList){
System.out.println(ach.getHrefAttribute());
}
~~~
最后來個例子,HtmlUnit模擬瀏覽器登錄`小米網站帳戶`,程運運行的截圖如下,`紅色方框`表示登錄成功跳轉到下一個頁面出現的帳號:

本博文源代碼下載:
> [源碼下載](https://github.com/zwjlpeng/Crawler_Self_Analysis)
>
> [Java皮膚庫下載](http://yunpan.cn/QURZedFfjFWfQ)
>
> [HtmlUnit源碼包下載](http://yunpan.cn/QURZ5UXwjnk6W)
>
> [HtmlUnit的Jar包下載](http://yunpan.cn/QURZ5uZLwFmM9)
來源地址:?[http://www.yanyulin.info/pages/2013/11/fetchPage.html](http://www.yanyulin.info/pages/2013/11/fetchPage.html)
- JVM
- 深入理解Java內存模型
- 深入理解Java內存模型(一)——基礎
- 深入理解Java內存模型(二)——重排序
- 深入理解Java內存模型(三)——順序一致性
- 深入理解Java內存模型(四)——volatile
- 深入理解Java內存模型(五)——鎖
- 深入理解Java內存模型(六)——final
- 深入理解Java內存模型(七)——總結
- Java內存模型
- Java內存模型2
- 堆內內存還是堆外內存?
- JVM內存配置詳解
- Java內存分配全面淺析
- 深入Java核心 Java內存分配原理精講
- jvm常量池
- JVM調優總結
- JVM調優總結(一)-- 一些概念
- JVM調優總結(二)-一些概念
- VM調優總結(三)-基本垃圾回收算法
- JVM調優總結(四)-垃圾回收面臨的問題
- JVM調優總結(五)-分代垃圾回收詳述1
- JVM調優總結(六)-分代垃圾回收詳述2
- JVM調優總結(七)-典型配置舉例1
- JVM調優總結(八)-典型配置舉例2
- JVM調優總結(九)-新一代的垃圾回收算法
- JVM調優總結(十)-調優方法
- 基礎
- Java 征途:行者的地圖
- Java程序員應該知道的10個面向對象理論
- Java泛型總結
- 序列化與反序列化
- 通過反編譯深入理解Java String及intern
- android 加固防止反編譯-重新打包
- volatile
- 正確使用 Volatile 變量
- 異常
- 深入理解java異常處理機制
- Java異常處理的10個最佳實踐
- Java異常處理手冊和最佳實踐
- Java提高篇——對象克隆(復制)
- Java中如何克隆集合——ArrayList和HashSet深拷貝
- Java中hashCode的作用
- Java提高篇之hashCode
- 常見正則表達式
- 類
- 理解java類加載器以及ClassLoader類
- 深入探討 Java 類加載器
- 類加載器的工作原理
- java反射
- 集合
- HashMap的工作原理
- ConcurrentHashMap之實現細節
- java.util.concurrent 之ConcurrentHashMap 源碼分析
- HashMap的實現原理和底層數據結構
- 線程
- 關于Java并發編程的總結和思考
- 40個Java多線程問題總結
- Java中的多線程你只要看這一篇就夠了
- Java多線程干貨系列(1):Java多線程基礎
- Java非阻塞算法簡介
- Java并發的四種風味:Thread、Executor、ForkJoin和Actor
- Java中不同的并發實現的性能比較
- JAVA CAS原理深度分析
- 多個線程之間共享數據的方式
- Java并發編程
- Java并發編程(1):可重入內置鎖
- Java并發編程(2):線程中斷(含代碼)
- Java并發編程(3):線程掛起、恢復與終止的正確方法(含代碼)
- Java并發編程(4):守護線程與線程阻塞的四種情況
- Java并發編程(5):volatile變量修飾符—意料之外的問題(含代碼)
- Java并發編程(6):Runnable和Thread實現多線程的區別(含代碼)
- Java并發編程(7):使用synchronized獲取互斥鎖的幾點說明
- Java并發編程(8):多線程環境中安全使用集合API(含代碼)
- Java并發編程(9):死鎖(含代碼)
- Java并發編程(10):使用wait/notify/notifyAll實現線程間通信的幾點重要說明
- java并發編程-II
- Java多線程基礎:進程和線程之由來
- Java并發編程:如何創建線程?
- Java并發編程:Thread類的使用
- Java并發編程:synchronized
- Java并發編程:Lock
- Java并發編程:volatile關鍵字解析
- Java并發編程:深入剖析ThreadLocal
- Java并發編程:CountDownLatch、CyclicBarrier和Semaphore
- Java并發編程:線程間協作的兩種方式:wait、notify、notifyAll和Condition
- Synchronized與Lock
- JVM底層又是如何實現synchronized的
- Java synchronized詳解
- synchronized 與 Lock 的那點事
- 深入研究 Java Synchronize 和 Lock 的區別與用法
- JAVA編程中的鎖機制詳解
- Java中的鎖
- TreadLocal
- 深入JDK源碼之ThreadLocal類
- 聊一聊ThreadLocal
- ThreadLocal
- ThreadLocal的內存泄露
- 多線程設計模式
- Java多線程編程中Future模式的詳解
- 原子操作(CAS)
- [譯]Java中Wait、Sleep和Yield方法的區別
- 線程池
- 如何合理地估算線程池大小?
- JAVA線程池中隊列與池大小的關系
- Java四種線程池的使用
- 深入理解Java之線程池
- java并發編程III
- Java 8并發工具包漫游指南
- 聊聊并發
- 聊聊并發(一)——深入分析Volatile的實現原理
- 聊聊并發(二)——Java SE1.6中的Synchronized
- 文件
- 網絡
- index
- 內存文章索引
- 基礎文章索引
- 線程文章索引
- 網絡文章索引
- IOC
- 設計模式文章索引
- 面試
- Java常量池詳解之一道比較蛋疼的面試題
- 近5年133個Java面試問題列表
- Java工程師成神之路
- Java字符串問題Top10
- 設計模式
- Java:單例模式的七種寫法
- Java 利用枚舉實現單例模式
- 常用jar
- HttpClient和HtmlUnit的比較總結
- IO
- NIO
- NIO入門
- 注解
- Java Annotation認知(包括框架圖、詳細介紹、示例說明)