# 爬蟲用途
第一次聽說爬蟲是跟搜索引擎聯系在一起的,以為爬蟲就是搜索,現在看來這種想法是狹隘的,爬蟲的目的時采集數據,至于這些數據如何利用,就不單單是用語搜索這么簡單了。
服務于搜索引擎
顧名思義,搜索引擎的基礎還是爬蟲,爬蟲采集互聯網上尚未索引的數據,索引到搜索引擎到索引,方便用戶搜索。
采集網絡數據,用于數據分析:
數據分析到數據來源,一部分來自雨互聯網,在對數據進行分析之前,需要使用爬技術,將數據采集到以后,進行數據清洗,結構化,然后才能對數據進行分析。
輿情監測 : 輿情監測,整合互聯網信息采集技術及信息智能處理技術通過對互聯網海量信息自動抓取、自動分類聚類、主題檢測、專題聚焦,實現用戶的網絡輿情監測和新聞專題追蹤等信息需求,形成簡報、報告、圖表等分析結果,為客戶全面掌握群眾思想動態,做出正確輿論引導,提供分析依據。
產品基礎服務: 這類應用相對來講通業務相關。舉個例子,一個游戲公司想開發一款跟NB相關對游戲,但是對于NBA球員對個人信息這樣對數據如何獲取,如果公司有錢對話,自然可以從第三方專業機構購買到此數據,但是如果公司預算有限,那么就可以采用爬蟲技術,通過特定到網站將數據采集到,當然如果該網站到robot已經屏蔽了爬蟲,你就得考慮一下法律問題,不夠目前很多爬蟲都不遵守robot協議。
聚合應用: 這類應用目前應用也比較多,產品本身并沒有內容,通過爬蟲技術,采集同該行業相關都網站上都內容,然后自己再經過整理展示。
- Introduction
- 爬蟲相關技能介紹
- 爬蟲簡單介紹
- 爬蟲涉及到的知識點
- 爬蟲用途
- 爬蟲流程介紹
- 需求描述
- Http請求處理
- http基礎知識介紹
- http狀態碼
- httpheader
- java原生態處理http
- URL類
- 獲取URL請求狀態
- 模擬Http請求
- apache httpclient
- Httpclient1
- httpclient2
- httpclient3
- httpclient4
- httpclient5
- httpclient6
- okhttp
- OKhttp使用教程
- 技術使用
- java執行javascript
- 網頁解析
- Xpath介紹
- HtmlCleaner
- HtmlCleaner介紹
- HtmlCleaner使用
- HtmlParser
- HtmlParser介紹
- Jsoup
- 解析和遍歷一個HTML文檔
- 解析一個HTML字符串
- 解析一個body片斷
- 從一個URL加載一個Document
- 從一個文件加載一個文檔
- 使用DOM方法來遍歷一個文檔
- 使用選擇器語法來查找元素
- 從元素抽取屬性,文本和HTML
- 處理URLs
- 示例程序 獲取所有鏈接
- 設置屬性的值
- 設置一個元素的HTML內容
- 消除不受信任的HTML (來防止XSS攻擊)
- 正則表達式
- elasticsearch筆記
- 下載安裝elasticsearch
- 檢查es服務健康