服務端渲染(CSR)頁面抓取方法 · 蟲師de江湖

[TOC] # Python爬蟲抓取之服務端渲染頁面抓取方法服務端渲染頁面的數據內容通常分為兩種格式： - 結構化數據： XML、JSON、csv等 - 半結構化數據：主要為HTML文本為主。 ## 半結構化數據對于這類半結構化的HTML數據我們在`入門篇`中已經掌握了提取數據的方法，因此這里就不再詳細說明。學到了這里，相信你已經可以使用`XPath`、`正則表達式`和`CSS選擇器`提取網頁數據了。 ## 結構化數據處理 ### JSON數據處理以我們爬取百度貼吧熱議榜的為例，這個例子我們之前已經學習過了，可以再復習一下。 [實戰練習_百度貼吧熱議榜](../入門篇/實戰練習_百度貼吧熱議榜.md) ### XML文件格式解析 > 博客的RSS文件就是`xml`格式數據，我們來解析下博客RSS文件使用`XPath`提取文章標題列表信息： ```Python import requests as req from lxml import etree url='https://www.learnhard.cn/feed' resp = req.get(url) doc = etree.HTML(resp.content) item = doc.xpath('//item/title/text()') print(item) ``` 關于結構化數據的解析示例就到這里，對于服務端渲染頁面我們爬取數據的難度相對很小。可能多出情況會因為登錄驗證、頻繁訪問彈出的驗證碼而增加難度。目前我們暫時不考慮驗證碼問題。 ---