<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                [TOC] # Python爬蟲抓取之服務端渲染頁面抓取方法 服務端渲染頁面的數據內容通常分為兩種格式: - 結構化數據: XML、JSON、csv等 - 半結構化數據: 主要為HTML文本為主。 ## 半結構化數據 對于這類半結構化的HTML數據我們在`入門篇`中已經掌握了提取數據的方法,因此這里就不再詳細說明。 學到了這里,相信你已經可以使用`XPath`、`正則表達式`和`CSS選擇器`提取網頁數據了。 ## 結構化數據處理 ### JSON數據處理 以我們爬取百度貼吧熱議榜的為例,這個例子我們之前已經學習過了,可以再復習一下。 [實戰練習_百度貼吧熱議榜](../入門篇/實戰練習_百度貼吧熱議榜.md) ### XML文件格式解析 > 博客的RSS文件就是`xml`格式數據,我們來解析下博客RSS文件 使用`XPath`提取文章標題列表信息: ```Python import requests as req from lxml import etree url='https://www.learnhard.cn/feed' resp = req.get(url) doc = etree.HTML(resp.content) item = doc.xpath('//item/title/text()') print(item) ``` 關于結構化數據的解析示例就到這里,對于服務端渲染頁面我們爬取數據的難度相對很小。可能多出情況會因為登錄驗證、頻繁訪問彈出的驗證碼而增加難度。目前我們暫時不考慮驗證碼問題。 ---
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看