<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ThinkChat2.0新版上線,更智能更精彩,支持會話、畫圖、視頻、閱讀、搜索等,送10W Token,即刻開啟你的AI之旅 廣告
                [TOC] 前言 有時候通過元素的屬性的查找頁面上的某個元素,可能不太好找,這時候可以從源碼中爬出想要的信息。selenium的page\_source方法可以獲取到頁面源碼。 selenium的page\_source方法很少有人用到,小編最近看api不小心發現這個方法,于是突發奇想,這里結合python的re模塊用正則表達式爬出頁面上所有的url地址,可以批量請求頁面url地址,看是否存在404等異常 <br /> ## 一、page_source 1. selenium的page\_source方法可以直接返回頁面源碼 2. 重新賦值后打印出來 ![Snipaste_2020-08-19_17-28-52.png](https://i.loli.net/2020/08/19/V7v3AYwHXLxUOfC.png) <br /> ## 二、re非貪婪模式 1. 這里需導入re模塊 2. 用re的正則匹配:非貪婪模式 3. findall方法返回的是一個list集合 4. 匹配出來之后發現有一些不是url鏈接,可以刪選下 ![Snipaste_2020-08-20_11-01-24.png](https://i.loli.net/2020/08/20/9YpJGknxWVUSXgo.png) <br /> ## 三、刪選url地址出來 1. 加個if語句判斷,‘http’在url里面說明是正常的url地址了 2. 把所有的url地址放到一個集合,就是我們想要的結果啦 ![Snipaste_2020-08-20_11-20-48.png](https://i.loli.net/2020/08/20/Fql2TUY8mLAKQ64.png) <br /> ## 四、參考代碼 ``` # coding:utf-8 from selenium import webdriver import re driver = webdriver.Chrome() driver.get("https://www.cnblogs.com/zjut-cheng/") page = driver.page_source print(page) # "非貪婪匹配,re.S('.'匹配字符,包括換行符)" url_list = re.findall('href=\"(.*?)\"', page, re.S) url_all = [] for url in url_list: if "http" in url: print(url) url_list.append(url) # 最終的url集合 print(url_all) ```
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看