22-爬頁面源碼（page_source） · Python / Linux / Mysql / 軟件測試等等

[TOC] 前言有時候通過元素的屬性的查找頁面上的某個元素，可能不太好找，這時候可以從源碼中爬出想要的信息。selenium的page\_source方法可以獲取到頁面源碼。 selenium的page\_source方法很少有人用到，小編最近看api不小心發現這個方法，于是突發奇想，這里結合python的re模塊用正則表達式爬出頁面上所有的url地址，可以批量請求頁面url地址，看是否存在404等異常 <br /> ## 一、page_source 1. selenium的page\_source方法可以直接返回頁面源碼 2. 重新賦值后打印出來 ![Snipaste_2020-08-19_17-28-52.png](https://i.loli.net/2020/08/19/V7v3AYwHXLxUOfC.png) <br /> ## 二、re非貪婪模式 1. 這里需導入re模塊 2. 用re的正則匹配：非貪婪模式 3. findall方法返回的是一個list集合 4. 匹配出來之后發現有一些不是url鏈接，可以刪選下 ![Snipaste_2020-08-20_11-01-24.png](https://i.loli.net/2020/08/20/9YpJGknxWVUSXgo.png) <br /> ## 三、刪選url地址出來 1. 加個if語句判斷，‘http’在url里面說明是正常的url地址了 2. 把所有的url地址放到一個集合，就是我們想要的結果啦 ![Snipaste_2020-08-20_11-20-48.png](https://i.loli.net/2020/08/20/Fql2TUY8mLAKQ64.png) <br /> ## 四、參考代碼 ``` # coding:utf-8 from selenium import webdriver import re driver = webdriver.Chrome() driver.get("https://www.cnblogs.com/zjut-cheng/") page = driver.page_source print(page) # "非貪婪匹配，re.S('.'匹配字符，包括換行符)" url_list = re.findall('href=\"(.*?)\"', page, re.S) url_all = [] for url in url_list: if "http" in url: print(url) url_list.append(url) # 最終的url集合 print(url_all) ```