selenium瀏覽器模擬 · python筆記

selenium模塊基本使用 [TOC] ## **簡介** selenium最初是一個自動化測試工具,而爬蟲中使用它主要是為了解決requests無法直接執行JavaScript代碼的問題 selenium本質是通過驅動瀏覽器，完全模擬瀏覽器的操作，比如跳轉、輸入、點擊、下拉等，來拿到網頁渲染之后的結果，可支持多種瀏覽器 ## **環境安裝** - 下載安裝selenium：pip install selenium - 下載瀏覽器驅動程序： - http://chromedriver.storage.googleapis.com/index.html - 查看驅動和瀏覽器版本的映射關系： - http://blog.csdn.net/huilan_same/article/details/51896672 ## **簡單使用/效果展示** ```python from selenium import webdriver from time import sleep # 后面是你的瀏覽器驅動位置，記得前面加r'','r'是防止字符轉義的 driver = webdriver.Chrome(r'驅動程序路徑') # 用get打開百度頁面 driver.get("http://www.baidu.com") # 查找頁面的“設置”選項，并進行點擊 driver.find_elements_by_link_text('設置')[0].click() sleep(2) # # 打開設置后找到“搜索設置”選項，設置為每頁顯示50條 driver.find_elements_by_link_text('搜索設置')[0].click() sleep(2) # 選中每頁顯示50條 m = driver.find_element_by_id('nr') sleep(2) m.find_element_by_xpath('//*[@id="nr"]/option[3]').click() m.find_element_by_xpath('.//option[3]').click() sleep(2) # 點擊保存設置 driver.find_elements_by_class_name("prefpanelgo")[0].click() sleep(2) # 處理彈出的警告頁面確定accept() 和取消dismiss() driver.switch_to_alert().accept() sleep(2) # 找到百度的輸入框，并輸入美女 driver.find_element_by_id('kw').send_keys('美女') sleep(2) # 點擊搜索按鈕 driver.find_element_by_id('su').click() sleep(2) # 在打開的頁面中找到“Selenium - 開源中國社區”，并打開這個頁面 driver.find_elements_by_link_text('美女_百度圖片')[0].click() sleep(3) # 關閉瀏覽器 driver.quit() ``` ## **瀏覽器創建** Selenium支持非常多的瀏覽器，如Chrome、Firefox、Edge等，還有Android、BlackBerry等手機端的瀏覽器。另外，也支持無界面瀏覽器PhantomJS。 ```python from selenium import webdriver browser = webdriver.Chrome() browser = webdriver.Firefox() browser = webdriver.Edge() browser = webdriver.PhantomJS() browser = webdriver.Safari() ``` ## **元素定位** webdriver 提供了一系列的元素定位方法，常用的有以下幾種： ```python find_element_by_id() find_element_by_name() find_element_by_class_name() find_element_by_tag_name() find_element_by_link_text() find_element_by_partial_link_text() find_element_by_xpath() find_element_by_css_selector() ``` 注意 1、find_element_by_xxx找的是第一個符合條件的標簽，find_elements_by_xxx找的是所有符合條件的標簽。 2、根據ID、CSS選擇器和XPath獲取，它們返回的結果完全一致。 3、另外，Selenium還提供了通用方法`find_element()`，它需要傳入兩個參數：查找方式`By`和值。實際上，它就是`find_element_by_id()`這種方法的通用函數版本，比如`find_element_by_id(id)`就等價于`find_element(By.ID, id)`，二者得到的結果完全一致。 ## **節點交互** Selenium可以驅動瀏覽器來執行一些操作，也就是說可以讓瀏覽器模擬執行一些動作。比較常見的用法有：輸入文字時用`send_keys()`方法，清空文字時用`clear()`方法，點擊按鈕時用`click()`方法。示例如下： ```python from selenium import webdriver import time browser = webdriver.Chrome() browser.get('https://www.taobao.com') input = browser.find_element_by_id('q') input.send_keys('MAC') time.sleep(1) input.clear() input.send_keys('IPhone') button = browser.find_element_by_class_name('btn-search') button.click() browser.quit() ``` ## **動作鏈[重點]** 在上面的實例中，一些交互動作都是針對某個節點執行的。比如，對于輸入框，我們就調用它的輸入文字和清空文字方法；對于按鈕，就調用它的點擊方法。其實，還有另外一些操作，它們沒有特定的執行對象，比如鼠標拖曳、鍵盤按鍵等，這些動作用另一種方式來執行，那就是動作鏈。比如，現在實現一個節點的拖曳操作，將某個節點從一處拖曳到另外一處，可以這樣實現： ```python from selenium import webdriver from selenium.webdriver import ActionChains import time browser = webdriver.Chrome() url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable' browser.get(url) browser.switch_to.frame('iframeResult') source = browser.find_element_by_css_selector('#draggable') target = browser.find_element_by_css_selector('#droppable') actions = ActionChains(browser) # actions.drag_and_drop(source, target) actions.click_and_hold(source) time.sleep(3) for i in range(5): actions.move_by_offset(xoffset=17,yoffset=0).perform() time.sleep(0.5) actions.release() ``` ## **執行JavaScript[重點]** 對于某些操作，Selenium API并沒有提供。比如，下拉進度條，它可以直接模擬運行JavaScript，此時使用`execute_script()`方法即可實現，代碼如下： ```python from selenium import webdriver browser = webdriver.Chrome() browser.get('https://www.jd.com/') browser.execute_script('window.scrollTo(0, document.body.scrollHeight)') browser.execute_script('alert("123")') ``` ## **獲取頁面源碼數據** 通過`page_source`屬性可以獲取網頁的源代碼，接著就可以使用解析庫（如正則表達式、Beautiful Soup、pyquery等）來提取信息了。 ## **前進和后退** ```python #模擬瀏覽器的前進后退 import time from selenium import webdriver browser=webdriver.Chrome() browser.get('https://www.baidu.com') browser.get('https://www.taobao.com') browser.get('http://www.sina.com.cn/') browser.back() time.sleep(10) browser.forward() browser.close() ``` ## **Cookie處理** 使用Selenium，還可以方便地對Cookies進行操作，例如獲取、添加、刪除Cookies等。示例如下： ```python from selenium import webdriver browser = webdriver.Chrome() browser.get('https://www.zhihu.com/explore') print(browser.get_cookies()) browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'}) print(browser.get_cookies()) browser.delete_all_cookies() print(browser.get_cookies()) ``` ## **異常處理** ```python from selenium import webdriver from selenium.common.exceptions import TimeoutException,NoSuchElementException,NoSuchFrameException try: browser=webdriver.Chrome() browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable') browser.switch_to.frame('iframssseResult') except TimeoutException as e: print(e) except NoSuchFrameException as e: print(e) finally: browser.close() ``` ## **谷歌無頭瀏覽器** 由于PhantomJs最近已經停止了更新和維護，所以推薦大家可以使用谷歌的無頭瀏覽器，是一款無界面的谷歌瀏覽器。 ``` from selenium import webdriver from selenium.webdriver.chrome.options import Options import time # 創建一個參數對象，用來控制chrome以無界面模式打開 chrome_options = Options() chrome_options.add_argument('--headless') chrome_options.add_argument('--disable-gpu') # 驅動路徑 path = r'C:\Users\ZBLi\Desktop\1801\day05\ziliao\chromedriver.exe' # 創建瀏覽器對象 browser = webdriver.Chrome(executable_path=path, chrome_options=chrome_options) # 上網 url = 'http://www.baidu.com/' browser.get(url) time.sleep(3) browser.save_screenshot('baidu.png') browser.quit() ``` ## **selenium規避被檢測識別** 現在不少大網站有對selenium采取了監測機制。比如正常情況下我們用瀏覽器訪問淘寶等網站的 window.navigator.webdriver的值為 undefined。而使用selenium訪問則該值為true。那么如何解決這個問題呢？只需要設置Chromedriver的啟動參數即可解決問題。在啟動Chromedriver之前，為Chrome開啟實驗性功能參數`excludeSwitches`，它的值為`[‘enable-automation’]`，完整代碼如下： ```python rom selenium.webdriver import Chrome from selenium.webdriver import ChromeOptions option = ChromeOptions() option.add_experimental_option('excludeSwitches', ['enable-automation']) driver = Chrome(options=option) ```