二、解析庫的基本使用 · Python3 爬蟲實戰

<br> # 解析庫的基本使用 <br> 對于網頁的節點來說，它可以定義id、class或其他屬性。而且節點之間還有層次關系，在網頁中可以通過XPath或CSS選擇器來定位一一個或多個節點。那么，在頁面解析時，利用XPath或CSS 選擇器來提取某個節點，然后再調用相應方法獲取它的正文內容或者屬性，不就可以提取我們想要的任意信息了嗎? 在Python中，這種解析庫已經非常多,其中比較強大的庫有lxml、Beautiful Soup、pyquery 等、、、 <br> <hr> ## 1. XPath概覽     XPath的選擇功能十分強大，它提供了非常簡潔明了的路徑選擇表達式。另外，它還提供了超過 100個內建函數，用于字符串、數值、時間的匹配以及節點、序列的處理等。幾乎所有我們想要定位的節點，都可以用XPath來選擇。 XPath于1999年11月16日成為W3C標準，它被設計為供XSLT、XPointer以及其他XML解析軟件使用，更多的文檔可以訪問其官方網站: https://www.w3.org/TR/xpath/。 ## 2.安裝： ```pip install lxml``` <hr>