Beautiful Soup介紹 · Python爬蟲

和lxml?樣，BeautifulSoup也是?個HTML/XML的解析器，主要功能也是如何解析和提取HTML/XML數據。 官網介紹如下：（1）Beautiful Soup提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱，通過解析文檔為用戶提供需要抓取需要的數據，因為簡單，所以不需要多少代碼就可以寫出?個完整的應用程程序。（2）Beautiful Soup自動將輸入文檔轉換為Unicode編碼，輸出文檔轉換為utf-8編碼。你不需要考慮編碼方式，除非文檔沒有指定一個編碼方式，這時，Beautiful Soup就不能自動識別編碼方式了。然后，你僅僅需要說明一下原始編碼方式就可以了。（3）Beautiful Soup已成為和IxmI一樣出色的python解釋器，為用戶靈活地提供不同的解析策略或強勁的速度。 **文檔：** https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/ **Beautiful Soup與lxml對比：** lxmI只會局部遍歷，而BeautifulSoup是基于HTML DOM的，會載入整個文檔，解析整個DOM樹，因此時間和內存開銷都會很大，所以性能要低于Ixml。 BeautifulSoup用來解析HTML比較簡單，支持CSS選擇器，Python標準庫中的HTML解析器，也支持lxml的XML解析器。 BeautifulSoup安裝：`pip install bs4` :-: **抓取工具對比** | 抓取工具 | 速度 | 使用難度 | | --- | --- | ---| | 正則 | 最快 | 困難 | | lxml | 快 | 簡單 | | Beautiful Soup | 慢 | 最簡單 |