初級的爬蟲我們利用urllib和urllib2庫以及正則表達式就可以完成了,不過還有更加強大的工具,爬蟲框架Scrapy,這安裝過程也是煞費苦心哪,在此整理如下。
## Windows 平臺:
我的系統是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同。
官網文檔:[http://doc.scrapy.org/en/latest/intro/install.html](http://doc.scrapy.org/en/latest/intro/install.html),最權威噠,下面是我的親身體驗過程。
1.安裝Python
安裝過程我就不多說啦,我的電腦中已經安裝了 Python 2.7.7 版本啦,安裝完之后記得配置環境變量,比如我的安裝在D盤,D:\python2.7.7,就把以下兩個路徑添加到Path變量中
~~~
D:\python2.7.7;D:\python2.7.7\Scripts
~~~
配置好了之后,在命令行中輸入 python –version,如果沒有提示錯誤,則安裝成功
[](http://qiniu.cuiqingcai.com/wp-content/uploads/2015/02/QQ%E6%88%AA%E5%9B%BE20150211171953.jpg)
2.安裝pywin32
在windows下,必須安裝pywin32,安裝地址:[http://sourceforge.net/projects/pywin32/](http://sourceforge.net/projects/pywin32/)
下載對應版本的pywin32,直接雙擊安裝即可,安裝完畢之后驗證:
[](http://qiniu.cuiqingcai.com/wp-content/uploads/2015/02/QQ%E6%88%AA%E5%9B%BE20150211171713.jpg)
在python命令行下輸入
import win32com
如果沒有提示錯誤,則證明安裝成功
3.安裝pip
pip是用來安裝其他必要包的工具,首先下載?[get-pip.py](https://bootstrap.pypa.io/get-pip.py)
下載好之后,選中該文件所在路徑,執行下面的命令
~~~
python get-pip.py
~~~
執行命令后便會安裝好pip,并且同時,它幫你安裝了[setuptools](https://pypi.python.org/pypi/setuptools)
安裝完了之后在命令行中執行
~~~
pip --version
~~~
如果提示如下,說明就安裝成功了,如果提示不是內部或外部命令,那么就檢查一下環境變量有沒有配置好吧,有兩個路徑。
[](http://qiniu.cuiqingcai.com/wp-content/uploads/2015/02/QQ%E6%88%AA%E5%9B%BE20150211171001.jpg)
4.安裝pyOPENSSL
在Windows下,是沒有預裝pyOPENSSL的,而在Linux下是已經安裝好的。
安裝地址:[https://launchpad.net/pyopenssl](https://launchpad.net/pyopenssl)
5.安裝 lxml
lxml的詳細介紹?[點我](http://lxml.de/)?,是一種使用 Python 編寫的庫,可以迅速、靈活地處理 XML
直接執行如下命令
~~~
pip install lxml
~~~
就可完成安裝,如果提示 Microsoft Visual C++庫沒安裝,則?[點我](http://www.microsoft.com/en-us/download/details.aspx?id=44266)?下載支持的庫。
6.安裝Scrapy
最后就是激動人心的時刻啦,上面的鋪墊做好了,我們終于可以享受到勝利的果實啦!
執行如下命令
~~~
pip install Scrapy
~~~
[](http://qiniu.cuiqingcai.com/wp-content/uploads/2015/02/QQ%E6%88%AA%E5%9B%BE20150211172637.jpg)
pip 會另外下載其他依賴的包,這些就不要我們手動安裝啦,等待一會,大功告成!
7.驗證安裝
輸入 Scrapy
如果提示如下命令,就證明安裝成功啦,如果失敗了,請檢查上述步驟有何疏漏。
[](http://qiniu.cuiqingcai.com/wp-content/uploads/2015/02/QQ%E6%88%AA%E5%9B%BE20150211172456.jpg)
## Linux Ubuntu 平臺:
Linux 下安裝非常簡單,只需要執行幾條命令幾個
1.安裝Python
~~~
sudo apt-get install python2.7 python2.7-dev
~~~
2.安裝 pip
首先下載?[get-pip.py](https://bootstrap.pypa.io/get-pip.py)
下載好之后,選中該文件所在路徑,執行下面的命令
~~~
sudo python get-pip.py
~~~
3.直接安裝 Scrapy
由于 Linux下已經預裝了 lxml 和 OPENSSL
如果想驗證 lxml ,可以分別輸入
~~~
sudo pip install lxml
~~~
出現下面的提示這證明已經安裝成功
~~~
Requirement already satisfied (use --upgrade to upgrade): lxml in /usr/lib/python2.7/dist-packages
~~~
如果想驗證 openssl,則直接輸入openssl 即可,如果跳轉到 OPENSSL 命令行,則安裝成功。
接下來直接安裝 Scrapy 即可
~~~
sudo pip install Scrapy
~~~
安裝完畢之后,輸入 scrapy
注意,這里linux下不要輸入Scrapy,linux依然嚴格區分大小寫的,感謝kamen童鞋提醒。
如果出現如下提示,這證明安裝成功
~~~
Usage:
scrapy command> [options] [args]
Available commands:
bench Run quick benchmark test
fetch Fetch a URL using the Scrapy downloader
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
[ more ] More commands available when run from project directory
~~~
截圖如下
[](http://qiniu.cuiqingcai.com/wp-content/uploads/2015/02/2015-02-12-010022-%E7%9A%84%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png)
如有問題,歡迎留言!祝各位小伙伴順利安裝!
- Python爬蟲入門
- (1):綜述
- (2):爬蟲基礎了解
- (3):Urllib庫的基本使用
- (4):Urllib庫的高級用法
- (5):URLError異常處理
- (6):Cookie的使用
- (7):正則表達式
- (8):Beautiful Soup的用法
- Python爬蟲進階
- Python爬蟲進階一之爬蟲框架概述
- Python爬蟲進階二之PySpider框架安裝配置
- Python爬蟲進階三之Scrapy框架安裝配置
- Python爬蟲進階四之PySpider的用法
- Python爬蟲實戰
- Python爬蟲實戰(1):爬取糗事百科段子
- Python爬蟲實戰(2):百度貼吧帖子
- Python爬蟲實戰(3):計算大學本學期績點
- Python爬蟲實戰(4):模擬登錄淘寶并獲取所有訂單
- Python爬蟲實戰(5):抓取淘寶MM照片
- Python爬蟲實戰(6):抓取愛問知識人問題并保存至數據庫
- Python爬蟲利器
- Python爬蟲文章
- Python爬蟲(一)--豆瓣電影抓站小結(成功抓取Top100電影)
- Python爬蟲(二)--Coursera抓站小結
- Python爬蟲(三)-Socket網絡編程
- Python爬蟲(四)--多線程
- Python爬蟲(五)--多線程續(Queue)
- Python爬蟲(六)--Scrapy框架學習
- Python爬蟲(七)--Scrapy模擬登錄
- Python筆記
- python 知乎爬蟲
- Python 爬蟲之——模擬登陸
- python的urllib2 模塊解析
- 蜘蛛項目要用的數據庫操作
- gzip 壓縮格式的網站處理方法
- 通過瀏覽器的調試得出 headers轉換成字典
- Python登錄到weibo.com
- weibo v1.4.5 支持 RSA協議(模擬微博登錄)
- 搭建Scrapy爬蟲的開發環境
- 知乎精華回答的非專業大數據統計
- 基于PySpider的weibo.cn爬蟲
- Python-實現批量抓取妹子圖片
- Python庫
- python數據庫-mysql
- 圖片處理庫PIL
- Mac OS X安裝 Scrapy、PIL、BeautifulSoup
- 正則表達式 re模塊
- 郵件正則
- 正則匹配,但過濾某些字符串
- dict使用方法和快捷查找
- httplib2 庫的使用