2、安裝Scrapy · 技術-開發筆記

# scrapyd本地部署，遠端部署，利用gerapy部署 # scrapyd 本地部署 **scrapyd** 是運行scrapy爬蟲的服務程序,它支持以http命令方式發布、刪除、啟動、停止爬蟲程序。而且scrapyd可以同時管理多個爬蟲,每個爬蟲還可以有多個版本 * pip3 install scrapyd scrapyd-client發布爬蟲需要使用另一個專用工具，就是將代碼打包為EGG文件，其次需要將EGG文件上傳到遠程主機上這些操作需要scrapyd-client來幫助我們完成 * pip3 install scrapyd-client 安裝完成后可以使用如下命令來檢查是否安裝成功 * scrapyd-deploy -h **啟動scrapyd** * scrapyd **修改scrapy項目目錄下的scrapy.cfg配置文件** ~~~python [deploy] url=http://localhost:6800 project=項目名稱 ~~~ **本地部署** 本地部署項目部署相關命令：注意這里是項目的名稱而不是工程的名稱 * scrapyd-deploy -p 也可以指定版本號 * scrapyd-deploy -p --version **爬蟲運行相關命令** 詳情參考：[https://scrapyd.readthedocs.io/en/latest/api.html](https://scrapyd.readthedocs.io/en/latest/api.html) ### 遠端部署 #### 配置服務器 **1.購買Linux系統服務器** **2.在終端上登錄系統服務器** **3.配置項目運行環境** ~~~ 配置python環境(ubuntu自帶python3環境)) 安裝pip3：sudo apt install python3-pip 安裝scrapy：pip3 install scrapy -i https://pypi.douban.com/simple/ 如果安裝失敗添加如下依賴： ~~~ sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev * 安裝scrapyd: pip3 install scrapyd * 安裝scrapyd-client: pip3 install scrapyd-client * 添加爬蟲運行的三方庫： ~~~ pip3 install requests pip3 install pymysql pip3 install pymongodb .......... ~~~ ### 修改scrapyd的配置文件，允許外網訪問 * 查找配置文件的路徑：find -name default\_scrapyd.conf * 修改配置文件: sudo vim 路徑 ![在這里插入圖片描述](https://img-blog.csdnimg.cn/20190922153958557.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzcwNjQ3Mw==,size_16,color_FFFFFF,t_70) \*\*要去服務器安全組配置 \*\* ![在這里插入圖片描述](https://img-blog.csdnimg.cn/20190922154236228.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzcwNjQ3Mw==,size_16,color_FFFFFF,t_70) ![在這里插入圖片描述](https://img-blog.csdnimg.cn/20190922154326767.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzcwNjQ3Mw==,size_16,color_FFFFFF,t_70) ![在這里插入圖片描述](https://img-blog.csdnimg.cn/20190922154347385.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzcwNjQ3Mw==,size_16,color_FFFFFF,t_70) ![在這里插入圖片描述](https://img-blog.csdnimg.cn/20190922154400694.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzcwNjQ3Mw==,size_16,color_FFFFFF,t_70) **最后將爬蟲項目在服務器上部署** 首先修改scrapyd.egg（項目上的配置文件） ~~~python [deploy] url = http://118.24.255.219:6800 project=項目名稱 ~~~ **項目部署** * scrapyd-deploy -p 也可以指定版本號 * scrapyd-deploy -p --version **分布式爬蟲項目的部署與上面部署的流程一致** ### 在Windows上scrapyd 可能不好用需要先在當前環境下的Scripts文件加下創建兩個文件scrapyd.bat 和scrapyd-depoly.bat文件 * 在scrapyd.bat下 > @echo off > “C:\\Users\\meuto\\Envs\\spider-man\\Scripts\\python.exe” “C:\\Users\\meuto\\Envs\\spiderman\\Scripts\\scrapyd”%\* * 在scrapyd-depoly.bat文件下 > @echo off > “C:\\Users\\meuto\\Envs\\spider-man\\Scripts\\python.exe” “C:\\Users\\meuto\\Envs\\spiderman\\Scripts\\scrapyd-deploy”%\* > **第一個路徑是當前環境下的python解釋器，另一個是當前環境下的crapyd-deploy** ## gerapy 詳解介紹： Gerapy 是一款分布式爬蟲管理框架，支持 Python 3，基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 開發，Gerapy 可以幫助我們： * 更方便地控制爬蟲運行 * 更直觀地查看爬蟲狀態 * 更實時地查看爬取結果 * 更簡單地實現項目部署 * 更統一地實現主機管理 * 提供在線編輯代碼功能 **Greapy 安裝和使用** > pip3 install gerapy 查看是否安裝成功 > gerapy > 出現如下結果圖說明安裝成功 > ![在這里插入圖片描述](https://img-blog.csdnimg.cn/20190922160802681.png) **初始化gerapy** > gerapy init > 執行完畢之后，便會在桌面下生成一個名字為 gerapy 的文件夾，接著進入該文件夾，可以看到有一個 projects 文件夾 **進入到gerapy文件夾下** > cd gerapy \*\*執行(會在gerapy目錄下生產一個sqlite數據庫，同時創建數據表，數據庫中會保存各個主機配置信息、部署版本等) \*\* > gerapy migrate **運行gerapy服務** > gerapy runserver **訪問gerapy管理界面在瀏覽器中輸入如下網址** > http://127.0.0.1:8000 ![在這里插入圖片描述](https://img-blog.csdnimg.cn/20190922161022657.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzcwNjQ3Mw==,size_16,color_FFFFFF,t_70) ![在這里插入圖片描述](https://img-blog.csdnimg.cn/20190922161038571.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzcwNjQ3Mw==,size_16,color_FFFFFF,t_70) ![在這里插入圖片描述](https://img-blog.csdnimg.cn/20190922161059751.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzcwNjQ3Mw==,size_16,color_FFFFFF,t_70) ![在這里插入圖片描述](https://img-blog.csdnimg.cn/20190922161113961.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzcwNjQ3Mw==,size_16,color_FFFFFF,t_70) ![在這里插入圖片描述](https://img-blog.csdnimg.cn/20190922161132860.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzcwNjQ3Mw==,size_16,color_FFFFFF,t_70)