# scrapyd本地部署,遠端部署,利用gerapy部署
# scrapyd 本地部署
**scrapyd**
是運行scrapy爬蟲的服務程序,它支持以http命令方式發布、刪除、啟動、停止爬蟲程序。而且scrapyd可以同時管理多個爬蟲,每個爬蟲還可以有多個版本
* pip3 install scrapyd
scrapyd-client發布爬蟲需要使用另一個專用工具,就是將代碼打包為EGG文件,其次需要將EGG文件上傳到遠程主機上這些操作需要scrapyd-client來幫助我們完成
* pip3 install scrapyd-client
安裝完成后可以使用如下命令來檢查是否安裝成功
* scrapyd-deploy -h
**啟動scrapyd**
* scrapyd
**修改scrapy項目目錄下的scrapy.cfg配置文件**
~~~python
[deploy]
url=http://localhost:6800
project=項目名稱
~~~
**本地部署**
本地部署
項目部署相關命令: 注意這里是項目的名稱而不是工程的名稱
* scrapyd-deploy -p
也可以指定版本號
* scrapyd-deploy -p --version
**爬蟲運行相關命令**
詳情參考:[https://scrapyd.readthedocs.io/en/latest/api.html](https://scrapyd.readthedocs.io/en/latest/api.html)
### 遠端部署
#### 配置服務器
**1.購買Linux系統服務器**
**2.在終端上登錄系統服務器**
**3.配置項目運行環境**
~~~
配置python環境(ubuntu自帶python3環境))
安裝pip3:sudo apt install python3-pip
安裝scrapy:pip3 install scrapy -i https://pypi.douban.com/simple/
如果安裝失敗添加如下依賴:
~~~
sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
* 安裝scrapyd: pip3 install scrapyd
* 安裝scrapyd-client: pip3 install scrapyd-client
* 添加爬蟲運行的三方庫:
~~~
pip3 install requests
pip3 install pymysql
pip3 install pymongodb
..........
~~~
### 修改scrapyd的配置文件,允許外網訪問
* 查找配置文件的路徑:find -name default\_scrapyd.conf
* 修改配置文件: sudo vim 路徑

\*\*要去服務器安全組配置 \*\*




**最后將爬蟲項目在服務器上部署**
首先修改scrapyd.egg(項目上的配置文件)
~~~python
[deploy]
url = http://118.24.255.219:6800
project=項目名稱
~~~
**項目部署**
* scrapyd-deploy -p
也可以指定版本號
* scrapyd-deploy -p --version
**分布式爬蟲項目的部署與上面部署的流程一致**
### 在Windows上scrapyd 可能不好用需要先在當前環境下的Scripts文件加下創建兩個文件scrapyd.bat 和scrapyd-depoly.bat文件
* 在scrapyd.bat下
> @echo off
> “C:\\Users\\meuto\\Envs\\spider-man\\Scripts\\python.exe” “C:\\Users\\meuto\\Envs\\spiderman\\Scripts\\scrapyd”%\*
* 在scrapyd-depoly.bat文件下
> @echo off
> “C:\\Users\\meuto\\Envs\\spider-man\\Scripts\\python.exe” “C:\\Users\\meuto\\Envs\\spiderman\\Scripts\\scrapyd-deploy”%\*
> **第一個路徑是當前環境下的python解釋器,另一個是當前環境下的crapyd-deploy**
## gerapy 詳解
介紹:
Gerapy 是一款分布式爬蟲管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 開發,Gerapy 可以幫助我們:
* 更方便地控制爬蟲運行
* 更直觀地查看爬蟲狀態
* 更實時地查看爬取結果
* 更簡單地實現項目部署
* 更統一地實現主機管理
* 提供在線編輯代碼功能
**Greapy 安裝和使用**
> pip3 install gerapy
查看是否安裝成功
> gerapy
> 出現如下結果圖說明安裝成功
> 
**初始化gerapy**
> gerapy init
> 執行完畢之后,便會在桌面下生成一個名字為 gerapy 的文件夾,接著進入該文件夾,可以看到有一個 projects 文件夾
**進入到gerapy文件夾下**
> cd gerapy
\*\*執行(會在gerapy目錄下生產一個sqlite數據庫,同時創建數據表,數據庫中會保存各個主機配置信息、部署版本等)
\*\*
> gerapy migrate
**運行gerapy服務**
> gerapy runserver
**訪問gerapy管理界面在瀏覽器中輸入如下網址**
> http://127.0.0.1:8000





- thinkphp
- thinkphp筆記
- 后臺登陸退出
- config配置
- 隱藏后臺模塊
- 單獨調用騰訊云行為驗證碼
- api接口跨域問題
- api接口創建案例代碼
- 使用gateway worker
- 使用swoole代碼筆記
- 使用隊列 think-queue筆記
- 后臺布局
- MySQL
- 1、關于lnmp mysql的一個坑
- 2、mysql實現group by后取各分組的最新一條
- 其他
- 搞笑的注釋代碼
- 分頁類
- nodejs 打包網址為exe
- 免費天氣預報API接口
- Ajax
- 簡單的ajax分頁1
- 通用ajax-post提交
- 引用的類庫文件
- Auth.php
- Auth.php權限控制對應的數據庫表結構
- Layui.php
- Pinyin.php
- Random.php
- Tree.php
- Tree2.php
- Js-Jq
- Git的使用
- 3、bootstrap-datetimepicker實現兩個時間范圍輸入
- CentOS安裝SSR做梯子
- Python爬蟲
- 1、安裝Gerapy
- 2、安裝Scrapy
- 3、Scrapy使用
- 4、Scrapy框架,爬取網站返回json數據(spider源碼)
- 0、Python pip更換國內源(一句命令換源)
- 服務器運維
- 1、寶塔使用webhook更新服務器代碼
- 2、搭建內網穿透
- 3、數據庫主從同步
- 4、數據庫復制
- hui-Shop問題
- 1、前端模板的注意事項
- 2、模板標簽