[TOC]
## 1. scrapyd
> 1. scrapyd是又scrapy提供的免費開源的工具,用來管理你創建的scrapy項目的有界面的管理工具。
> 2. scrapy-client是是免費開源的工具,用來打包并發布你的scrapy項目到scrapyd。用scrapyd發布要麻煩一些。這個工具簡化了發布步驟。
官方文檔:http://scrapyd.readthedocs.io/en/latest/overview.html
### 1.1 install(Ubuntu)
* 前提要求安裝了scrapy:https://doc.scrapy.org/en/latest/topics/ubuntu.html
~~~
# 安裝依賴
sudo apt-get install -y libffi-dev libssl-dev libxml2-dev libxslt1-dev zlib1g-dev build-dep python-lxml
git clone https://github.com/scrapy/scrapyd
cd scrapyd/
python3 setup.py install
~~~
或者:
~~~
pip3 install scrapyd
~~~
> 1. 報錯:Invalid environment marker:python_version < '3',解決辦法如下
~~~
sudo pip3 install --upgrade setuptools
~~~
> 2. 報錯: Could not find function xmlCheckVersion in library libxml2. Is libxml2 installed?
~~~
sudo apt-get install -y libxml2-dev libxslt1-dev zlib1g-dev
~~~
> 3. 報錯:error: Could not find required distribution pyasn1
~~~
pip3 install pyasn1
~~~
> 4. 報錯:error: Setup script exited with error: command 'x86_64-linux-gnu-gcc' failed with exit status 1
~~~
sudo apt-get build-dep python-lxml
~~~
> 5. 報錯:c/_cffi_backend.c:15:17: fatal error: ffi.h: No such file or directory #include <ffi.h>
~~~
sudo apt-get install libffi-dev
~~~
6. 報錯:error: Setup script exited with error in cryptography setup command: Invalid environment marker: platform_python_implementation != 'PyPy'
~~~
sudo pip install --upgrade setuptools
~~~
### 1.2 配置scrapyd
> Scrapyd searches for configuration files in the following locations, and parses them in order with the latest one taking more priority:
~~~
/etc/scrapyd/scrapyd.conf (Unix)
c:\scrapyd\scrapyd.conf (Windows)
/etc/scrapyd/conf.d/* (in alphabetical order, Unix)
scrapyd.conf
~/.scrapyd.conf (users home directory)
~~~
scrapyd默認綁定127.0.0.1,我們需要把它修改為服務器ip,這樣client才可以向它發送部署請求
~~~
# 創建目錄
mkdir /etc/scrapyd
# 創建文件
vim /etc/scrapyd/scrapyd.conf
# 增加配置
[scrapyd]
eggs_dir = eggs
logs_dir = logs
items_dir =
jobs_to_keep = 5
dbs_dir = dbs
max_proc = 0
max_proc_per_cpu = 4
finished_to_keep = 100
poll_interval = 5.0
bind_address = 192.168.56.130
http_port = 6800
debug = off
runner = scrapyd.runner
application = scrapyd.app.application
launcher = scrapyd.launcher.Launcher
webroot = scrapyd.website.Root
[services]
schedule.json = scrapyd.webservice.Schedule
cancel.json = scrapyd.webservice.Cancel
addversion.json = scrapyd.webservice.AddVersion
listprojects.json = scrapyd.webservice.ListProjects
listversions.json = scrapyd.webservice.ListVersions
listspiders.json = scrapyd.webservice.ListSpiders
delproject.json = scrapyd.webservice.DeleteProject
delversion.json = scrapyd.webservice.DeleteVersion
listjobs.json = scrapyd.webservice.ListJobs
daemonstatus.json = scrapyd.webservice.DaemonStatus
~~~
### 1.2 運行scrapyd
~~~
nohup scrapyd & > scrpyd.log 2>&1 &
~~~
## 2. scrapyd-clinet
GitHub地址:https://github.com/scrapy/scrapyd-client
### 2.1 安裝
~~~
pip3 install scrapyd-client
~~~
### 2.2 部署爬蟲項目scrapyd-deploy
#### 2.2.1 配置爬蟲項目
> 修改爬蟲項目下的scrapy.cfg,設置該爬蟲項目所要發布到的服務器(運行scrapyd的服務器)
~~~
[deploy]
url = http://192.168.56.130:6800/
project = proxyscrapy
username = proxyscrapy
password = tuna
~~~
#### 2.2.2 部署
**1. 執行打包命令**
~~~
scrapyd-deploy
~~~
> Windows下報錯:
~~~
E:\PythonWorkSpace\proxyscrapy>scrapyd-deploy
'scrapyd-deploy' 不是內部或外部命令,也不是可運行的程序
~~~
> * 通常情況下,開始時在Windows系統下,但是不具有可執行權限,所以要做以下修改
1. 在python的安裝目錄下,找到Scripts目錄,新建scrapyd-deploy.bat文件

2. 添加一下內容
~~~
@echo off
"D:\Python\Python36\python.exe" "D:\Python\Python36\Scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9
~~~
> * 再次執行打包,成功返回以下:
~~~
Packing version 1519871059
Deploying to project "proxyscrapy" in http://192.168.56.130:6800/addversion.json
Server response (200):
{"project": "proxyscrapy", "status": "ok", "node_name": "zabbix01", "version": "1519871059", "spiders": 4}
~~~
**2. 發布爬蟲項目**
windos下需要安裝curl :http://www.hmoore.net/tuna_dai_/day01/535005
~~~
curl http://192.168.56.130:6800/schedule.json -d project=proxyscrapy -d spider=yaoq
~~~
scrapyd還提供了很多請求,包括列舉所有爬蟲項目,所有爬蟲,取消運行的爬蟲等,官方api:http://scrapyd.readthedocs.io/en/latest/api.html
命令成功返回
~~~
{"status": "ok", "node_name": "zabbix01", "jobid": "3db9af3e1d0011e88b5c080027a60f41"
}
~~~
3. 查看爬蟲狀態
http://192.168.56.130:6800
點擊jobs查看爬蟲

之后可以看爬蟲的狀態和日志

修改代碼后要重新scrapyd-deploy打包部署,爽!!!!!
## 3. 部署到多臺scrapyd服務器
### 3.1 配置爬蟲項目的scrapy.cfg
> 1. 指定多個target(scrapyd服務器),格式[deploy:標識名]
~~~
[deploy:zabbix01]
url = http://192.168.56.130:6800/
project = proxyscrapy
username = proxyscrapy
password = tuna
[deploy:es01]
url = http://192.168.56.130:6800/
project = proxyscrapy
username = proxyscrapy
password = tuna
~~~
### 3.2 打包項目到scrapyd(target)
#### 3.2.1 單個部署
scrapyd-deploy [target標識名]
例:
~~~
E:\PythonWorkSpace\proxyscrapy>scrapyd-deploy zabbix01
Packing version 1519951093
Deploying to project "proxyscrapy" in http://192.168.56.130:6800/addversion.json
Server response (200):
{"status": "ok", "version": "1519951093", "node_name": "zabbix01", "spiders": 4, "project": "proxyscrapy"}
E:\PythonWorkSpace\proxyscrapy>scrapyd-deploy es01
Packing version 1519951106
Deploying to project "proxyscrapy" in http://192.168.56.130:6800/addversion.json
Server response (200):
{"status": "ok", "version": "1519951106", "node_name": "zabbix01", "spiders": 4, "project": "proxyscrapy"}
~~~
#### 3.2.2 多個project同時打包
~~~
E:\PythonWorkSpace\scrapyredis>scrapyd-deploy -a
Packing version 1519952580
Deploying to project "scrapyredis" in http://192.168.56.130:6800/addversion.json
Server response (200):
{"status": "ok", "version": "1519952580", "node_name": "zabbix01", "spiders": 1, "project": "scrapyredis"}
Packing version 1519952580
Deploying to project "scrapyredis" in http://192.168.56.130:6800/addversion.json
Server response (200):
{"status": "ok", "version": "1519952580", "node_name": "zabbix01", "spiders": 1, "project": "scrapyredis"}
~~~
> 1. 此時可以查看有多少可用的target
~~~
E:\PythonWorkSpace\proxyscrapy>scrapyd-deploy -l
zabbix01 http://192.168.56.130:6800/
es01 http://192.168.56.130:6800/
~~~
> 2. 查看某一target上部署那些項目
~~~
E:\PythonWorkSpace\proxyscrapy>scrapyd-deploy -L zabbix01
scrapyredis
proxyscrapy
~~~
> 3. 在服務器上開啟爬蟲
- Docker
- 什么是docker
- Docker安裝、組件啟動
- docker網絡
- docker命令
- docker swarm
- dockerfile
- mesos
- 運維
- Linux
- Linux基礎
- Linux常用命令_1
- Linux常用命令_2
- ip命令
- 什么是Linux
- SELinux
- Linux GCC編譯警告:Clock skew detected. 錯誤解決辦法
- 文件描述符
- find
- 資源統計
- LVM
- Linux相關配置
- 服務自啟動
- 服務器安全
- 字符集
- shell腳本
- shell命令
- 實用腳本
- shell 數組
- 循環與判斷
- 系統級別進程開啟和停止
- 函數
- java調用shell腳本
- 發送郵件
- Linux網絡配置
- Ubuntu
- Ubuntu發送郵件
- 更換apt-get源
- centos
- 防火墻
- 虛擬機下配置網絡
- yum重新安裝
- 安裝mysql5.7
- 配置本地yum源
- 安裝telnet
- 忘記root密碼
- rsync+ crontab
- Zabbix
- Zabbix監控
- Zabbix安裝
- 自動報警
- 自動發現主機
- 監控MySQL
- 安裝PHP常見錯誤
- 基于nginx安裝zabbix
- 監控Tomcat
- 監控redis
- web監控
- 監控進程和端口號
- zabbix自定義監控
- 觸發器函數
- zabbix監控mysql主從同步狀態
- Jenkins
- 安裝Jenkins
- jenkins+svn+maven
- jenkins執行shell腳本
- 參數化構建
- maven區分環境打包
- jenkins使用注意事項
- nginx
- nginx認證功能
- ubuntu下編譯安裝Nginx
- 編譯安裝
- Nginx搭建本地yum源
- 文件共享
- Haproxy
- 初識Haproxy
- haproxy安裝
- haproxy配置
- virtualbox
- virtualbox 復制新的虛擬機
- ubuntu下vitrualbox安裝redhat
- centos配置雙網卡
- 配置存儲
- Windows
- Windows安裝curl
- VMware vSphere
- 磁盤管理
- 增加磁盤
- gitlab
- 安裝
- tomcat
- Squid
- bigdata
- FastDFS
- FastFDS基礎
- FastFDS安裝及簡單實用
- api介紹
- 數據存儲
- FastDFS防盜鏈
- python腳本
- ELK
- logstash
- 安裝使用
- kibana
- 安準配置
- elasticsearch
- elasticsearch基礎_1
- elasticsearch基礎_2
- 安裝
- 操作
- java api
- 中文分詞器
- term vector
- 并發控制
- 對text字段排序
- 倒排和正排索引
- 自定義分詞器
- 自定義dynamic策略
- 進階練習
- 共享鎖和排它鎖
- nested object
- 父子關系模型
- 高亮
- 搜索提示
- Redis
- redis部署
- redis基礎
- redis運維
- redis-cluster的使用
- redis哨兵
- redis腳本備份還原
- rabbitMQ
- rabbitMQ安裝使用
- rpc
- RocketMQ
- 架構概念
- 安裝
- 實例
- 好文引用
- 知乎
- ACK
- postgresql
- 存儲過程
- 編程語言
- 計算機網絡
- 基礎_01
- tcp/ip
- http轉https
- Let's Encrypt免費ssl證書(基于haproxy負載)
- what's the http?
- 網關
- 網絡IO
- http
- 無狀態網絡協議
- Python
- python基礎
- 基礎數據類型
- String
- List
- 遍歷
- Python基礎_01
- python基礎_02
- python基礎03
- python基礎_04
- python基礎_05
- 函數
- 網絡編程
- 系統編程
- 類
- Python正則表達式
- pymysql
- java調用python腳本
- python操作fastdfs
- 模塊導入和sys.path
- 編碼
- 安裝pip
- python進階
- python之setup.py構建工具
- 模塊動態導入
- 內置函數
- 內置變量
- path
- python模塊
- 內置模塊_01
- 內置模塊_02
- log模塊
- collections
- Twisted
- Twisted基礎
- 異步編程初探與reactor模式
- yield-inlineCallbacks
- 系統編程
- 爬蟲
- urllib
- xpath
- scrapy
- 爬蟲基礎
- 爬蟲種類
- 入門基礎
- Rules
- 反反爬蟲策略
- 模擬登陸
- problem
- 分布式爬蟲
- 快代理整站爬取
- 與es整合
- 爬取APP數據
- 爬蟲部署
- collection for ban of web
- crawlstyle
- API
- 多次請求
- 向調度器發送請求
- 源碼學習
- LinkExtractor源碼分析
- 構建工具-setup.py
- selenium
- 基礎01
- 與scrapy整合
- Django
- Django開發入門
- Django與MySQL
- java
- 設計模式
- 單例模式
- 工廠模式
- java基礎
- java位移
- java反射
- base64
- java內部類
- java高級
- 多線程
- springmvc-restful
- pfx數字證書
- 生成二維碼
- 項目中使用log4j
- 自定義注解
- java發送post請求
- Date時間操作
- spring
- 基礎
- spring事務控制
- springMVC
- 注解
- 參數綁定
- springmvc+spring+mybatis+dubbo
- MVC模型
- SpringBoot
- java配置入門
- SpringBoot基礎入門
- SpringBoot web
- 整合
- SpringBoot注解
- shiro權限控制
- CommandLineRunner
- mybatis
- 靜態資源
- SSM整合
- Aware
- Spring API使用
- Aware接口
- mybatis
- 入門
- mybatis屬性自動映射、掃描
- 問題
- @Param 注解在Mybatis中的使用 以及傳遞參數的三種方式
- mybatis-SQL
- 逆向生成dao、model層代碼
- 反向工程中Example的使用
- 自增id回顯
- SqlSessionDaoSupport
- invalid bound statement(not found)
- 脈絡
- beetl
- beetl是什么
- 與SpringBoot整合
- shiro
- 什么是shiro
- springboot+shrio+mybatis
- 攔截url
- 枚舉
- 圖片操作
- restful
- java項目中日志處理
- JSON
- 文件工具類
- KeyTool生成證書
- 兼容性問題
- 開發規范
- 工具類開發規范
- 壓縮圖片
- 異常處理
- web
- JavaScript
- 基礎語法
- 創建對象
- BOM
- window對象
- DOM
- 閉包
- form提交-文件上傳
- td中內容過長
- 問題1
- js高級
- js文件操作
- 函數_01
- session
- jQuery
- 函數01
- data()
- siblings
- index()與eq()
- select2
- 動態樣式
- bootstrap
- 表單驗證
- 表格
- MUI
- HTML
- iframe
- label標簽
- 規范編程
- layer
- sss
- 微信小程序
- 基礎知識
- 實踐
- 自定義組件
- 修改自定義組件的樣式
- 基礎概念
- appid
- 跳轉
- 小程序發送ajax
- 微信小程序上下拉刷新
- if
- 工具
- idea
- Git
- maven
- svn
- Netty
- 基礎概念
- Handler
- SimpleChannelInboundHandler 與 ChannelInboundHandler
- 網絡編程
- 網絡I/O
- database
- oracle
- 游標
- PLSQL Developer
- mysql
- MySQL基準測試
- mysql備份
- mysql主從不同步
- mysql安裝
- mysql函數大全
- SQL語句
- 修改配置
- 關鍵字
- 主從搭建
- centos下用rpm包安裝mysql
- 常用sql
- information_scheme數據庫
- 值得學的博客
- mysql學習
- 運維
- mysql權限
- 配置信息
- 好文mark
- jsp
- jsp EL表達式
- C
- test