1.9.2 Scrapyd的安裝 · python3爬蟲筆記

# 1.9.2 Scrapyd的安裝 ## 1.說明 Scrapyd是一個用于布署和運行的Scrapy的工具，可以利用它將寫好的Scrapy項目上傳到云主機并通過API來控制運行 ## 2.相關鏈接 * GitHub：[https://github.com/scrapy/scrapyd](https://github.com/scrapy/scrapyd) * PyPi：[https://pypi.python.org/pypi/scrapyd](https://pypi.python.org/pypi/scrapyd)0 * 官方文檔：[https://scrapyd.readthedocs.io](https://scrapyd.readthedocs.io/) ## 3.安裝 ```text pip install scrapyd ``` ## 4.配置 ## windows windows下已經配置好了: 如:E:\Python36\Lib\site-packages\scrapyd\default\_scrapyd.conf ```text [scrapyd] eggs_dir = eggs logs_dir = logs items_dir = jobs_to_keep = 5 dbs_dir = dbs max_proc = 0 max_proc_per_cpu = 4 finished_to_keep = 100 poll_interval = 5.0 bind_address = 127.0.0.1 http_port = 6800 debug = off runner = scrapyd.runner application = scrapyd.app.application launcher = scrapyd.launcher.Launcher webroot = scrapyd.website.Root [services] schedule.json = scrapyd.webservice.Schedule cancel.json = scrapyd.webservice.Cancel addversion.json = scrapyd.webservice.AddVersion listprojects.json = scrapyd.webservice.ListProjects listversions.json = scrapyd.webservice.ListVersions listspiders.json = scrapyd.webservice.ListSpiders delproject.json = scrapyd.webservice.DeleteProject delversion.json = scrapyd.webservice.DeleteVersion listjobs.json = scrapyd.webservice.ListJobs daemonstatus.json = scrapyd.webservice.DaemonStatus ``` ## Linux 安裝完畢之后需要新建一個配置文件 /etc/scrapyd/scrapyd.conf，Scrapyd 在運行的時候會讀取此配置文件。因為在 Scrapyd 1.2 版本之后不會自動創建該文件，需要我們自行添加。執行命令新建文件： ```text sudo mkdir /etc/scrapyd sudo vim /etc/scrapyd/scrapyd.conf ``` 寫入windows下的default\_scrapyd.conf的內容最后輸入:wq退出配置文件的內容可以參見[官方文檔](https://scrapyd.readthedocs.io/en/stable/config.html#example-configuration-file)：在這里的配置文件有所修改，其中之一是 max\_proc\_per\_cpu 官方默認為 4，即一臺主機每個 CPU 最多運行 4 個Scrapy Job，另外一個是 bind\_address，默認為本地 127.0.0.1，在此修改為 0.0.0.0，外網可以訪問。 ## 5. 后臺運行 {#4-后臺運行} 由于 Scrapyd 是一個純 Python 項目，在這里可以直接調用 scrapyd 來運行，為了使程序一直在后臺運行，Linux 和 Mac 可以使用如下命令： ```text (scrapyd > /dev/null &) ``` 這樣 Scrapyd 就會在后臺持續運行了，控制臺輸出直接忽略，當然如果想記錄輸出日志可以修改輸出目標，如： ```text (scrapyd > ~/scrapyd.log &) ``` 則會輸出 Scrapyd 運行輸出到 ~/scrapyd.log 文件中。運行之后便可以在瀏覽器的 6800 訪問 WebUI 了，可以簡略看到當前 Scrapyd 的運行 Job、Log 等內容 ![](https://box.kancloud.cn/512845428a18606ccb1bdbec9739eb0f_1164x691.png)運行 Scrapyd 更佳的方式是使用 Supervisor 守護進程運行，如果感興趣可以參考：[http://supervisord.org/](http://supervisord.org/)。 ## 6. 訪問認證 {#5-訪問認證} 限制配置完成之后 Scrapyd 和它的接口都是可以公開訪問的，如果要想配置訪問認證的話可以借助于 Nginx 做反向代理，在這里需要先安裝 Nginx 服務器。在此以 Ubuntu 為例進行說明，安裝命令如下： ```text sudo apt-get install nginx ``` 然后修改 Nginx 的配置文件 nginx.conf，增加如下配置： ```text http { server { listen 6801; location / { proxy_pass http://127.0.0.1:6800/; auth_basic "Restricted"; auth_basic_user_file /etc/nginx/conf.d/.htpasswd; } } } ``` 在這里使用的用戶名密碼配置放置在 /etc/nginx/conf.d 目錄，我們需要使用 htpasswd 命令創建，例如創建一個用戶名為 admin 的文件，命令如下： ```text htpasswd -c .htpasswd admin ``` 接下就會提示我們輸入密碼，輸入兩次之后，就會生成密碼文件，查看一下內容： ```text cat .htpasswd admin:5ZBxQr0rCqwbc ``` 配置完成之后我們重啟一下 Nginx 服務，運行如下命令： ```text sudo nginx -s reload ``` 這樣就成功配置了 Scrapyd 的訪問認證了。