## 可以直接保存為文件
```
scrapy crawl cake -o cake.csv
scrapy crawl cake -o cake.xml
scrapy crawl cake -o cake.json
scrapy crawl cake -o cake.pickle
scrapy crawl cake -o cake.marshal
scrapy crawl cake -o ftp://user:pass@ftp.example.com/path/to/cake.csv
```
- scrapy輸出的json文件中顯示中文
scrapy用-o filename.json 輸出時,會默認使用unicode編碼,當內容為中文時,輸出的json文件不便于查看
可以在setting.py文件中修改默認的輸出編碼方式,只需要在setting.py中增加如下語句(默認似乎是沒有指定的,所以要增加,如果默認有,就直接修改)
>FEED_EXPORT_ENCODING = 'utf-8'
- pipelines.py
```
# -*- coding: utf-8 -*-
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import sqlite3
class MeituanPipeline(object):
def open_spider(self,spider):
# 爬蟲啟動時,連接數據庫
self.con = sqlite3.connect("meituan.sqlite")
# self.cu用來執行sql語句
self.cu = self.con.cursor()
def process_item(self, item, spider):
# print(spider.name)
# 插入數據庫,format格式化values
insert_sql = "insert into cake (title, money) values('{}', '{}')".format(item['title'], item['money'])
print(insert_sql)
self.cu.execute(insert_sql)
# 所有的數據修改需要提交
self.con.commit()
return item
# 爬蟲結束時,關閉連接
def spider_close(self,spider):
self.con.close()
```
- 工欲善其事必先利其器
- 請求庫
- 解析庫
- 數據庫
- 存儲庫
- Web庫
- app爬取相關庫
- 爬蟲框架
- 部署相關庫
- ipython
- 基礎
- 數學函數
- 隨機函數
- 三角函數
- 字符串內建函數
- 列表方法
- 字典內置方法
- 正則表達式
- os
- 字符串及數字的判斷
- 常用魔術方法
- db
- mongodb
- mysql
- redis
- ORM
- ODM
- mongodb操作方法
- sqlite3
- access
- files
- Excel
- xml文件
- Python環境
- anaconda
- pip常用命令
- virtualenv
- pyenv
- cmder
- 遠程開發
- Jupyter
- crawler
- appium環境搭建
- adb工具
- uiautomator
- 運行Appium+Python Clinet + 夜神模擬器
- DesiredCapabilities參數大全
- requests
- scrapy
- gerapy
- scrapyd
- 請求頭fake_useragent庫
- 數據傳遞過程
- 數據清洗及入庫pipelines.py
- scrapy調用阿布云代理
- 圖片下載
- PyQt5
- pyinstaller
- 攻防
- xss
- xss反射
- Chrome模擬微信瀏覽器
- flask
- 注冊app
- 藍圖Blueprint
- 表單驗證wtforms
- Flask-SQLAlchemy
- 數據處理
- json
- tornado
- settings
- 工具
- fiddler
- ab壓力測試工具
- 高階
- 隊列
- 多線程
- 消息隊列
- 定時任務框架APScheduler
- Django
- 路由分離
- 模型
- admin
- Android
- apk逆向工程