jsonpath處理json數據 · Python爬蟲

jsonpath作為json模塊的補充，jsonpath相比于json在對于擁有很多的嵌套的json數據時，使用起來更方便和簡潔。使用結構如下： ```python from jsonpath import jsonpath json_data = jsonpath(obj, 'jsonpath語法') ``` jsonpath的語法如下： ```python $ 提取根節點 @ 提取現行節點 . 提取子節點 [] 取子節點 [] 迭代器標示，可以在括號做簡單的迭代操作，如數組下標，根據內容選擇等 n/a 提取父節點，jsonpath未支持 n/a 根據屬性訪問，json不支持 n/a 分組，jsonpath不支持 .. 不管位置，選擇所有符合條件的節點 * 匹配所有元素節點 [,] 支持迭代器中做多選 ?() 支持過濾操作 () 支持表達式計算語法很多，但是只要會使用下面三種語法就夠用了： $ 提取根節點 . 提取子節點 .. 不管位置，選擇所有符合條件的節點 ``` <br/> 舉例：（1）json數據格式如下，這里只列出了一小部分 ```json { "state":1, "message":"success", "content":{ "data":{ "allCitySearchLabels":{ "A":[ { "id":723, "name":"安陽", "parentId":545, "code":"171500000", "isSelected":false }, { "id":601, "name":"鞍山", "parentId":535, "code":"081600000", "isSelected":false }, ``` （2）代碼 ```python """ @Date 2021/4/24 """ from jsonpath import jsonpath import requests import json headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36' } response = requests.get('https://www.lagou.com/lbs/getAllCitySearchLabels.json', headers=headers) dict_data = json.loads(response.content) # <class 'dict'> print(type(dict_data)) # 提取以A字母開頭的城市 a_city = jsonpath(dict_data, '$..A..name') # <class 'list'> print(type(a_city)) # ['安陽', '鞍山', '安慶', '安順', '安康', '澳門', '阿克蘇', '阿壩藏族羌族自治州', '阿里地區', '阿勒泰', '阿拉善盟'] print(a_city) # 提取所有的城市 all_city = jsonpath(dict_data, '$..name') # <class 'list'> print(type(all_city)) # ['安陽', '鞍山', '安慶', '安順', '安康', '澳門', '阿克蘇', '阿壩藏族羌族自治州', '阿里地區', '阿勒泰',...] print(all_city) ```