XML · 廖雪峰 JavaScript Python Git 教程

# XML XML雖然比JSON復雜，在Web中應用也不如以前多了，不過仍有很多地方在用，所以，有必要了解如何操作XML。 ### DOM vs SAX 操作XML有兩種方法：DOM和SAX。DOM會把整個XML讀入內存，解析為樹，因此占用內存大，解析慢，優點是可以任意遍歷樹的節點。SAX是流模式，邊讀邊解析，占用內存小，解析快，缺點是我們需要自己處理事件。正常情況下，優先考慮SAX，因為DOM實在太占內存。在Python中使用SAX解析XML非常簡潔，通常我們關心的事件是`start_element`，`end_element`和`char_data`，準備好這3個函數，然后就可以解析xml了。舉個例子，當SAX解析器讀到一個節點時： ``` <a href="/">python</a> ``` 會產生3個事件： 1. start_element事件，在讀取`<a href="/">`時； 2. char_data事件，在讀取`python`時； 3. end_element事件，在讀取`</a>`時。用代碼實驗一下： ``` from xml.parsers.expat import ParserCreate class DefaultSaxHandler(object): def start_element(self, name, attrs): print('sax:start_element: %s, attrs: %s' % (name, str(attrs))) def end_element(self, name): print('sax:end_element: %s' % name) def char_data(self, text): print('sax:char_data: %s' % text) xml = r'''<?xml version="1.0"?> <ol> <li><a href="/python">Python</a></li> <li><a href="/ruby">Ruby</a></li> </ol> ''' handler = DefaultSaxHandler() parser = ParserCreate() parser.returns_unicode = True parser.StartElementHandler = handler.start_element parser.EndElementHandler = handler.end_element parser.CharacterDataHandler = handler.char_data parser.Parse(xml) ``` 當設置`returns_unicode`為True時，返回的所有element名稱和char_data都是unicode，處理國際化更方便。需要注意的是讀取一大段字符串時，`CharacterDataHandler`可能被多次調用，所以需要自己保存起來，在`EndElementHandler`里面再合并。除了解析XML外，如何生成XML呢？99%的情況下需要生成的XML結構都是非常簡單的，因此，最簡單也是最有效的生成XML的方法是拼接字符串： ``` L = [] L.append(r'<?xml version="1.0"?>') L.append(r'<root>') L.append(encode('some & data')) L.append(r'</root>') return ''.join(L) ``` 如果要生成復雜的XML呢？建議你不要用XML，改成JSON。 ### 小結解析XML時，注意找出自己感興趣的節點，響應事件時，把節點數據保存起來。解析完畢后，就可以處理數據。練習一下解析Yahoo的XML格式的天氣預報，獲取當天和最近幾天的天氣： ``` http://weather.yahooapis.com/forecastrss?u=c&w=2151330 ``` 參數`w`是城市代碼，要查詢某個城市代碼，可以在[weather.yahoo.com](https://weather.yahoo.com/)搜索城市，瀏覽器地址欄的URL就包含城市代碼。