迭代器 · 零基礎學python（第二版）

迭代，對于讀者已經不陌生了，曾有專門一節來講述，如果印象不深，請復習[《迭代》](https://github.com/qiwsir/StarterLearningPython/blob/master/128.md)。正如讀者已知，對序列（列表、元組）、字典和文件都可以用`iter()`方法生成迭代對象，然后用`next()`方法訪問。當然，這種訪問不是自動的，如果用for循環，就可以自動完成上述訪問了。如果用`dir(list)`,`dir(tuple)`,`dir(file)`,`dir(dict)`來查看不同類型對象的屬性，會發現它們都有一個名為`__iter__`的東西。這個應該引起讀者的關注，因為它和迭代器（iterator）、內置的函數iter()在名字上是一樣的，除了前后的雙下劃線。望文生義，我們也能猜出它肯定是跟迭代有關的東西。當然，這種猜測也不是沒有根據的，其重要根據就是英文單詞，如果它們之間沒有一點關系，肯定不會將命名搞得一樣。猜對了。`__iter__`就是對象的一個特殊方法，它是迭代規則(iterator potocol)的基礎。或者說，對象如果沒有它，就不能返回迭代器，就沒有`next()`方法，就不能迭代。 > 提醒注意，如果讀者用的是python3.x，迭代器對象實現的是`__next__()`方法，不是`next()`。并且，在python3.x中有一個內建函數next()，可以實現`next(it)`，訪問迭代器，這相當于于python2.x中的`it.next()`（it是迭代對象）。那些類型是list、tuple、file、dict對象有`__iter__()`方法，標著他們能夠迭代。這些類型都是python中固有的，我們能不能自己寫一個對象，讓它能夠迭代呢？當然呢！要不然python怎么強悍呢。 ~~~ #!/usr/bin/env python # coding=utf-8 """ the interator as range() """ class MyRange(object): def __init__(self, n): self.i = 0 self.n = n def __iter__(self): return self def next(self): if self.i < self.n: i = self.i self.i += 1 return i else: raise StopIteration() if __name__ == "__main__": x = MyRange(7) print "x.next()==>", x.next() print "x.next()==>", x.next() print "------for loop--------" for i in x: print i ~~~ 將代碼保存，并運行，結果是： ~~~ $ python 21401.py x.next()==> 0 x.next()==> 1 ------for loop-------- 2 3 4 5 6 ~~~ 以上代碼的含義，是自己仿寫了擁有`range()`的對象，這個對象是可迭代的。分析如下：類MyRange的初始化方法`__init__()`就不用贅述了，因為前面已經非常詳細分析了這個方法，如果復習，請閱讀[《類(2)》](https://github.com/qiwsir/StarterLearningPython/blob/master/207md)相關內容。 `__iter__()`是類中的核心，它返回了迭代器本身。一個實現了`__iter__()`方法的對象，即意味著其實可迭代的。含有`next()`的對象，就是迭代器，并且在這個方法中，在沒有元素的時候要發起`StopIteration()`異常。如果對以上類的調用換一種方式： ~~~ if __name__ == "__main__": x = MyRange(7) print list(x) print "x.next()==>", x.next() ~~~ 運行后會出現如下結果： ~~~ $ python 21401.py [0, 1, 2, 3, 4, 5, 6] x.next()==> Traceback (most recent call last): File "21401.py", line 26, in <module> print "x.next()==>", x.next() File "21401.py", line 21, in next raise StopIteration() StopIteration ~~~ 說明什么呢？`print list(x)`將對象返回值都裝進了列表中并打印出來，這個正常運行了。此時指針已經移動到了迭代對象的最后一個，正如在[《迭代》](https://github.com/qiwsir/StarterLearningPython/blob/master/128.md)中描述的那樣，`next()`方法沒有檢測也不知道是不是要停止了，它還要繼續下去，當繼續下一個的時候，才發現沒有元素了，于是返回了`StopIteration()`。為什么要將用這種可迭代的對象呢？就像上面例子一樣，列表不是挺好的嗎？列表的確非常好，在很多時候效率很高，并且能夠解決相當普遍的問題。但是，不要忘記一點，在某些時候，列表可能會給你帶來災難。因為在你使用列表的時候，需要將列表內容一次性都讀入到內存中，這樣就增加了內存的負擔。如果列表太大太大，就有內存溢出的危險了。這時候需要的是迭代對象。比如斐波那契數列（在本教程多處已經提到這個著名的數列：[《練習》的練習4](https://github.com/qiwsir/StarterLearningPython/blob/master/129.md)，[《函數(4)》中遞歸舉例](https://github.com/qiwsir/StarterLearningPython/blob/master/204.md)）: ~~~ #!/usr/bin/env python # coding=utf-8 """ compute Fibonacci by iterator """ __metaclass__ = type class Fibs: def __init__(self, max): self.max = max self.a = 0 self.b = 1 def __iter__(self): return self def next(self): fib = self.a if fib > self.max: raise StopIteration self.a, self.b = self.b, self.a + self.b return fib if __name__ == "__main__": fibs = Fibs(5) print list(fibs) ~~~ 運行結果是： ~~~ $ python 21402.py [0, 1, 1, 2, 3, 5] ~~~ > 給讀者一個思考問題：要在斐波那契數列中找出大于1000的最小的數，能不能在上述代碼基礎上改造得出呢？關于列表和迭代器之間的區別，還有兩個非常典型的內建函數：`range()`和`xrange()`，研究一下這兩個的差異，會有所收獲的。 ~~~ range(...) range(stop) -> list of integers range(start, stop[, step]) -> list of integers >>> dir(range) ['__call__', '__class__', '__cmp__', '__delattr__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__le__', '__lt__', '__module__', '__name__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__self__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__'] ~~~ 從`range()`的幫助文檔和方法中可以看出，它的結果是一個列表。但是，如果用`help(xrange)`查看： ~~~ class xrange(object) | xrange(stop) -> xrange object | xrange(start, stop[, step]) -> xrange object | | Like range(), but instead of returning a list, returns an object that | generates the numbers in the range on demand. For looping, this is | slightly faster than range() and more memory efficient. ~~~ `xrange()`返回的是對象，并且進一步告訴我們，類似`range()`，但不是列表。在循環的時候，它跟`range()`相比“slightly faster than range() and more memory efficient”，稍快并更高的內存效率（就是省內存呀）。查看它的方法： ~~~ >>> dir(xrange) ['__class__', '__delattr__', '__doc__', '__format__', '__getattribute__', '__getitem__', '__hash__', '__init__', '__iter__', '__len__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__reversed__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__'] ~~~ 看到令人興奮的`__iter__`了嗎？說明它是可迭代的，它返回的是一個可迭代的對象。也就是說，通過`range()`得到的列表，會一次性被讀入內存，而`xrange()`返回的對象，則是需要一個數值才從返回一個數值。比如這樣一個應用：還記得`zip()`嗎？ ~~~ >>> a = ["name", "age"] >>> b = ["qiwsir", 40] >>> zip(a,b) [('name', 'qiwsir'), ('age', 40)] ~~~ 如果兩個列表的個數不一樣，就會以短的為準了，比如： ~~~ >>> zip(range(4), xrange(100000000)) [(0, 0), (1, 1), (2, 2), (3, 3)] ~~~ 第一個`range(4)`產生的列表被讀入內存；第二個是不是也太長了？但是不用擔心，它根本不會產生那么長的列表，因為只需要前4個數值，它就提供前四個數值。如果你要修改為`range(100000000)`，就要花費時間了，可以嘗試一下哦。迭代器的確有迷人之處，但是它也不是萬能之物。比如迭代器不能回退，只能如過河的卒子，不斷向前。另外，迭代器也不適合在多線程環境中對可變集合使用（這句話可能理解有困難，先混個臉熟吧，等你遇到多線程問題再說）。