map/reduce · 廖雪峰的Python3.x教程

[TOC] ### 引入 Python內建了`map()`和`reduce()`函數。如果你讀過`Google`的那篇大名鼎鼎的論文`“MapReduce: Simplified Data Processing on Large Clusters`”，你就能大概明白`map/reduce`的概念。 ### map() 我們先看`map`。`map()`函數接收兩個參數，一個是函數，一個是`Iterable`，`map`將傳入的函數依次作用到序列的每個元素，并把結果作為新的`Iterator`返回。舉例說明，比如我們有一個函數f(x)=$$x^{2}$$，要把這個函數作用在一個`list [1, 2, 3, 4, 5, 6, 7, 8, 9]`上，就可以用`map()`實現如下： ![image](http://www.liaoxuefeng.com/files/attachments/0013879622109990efbf9d781704b02994ba96765595f56000/0) 現在，我們用Python代碼實現： ~~~ >>> def f(x): ... return x * x ... >>> r = map(f, [1, 2, 3, 4, 5, 6, 7, 8, 9]) >>> list(r) [1, 4, 9, 16, 25, 36, 49, 64, 81] ~~~ `map()`傳入的第一個參數是`f`，即函數對象本身。由于結果`r`是一個`Iterator`，`Iterator`是惰性序列，因此通過list()函數讓它把整個序列都計算出來并返回一個`list`。你可能會想，不需要`map()`函數，寫一個循環，也可以計算出結果： ~~~ L = [] for n in [1, 2, 3, 4, 5, 6, 7, 8, 9]: L.append(f(n)) print(L) ~~~ 的確可以，但是，從上面的循環代碼，能一眼看明白“把`f(x)`作用在`list`的每一個元素并把結果生成一個新的`list`”嗎？所以，`map()`作為高階函數，事實上它把運算規則抽象了，因此，我們不但可以計算簡單的f(x)=$$x^{2}$$，還可以計算任意復雜的函數，比如，把這個 `list` 所有數字轉為字符串： ~~~ >>> list(map(str, [1, 2, 3, 4, 5, 6, 7, 8, 9])) ['1', '2', '3', '4', '5', '6', '7', '8', '9'] ~~~ 只需要一行代碼。 ### reduce() 再看`reduce`的用法。`reduce`把一個函數作用在一個序列`[x1, x2, x3, ...]`上，這個函數必須接收兩個參數，`reduce`把結果繼續和序列的下一個元素做累積計算，其效果就是： ~~~ reduce(f, [x1, x2, x3, x4]) = f(f(f(x1, x2), x3), x4) ~~~ 比方說對一個序列求和，就可以用`reduce`實現： ~~~ >>> from functools import reduce >>> def add(x, y): ... return x + y ... >>> reduce(add, [1, 3, 5, 7, 9]) 25 ~~~ 當然求和運算可以直接用Python內建函數`sum()`，沒必要動用`reduce`。但是如果要把序列`[1, 3, 5, 7, 9]`變換成整數`13579`，`reduce`就可以派上用場： ~~~ >>> from functools import reduce >>> def fn(x, y): ... return x * 10 + y ... >>> reduce(fn, [1, 3, 5, 7, 9]) 13579 ~~~ 這個例子本身沒多大用處，但是，如果考慮到字符串`str`也是一個序列，對上面的例子稍加改動，配合`map()`，我們就可以寫出把`str`轉換為`int`的函數： ~~~ >>> from functools import reduce >>> def fn(x, y): ... return x * 10 + y ... >>> def char2num(s): ... return {'0': 0, '1': 1, '2': 2, '3': 3, '4': 4, '5': 5, '6': 6, '7': 7, '8': 8, '9': 9}[s] ... >>> reduce(fn, map(char2num, '13579')) 13579 ~~~ 整理成一個`str2int`的函數就是： ~~~ from functools import reduce def str2int(s): def fn(x, y): return x * 10 + y def char2num(s): return {'0': 0, '1': 1, '2': 2, '3': 3, '4': 4, '5': 5, '6': 6, '7': 7, '8': 8, '9': 9}[s] return reduce(fn, map(char2num, s)) ~~~ 還可以用`lambda`函數進一步簡化成： ~~~ from functools import reduce def char2num(s): return {'0': 0, '1': 1, '2': 2, '3': 3, '4': 4, '5': 5, '6': 6, '7': 7, '8': 8, '9': 9}[s] def str2int(s): return reduce(lambda x, y: x * 10 + y, map(char2num, s)) ~~~ 也就是說，假設Python沒有提供`int()`函數，你完全可以自己寫一個把字符串轉化為整數的函數，而且只需要幾行代碼！ `lambda`函數的用法在后面介紹。 ### 練習利用`map()`函數，把用戶輸入的不規范的英文名字，變為首字母大寫，其他小寫的規范名字。輸入：`['adam', 'LISA', 'barT']`，輸出：`['Adam', 'Lisa', 'Bart']`： ~~~ # -*- coding: utf-8 -*- def normalize(name): pass # 測試: L1 = ['adam', 'LISA', 'barT'] L2 = list(map(normalize, L1)) print(L2) ~~~ #### 參考源碼 ~~~ # -*- coding: utf-8 -*- def normalize(name): return name[0:1].upper()+name[1:].lower() # 測試: L1 = ['adam', 'LISA', 'barT'] L2 = list(map(normalize, L1)) print(L2) ~~~ ### 練習 2 Python提供的sum()函數可以接受一個list并求和，請編寫一個prod()函數，可以接受一個list并利用reduce()求積： ~~~ # -*- coding: utf-8 -*- from functools import reduce def prod(L): pass print('3 * 5 * 7 * 9 =', prod([3, 5, 7, 9])) ~~~ #### 參考源碼 ~~~ # -*- coding: utf-8 -*- from functools import reduce def prod(L): return reduce(lambda x,y:x * y,L) print('3 * 5 * 7 * 9 =', prod([3, 5, 7, 9])) ~~~ >[info]（制書作者）這里解釋一下 lambda 函數，如上面的 (lambda x,y:x * y) 的意思是：定義了一個兩個參數的函數，參數分別為： x，y 其函數體為 x * y 可以看成 Python 的代碼如下： ~~~ def f(x,y) return x * y ~~~ ### 練習 3 利用map和reduce編寫一個str2float函數，把字符串'123.456'轉換成浮點數123.456： ~~~ # -*- coding: utf-8 -*- from functools import reduce def str2float(s): pass print('str2float(\'123.456\') =', str2float('123.456')) ~~~ #### 參考源碼 ~~~ # -*- coding: utf-8 -*- from functools import reduce def str2float(s): //通過字符串的 split(s) :根據 s 來分隔字符串，返回字符串數組，比如這里的通過`'.'`就分隔成了 '123'，'456' sArr = s.split('.') leng = len(sArr[1]) t = 1.0 while leng > 0: t*=10 leng-=1 //把字符串數組轉化成 float list L = list(map(float,sArr)) //使用 lambda 函數計算合成返回 return reduce(lambda x,y:x+y,[L[0],L[1]/t]) print('str2float(\'123.456\') =', str2float('123.456')) ~~~