author: Wuxiaolong
在Python中有一些內置的數據類型,比如int, str, list, tuple, dict等。Python的collections模塊在這些內置數據類型的基礎上,提供了幾個額外的數據類型:namedtuple, defaultdict, deque, Counter, OrderedDict等,其中defaultdict和namedtuple是兩個很實用的擴展類型。defaultdict繼承自dict,namedtuple繼承自tuple。
## 一、defaultdict
### 1\. 簡介
在使用Python原生的數據結構dict的時候,如果用d[key]這樣的方式訪問,當指定的key不存在時,是會拋出KeyError異常的。但是,如果使用defaultdict,只要你傳入一個默認的工廠方法,那么請求一個不存在的key時, 便會調用這個工廠方法使用其結果來作為這個key的默認值。
defaultdict在使用的時候需要傳一個工廠函數(function_factory),defaultdict(function_factory)會構建一個類似dict的對象,該對象具有默認值,默認值通過調用工廠函數生成。
### 2\. 示例
下面給一個defaultdict的使用示例:
~~~
>>> from collections import defaultdict
>>> s = [('xiaoming', 99), ('wu', 69), ('zhangsan', 80), ('lisi', 96), ('wu', 100), ('wu', 100), ('yuan', 98), ('xiaoming', 89)]
>>> d = defaultdict(list)
>>> for k, v in s:
... d[k].append(v)
...
>>> d
defaultdict(<type 'list'>, {'lisi': [96], 'xiaoming': [99, 89], 'yuan': [98], 'zhangsan': [80], 'wu': [69, 100, 100]})
>>> for k,v in d.items():
... print '%s: %s' % (k, v)
...
lisi: [96]
xiaoming: [99, 89]
yuan: [98]
zhangsan: [80]
wu: [69, 100, 100]
>>>
~~~
對Python比較熟悉的同學可以發現defaultdict(list)的用法和dict.setdefault(key, [])比較類似,上述代碼使用setdefault實現如下:
~~~
>>> s
[('xiaoming', 99), ('wu', 69), ('zhangsan', 80), ('lisi', 96), ('wu', 100), ('wu', 100), ('yuan', 98), ('xiaoming', 89)]
>>> d = {}
>>> for k,v in s:
... d.setdefault(k, []).append(v)
...
>>> d
{'lisi': [96], 'xiaoming': [99, 89], 'yuan': [98], 'zhangsan': [80], 'wu': [69, 100, 100]}
~~~
### 3\. 原理
從以上的例子中,我們可以基本了defaultdict的用法,下面我們可以通過help(defaultdict)了解一下defaultdict的原理。通過Python console打印出的help信息來看,我們可以發現defaultdict具有默認值主要是通過missing方法實現的,如果工廠函數不為None,則通過工廠方法返回默認值,具體如下:
~~~
| __missing__(...)
| __missing__(key) # Called by __getitem__ for missing key; pseudo-code:
| if self.default_factory is None: raise KeyError((key,))
| self[key] = value = self.default_factory()
| return value
~~~
從上面的說明中,我們可以發現一下幾個需要注意的地方:
1. missing方法是在調用getitem方法發現KEY不存在時才調用的,所以,defaultdict也只會在使用d[key]或者d.getitem(key)的時候才會生成默認值;如果使用d.get(key)是不會返回默認值的,會出現KeyError;
2. defaultdict主要是通過missing方法實現,所以,我們也可以通過實現該方法來生成自己的defaultdict,代碼入下
### 4\. 版本
defaultdict是在Python 2.5之后才加入的功能,在舊版本的Python中是不支持這個功能的,不過,知道了它的原理,我們可以自己實現一個defaultdict。
~~~
try:
from collections import defaultdict
except:
class defaultdict(dict):
def __init__(self, default_factory=None, *a, **kw):
if (default_factory is not None and not hasattr(default_factory, '__call__')):
raise TypeError('first argument must be callable')
dict.__init__(self, *a, **kw)
self.default_factory = default_factory
def __getitem__(self, key):
try:
return dict.__getitem__(self, key)
except KeyError:
return self.__missing__(key)
def __missing__(self, key):
if self.default_factory is None:
raise KeyError(key)
self[key] = value = self.default_factory()
return value
def __reduce__(self):
if self.default_factory is None:
args = tuple()
else:
args = self.default_factory,
return type(self), args, None, None, self.items()
def copy(self):
return self.__copy__()
def __copy__(self):
return type(self)(self.default_factory, self)
def __deepcopy__(self, memo):
import copy
return type(self)(self.default_factory, copy.deepcopy(self.items()))
def __repr__(self):
return 'defaultdict(%s, %s)' % (self.default_factory, dict.__repr__(self))
~~~
## 二、namedtuple
namedtuple主要用來產生可以使用名稱來訪問元素的數據對象,通常用來增強代碼的可讀性,在訪問一些tuple類型的數據時尤其好用。其實,在大部分時候你應該使用namedtuple替代tuple,這樣可以讓你的代碼更容易讀懂,更加pythonic。舉個例子:
~~~
from collections import namedtuple
# 變量名和namedtuple中的第一個參數一般保持一致,但也可以不一樣
Student = namedtuple('Student', 'id name score')
# 或者 Student = namedtuple('Student', ['id', 'name', 'score'])
students = [(1, 'Wu', 90), (2, 'Xing', 89), (3, 'Yuan', 98), (4, 'Wang', 95)]
for s in students:
stu = Student._make(s)
print stu
# Output:
# Student(id=1, name='Wu', score=90)
# Student(id=2, name='Xing', score=89)
# Student(id=3, name='Yuan', score=98)
# Student(id=4, name='Wang', score=95)
~~~
在上面的例子中,Student就是一個namedtuple,它和tuple的使用方法一樣,可以通過index直接取,而且是只讀的。這種方式比tuple容易理解多了,可以很清楚的知道每個值代表的含義。
Over!
var:[http://segmentfault.com/blog/wuxianglong/1190000002399119?_ea=78694](http://segmentfault.com/blog/wuxianglong/1190000002399119?_ea=78694)
- 第零部分 獨上高樓,望盡天涯路
- 嘮叨一些關于Python的事情
- 為什么要開設本欄目
- 第一部分 積小流,至江海
- Python環境安裝
- 集成開發環境(IDE)
- 數的類型和四則運算
- 啰嗦的除法
- 開始真正編程
- 初識永遠強大的函數
- 玩轉字符串(1):基本概念、字符轉義、字符串連接、變量與字符串關系
- 玩轉字符串(2)
- 玩轉字符串(3)
- 眼花繚亂的運算符
- 從if開始語句的征程
- 一個免費的實驗室
- 有容乃大的list(1)
- 有容乃大的list(2)
- 有容乃大的list(3)
- 有容乃大的list(4)
- list和str比較
- 畫圈還不簡單嗎
- 再深點,更懂list
- 字典,你還記得嗎?
- 字典的操作方法
- 有點簡約的元組
- 一二三,集合了
- 集合的關系
- Python數據類型總結
- 深入變量和引用對象
- 賦值,簡單也不簡單
- 坑爹的字符編碼
- 做一個小游戲
- 不要紅頭文件(1): open, write, close
- 不要紅頭文件(2): os.stat, closed, mode, read, readlines, readline
- 第二部分 窮千里目,上一層樓
- 正規地說一句話
- print能干的事情
- 從格式化表達式到方法
- 復習if語句
- 用while來循環
- 難以想象的for
- 關于循環的小伎倆
- 讓人歡喜讓人憂的迭代
- 大話題小函數(1)
- 大話題小函數(2)
- python文檔
- 重回函數
- 變量和參數
- 總結參數的傳遞
- 傳說中的函數條規
- 關于類的基本認識
- 編寫類之一創建實例
- 編寫類之二方法
- 編寫類之三子類
- 編寫類之四再論繼承
- 命名空間
- 類的細節
- Import 模塊
- 模塊的加載
- 私有和專有
- 折騰一下目錄: os.path.<attribute>
- 第三部分 昨夜西風,亭臺誰登
- 網站的結構:網站組成、MySQL數據庫的安裝和配置、MySQL的運行
- 通過Python連接數據庫:安裝python-MySQLdb,連接MySQL
- 用Pyton操作數據庫(1):建立連接和游標,并insert and commit
- 用Python操作數據庫(2)
- 用Python操作數據庫(3)
- python開發框架:框架介紹、Tornado安裝
- Hello,第一個網頁分析:tornado網站的基本結構剖析:improt模塊、RequestHandler, HTTPServer, Application, IOLoop
- 實例分析get和post:get()通過URL得到數據和post()通過get_argument()獲取數據
- 問候世界:利用GAE建立tornado框架網站
- 使用表單和模板:tornado模板self.render和模板變量傳遞
- 模板中的語法:tornado模板中的for,if,set等語法
- 靜態文件以及一個項目框架
- 模板轉義
- 第四部分 暮然回首,燈火闌珊處
- requests庫
- 比較json/dictionary的庫
- defaultdict 模塊和 namedtuple 模塊
- 第五部分 Python備忘錄
- 基本的(字面量)值
- 運算符
- 常用的內建函數
- 擴展閱讀(來自網絡文章)
- 人生苦短,我用Python