Apriori算法 (Introduction to data mining) · 小五的算法學習之路

前置概念： **Support**: 支持度 s(X->Y) =(XUY)/N; **Confidence**: 置信度 c(X->Y) =(XUY)/(X); **Frequent ItemSet**: 頻繁項集 Support >minSup; ? **Apriori Principle**: 如果一個項集是頻繁的，那它所有的子項集也都是頻繁的。 ? **Frequent Itemset Generation in the AprioriAlgorithm:** Apriori算法是第一個指出使用基于支持度剪枝策略的關聯規則挖掘算法，系統地控制候選項集的指數增長。 Ck代表k候選項集, Fk代表頻繁k項集 1 算法首先遍歷一遍數據集，檢測每項的支持度，獲取頻繁1-項集。Steps (1-2) 2 接下來，循環使用頻繁(k-1)-項集派生k-候選項集。Step (5) 3 遍歷數據集計算候選項集支持度Steps (6-10) 4 計算支持度后，消除非頻繁項集Step (12) 5 當沒有新的頻繁項集產生的時候，算法結束Step(13) **Frequent itemset generation of the AprioriAlgorithm.** ![](https://box.kancloud.cn/2016-04-21_57187cf96b84e.jpg) **Rule generation:** 若果一個規則X->Y-X不滿足置信度閥值，那么所有的X’->Y-X’也不滿足閥值, 其中X’? X. **Rule generation of the Apriori algorithm.** ![](https://box.kancloud.cn/2016-04-21_57187cf981aac.jpg) ? **Procedure ap-genrules(fk, Hm).** ![](https://box.kancloud.cn/2016-04-21_57187cf994462.jpg) **總結：** **核心思想:?????? 基于兩階段頻繁項集，挖掘關聯規則** **算法優點:?????? 簡單、易理解、數據要求低** **算法缺點:?????? I/O負載大，產生過多的候選項集** **Apriori例題（Introduction to data mining）：** ![](https://box.kancloud.cn/2016-04-21_57187cf9b90df.jpg) ![](https://box.kancloud.cn/2016-04-21_57187cf9e7291.jpg) (b)16/32=50% (c)11/32=34.4% (d)5/32=15.6%