大家可能聽說過用于宣傳數(shù)據(jù)挖掘的一個案例:啤酒和尿布;據(jù)說是沃爾瑪超市在分析顧客的購買記錄時,發(fā)現(xiàn)許多客戶購買啤酒的同時也會購買嬰兒尿布,于是超市調(diào)整了啤酒和尿布的貨架擺放,讓這兩個品類擺放在一起;結果這兩個品類的銷量都有明顯的增長;分析原因是很多剛生小孩的男士在購買的啤酒時,會順手帶一些嬰幼兒用品。
不論這個案例是否是真實的,案例中分析顧客購買記錄的方式就是關聯(lián)規(guī)則分析法Association Rules。
關聯(lián)規(guī)則分析也被稱為購物籃分析,用于分析數(shù)據(jù)集各項之間的關聯(lián)關系。
提升度:為了判斷產(chǎn)生規(guī)則的實際價值,即使用規(guī)則后商品出現(xiàn)的次數(shù)是否高于商品單獨出現(xiàn)的評率,提升度和衡量購買X對購買Y的概率的提升作用。如下公式可見,如果X和Y相互獨立那么提升度為1,提升度越大,說明X->Y的關聯(lián)性越強
關聯(lián)規(guī)則方法的步驟如下:
Apriori算法是經(jīng)典的關聯(lián)規(guī)則算法。Apriori算法的目標是找到最大的K項頻繁集。Apriori算法從尋找1項集開始,通過最小支持度閾值進行剪枝,依次尋找2項集,3項集直到?jīng)]有更過項集為止。
下面是一個案例圖解:
關聯(lián)規(guī)則目前在scikit-learn中并沒有實現(xiàn)。這里介紹另一個python庫mlxtend。
pip install mlxtend
來看下數(shù)據(jù)集:
import pandas as pd item_list = [['牛奶','面包'], ['面包','尿布','啤酒','土豆'], ['牛奶','尿布','啤酒','可樂'], ['面包','牛奶','尿布','啤酒'], ['面包','牛奶','尿布','可樂']] item_df = pd.DataFrame(item_list)
數(shù)據(jù)格式處理,傳入模型的數(shù)據(jù)需要滿足bool值的格式
from mlxtend.preprocessing import TransactionEncode te = TransactionEncoder() df_tf = te.fit_transform(item_list) df = pd.DataFrame(df_tf,columns=te.columns_)
from mlxtend.frequent_patterns import apriori # use_colnames=True表示使用元素名字,默認的False使用列名代表元素, 設置最小支持度min_support frequent_itemsets = apriori(df, min_support=0.05, use_colnames=True) frequent_itemsets.sort_values(by='support', ascending=False, inplace=True) # 選擇2頻繁項集 print(frequent_itemsets[frequent_itemsets.itemsets.apply(lambda x: len(x)) == 2])
from mlxtend.frequent_patterns import association_rules # metric可以有很多的度量選項,返回的表列名都可以作為參數(shù) association_rule = association_rules(frequent_itemsets,metric='confidence',min_threshold=0.9) #關聯(lián)規(guī)則可以提升度排序 association_rule.sort_values(by='lift',ascending=False,inplace=True) association_rule # 規(guī)則是:antecedents->consequents
選擇出來關聯(lián)規(guī)則之后,根據(jù)提升度排序后,可能最高提升度的規(guī)則是在我們常識范圍內(nèi),那這個規(guī)則的價值就不高。所以我們要在產(chǎn)生的規(guī)則中根據(jù)業(yè)務特點進行篩選,像開篇提到(啤酒->尿布)完全不同的品類之間的關聯(lián)。
筆者最近用關聯(lián)規(guī)則分析用戶的體檢報告記錄,也得出了關于各個病癥的有意義的關聯(lián),如并發(fā)癥,不同病癥相互影響等。
本分介紹關聯(lián)規(guī)則的基本概念和經(jīng)典算法Apriori,以及python的實現(xiàn)庫mlxtend使用。
總結如下:
以上就是詳解Python 關聯(lián)規(guī)則分析的詳細內(nèi)容,更多關于Python 關聯(lián)規(guī)則分析的資料請關注腳本之家其它相關文章!
標簽:廊坊 綿陽 拉薩 黔東 內(nèi)江 興安盟 渭南 亳州
巨人網(wǎng)絡通訊聲明:本文標題《詳解Python 關聯(lián)規(guī)則分析》,本文關鍵詞 詳解,Python,關聯(lián),規(guī)則,分析,;如發(fā)現(xiàn)本文內(nèi)容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權與本站無關。