目錄
- 1.集成算法
- 1.1袋裝算法
- 1.1.1袋裝決策樹
- 1.1.2隨機森林
- 1.1.3極端隨機樹
- 1.2提升算法
- 1.3投票算法
- 2.算法調參
- 總結
有時提升一個模型的準確度很困難。你會嘗試所有曾學習過的策略和算法,但模型正確率并沒有改善。這時你會覺得無助和困頓,這也正是90%的數據科學家開始放棄的時候。不過,這才是考驗真正本領的時候!這也是普通的數據科學家和大師級數據科學家的差距所在。
1.集成算法
三個臭皮匠,頂個諸葛亮。群體的智慧是很強大的。那么,在機器學習中能否同樣采用此策略呢?答案是肯定的,就是集成算法——將多個不同算法從集成起來,使結果更優。
1.1袋裝算法
袋裝算法是一種提高分類準確率的算法。通過給定組合投票的方式獲得最優解。比如你生病了,去
個醫院看了
個醫生,每個醫生都給你開了藥方,最后哪個藥方的出現次數多,就說明這個藥方可能是最優解。
1.1.1袋裝決策樹
袋裝算法在數據具有很大方差時非常有效,最常見的例子就是決策樹的袋裝算法。
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
array = data.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
seed = 7
kfold = KFold(n_splits=num_folds,shuffle=True,random_state=seed)
#袋裝決策樹
cart = DecisionTreeClassifier()
num_tree = 100
model = BaggingClassifier(base_estimator=cart,n_estimators=num_tree,random_state=seed)
result = cross_val_score(model, X, Y, cv=kfold)
print(result.mean())
0.7578263841421736
1.1.2隨機森林
隨機森林是由很多決策樹構成的,不同決策樹之間沒有關聯。
當我們進行分類任務時,新的輸入樣本進入,就讓森林中的每一棵決策樹分別進行判斷和分類,每個決策樹會得到一個自己的分類結果,決策樹的分類結果中哪一個分類最多,那么隨機森林就會把這個結果當做最終的結果。
from sklearn.ensemble import RandomForestClassifier
#隨機森林
num_tree = 100
max_features = 3
model = RandomForestClassifier(n_estimators=num_tree,random_state=seed,max_features=max_features)
result = cross_val_score(model, X, Y, cv=kfold)
print(result.mean())
0.759107997265892
1.1.3極端隨機樹
極端隨機數與隨機森林十分相似,都是由許多決策樹構成的,但它與隨機森林由兩個主要區別:
- 隨機森林應用的是Bagging模型,而極端隨機樹是使用所有的訓練樣本得到每棵決策樹,也就是每棵決策樹應用的是全部訓練樣本。
- 隨機森林是在一個隨機子集內得到最優分叉特征屬性,而極端隨機樹是完全隨機地選擇分叉特征屬性,從而實現對決策樹進行分叉。
from sklearn.ensemble import ExtraTreesClassifier
#極端隨機樹
num_tree = 100
max_features = 3
model = ExtraTreesClassifier(n_estimators=num_tree,random_state=seed,max_features=max_features)
result = cross_val_score(model, X, Y, cv=kfold)
print(result.mean())
0.7630211893369789
1.2提升算法
提升算法也稱為boosting算法,它是將弱學習算法提升為強學習算法的一類算法,可用來提升弱分類器的準確度。
1.2.1AdaBoost
AdaBoost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import AdaBoostClassifier
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
array = data.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
seed = 7
kfold = KFold(n_splits=num_folds,shuffle=True,random_state=seed)
#AdaBost
num_tree = 100
model = AdaBoostClassifier(n_estimators=num_tree,random_state=seed)
result = cross_val_score(model, X, Y, cv=kfold)
print(result.mean())
0.7578605604921395
1.2.2隨機梯度提升
隨機梯度提升法(GBM)的基本思想是:要找到某個函數的最大值,最好的辦法就是沿著該函數的梯度方向探尋。梯度算子總是指向函數增長值最快的方向。
from sklearn.ensemble import GradientBoostingClassifier
#隨機 梯度提升
num_tree = 100
model = GradientBoostingClassifier(n_estimators=num_tree,random_state=seed)
result = cross_val_score(model, X, Y, cv=kfold)
print(result.mean())
0.7591934381408066
1.3投票算法
投票算法(Voting)是一個非常簡單的多個機器學習算法的集成算法。投票算法是通過創建兩個或多個算法模型,利用投票算法將這些算法包裝起來,計算各個子模型的平均預測情況。
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import VotingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
array = data.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
seed = 7
kfold = KFold(n_splits=num_folds,shuffle=True,random_state=seed)
#投票算法
models=[]
model_logistic = LogisticRegression(max_iter=3000)
model_cart = DecisionTreeClassifier()
model_svc = SVC()
models.append(('logistic',model_logistic))
models.append(('cart',model_cart))
models.append(('svc',model_svc))
ensemble_model = VotingClassifier(estimators=models)
result = cross_val_score(ensemble_model, X, Y, cv=kfold)
print(result.mean())
0.7721804511278196
2.算法調參
機器學習的模型都是參數化的,可以通過調參來提高模型的準確度。模型參數的調整應該遵循偏差和方差協調的原則。
調整算法參數是機器學習解決問題的最后一個步驟,有時也被成為超參數優化。學會調參是進行機器學習項目的前提。參數可分為兩種:一種是影響模型在訓練集上的準確度或防止過擬合能力的參數;另一種是不影響這兩者的參數。模型在樣本總體上的準確度由其在訓練集上的準確度及其防止過擬合的能力共同決定,所以在調參時主要針對第一種參數進行調整,最終達到的效果是:模型在訓練集上的準確度和防止過擬合能力的大和諧。
2.1網絡搜索優化參數
網格搜索優化參數是一種算法參數優化的方法。它是通過遍歷已定義參數的列表,來評估算法的參數,從而找到最優參數。
from pandas import read_csv
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV
#導入數據
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
#將數據分為輸入數據和輸出結果
array = data.values
X = array[:,0:8]
Y = array[:,8]
#算法實例化
model = Ridge()
#設置要遍歷的參數
param_grid = {'alpha':[1,0.1,0.01,0.001,0]}
#通過網格搜索查詢最優參數
grid = GridSearchCV(model, param_grid)
grid.fit(X,Y)
#搜索結果
print('max_score:%.3f'% grid.best_score_)
print('best_para:%.3f'% grid.best_estimator_.alpha)
max_score:0.276
best_para:1.000
2.2隨機搜索優化參數
隨機搜索優化參數是另一種對算法參數優化的方法。隨機搜索優化參數通過固定次數的迭代,采用隨機采樣分布的方式搜索合適的參數。
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import uniform
#隨即搜索優化參數
grid = RandomizedSearchCV(model, param_grid,100,random_state=7)
grid.fit(X,Y)
#搜索結果
print('max_score:%.3f'% grid.best_score_)
print('best_para:%.3f'% grid.best_estimator_.alpha)
max_score:0.276
best_para:1.000
總結
本文主要講解了如何優化模型,包括集成算法和算法調參,這些都是在實際項目中非常有用的。
到此這篇關于Python機器學習入門(六)優化模型的文章就介紹到這了,更多相關Python機器學習內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!
您可能感興趣的文章:- Python機器學習入門(一)序章
- Python機器學習入門(二)之Python數據理解
- Python機器學習入門(三)之Python數據準備
- Python機器學習入門(四)之Python選擇模型
- Python機器學習入門(五)之Python算法審查
- python機器學習高數篇之函數極限與導數