精品国产乱码91久久久久久网站,丁香5月婷婷久久,亚洲久久成人

主頁 > 知識庫 > Python機器學習入門(四)之Python選擇模型

Python機器學習入門(四)之Python選擇模型

1.數據分離與驗證

要知道算法模型對未知的數據表現如何，最好的評估辦法是利用已經明確知道結果的數據運行生成的算法模型進行驗證。此外還可以使用新的數據來評估算法模型。

在評估機器學習算法時，不將訓練集直接作為評估數據集最直接的原因就是過度擬合。過度擬合是指為了得到一致性假設而變得過度嚴格，簡單來說就是指模型僅對訓練數據有較好的效果，而對于新數據則適應性很差。

如圖所示是一個分類實例，綠色曲線表示過擬合，黑色曲線表示正常模型。可以看到過擬合模型僅對當前數據表現較好，而對新數據適應性明顯不如正常模型。

接下來將講解四種不同的分離數據集的方法，用來分離訓練集和評估集，并用其評估算法模型。

1.1分離訓練數據集和評估數據集

可以簡單地將原始數據集分為兩部分，第一部分用來訓練算法生成模型，第二部分通過模型來預測結果，并于已知的結果進行比較，來評估算法模型的準確度。

from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import LeaveOneOut
from sklearn.model_selection import ShuffleSplit
 
 
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
# print(data.head(10))
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
test_size = 0.33
seed = 4
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=test_size, random_state=seed)
model = LogisticRegression(max_iter=3000)
model.fit(X_train, Y_train)
result = model.score(X_test, Y_test)
print("算法評估結果：%3f%%" % (result * 100))

執行后得到的結果約為80%。為了讓算法模型具有良好的可復用性，在指定了分離數據大小的同時，還指定了隨機粒度（seed=4），將數據隨即進行分離。通過指定隨機的粒度，可以確保每次執行程序得到相同的結果，這有助于比較兩個不同的算法生成模型的結果。

算法評估結果：80.314961%

1.2K折交叉驗證分離

K折交叉驗證是將原始數據分成K組（一般是均分）,將第一部分作為測試集，其余作為訓練集，訓練模型，計算模型在測試集上的準確率，每次用不同部分作為測試集，重復上述步驟K次，最后將平均準確率作為最終的模型準確率。

# K折交叉驗證分離
num_folds = 10
seed = 7
kfold = KFold(n_splits=num_folds, random_state=seed,shuffle=True)
model = LogisticRegression(max_iter=3000)
result = cross_val_score(model, X, Y, cv=kfold)
print("算法評估結果：%.3f%% (%.3f%%)" % (result.mean() * 100, result.std() * 100))

執行后得到評估得分及標準方差。

算法評估結果：77.216% (4.968%)

1.3棄一交叉驗證分離

相較于K折交叉驗證分離，棄一交叉驗證有顯著優點：

每一回合中幾乎所有樣本你皆用于訓練模型，因此最接近原始樣本的分布，這樣評估所得的結果比較可靠。
實驗過程中沒有隨機因素會影響實驗數據，確保實驗過程可重復。

但棄一交叉驗證計算成本高，當原始數據樣本數量多時，棄一交叉驗證需要花費大量時間完成評估。

# 棄一交叉驗證分離
# 計算量非常大!!
loocv = LeaveOneOut()
model = LogisticRegression(max_iter=3000)
result = cross_val_score(model,X,Y,cv = loocv)
print("算法評估結果：%.3f%% (%.3f%%)"% (result.mean()*100,result.std()*100))

運算得出的標準方差與K折交叉驗證有較大差距。

算法評估結果：77.604% (41.689%)

1.4重復隨機分離評估數據集與訓練數據集

另外一種K折交叉驗證的用途是隨即分離數據為訓練數據集和評估數據集。

n_splits = 10
test_size = 0.33
seed = 7
kfold = ShuffleSplit(n_splits=n_splits, test_size=test_size, random_state=seed)
model = LogisticRegression(max_iter=3000)
result = cross_val_score(model, X, Y, cv=kfold)
print("算法評估結果：%.3f%% (%.3f%%)" % (result.mean() * 100, result.std() * 100))

算法評估結果：76.535% (2.235%)

2.算法評估

2.1分類算法評估

2.1.1分類準確度

分類準確度就是算法自動分類正確的樣本數除以所有的樣本數得出的結果。準確度是一個很好、很直觀的評價指標，但是有時候準確度高并不代表算法就一定好。

from pandas import read_csv
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
 
#分類準確度
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename,names=names)
#print(data.head(10))
#將數據分為輸入數據和輸出結果
array = data.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
seed = 7
kfold = KFold(n_splits=num_folds,random_state=seed,shuffle=True)
model = LogisticRegression(max_iter=3000)
result = cross_val_score(model, X,Y,cv=kfold)
print("算法評估結果準確度：%.3f(%.3f)" % (result.mean(),result.std()))

算法評估結果準確度：0.772(0.050)

2.1.2分類報告

在scikit-learn中提供了一個非常方便的工具，可以給出對分類問題的評估報告，Classification__report()方法能夠給出precision,recall,F1-score,support。

from pandas import read_csv
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.metrics import classification_report
 
#分類準確度
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename,names=names)
print(data.head(10))
#將數據分為輸入數據和輸出結果
array = data.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
seed = 7
kfold = KFold(n_splits=num_folds,random_state=seed,shuffle=True)
model = LogisticRegression(max_iter=3000)
model.fit(X_train,Y_train)
predicted = model.predict(X_test)
report = classification_report(Y_test, predicted)
print(report)

precision recall f1-score support
0.0 0.84 0.87 0.86 171
1.0 0.71 0.66 0.69 83
accuracy 0.80 254
macro avg 0.78 0.77 0.77 254
weighted avg 0.80 0.80 0.80 254

2.2回歸算法評估

回歸算法評估將使用波士頓房價（Boston House Price）數據集。可通過百度網盤下載

鏈接：https://pan.baidu.com/s/1uyDiXDC-ixfBIYmTU9rrAQ
提取碼：eplz

2.2.1平均絕對誤差

平均絕對誤差是所有單個觀測值與算術平均值偏差絕對值的平均值。平均絕對誤差相比于平均誤差能更好地反映預測值誤差的實際情況。

cross_val_score中的scoring參數詳解可見官方開發文檔

https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression
 
filename = 'housing.csv'
names = ['CRIM','ZN','INDUS','CHAS','NOX','RM','AGE','DIS','RAD','TAX','PRTATIO','B','LSTAT','MEDV']
data = read_csv(filename,names=names,delim_whitespace=True)
array = data.values
X = array[:,0:13]
Y = array[:,13]
n_splits = 10
seed = 7
kfold = KFold(n_splits=n_splits,random_state=seed,shuffle=True)
model = LinearRegression()
 
#平均絕對誤差
scoring = 'neg_mean_absolute_error'
result = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print('MAE:%.3f(%.3f)'%  (result.mean(),result.std()))

MAE:-3.387(0.667)

2.2.2均方誤差

均方誤差是衡量平均誤差的方法，可以評價數據的變化程度。均方根誤差是均方誤差的算術平均跟。均方誤差越小，說明用該預測模型描述實驗數據準確度越高。

#均方誤差
scoring = 'neg_mean_squared_error'
result = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print('MSE:%.3f(%.3f)'%  (result.mean(),result.std()))

MSE:-23.747(11.143)

2.2.3判定系數（ $R^2$ ）

判定系數（coefficient of determination），也叫可決系數或決定系數，是指在線性回歸中，回歸平方和與總離差平方和之比值，其數值等于相關系數的平方。

#決定系數
scoring = 'r2'
result = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print('R2:%.3f(%.3f)'%  (result.mean(),result.std()))

R2:0.718(0.099)

K折交叉驗證是用來評估機器學習算法的黃金準則。黃金準則為：當不知如何選擇分離數據集的方法時，選擇K折交叉驗證來分離數據集；當不知如何設定K值時，將K設為10。

到此這篇關于Python機器學習入門(四)選擇模型的文章就介紹到這了,更多相關Python機器學習內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

Python機器學習入門(一)序章
Python機器學習入門(二)之Python數據理解
Python機器學習入門(三)之Python數據準備
Python機器學習入門(五)之Python算法審查
Python機器學習入門(六)之Python優化模型
python機器學習高數篇之函數極限與導數

標簽：漯河南平盤錦林芝普洱大同海南寧夏

巨人網絡通訊聲明：本文標題《Python機器學習入門(四)之Python選擇模型》，本文關鍵詞 Python,機器,學習,入門,四,；如發現本文內容存在版權問題，煩請提供相關信息告之我們，我們將及時溝通與處理。本站內容系統采集于網絡，涉及言論、版權與本站無關。

下面列出與本文章《Python機器學習入門(四)之Python選擇模型》相關的同類信息！

Python機器學習入門(四)之Python選擇模型

目錄 1.數據分離與驗證 1.1分離訓練數據集和評估數據集 1.2K折交叉驗證分離 1.3棄一交叉驗證分離 1.4重復隨機分離評估數據集與訓練數據集 2.算法評估 2.1分類算法評估 2.1.1分類準確度...

10-18

美團訂單出現支付故障官方稱已陸續恢復

騰訊科技訊(相欣) 12 月 7 日，今日午間美團因技術原因導致平臺部分訂單出現支付故障，用戶支付成功后顯示頁面出現延遲，...

10-15

深圳電話機器人電話機器人

4.電話作為聯系客戶最重要的方式，每天需要聯系大量的客戶。如果采用人工客服，必然需要大量的人工成本和設備成本，不...

10-24

電話機器人對公司有用嗎（電話機器人公司哪家好）

本文目錄一覽：1、電銷機器人真的有用嗎?2、電話機器人使用效果怎么樣3、用智能AI電話機器人效果好嗎?4、電話機器人有什...

06-20

安寧移動外呼系統查詢電話（中國移動安寧分公

本文目錄一覽：1、10085是什么？2、10085是什么電話？3、10085是什么號碼4、中國移動的人工服務電話號碼是多少5、10085是什么...

11-29

了解400電話就上信通網贏www.trust400.com

【了解400電話就上企號卡網】企號卡網網站(www.qihaoka.com)上面還可以找客服來解答對于400不懂的事情。所以說如果你對于400電...

11-07

運營商應當歡迎MVNO加入，但市場還有利可圖嗎

工信部一紙《移動通信轉售業務試點方案》的通知，將移動虛擬網絡運營商（簡稱MVNO）這個角色推到聚光燈下。在海外很多...

01-16

esim物聯網卡與普通esim卡的那些不解之謎

隨著物聯網技術的高速發展，現在國內越來越多的企業都在慢慢接受和使用它。不過隨著物聯網卡的大量使用，出現了各種各...

11-07

聯通物聯卡虛擬運營商你了解嗎？

你知道虛擬運營商嗎?運營商你一定知道，國內來說就是三大運營商中國移動、聯通、電信。那么虛擬運營商是什么呢?其實虛...

10-13

抖音代運營有哪些最好的抖音流量來源？

抖音的到來，改變了咱們對短視頻的認識，跟著抖音的不斷發展，抖音現已進入了千家萬戶，成為了咱們日子中不可缺失的一...

03-01

電銷機器人怎么銷售（電銷機器人銷售話術）

本篇文章給大家談談電銷機器人怎么銷售，以及電銷機器人銷售話術對應的知識點，希望對各位有所幫助，不要忘了收藏本站...

02-24

濰坊市好用防封電話卡便宜

那么，分享通信面臨當前困境，究竟是運營好用防封電話卡便宜狀況不景氣，還是因為之爭所導致的呢？先從運營角度來看，...

03-01

云南電話機器人效果怎么樣

有意通過呼叫任務篩選的客戶可以進行手動操作，也可以在事后由銷售人員進行跟蹤訪問。我們可以根據呼叫場景進行不同...

10-31

網絡電話外呼系統帶數據（互聯網化外呼管理系統）

本文目錄一覽： 1、哪家的外呼系統好用？ 2、什么是網絡電話外呼系統？ 3、網絡電話外呼系統哪個好？哪家的外呼系統好...

11-26

企業電話機器人功能（電話機器人廠商）

今天給各位分享企業電話機器人功能的知識，其中也會對電話機器人廠商進行解釋，如果能碰巧解決你現在面臨的問題，別忘...

05-17

品牌保護：加強法律意識

我國許多擁有傳統名牌商標的企業，由于缺乏商標法律意識，給國內外一些“不義之徒”搶先注冊，給他們帶來巨大的損失。...

10-23

佛山微信代運營怎么增加粉絲量？

03-01

“一帶一路”對專利、商標申請人敞開“胸懷”

“亞洲之星農業產業合作區歡迎您！”在一天之內轉機兩次、歷經七八個小時、飛越三個國家后，走出比什凱克瑪納斯國際機...

10-23

如何辦理抗封的話機通訊助手呢

之前我有一個朋友是做那種餐飲加盟的，就是給客戶打電話邀約客戶過來公司考察，然后讓客戶來加盟他們公司的項目，但是...

11-23

四川電話系統有哪些

電銷外呼系統批量自動外呼系統原理：電話批量自動外呼系統能夠解決以下問題：把海量號碼數據導入系統，由程序自動外呼...

10-25

售后軟件

售后服務的質量直接影響到客戶對品牌和產品的滿意度，忠誠度。二次銷售和口碑推薦，其實是對收入的助長。所以我們更應...

10-25

南通市7個縣級呼叫中心平臺服務萬余名老人

目前，南通市已建成7個縣級呼叫平臺，為全市1萬多名獨居、空巢老年人提供相關服務。日前，市政協主席王德忠率市政協主...

10-19

紐約島民為新競技場申請“ THE BANK”商標

紐約島民提出了三項商標申請，這些商標與該團隊正在建設的新競技場有關。一個應用程序是短語“ THE BANK”，它似乎是競...

10-23

MySQL之導出整個及單個表數據的操作

導出單個表 mysqldump -u user -p dbname tablename db.sql 導入單個表 mysqldrop tablename; mysql -u user -p dbname db.sql 導出整個表 mysqldump --opt ...

10-18

機器人語音對話app云呼ai_電話機器人

【機器人語音對話app】云呼：一個電話機器人的外呼次數約為1000/天，根據接話率和話術內容而變動【機器人語音對話app】...

10-31

扁桃首播80萬不雅觀眾圍不雅觀籽岷奇怪君等一眾MC大佬助陣

若說當前《我的世界》最火主播是誰，莫非狂拽酷炫嘴炸天的扁桃是也， 9 億多的全平臺視頻不雅觀看。 9 月 2 日在觸手直播...

10-16

400電話作用大嗎400電話怎么收費的？400電話套餐推薦

企業將高度重視宣傳內容，高度重視與消費者的溝通，這也是為了提高營銷效率，提升外部形象。正因為如此，許多企業將...

01-13

巨人科技—巨人科技的新名字

00電話作為一個專業的標志，已經被各種大型企業接受。許多客戶使用電話的時候，都會更容易傾向相信這樣的號碼。也許這...

05-15

杭州有哪些好的網站代運營公司？

隨著互聯網技術的發展趨勢，越來越多的傳統公司剛剛開始做網絡運營。但是對于大多數中小企業來說，自己組件的互聯網銷...

03-31

辦理400電話的收費標準400電話申請容易嗎？有什么優惠套餐？

現在市場上使用的400電話很火爆，企業之所以會放心辦理400電話，是因為收費很合理，在使用過程中也很方便，大家可以看看...

01-12

怎么技巧性的通過搜索引擎來獲取流量?

今日與咱們共享對于在SEO的操作中哪些會被搜索引擎認為是做弊的手法，請咱們要理解小編么的主題不是要教咱們怎么去做弊...

10-19

電銷卡如何養卡（電銷卡如何使用）

本文目錄一覽：1、電銷卡是否真的不封號?卡總被停怎么辦回撥真的不封嗎?電銷卡多少錢靠譜...2、電話銷售,卡總是被停,怎么...

07-10

鶴壁正規外呼系統代理商（鶴壁呼叫產業園干嘛的）

本篇文章給大家談談鶴壁正規外呼系統代理商，以及鶴壁呼叫產業園干嘛的對應的知識點，希望對各位有所幫助，不要忘了收...

05-17

互聯時代下中譯語通引領語音行業激流勇進

如今，移動互聯網給傳統語音行業帶來了不小的沖擊。風云變化中，如何處變不驚，奮力開辟新天地，這是許多行業企業都在...

10-21

pytorch顯存一直變大的解決方案

在代碼中添加以下兩行可以解決： torch.backends.cudnn.enabled = Truetorch.backends.cudnn.benchmark = True 補充：pytorch訓練過程顯存一直增加...

10-18

文思海輝符山服務外包觀察：印度外包重鎮金奈洪水中我們的同理心

從今年十月開始，印度東南海岸地區遭受了百年一遇的強降雨，隨之而來的洪水淹沒了泰米爾納德邦首府金奈。說淹沒一點兒...

10-22

蘇州電銷機器人招代理嗎（蘇州機器人代理商）

本文目錄一覽： 1、有沒有哪種電話機器人能夠做招商項意圖啊？需求聯絡的合作方太多了，想要能夠智能高效和客戶交流的...

11-28

赤峰市酒店地圖，赤峰市金方大酒店地圖

酒店怎么上高德地圖？和高德地圖聯系，有一些要贊助費的，或者使用糾錯功能自己注冊，然后申請標注，填寫資料，上傳...

11-27

辦理400電話哪里辦理流程（辦理400電話需要什么手續）

辦理400電話哪里辦理流程（辦理400電話需要什么手續）想要擁有一條專屬于自己企業的400電話，不僅可以提升企業形象，還...

08-14

蘇州包月電銷外呼線路開發-號外！

蘇州包月電銷外呼線路開發導出、修改等數據管理功能。電銷機器人在智能客服領域應用，還會受到通信傳輸的影響。在電話...

01-16

餐飲酒店類企業彩鈴內容61

【餐飲酒店213】完美品質，追求卓越！南昌市達樂賓館酒店用品有限公司歡迎您的來電，我們將專業訂做臺布、口布、椅套、...

11-27

易電銷app高頻不封號系統官方

易電銷app 高頻不封號系統官方適用于教育，房產，代理記賬，裝修，增值應有盡有，029，外顯手機號等多種線路電話外呼系...

11-15

溫州移動電話營銷線路服務商,電銷系統-深入探討

溫州移動電話營銷線路服務商,電銷系統提升企業經濟效益。電銷效率提升的同時，企業無需再像以前一樣雇傭太多電銷人員...

12-17

北京財稅電話營銷線路辦理商家,電銷機器人-終于明白

北京財稅電話營銷線路辦理商家,電銷機器人在工作質量方面還能達到更好的標準，因為電銷機器人具有更為穩顏色定的系統...

12-17

怎樣在高德地圖上留店名？高德地圖留店名

怎么才能在高德地圖上留上店名？增地點您可以在地圖上找長按此位置2秒直至出現藍色氣泡內，然后點擊右下角新增地容點...

11-26

特步申請“特不服”商標商標分類為服裝鞋帽

來源：界面新聞近日，特步（中國）有限公司新增商標申請信息，商標名稱為“特不服”，注冊號為51006936，商標分類為25...

10-23

搬運機器人如何實現更快的搬運物料

隨著科技的快速發展，搬運機器人越來越受到大家的歡迎，那么搬運機器人怎么搬運物料更快呢？一、物料單位容量在自動搬...

10-30

智能電銷機器人開啟人工智能共生時代。

深圳市數心科技有限公司歷經多年的技術積累和研發實踐，融合互聯網、云計算及人工智能、通信、大數據等技術，研發推出...

10-24

400電話的優點和缺點400電話的特點有哪些

400本質上是一個智能虛擬號碼，通過呼叫轉移轉移到企業指定或手機接收400是800電話業務升級版本，是基于智能網絡語音增值...

01-13

高精度高德地圖標注公司地址讓無人駕駛汽車“認路”

你出門都不認路，怎么寫地圖的稿子?當記者動筆時，身旁的友人這樣問道。未來的無人駕駛汽車也面臨同樣的問題。雖然作...

04-14

萊蕪自動電銷機器人公司（銷售電銷機器人）

今天給各位分享萊蕪自動電銷機器人公司的知識，其中也會對銷售電銷機器人進行解釋，如果能碰巧解決你現在面臨的問題，...

05-16

Python機器學習入門(四)之Python選擇模型

10-18

本頁收集關于Python機器學習入門(四)之Python選擇模型的相關信息資訊供網民參考！

推薦文章

上一篇：用python寫個顏值評分器篩選最美主播

下一篇：Python機器學習入門(二)之Python數據理解

一起分享吧

婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

Python機器學習入門(四)之Python選擇模型

目錄

1.數據分離與驗證

1.1分離訓練數據集和評估數據集

1.2K折交叉驗證分離

1.3棄一交叉驗證分離

1.4重復隨機分離評估數據集與訓練數據集

2.算法評估

2.1分類算法評估

2.1.1分類準確度

2.1.2分類報告

2.2回歸算法評估

2.2.1平均絕對誤差

2.2.2均方誤差

2.2.3判定系數（）

2.2.3判定系數（ $R^2$ ）