精品国产青草久久久久福利,精品一区二区三区在线视频,国产精品电影院

主頁 > 知識庫 > 利用機器學習預測房價

利用機器學習預測房價

項目介紹

背景：

DC競賽比賽項目，運用回歸模型進行房價預測。

數據介紹：

數據主要包括2014年5月至2015年5月美國King County的房屋銷售價格以及房屋的基本信息。

其中訓練數據主要包括10000條記錄，14個字段，分別代表：

銷售日期（date）：2014年5月到2015年5月房屋出售時的日期；
銷售價格（price）：房屋交易價格，單位為美元，是目標預測值；
臥室數（bedroom_num）：房屋中的臥室數目；
浴室數（bathroom_num）:房屋中的浴室數目；
房屋面積（house_area）：房屋里的生活面積；
停車面積（park_space）：停車坪的面積；
樓層數（floor_num）：房屋的樓層數；
房屋評分（house_score）：King County房屋評分系統對房屋的總體評分；
建筑面積（covered_area）：除了地下室之外的房屋建筑面積；
地下室面積（basement_area）：地下室的面積；
建筑年份（yearbuilt）：房屋建成的年份；
修復年份（yearremodadd）：房屋上次修復的年份；
緯度（lat）：房屋所在緯度；
經度（long）：房屋所在經度。

目標：

算法通過計算平均預測誤差來衡量回歸模型的優劣。平均預測誤差越小，說明回歸模型越好。

代碼詳解

數據導入

先導入分析需要的python包：

#導入類庫和加載數據集
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

導入下載好的kc_train的csv文件：

#讀取數據
train_names = ["date",
               "price",
               "bedroom_num",
               "bathroom_num",
               "house_area",
               "park_space",
               "floor_num",
               "house_score",
               "covered_area",
               "basement_area",
               "yearbuilt",
               "yearremodadd",
               "lat",
               "long"]
data = pd.read_csv("kc_train.csv",names=train_names)
data.head()

數據預處理

查看數據集概況

# 觀察數據集概況
data.info()

從圖中可以看出沒有任何缺失值，因此不需要對缺失值進行處理。

拆分數據：

把原始數據中的年月日拆開，然后根據房屋的建造年份和修復年份計算一下售出時已經過了多少年，這樣就有17個特征。

sell_year,sell_month,sell_day=[],[],[]
house_old,fix_old=[],[]
for [date,yearbuilt,yearremodadd] in data[['date','yearbuilt','yearremodadd']].values:
    year,month,day=date//10000,date%10000//100,date%100
    sell_year.append(year)
    sell_month.append(month)
    sell_day.append(day)
    house_old.append(year-yearbuilt)
    if yearremodadd==0:
        fix_old.append(0)
    else:
        fix_old.append(year-yearremodadd)
del data['date']
data['sell_year']=pd.DataFrame({'sell_year':sell_year})
data['sell_month']=pd.DataFrame({'sell_month':sell_month})
data['sell_day']=pd.DataFrame({'sell_day':sell_day})
data['house_old']=pd.DataFrame({'house_old':house_old})
data['fix_old']=pd.DataFrame({'fix_old':fix_old})
data.head()

觀察因變量（price)數據情況

#觀察數據
print(data['price'].describe())

#觀察price的數據分布
plt.figure(figsize = (10,5))
# plt.xlabel('price')
sns.distplot(data['price'])

從數據和圖片上可以看出，price呈現典型的右偏分布，但總體上看還是符合一般規律。

相關性分析

自變量與因變量的相關性分析，繪制相關性矩陣熱力圖，比較各個變量之間的相關性：

#自變量與因變量的相關性分析
plt.figure(figsize = (20,10))
internal_chars = ['price','bedroom_num','bathroom_num','house_area','park_space','floor_num','house_score','covered_area'
                  ,'basement_area','yearbuilt','yearremodadd','lat','long','sell_year','sell_month','sell_day',
                 'house_old','fix_old']
corrmat = data[internal_chars].corr()  # 計算相關系數
sns.heatmap(corrmat, square=False, linewidths=.5, annot=True) #熱力圖
csdn.net/jlf7026/article/details/84630414

相關性越大，顏色越淺。看著可能不太清楚，因此看下排名

#打印出相關性的排名
print(corrmat["price"].sort_values(ascending=False))

可以看出house_area,house_score,covered_area,bathroom_num這四個特征對price的影響最大，都超過了0.5。負數表明與price是負相關的。

特征選擇

一般來說，選擇一些與因變量（price）相關性比較大的做特征，但我嘗試過選擇前十的特征，然后進行建模預測，但得到的結果并不是很好，所以我還是把現有的特征全部用上。

歸一化

對于各個特征的數據范圍不一樣，影響線性回歸的效果，因此歸一化數據。

#特征縮放
data = data.astype('float')
x = data.drop('price',axis=1)
y = data['price']
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
newX= scaler.fit_transform(x)
newX = pd.DataFrame(newX, columns=x.columns)
newX.head()

劃分數據集

#先將數據集分成訓練集和測試集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(newX, y, test_size=0.2, random_state=21)

建立模型

選擇兩個模型進行預測，觀察那個模型更好。

線性回歸
隨機森林

#模型建立
from sklearn import metrics
def RF(X_train, X_test, y_train, y_test):    #隨機森林 
    from sklearn.ensemble import RandomForestRegressor
    model= RandomForestRegressor(n_estimators=200,max_features=None)
    model.fit(X_train, y_train)
    predicted= model.predict(X_test)
    mse = metrics.mean_squared_error(y_test,predicted)
    return (mse/10000)
def LR(X_train, X_test, y_train, y_test):    #線性回歸
    from sklearn.linear_model import LinearRegression            
    LR = LinearRegression()
    LR.fit(X_train, y_train)
    predicted = LR.predict(X_test)
    mse = metrics.mean_squared_error(y_test,predicted)
    return (mse/10000)

評價標準

算法通過計算平均預測誤差來衡量回歸模型的優劣。平均預測誤差越小，說明回歸模型越好。

print('RF mse: ',RF(X_train, X_test, y_train, y_test))
print('LR mse: ',LR(X_train, X_test, y_train, y_test))

可以看出，隨機森林算法比線性回歸算法要好很多。

總結

對機器學習有了初步了解。但對于數據的預處理，和參數，特征，模型的調優還很欠缺。

希望通過以后的學習，能不斷提高。也希望看這篇文章的朋友和我一起感受機器學習的魅力，更多相關機器學習內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章，希望大家以后多多支持腳本之家！

您可能感興趣的文章:

如何用Python進行時間序列分解和預測
利用keras使用神經網絡預測銷量操作
詳解用Python進行時間序列預測的7種方法
Python實現新型冠狀病毒傳播模型及預測代碼實例
Datawhale練習之二手車價格預測

標簽：江蘇駐馬店呼和浩特中山湖州股票畢節衡水

巨人網絡通訊聲明：本文標題《利用機器學習預測房價》，本文關鍵詞利用,機器,學習,預測,房價,；如發現本文內容存在版權問題，煩請提供相關信息告之我們，我們將及時溝通與處理。本站內容系統采集于網絡，涉及言論、版權與本站無關。

下面列出與本文章《利用機器學習預測房價》相關的同類信息！

利用機器學習預測房價

項目介紹背景： DC競賽比賽項目，運用回歸模型進行房價預測。數據介紹：數據主要包括2014年5月至2015年5月美國King County的房屋銷售價格以及房屋的基本信息。其中訓練數據主要包括...

10-18

蜂語電話機器人怎么樣（蜂語app）

本文目錄一覽：1、重慶的智能電話機器人哪家好用啊2、電話機器人多少錢?貴嘛?3、那么多電話機器人,我們怎么測試誰家的好...

08-28

科大訊飛即將推出新一代語音合成芯片XF-S4041

51callcenter 04月29日消息: 近日，為持續提升語音合成芯片的產品性能，增強二次開發廠商產品的市場賣點，科大訊飛在廣受好...

10-22

vmware虛擬機安裝ubuntu14.10系統的過程

ubuntu14.10的正式版本已經出來了，針對Bata版的漏洞進行了各種更新，也有了一些新的功能，界面上看起來更加美觀，操作起來...

10-19

Windows7雙顯卡手動切換到獨立顯卡的步驟

小編的電腦是Win7系統，擁有集成和獨顯雙顯卡。相信很多友友都和小編一樣，覺得集成顯卡的運行速度太慢了，喜歡切換到...

10-20

這就尷尬了！劉強東暗暗把昨天力挺賈躍亭的話刪除了

站長之家（Chinaz.com）近日，樂視被爆出的資金鏈問題在圈內鬧得沸沸揚揚。昨日下午，京東集團創始人劉強東在微頭條發文...

10-16

物聯網卡定向流量是什么意思(物聯卡的流量和正規卡的流量有什么區別)

1.通用流量的純流量卡，都是動態IP的，是直接使用的運營商的正規流量包，這種卡網速快，網絡延遲低，網絡穩定！網速和...

11-07

C# 定義常量兩種實現方法

在C#中定義常量的方式有兩種，一種叫做靜態常量（Compile-time constant），另一種叫做動態常量（Runtime constant）。前者用“co...

10-18

WebProxy.exe - WebProxy是什么進程

進程文件： WebProxy or WebProxy.exe 進程名稱： Panda Software Web Proxy 進程類別：存在安全風險的進程英文描述： WebProxy.exeis assoc...

10-19

智創良品外呼系統官網（智創app真的假的）

今天給各位分享智創良品外呼系統官網的知識，其中也會對智創app真的假的進行解釋，如果能碰巧解決你現在面臨的問題，別...

08-28

百度地圖標注LBS位置軌跡服務解決方案

1 月 23 日音訊，百度地圖標注 LBS 敞開渠道今日宣告，通過聯合 MTK，將在百度地圖標注鷹眼商品中，為可穿戴設備供給了一整...

04-13

北京聯通AI線路專賣-請看!

北京聯通AI線路專賣撥打3個多電銷人員的電話量，比人工節省成本。減少企業損失銷售行業人員流量大，很多人打電話比較頻...

01-15

廣州電銷防封外呼軟件真的好用嗎

外呼軟件是銷售贏單的利器，聯系客戶快人一步！線路穩定，提升電銷效率！提供多種外呼線路解決方案，高頻外呼不封號...

11-18

湖州房產電話系統供應商,電銷線路什么價格-你知道嗎

湖州房產電話系統供應商,電銷線路什么價格幫助企業進行客服工作質檢，對機器接待和人工接待的過程錄音、自動轉寫為文...

12-17

電銷的號碼是如何來的使用介紹

最后，在完成整個呼叫工作后，您可以查看此次呼叫工作的各項數據報告和數據詳細信息，如接通成功率、高意向客戶數、中...

10-30

PHP實現的函數重載功能示例

本文實例講述了PHP實現的函數重載功能。分享給大家供大家參考，具體如下：由于PHP是弱類型語言，因此函數的輸入參數類...

10-18

Win10系統開機出現兩個用戶賬戶卻無法刪除的原因及解決方法圖文教程

最近有用戶反應，在啟動win10系統的時候，出現了2個用戶賬戶，一個是自己正在使用賬戶，另外一個則是英文名administrator的...

10-19

電話機器人的正確打開方式

電話機器人的正確打開方式，相信已經有很多或者企業已經聽說過有電話機器人或者電銷機器人這一類的人工智能產品，或者...

10-31

寧港進出口聚焦高新技術外包業務總額逐年增長

2015年，南京市對香港進出口28.7億美元，同比下降12.5%；其中出口15.1億美元，下降1.7%，進口13.5億美元，下降22.1%。對港進出口...

10-22

有口碑的電話機器人加盟（電話機器人怎么加盟）

本文目錄一覽：1、AI智能外呼機器人系統哪家公司定制做得好?2、機器人代理加盟哪家好3、電銷機器人公司排名,電銷機器人...

06-20

全國400電話介紹,電信400業務400電話電信號段

中國有6個400電話號碼，屬于不同的運營商。經過多年的市場發展，目前只有中國聯通、中國移動、中國電信三家運營商。...

01-12

靈活實用VBS入門教程應用篇

上一篇文章我們了解了VBS編程的一些基礎知識，要更深入地學習還要學習選擇結構和循環結構。選擇結構選擇結構，即是對...

10-18

用什么方法可代替電話營銷

2.銷售難找，離職率居高不下【用什么方法可代替電話營銷】除此之外還有一些O2O服務類通知等，智能外呼也可以代替人工進...

10-24

吉林省聯通電商品牌-終于知道

吉林省聯通電商品牌在客戶有問題時，對問題進行匹配，然后回答出對應的答案。電銷機器人會先對的信號進行分析處理，截...

01-15

把RS.GetRows看得更清楚

用過Rs.GetRow的兄弟都知道Rs.GetRow可以更有效率地獲取小容量數據（不適合大容量數據，尤其涉及大對象的時候，容易暴掉，我...

10-18

易貨公司電銷機器人（易貨銷售員怎么干）

今天給各位分享易貨公司電銷機器人的知識，其中也會對易貨銷售員怎么干進行解釋，如果能碰巧解決你現在面臨的問題，別...

05-17

寧夏電銷軟件-蘭州的***蘭州電銷軟件推薦

寧夏電銷軟件，蘭州的***蘭州電銷軟件推薦，甘肅企贏慧科技有限公司以“智在創新，躍在前沿”為信念，以全力打造優異自...

01-13

智千呼電銷機器人（電銷人工智能機器人）

本篇文章給大家談談智千呼電銷機器人，以及電銷人工智能機器人對應的知識點，希望對各位有所幫助，不要忘了收藏本站喔...

11-06

pos機物聯卡怎么充值，pos機物聯卡流量充值

pos機物聯卡流量怎么充值? 物聯卡都是通過公眾號,或者充值鏈接充值的,每家的卡都有專門的充值鏈接,先賣給你卡的人就好了...

10-13

Win10周年更新系統凍結?2招硬解Win10周年更新BUG

雖然經過了長達一年的全民BUG測試，但在周年更新之后，Windows 10依舊問題不斷。就拿最近普遍遇到的問題來說吧，經常性之...

10-19

400電話辦理的途徑更加受到關注

400電話是全國統一接入這個號碼，這樣的號碼現在在很多企事業單位或者是訂餐電話當中都可以使用，我們可以發現它能夠全...

05-04

華為打造適應數據時代發展要求的新型客戶服務中心

2015華為中國合作伙伴大會剛剛落下帷幕，華為大服務的理念、產品架構、生態系統和商業模式，以及華為堅持以客戶為中心...

10-19

國內電銷卡虛擬商（虛擬商電話卡是什么意思）

本文目錄一覽：1、朗瑪電銷卡是哪個公司的2、哪些電銷卡?3、華云互聯卡是什么卡4、虛擬運營商的電話是從哪兒打出來的...

07-10

南京房產群呼機器人辦理-熱點

南京房產群呼機器人辦理他在與客戶交流時也無法準確地發現客戶的需求，更無法實時記錄客戶對公司的態度，更無法發現潛...

01-16

惠州防封電銷系統有什么功能

惠州防封電銷系統有什么功能電銷系統：完善的數據報表，企業相關數據可以完成標準化沉淀。為相關服務質量提升、企業...

12-15

北京語音電銷機器人費用（北京語音電銷機器人費用多少）

今天給各位分享北京語音電銷機器人費用的知識，其中也會對北京語音電銷機器人費用多少進行解釋，如果能碰巧解決你現在...

05-16

柳州銷售電銷機器人招商（柳州銷售電銷機器人招商群）

本文目錄一覽： 1、方大智能管家AI電銷機器人智能電話出售機器人怎么樣？2、有沒有哪種電話機器人能夠做招商項目的啊？...

11-28

如何贏得一位挑剔型客戶的滿意

在客戶服務工作中，有的客戶很健談。一般這種客戶的談話內容可分為兩類：一是對服務人員及商品本身的駁斥與懷疑，嘮嘮...

10-19

400電話號碼全國免費辦理400電話手機撥打免費嗎？

400電話是一個先進的企業通信管理系統。一部400電話可以統一管理成千上萬的固定電話和手機，包括接聽方式設置、接聽人...

01-13

黑客利用“權力的游戲”劇透郵件傳播惡意軟件

據國外媒體TheVerge報道，網絡安適公司Proofpoint的一份陳訴說，它不雅觀察到一個“有針對性的電子郵件活動”，黑客們正在利...

10-16

ai智能語音外呼系統目的和意義（智能語音外呼系統方案）

今日給各位共享ai智能語音外呼體系意圖和含義的常識，其間也會對智能語音外呼體系計劃進行解說，如果能可巧處理你現在...

05-18

服務外包成中國經濟轉型新亮點需求有增無減

商務部國際貿易經濟合作研究院首席經濟學家陳文敬今天在接受記者采訪時表示，雖然目前世界市場低迷，對出口貿易等造成...

10-22

江蘇電銷卡外呼系統（江蘇電銷卡外呼系統怎么用）

本文目錄一覽： 1、外呼系統跟電銷卡比起來，有哪些優勢和劣勢？2、電銷卡問什么要使用外呼系統?3、外呼系統是什么?4、...

11-27

天津餐飲加盟外呼機器人辦理多少錢-質優價廉

天津餐飲加盟外呼機器人辦理多少錢主動聯系現有客戶或潛在客戶進行溝通、宣傳和介紹。對于客戶的主動呼叫，點名的問題...

05-18

CSIP賽普測評中心成都分中心落戶天府軟件園

9月8日，國家工業和信息化部軟件與集成電路促進中心(CSIP)賽普測評中心成都分中心在成都高新區天府軟件園正式揭牌。國家...

10-22

電銷卡被封可以解封嗎？

我們都知道，在三大傳統運營商營業廳辦理的電話卡，如果用于電話營銷，很容易因為出現高頻外呼而停卡，如果電話使用過...

11-16

百度地圖標注2019春運深圳上演“空城計”重慶打卡游客多

1820 哪個城市新年遷徙人口最多？春運期間最易擁堵的高速路段有哪些？人們春運出行獨愛去哪里？近來，百度地圖標注聯...

04-14

北京電銷系統都有什么功能

北京電銷系統都有什么功能從我開始做銷售系統開始，每個客戶都給我留下了深刻的印象！其中一個客戶做軟件銷售，每天...

12-15

400和800電話是否可以做企業彩鈴？

400電話經測試可以加載到400綁定的固話中，撥打400電話及綁定的固話均可聽到企業彩鈴，但400電話無法直接加載。800電話不能...

12-22

400電話和1010電話有什么區別

400電話和1010電話都是企業常用的服務熱線電話業務，很多企業都不知道1010是什么電話，和400電話有什么區別，也不知道企業...

05-09

武漢營銷電話機器人軟件（武漢營銷電話機器人軟件公司）

今日給各位共享武漢營銷電話機器人軟件的常識，其間也會對武漢營銷電話機器人軟件公司進行解說，假如能可巧處理你現在...

05-17

利用機器學習預測房價

10-18

本頁收集關于利用機器學習預測房價的相關信息資訊供網民參考！

推薦文章

上一篇：基于python分布式爬蟲并解決假死的問題

下一篇：python3 解決requests出錯重試的問題

一起分享吧

婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

利用機器學習預測房價

項目介紹

代碼詳解

數據預處理

建立模型

評價標準