婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > 淺談Pandas dataframe數據處理方法的速度比較

淺談Pandas dataframe數據處理方法的速度比較

熱門標簽:廣東旅游地圖標注 京華圖書館地圖標注 淮安呼叫中心外呼系統如何 看懂地圖標注方法 打印谷歌地圖標注 佛山通用400電話申請 電話機器人貸款詐騙 蘇州人工外呼系統軟件 電話外呼系統招商代理

數據修改主要以增刪改差為主,這里比較幾種寫法在數據處理時間上的巨大差別。

數據量大概是500萬行級別的數據,文件大小為100M。

1.iloc

iloc是一種速度極其慢的寫法。這里我們對每個csv文件中的每一行循環再用iloc處理,示例代碼如下:

for index in range(len(df)):
   df.iloc['attr'][index] = xxx

使用這種方法對五百萬行的數據進行處理大概需要5個小時,實在是很慢。

2.at

at相比于iloc有了很大的性能提升,也是for循環處理,示例代碼如下:

for i in range(len(df)):
  if df.at[i,'attr'] > 0:
    sum_positive += df.at[i,'attr']
  else:
    sum_negetive += df.at[i,'sttr']

在我的程序里at和iloc是可以通用的,用at,程序的速度會有大幅提高,大概10分鐘,但是還不夠。

3.apply(lambda x:...)

想說apply是因為我覺得for循環速度太慢,想在循環上對程序進行優化。然后網上有人說apply可以大幅度提升速度,然而經過測試發現在我的程序里,使用apply和for差不多吧,性能也一般。

4.直接用series處理

這才是真正優化for循環的方法,以上面at的程序為例,可以改寫為:

sum_positive += df['attr'][df.attr > 0].sum()
sum_negative += df['attr'][df.attr  0].sum()

將程序都改為series處理,快了很多,最后500萬行的數據大概需要37秒能跑完,基本符合預期。

這里提兩句關于dataframe屬性篩選,也就是上面df.attr > 0這一部分。首先pandas這個屬性篩選實在是很強大,很方便。

其次是我們屬性篩選的時候不要去修改屬性,而是修改后面的數字,比如,我們不要這樣寫:

float(df.attr )> 0,而是這樣寫:

df.attr > str(0),因為df.attr作為屬性是不能隨便動的。

補充:pandas中DataFrame單個數據提取效率與修改效率

目標

使用pandas處理金融數據及建模中經常需要按時間序列順序循DataFrame數據,讀取具體位置的數據判斷或修改。經驗上這種操作要比直接對二維列表或者np.array格式數據慢的多,原因可能在于index及columns層次的查找(兩個字典,都不是連續數組,每次查找定位都需要時間)和DataFrame中數據的內存布局,有機會以后再深入研究。

這里做一組數值實驗對比幾種方法的效率。

生成數據

先生成一個二維數組隨機數作為DataFrame數據,不失一般性,并把列名、行名設為標記順序的字符串。

import numpy as np
import pandas as pd

from copy import deepcopy
from time import time

np.random.seed(20000)
I = 900
df = pd.DataFrame(np.random.standard_normal((I, I)),
   columns=['c'+str(_) for _ in range(I)],
         index=['i'+str(_) for _ in range(I)])

然后從限定范圍內隨機生成取值位置,為了方便對比,把隨機坐標與字符串名對應起來

columns_num = np.floor(np.random.uniform(0, 1, I) * I).astype(int)
index_num = np.floor(np.random.uniform(0, 1, I) * I).astype(int)

columns_str = ['c'+str(_) for _ in columns_num]
index_str = ['i'+str(_) for _ in index_num]

讀取測試

首先傳統方法,直接取columns及index中名稱定位

t0 = time()
for m in columns_str:
  for n in index_str:
    c = df[m][n]
print(time()-t0)

6.789840459823608

先columns列名后在values中取行坐標,速度快了一些

t0 = time()
for m in columns_str:
  for n in index_num:
    c = df[m].values[n]
print(time()-t0)

1.9697318077087402

loc方法,速度和直接取columns及index中名稱定位差不多

t0 = time()
for m in columns_str:
  for n in index_str:
    c = df.loc[n, m]
print(time()-t0)

5.661889314651489

at方法,比loc快一點,畢竟loc可以切片的

t0 = time()
for m in columns_str:
  for n in index_str:
    c = df.at[m, n]
print(time()-t0)

3.3770089149475098

假設知道具體橫縱坐標后,我們再比較:

還是從取values開始,也很慢,看來每次從df中取values很耗時

t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.values[n][m]
print(time()-t0)

6.041872024536133

iloc試一下,沒什么區別

t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.iloc[n, m]
print(time()-t0)

6.103677034378052

iat做對比,提升不大,有點失望

t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.iat[n, m]
print(time()-t0)

4.375299692153931

最后最高效的方法,還是先取二維數組來再定位

t0 = time()
b = df.values
for m in columns_num:
  for n in index_num:
    c = b[n][m]
print(time()-t0)

0.6402544975280762

修改測試

重復剛才的過程,把對應值改為0作為簡單測試方式,別忘了原始數據要備份

取columns及index中名稱定位

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup[m][n] = 0.0
print(time()-t0)

41.99269938468933

先columns列名后在values中取行坐標

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_num:
    df_backup[m].values[n] = 0.0
print(time()-t0)

2.215076208114624

loc方法

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup.loc[n, m] = 0.0
print(time()-t0)

134.39290761947632

at方法,在修改數值上竟然比loc快這么多

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup.at[n, m] = 0.0
print(time()-t0)

4.7453413009643555

在values上改,也是不錯的,和讀取相近,看來還都是在每次提取values上耗時

df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.values[n][m] = 0.0
print(time()-t0)

6.346027612686157

iloc方法

df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.iloc[n, m] = 0.0
print(time()-t0)

122.33384037017822

iat方法

df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.iat[n, m] = 0.0
print(time()-t0)

5.381632328033447

取二維數組來再定位

df_backup = deepcopy(df)
t0 = time()
b = df.values
for m in columns_num:
  for n in index_num:
    c = b[n][m]
print(time()-t0)

0.4298992156982422

總結

效率上肯定是直接取數值最優的,這次系統性比較做個記錄。代碼寫的有點啰嗦了,不過方便復制實驗。在建模級別的代碼上我還是習慣于用第2種方法,主要是鑒于代碼可讀性、維護和修改上。代碼會在key上告訴我這里是什么,直觀易讀。

以前也曾為了提高代碼運行效率寫過先提取二維數組的,但columns多了就很費勁,重讀還需要轉譯一遍。當然也可以把數據寫成類,但是感覺和pandas不好融合,從建模和研究效率上沒有太好的解決方案。之后會找時間再研究DataFrame內部機制。

以上為個人經驗,希望能給大家一個參考,也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方,望不吝賜教。

您可能感興趣的文章:
  • Python基礎之pandas數據合并
  • python-pandas創建Series數據類型的操作
  • Python數據分析之pandas函數詳解
  • python基于Pandas讀寫MySQL數據庫
  • pandas讀取excel時獲取讀取進度的實現
  • pandas中.loc和.iloc以及.at和.iat的區別說明
  • 解決使用pandas聚類時的小坑
  • pandas 使用merge實現百倍加速的操作
  • 詳細介紹在pandas中創建category類型數據的幾種方法
  • python中pandas.read_csv()函數的深入講解
  • pandas 顛倒列順序的兩種解決方案
  • pandas調整列的順序以及添加列的實現
  • pandas快速處理Excel,替換Nan,轉字典的操作
  • Python基礎之教你怎么在M1系統上使用pandas

標簽:中山 股票 駐馬店 衡水 湖州 呼和浩特 江蘇 畢節

巨人網絡通訊聲明:本文標題《淺談Pandas dataframe數據處理方法的速度比較》,本文關鍵詞  淺談,Pandas,dataframe,數據處理,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《淺談Pandas dataframe數據處理方法的速度比較》相關的同類信息!
  • 本頁收集關于淺談Pandas dataframe數據處理方法的速度比較的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 呈贡县| 大关县| 寿宁县| 务川| 六安市| 北流市| 大连市| 子洲县| 大理市| 嵩明县| 博客| 项城市| 常州市| 康平县| 洛阳市| 望城县| 龙泉市| 南岸区| 渭南市| 本溪市| 汨罗市| 巴彦县| 汝阳县| 宁都县| 洪湖市| 乌鲁木齐市| 清镇市| 新干县| 伊春市| 长白| 广丰县| 望江县| 上林县| 芒康县| 涿鹿县| 绥江县| 越西县| 吴旗县| 郴州市| 巴彦淖尔市| 图片|