国产免费一区,日韩有码在线观看,日韩国产精品久久

主頁 > 知識庫 > python 爬取嗶哩嗶哩up主信息和投稿視頻

python 爬取嗶哩嗶哩up主信息和投稿視頻

項目地址：

https://github.com/cgDeepLearn/BilibiliCrawler

項目特點

采取了一定的反反爬策略。
Bilibili更改了用戶頁面的api, 用戶抓取解析程序需要重構。

快速開始

拉取項目, git clone https://github.com/cgDeepLearn/BilibiliCrawler.git
進入項目主目錄，安裝虛擬環境crawlenv(請參考使用說明里的虛擬環境安裝)。
激活環境并在主目錄運行crawl,爬取結果將保存在data目錄csv文件中。

ource activate crawlenv
python initial.py file  # 初始化file模式
python crawl_user.py file 1 100  # file模式，1 100是開始、結束bilibili的uid

進入data目錄查看抓取的數據，是不是很簡單！

如果需要使用數據庫保存和一些其他的設置，請看下面的使用說明

使用說明

1.拉取項目

git clone https://github.com/cgDeepLearn/BilibiliCrawler.git

2.進入項目主目錄，安裝虛擬環境

若已安裝anaconda

conda create -n crawlenv python=3.6
source activate crawlenv  # 激活虛擬環境
pip install -r requirements.txt

若使用virtualenv

virtualenv crawlenv
source crawlenv/bin/activate  # 激活虛擬環境，windows下不用source
pip install -r requirements.txt  # 安裝項目依賴

3. 修改配置文件

進入config目錄，修改config.ini配置文件(默認使用的是postgresql數據庫，如果你是使用的是postgresql，只需要將其中的參數替換成你的，下面其他的步驟可以忽略) 數據庫配置選擇其中一個你本地安裝的即可，將參數更換成你的如果你需要更自動化的數據庫配置，請移步我的DB_ORM項目

[db_mysql]
user = test
password = test
host = localhost
port = 3306
dbname = testdb

[db_postgresql]
user = test
password = test
host = localhost
port = 5432
dbname = testdb

然后修改conf.py中獲取配置文件的函數

def get_db_args():
    """
    獲取數據庫配置信息
    """
    return dict(CONFIG.items('db_postgresql'))  # 如果安裝的是mysql,請將參數替換為db_mysql

進入db目錄，修改basic.py的連接數據庫的DSN

# connect_str = "postgresql+psycopg2://{}:{}@{}:{}/{}".format(kwargs['user'], kwargs['password'], kwargs['host'], kwargs['port'], kwargs['dbname'])
# 若使用的是mysql，請將上面的connect_str替換成下面的
connect_str = "mysql+pymysql://{}:{}@{}:{}/{}?charset=utf8".format(kwargs['user'], kwargs['password'], kwargs['host'], kwargs['port'], kwargs['dbname'])
# sqlite3，mongo等請移步我的DB_ORM項目，其他一些數據庫也將添加支持

4. 運行爬蟲

python initial.py db # db模式，file模式請將db換成file
# file模式會將抓取結果保存在data目錄
# db模式會將數據保存在設置好的數據庫中
# 若再次以db模式運行將會drop所有表后再create，初次運行后請慎重再次使用!!!
# 如果修改添加了表，并不想清空數據，請運行 python create_all.py

開始抓取示例

python crawl_user.py db 1 10000 # crawl_user 抓取用戶數據，db 保存在數據庫中， 1 10000為抓取起止id
python crawl_video_ajax.py db 1 100 # crawl_video_ajax 抓取視頻ajax信息保存到數據庫中,
python crawl_user_video.py db 1 10000 #同時抓取user 和videoinfo
# 示例為uid從1到100的user如果有投稿視頻則抓取其投稿視頻的信息，
# 若想通過視頻id逐個抓取請運行python crawl_video_by_aid.py db 1 1000

爬取速率控制

程序內已進行了一些抓取速率的設置，但各機器cpu、mem不同抓取速率也不同，請酌情修改
太快太慢請修改各crawl中的sleepsec參數,ip會被限制訪問頻率，overspeed會導致爬取數據不全，
之后會添加運行參數speed(high, low),不用再手動配置速率

日志

爬取日志在logs目錄
user, video分別為用戶和視頻的爬取日志
storage為數據庫日志如需更換log格式，請修改logger模塊

后臺運行

linux下運行python ......前面加上nohup，例如:

nohup python crawl_user db 1 10000

程序輸出保存文件，默認會包存在主目錄額nohup.out文件中，添加 > fielname就會保存在設置的文件中:

nohup python crawl_video_ajax.py db 1 1000 > video_ajaxup_1_1000.out  # 輸出將保存在video_ajaxup_1_1000.out中

程序多線程使用的生產者消費者模式中產生了程序運行的狀況的打印信息，類似如下

produce 1_1
consumed 1_1
...

如想運行更快，請在程序各項設置好后注釋掉其中的打印程序

# utils/pcModels.py
print('[+] produce %s_%s' % (index, pitem))  # 請注釋掉

print('[-] consumed %s_%s\n' % (index, data))  # 請注釋掉

項目是單機多線程，若想使用分布式爬取，請參考Crawler-Celery

以上就是python 爬取嗶哩嗶哩up主信息和投稿視頻的詳細內容，更多關于python 爬取嗶哩嗶哩的資料請關注腳本之家其它相關文章！

您可能感興趣的文章:

python b站視頻下載的五種版本
基于python對B站收藏夾按照視頻發布時間進行排序的問題
教你如何使用Python下載B站視頻的詳細教程
利用python+ffmpeg合并B站視頻及格式轉換的實例代碼
ffmpeg+Python實現B站MP4格式音頻與視頻的合并示例代碼
python 爬取B站原視頻的實例代碼
Python如何爬取b站熱門視頻并導入Excel
Python如何實現爬取B站視頻
python3寫爬取B站視頻彈幕功能

標簽：迪慶撫州牡丹江楊凌南寧聊城揚州六盤水

巨人網絡通訊聲明：本文標題《python 爬取嗶哩嗶哩up主信息和投稿視頻》，本文關鍵詞 python,爬取,嗶哩,主,信息,；如發現本文內容存在版權問題，煩請提供相關信息告之我們，我們將及時溝通與處理。本站內容系統采集于網絡，涉及言論、版權與本站無關。

下面列出與本文章《python 爬取嗶哩嗶哩up主信息和投稿視頻》相關的同類信息！

python 爬取嗶哩嗶哩up主信息和投稿視頻

項目地址： https://github.com/cgDeepLearn/BilibiliCrawler 項目特點采取了一定的反反爬策略。 Bilibili更改了用戶頁面的api, 用戶抓取解析程序需要重構。快速開始拉取項目, git clone https://githu...

10-18

太倉服務外包依托區位優勢

【新民網·獨家報道】“與上海接壤，市區距離上海虹橋機場只有35公里，好多服務外包企業都是看中了太倉的這些區位優勢...

10-22

福建電銷網絡電話系統安裝（福建電銷網絡電話系統安裝要求）

本篇文章給大家談談福建電銷網絡電話系統安裝，以及福建電銷網絡電話系統安裝要求對應的知識點，希望對各位有所幫助，...

08-28

怎么辦理朗瑪電銷卡（怎么辦理朗瑪電銷卡呢）

本文目錄一覽：1、電銷卡怎么辦理2、電銷卡怎么買,有哪些注意事項?3、電銷卡在哪里辦理4、朗瑪移動手機卡,怎么注銷?電銷...

07-10

溫州財稅呼叫中心系統供應商,電話營銷線路多少錢一張-圖文

溫州財稅呼叫中心系統供應商,電話營銷線路多少錢一張人工不管多快，機器的速度都有差異。在電銷系統中，客戶接到電話...

12-17

電子地圖-殯葬服務一目了然

本報訊記者周其俊）昨天，全國首張殯葬服務電子地圖在市民政局官方網站亮相。市民只要輕輕點擊上海殯葬網，然后點擊...

04-13

南寧地鐵電話機器人（南寧地鐵報站語音）

本文目錄一覽：1、南寧什么時候有地鐵2、南寧軌道交通1號線的鋪軌3、南寧5號線地鐵口哪里最熱鬧南寧什么時候有地鐵年...

07-06

客服中心也“智能” 揭秘國網客服中心南中心的“黑科技”

724服務，14個省（市）的用戶，一天90000部電話接入，7種語言（方言）服務，滿意度99.58%，一組組數據印證著國家電網有限公...

10-19

高德地圖如何增加公司位置？高德如何增加公司位置？

如何高德地圖增加地標？長按標記點，然后點收藏，還可以命名，以后都可以查到了。電腦高德地圖如何增加多個景點？...

11-26

從全球最好的2G網絡到全球最好的物聯網網絡，NB-IoT需求有哪些改變？

在近期舉辦的全球終端峰會上，我國移動發布了《5G終端產品指引》在業界產生了不小反響，但首要焦點并不在5G上，而是在...

10-13

廣州網絡電話外呼系統（網絡電話外呼系統平臺）

本文目次一覽： 1、廣州外呼零碎公司哪家好？ 2、咱們公司在廣州，做存款電銷的，有合適的外呼零碎嗎？ 3、廣州有沒有做...

11-25

徐州辦電話卡做電銷封號咋辦

徐州辦電話卡做電銷封號咋辦電銷卡的使用成本相對來說是比較低的，一般來說都是套餐服務，一個外呼電話也就幾分錢，...

12-16

南通外呼系統排名（南京外呼系統哪家公司做得

本文目錄一覽：1、智能電話外呼體系哪家的比較好用？2、外呼體系哪家好？3、電銷外呼體系品牌排名，哪家好4、電銷外呼...

11-29

win10家庭版激活提示0x803fa067錯誤代碼怎么解決?

大家可能也會遇到這種情況，win10系統激活失敗提示錯誤代碼0x803fa067，有的朋友在將win10家庭版升級到win10專業版的時候遇到...

10-19

win7系統怎么用硬盤安裝ubuntu kylin 14.10？

相信不少ubuntu愛好者都想裝個ubuntu kylin系統自己過過癮，但最新的幾個版本里都沒有了wubi.exe 沒法直接安裝了，所以這里就告...

10-20

開通400電話的流程是什么

最近，很多企業了解了400電話的好處后，為了能夠不落后與競爭對手，擴展自己企業業務，也想開通400電話服務，那么開通...

05-09

天津呼叫中心外呼系統（天津今晚網絡呼叫中心）

本文目錄一覽： 1、呼叫易呼叫中心體系怎么樣？2、外呼體系哪家公司做得好？？？3、天津呼叫中心哪家服務好？4、哪些電...

11-28

Win8系統如何打開cda文件的方法

最近有Win8系統用戶詢問，cda文件是什么格式文件，又要如何打開。其實cda文件是一種音頻格式文件，就是我們常說的CD音軌，...

10-19

北京電銷公司

1、什么是智能語音電話機器人？【北京電銷公司】 2.可視化和數字化管理，所有的外呼名單全部做好分類，哪些接了哪些沒...

10-24

商標提交以后還可以修改嗎

提交以后再想修改商標圖樣是不可能了，不過有些情況是例外的。商標法第二十三條規定：商標局認為商標注冊申請內容需要...

10-23

400電話號碼申請400電話是申請

400電話號碼申請400電話是申請以下內容由巨人小編整理發布。提交實名認證材料：400電話是針對企業用戶辦理，需要營業執...

02-12

電信400電話業務，電信400號碼怎么辦理

電信400電話業務，電信400號碼怎么辦理400電話代理商為你解答。打開電腦瀏覽器，百度搜索【400辦理】選擇任意辦理方，如...

07-20

金華移動電話營銷系統辦理公司,電銷線路怎么辦理-關于

金華移動電話營銷系統辦理公司,電銷線路怎么辦理自動識別客戶意向并準確的分類，幫你鎖定準確客戶。經驗豐富，擁有通...

12-17

上海通訊外呼系統資費（上海呼叫中心外包公司有哪些）

今天給各位分享上海通訊外呼系統資費的知識，其中也會對上海呼叫中心外包公司有哪些進行解釋，如果能碰巧解決你現在面...

05-17

400電話多少錢400的電話是怎么收費的

(400電話多少錢)(400的電話是怎么收費的)以下內容由巨人小編整理發布。 400電話400電話分為4006（中國聯通），4007（中國移動...

01-12

江蘇大數據外呼管理系統（互聯網化外呼管理系統）

本篇文章給大家談談江蘇大數據外呼管理系統，以及互聯網化外呼管理系統對應的知識點，希望對各位有所幫助，不要忘了收...

05-16

新都電話機器人公司有哪些（新都機械有限公司）

本文目錄一覽：1、電話銷售機器人哪個好2、重慶有幾家電話機器人3、電話機器人怎么樣？電話銷售機器人哪個好電話銷售...

06-30

保定極信通信電銷卡（極信通信手機卡辦理）

本文目錄一覽：1、怎樣使用電銷電話卡不會被封?這些技巧需要掌握!2、電銷卡可以在手機上注銷嗎3、電銷卡為什么不容易被...

07-10

Win10 Mobile一周年預覽版中Edge瀏覽器將新增滑動翻頁手勢

滑動翻頁手勢曾是IE瀏覽器中非常受歡迎的操作方式，用戶在觸摸屏設備上用手左右滑動，就可以實現前進和后退的翻頁操作...

10-20

VBS教程：函數-Int、Fix 函數

Int、Fix 函數返回數字的整數部分。 Int( number ) Fix( number ) number 參數可以是任意有效的數值表達式。如果 number 參數包含 Nul...

10-18

香港電話外呼系統（網絡電話外呼系統）

本篇文章給大家談談香港電話外呼系統，以及網絡電話外呼系統對應的知識點，希望對各位有所幫助，不要忘了收藏本站喔。...

11-06

服務外包“新寵”難以快速成長

光明教育訊服務外包是以現代網絡技術和高層次人才為支撐的新型知識產業，屬于高端的現代服務業。隨著我國產業轉移的...

10-22

電銷團隊制度薪資（電銷團隊制度薪資結構）

本文目錄一覽： 1、請問有人在我國安全做過車險電銷嗎里邊待遇怎樣樣？是不是壓力很大？常常加班嗎？根本的每月能拿多...

04-22

天津房地產電話軟件辦理費用,電話銷售線路哪家好-歡迎洽談

天津房地產電話軟件辦理費用,電話銷售線路哪家好功能上可以分為普通坐席和班長坐席?！て胀ㄗ瓿傻墓δ苤饕校喝藛T...

12-16

廣東外呼系統電銷（廣東外呼系統電銷招聘）

本篇文章給咱們談談廣東外呼體系電銷，以及廣東外呼體系電銷招聘對應的知識點，期望對各位有所協助，不要忘了保藏本站...

11-06

400元免費彩鈴，400彩鈴內容

400元免費彩鈴，400彩鈴內容400電話代理商為你解答。辦理400電話的彩鈴功能是可選功能，在不同的套餐中如果選擇了彩鈴功...

07-20

ai電話銷售系統

在疫情之下，鼓勵全民在家不出戶，很多員工回不來無法恢復生產，企業將會出現巨大損失，而這時很多工作都靠人工智能...

10-26

洛陽電銷外呼系統供應商（鄭州電銷外呼系統）

本篇文章給大家談談洛陽電銷外呼系統供應商，以及鄭州電銷外呼系統對應的知識點，希望對各位有所幫助，不要忘了收藏本...

02-23

武威電話機器人廠家（電話機器人招聘）

本文目錄一覽：1、武威市火車站查詢電話?2、有誰用過電銷機器人?哪個公司的比較好?3、那么多電話機器人,我們怎么測試誰...

06-20

天津自動電銷機器人系統（天津自動電銷機器人系統有限公司）

今日給各位共享天津主動電銷機器人體系的常識，其間也會對天津主動電銷機器人體系有限公司進行解說，如果能可巧處理你...

11-07

惠州代理外呼系統（廣東外呼公司）

今日給各位共享惠州署理外呼體系的常識，其間也會對廣東外呼公司進行解說，如果能可巧處理你現在面對的問題，別忘了重...

05-17

電銷卡真的不會封號嗎？看完這老銷售經驗分享

電銷卡真的不會封號嗎？但是不封號的電話卡又到哪里去可以辦呢？現在就是想尋找那種不封號的電銷卡，因為現在打電話封...

11-23

vivoX30系列搭載的FuntouchOS10電銷外呼程序會帶來哪些不一樣的體驗？

感謝您的閱讀！前兩天去vivo的體驗店，感受了下vivo X30這款手機系統，也確實覺得有些驚喜，在這款手機中，使用了全新的...

12-14

和平區電話機器人店鋪地址（和平區家電維修電話）

本文目錄一覽：1、聽說沈陽中街附近開了一家樂高機器人,想帶孩子去上課,有人知道環境怎么...2、中瑞福寧機器人(沈陽)有限...

06-20

400開頭電話怎么開通（400開頭的電話如何申請）

400開頭電話怎么開通（400開頭的電話如何申請） 400開頭電話，是企業、機構或個人為了提升企業形象、服務客戶而開通的電...

08-14

針對不同的客戶用不同的銷售技巧

我們在從事銷售的過程中,通過初次打交道后,對客戶的跟進非常重要,每個客戶至少跟蹤三次以上才有效,有的甚至跟單十多年...

10-19

如何衡量呼叫中心的性能

不能否認如何呼叫中心行業已經非常不論成功當今世界的一部分。當然許多企業認識到需要設置呼叫中心，使他們能夠更好地...

10-22

長春電銷卡外呼系統（電銷外呼線路聯通）

本文目錄一覽：1、外呼系統是怎么用的?2、電銷外呼系統誰家的好用?3、電銷的手機號被封了怎么辦?外呼系統管用嗎?4、電銷...

07-10

移動CRM正在改變業務管理方式

2014年絕對是中國的4G元年，也很可能開啟移動辦公系統應用的新紀元。在去年12月4日，工信部向中國聯通、中國移動、中國電...

10-19

物聯卡合法嗎(物聯卡封卡)

大多數人對物聯卡有疑慮，物聯卡流量是否虛標？網速怎么樣？信號好嗎？我就結合自己前段時間辦理物聯卡使經歷，談談...

11-07

電銷不封號老被封

電銷不封號老被封電銷卡的使用成本相對來說是比較低的，一般來說都是套餐服務，一個外呼電話也就幾分錢，所以這樣也...

12-16

python 爬取嗶哩嗶哩up主信息和投稿視頻

10-18

本頁收集關于python 爬取嗶哩嗶哩up主信息和投稿視頻的相關信息資訊供網民參考！

推薦文章

上一篇：OpenCV-Python直方圖均衡化實現圖像去霧

下一篇：Python中json.load()和json.loads()有哪些區別

一起分享吧

婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

python 爬取嗶哩嗶哩up主信息和投稿視頻

項目地址：

項目特點

快速開始

使用說明

1.拉取項目

2.進入項目主目錄， 安裝虛擬環境

3. 修改配置文件

4. 運行爬蟲

更多

2.進入項目主目錄，安裝虛擬環境