婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > python 開心網和豆瓣日記爬取的小爬蟲

python 開心網和豆瓣日記爬取的小爬蟲

熱門標簽:北京電銷外呼系統加盟 佛山400電話辦理 市場上的電銷機器人 朝陽手機外呼系統 小蘇云呼電話機器人 地圖標注面積 北瀚ai電銷機器人官網手機版 儋州電話機器人 所得系統電梯怎樣主板設置外呼

項目地址:

https://github.com/aturret/python-crawler-exercise

用到了BeautifulSoup4,請先安裝。

pip install beautifulsoup4

開心網日記爬取

kaixin001.py

使用

登錄開心網,瀏覽器F12看http請求的header,獲取自己的cookie。

填寫cookie,要爬的日記的url,要爬的總次數。走你。

之后會生成HTML文件,格式是:title>-YYYYMMDDHHMMSS>

代碼

# -*- coding: utf-8 -*-
from urllib.request import urlopen
import urllib.request
import urllib.parse #為了獲取HTTP response
from bs4 import BeautifulSoup #BS4
import string # 為了去掉空白字符
import time # 防止被殺cookie
import unicodedata # 字符修正
# 在這里放第一個鏈接
urlx = '鏈接' #寫你想爬的文

def request(url):
    global urlx #引用外面的鏈接作為全局變量,后面還會取下一個進行循環的


# 使用urllib庫提交cookie獲取http響應
    headers = {
    'GET https':url,
    'Host':' www.kaixin001.com',
    'Connection':' keep-alive',
    'Upgrade-Insecure-Requests':' 1',
    'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36',
    'Accept':' application/json, text/javascript, */*; q=0.01',
    'Accept-Language':' zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
    'Cookie':' ', #改成自己的cookie,自己瀏覽器打開網站F12調試,自己找http請求的header
    }
    request = urllib.request.Request(url=url,headers=headers)
    response = urllib.request.urlopen(request)
    contents = response.read()

# 使用BS4獲得所有HTMLtag
    bsObj = BeautifulSoup(contents,"html.parser")

# 使用BS4的find函數得到想要的東西:標題、發表時間和博客正文
    title = bsObj.find("b", attrs={"class":"f14"})
    titleT = bsObj.find("b", attrs={"class":"f14"}).get_text() #開心網日記的標題是一個b標簽,class屬性值是f14
    date = bsObj.find("span", attrs={"class":"c6"})
    dateT = bsObj.find("span", attrs={"class":"c6"}).get_text() #開心網日記的發表時間是一個span標簽,class屬性值是c6
    text = bsObj.find("div", attrs={"class":"textCont"})
    textT = bsObj.find("div", attrs={"class":"textCont"}).get_text() #開心網日記的正文是一個div標簽,class屬性值是textCont

  

# 測試輸出
    print(title)
    print(dateT)
    # print(text)
    
    
    

# 生成HTML文件。這里直接用file.open()和file.write()了,也可以用jinja2之類的框架生成。
    remove = string.whitespace+string.punctuation
    table = str.maketrans(':',':',remove)

    fileTitle=str(titleT).replace(':',':').replace('''"''','''“''')+'-'+str(dateT).translate(table).replace('發表','')+'.html'

    print(fileTitle) #測試輸出

    f = open(fileTitle,'w',encoding="utf-8") #注意用utf-8編碼寫入,不然會因為一些舊博文采用的gbk編碼不兼容而出問題。

# 寫入message
    message = """
    html>
    head>/head>
    body>
    h1>%s/h1>
    b>%s/b>
    br>/br>
    %s
    /body>
    /html>"""%(title.get_text(),date.get_text(),unicodedata.normalize('NFD',text.prettify()))
    f.write(message)
    f.close()
    # webbrowser.open(fileTitle,new = 1)
   

# 定位下一篇博文的URL

    nextUrl=bsObj.find("a",text="下一篇 >").attrs["href"] #下一篇是一個a標簽,使用tag對象的attrs屬性取href屬性的值。開心網的日記系統里,如果到了最后一篇日記,下一篇的鏈接內容是第一篇日記,所以不用擔心從哪篇日記開始爬。
    # print(nextUrl)
    urlx="http://www.kaixin001.com"+nextUrl
    print(urlx)


# 主循環,給爺爬
num=328 #設定要爬多少次。其實也可以寫個數組檢測重復然后中止的啦,但我懶得弄了。
for a in range(num):
    request(urlx)    
    print('We get '+str(a+1)+' in '+str(num))
    time.sleep(1) # 慢點,慢點。測試過程中出現了沒有設置限制爬一半cookie失效了的情況,可能是太快了被搞了。

豆瓣日記爬取

douban.py

使用

登錄豆瓣,瀏覽器F12看http請求的header,獲取自己的cookie。

填寫變量COOKIE,要爬的日記頁的url。走你。

之后會生成HTML文件,格式是:title>-YYYYMMDDHHMMSS>

代碼

# -*- coding: utf-8 -*-
from urllib.request import urlopen
import urllib.request
import urllib.parse #為了獲取HTTP response
from bs4 import BeautifulSoup #BS4
import string # 為了去掉空白字符
import unicodedata # 字符修正
import re
# 在這里放鏈接
url = '' #寫你想爬的人 https://www.douban.com/people/xxx/notes 這樣
COOKIE = ''

def request(urlx):
    global url #引用外面的鏈接作為全局變量,后面還會取下一個進行循環的
    global boolean
    global COOKIE
# 使用urllib庫提交cookie獲取http響應
    headers = {
    'GET https':urlx,
    'Host':' www.douban.com',
    'Connection':' keep-alive',
    'Upgrade-Insecure-Requests':' 1',
    'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36',
    'Accept':' application/json, text/javascript, */*; q=0.01',
    'Accept-Language':' zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
    'Cookie':COOKIE, #改成自己的cookie,自己瀏覽器打開網站F12調試,自己找http請求的header
    }
    request = urllib.request.Request(url=urlx,headers=headers)
    response = urllib.request.urlopen(request)
    contents = response.read()

# 使用BS4獲得所有HTMLtag
    bsObj = BeautifulSoup(contents,"html.parser")

# 使用BS4的find函數獲取當前頁面的所有日記鏈接
    article = bsObj.find("div", attrs={"class":"article"})
    titleSet = article.findAll("h3")
    # print(titleSet)
    for title in titleSet:
        titleText = title.findAll("a",attrs={"class":"j a_unfolder_n"})
        for link in titleText:
            noteUrl = str(link.attrs["href"])
            print(noteUrl)
            requestSinglePage(noteUrl)
    next = bsObj.find("a",text="后頁>")
    if next==None:
        print("結束了")
        boolean=1
    else:
        url = str(next.attrs["href"]).replace("type=note","")
        print(url)

def requestSinglePage(urly):
    global COOKIE
    headers = {
        'GET https':urly,
        'Host':' www.douban.com',
        'Connection':' keep-alive',
        'Upgrade-Insecure-Requests':' 1',
        'User-Agent':' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36',
        'Accept':' application/json, text/javascript, */*; q=0.01',
        'Accept-Language':' zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
        'Cookie':COOKIE, #改成自己的cookie,自己瀏覽器打開網站F12調試,自己找http請求的header
    }
    request = urllib.request.Request(url=urly,headers=headers)
    response = urllib.request.urlopen(request)
    contents = response.read()
    # 使用BS4獲得所有HTMLtag
    bsObj = BeautifulSoup(contents,"html.parser")

# 使用BS4的find函數得到想要的東西:標題、發表時間和博客正文

    title = bsObj.find("h1").get_text()
    date = bsObj.find("span", attrs={"class":"pub-date"})
    dateT = bsObj.find("span", attrs={"class":"pub-date"}).get_text()
    text = bsObj.find("div", attrs={"id":"link-report"})
    # textT = bsObj.find("div", attrs={"class":"textCont"}).get_text()

# 測試輸出
    print(title)
    print(dateT)

    # 生成HTML文件。這里直接用file.open()和file.write()了,也可以用jinja2之類的框架生成。
    remove = string.whitespace+string.punctuation # 去掉日期的標點符號
    table = str.maketrans(':',':',remove)

    fileTitle=str(title)+'-'+str(dateT).translate(table)+'.html'

    print(fileTitle) #測試輸出

    f = open(fileTitle,'w',encoding="utf-8") #注意用utf-8編碼寫入,不然會因為一些舊博文采用的gbk編碼不兼容而出問題。

    # 寫入message
    message = """
    html>
    head>/head>
    body>
    h1>%s/h1>
    b>%s/b>
    br>/br>
    %s
    /body>
    /html>"""%(title,dateT,unicodedata.normalize('NFD',text.prettify()))
    f.write(message)
    f.close()

# 主循環,給爺爬

boolean=0
while(boolean==0):
    a=1
    request(url)
    print('We finished page '+str(a)+' .')
    a+=1

Roadmap

豆瓣四月份時候還有bug,手機端可以看到全部日記,半年隱藏無效。最近修好了。

不過現在的隱藏依然沒有針對到具體的日記,或許可以想辦法通過其他手段爬下來。

以上就是python 開心網日記爬取的示例步驟的詳細內容,更多關于python 開心網日記爬取的資料請關注腳本之家其它相關文章!

您可能感興趣的文章:
  • Python爬蟲入門教程01之爬取豆瓣Top電影
  • Python爬蟲獲取豆瓣電影并寫入excel
  • Python爬蟲實現的根據分類爬取豆瓣電影信息功能示例
  • python爬蟲豆瓣網的模擬登錄實現
  • Python爬蟲——爬取豆瓣電影Top250代碼實例
  • 一個簡單的python爬蟲程序 爬取豆瓣熱度Top100以內的電影信息
  • Python爬蟲實戰:分析《戰狼2》豆瓣影評
  • Python制作豆瓣圖片的爬蟲
  • 實踐Python的爬蟲框架Scrapy來抓取豆瓣電影TOP250
  • 編寫Python爬蟲抓取豆瓣電影TOP100及用戶頭像的方法

標簽:金融催收 寧夏 龍巖 云南 商丘 定西 江蘇 酒泉

巨人網絡通訊聲明:本文標題《python 開心網和豆瓣日記爬取的小爬蟲》,本文關鍵詞  python,開心,網,和,豆瓣,日記,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python 開心網和豆瓣日記爬取的小爬蟲》相關的同類信息!
  • 本頁收集關于python 開心網和豆瓣日記爬取的小爬蟲的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    男女男精品网站| 亚洲欧洲日韩av| 在线电影欧美成精品| 在线观看av不卡| 欧美综合天天夜夜久久| 色婷婷亚洲精品| 日本高清免费不卡视频| 91福利在线看| 欧美日韩一级黄| 欧美久久久久久久久中文字幕| 欧美日韩亚州综合| 日韩丝袜美女视频| 精品国产露脸精彩对白| 国产精品入口麻豆原神| 国产精品毛片大码女人| 亚洲一区在线观看网站| 日本午夜一区二区| 国产一区二区在线免费观看| 大尺度一区二区| 色综合久久99| 日韩久久久精品| 欧美激情一区三区| 亚洲色图在线播放| 日本特黄久久久高潮| 久久99精品久久久久久 | 欧美亚洲国产怡红院影院| 欧美性猛交xxxxxxxx| 精品少妇一区二区三区| 国产日产欧产精品推荐色| 一区二区三区加勒比av| 麻豆91免费观看| 97成人超碰视| 日韩欧美精品在线视频| 中文字幕一区二区三区在线不卡 | 国产精品毛片无遮挡高清| 夜夜爽夜夜爽精品视频| 黄页视频在线91| 99国产精品一区| 日韩一区二区三区视频| 亚洲人一二三区| 精品在线视频一区| 91国模大尺度私拍在线视频| 久久久久久久久久电影| 日本vs亚洲vs韩国一区三区 | 精品一区二区三区久久| 99国产一区二区三精品乱码| 精品国产不卡一区二区三区| 亚洲在线成人精品| va亚洲va日韩不卡在线观看| 久久一留热品黄| 蜜臀va亚洲va欧美va天堂 | 91视频在线看| 国产人成一区二区三区影院| 婷婷中文字幕综合| 99久久精品国产导航| 欧美一区二区高清| 亚洲人午夜精品天堂一二香蕉| 免费成人在线观看视频| 亚洲成年人影院| 日本精品视频一区二区| 国产欧美精品一区aⅴ影院 | 91精品国产黑色紧身裤美女| 久久精品日产第一区二区三区高清版| 亚洲精品va在线观看| 国产精品亚洲一区二区三区在线 | 国产.精品.日韩.另类.中文.在线.播放| 99热这里都是精品| 精品久久久久久久一区二区蜜臀| 亚洲日本一区二区| 国产成人av在线影院| 欧美午夜在线一二页| 国产视频一区二区三区在线观看| 丝袜亚洲精品中文字幕一区| 色婷婷激情一区二区三区| 欧美韩日一区二区三区| 久久精品国产亚洲高清剧情介绍| 欧美色手机在线观看| 亚洲欧美日韩综合aⅴ视频| 成人免费三级在线| 久久综合九色综合欧美98| 亚洲国产精品一区二区久久 | 亚洲国产成人porn| gogo大胆日本视频一区| 国产三级一区二区| 国产精品69毛片高清亚洲| 精品免费99久久| 精品亚洲国内自在自线福利| 欧美伊人久久久久久久久影院| 亚洲国产日韩a在线播放性色| 色婷婷亚洲一区二区三区| 一级做a爱片久久| 欧洲国产伦久久久久久久| 亚洲精品午夜久久久| 色天天综合久久久久综合片| 一区二区三区在线观看动漫| 91免费观看视频在线| 一区二区成人在线视频 | gogo大胆日本视频一区| 中文文精品字幕一区二区| 国产99精品视频| 国产精品久久久久国产精品日日| 国产一区二区精品在线观看| 26uuu精品一区二区| 成人免费视频caoporn| 亚洲色图一区二区| 欧美日韩精品二区第二页| 秋霞成人午夜伦在线观看| 久久伊99综合婷婷久久伊| 成人av影视在线观看| 亚洲综合一区二区三区| 制服丝袜亚洲精品中文字幕| 一级女性全黄久久生活片免费| 欧美电影免费观看完整版| 国产精品一区二区男女羞羞无遮挡| 国产欧美日韩综合精品一区二区| 91久久线看在观草草青青| 欧美96一区二区免费视频| 久久久美女艺术照精彩视频福利播放| 高清不卡一区二区在线| 亚洲高清免费在线| www激情久久| 一本色道久久综合精品竹菊| 亚洲激情自拍偷拍| 日韩你懂的在线观看| 波多野结衣一区二区三区| 爽好久久久欧美精品| 国产视频亚洲色图| 欧美视频一区二区三区在线观看| 国产综合久久久久影院| 亚洲免费观看高清完整版在线观看| 欧美一区二区三区四区久久| jlzzjlzz国产精品久久| 看电视剧不卡顿的网站| 亚洲精品欧美在线| 欧美精品一区二区三区蜜臀 | 久久 天天综合| 国产三级久久久| 欧美人牲a欧美精品| 99re这里都是精品| 国产综合色视频| 午夜精品福利一区二区蜜股av| 欧美韩日一区二区三区四区| 欧美久久久久久蜜桃| 欧洲在线/亚洲| 成人av免费观看| 国产美女娇喘av呻吟久久| 国内精品写真在线观看| 亚洲a一区二区| 一区二区三区国产精华| 国产日产欧美精品一区二区三区| 日韩亚洲欧美高清| 欧美日韩在线直播| 欧美影院一区二区| 成av人片一区二区| 激情六月婷婷久久| 国产精品一区二区无线| 精品一区二区三区视频| 麻豆国产欧美日韩综合精品二区| 亚洲国产你懂的| 亚洲一线二线三线视频| 亚洲尤物在线视频观看| 亚洲一区二区三区四区在线观看 | 亚洲免费视频成人| 国产午夜精品美女毛片视频| 日韩精品中文字幕一区| 3d动漫精品啪啪| 91精品国产综合久久福利| 在线视频一区二区三| 色综合色综合色综合色综合色综合 | 国产一区二区三区美女| 日本欧美在线观看| 久久不见久久见中文字幕免费| 婷婷综合久久一区二区三区| 蜜臀av性久久久久蜜臀aⅴ流畅| 日韩有码一区二区三区| 日本aⅴ免费视频一区二区三区 | 91碰在线视频| 欧美亚洲国产一区二区三区va | 狠狠狠色丁香婷婷综合激情 | 亚洲激情第一区| 一区二区三区四区蜜桃| 亚洲国产精品久久人人爱蜜臀| 午夜视频久久久久久| 国产精品久久久久久久久免费丝袜| 一色桃子久久精品亚洲| 亚洲精品国产精华液| 婷婷成人综合网| 国产老肥熟一区二区三区| 99精品黄色片免费大全| 欧美主播一区二区三区美女| 91精品国产一区二区三区香蕉| 精品国产一区久久| 欧美精品一区二区久久婷婷| 亚洲欧美自拍偷拍| 日韩国产欧美在线观看| 国产超碰在线一区| 欧美人与性动xxxx| 久久精品在这里| 亚洲午夜一区二区三区| 国产自产高清不卡|