婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > python 爬取知乎回答下的微信8.0狀態視頻

python 爬取知乎回答下的微信8.0狀態視頻

熱門標簽:百應ai電銷機器人鄭州 女王谷地圖標注 如何在地圖標注文字 n400電話申請多少錢 西藏快速地圖標注地點 地圖標注推廣單頁 長春人工智能電銷機器人官網 ai地圖標注 廈門crm外呼系統如何

微信 8.0 版本更新后,可以設置個人狀態,狀態里面可以添加火錄制視頻,很快狀態視頻就火了,可以看下知乎熱榜有沒有微信8.0狀態沙雕又可愛的視頻或圖片?[1]。比如我也設置了一個:

于是我就想把這些視頻下載下來,也玩一玩。本文講述如何使用 Python 一鍵下載知乎某個回答下的所有視頻。

思路:分析知乎回答頁面 -> 定位視頻 -> 尋找視頻播放的 url -> 下載。其實就兩步:找到 url,然后下載。

尋找 url

一個回答下面可能有多個視頻,先分析一個視頻,打開谷歌瀏覽器的開發者工具窗口,找到 network,勾選 preserve log、disable cache,選擇 xhr,刷新,很容易找到如下圖所示的接口:

從上圖接口返回的數據就可以獲取視頻播放的 url、標題、格式等信息,這就夠了,復制 play_url,放在瀏覽器上看一下,發現可以直接下載,說明那么這個 url 就是我們需要的。

接下來,寫代碼,獲取接口返回的數據:

def get(url: str) -> list:
  """
  獲取知乎視頻的 url
  返回格式
  [{'url':'', 'title','format':'',},{}]
  """
  data = []
  headers = {
    "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36",
  }
  with requests.get(url, headers=headers, timeout=10) as rep:
    if rep.status_code == 200:
      ids = re.findall(r"www.zhihu.com/zvideo/(\d{1,})", rep.text)
      ids = list(set(ids)) # 去掉重復元素
    else:
      print(f"網絡連接失敗,狀態碼 { rep.status_code }")
      return []

  if not ids:
    print("視頻獲取失敗,可能是這個頁面沒有視頻")
    return []

  for id in ids:
    print(id)
    with requests.get(
      f"https://www.zhihu.com/api/v4/zvideos/{id}/card",
      headers=headers,
      timeout=10,
    ) as rep:
      if rep.status_code == 200:
        ret_data = rep.json()
        playlist = ret_data["video"]["playlist"]
        title = ret_data.get("title")
        temp = playlist.get("ld") or playlist.get("sd")
        if temp:
          sigle_video = {}
          sigle_video["url"] = temp.get("play_url")
          sigle_video["title"] = title
          sigle_video["format"] = temp.get("format")
          data.append(sigle_video)
      else:
        print(f"網絡連接失敗,狀態碼 { rep.status_code }")
        return []
  return data

下載視頻

這個比較簡單了,直接請求視頻播放的 url,將流式的內容保存到文件中,最多再加個進度條的展示。部分視頻獲取的 title 為空,這時就使用時間戳來命名文件。

請看代碼:

def download( file_url, file_name=None, file_type=None, save_path="download", headers=None, timeout=15,): 
  """
  :param file_url: 下載資源鏈接
  :param file_name: 保存文件名,默認為當前日期時間
  :param file_type: 文件類型(擴展名)
  :param save_path: 保存路徑,默認為download,后面不要"/"
  :param headers: http請求頭
  """
  if file_name is None or file_name == "":
    file_name = str(datetime.now())

  if file_type is None:
    if "." in file_url:
      file_type = file_url.split(".")[-1]
    else:
      file_type = "uknown"

  file_name = file_name + "." + file_type

  if headers is None:
    headers = {
      "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B137 Safari/601.1"
    }

  if os.path.exists(save_path):
    pass
  else:
    os.mkdir(save_path)

  # 下載提示

  if os.path.exists(f"{save_path}/{file_name}"):
    print(f"\033[33m{file_name}已存在,不再下載!\033[0m")
    return True

  print(f"Downloading {file_name}")
  try:
    with requests.get(
      file_url, headers=headers, stream=True, timeout=timeout
    ) as rep:
      file_size = int(rep.headers["Content-Length"])
      if rep.status_code != 200:
        print("\033[31m下載失敗\033[0m")
        return False
      label = "{:.2f}MB".format(file_size / (1024 * 1024))
      with click.progressbar(length=file_size, label=label) as progressbar:
        with open(f"{save_path}/{file_name}", "wb") as f:
          for chunk in rep.iter_content(chunk_size=1024):
            if chunk:
              f.write(chunk)
              progressbar.update(1024)
      print(f"\033[32m{file_name}下載成功\033[0m")
  except Exception as e:
    print("下載失敗: ", e)
  return True

執行代碼下載:

import os, sys
import re
import click
import requests
from datetime import datetime

def get(url: str) -> list:
  #見上文
  ...

def download( file_url, file_name=None, file_type=None, save_path="download", headers=None, timeout=15,): 
  #見上文
  ...



if __name__ == "__main__":
  videos = get(sys.argv[1])
  for video in videos:
    download(file_url = video['url'],file_name= video['title'] ,file_type= video['format'],save_path='./download')

執行結果如下圖所示:

最后的話

網站可能會發生變更,因此本文的代碼可能隨著時間變化而無法使用,請自行調節一些正則表達式和參數。爬取的思路是通用的,無非就是找到視頻的流式數據,進行保存。思路有了,編寫代碼就是體力活了。

此外,如果你只是想要一些酷炫、搞笑、可愛的視頻資源,玩一下微信 8.0 的狀態,請在公眾號「Python七號」回復「視頻」,即可獲取微信 8.0 的狀態視頻合集的下載鏈接:

回答來源

有沒有微信8.0狀態沙雕又可愛的視頻或圖片?: https://www.zhihu.com/question/441253090

以上就是python 爬取知乎回答下的微信8.0狀態視頻的詳細內容,更多關于python 爬取知乎視頻的資料請關注腳本之家其它相關文章!

您可能感興趣的文章:
  • python爬蟲之利用selenium+opencv識別滑動驗證并模擬登陸知乎功能
  • python使用selenium爬蟲知乎的方法示例
  • python 抓取知乎指定回答下視頻的方法
  • Python爬取知乎圖片代碼實現解析
  • 如何使用python爬取知乎熱榜Top50數據

標簽:綿陽 渭南 黔東 亳州 拉薩 內江 興安盟 廊坊

巨人網絡通訊聲明:本文標題《python 爬取知乎回答下的微信8.0狀態視頻》,本文關鍵詞  python,爬取,知乎,回答,下,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python 爬取知乎回答下的微信8.0狀態視頻》相關的同類信息!
  • 本頁收集關于python 爬取知乎回答下的微信8.0狀態視頻的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 岫岩| 新丰县| 鹿邑县| 广平县| 阿拉善左旗| 甘泉县| 舟山市| 塔城市| 镶黄旗| 泊头市| 城固县| 盐山县| 来凤县| 环江| 宜川县| 靖西县| 苍溪县| 汝南县| 柳林县| 微博| 垫江县| 呼和浩特市| 河曲县| 临桂县| 柯坪县| 承德市| 海晏县| 淳安县| 津市市| 洞头县| 鱼台县| 蒙山县| 吐鲁番市| 阿拉善左旗| 三明市| 调兵山市| 富锦市| 蛟河市| 梅河口市| 清涧县| 富阳市|