秋霞一区二区,在线精品亚洲,亚洲精品视频啊美女在线直播

主頁 > 知識庫 > 使用Python爬取小姐姐圖片（beautifulsoup法）

使用Python爬取小姐姐圖片（beautifulsoup法）

Python有許多強大的庫用于爬蟲，如beautifulsoup、requests等，本文將以網站https://www.xiurenji.cc/XiuRen/為例（慎點！！），講解網絡爬取圖片的一般步驟。
為什么選擇這個網站？其實與網站的內容無關。主要有兩項技術層面的原因：①該網站的頁面構造較有規律，適合新手對爬蟲的技巧加強認識。②該網站沒有反爬蟲機制，可以放心使用爬蟲。

第三方庫需求

beautifulsoup
requests

步驟

打開網站，點擊不同的頁面：
發現其首頁是https://www.xiurenji.cc/XiuRen/，而第二頁是https://www.xiurenji.cc/XiuRen/index2.html，第三頁第四頁以此類推。為了爬蟲代碼的普適性，我們不妨從第二頁以后進行構造url。

選中封面圖片，點擊檢查：

可以發現，圖片的信息，都在'div',class_='dan'里，而鏈接又在a標簽下的href里。據此我們可以寫一段代碼提取出每一個封面圖片的url：

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#獲得網站每一個首頁的網址
  res=requests.get(url)#發送請求
  res.encoding="gbk"#設置編碼方式為gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到儲存每一個封面圖片的標簽值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#尋找每一個封面對應的網址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一個元素，達到擴充列表的目的，注意要把網址擴充完整
  return urls#返回該主頁每一個封面對應的網址

點擊封面圖片，打開不同的頁面，可以發現，首頁的網址是https://www.xiurenji.cc/XiuRen/xxxx.html，而第二頁的網址是https://www.xiurenji.cc/XiuRen/xxxx_1.html，第三第四頁同理。同樣為了普適性，我們從第二頁開始爬取。

右鍵，點擊“檢查”：

可以發現所有的圖片信息都儲存在'div',class_='img'中，鏈接、標題分別在img標簽中的src和alt中，我們同樣也可以將它們提取出來。

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#獲得網站每一個首頁的網址
  res=requests.get(url)#發送請求
  res.encoding="gbk"#設置編碼方式為gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到儲存每一個封面圖片的標簽值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#尋找每一個封面對應的網址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一個元素，達到擴充列表的目的，注意要把網址擴充完整
  return urls#返回該主頁每一個封面對應的網址

完整代碼

import requests
from bs4 import BeautifulSoup

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#獲得網站每一個首頁的網址
  res=requests.get(url)#發送請求
  res.encoding="gbk"#設置編碼方式為gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到儲存每一個封面圖片的標簽值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#尋找每一個封面對應的網址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一個元素，達到擴充列表的目的，注意要把網址擴充完整
  return urls#返回該主頁每一個封面對應的網址

def download(urls):
 for url1 in urls:
  print("prepare to download pictures in "+url1)
  getEveryPage(url1)#下載頁面內的圖片
  print("all pictures in "+url1+"are downloaded")
  
def getEveryPage(url1):
 total=0#total的作用：對屬于每一個封面內的圖片一次編號
 for n in range (1,11):#每一個封面對應下載10張圖，可自行調整
  temp=url1.replace('.html','')
  url2=temp+'_'+str(n)+'.html'#獲得每一內部頁面的網址
  res=requests.get(url2)
  res.encoding="gbk"
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists1=soup.find_all('div',class_='img')#儲存圖片的路徑
  
  for item in lists1:
   url=item.find('img').get('src')
   title=item.find('img').get('alt')#獲取圖片及其標題
   picurl='https://www.xiurenji.cc'+url#獲取完整的圖片標題
   picture=requests.get(picurl).content#下載圖片
   address='D:\pythonimages'+'\\'#自定義保存圖片的路徑
   with open(address+title+str(total)+'.jpg','wb') as file:#保存圖片
    print("downloading"+title+str(total))
    total=total+1
    file.write(picture)
    

if __name__ == "__main__":
 page=int(input('input the page you want:'))
 urls=getFirstPage(page)
 download(urls)

本文僅供學習參考，切勿用作其他用途！

到此這篇關于Python爬取小姐姐圖片（beautifulsoup法）的文章就介紹到這了,更多相關Python爬取小姐姐圖片內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

Python爬蟲實戰之使用Scrapy爬取豆瓣圖片
Python爬蟲之教你利用Scrapy爬取圖片
Python爬取網站圖片并保存的實現示例
python制作微博圖片爬取工具
python繞過圖片滑動驗證碼實現爬取PTA所有題目功能附源碼
利用python批量爬取百度任意類別的圖片的實現方法
Python使用xpath實現圖片爬取
Python Scrapy圖片爬取原理及代碼實例
Python3直接爬取圖片URL并保存示例
python爬取某網站原圖作為壁紙

標簽：平頂山烏蘭察布哈爾濱烏蘭察布大慶合肥郴州海南

巨人網絡通訊聲明：本文標題《使用Python爬取小姐姐圖片（beautifulsoup法）》，本文關鍵詞使用,Python,爬取,小,姐姐,；如發現本文內容存在版權問題，煩請提供相關信息告之我們，我們將及時溝通與處理。本站內容系統采集于網絡，涉及言論、版權與本站無關。

婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

使用Python爬取小姐姐圖片（beautifulsoup法）

步驟