婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > python3 scrapy框架的執行流程

python3 scrapy框架的執行流程

熱門標簽:外賣地址有什么地圖標注 企業彩鈴地圖標注 預覽式外呼系統 長春極信防封電銷卡批發 煙臺電話外呼營銷系統 銀川電話機器人電話 上海正規的外呼系統最新報價 如何地圖標注公司 電銷機器人錄音要學習什么

scrapy框架概述:Scrapy,Python開發的一個快速,高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結構化的數據。Scrapy用途廣泛,可以用于數據挖掘、監測和自動化測試。

創建項目

由于pycharm不能直接創建scrapy項目,必須通過命令行創建,所以相關操作在pycharm的終端進行:
1、安裝scrapy模塊:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy
2、創建一個scrapy項目:scrapy startproject test_scrapy
4、生成一個爬蟲:scrapy genspider itcast "itcast.cn”
5、提取數據:完善spider,使用xpath等方法
6、保存數據:pipeline中保存數據

常用的命令

創建項目:scrapy startproject xxx
進入項目:cd xxx #進入某個文件夾下
創建爬蟲:scrapy genspider xxx(爬蟲名) xxx.com (爬取域)
生成文件:scrapy crawl xxx -o xxx.json (生成某種類型的文件)
運行爬蟲:scrapy crawl XXX
列出所有爬蟲:scrapy list
獲得配置信息:scrapy settings [options]

Scrapy項目下文件

scrapy.cfg: 項目的配置文件
test_scrapy/: 該項目的python模塊。在此放入代碼(核心)
test_scrapy/items.py: 項目中的item文件.(這是創建容器的地方,爬取的信息分別放到不同容器里)
test_scrapy/pipelines.py: 項目中的pipelines文件.
test_scrapy/settings.py: 項目的設置文件.(我用到的設置一下基礎參數,比如加個文件頭,設置一個編碼)
test_scrapy/spiders/: 放置spider代碼的目錄. (放爬蟲的地方)

scrapy框架的整體執行流程

1.spider的yeild將request發送給engine
2.engine對request不做任何處理發送給scheduler
3.scheduler,生成request交給engine
4.engine拿到request,通過middleware發送給downloader
5.downloader在\獲取到response之后,又經過middleware發送給engine
6.engine獲取到response之后,返回給spider,spider的parse()方法對獲取到的response進行處理,解析出items或者requests
7.將解析出來的items或者requests發送給engine
8.engine獲取到items或者requests,將items發送給ItemPipeline,將requests發送給scheduler(ps,只有調度器中不存在request時,程序才停止,及時請求失敗scrapy也會重新進行請求)

關于yeild函數介紹

簡單地講,yield 的作用就是把一個函數變成一個 generator(生成器),帶有 yield 的函數不再是一個普通函數,Python 解釋器會將其視為一個 generator,帶有yeild的函數遇到yeild的時候就返回一個迭代值,下次迭代時, 代碼從 yield 的下一條語句繼續執行,而函數的本地變量看起來和上次中斷執行前是完全一樣的,于是函數繼續執行, 直到再次遇到 yield。

通俗的講就是:在一個函數中,程序執行到yield語句的時候,程序暫停,返回yield后面表達式的值,在下一次調用的時候,從yield語句暫停的地方繼續執行,如此循環,直到函數執行完。

到此這篇關于python3 scrapy框架的執行流程的文章就介紹到這了,更多相關python3 scrapy框架內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • python3 Scrapy爬蟲框架ip代理配置的方法
  • Python3環境安裝Scrapy爬蟲框架過程及常見錯誤
  • Python3爬蟲爬取英雄聯盟高清桌面壁紙功能示例【基于Scrapy框架】
  • Centos7 Python3下安裝scrapy的詳細步驟
  • python3使用scrapy生成csv文件代碼示例
  • Python3安裝Scrapy的方法步驟
  • CentOS下安裝python3.5+scrapy的方法步驟
  • windows10系統中安裝python3.x+scrapy教程

標簽:西寧 湖北 盤錦 潮州 佳木斯 宜昌 上饒 珠海

巨人網絡通訊聲明:本文標題《python3 scrapy框架的執行流程》,本文關鍵詞  python3,scrapy,框架,的,執行,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python3 scrapy框架的執行流程》相關的同類信息!
  • 本頁收集關于python3 scrapy框架的執行流程的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 黑龙江省| 南郑县| 峨眉山市| 长宁区| 玉溪市| 黑水县| 德钦县| 冷水江市| 彭州市| 石楼县| 滨州市| 远安县| 天全县| 临湘市| 新巴尔虎右旗| 哈密市| 泽库县| 湖南省| 无为县| 乐业县| 彩票| 阳曲县| 瑞金市| 驻马店市| 永泰县| 东至县| 三台县| 尼勒克县| 漠河县| 宝坻区| 洛川县| 泰顺县| 沐川县| 霍山县| 承德市| 兴山县| 同江市| 罗江县| 余干县| 广西| 土默特右旗|