如何理解Scrapy關(guān)于itempipeline的傳遞方法-創(chuàng)新互聯(lián)-四川平武建站

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

如何理解Scrapy關(guān)于itempipeline的傳遞方法-創(chuàng)新互聯(lián)

這篇文章主要介紹“如何理解Scrapy關(guān)于item pipeline的傳遞方法”，在日常操作中，相信很多人在如何理解Scrapy關(guān)于item pipeline的傳遞方法問題上存在疑惑，小編查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”如何理解Scrapy關(guān)于item pipeline的傳遞方法”的疑惑有所幫助！接下來，請跟著小編一起來學(xué)習(xí)吧！

十余年的鹿城網(wǎng)站建設(shè)經(jīng)驗，針對設(shè)計、前端、開發(fā)、售后、文案、推廣等六對一服務(wù)，響應(yīng)快，48小時及時工作處理。營銷型網(wǎng)站的優(yōu)勢是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同，自動調(diào)整鹿城建站的顯示方式，使網(wǎng)站能夠適用不同顯示終端，在瀏覽器中調(diào)整網(wǎng)站的寬度，無論在任何一種瀏覽器上瀏覽網(wǎng)站，都能展現(xiàn)優(yōu)雅布局與設(shè)計，從而大程度地提升瀏覽體驗。創(chuàng)新互聯(lián)從事“鹿城網(wǎng)站設(shè)計”,“鹿城網(wǎng)站推廣”以來，每個客戶項目都認(rèn)真落實執(zhí)行。

當(dāng)Item在Spider中被收集之后，它將會被傳遞到Item Pipeline，這些Item Pipeline組件按定義的順序處理Item。

每個Item Pipeline都是實現(xiàn)了簡單方法的Python類，比如決定此Item是丟棄而存儲。以下是item pipeline的一些典型應(yīng)用：

驗證爬取的數(shù)據(jù)(檢查item包含某些字段，比如說name字段)
查重(并丟棄)
將爬取結(jié)果保存到文件或者數(shù)據(jù)庫中

編寫item pipeline

編寫item pipeline很簡單，item pipiline組件是一個獨立的Python類，其中process_item()方法必須實現(xiàn):

import somethingclass SomethingPipeline(object): def __init__(self): # 可選實現(xiàn)，做參數(shù)初始化等 # doing something def process_item(self, item, spider): # item (Item 對象) – 被爬取的item # spider (Spider 對象) – 爬取該item的spider # 這個方法必須實現(xiàn)，每個item pipeline組件都需要調(diào)用該方法， # 這個方法必須返回一個 Item 對象，被丟棄的item將不會被之后的pipeline組件所處理。 return item def open_spider(self, spider): # spider (Spider 對象) – 被開啟的spider # 可選實現(xiàn)，當(dāng)spider被開啟時，這個方法被調(diào)用。 def close_spider(self, spider): # spider (Spider 對象) – 被關(guān)閉的spider # 可選實現(xiàn)，當(dāng)spider被關(guān)閉時，這個方法被調(diào)用

啟用一個Item Pipeline組件

為了啟用Item Pipeline組件，必須將它的類添加到 settings.py文件ITEM_PIPELINES 配置，就像下面這個例子:

# Configure item pipelines# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.htmlITEM_PIPELINES = { #'mySpider.pipelines.SomePipeline': 300, "mySpider.pipelines.ItcastJsonPipeline":300}

分配給每個類的整型值，確定了他們運行的順序，item按數(shù)字從低到高的順序，通過pipeline，通常將這些數(shù)字定義在0-1000范圍內(nèi)（0-1000隨意設(shè)置，數(shù)值越低，組件的優(yōu)先級越高）

重新啟動爬蟲

將parse()方法改為入門簡介中最后思考中的代碼，然后執(zhí)行下面的命令：

scrapy crawl itcast

查看當(dāng)前目錄是否生成teacher.json

到此，關(guān)于“如何理解Scrapy關(guān)于item pipeline的傳遞方法”的學(xué)習(xí)就結(jié)束了，希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學(xué)習(xí)，快去試試吧！若想繼續(xù)學(xué)習(xí)更多相關(guān)知識，請繼續(xù)關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司網(wǎng)站，小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>
新聞標(biāo)題：如何理解Scrapy關(guān)于itempipeline的傳遞方法-創(chuàng)新互聯(lián)
分享URL：http://www.ef60e0e.cn/article/dsjcds.html

99热在线精品一区二区三区_国产伦精品一区二区三区女破破_亚洲一区二区三区无码_精品国产欧美日韩另类一区

新聞中心

編寫item pipeline

啟用一個Item Pipeline組件

重新啟動爬蟲

其他資訊