新聞中心
小編給大家分享一下面對(duì)python反爬蟲怎么進(jìn)行ip切換,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!
調(diào)試開多少個(gè)線程,多長(zhǎng)時(shí)間撥號(hào)切換IP一次最優(yōu)。每個(gè)網(wǎng)站對(duì)短時(shí)間內(nèi)訪問次數(shù)的屏蔽策略不一樣,這需要實(shí)際測(cè)試,找出抓取效率較大化的時(shí)間點(diǎn)。先開一個(gè)線程,一直抓取到IP被屏蔽,記錄下抓取耗時(shí),總抓取次數(shù),和成功抓取次數(shù)。 再開2個(gè)線程,重復(fù)上面步驟,記錄抓取耗時(shí),總的和成功的抓取次數(shù)。再開4個(gè)線程,重復(fù)上面步驟。整理成一個(gè)表格如下,下圖是我抓天眼查時(shí),統(tǒng)計(jì)抓取極限和細(xì)節(jié)調(diào)優(yōu)的表格
從上圖比較可以看出,當(dāng)有6個(gè)線程時(shí),是比較好的情況。耗時(shí)6秒,成功抓取80-110次。
開多少個(gè)線程調(diào)試出來(lái)了,那多久撥號(hào)一次呢?
從上面的圖片看到,貌似每隔6秒撥號(hào)是一個(gè)不錯(cuò)的選擇。可以這樣做,但是我選了另一個(gè)度量單位,就是每總抓取120次就重新?lián)芴?hào)。為什么這樣選呢?從上圖也能看到,基本抓到120次左右就會(huì)被屏蔽,每隔6秒撥號(hào)其實(shí)誤差比較大,因?yàn)榫W(wǎng)絡(luò)延遲等各種問題,導(dǎo)致6秒內(nèi)可能抓100次,也可能抓120次。
看完了這篇文章,相信你對(duì)面對(duì)python反爬蟲怎么進(jìn)行ip切換有了一定的了解,想了解更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!
網(wǎng)站欄目:面對(duì)python反爬蟲怎么進(jìn)行ip切換-創(chuàng)新互聯(lián)
分享路徑:http://www.ef60e0e.cn/article/doigcp.html