如果你注意到你獲取的信息內容與目標網站屏幕上顯示的正常信息不同,換句話說,你抓取的信息是空白的,那么很有可能你抓取的網站的程序在創建網頁時出現了問題。如果爬行頻率超過目標在線平臺的限制閾值,將被禁止進入。一般來說,IP是網站防rip機制的基礎。當我們瀏覽網站時,我們的IP地址會被記錄下來,服務器會把你當成爬蟲程序。所以頻繁的抓取會使現有的IP地址無法使用,我們必須想辦法改變自己設備的IP地址或者現有的爬蟲程序。
因此,網絡爬蟲開發者一般需要采用兩種技術手段來處理這類問題。
1、用世界數據動態撥打vps服務器設置代理IP,克服反爬蟲系統進行高頻抓取,因此需要多個穩定的代理IPS。基于ADSL撥號的常見解決方案。一般在爬行過程中禁止訪問時,可以再次進行ADSL撥號,獲取新的IP,這樣爬行就可以繼續了。但是多站點多線程抓取時,如果禁止某個網站的抓取,也會對其他網站的抓取造成危害,總體上也會降低獲取速度。
2、放慢抓取速度,這樣對目標網站的壓力會相對減小,但這樣做,單位時間的抓取量會相對減小。
另一種可能的解決方案也是基于ADSL撥號。不同的是,需要兩個能夠ADSL撥號的動態撥號VPS,這兩個服務器在抓取過程中作為代理。假設有兩臺服務器,A和B,可以撥打ADSL。爬蟲運行在C服務器上,使用A作為代理訪問外部網絡。如果在爬行過程中禁止訪問,代理立即切換到B,然后A被重撥。如果再次禁止訪問,則切換到A作為代理,B再次撥號,以此類推。
在實際的爬行過程中,仍然有許多問題需要我們根據實際情況進行分析和解決。在很大程度上,爬蟲爬行是一項麻煩和困難的工作,因此已經開發了許多軟件來解決爬蟲程序的各種問題。有不懂的請咨詢夢飛云idc了解。