摘要:因此我們可以通過腳本,自動(dòng)化地從這些網(wǎng)站上抓取代理并測(cè)試其可用性,最終過濾出一批可用的代理。
做安全測(cè)試時(shí)經(jīng)常需要通過切換IP來探測(cè)或者繞過一些安全防護(hù)策略,有一些網(wǎng)站會(huì)提供免費(fèi)或者付費(fèi)的代理IP,而無論是免費(fèi)還是付費(fèi)的都不能完全保證代理服務(wù)器的可用性,如果一個(gè)個(gè)手動(dòng)嘗試將會(huì)是一件很痛苦的事情。因此我們可以通過腳本,自動(dòng)化地從這些網(wǎng)站上抓取代理IP并測(cè)試其可用性,最終過濾出一批可用的代理IP。
代碼托管在Github
IntroductionProxy Server Crawler is a tool used to crawl public proxy servers from proxy websites. When crawled a proxy server(ip::port::type), it will test the functionality of the server automatically.
Currently supported websites:
http://www.66ip.cn
http://www.cz88.net
http://www.cn-proxy.com
http://www.haodailiip.com
http://www.kuaidaili.com
http://www.proxylists.net
http://www.qiaodm.net
http://www.socks-proxy.net
http://www.xroxy.com
http://www.xicidaili.com
Currently supported testing(for http proxy)
ssl support
post support
speed (tested with 10 frequently used sites)
type(high/anonymous/transparent)
RequirementsPython >= 2.7
Scrapy 1.3.0 (not tested for lower version)
node (for some sites, you need node to bypass waf based on javascript)
Usagecd proxy_server_crawler scrapy crawl chunzhenlog
[ result] ip: 59.41.214.218 , port: 3128 , type: http, proxy server not alive or healthy. [ result] ip: 117.90.6.67 , port: 9000 , type: http, proxy server not alive or healthy. [ result] ip: 117.175.183.10 , port: 8123 , speed: 984 , type: high [ result] ip: 180.95.154.221 , port: 80 , type: http, proxy server not alive or healthy. [ result] ip: 110.73.0.206 , port: 8123 , type: http, proxy server not alive or healthy. [ proxy] ip: 124.88.67.54 , port: 80 , speed: 448 , type: high , post: True , ssl: False [ result] ip: 117.90.2.149 , port: 9000 , type: http, proxy server not alive or healthy. [ result] ip: 115.212.165.170, port: 9000 , type: http, proxy server not alive or healthy. [ proxy] ip: 118.123.22.192 , port: 3128 , speed: 769 , type: high , post: True , ssl: False [ proxy] ip: 117.175.183.10 , port: 8123 , speed: 908 , type: high , post: True , ssl: TrueLicense
The MIT License (MIT)
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/38400.html
摘要:所以你可以直接了解下億牛云代理。最重要的是億牛云的代理每個(gè)業(yè)務(wù)只做一個(gè)客戶,雖然這在一定程度上減少了客戶的使用量,但是這個(gè)就保證了客戶使用代理的效果,客戶獨(dú)享代理和跟其他的客戶共享代理,使用的效果是有很大的差別的。 現(xiàn)如今大數(shù)據(jù)是很火熱的行業(yè),隨著互聯(lián)網(wǎng)的快速發(fā)展,大數(shù)據(jù)在很多方面都是得到應(yīng)用,但是大數(shù)據(jù)信息的獲得需要通過數(shù)據(jù)采集來實(shí)現(xiàn)。而爬蟲工作者在獲取大量數(shù)據(jù)的過程中,ip是一必須...
摘要:本次使用天天基金網(wǎng)進(jìn)行爬蟲,該網(wǎng)站具有反爬機(jī)制,同時(shí)數(shù)量足夠大,多線程效果較為明顯。技術(shù)路線代理池多線程爬蟲與反爬編寫思路首先,開始分析天天基金網(wǎng)的一些數(shù)據(jù)。一旦使用多線程,則需要考慮到數(shù)據(jù)的讀寫順序問題。 @[TOC] 簡(jiǎn)介 提到爬蟲,大部分人都會(huì)想到使用Scrapy工具,但是僅僅停留在會(huì)使用的階段。為了增加對(duì)爬蟲機(jī)制的理解,我們可以手動(dòng)實(shí)現(xiàn)多線程的爬蟲過程,同時(shí),引入IP代理池進(jìn)行...
摘要:近來知乎上如雨后春筍般冒出了大把大把的爬蟲教程。一個(gè)爬蟲教程的案例三個(gè)月之后還能有效已經(jīng)是萬幸了。不過仍然要說明,即使經(jīng)過多次驗(yàn)證,也無法保證一個(gè)的絕對(duì)可用性。這是個(gè)概率問題,工具的作用只是盡可能提高概率。 近來知乎上如雨后春筍般冒出了大把大把的爬蟲教程。這是好事,學(xué)了 Python 基礎(chǔ)的同學(xué)們可以很輕松地搜出許多練手的例子。不過我不是針對(duì)誰,我是說網(wǎng)上絕大多數(shù)的爬蟲教程,其實(shí)都缺乏...
摘要:降低的結(jié)果可能有三個(gè)隨著數(shù)據(jù)量的增大的性能受到了一定的影響知乎校驗(yàn)器在把中的代理消費(fèi)完之后,由于是定時(shí)任務(wù),所以導(dǎo)致某段時(shí)間內(nèi)新鮮的空缺。 歷時(shí)大致兩個(gè)月,到現(xiàn)在終于完成了分布式代理抓取爬蟲,目前開源在了Github上。寫這個(gè)項(xiàng)目的原因主要有兩點(diǎn),一是自己平時(shí)的部分工作需要和爬蟲打交道,代理IP在有的時(shí)候可以發(fā)揮非常重要的作用,調(diào)研過一些開源的代理IP采集程序,發(fā)現(xiàn)在抓取、解析、校驗(yàn)、...
摘要:使用中間件本次的測(cè)試站點(diǎn)依舊使用,通過訪問可以獲取當(dāng)前請(qǐng)求的地址。中間件默認(rèn)是開啟的,可以查看其源碼重點(diǎn)為方法。修改代理的方式非常簡(jiǎn)單,只需要在請(qǐng)求創(chuàng)建的時(shí)候,增加參數(shù)即可。接下來將可用的代理保存到文件中。同步修改文件中的代碼。 ...
閱讀 3428·2021-10-20 13:49
閱讀 2803·2021-09-29 09:34
閱讀 3700·2021-09-01 11:29
閱讀 3087·2019-08-30 11:01
閱讀 844·2019-08-29 17:10
閱讀 883·2019-08-29 12:48
閱讀 2786·2019-08-29 12:40
閱讀 1358·2019-08-29 12:30