国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

通過爬蟲快速獲取可用代理IP

BearyChat / 1901人閱讀

摘要:因此我們可以通過腳本,自動(dòng)化地從這些網(wǎng)站上抓取代理并測(cè)試其可用性,最終過濾出一批可用的代理。

做安全測(cè)試時(shí)經(jīng)常需要通過切換IP來探測(cè)或者繞過一些安全防護(hù)策略,有一些網(wǎng)站會(huì)提供免費(fèi)或者付費(fèi)的代理IP,而無論是免費(fèi)還是付費(fèi)的都不能完全保證代理服務(wù)器的可用性,如果一個(gè)個(gè)手動(dòng)嘗試將會(huì)是一件很痛苦的事情。因此我們可以通過腳本,自動(dòng)化地從這些網(wǎng)站上抓取代理IP并測(cè)試其可用性,最終過濾出一批可用的代理IP。

代碼托管在Github

Introduction

Proxy Server Crawler is a tool used to crawl public proxy servers from proxy websites. When crawled a proxy server(ip::port::type), it will test the functionality of the server automatically.

Currently supported websites:

http://www.66ip.cn

http://www.cz88.net

http://www.cn-proxy.com

http://www.haodailiip.com

http://www.kuaidaili.com

http://www.proxylists.net

http://www.qiaodm.net

http://www.socks-proxy.net

http://www.xroxy.com

http://www.xicidaili.com

Currently supported testing(for http proxy)

ssl support

post support

speed (tested with 10 frequently used sites)

type(high/anonymous/transparent)

Requirements

Python >= 2.7

Scrapy 1.3.0 (not tested for lower version)

node (for some sites, you need node to bypass waf based on javascript)

Usage
cd proxy_server_crawler
scrapy crawl chunzhen
log
[ result] ip: 59.41.214.218  , port: 3128 , type: http, proxy server not alive or healthy.
[ result] ip: 117.90.6.67    , port: 9000 , type: http, proxy server not alive or healthy.
[ result] ip: 117.175.183.10 , port: 8123 , speed: 984 , type: high
[ result] ip: 180.95.154.221 , port: 80   , type: http, proxy server not alive or healthy.
[ result] ip: 110.73.0.206   , port: 8123 , type: http, proxy server not alive or healthy.
[  proxy] ip: 124.88.67.54   , port: 80   , speed: 448 , type: high       , post: True , ssl: False
[ result] ip: 117.90.2.149   , port: 9000 , type: http, proxy server not alive or healthy.
[ result] ip: 115.212.165.170, port: 9000 , type: http, proxy server not alive or healthy.
[  proxy] ip: 118.123.22.192 , port: 3128 , speed: 769 , type: high       , post: True , ssl: False
[  proxy] ip: 117.175.183.10 , port: 8123 , speed: 908 , type: high       , post: True , ssl: True 
License

The MIT License (MIT)

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/38400.html

相關(guān)文章

  • 網(wǎng)絡(luò)大數(shù)據(jù)爬蟲為什么要使用IP代理,代理IP的特點(diǎn)是什么?

    摘要:所以你可以直接了解下億牛云代理。最重要的是億牛云的代理每個(gè)業(yè)務(wù)只做一個(gè)客戶,雖然這在一定程度上減少了客戶的使用量,但是這個(gè)就保證了客戶使用代理的效果,客戶獨(dú)享代理和跟其他的客戶共享代理,使用的效果是有很大的差別的。 現(xiàn)如今大數(shù)據(jù)是很火熱的行業(yè),隨著互聯(lián)網(wǎng)的快速發(fā)展,大數(shù)據(jù)在很多方面都是得到應(yīng)用,但是大數(shù)據(jù)信息的獲得需要通過數(shù)據(jù)采集來實(shí)現(xiàn)。而爬蟲工作者在獲取大量數(shù)據(jù)的過程中,ip是一必須...

    cocopeak 評(píng)論0 收藏0
  • 多線程+代理池爬取天天基金網(wǎng)、股票數(shù)據(jù)(無需使用爬蟲框架)

    摘要:本次使用天天基金網(wǎng)進(jìn)行爬蟲,該網(wǎng)站具有反爬機(jī)制,同時(shí)數(shù)量足夠大,多線程效果較為明顯。技術(shù)路線代理池多線程爬蟲與反爬編寫思路首先,開始分析天天基金網(wǎng)的一些數(shù)據(jù)。一旦使用多線程,則需要考慮到數(shù)據(jù)的讀寫順序問題。 @[TOC] 簡(jiǎn)介 提到爬蟲,大部分人都會(huì)想到使用Scrapy工具,但是僅僅停留在會(huì)使用的階段。為了增加對(duì)爬蟲機(jī)制的理解,我們可以手動(dòng)實(shí)現(xiàn)多線程的爬蟲過程,同時(shí),引入IP代理池進(jìn)行...

    jaysun 評(píng)論0 收藏0
  • 聽說你好不容易寫了個(gè)爬蟲,結(jié)果沒抓幾個(gè)就被封了?(附工具)

    摘要:近來知乎上如雨后春筍般冒出了大把大把的爬蟲教程。一個(gè)爬蟲教程的案例三個(gè)月之后還能有效已經(jīng)是萬幸了。不過仍然要說明,即使經(jīng)過多次驗(yàn)證,也無法保證一個(gè)的絕對(duì)可用性。這是個(gè)概率問題,工具的作用只是盡可能提高概率。 近來知乎上如雨后春筍般冒出了大把大把的爬蟲教程。這是好事,學(xué)了 Python 基礎(chǔ)的同學(xué)們可以很輕松地搜出許多練手的例子。不過我不是針對(duì)誰,我是說網(wǎng)上絕大多數(shù)的爬蟲教程,其實(shí)都缺乏...

    Pluser 評(píng)論0 收藏0
  • 分布式代理爬蟲:架構(gòu)篇

    摘要:降低的結(jié)果可能有三個(gè)隨著數(shù)據(jù)量的增大的性能受到了一定的影響知乎校驗(yàn)器在把中的代理消費(fèi)完之后,由于是定時(shí)任務(wù),所以導(dǎo)致某段時(shí)間內(nèi)新鮮的空缺。 歷時(shí)大致兩個(gè)月,到現(xiàn)在終于完成了分布式代理抓取爬蟲,目前開源在了Github上。寫這個(gè)項(xiàng)目的原因主要有兩點(diǎn),一是自己平時(shí)的部分工作需要和爬蟲打交道,代理IP在有的時(shí)候可以發(fā)揮非常重要的作用,調(diào)研過一些開源的代理IP采集程序,發(fā)現(xiàn)在抓取、解析、校驗(yàn)、...

    qujian 評(píng)論0 收藏0
  • python scrapy 代理中間件,爬蟲必掌握的內(nèi)容之一

    摘要:使用中間件本次的測(cè)試站點(diǎn)依舊使用,通過訪問可以獲取當(dāng)前請(qǐng)求的地址。中間件默認(rèn)是開啟的,可以查看其源碼重點(diǎn)為方法。修改代理的方式非常簡(jiǎn)單,只需要在請(qǐng)求創(chuàng)建的時(shí)候,增加參數(shù)即可。接下來將可用的代理保存到文件中。同步修改文件中的代碼。 ...

    binta 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<