Профессиональный web-scrapping невозможен без решения проблемы бана (Например, когда количества запросов к серверу-мишени с одного IP-адреса превышает некий предел...). Очевидно, что сайты рассчитаны на работу с людьми, а шустрые боты только замедляют работу... Очевидно, что этот вопрос надо бы еще продумать. Посмотреть httpd.config и погуглить по "подозрительным настройкам"... "Начальство надо знать в лицо..."
Здесь мы рассмотрим проблему с другой стороны. А именно, рассмотрим оборудование для обмана сервера-мишени.
Очевидно, что идеальной тактикой обмана является имитирование спайдером (он же бот, паук) "человеческого" поведения. Человек скачивает несколько десятков страниц с интервалами времени от нескольких секунд до минут. И если бот может поменять IP адрес сравнительно легко, то вот интервалы запросов увеличивать, тем более - варьировать, дело хлопотное... Так что, получается, что с одного IP отправляются запросы бота до тех пор, пока его не забанят, потом он переключаются на другой IP (прокси)... Прямо скажем, тактика не лучшая..., но пока будем исходить из того, что она основная, но нежелательная (обязательно надо понять, как сервер мишень ловит ботов)... Назовем такую тактику "самоубийственной"
Здесь мы рассмотрим проблему с другой стороны. А именно, рассмотрим оборудование для обмана сервера-мишени.
Очевидно, что идеальной тактикой обмана является имитирование спайдером (он же бот, паук) "человеческого" поведения. Человек скачивает несколько десятков страниц с интервалами времени от нескольких секунд до минут. И если бот может поменять IP адрес сравнительно легко, то вот интервалы запросов увеличивать, тем более - варьировать, дело хлопотное... Так что, получается, что с одного IP отправляются запросы бота до тех пор, пока его не забанят, потом он переключаются на другой IP (прокси)... Прямо скажем, тактика не лучшая..., но пока будем исходить из того, что она основная, но нежелательная (обязательно надо понять, как сервер мишень ловит ботов)... Назовем такую тактику "самоубийственной"
Полагаю, что free online proxy попадают в бан именно из-за сканнеров и спайдеров - самоубийц. Получается, что нам нужно каждые полчаса находить новые прокси-серверы и добалять их в список рабчих прокси-серверов, а "убитые" адреса убирать из списка.
Требования к автомату поиска и проверки прокси серверов.¶
Goblin Proxy - New Proxy Phenomenal Software Will Blow You Away - Bestselling Proxy Scraper Of 2012!
How It Works Software
Gather proxies Scrub & filter Send an email with the proxy list Upload list to FTP Server Send proxies to SENukeX Pause for 10 minutes and repeat till the cows come home!
Core Feature
Over 200 Built In Proxy Sources! Easily Add Custom Proxy Sources Free Access to Premium Pre-Scraped Proxylists! Easily Blacklist Undesirable Proxies like Codeen Find Proxies That Work On Google! Commandline Arguments to Use Startup Run Complex Tasks Absolutely Free Updates For Life Dedicated In-House Support Run By Our Team Of Super Geeks
Automatic features:
Automatically Save Working Proxies To a Text File Or CSV Easily Email Proxies On Auto-Pilot Simple FTP Task Directly Allows You To Save Proxies To Any Server Continuously Test Proxies And The Bad Ones Weed out Use Our Tools And Easily Push Into Various Tools Proxies Advanced Python Users Can Use Or Custom Batch Macros For Absolute Power
Plugin and Integration
SeNukeX scrapebox ScrapeBoard SickSubmitter WpsBox SEO Link Robot And More ...
For more details and get this product please click here : http://goo.gl/NsLW1
How It Works Software
Gather proxies Scrub & filter Send an email with the proxy list Upload list to FTP Server Send proxies to SENukeX Pause for 10 minutes and repeat till the cows come home!
Core Feature
Over 200 Built In Proxy Sources! Easily Add Custom Proxy Sources Free Access to Premium Pre-Scraped Proxylists! Easily Blacklist Undesirable Proxies like Codeen Find Proxies That Work On Google! Commandline Arguments to Use Startup Run Complex Tasks Absolutely Free Updates For Life Dedicated In-House Support Run By Our Team Of Super Geeks
Automatic features:
Automatically Save Working Proxies To a Text File Or CSV Easily Email Proxies On Auto-Pilot Simple FTP Task Directly Allows You To Save Proxies To Any Server Continuously Test Proxies And The Bad Ones Weed out Use Our Tools And Easily Push Into Various Tools Proxies Advanced Python Users Can Use Or Custom Batch Macros For Absolute Power
Plugin and Integration
SeNukeX scrapebox ScrapeBoard SickSubmitter WpsBox SEO Link Robot And More ...
For more details and get this product please click here : http://goo.gl/NsLW1
Python Socket thru Proxy using SocksiPy
An automatic python proxy rotator. (Supports SSL proxies)
Proxy finder - Django project for find and checking public proxies
Proxy Checker maxisoft
Proxy Checker Sinderella - Paste the proxy list in 'proxy.txt' and keep it in the same directory of the script. Run
PyProxy | Proxy Hunter and Tester, A high-level cross-protocol proxy-hunter python library
Посты чуть ниже также могут вас заинтересовать
Python Socket thru Proxy using SocksiPy
ОтветитьУдалитьhttp://technicdynamic.com/?p=904
http://socksipy.sourceforge.net/readme.txt
-это универсальный легкий прокси, он поддерживает и socks и http есть обработка ошибок... ротация списка прокси вроде бы не предусмотрена. Полагаю, его можно использовать в собственных разработках. Пока откладываем в сторону
An automatic python proxy rotator. (Supports SSL proxies)
ОтветитьУдалитьПоказалось, что это то, что надо..., но оказалось, что
A single webpage includes mulitple files: css, images, scripts and so on. This server creates a new request for each and everyone of those objects through a new proxy, making it appear as your request acctually originates for mulitple clients ("omni browsing").
Каждый новый запрос случайным образом забирается через новый прокси из списка, списки тоже проверяются.
И картинка со схемой работы здесь есть.
Но не слишком ли он сложен?
Надо поискать попроще...