Поиск по блогу

среда, 2 апреля 2014 г.

Как работать с Polipo ... или кэширующий прокси (one thread) для единоличника.

С одной стороны, мой пытливый ум, пытаясь упорядочить информацию обо всех этих сокетах и списках прокси пытается вербализировать плохопонимаемое: "... вращать списки прокси-анонимайзеров посредством собственного локального сервера".
С другой стороны, я нахожу, наконец, описание настройки связки "Scrapy-Polipo-Tor"... и решаю, что мозгу, таки, нужна четкая модель этих процессов.

Пытаюсь сформулировать, "чё мне надо?"

Конкретная задача - работа со списком прокси, список надо ротировать... Есть скрипты Python, которые это делают, но в разных библиотеках свои подходы и классы... В этом коде можно утонуть... Хотелось бы найти универсальное решение... Альтернатива спискам прокси - использовать TOR... очевидно, что надо пробовать и то и другое... прочитал, что TOR медленне, и для работы со списками нашел все, что хотел..., в любом случае, без понимание процессов взаимодействия с прокси я не разгребу этот код... и Tor тоже не настрою...

Итак, знакомимся с Polipo

Github - это репозиторий polipo Polipo — a caching web proxy - это страничка проекта, вся основная информация здесь
nstalling an easy HTTP proxy-cache (polipo) - статья с кратким описанием установки... Я ее прочитал первой,
А следующие две ссылки - это пример использования Polipo (Эту тему я разбираю в другом посте) Scrapy: Run Using TOR and Multiple Agents Scrapy: Run Using TOR and Multiple Agents Part 2 gitweb.torproject.org TOR polipo.conf - файл конфигурации в репозитории TOR Make Scrapy work with socket proxy - здесь инструкция по подключению polipo или privoxy
Установка и настройка очень просты, в этом видео все хорошо показано (уставновка под Debian ...apt-get)
Сколько часов я потратил на изучение конфигурационного файла Apache... А здесь все проще polipo/conf... Поищем примеры файлов в сети... Tor project Apache Traffic Server The parent.config file identifies the parent proxies used in an cache hierarchy

What Is Apache Traffic Server?

Global data networking has become part of everyday life: Internet users request billions of documents and terabytes of data, on a daily basis, to and from all parts of the world. Information is free, abundant, and accessible. Unfortunately, global data networking can also be a nightmare for IT professionals as they struggle with overloaded servers and congested networks. It can be challenging to consistently and reliably accommodate society’s growing data demands.
Traffic Server is a high-performance web proxy cache that improves network efficiency and performance by caching frequently-accessed information at the edge of the network. This brings content physically closer to end users, while enabling faster delivery and reduced bandwidth use. Traffic Server is designed to improve content delivery for enterprises, Internet service providers (ISPs), backbone providers, and large intranets by maximizing existing and available bandwidth.

Первые "открытия"

Просмотр ролика помог, но "понимание" стало приходить после промотра конфигурационного файла (ссылка есть выше), сразу вспомнился Apache..., нашел команду"parent proxy"...
Подключится к "родительскому прокси" проще простого, можно выстроить proxy chain...
Apache у меня стоит под windows... захотелось его задействовать...
Однако, в процессе поиска наткнулся на курс из пяти статей "Achieving Anonymity with Tor" думаю, надо сначала изучить эти материалы...


Посты чуть ниже также могут вас заинтересовать

Комментариев нет:

Отправить комментарий