Поиск по блогу

Показаны сообщения с ярлыком middleware. Показать все сообщения
Показаны сообщения с ярлыком middleware. Показать все сообщения

воскресенье, 16 ноября 2014 г.

Попробовал Scrapy HTTPCACHE middleware. Понравилось

Включается FHTTPCACHE_ENABLED, два режима (политики) кэширования, три вида хранилищ, возможность управлять кэшированием для (схем) типов файлов, протоколов ответов серверов, задавать время перезагрузки кэша ...

понедельник, 3 ноября 2014 г.

Как я учился, чтобы исправить свои дурацкие ошибки... и совершал новые при отладке в пауке XMLFeed...

В пауке XMLFeed... решил поробовать создать новый столбец из свежеспарсенного словаря списков... Пишем файл pipeline.py в котором фильтруем записи о серверах по времени, типу прокси и стране. Потом записываем результат в виде строк "http://777.77.77.77:8080" в текстовый файл. В процессе работы выскакивают ошибки, я быстро ликивидирую безграмотность перечитывая и конспектируя книгу Лутца. Сроки поджимают, стоит ли продолжать ликбез? Насколько он необходим?

среда, 22 октября 2014 г.

Исправляем код "Random proxy middleware for Scrapy" и открываем способ поиска в форках

Здесь в качестве упражнения разбираем хрестоматийный пример Random proxy middleware for Scrapy и находим ошибки в устаревшем коде. Результат - рабочий код... и и десяток ссылок для его рефаеторинга. Сложный поиск на GitHub не нашел в форках ... того, что удалось найти по запросу process_exception(self, request, exception, spider) proxy

понедельник, 20 октября 2014 г.

Читаем статью "Проксирование в Scrapy" ... и знакомимся с middleware из проекта "tutorial"

Здесмь я якобы систематизирую мои представления о Scrapy middleware. Читать документацию - дело утомительное. Мне удалось найти короткие статьи на русском, в которых дается три рецепта: 1) http_proxy, 2) Spider settings 3) download middlewatr

вторник, 15 июля 2014 г.

Пример замены scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware

В предыдущем посте мы поняли, как задаются методы класса Settings. В этом мы откроем, что можно обращаться с объектом, как со списком settings['USER_AGENT']... Прочитаем, как меняются дефолтные настройки DEFAULT_REQUEST_HEADERS, DOWNLOADER_MIDDLEWARES_BASE, перейдем к middleware..., и в конце скопипастим код из статьи Using random user agent in Scrapy.

пятница, 23 мая 2014 г.

RetryChangeProxyMiddleware... Можно переключать IP в Tor с помощью Python telnetlib

Здесь небольшой фрагмент кода для смены IP на основании данных ответа в Telnet. Автор вопроса использовал платный Proxy Mesh. Ему подали идею создавать новые запросы через Tor с помощью "переговоров" с Telnet... Идея понравилась, надо пробовать...
Идея о таком переключении "instance" в Tor понравилась, но была не очень понятна. Некоторое прояснение наступило после того, как прочитал в документации Scrapy о telnet console...

понедельник, 21 апреля 2014 г.

Изучаем документацию к Scrapy, структуру папок и файлов на примере сакраментального паука 'dmoz' (dirboot)

Вчера я спозаранку решил просто "дочитать" документацию к Scrapy. Здесь хочу остановиться на двух "открытиях", которые помогли мне почувствовать, что я что-то понимаю. Первое - архитектура Scrapy engine, второе - структура папок проектов. Все файлы из папок собраны здесь.