iPython R Rapid Miner: middleware

Показаны сообщения с ярлыком middleware. Показать все сообщения

воскресенье, 16 ноября 2014 г.

Попробовал Scrapy HTTPCACHE middleware. Понравилось

Включается FHTTPCACHE_ENABLED, два режима (политики) кэширования, три вида хранилищ, возможность управлять кэшированием для (схем) типов файлов, протоколов ответов серверов, задавать время перезагрузки кэша ...

Дальше »

понедельник, 3 ноября 2014 г.

Как я учился, чтобы исправить свои дурацкие ошибки... и совершал новые при отладке в пауке XMLFeed...

В пауке XMLFeed... решил поробовать создать новый столбец из свежеспарсенного словаря списков... Пишем файл pipeline.py в котором фильтруем записи о серверах по времени, типу прокси и стране. Потом записываем результат в виде строк "http://777.77.77.77:8080" в текстовый файл. В процессе работы выскакивают ошибки, я быстро ликивидирую безграмотность перечитывая и конспектируя книгу Лутца. Сроки поджимают, стоит ли продолжать ликбез? Насколько он необходим?

Дальше »

среда, 22 октября 2014 г.

Исправляем код "Random proxy middleware for Scrapy" и открываем способ поиска в форках

Здесь в качестве упражнения разбираем хрестоматийный пример Random proxy middleware for Scrapy и находим ошибки в устаревшем коде. Результат - рабочий код... и и десяток ссылок для его рефаеторинга. Сложный поиск на GitHub не нашел в форках ... того, что удалось найти по запросу process_exception(self, request, exception, spider) proxy

Дальше »

понедельник, 20 октября 2014 г.

Читаем статью "Проксирование в Scrapy" ... и знакомимся с middleware из проекта "tutorial"

Здесмь я якобы систематизирую мои представления о Scrapy middleware. Читать документацию - дело утомительное. Мне удалось найти короткие статьи на русском, в которых дается три рецепта: 1) http_proxy, 2) Spider settings 3) download middlewatr

Дальше »

вторник, 15 июля 2014 г.

Пример замены scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware

В предыдущем посте мы поняли, как задаются методы класса Settings. В этом мы откроем, что можно обращаться с объектом, как со списком settings['USER_AGENT']... Прочитаем, как меняются дефолтные настройки DEFAULT_REQUEST_HEADERS, DOWNLOADER_MIDDLEWARES_BASE, перейдем к middleware..., и в конце скопипастим код из статьи Using random user agent in Scrapy.

Дальше »

пятница, 23 мая 2014 г.

RetryChangeProxyMiddleware... Можно переключать IP в Tor с помощью Python telnetlib

Здесь небольшой фрагмент кода для смены IP на основании данных ответа в Telnet. Автор вопроса использовал платный Proxy Mesh. Ему подали идею создавать новые запросы через Tor с помощью "переговоров" с Telnet... Идея понравилась, надо пробовать...

Идея о таком переключении "instance" в Tor понравилась, но была не очень понятна. Некоторое прояснение наступило после того, как прочитал в документации Scrapy о telnet console...

Дальше »

понедельник, 21 апреля 2014 г.

Изучаем документацию к Scrapy, структуру папок и файлов на примере сакраментального паука 'dmoz' (dirboot)

Вчера я спозаранку решил просто "дочитать" документацию к Scrapy. Здесь хочу остановиться на двух "открытиях", которые помогли мне почувствовать, что я что-то понимаю. Первое - архитектура Scrapy engine, второе - структура папок проектов. Все файлы из папок собраны здесь.

Дальше »

iPython R Rapid Miner

Поиск по блогу

Страницы

воскресенье, 16 ноября 2014 г.

Попробовал Scrapy HTTPCACHE middleware. Понравилось

понедельник, 3 ноября 2014 г.

Как я учился, чтобы исправить свои дурацкие ошибки... и совершал новые при отладке в пауке XMLFeed...

среда, 22 октября 2014 г.

Исправляем код "Random proxy middleware for Scrapy" и открываем способ поиска в форках

понедельник, 20 октября 2014 г.

Читаем статью "Проксирование в Scrapy" ... и знакомимся с middleware из проекта "tutorial"

вторник, 15 июля 2014 г.

Пример замены scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware

пятница, 23 мая 2014 г.

RetryChangeProxyMiddleware... Можно переключать IP в Tor с помощью Python telnetlib

понедельник, 21 апреля 2014 г.

Изучаем документацию к Scrapy, структуру папок и файлов на примере сакраментального паука 'dmoz' (dirboot)

Архив блога

Поиск по блогу

Страницы

воскресенье, 16 ноября 2014 г.

понедельник, 3 ноября 2014 г.

среда, 22 октября 2014 г.

понедельник, 20 октября 2014 г.

вторник, 15 июля 2014 г.

пятница, 23 мая 2014 г.

понедельник, 21 апреля 2014 г.

Архив блога

воскресенье, 16 ноября 2014 г.

понедельник, 3 ноября 2014 г.

среда, 22 октября 2014 г.

понедельник, 20 октября 2014 г.

вторник, 15 июля 2014 г.

пятница, 23 мая 2014 г.

понедельник, 21 апреля 2014 г.