Поиск по блогу

Показаны сообщения с ярлыком shell. Показать все сообщения
Показаны сообщения с ярлыком shell. Показать все сообщения

суббота, 1 ноября 2014 г.

Сначала надо получить список атрибутов dir(), а потом вытащить строки в тройных кавычках при помощи help()

Сначала командой dir() распечатываем список атрибутов объектов. Потом функцией help(), или .__doc__ вытаскиваем строки комментариев из атрибута (или) объекта. Help() - это обертка __doc__? Следует помнить также, что функция help может извлекать информацию не только из встроенных, но и из любых других модулей (в том числе - моих).

Кроме того, обычно отдельно online поставляется подробная документация в HTML формате - это документация, которую мы читаем обычно на сайте (но устаревшая). Еу не надо путать с PyDoc - это всего-лишь HTML примочка для чтения .doc

понедельник, 11 августа 2014 г.

Как работать в Scrapy shell через прокси. Поски привели к request.meta Последующие эксперименты с TOR озадачили

Объект shell request - обертка для реклизации класса Request. Пример работы с объектом из оболочки здесь Problem logging into Facebook with Scrapy, а в этом посте мои эксперименты с request response, settings... Пост кончается тем, что я соединился с проверочным сервисом TOR (через Privoxy - TOR), а он мне сказал SORRY...

пятница, 8 августа 2014 г.

Понял, как подменять user-agent Scrapy shell...

Как менять параметры запроса в Scrapy shell? При запуске shell можно менять константы (объекта) settings, а при работе из запущенной оболочки shell можно менять параметры (словаря) объекта запроса response в команде fetch(myresponse). В первом случае надо найти в документации, как пишется -s USER_AGENT, а во втором распечатать словарь объекта request.headers { ... 'User-Agent': 'Scrapy/0.20.1 (+http://scrapy.org)'}

вторник, 15 июля 2014 г.

Продолжаем осваивать Scrapy shell - пытаемся понять и запомнить то, что выскакивает после .TAB в консоли iPython

Здесь мы учимся работать с консолью. Сначала на примере dirbot (scrapy shell "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/") смотрим на объекты request, response, settings... распечатываем объекты типа settings.overrides или spider.settings.overrides. Потом находим паку settings и распечатываем init.py в котором и задаются все методы класса Settings.