Поиск по блогу

вторник, 29 апреля 2014 г.

Распечатаем справку и переменные среды из sys.path и Windows 8 (PATH, SET, SYSTEMINFO)

Процедура формирования переменных окружения Python - это песня акына на английском языке (os.py). Сначала я нашел (и скопировал сюда) все способы работы с переменными окружения Windows, а потом прочитал про то, что вытворяет Python, но начинать читаь лучше с "how sys.path is populated on Windows"... А примеры решений в ссылке "How to add to the pythonpath in windows 7?"

Мои попытки разобрать стек вызовов гибрида scrapy crawl dmoz (dmoz + randomproxy) вылились в упражнение с дебаггером

Здесь мы вставляем в разные модули "import pdb; pdb.set_trace()" и учимся разбирать чужой код. Конечно, хорошо бы проникнуть в замыслы автора, или, хотя бы, понять структуру папок... Но пока легко удается при помощи "where" только находить и просматривать модули стека. Но, чтобы понять принципы работы программы, логику...
Поскольку замыслами все довольно сложно, потому надо бы изучить правила для папок Django (которые многие используют)... может быть это поможет?

Скрипт для импорта RSSS c delicious.com и первые неудачные попытки вызывать его из модуля

Здесь я дублирую скрипт (patterns), который написал ранее. Почему эти десять десять строчек кода нужно каждый раз копировать и вставлять в ячейку? Проще запускать их из собственного модуля. Здесь я распечатываю манул по команде %run?, но последующая попытка запустить модуль оканчивается ошибкой. Спустя три дня (изучив PYTHONPATH) возвращаюсь к этой работе и пробую прописать переменные окружения... Но сначала надо прочитать %run? Некогда. Пост не дописан..., но публикую.

четверг, 24 апреля 2014 г.

Код из RandomProxy выдает ошибку с пауком dmoz

В предыдущем посте я опубликовал сообщения из консоли при успешном запуске dmoz. Здесь мы добавим к этому работающему коду вставки от randomproxy (scrapy middleware), получим ошибки парсинга строк в модуле... и решим не реанимировать модуль, а посмотреть другие.

Запускаем пример паука Scrapy dmoz из "Crawling Scrapy Tutorial" все работает

Сюда я скопировал текст из консоли после выполнения команды "scrapy crawl dmoz". Дабы был пример, что видно в консоли в случае успешной работы. Сам паук находится у меня в компьютере W8 (C:). Далее начну с ним экспериментировать...

вторник, 22 апреля 2014 г.

К статье "Python Packages and Environments with conda"

Второй раз сталкиваюсь с "A Virtual Environment", что это такое и зачем оно ? How to use Python virtualenv?
"...put simply, is an isolated working copy of Python which allows you to work on a specific project without worry of affecting other projects"
Оказывается, что для сборки Anaconda нужно использовать специальные команды утвновщика Conda

Пробую использовать "patterns" для импорта RSS в мои конспекты

Здесь пробуем, как patterns парсит delicious. Вариант скрипта работает, но "на коленке". Пока надо осмыслить, что можно (и нужно ли) делать с разовой загрузкой RSS в пост.
По крайней мере, теперь можно собирать ссылки с разных компьютеров, а потом вставлять подборки ссылок в посты.

понедельник, 21 апреля 2014 г.

Два файла "Random proxy middleware for Scrapy "

В проекте Scrapy структура папок стандартизирована. В нее можно добавить всего два файла для ротации текстового прокси-листа с сайта hidemyass.com Внизу ссылки и копипаст кода с GitHub
Ранее я опробовал комбайн Pyproxy (управление из командной строки, сбор адресов с десятков сайтов со списками формата IP:Port), а здесь более простой вариант.

Заметки при чтении главы "Modules" документации Python

Модули в Python - это файлы. Из модулей можно импортировать классы. Импорт сначала осуществляется из текущего модуля, а потом из подпапок. Если ничего не найдено, то из путей sys.path

Изучаем документацию к Scrapy, структуру папок и файлов на примере сакраментального паука 'dmoz' (dirboot)

Вчера я спозаранку решил просто "дочитать" документацию к Scrapy. Здесь хочу остановиться на двух "открытиях", которые помогли мне почувствовать, что я что-то понимаю. Первое - архитектура Scrapy engine, второе - структура папок проектов. Все файлы из папок собраны здесь.

Пробуем PyProxy - комбайн 2010 года для сбора и проверки адресов

Простой модуль Python. Надеюсь, что он работает. В любом случае, начинать надо с простых примеров. Скачать можно PyProxy здесь. ...pyproxy is a Proxy hunter and Tester a high-level cross-protocol proxy-hunter python library.

пятница, 18 апреля 2014 г.

GTunnel is the latest of our FREEWARE client software offerings. Download GTunnel?

Я полагал, что должны быть сервисы - налоги Tor, и вот нашел "Garden Networks For Information Freedom", а нашел по запросу "linux redsocks". Ссылки даны ниже.
Одна маленькая ложка дегтя: в новостях на главной странице описаны пробемы сервиса (ограничения скорости, только китайские IP... в 2011г. последняя новость...).

Первая попытка установить Portia оказалась неудачной. Пришлось отложить...

Не хочется тратить слишком много времени на задачи, которые пока плохо понятны. Заинтересовал пакет Portia ....использует Scrapy, Scrapely, Twisted... Все это надо изучать, потому попытался установить пакет, но не смог "сходу" разобраться с virtualenv... Ну и ладно, чтобы любопытство не стало пороком.... Отложил задачу до лучших времен. Может быть у них документация поприличней появится... или установщик нормальный напишут.

среда, 16 апреля 2014 г.

Первые впечатления до и после дебаггинга "python -m pdb pyproxy.py -l"

Недавно (9 апреля) я опубликовал пост "Пробуем PyProxy - комбайн 2010 года ...". Там скрипт, который помещается на одной страничке. Теперь пора попрактиковать мои знания PDB на этом скрипте.
Я попробовал было запустится из интерпретатора IPython, но понял, что проще запустить дебаггер из консоли "python -m pdb pyproxy.py -l"
Программа была написана именно для запуски из командной строки. В процессе дебаггинга все работало отлично. Удалось и скрипт запустить. В основе работы скрипта лежит идея использования регулярных выражений для идентификации строчек ' IP:Prt ' Далее то, что еще удалось узнать о скрипте...

понедельник, 14 апреля 2014 г.

Еще одно видео на 2,5 часа "Web scraping: Reliably and efficiently pull data from pages that ..."

Я ознакомился с Scrapy, Grub..., множеством краулеров и спайдеров..., теперь нужно будет что-то выбрать и начать практиковаться. Но прежде я решил посмотреть еще и вот этот ролик, уж очень он популярный.
Здесь обсуждаются библиотеки lxml, requests, mechanize, BeautifulSoup
Надеюсь найти здесь что-то новое для себя... Кроме того, на GitHub выложен код... меня заинтересовало, в частности в python-scraping-code-samples / javascript /

воскресенье, 13 апреля 2014 г.

Соглашение о стиле оформления кода PEP 8: Python Enhancement Proposals

«A foolish consistency is the hobgoblin of little minds, adored by little statesman and philosophers and divines.  With consistency a great soul has simply nothing to do» — цитата Ральфа Валдо Эмерсона, известного американского писателя.
Соглашение об оформлении кода... пока прочитал до половины. Скачал. Но его надо периодически освежать в памяти. Потому здесь дам основные ссылки и на статью на Хабре, где есть несколько ссылок на перевод.

После прочтения "db – Interactive Debugger" я прочитал про ipdb на Хабре

Так получилось что я подхватил жестокий грипп..., но без температуры. При общем снижении мыслительных способностей и постоянном желании жить лежа получилось так, что я два раза перечитал статью pdb – Interactive Debugger

Практикум 1 по статье "pdb – Interactive Debugger"

Есть такие материалы, которые просто тупо надо выучить. Статья pdb – Interactive Debugger - это практикум для освоения дебаггера Python PDB. Здесь я начинаю повторять примеры из статьи..., но полагаю, что надо разбить практикум на несколько частей.
Да, чуть не забыл, я еще посмотрел видео, откуда, собственно, и взял ссылку на эту статью.

Как использовать справку IPython

К середине четвертого месяца занятий у меня появилась потребности в том, чтобы систематизировать мои знания Python. Наверное, поэтому мне стало интересно искать в портянках справочников подробности тех или иных опций.
Потому здесь ссылки на страницы документации и распечатки "IPython help", "ipython help notebook", распечаток пары файлов README из недр C:.ipython

Курс в Корнельском университете "Networks, Crowds, and Markets: Reasoning about a Highly Connected World

Курс D. Easley and J. Kleinberg. Networks, Crowds, and Markets: Reasoning about a Highly Connected World. Cambridge University Press, 2010. Draft version: June 10, 2010.
можно читать онлайн Contents (with links to individual chapters),
можно скачать целиком pdf

Getting Started With Burp Suite

Здесь мы устанавливаем BURP, потом перехватываем и подменяем заголовки HTTP при заполнении формы ... как в видеоролике на 6 минут. В конце видео с сайта разработчиков. А в середине продвинутое видео на 42 минуты. "...how Burp helps you bypass site XSS and SQL injection checking, directory traversal, client side login checks, and find non-random sessions keys. ...upload a backdoor to the NAS and gain root" Есть еще ссылка на "Getting Started With Burp Suite"

Achieving Anonymity with Tor Part 5:Tor Bridges and Hidden Services ... Комментарии к статье

Когда в стране заблокирован сам сервис Tor, то можно использовать "Tor Bridges", которые ведут к компьютерам волонтеров "Tor relays". Пока мне это все ни к чему, но сама идея может быть использована...

Achieving Anonymity with Tor Part 4:Tor Relays ... Комментарии к статье

В этой статье речь идет о создании "Tor relay" - установке на домашний компьютер специального софта, позволяющего другим пользователям сети использовать ваш IP для своих благородных целей. Здесь простой копипаст. Свои мысли (если появятся) буду писать в комментариях.

Achieving Anonymity with Tor Part 3: Torbutton and Tsocks... Комментарии к статье

Здесь рассматривается Torbutton и установка Tsocks. Последняя библиотека позволяет подключать к Tor любые приложения. Так что, эту статью обязательно надо изучить без спешки.

Achieving Anonymity with Tor Part 2: Proxies and DNS servers Комментарии к статье

Это вторая часть курса (всего пять). Здесь есть красивая картинка несколько вариантов связки двух proxy, второй из которых всегда Tor. В качестве альтернативных прокси рассматриваются BURP, Polipo, Privoxy

Achieving Anonymity with Tor Part 1: ... Комментарии к статье

В первой части статьи автор показывает, как установить и настроить Top вручную, а потом демонстрирует и обычную установку, когда скрипт устанавливает Tor, privoxy, Vidalia...
Потом идет введение в концепцию безопасности Tor, все шифруется...

Промежуточные итоги (и ссылки) по теме PROXY

Количество найденных статей превосходит уровень моих знаний. Навязчивая ...идея-фикс: найти сервер, который бы ротировал free proxy при выполнении задач big data, а не scraping`a ... Я уже нашел уйму вариантов с TOR, параллельно нашел десятки прокси-серверов..., зачем их вообще столько напридумывали?
И раз их так много, то должны быть и те, которые мне нужны. И чем меня не устраивают серверы на Python?

среда, 9 апреля 2014 г.

Зачем я установил gtConsole в сборку Kali

Итак, я осваиваю iPython... и последних три месяца упражнялся с Notebook. Когда изучаешь конкретные команды, небольшие фрагменты..., то формат этот очень удобен. Но вот, наконец, дошло дело и до изучения чужих программ.
Что они там напрограммировали? Без нормальной документации (очень часто), с ошибками... Но свой код писать дольше, мне надщо практиковаться на чужих примерах.
И для начала... надо осовить дебаггер. А Notebook бросать не хочется, тем более, что есть %gtconsole (волшебная команда подключение консоли к пространству имен, созданному в текущей notebook)

Постановка задачи и немного ссылок на сервисы Python Proxy Checkers

Профессиональный web-scrapping невозможен без решения проблемы бана (Например, когда количества запросов к серверу-мишени с одного IP-адреса превышает некий предел...). Очевидно, что сайты рассчитаны на работу с людьми, а шустрые боты только замедляют работу... Очевидно, что этот вопрос надо бы еще продумать. Посмотреть httpd.config и погуглить по "подозрительным настройкам"... "Начальство надо знать в лицо..."
Здесь мы рассмотрим проблему с другой стороны. А именно, рассмотрим оборудование для обмана сервера-мишени.

Ссылки, собраные в процессе работы по теме "Проксифаеры"

Проксифаекры - термин из Tor, но здесь не только ссылки на Tor, но и мои искания других вариантов для анонимизации... например "Anonymous Web Scraping"
Tsocks - в статье приведены примеры работы с проксифаерами tsocks и proxychains

Пробуем PyProxy - комбайн 2010 года для сбора и проверки адресов

Простой модуль Python. Надеюсь, что он работает. В любом случае, начинать надо с простых примеров. Скачать можно PyProxy здесь. ...pyproxy is a Proxy hunter and Tester a high-level cross-protocol proxy-hunter python library.

вторник, 8 апреля 2014 г.

Наконец Kali стал притормаживать, первой попалась статья про файл подкачки... но здесь команды bash.

Первой попалась статья "Файл подкачки: swap-файл и swap-раздел в Linux"... Не уверен, что создание файла подкачки улучшит ситуацию (поскольку гружусь с флешки), но решать проблему надо. Потому здесь пробуем команды bash для мониторинга параметров системы.
В этом посте я хотел обозначить проблему и сохранить ссылки для дальнейшей работы. Однако, начинать пришлось с изучения команд сетевого управления консоли. Задача эта инфраструктурная. И я не знаю, как её решать... Если исходить из основного "японского" (p2m) принципа ПРИОРИТЕТА ДОЛГОСРОЧНЫХ ЦЕЛЕЙ НАД КРАТКОСРОЧНЫМИ, то надо сначала усвоить методы диагностики сети из командной строки.
Статья "Файл подкачки: ..." понравилась, многое оттуда надо попробовать, потому пока ссылку оставим здесь

понедельник, 7 апреля 2014 г.

При первом запуске vidalia Tor выдает предупреждения

Update март 2015: Уже более года Vidalia можно не устанавливать. Инсталлировать Tor-Browser стало проще. Новые инструкции и ссылки в комментариях к посту. Далее текст првоначального поста. Depricated: Здесь мы решаем проблемы с утановкой vidalia и TorBrowser на Debian. О настройке vidalia есть мануал c картинками на сайте
После установки в Debian не сразу нашел луковицу(иконнку программы) в трее наверху, но обнаружил "vidalia" в разделе меню "Intenet". При открытии программа выдала предупреждение и попросила прочитаь лог:

Обновление Kali и вопросы доустановки программ

Вторая установка дистрибутива прошла успешно. Поскольку делать это приходится нечасто, то время сэкономят инструкции, например такие, как найти программу для скринкаста. Если посчитать все время, которое я потратил на поиск таких программ...

Репозитории Kali - какие подключать и как?

Вчера посмотрел обзор программ для скринкастинга. Оказалось, что понравившейся мне программы нет в репозитории. Я уже подключил один дополнительный репозиторий (Tor) для этого дистрибутива..., и новые подключать как-то не хотелось... И вот в документации Kali нашел статью с рекомендациями, ...но добавим к ним команды подключения репозитория (Tor) из поста Обновление Kali и вопросы доустановки программ.

среда, 2 апреля 2014 г.

Как работать с Polipo ... или кэширующий прокси (one thread) для единоличника.

С одной стороны, мой пытливый ум, пытаясь упорядочить информацию обо всех этих сокетах и списках прокси пытается вербализировать плохопонимаемое: "... вращать списки прокси-анонимайзеров посредством собственного локального сервера".
С другой стороны, я нахожу, наконец, описание настройки связки "Scrapy-Polipo-Tor"... и решаю, что мозгу, таки, нужна четкая модель этих процессов.

Как надо было изучать Scrapy (первые итоги и ссылки)

Сначала надо было прочитать статью Scraping Web Pages With Scrapy и посмотреть ролик (из этой же статьи).

Статья "Web Scraping" с примерами

Я скопипастил этот пост, поскольку здесь разбираются примеры с библиотеками: pattern, lxml, requests, Scrapy, Beautiful Soup... вот только не помню, откуда...

Изучаем материал из статьи "Использование HTTP proxy и SOCKS в Linux"

Просто скопировал статью с Хабра поскольку эти команды надо бы выучить, здесь готовые куски кода..., а я поставил curl на Windows... щааас попробуем... а еще в обсуждении на Хабре есть полезные мысли...
В Linux существует много полезных консольных команд, которые при необходимости хотелось бы запустить через proxy. Некоторые приложения имеют встроенную поддержку proxy, а некоторые нет. Далее описано как пользоваться востребованными утилитами через proxy, даже теми, которые этой поддержки не имеют.

вторник, 1 апреля 2014 г.

Еще одно видео на 2,5 часа "Web scraping: Reliably and efficiently pull data from pages that ..."

Я ознакомился с Scrapy, Grub..., множеством краулеров и спайдеров..., теперь нужно будет что-то выбрать и начать практиковаться. Но прежде я решил посмотреть еще и вот этот ролик, уж очень он популярный.
Здесь обсуждаются библиотеки lxml, requests, mechanize, BeautifulSoup