Здесь постиг умние писать простейшие команды в файл .pdbrc и сохранять его в папке проекта, точнее в папке, запуска дебаггера. А перед этим написал четвертый конспект о PDB. И все это безобразие в Windows...
В iPython мои (черновики) упражнения с Python, в разделе "Mining" собраны материалы по R, Rapid Miner, Weka, Gate..., в "Projects" фрагменты старых и заготовки для новых исследований... записано для себя, открыто для всех...
понедельник, 27 октября 2014 г.
пятница, 24 октября 2014 г.
Работа над ошибкой в первом xml спайдере XMLFeedSpider привела к рождению метафоры "Сознание-Мозг"
Начал было писать pipelines для Первый вариант паука XMLFeedSpider (без pipelines)
Но паук никак не желал работать. На поиск простой ошибки я потратил целый день. Здесь я пытаюсь воспроизвести свои действия и решения, дабы хоть немного поумнеть.
014-10-24 18:27:23+0400 [proxylists] ERROR: Spider error processing
среда, 22 октября 2014 г.
Исправляем код "Random proxy middleware for Scrapy" и открываем способ поиска в форках
Здесь в качестве упражнения разбираем хрестоматийный пример Random proxy middleware for Scrapy и находим ошибки в устаревшем коде. Результат - рабочий код... и и десяток ссылок для его рефаеторинга. Сложный поиск на GitHub не нашел в форках ... того, что удалось найти по запросу process_exception(self, request, exception, spider) proxy
понедельник, 20 октября 2014 г.
Читаем статью "Проксирование в Scrapy" ... и знакомимся с middleware из проекта "tutorial"
Здесмь я якобы систематизирую мои представления о Scrapy middleware. Читать документацию - дело утомительное. Мне удалось найти короткие статьи на русском, в которых дается три рецепта: 1) http_proxy, 2) Spider settings 3) download middlewatr
суббота, 18 октября 2014 г.
Строку URL запроса можно не набирать руками, а формировать программно. Матчасть (urllib) надо изучать систематически
Просматривая urllib обнаружил в локументации два примера со свойством .urlencode для запроса GET и POST. Хотел просто посмотреть, что получится, а загрузил две старницы с сайта http://www.musi-cal.com
пятница, 17 октября 2014 г.
Разбираем, что делает в Scrapy "downloadermiddleware\httpproxy.py"
В справке к urllib.getproxies() нашел "It scans the environment for variables named
четверг, 16 октября 2014 г.
Первый вариант паука XMLFeedSpider (без pipelines)
Пишу первого паука для парсинга XML фида. Сначала я прочитал документацию и попытался разобраться с основными понятиями. Этот процесс отразился в посте "Читаю документацию XMLFeedSpider", а вот здесь попробовал записать процесс работы над пауком. В итоге работающий полуфабрикат.
вторник, 14 октября 2014 г.
Читаю документацию XMLFeedSpider
Вспоминаю про пространство имен по примеру от Google, запоминаю, что не надо строить все дерево DOM для длинного фида, распечатываю класс XMLFeedSpider
Читаю "Введение в асинхронное программирование и Twisted" ...чтобы понять Scrapy Request
Нашел перевод Введение в асинхронное программирование и Twisted отличного учебного пособия (с кодом на Github). Испытал серврер slowpoetry, из книги постарался запомгнить три важных понятия: асинхронная однопоточная модель, Reactor, Defferer
воскресенье, 12 октября 2014 г.
Читаю серию из 5-ти статей "five life jackets..." - подробный пример Scrapy
Здесь много полезного. Начиная с пауков, советов типа $x(//div), подробно расписан процесс подключения Postgres... Скачал репозиторий. Посмотрел ссылки из статей, добавил "Scrapy Contracts Evolution"... Здесь только ссылки (штук 20)
Ссылки из процесса поиска ПРОКСИ и изучения "DownloadHandler for scrapy that uses socksipy connections"
Я буду пробовать два варианта работы с прокси: 1) TOR - переключение сущностей, 2) Списки прокси... Здесь ссылки на страницы, котрые я не хотел закрывать в течение двух недель... Потом понял, что еще две недели руки до них не дойдут... Поэтому здесь есть и txsocksx, PySocks Github, и Twisted Core, и Socket Programming HOWTO, и telnetlib python example, github scrapy-examples,
вторник, 7 октября 2014 г.
Попробовав NMAP я понял, что могу наконец составить список утилит для полной диагностики сети
Этот именно тот софт, который включает набор утилит... и для Windows. На сайте nmap.org помимо сканнера хостов nmap -v -sn 192.168.1.* | grep -v down и портов nmap -sS -v 192.168.1.15 есть набор необходимых инструментов, например, ncat (продвинутый клон nc), здесь примеры сканирования моей локальной сети и ссылки на справочники... есть и GUI - Zenmap ... очень удобная штука, сама генерирует командную строку...
понедельник, 6 октября 2014 г.
NetCat or socat - Multipurpose relay (SOcket CAT)
Изучая Netcat (nc), я попробовал было загрузить для Windows какой-то левый файл, но Comodo заблокировал его, как опасный. Потом я нашел "netcat++" (extended design, new implementation) и решил было, что надо изучать его (он поддерживается). Но, кроме того, обнаружил, что netcat интегрирован в nmap... "Ncat is our modern reinvention of the venerable Netcat (nc) tool released by Hobbit in 1996" и прекрасно документирован ...и видео есть... Установил nmap на w8 и получил ncat в довесок
воскресенье, 5 октября 2014 г.
Распечатал справку cmd /?
Есть несколько "застарелых" инфраструктурных настроек, до которых не доходят руки (потому, что не хватает знаний), надо их решать (учиться) систематически и "маленькими порциями". Для этого здесь публикую распечатку cmd /?
Надо бы знать, что такое, например, "отложенное расширение переменных среды"
пятница, 3 октября 2014 г.
Осознаем откровения из статьи"Создание SSH-туннелей с помощью PuTTY"
Чтобы настроить туннелирование с Putty нужны небольшие ухищрения. Начинаем с пошагового видео о подключении к удаленному рабочему столу Windows (RDP) и не забываем про ссылки на статью (на русском) о пробросах портов (там еще 94 комменария)
четверг, 2 октября 2014 г.
Посмотрел видео о взаимодействии telnetlib с netcat и нашел Python Sock сервер для тестов... и настроил под него Putty
Чтобы попрактиковаться с telnet+lib можно использовать netcat (sudo nc host port), в видео для этого открыты две консоли, и обмен строками текста впечатляет..., но искать вариант netcat (без вирусов) для windows лень. Проще написать sock сервер на Python. Здесь все ссылки для этого и готовый код. И справка по опциям netcat (ее надо поюзать в Kali)... И первые результатыэкспериментов с Putty и telnetlib
среда, 1 октября 2014 г.
Танцы с бубном Telnet
После того, как я прочитал, что альтернативой Stem (SIGNAL NEWNYM ... Python API Tor) может служить telnetlib, стало очевидным, что надо понимать, как работает (и юзается) Telnet. Здесь собраны ответы на все (почти) мои вопросы... даже по работе с "кривой" консолью в w8.