Сначала определились со структурой селекторов html-кода (есть картинка), а потом использовали две строчки кода:
var qq ='*.tile-pin__text';
$(qq).map(function(){return $(this).text(); }).get().join("\n");
У jQuery есть отличный справочник, как и на сайте JavaScript MDN
В iPython мои (черновики) упражнения с Python, в разделе "Mining" собраны материалы по R, Rapid Miner, Weka, Gate..., в "Projects" фрагменты старых и заготовки для новых исследований... записано для себя, открыто для всех...
понедельник, 29 декабря 2014 г.
Первый приемлемый вариант работы c jQuery Console+Scratchpad c CSS селекторами вместо XPath
воскресенье, 28 декабря 2014 г.
Ссылки по теме "XPath MDN Mozilla" и "Introduction to using XPath in JavaScript MDN"
Здесь десяток ссылок от Mozilla Development Network. Эти записи я сделал, когда пытался выбрать инструментарий для парсинга html-страниц. Потом я догадался разделить все мои задачи на две категории. Первая - настройка селекторов для спайдеров (Scrapy). Вторая - ручной (экспрес)парсинг из одной-двух html-страниц, когда надо быстро, а паука писать не хочется. ТОгда можно открыть консоль и по-быстрому вырезать нужные элементы. И все работает, только одна проблема вырисовывается - чтобы вытащить нужные данные из объектов консоли нужны довольно сложнве команды. К таким выводам я пришел после беглого знакомства с мануалами от MDN И Явускрипт победил простой плагин XPath helper.
Короткий пример с работы с jQuery из консоли $x для просмотров запроса Xpath
В плагине FirePath генерируем строку запроса XPath, открываем консоль, а в ней уже выполняем сначала var hr =$x('html/body/div[2]/div/div[2]/div/div/div/div[2]/div/div[1]/div[5]/div[2]/a/@href');, а потом пробуем примерhr[0].nodeValue)map(function(){return $(this).text(); }).get().join("\n")
суббота, 27 декабря 2014 г.
Найден хороший плагин XPath Helper for chrome, но хочется большего
Это предисловие я пишу уже после того, как понял, что мне нужно разделить задачи генерирования Xpath для "боевого" парсера и "экспресс-парсинга" данных с HTML страницы. Здесь же я пытался решить сразу две, окончательное решение для каждой в последующих постах, а здесь пример, пояснения и картинка для XPath Helper for chrome
пятница, 26 декабря 2014 г.
ScrathPad почти идеальный js редактор
Здесь видео и ссылки на документацию. Мне не удалось найти автодополнение и контекстную справку для jQuery. На данный момент для справки jQuery я использую консоль Firebug. Именно Firebug, а не встроенные инструменты 'Web Developer'
вторник, 9 декабря 2014 г.
После обновления Ipython Notebook нужно было править таблицы стилей CSS для экспорта в Blogger
Дело это неблагодарное, но деваться было некуда, HTML шаблон Notebook был изменен так, что все мои "новые" посты выглядели ужасно. После того, как их набралось больше сотни, я понял, что надо совершать подвиг...
Здесь я пытаюсь понять, зачем мне три файла CSS - около 250 строк, которые я выбрал из 2500 строк, генерируемых после импорта nbconvert --to html --template full...
Ну, и конечно, я пытаюсь провести работу над ошибками, почему я угрохал на эту задачку 4 дня...
понедельник, 8 декабря 2014 г.
My old Blogger template for this Notebook in Google Drivenotepad
There are some old lines of css and java scripts here. And nowadays everything is working fine... But time goes by... one day I will have to repair this code... but not today.
Today I prepare this old Blogger Template for new GoogleDrive online Editor. And everyone can look for bugs here right now.
Три файла CSS для Blogger. Я везде "отсек все лишнее", а свои хаки добавил в третий файл
Здесь три файла CSS после моего декабрьского апргрейда. А еще (только для меня) три ссылки на файлы в новом онлайн редакторе css.editey. Все изменения тут же записываются на GoogleDisk. Ну очень удобно. В редакторе есть (!)подсказки (на картинке в желтых треугольниках), с которыми еще надо бы поработать.
вторник, 2 декабря 2014 г.
Зачем нужны Scrapy Feed exports и CsvItemExporter
Первый вариант настройки в документации, второй - super(SlybotCSVItemExporter, self).init(args, *kwargs) - чемпион ГитХаба, для начала я воспроизвел второй вариант от github agrimrules/Python-Web-Crawler но воспроизвел в посте Пробовал "Scrapy feed exporter" ... а до первого варианта здесь так и не дошел... Зато в этом посте около 30 ссылок !
воскресенье, 30 ноября 2014 г.
Topmail Spider with ScrapyFileLogObserver and traceback
Здесь я привожу первый вариант решения (фрагменты паука) в котором компилятор выводит сообщения в один файл, а ошибки в другой. При этом все (логирование) дублируется в консоли.
Кроме того, traceback выводит подробные сведения о перехваченных ошибках.
Как вывести в лог описания ошибок успешно перехваченных в "exceptions"?
Например, у меня выскакивала ошибка, я ее перехватил, но теперь в сообщениях консоли вместо имени модуля..., номера строки, имени переменной... только мои записи о перехвате, ... теперь, чтобы вытащить информацию об ошибке надо использовать методы из библиотеки traceback.
суббота, 29 ноября 2014 г.
Примеры настройки логирования в Scrapy и картинка "loggers, handlers, filters, and formatters"
"If you’re ready for that, grab some of your favourite beverage and carry on"... Так я начал читать документацию "дебаггинг для продвинутых", поскольку предстоит писать в длиннющие логи... Сначала я нашел на Stackoverflow варианты вывода логов в фва файла, а потом прочитал еще и мануалы Python...
вторник, 25 ноября 2014 г.
О конструировании списков в Python и хорошем стиле программирования
Здесь я "открыл", что конструктор item['new']=["" for j in range(len(iu))] выдает список, который ничуть не короче, чем item['new']=["WoW" for j in range(len(iu))] И весь этот пост наполнен упражнениями, ...рассуждениями пытливого туповатого самоучки, который завидует тем, кому преподы все подают на блюдечке...
воскресенье, 23 ноября 2014 г.
Как лучше парсить, чистить и склеивать строки вида 'http://127.127.0.1:8080'
Сразу вспомнилось про find-replace, ранее нашел split, "вспомнил", что каждая строка - это (упорядоченный)список, значит можно манипулировать индексами s[i] s[i:j] по позициям элемента... А это неправильно, не список, а КОРТЕЖ... Значи, подстроки нельзя изменять простым присваиванием...
Как парсить date и преобразовывать строки в объекты datetime.datetime
В документации Python все подробно описано, в этом посте примеры для использования в парсерах. Как строку преобразовать в объект даты... Здесь и табличка со всеми директивами, напрмир %A Weekday as locale’s full name (Sunday, Monday... )
суббота, 22 ноября 2014 г.
Между делом восстановил аккаунт GitHub, ума не приложу, что с ним делать
Действительно - сервис отличный, знать его надо..., обнаружил консоль и отличные руководства..., но деньги платить за сокрытие моего "рабочего" кода... это пижонство. Получается, что публиковать там нечего? Ну как тут станешь приличным кодером?
четверг, 20 ноября 2014 г.
Pydiction - это плагин к Vim, который "Tab-complete your Python code"
Сначала установил (здесь написано, как), а он не работает в Windows. Здесь собраны все материалы для того, чтобы позже прочитать и наладить...
среда, 19 ноября 2014 г.
Видео "Python in VIM" и список редакторов с автозаполнением..., и штатная IDLE Python
Я немного научился пользоваться Spyder (и IPNotebook, естественно). "Немного" - это значит без затруднений. По мере того, как мои проекты стали разрастаться, понадобилось открывать сразу два-три проекта. Я начал было искать "легкие "IDLE" и редакторы с подсказками и автозаполнением...
Установил Komodo, посмотрел видео про Python in VIM, нашел целый список редакторов на StackOverflov... Потом вспомнил про штатный IDLE, скопировал оттуда приемы работы с автозаполнением и подсказками... Действительно, раз есть "штатные приемы" автозаполнения и вызова подсказок, то все IDLE должны их использовать...
вторник, 18 ноября 2014 г.
Смотрим видео "jQuery + Node.js + Phantom.js = Automation Awesomesauce" и вспоминаем про node webkit
Посмотрел только начало..., потом вспоминал Node-webkit, здесь много ссылоко и задел для будущего обучения
In this presentation, Travis will walk you through how jQuery can be used in conjunction with an incredible headless browser technology called Phantom.js. When pairing these two technologies together, you get a fantastic testing and automation framework, but we won't stop there... by mixing these with the backend Javascript framework called Node.js, we produce an extremely powerful testing and automation framework that is both efficient, fun, and easy to use.
понедельник, 17 ноября 2014 г.
Зачем нужны Scrapy Feed exports и CsvItemExporter
Первый вариант настройки в документации, второй - super(SlybotCSVItemExporter, self).init(args, *kwargs) - чемпион ГитХаба, для начала я воспроизвел второй вариант от github agrimrules/Python-Web-Crawler но воспроизвел в посте Пробовал "Scrapy feed exporter" ... а до первого варианта здесь так и не дошел... Зато в этом посте около 30 ссылок !
воскресенье, 16 ноября 2014 г.
Попробовал Scrapy HTTPCACHE middleware. Понравилось
Включается FHTTPCACHE_ENABLED, два режима (политики) кэширования, три вида хранилищ, возможность управлять кэшированием для (схем) типов файлов, протоколов ответов серверов, задавать время перезагрузки кэша ...
пятница, 14 ноября 2014 г.
Пробовал "Scrapy feed exporter" Скачал Python-Web-Crawler и сразу же запустил
Код в feedexport.py показался мне необычным - super(CSVkwItemExporter, self).init(args, kwargs) Здесь пример паука, который формирует csv таблицу с двумя последовательными полями, но в строке запуска нужно указать scrapy crawl njit -o 13nov.csv -t csv
четверг, 13 ноября 2014 г.
Schtasks - управления заданиями из командной строки Windows... и CronNT
Помимо графической оболочки есть еще и Schtasks с отличной справкой, часть которой здесь и распечатана. Оказывается, что можно посмотреть на все задания в системе. А еще есть утилита CronNT, которую можно установить , как службу Windows.
вторник, 11 ноября 2014 г.
Инструкция "class" в Python - это не объявления, ...class создает объект и является неявной инструкцией присваивания (конспект гл. 28)
...в отличие от инструкции в C++, в языке Python она не является объявлением. Подобно инструкции def, инструкция class создает объект и является неявной инструкцией присваивания – когда она выполняется, создается объект класса, ссылка на который сохраняется в имени, использованном в заголовке инструкции.
К вопросу об использовании yield вместо return
Для понимания того, как оуществляются отложенные операции. Классический пример - функция на каждой итерации цикла передает результат другой функции, а сама ждет следующего вызова... Здесь конспект из главы 20 Лутца.
понедельник, 10 ноября 2014 г.
Наступил на грабли "динамической типизации", чтобы понять про разделяемые ссылки, кэширование чисел и строк, "varargs"... читаем "Лутца"
Начал было присваивать значения новому "столбцу" с Item['adress'] = Item['ip'], а потом сформировал в цикле новые значения вида Item['adress'][i]=... И удивился, когда обнаружил, что поменялся и Item['ip'] Однако... все здесь объекты, а имена переменных - это только ссылки (точнее - указатели) на эти объекты (а не на метки областей памяти)...
суббота, 8 ноября 2014 г.
Обработка исключений в Питон. Примеры из книги М. Лутца и help(exceptions)
В книге исключениям посвящены три главы. Здесь заметки при чтении первой и второй... Пока не вижу смысла нырять глубже
Исключения в языке Python – это высокоуровневый инструмент управления потоком выполнения. Они могут возбуждаться интерпретатором или самой программой – в любом из этих случаев их можно игнорировать (что вызовет срабатывание обработчика по умолчанию) или перехватывать с помощью инструкций try (для обработки в своем программном коде).
пятница, 7 ноября 2014 г.
Починяем BIOS на старых примусах типа HP Pavilion dv5-1000us
У нашей Гали тихо сдох ноутбук. Перестал загружаться после праздников. Замена батарейки BIOS не помогла. Встал вопрос о перепрошивке. Гуглопоиск "восстановление биос на ноутбуке hp" неожиданно быстро вывел на толковый пост. Казалось бы, для восстановления\обновления BIOS идеально подошла бы "загрузочная" флешка, вставил, нажал, выбрал... и все восстановилось. Такая флешка у HP есть, но за деньги... А наши умельцы сконструировали халявный бубен, коим я и воспользовался.
понедельник, 3 ноября 2014 г.
Как я учился, чтобы исправить свои дурацкие ошибки... и совершал новые при отладке в пауке XMLFeed...
В пауке XMLFeed... решил поробовать создать новый столбец из свежеспарсенного словаря списков... Пишем файл pipeline.py в котором фильтруем записи о серверах по времени, типу прокси и стране. Потом записываем результат в виде строк "http://777.77.77.77:8080" в текстовый файл. В процессе работы выскакивают ошибки, я быстро ликивидирую безграмотность перечитывая и конспектируя книгу Лутца. Сроки поджимают, стоит ли продолжать ликбез? Насколько он необходим?
суббота, 1 ноября 2014 г.
Сначала надо получить список атрибутов dir(), а потом вытащить строки в тройных кавычках при помощи help()
Сначала командой dir() распечатываем список атрибутов объектов. Потом функцией help(), или .__doc__ вытаскиваем строки комментариев из атрибута (или) объекта. Help() - это обертка __doc__? Следует помнить также, что функция help может извлекать информацию не только из встроенных, но и из любых других модулей (в том числе - моих).
Кроме того, обычно отдельно online поставляется подробная документация в HTML формате - это документация, которую мы читаем обычно на сайте (но устаревшая). Еу не надо путать с PyDoc - это всего-лишь HTML примочка для чтения .doc
понедельник, 27 октября 2014 г.
Первая проба сохранения файла с алиасами в ipdb ".pdbrc is read in and executed as if it had been typed at the debugger prompt"
Здесь постиг умние писать простейшие команды в файл .pdbrc и сохранять его в папке проекта, точнее в папке, запуска дебаггера. А перед этим написал четвертый конспект о PDB. И все это безобразие в Windows...
пятница, 24 октября 2014 г.
Работа над ошибкой в первом xml спайдере XMLFeedSpider привела к рождению метафоры "Сознание-Мозг"
Начал было писать pipelines для Первый вариант паука XMLFeedSpider (без pipelines)
Но паук никак не желал работать. На поиск простой ошибки я потратил целый день. Здесь я пытаюсь воспроизвести свои действия и решения, дабы хоть немного поумнеть.
014-10-24 18:27:23+0400 [proxylists] ERROR: Spider error processing
среда, 22 октября 2014 г.
Исправляем код "Random proxy middleware for Scrapy" и открываем способ поиска в форках
Здесь в качестве упражнения разбираем хрестоматийный пример Random proxy middleware for Scrapy и находим ошибки в устаревшем коде. Результат - рабочий код... и и десяток ссылок для его рефаеторинга. Сложный поиск на GitHub не нашел в форках ... того, что удалось найти по запросу process_exception(self, request, exception, spider) proxy
понедельник, 20 октября 2014 г.
Читаем статью "Проксирование в Scrapy" ... и знакомимся с middleware из проекта "tutorial"
Здесмь я якобы систематизирую мои представления о Scrapy middleware. Читать документацию - дело утомительное. Мне удалось найти короткие статьи на русском, в которых дается три рецепта: 1) http_proxy, 2) Spider settings 3) download middlewatr
суббота, 18 октября 2014 г.
Строку URL запроса можно не набирать руками, а формировать программно. Матчасть (urllib) надо изучать систематически
Просматривая urllib обнаружил в локументации два примера со свойством .urlencode для запроса GET и POST. Хотел просто посмотреть, что получится, а загрузил две старницы с сайта http://www.musi-cal.com
пятница, 17 октября 2014 г.
Разбираем, что делает в Scrapy "downloadermiddleware\httpproxy.py"
В справке к urllib.getproxies() нашел "It scans the environment for variables named
четверг, 16 октября 2014 г.
Первый вариант паука XMLFeedSpider (без pipelines)
Пишу первого паука для парсинга XML фида. Сначала я прочитал документацию и попытался разобраться с основными понятиями. Этот процесс отразился в посте "Читаю документацию XMLFeedSpider", а вот здесь попробовал записать процесс работы над пауком. В итоге работающий полуфабрикат.
вторник, 14 октября 2014 г.
Читаю документацию XMLFeedSpider
Вспоминаю про пространство имен по примеру от Google, запоминаю, что не надо строить все дерево DOM для длинного фида, распечатываю класс XMLFeedSpider
Читаю "Введение в асинхронное программирование и Twisted" ...чтобы понять Scrapy Request
Нашел перевод Введение в асинхронное программирование и Twisted отличного учебного пособия (с кодом на Github). Испытал серврер slowpoetry, из книги постарался запомгнить три важных понятия: асинхронная однопоточная модель, Reactor, Defferer
воскресенье, 12 октября 2014 г.
Читаю серию из 5-ти статей "five life jackets..." - подробный пример Scrapy
Здесь много полезного. Начиная с пауков, советов типа $x(//div), подробно расписан процесс подключения Postgres... Скачал репозиторий. Посмотрел ссылки из статей, добавил "Scrapy Contracts Evolution"... Здесь только ссылки (штук 20)
Ссылки из процесса поиска ПРОКСИ и изучения "DownloadHandler for scrapy that uses socksipy connections"
Я буду пробовать два варианта работы с прокси: 1) TOR - переключение сущностей, 2) Списки прокси... Здесь ссылки на страницы, котрые я не хотел закрывать в течение двух недель... Потом понял, что еще две недели руки до них не дойдут... Поэтому здесь есть и txsocksx, PySocks Github, и Twisted Core, и Socket Programming HOWTO, и telnetlib python example, github scrapy-examples,
вторник, 7 октября 2014 г.
Попробовав NMAP я понял, что могу наконец составить список утилит для полной диагностики сети
Этот именно тот софт, который включает набор утилит... и для Windows. На сайте nmap.org помимо сканнера хостов nmap -v -sn 192.168.1.* | grep -v down и портов nmap -sS -v 192.168.1.15 есть набор необходимых инструментов, например, ncat (продвинутый клон nc), здесь примеры сканирования моей локальной сети и ссылки на справочники... есть и GUI - Zenmap ... очень удобная штука, сама генерирует командную строку...
понедельник, 6 октября 2014 г.
NetCat or socat - Multipurpose relay (SOcket CAT)
Изучая Netcat (nc), я попробовал было загрузить для Windows какой-то левый файл, но Comodo заблокировал его, как опасный. Потом я нашел "netcat++" (extended design, new implementation) и решил было, что надо изучать его (он поддерживается). Но, кроме того, обнаружил, что netcat интегрирован в nmap... "Ncat is our modern reinvention of the venerable Netcat (nc) tool released by Hobbit in 1996" и прекрасно документирован ...и видео есть... Установил nmap на w8 и получил ncat в довесок
воскресенье, 5 октября 2014 г.
Распечатал справку cmd /?
Есть несколько "застарелых" инфраструктурных настроек, до которых не доходят руки (потому, что не хватает знаний), надо их решать (учиться) систематически и "маленькими порциями". Для этого здесь публикую распечатку cmd /?
Надо бы знать, что такое, например, "отложенное расширение переменных среды"
пятница, 3 октября 2014 г.
Осознаем откровения из статьи"Создание SSH-туннелей с помощью PuTTY"
Чтобы настроить туннелирование с Putty нужны небольшие ухищрения. Начинаем с пошагового видео о подключении к удаленному рабочему столу Windows (RDP) и не забываем про ссылки на статью (на русском) о пробросах портов (там еще 94 комменария)
четверг, 2 октября 2014 г.
Посмотрел видео о взаимодействии telnetlib с netcat и нашел Python Sock сервер для тестов... и настроил под него Putty
Чтобы попрактиковаться с telnet+lib можно использовать netcat (sudo nc host port), в видео для этого открыты две консоли, и обмен строками текста впечатляет..., но искать вариант netcat (без вирусов) для windows лень. Проще написать sock сервер на Python. Здесь все ссылки для этого и готовый код. И справка по опциям netcat (ее надо поюзать в Kali)... И первые результатыэкспериментов с Putty и telnetlib
среда, 1 октября 2014 г.
Танцы с бубном Telnet
После того, как я прочитал, что альтернативой Stem (SIGNAL NEWNYM ... Python API Tor) может служить telnetlib, стало очевидным, что надо понимать, как работает (и юзается) Telnet. Здесь собраны ответы на все (почти) мои вопросы... даже по работе с "кривой" консолью в w8.
суббота, 27 сентября 2014 г.
DownloadHandler for scrapy that uses socksipy connections
Первое впечатление такое, что это именно то, что я искал. Потому здесь полный копипаст. Поскольку подход автора "I simply copied the code for HTTP11DownloadHandler" очень понравился. Все это понадобится мне в ближайшее время.
четверг, 25 сентября 2014 г.
Документация и код "SocksiPy - Python SOCKS module"
A SOCKS proxy is a proxy server at the TCP level. In other words, it acts as a tunnel, relaying all traffic going through it without modifying it.
Перечитал "Сокеты в Python для начинающих" ... обратил внимание на комментарии
Это статья на Хабре. Там простые примеры, а в комментариях есть сетования, что серверу обычно нужно читать заголовки (заголовок, длинна, тело) и прикреплена красивая картинка со схеомй работы протокола TCP. Скопировал сюда картинку и ссылки на документацию Python... И код сервера, и код клиента...
среда, 24 сентября 2014 г.
Пробуем выполнить код из TOR With Python Tutorial #2 ( видео 2)
Смотрим второе видео, в котором к простому примеру (из первого видео, которое я посмотрел в мае) добавляется метод def newIdentity(). В примерах использовались библиотеки socket, socks, httplib . Исправляем ошибки и запускаем пример из первого видео - connectTor(), но поменять IP newIdentity() здесь не удается - raise SOCKS5Error("{:#04x}: {}".format(status, error))
вторник, 23 сентября 2014 г.
Начинаем изучать "Stem is a Python controller library for Tor"
понедельник, 22 сентября 2014 г.
Читаем wiki netbeans и смотрим видео "HTML5 Testing and Debugging..."
К поискам редактора для js и nodejs. Здесь ссылки на прекрасную документации к HTML5 NetBeans. Я посмотрел три видео, со странице по первой ссылке можно скачать файлы примеров, прочитать статьи к видео.
воскресенье, 21 сентября 2014 г.
Чтение статьи "Обмен данными для документов с разных доменов" и мысли о NetBeans PHP
Кроссдоменные взаимодействия до недавнего времени были запрещены. С удовольствием прочитал две статьи Ильи Кантора на javascript.ru Изменения в XMLHTTPRequest 2 все упростили.
На том же сайте нашел и статью про редакторы, в комментариях десятки ссылок. Рассматривая документаци к NetBeans нашел Руководство "Debugging and Testing JavaScript" А там можно (вроде бы) перехватывать скрипты из Google Chrome...
пятница, 19 сентября 2014 г.
Распечатаем код analytics.js (Google) и разделы документации к библиотеке
И здесь решил я начать юзать этот сервис. Как они используют AJAX POST?
четверг, 18 сентября 2014 г.
Measurement Protocol Reference (копипаст Google devguides)
Постижение того, что для отслеживания действий пользователя можно испоьзовать AJAX Post запросы далось мне только после того, как сегодня утром я нашел описание в "JavaScript" Джона Рейсинга. Я туп, но не безнадежен, поскольку прочитав вчера "Measurement Protocol Reference", решил, что надо "освежить" AJAX...
Здесь (от избытка чувств) размещаю копипаст документации и ничего больше.
среда, 17 сентября 2014 г.
Функция User ID и Сервис Universal Analytics ... и справка Google Analitics
Здесь собраны сылки и фрагменты из документации. Объясняется, в частности, как пользователь Денис пьет чай 31 минуту, а у него умирает кука **__utmb** ... По умолчанию библиотека analytics.js использует всего один файл cookie, **_ga, для сохранения уникального идентификатора клиента.
Копаем глубже в веб-отслеживание (analytics.js) И открываем велосипед: как вот это POST /collect HTTP/1.1 Host: www.google-analytics.com** используется вместо куки?
вторник, 16 сентября 2014 г.
Здесь мы возвращаемся к вопросу о переключени "инстансов" (IP) в TOR
Нагуглил два подхода: с Telnet и с библиотекой Python. Библиотек несколько, например Stem, TorCtl, TxTorCon, JTorCtl, PHPTorCtl Надо будет выбрать... И Telnet надо будет опробовать
Собираем здесь все типы файлов cookie в Google, ... классификация cookie и даже букмарклеты...
понедельник, 15 сентября 2014 г.
Вспоминаем про document.cookie, собираем ссылки про куки от Universal Analytics в Google Analytics
Здесь собираю ссылки на принципы работы с cookie ( Wikipedia, jQuery plugins, IT безопасность). Нахожу в справках Гугла описания многочисленных недостандартов куки... Пробую java script и нахожу плагины jQuery. Их хвалят на Stackoverflow... Не надо пренебрегать javascript. Отдельно отметим ссылку на "желтый сайт" Are you trying to get to Google? А всего здесь ссылок 30-ть... Изрядно
Читаю про .pac файлы для настройки и перключения прокси
суббота, 13 сентября 2014 г.
Второе впечатление о Fiddler2
Здесь ссылки на видеоподборки, которые я просмотрел. Есть и видеолист YouTube... Fiddler отлично взаимодействует с IE (WinHTTP)
пятница, 12 сентября 2014 г.
Здесь видео о настройке stream index Wireshark
Находим в параметрах TCP поле [stream index], создаем (правой кнопкой) столбец. Это видео подтвердило то, что я "открыл" сам. Потому констатирую, что прекращаю смотреть все подряд, посольку вышел на уровень уверенного чайника Wireshark.
четверг, 11 сентября 2014 г.
Wireshark tcp.hdr_len<27 в дайтаграмме переговоров о соединении - это плохо!
В этом видео показано, как использовать фильтр tcp.hdr_len<27&&tcp.flags.syn ==1. Запомним подход - фильтровать можно и по длине фрагмента, заголовка..., после этого видео я пошел искать книги по WireShark, где были бы собраны такие примеры...
среда, 10 сентября 2014 г.
Списки плагинов для Chrome (подбирал по темам cookie, proxy, REST)
суббота, 6 сентября 2014 г.
В Wireshark cуществует опция "Allow subdissector to reassemble TCP streams", она помогает оценить длительность HTTP загрузки
Два примера использования Regex в Wireshark из видеоролика
Ограничиваем область поиска и задаем фильтр...
пятница, 5 сентября 2014 г.
Data в Sequre Sockets Layer - это всегда подозрительно, Wireshark Protocol Hierarchy Statistics
Диагностируем ошибки TCP по этим видео... Потом пытаемся понять, что за ошибки имела в виду Laura Chappell
А из второго видео пытаемся понять, что это за фильтр: tcp.analysis.flags && !tcp.analysis.window_update
четверг, 4 сентября 2014 г.
Как оценить TTL (TCP Options) задержку ответа... видео о TimeStsmps в Wireshark
Здесь в 7-минутном ролике @laurachappell показывает, как добавить два варианта столбцов Timestamps в общую таблицу. А во втором фрейме TCP Extensions for High Performance rfc1323
среда, 3 сентября 2014 г.
При запуске NETSH (в Windows) программа рекомендовала мне использовать Power Shell, а потом я прочитал About WinHTTP
Netsh позволяет настраивать параметры сетей. В частности netsh winhttp show proxy (в предыдущем посте есть картинка о связи Fiddler и winhttp) ... Сюда я скопировал из консоли несколько справок (на русском) и мой первый запуск Power Shell... и с десяток ссылок: "Общие сведения о командах Netsh"... "How to Start Windows PowerShell on Windows 8" ...Netsh.exe and ProxyCfg.exe Proxy Configuration Tools
понедельник, 1 сентября 2014 г.
Fiddler - все ссылки и видеоролики. Особенности - WinHTTP, CryptoIP, WinINET... и Internet Explorer
воскресенье, 31 августа 2014 г.
Ссылки на RawCap и Powershell script чтобы отслеживать localhost (127.0.0.1) в Wireshark
пятница, 29 августа 2014 г.
Видеоуроки по меню Statistics Wireshark и ссылки на две подборки (8+13) видеоуроков
четверг, 28 августа 2014 г.
Здесь советы по использованию переменной окружения HTTP_PROXY (HTTPS_PROXY)
среда, 27 августа 2014 г.
Копия статьи "Фильтры захвата ...tcpdump, Wireshark, Paketyze
вторник, 26 августа 2014 г.
Wiki, developer`s guide, первые подборки видео и отборные статьи для практикумов по WireShark
понедельник, 25 августа 2014 г.
RawCap - может захватывать 127.0.0.1, Proxy/spider tool suites, sequrity tools - ссылки на обзоры
среда, 20 августа 2014 г.
Не нашел, как решить проблему сброса Telnet в Windows, но в Linux все работает, даже примеры с telnetlib
понедельник, 11 августа 2014 г.
Как работать в Scrapy shell через прокси. Поски привели к request.meta Последующие эксперименты с TOR озадачили
воскресенье, 10 августа 2014 г.
Распечатываем scrapy и scrapy.crawler.Crawler.settings
пятница, 8 августа 2014 г.
Понял, как подменять user-agent Scrapy shell...
среда, 6 августа 2014 г.
Проба запустить паука через TOR была отложена из-за того, что IDE Spyder не увидел новую папку. Раз способности ослабевают, ...
понедельник, 4 августа 2014 г.
Установка privoxy на windows для работы с TOR
суббота, 2 августа 2014 г.
Добавим к пауку CSV модули для формирования start_urls (На примере topmailru)
пятница, 1 августа 2014 г.
Первый спайдер-сырец с тремя объектами pipeline (работающий четвертьфабрикат)
вторник, 29 июля 2014 г.
Метод split объекта str и другие методы строки
суббота, 26 июля 2014 г.
Пробуем добавить поля в паука mail_csv_2_1. Парсим i['proj_name'] = response.url.split("/")[3]
пятница, 25 июля 2014 г.
Pipeline для того, чтобы отфильтровать первые две строчки после парсинга из источника nissan_2.csv
среда, 23 июля 2014 г.
Парсим csv файл своим первым MailCsvSpider
Как сохранить response.body в файл прямо из спайдера Scrapy (filename = "spider_"+response.url.split("/")[-2])
вторник, 22 июля 2014 г.
Пошаговое руководство по созданию проекта Scrapy CSV
вторник, 15 июля 2014 г.
Пример замены scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware
Продолжаем осваивать Scrapy shell - пытаемся понять и запомнить то, что выскакивает после .TAB в консоли iPython
вторник, 8 июля 2014 г.
Беспризорный Apache у меня стоял на Windows
Пытался понять почему антивирус такой прожорливый? Додумался, как настроить Google Chrome...
пятница, 4 июля 2014 г.
Снова выскочила ошибка "Не могу загрузить mathjax.js
Curl EXIT CODES (коды ошибок копипаст)
четверг, 3 июля 2014 г.
Curl command with proxy ...все из curl.1 the man page
Экспериентирую с HTTP заголовками Cookie в переговорах с Tornado localhost:8888
Смотрю видеоподборку от theurbanpenguin о том, как с Curl постить в Twitter полуавтоматом...
среда, 2 июля 2014 г.
Третий этап освоения Curl - статьи по запросу типа "Curl user agent"
Обзорное видео с примерами команд Curl (со списком команд)
вторник, 1 июля 2014 г.
Справочник основных команд VIM (7 summary from vimtutor)
VIM - это редактор не для чайников, смотрим видео и пробуем интерактивную онлайн-обучалку
Распечатка man curl довольно длинная
Что изучать wget или curl?
суббота, 28 июня 2014 г.
Первое знакомство с Node.js - видеоуроки на русском
четверг, 26 июня 2014 г.
Смотрю видео (2:21:04) "Documenting Your Project in Sphinx" с архивом на GitHub ... и нахожу два отличных справочника
После следующих 10 минут просмотра пришла в голову мысль - на бесплатный хостинг залить примеры из видео. Посмотрел на Гугл-сайтах. Там нельзя использовать свои страницы... И вот именно тут "осенило" и тут же нашел два готовых отличных чужих справочника... продвинутый Sampledoc и (азы) Documenting Your Project Using Sphinx
Устанавливаем в Kali "sphinx-bootstrap-theme"
среда, 25 июня 2014 г.
Тормозит не только сеть, но и браузер... Поэтому читаю "Высокая производительность Google Chrome"
вторник, 24 июня 2014 г.
При попытке запустить "sphinx python quickstart.py" выскочила ошибка AttributeError: 'module' object has no attribute 'getlocale'
воскресенье, 22 июня 2014 г.
Распечатка Sphinx quickstart.py оказалась достаточно длинной
Начинаем изучать Sphinx HTML theming support
суббота, 21 июня 2014 г.
Первый сайт на Sphinx (sphinx-quickstart, make html, make clear)
среда, 18 июня 2014 г.
Прочитал статью "How To Make Your Own Proxy Using Google App Engine"
ProxyFire и косноязычный юноша с pshacks-crew.com
Понравилась возможность собирать огромные прокси-листы (несколько тысяч прокси) и тут же их проверять. Более того, я недавно поставил, но не попробовал толком "ProxyFire" - делает все то же, что и в ролике... Да там еще обновления автоматизировать можно... Подробности в видео "Обзор ProxyFire"
Осваиваем Google Application Engine - Hello, World
Список ссылок на все случаи работы с PROXY
суббота, 14 июня 2014 г.
О модели OSI и стеке протоколов TCP/IP... Все ссылки на rfc собраны здесь
Видео о Privoxy -> Стандарты HTTP/1.1 -> Proxy_server forensicswiki -> Apache Module mod_proxy
вторник, 3 июня 2014 г.
Готовимся к проверке кода для ротирования списка словарей "Python Requests And Proxies"
вторник, 27 мая 2014 г.
Пример подключения proxy с urllib.urlopen выдал ошибку 403, пришлось задавать HTTP-заголовки с urllib2
Ссылки на видео и код "[Python] Simple network Sniffer"
У этого же автора есть еще ролики Downloading and Parsing possibilities of Python. As an example website was taken http://xkcd.com/
суббота, 24 мая 2014 г.
Планируем дальнейшие действия (Сегодня 24 мая 2014)
Проблемы, которые на самом деле называютcя "Infrastructure supporting"
пятница, 23 мая 2014 г.
RetryChangeProxyMiddleware... Можно переключать IP в Tor с помощью Python telnetlib
четверг, 22 мая 2014 г.
Продолжаю изучать randomproxy (но решаю, что начинать надо с простых примеров из документации Scrapy)
среда, 21 мая 2014 г.
Штатные серверы Python и немного о python-proxy-rotator
Здесь распечатаны файлы к RandomProxy с пауком dmoz
вторник, 20 мая 2014 г.
Первый удачный запуск связки proxychains+Tor
Здесь же собраны ссылки на файлы с настройками Tor, Polipo (альтернатива?) и документацию к Telnet
Возвращаемся к изуению Scrapy. Начинаем с shell
четверг, 15 мая 2014 г.
Обновление Kali и вопросы доустановки программ
среда, 14 мая 2014 г.
Как я вспомнил об about:about и попробовал оценить распределение памяти Firefox
А вторая тема - это список опций браузера about:about
четверг, 8 мая 2014 г.
Коммментарии к видео "Telnet client and server demonstration in Windows Vista and XP"
среда, 7 мая 2014 г.
Комментарии к cmd net и видео "Basics of ipconfig, ping, tracert, nslookup, and netstat "
Справочное руководство Nmap Man Page (есть ссылки на русский перевод)
вторник, 6 мая 2014 г.
Как запустить Proxychains and Tor и посмотреть на это в Telnet и w3m
воскресенье, 4 мая 2014 г.
Видео про sockets Python c WireShark и Scapy
В конце ролика отличные примеры работы со Scapy.
Today I`m learning "Socket Programming HOWTO" and improve my English
There are 7 links here ...and huge help(socket) file... and SocksiPy link and readme.txt ... And the question "Who use the SocketServer object" is still a charade for me...
четверг, 1 мая 2014 г.
Sphinx - три отличные ссылки и два посредственных видео
По мотивам ролика "Python tutorial: How to use Pydoc"
Конспект: "Создаём своё первое приложение с Django, часть 1"
Зачем мне эти таблицы БД, если я еще не решил, чего хочу... Прежде, чем грызть Django, потратим пару дней на Pydoc и Sphinx (следующие посты)
вторник, 29 апреля 2014 г.
Распечатаем справку и переменные среды из sys.path и Windows 8 (PATH, SET, SYSTEMINFO)
Мои попытки разобрать стек вызовов гибрида scrapy crawl dmoz (dmoz + randomproxy) вылились в упражнение с дебаггером
Поскольку замыслами все довольно сложно, потому надо бы изучить правила для папок Django (которые многие используют)... может быть это поможет?
Скрипт для импорта RSSS c delicious.com и первые неудачные попытки вызывать его из модуля
четверг, 24 апреля 2014 г.
Код из RandomProxy выдает ошибку с пауком dmoz
Запускаем пример паука Scrapy dmoz из "Crawling Scrapy Tutorial" все работает
вторник, 22 апреля 2014 г.
К статье "Python Packages and Environments with conda"
"...put simply, is an isolated working copy of Python which allows you to work on a specific project without worry of affecting other projects"
Оказывается, что для сборки Anaconda нужно использовать специальные команды утвновщика Conda
Пробую использовать "patterns" для импорта RSS в мои конспекты
По крайней мере, теперь можно собирать ссылки с разных компьютеров, а потом вставлять подборки ссылок в посты.
понедельник, 21 апреля 2014 г.
Два файла "Random proxy middleware for Scrapy "
Заметки при чтении главы "Modules" документации Python
Изучаем документацию к Scrapy, структуру папок и файлов на примере сакраментального паука 'dmoz' (dirboot)
Пробуем PyProxy - комбайн 2010 года для сбора и проверки адресов
пятница, 18 апреля 2014 г.
GTunnel is the latest of our FREEWARE client software offerings. Download GTunnel?
Одна маленькая ложка дегтя: в новостях на главной странице описаны пробемы сервиса (ограничения скорости, только китайские IP... в 2011г. последняя новость...).
Первая попытка установить Portia оказалась неудачной. Пришлось отложить...
среда, 16 апреля 2014 г.
Первые впечатления до и после дебаггинга "python -m pdb pyproxy.py -l"
Я попробовал было запустится из интерпретатора IPython, но понял, что проще запустить дебаггер из консоли "python -m pdb pyproxy.py -l"
Программа была написана именно для запуски из командной строки. В процессе дебаггинга все работало отлично. Удалось и скрипт запустить. В основе работы скрипта лежит идея использования регулярных выражений для идентификации строчек ' IP:Prt ' Далее то, что еще удалось узнать о скрипте...
понедельник, 14 апреля 2014 г.
Еще одно видео на 2,5 часа "Web scraping: Reliably and efficiently pull data from pages that ..."
Здесь обсуждаются библиотеки lxml, requests, mechanize, BeautifulSoup
Надеюсь найти здесь что-то новое для себя... Кроме того, на GitHub выложен код... меня заинтересовало, в частности в python-scraping-code-samples / javascript /
воскресенье, 13 апреля 2014 г.
Соглашение о стиле оформления кода PEP 8: Python Enhancement Proposals
После прочтения "db – Interactive Debugger" я прочитал про ipdb на Хабре
Практикум 1 по статье "pdb – Interactive Debugger"
Да, чуть не забыл, я еще посмотрел видео, откуда, собственно, и взял ссылку на эту статью.
Как использовать справку IPython
Потому здесь ссылки на страницы документации и распечатки "IPython help", "ipython help notebook", распечаток пары файлов README из недр C:.ipython
Курс в Корнельском университете "Networks, Crowds, and Markets: Reasoning about a Highly Connected World
можно читать онлайн Contents (with links to individual chapters),
можно скачать целиком pdf
Getting Started With Burp Suite
Здесь мы устанавливаем BURP, потом перехватываем и подменяем заголовки HTTP при заполнении формы ... как в видеоролике на 6 минут. В конце видео с сайта разработчиков. А в середине продвинутое видео на 42 минуты. "...how Burp helps you bypass site XSS and SQL injection checking, directory traversal, client side login checks, and find non-random sessions keys. ...upload a backdoor to the NAS and gain root" Есть еще ссылка на "Getting Started With Burp Suite"
Achieving Anonymity with Tor Part 5:Tor Bridges and Hidden Services ... Комментарии к статье
Achieving Anonymity with Tor Part 4:Tor Relays ... Комментарии к статье
Achieving Anonymity with Tor Part 3: Torbutton and Tsocks... Комментарии к статье
Achieving Anonymity with Tor Part 2: Proxies and DNS servers Комментарии к статье
Achieving Anonymity with Tor Part 1: ... Комментарии к статье
Потом идет введение в концепцию безопасности Tor, все шифруется...
Промежуточные итоги (и ссылки) по теме PROXY
И раз их так много, то должны быть и те, которые мне нужны. И чем меня не устраивают серверы на Python?
среда, 9 апреля 2014 г.
Зачем я установил gtConsole в сборку Kali
Что они там напрограммировали? Без нормальной документации (очень часто), с ошибками... Но свой код писать дольше, мне надщо практиковаться на чужих примерах.
И для начала... надо осовить дебаггер. А Notebook бросать не хочется, тем более, что есть %gtconsole (волшебная команда подключение консоли к пространству имен, созданному в текущей notebook)
Постановка задачи и немного ссылок на сервисы Python Proxy Checkers
Здесь мы рассмотрим проблему с другой стороны. А именно, рассмотрим оборудование для обмана сервера-мишени.
Ссылки, собраные в процессе работы по теме "Проксифаеры"
Пробуем PyProxy - комбайн 2010 года для сбора и проверки адресов
вторник, 8 апреля 2014 г.
Наконец Kali стал притормаживать, первой попалась статья про файл подкачки... но здесь команды bash.
понедельник, 7 апреля 2014 г.
При первом запуске vidalia Tor выдает предупреждения
После установки в Debian не сразу нашел луковицу(иконнку программы) в трее наверху, но обнаружил "vidalia" в разделе меню "Intenet". При открытии программа выдала предупреждение и попросила прочитаь лог:
Обновление Kali и вопросы доустановки программ
Репозитории Kali - какие подключать и как?
четверг, 3 апреля 2014 г.
Разбираем статью "How to create an advanced proxy server using Tor, Privoxy, and Squid"
среда, 2 апреля 2014 г.
Как работать с Polipo ... или кэширующий прокси (one thread) для единоличника.
С другой стороны, я нахожу, наконец, описание настройки связки "Scrapy-Polipo-Tor"... и решаю, что мозгу, таки, нужна четкая модель этих процессов.
Как надо было изучать Scrapy (первые итоги и ссылки)
Статья "Web Scraping" с примерами
Изучаем материал из статьи "Использование HTTP proxy и SOCKS в Linux"
вторник, 1 апреля 2014 г.
Еще одно видео на 2,5 часа "Web scraping: Reliably and efficiently pull data from pages that ..."
Здесь обсуждаются библиотеки lxml, requests, mechanize, BeautifulSoup
воскресенье, 30 марта 2014 г.
Из базовой статьи "Scraping One Million Points A Day, Here's How (TUTORIAL)" - перечисление всех инструментов.
Но после прочтения решил, что здесь будет только первая часть со всеми ссылками на сервисы и софт.
Размышления (и ссылки) о неизбежности прокси-сервера, Proxyfire , scrapy, grab
понедельник, 24 марта 2014 г.
Витание в облаках... установка и первые шаги с GitHub ... а как работать с нескольких компьютеров с разными OS?
Как я бросил все и стал читать книжки PRO GIT... и придумал три классификатора.
Получилось несколько простых классификаций (работа с открытыми проектами, стадии изучения, стадии завершенности проекта обучения), которые надеюсь использовать
понедельник, 17 марта 2014 г.
Удачный видеоролик "Kali Live USB with Persistence (Non Amnesic)
В итоге я "таки это сделал"... Скачал Win32 Disk Imager, загрузил Kali, записал на флешку... При помощи gparted создал на usb ext4 раздел и смонтировал его... и стало все "persistence". Здесь только HowTo, продолжение следует...
Статья "Web Scraping" - заготовка для изучения библиотеки Patterns и ... lxml, requests, Scrapy, Beautiful Soup
TOR With Python Tutorial #1 (С модулями socks socket ...по мотивам видеоролика и нового репозитория Pysocks на GitHub)
четверг, 6 марта 2014 г.
A few things that work best/only at the IPython terminal or Qt console clients (10) "... SciPy2013 Tutorial, Part 3 of 3"
Customizing IPython - Extensions (9) "... SciPy2013 Tutorial, Part 3 of 3"
Customizing IPython - Magics (8) "IPython in Depth, SciPy2013 Tutorial, Part 3 of 3"
Customizing IPython - Magics (8) "IPython in Depth, SciPy2013 Tutorial, Part 3 of 3"¶
среда, 5 марта 2014 г.
Configuring IPython (7) "IPython in Depth, SciPy2013 Tutorial, Part 3 of 3"
Defining Custom Display Logic for Your Own Objects (7) "IPython in Depth, SciPy2013 Tutorial, Part 2 of 3"
вторник, 4 марта 2014 г.
IPython's Rich Display System (6) "IPython in Depth, SciPy2013 Tutorial, Part 2 of 3"
Python for Hackers - Networkers Primer (Sockets, Webserver)
Как настроить показ видео YouTube (объект iFrame ...&start=34)
понедельник, 3 марта 2014 г.
Typesetting Math (5) "IPython in Depth, SciPy2013 Tutorial, Part 2 of 3"
Markdown Cells (4) SciPy2013 Tutorial, Part 2 of 3
IPython Notebook Basics (3) SciPy2013 Tutorial, Part 2 of 3
Running Code in the IPython Notebook (2) SciPy2013 Tutorial, Part 2 of 3
IPython in Depth, SciPy2013 Tutorial, Part 1 of 3 "IPython: beyond plain Python"
среда, 26 февраля 2014 г.
Где прочитать о том, как работает IPython kernel и сервер Tornado
Справочники по объектам HTML Javascript в IPython Notebook, и немного о %magic и корне сервера.
понедельник, 24 февраля 2014 г.
Как получить справку в IPython... о %magic
среда, 19 февраля 2014 г.
Короткий пост об обновлении Anaconda "Conda update conda"
Introduction to Pandas and Vincent
пятница, 14 февраля 2014 г.
Pandas Data Frames and Kevin Durant 2012-13 Game Log with Mahdi Yusuf
Файл csv пришлось предварительно отредактировать, создание новой таблицы, процедура замены строки "40:00" числом (секунд) -2400, группировка... Пост заканчивается диаграммой, построенной с помощью модуля vincent - Vega