Поиск по блогу

понедельник, 29 декабря 2014 г.

Первый приемлемый вариант работы c jQuery Console+Scratchpad c CSS селекторами вместо XPath

Сначала определились со структурой селекторов html-кода (есть картинка), а потом использовали две строчки кода:
var qq ='*.tile-pin__text';
$(qq).map(function(){return $(this).text(); }).get().join("\n");

У jQuery есть отличный справочник, как и на сайте JavaScript MDN

воскресенье, 28 декабря 2014 г.

Ссылки по теме "XPath MDN Mozilla" и "Introduction to using XPath in JavaScript MDN"

Здесь десяток ссылок от Mozilla Development Network. Эти записи я сделал, когда пытался выбрать инструментарий для парсинга html-страниц. Потом я догадался разделить все мои задачи на две категории. Первая - настройка селекторов для спайдеров (Scrapy). Вторая - ручной (экспрес)парсинг из одной-двух html-страниц, когда надо быстро, а паука писать не хочется. ТОгда можно открыть консоль и по-быстрому вырезать нужные элементы. И все работает, только одна проблема вырисовывается - чтобы вытащить нужные данные из объектов консоли нужны довольно сложнве команды. К таким выводам я пришел после беглого знакомства с мануалами от MDN И Явускрипт победил простой плагин XPath helper.

Короткий пример с работы с jQuery из консоли $x для просмотров запроса Xpath

В плагине FirePath генерируем строку запроса XPath, открываем консоль, а в ней уже выполняем сначала var hr =$x('html/body/div[2]/div/div[2]/div/div/div/div[2]/div/div[1]/div[5]/div[2]/a/@href');, а потом пробуем примерhr[0].nodeValue)map(function(){return $(this).text(); }).get().join("\n")

суббота, 27 декабря 2014 г.

Найден хороший плагин XPath Helper for chrome, но хочется большего

Это предисловие я пишу уже после того, как понял, что мне нужно разделить задачи генерирования Xpath для "боевого" парсера и "экспресс-парсинга" данных с HTML страницы. Здесь же я пытался решить сразу две, окончательное решение для каждой в последующих постах, а здесь пример, пояснения и картинка для XPath Helper for chrome

пятница, 26 декабря 2014 г.

ScrathPad почти идеальный js редактор

Здесь видео и ссылки на документацию. Мне не удалось найти автодополнение и контекстную справку для jQuery. На данный момент для справки jQuery я использую консоль Firebug. Именно Firebug, а не встроенные инструменты 'Web Developer'

вторник, 9 декабря 2014 г.

После обновления Ipython Notebook нужно было править таблицы стилей CSS для экспорта в Blogger

Дело это неблагодарное, но деваться было некуда, HTML шаблон Notebook был изменен так, что все мои "новые" посты выглядели ужасно. После того, как их набралось больше сотни, я понял, что надо совершать подвиг... Здесь я пытаюсь понять, зачем мне три файла CSS - около 250 строк, которые я выбрал из 2500 строк, генерируемых после импорта nbconvert --to html --template full...
Ну, и конечно, я пытаюсь провести работу над ошибками, почему я угрохал на эту задачку 4 дня...

понедельник, 8 декабря 2014 г.

My old Blogger template for this Notebook in Google Drivenotepad

There are some old lines of css and java scripts here. And nowadays everything is working fine... But time goes by... one day I will have to repair this code... but not today.
Today I prepare this old Blogger Template for new GoogleDrive online Editor. And everyone can look for bugs here right now.

Три файла CSS для Blogger. Я везде "отсек все лишнее", а свои хаки добавил в третий файл

Здесь три файла CSS после моего декабрьского апргрейда. А еще (только для меня) три ссылки на файлы в новом онлайн редакторе css.editey. Все изменения тут же записываются на GoogleDisk. Ну очень удобно. В редакторе есть (!)подсказки (на картинке в желтых треугольниках), с которыми еще надо бы поработать.

вторник, 2 декабря 2014 г.

Зачем нужны Scrapy Feed exports и CsvItemExporter

Первый вариант настройки в документации, второй - super(SlybotCSVItemExporter, self).init(args, *kwargs) - чемпион ГитХаба, для начала я воспроизвел второй вариант от github agrimrules/Python-Web-Crawler но воспроизвел в посте Пробовал "Scrapy feed exporter" ... а до первого варианта здесь так и не дошел... Зато в этом посте около 30 ссылок !