Поиск по блогу

понедельник, 14 апреля 2014 г.

Еще одно видео на 2,5 часа "Web scraping: Reliably and efficiently pull data from pages that ..."

Я ознакомился с Scrapy, Grub..., множеством краулеров и спайдеров..., теперь нужно будет что-то выбрать и начать практиковаться. Но прежде я решил посмотреть еще и вот этот ролик, уж очень он популярный.
Здесь обсуждаются библиотеки lxml, requests, mechanize, BeautifulSoup
Надеюсь найти здесь что-то новое для себя... Кроме того, на GitHub выложен код... меня заинтересовало, в частности в python-scraping-code-samples / javascript /

"The code in this directory shows you a few ways to interact with JavaScript code from Python. Generally, I advise using Selenium RC instead."
Exciting information is trapped in web pages and behind HTML forms. In this tutorial, you'll learn how to parse those pages and when to apply advanced techniques that make scraping faster and more stable.
In []:
lxml
requests
mechanize
BeautifulSoup
In []:
kodos- the python regexp debugger
In []:
Video [How to Use Mechanize with Socks Proxy](http://www.youtube.com/watch?v=3w-v2BQopEg)
[chris reeves Twitter Sentiment Analysis](http://www.youtube.com/user/creeveshft/videos)
[]()
[]()
Посмотрел mechanize, очень понравилась статья:
Очаровательный Python: Собираем данные в Web с помощью mechanize и Beautiful Soup, но не понравилось то, что она написана в 2010 году... Решил проверить подозрения
Is it worth learning Scrapy? [closed] ... Да, действительно, "mechanize" устарела.
Сомнений нет, откладываем этот ролик до лучших времен ...например, до того временм, когда мне понадобится парсить js


Посты чуть ниже также могут вас заинтересовать

Комментариев нет:

Отправить комментарий