Поиск по блогу

вторник, 1 апреля 2014 г.

Еще одно видео на 2,5 часа "Web scraping: Reliably and efficiently pull data from pages that ..."

Я ознакомился с Scrapy, Grub..., множеством краулеров и спайдеров..., теперь нужно будет что-то выбрать и начать практиковаться. Но прежде я решил посмотреть еще и вот этот ролик, уж очень он популярный.
Здесь обсуждаются библиотеки lxml, requests, mechanize, BeautifulSoup

Надеюсь найти здесь что-то новое для себя... Кроме того, на GitHub выложен код... меня заинтересовало, в частности в python-scraping-code-samples / javascript /
"The code in this directory shows you a few ways to interact with JavaScript code from Python. Generally, I advise using Selenium RC instead."
Exciting information is trapped in web pages and behind HTML forms. In this tutorial, you'll learn how to parse those pages and when to apply advanced techniques that make scraping faster and more stable.
In []:
lxml
requests
mechanize
BeautifulSoup
In []:
kodos- the python regexp debugger
In []:
Video [How to Use Mechanize with Socks Proxy](http://www.youtube.com/watch?v=3w-v2BQopEg)
[chris reeves Twitter Sentiment Analysis](http://www.youtube.com/user/creeveshft/videos)
[]()
[]()
Посмотрел mechanize, очень понравилась статья:
Очаровательный Python: Собираем данные в Web с помощью mechanize и Beautiful Soup, но не понравилось то, что она написана в 2010 году... Решил проверить подозрения
Is it worth learning Scrapy? [closed] ... Да, действительно, "mechanize" устарела.
Сомнений нет, откладываем этот ролик до лучших времен ...например, до того временм, когда мне понадобится парсить js


Посты чуть ниже также могут вас заинтересовать

1 комментарий:

  1. 20-минутное видео http://www.youtube.com/watch?v=p4dOPXWaeLI
    Code for tutorials can be found at my github repository. Even more code is available for free here as well. http://github.com/creeveshft

    Generating links with Mechanize in Python for our web crawling using idle on a windows machine. Later I will install mechanize for python on my linux server in California.

    Mechanize is a powerful python module that I have used many times for web scraping!

    To see my data feeds and other products for sale and lease visit my website and purchase data feeds or software products.
    http://christopherreevesofficial.com

    Follow me on Twitter: http://twitter.com/cjreeves2011

    The web scraping news system is located here
    http://adbnews.com

    For consulting work greater than $50,000 or comments and suggestions email creeveshft@gmail.com

    Read my personal blog : http://blog.christopherreevesofficial...

    ОтветитьУдалить