Поиск по блогу

четверг, 24 апреля 2014 г.

Код из RandomProxy выдает ошибку с пауком dmoz

В предыдущем посте я опубликовал сообщения из консоли при успешном запуске dmoz. Здесь мы добавим к этому работающему коду вставки от randomproxy (scrapy middleware), получим ошибки парсинга строк в модуле... и решим не реанимировать модуль, а посмотреть другие.

Первоисточники и ссылки

Как и написано в руководстве, я скопировал randomproxy.py в dirbot, и добавил строки в файл settings.py

In [3]:
!chcp 65001
!dir C:\Users\kiss\Documents\GitHub\dirbot_se1\dirbot
Active code page: 65001
 Volume in drive C has no label.
 Volume Serial Number is 6017-2A0B

 Directory of C:\Users\kiss\Documents\GitHub\dirbot_se1\dirbot

24.04.2014  10:41    <DIR>          .
24.04.2014  10:41    <DIR>          ..
09.12.2013  13:42               131 items.py
22.04.2014  21:30               408 items.pyc
23.04.2014  19:08               106 list.txt
09.12.2013  13:42               524 pipelines.py
22.04.2014  21:30               844 pipelines.pyc
24.04.2014  10:40             1В 507 randomproxy.py
24.04.2014  10:41             1В 920 randomproxy.pyc
23.04.2014  19:16               874 settings.py
23.04.2014  19:16               709 settings.pyc
23.04.2014  15:16    <DIR>          spiders
09.12.2013  13:42                 0 __init__.py
22.04.2014  21:30               105 __init__.pyc
              11 File(s)          7В 128 bytes
               3 Dir(s)  402В 886В 742В 016 bytes free

In [4]:
%load 'C:\\Users\\kiss\\Documents\\GitHub\\dirbot_se1\\dirbot\\settings.py'
In []:
# Scrapy settings for dirbot project

SPIDER_MODULES = ['dirbot.spiders']
NEWSPIDER_MODULE = 'dirbot.spiders'
DEFAULT_ITEM_CLASS = 'dirbot.items.Website'

ITEM_PIPELINES = ['dirbot.pipelines.FilterWordsPipeline']


# Ниже все, что добавлено к оригинальному файлу
# Retry many times since proxies often fail
RETRY_TIMES = 10
# Retry on most error codes since proxies fail for different reasons
RETRY_HTTP_CODES = [500, 503, 504, 400, 403, 404, 408]

DOWNLOADER_MIDDLEWARES = {
    'scrapy.contrib.downloadermiddleware.retry.RetryMiddleware': 90,
    # Fix path to this module
    'dirbot.randomproxy.RandomProxy': 100,
    'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110,
}

# Proxy list containing entries like
# http://host1:port
# http://username:password@host2:port
# http://host3:port
# ...
PROXY_LIST = 'dirbot/list.txt'
In [5]:
%load 'C:\\Users\\kiss\\Documents\\GitHub\\dirbot_se1\\dirbot\\randomproxy.py'
In []:
import re
import random
import base64
from scrapy import log
# debugger
import pdb

class RandomProxy(object):
    def __init__(self, settings):
        self.proxy_list = settings.get('PROXY_LIST')
        fin = open(self.proxy_list)

        self.proxies = {}
        for line in fin.readlines():
            parts = re.match('(\w+://)(\w+:\w+@)?(.+)', line)
            pdb.set_trace()
            # Cut trailing @
            if parts[1]:                                         # line 16
                parts[1] = parts[1][:-1]

            self.proxies[parts[0] + parts[2]] = parts[1]

        fin.close()

    @classmethod  
    def from_crawler(cls, crawler):                              # line 25
        return cls(crawler.settings)

    def process_request(self, request, spider):
        # Don't overwrite with a random one (server-side state for IP)
        if 'proxy' in request.meta:
            return

        proxy_address = random.choice(self.proxies.keys())
        proxy_user_pass = self.proxies[proxy_address]

        request.meta['proxy'] = proxy_address
        if proxy_user_pass:
            basic_auth = 'Basic ' + base64.encodestring(proxy_user_pass)
            request.headers['Proxy-Authorization'] = basic_auth

    def process_exception(self, request, exception, spider):
        proxy = request.meta['proxy']
        log.msg('Removing failed proxy <%s>, %d proxies left' % (
                    proxy, len(self.proxies)))
        try:
            del self.proxies[proxy]
        except ValueError:
            pass

А в консоли выскочили ошибки как раз в файле randomproxy.py

In []:
C:\Users\kiss\Documents\GitHub\dirbot_se1>scrapy crawl dmoz
2014-04-23 19:16:40+0400 [scrapy] INFO: Scrapy 0.20.1 started (bot: scrapybot)
2014-04-23 19:16:40+0400 [scrapy] DEBUG: Optional features available: ssl, http11, boto, django
2014-04-23 19:16:40+0400 [scrapy] DEBUG: Overridden settings: {'DEFAULT_ITEM_CLASS': 'dirbot.items.Website', 'NEWSPIDER_MODULE': 'di
rbot.spiders', 'SPIDER_MODULES': ['dirbot.spiders'], 'RETRY_TIMES': 10, 'RETRY_HTTP_CODES': [500, 503, 504, 400, 403, 404, 408]}
2014-04-23 19:16:42+0400 [scrapy] DEBUG: Enabled extensions: LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, SpiderStat
e
Traceback (most recent call last):
  File "C:\Users\kiss\Anaconda\lib\runpy.py", line 162, in _run_module_as_main
    "__main__", fname, loader, pkg_name)
  File "C:\Users\kiss\Anaconda\lib\runpy.py", line 72, in _run_code
    exec code in run_globals
    .................
    .................
  File "C:\Users\kiss\Anaconda\lib\site-packages\scrapy\middleware.py", line 50, in from_crawler
    return cls.from_settings(crawler.settings, crawler)
  File "C:\Users\kiss\Anaconda\lib\site-packages\scrapy\middleware.py", line 31, in from_settings
    mw = mwcls.from_crawler(crawler)
  File "dirbot\randomproxy.py", line 25, in from_crawler
    return cls(crawler.settings)
  File "dirbot\randomproxy.py", line 16, in __init__
    if parts[1]:
TypeError: '_sre.SRE_Match' object has no attribute '__getitem__'
В сроке 25 - это строка после "@classmethod", а строка 16 - это условие "if parts[1]:" Начнем с ошибки
Оказывается, что re.math выдает объект, а не список. Для того, чтобы обратится к элементу объекта нужно пользоваться свойством parts.group(0), а не parts[0]
Зачем автору понадобилось загонять список прокси в словарь? Не понятно... и подозрительно. Пока (после этого) не хочется тратить время на раскопки..., потому оставим здесь примеры с groups() и закончим этот пост. Надо посмотреть другие пакеты рабты с прокси, а уж потом решить, стоит ли реанимировать этот.
In [7]:
import re
line='http://94.180.118.34:8080\n'
In [8]:
parts = re.match('(\w+://)(\w+:\w+@)?(.+)', line)
In [9]:
print parts
<_sre.SRE_Match object at 0x000000000811E588>

In [11]:
parts = re.split('(\w+://)(\w+:\w+@)?(.+)', line)
parts
Out[11]:
['', 'http://', None, '94.180.118.34:8080', '\n']
In [12]:
parts[1] = parts[1][:-1]
In [14]:
parts[1]
Out[14]:
'http:/'
In [16]:
p02=parts[0] + parts[2]
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-16-67d44d738450> in <module>()
----> 1 p02=parts[0] + parts[2]

TypeError: cannot concatenate 'str' and 'NoneType' objects
In [17]:
#Example from 2.6 version of Python 
m = re.match(r"(\w+) (\w+)", "Isaac Newton, physicist")
In [18]:
m.group(0)
Out[18]:
'Isaac Newton'
In [19]:
m
Out[19]:
<_sre.SRE_Match at 0x85100b8>
In [20]:
parts.group(0)
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-20-4a710add4308> in <module>()
----> 1 parts.group(0)

AttributeError: 'list' object has no attribute 'group'
In [21]:
parts = re.match('(\w+://)(\w+:\w+@)?(.+)', line)
In [22]:
parts.group(0)
Out[22]:
'http://94.180.118.34:8080'
In [27]:
parts.group(1),parts.group(2),parts.group(3)
Out[27]:
('http://', None, '94.180.118.34:8080')


Посты чуть ниже также могут вас заинтересовать

1 комментарий:

  1. Несколько приемов, которые показались необычными:
    1. Задал константу PROXY_LIST = 'dirbot/list.txt' в файле settings.py
    2. Затем использовал эту константу в другом модуле

    class RandomProxy(object):
    def __init__(self, settings):
    self.proxy_list = settings.get('PROXY_LIST')
    fin = open(self.proxy_list)

    ОтветитьУдалить