芯片扑克牌黑科技

書名：精通Scrapy網絡爬蟲
作者名：劉碩
本章字數： 283字
更新時間： 2020-11-28 14:59:39

3.2 Response內置Selector

在實際開發中，幾乎不需要手動創建Selector對象，在第一次訪問一個Response對象的selector屬性時，Response對象內部會以自身為參數自動創建Selector對象，并將該Selector對象緩存，以便下次使用。Scrapy源碼中的相關實現如下：

        class TextResponse(Response):
          def __init__(self, *args, **kwargs):
              ...
              self._cached_selector = None
              ...

          @property
          def selector(self):
              from scrapy.selector import Selector
              if self._cached_selector is None:
                self._cached_selector = Selector(self)
              return self._cached_selector
          ...

通常，我們直接使用Response對象內置的Selector對象即可：

        >>> from scrapy.http import HtmlResponse
        >>> body = '''
        ... <html>
        ...    <body>
        ...        <h1>Hello World</h1>
        ...        <h1>Hello Scrapy</h1>
        ...        <b>Hello python</b>
        ...        <ul>
        ...           <li>C++</li>
        ...           <li>Java</li>
        ...           <li>Python</li>
        ...        </ul>
        ...    </body>
        ... </html>
        ... '''
        ...
        >>> response = HtmlResponse(url='http://www.example.com', body=body, encoding='utf8')
        >>> response.selector
        <Selector xpath=None data='<html>\n       <body>\n          <h1>He'>

為了方便用戶使用，Response對象還提供了xpath和css方法，它們在內部分別調用內置Selector對象的xpath和css方法。Scrapy源碼中的相關實現如下：

        class TextResponse(Response):
          ...
          def xpath(self, query, **kwargs):
              return self.selector.xpath(query, **kwargs)
          def css(self, query):
              return self.selector.css(query)
          ...

使用這兩個快捷方式可使代碼更加簡潔：

        >>> response.xpath('.//h1/text()').extract()
        ['Hello World', 'Hello Scrapy']
        >>> response.css('li::text').extract()
        ['C++', 'Java', 'Python']

官术网_书友最值得收藏!

精通Scrapy網絡爬蟲

3.2 Response內置Selector