1
0
wiki/FormalSciences/ComputerScience/ProgrammingLanguage/Python/3.Libraires/网络爬虫与数据抓取/Scrapy.md
2024-10-15 17:38:53 +08:00

78 KiB
Raw Blame History

title description keywords tags author date
Scrapy 全面介绍了Scrapy框架这是一个用于网络爬虫和网页抓取的Python框架。文章从Scrapy的起源、架构、核心组件、工作流程、生命周期、特点、安装、使用到数据抓取与解析、Item与数据管道、中间件与扩展、反爬机制与应对策略再到分布式爬虫的实现、与其他框架的集成、项目的测试与调试以及性能优化和最佳实践等方面进行了深入探讨。旨在为开发者提供一个关于Scrapy框架的全面指南帮助他们更高效地进行网络数据采集。
Scrapy
架构分析
工作流程
生命周期
数据抓取
Item
数据管道
中间件
分布式爬虫
FormalSciences/ComputerScience
ProgrammingLanguage/Python
Python/Libraires
仲平 2024-10-15

Scrapy

Scrapy 是一个广泛使用的用于网络爬虫和网页抓取的 Python 框架,它为开发者提供了高效的数据采集方式,能够应对复杂的网页结构和反爬机制。其灵活的架构和丰富的组件让开发者可以轻松处理从网页解析到数据存储的各个环节,同时具备高性能和可扩展性。

Scrapy 的起源与发展

Scrapy 起源于 2008 年,最初是为开发 web 爬虫而设计的一个内部项目,由一家专注于 Web 数据处理的公司 Mydeco 开发。最初的开发动机是为了应对电子商务网站的数据采集需求由于早期市面上的工具和框架较为局限且定制性不足Scrapy 的诞生有效填补了这一空缺。

随着开源社区的贡献Scrapy 得到了迅速的发展,并于 2010 年作为一个开源项目发布在 GitHub 上。它的开源性和可扩展性吸引了越来越多的开发者和企业使用在不同领域的网络数据抓取、内容聚合和搜索引擎优化等方面得到了广泛应用。如今Scrapy 已经成为 Python 社区中最受欢迎的爬虫框架之一,支持多种协议(如 HTTP、HTTPS和编码格式并集成了强大的反爬机制处理能力。

Scrapy 的架构分析

Scrapy 是一个基于异步处理机制的高效分布式爬虫框架,能够同时处理大量网络请求。它的模块化设计不仅具备强大的定制能力,而且在爬虫的各个阶段可以灵活扩展。通过使用 Scrapy开发者可以高效地爬取网页并处理数据。

核心组件

Scrapy 的核心架构包括多个组件,每个组件在不同阶段发挥重要作用。以下是 Scrapy 核心组件及其功能:

classDiagram
    %% Scrapy Engine: 核心组件,负责管理整个工作流
    class Scrapy_Engine {
        +start_requests() 启动爬虫并生成初始请求
        +handle_request() 将请求发送到 Scheduler 和 Downloader
        +handle_response() 处理 Downloader 返回的响应
        +process_item() 通过 Pipeline 处理数据项
    }
    
    %% Scheduler: 管理请求队列并去重
    class Scheduler {
        +enqueue_request() 将请求添加到队列
        +dequeue_request() 将请求发送到 Downloader
        +deduplication() 确保请求不重复
        +request_queue 请求队列
    }
    
    %% Downloader: 根据 HTTP 请求下载网页内容
    class Downloader {
        +download_request() 下载网页内容
        +handle_redirects() 处理重定向
        +process_response() 处理下载的响应
    }
    
    %% Spider: 定义如何提取和处理数据
    class Spider {
        +parse() 解析响应并提取数据
        +generate_request() 根据链接创建新请求
        +extract_data() 从页面中提取数据
        +follow_links() 处理分页或跟随链接
    }
    
    %% Pipeline: 处理和存储提取的数据
    class Pipeline {
        +process_item() 处理并清洗数据
        +clean_data() 清洗和验证数据
        +store_item() 将数据存储到数据库或文件
    }
    
    %% Middleware: 修改请求和响应的中间层
    class Middleware {
        +process_request() 发送前修改请求
        +process_response() 将修改后的响应传递给 Spider
        +handle_proxy() 设置代理、请求头、Cookies
    }

    %% Storage: 从 Pipeline 中存储处理后的数据
    class Storage {
        +save_to_db() 保存数据到数据库
        +save_to_file() 写入数据到文件 (CSV、JSON)
    }

    %% 组件之间的关系
    Scrapy_Engine --> Scheduler : 管理请求
    Scrapy_Engine --> Downloader : 处理请求
    Scrapy_Engine --> Spider : 处理响应
    Spider --> Pipeline : 传递提取数据
    Spider --> Middleware : 修改请求和响应
    Pipeline --> Storage : 保存清洗后的数据
    Downloader --> Middleware : 修改请求/响应
    Downloader --> Web : 发送 HTTP 请求
    Scheduler <--> Downloader : 管理请求队列
  1. Scrapy Engine引擎 Scrapy 的引擎负责管理整个爬虫的工作流程协调调度器、下载器、Spider 和数据管道之间的交互。它的主要职责包括启动爬虫、处理请求和响应、调用各个组件的功能等。引擎是 Scrapy 的核心,它连接了所有组件并确保工作流程的顺畅执行。
  2. Spider爬虫 Spider 是用户定义的类,负责从特定网站提取数据。它定义了如何生成初始请求、解析网页内容、提取数据,并决定是否生成新的请求。每个 Spider 代表特定的抓取逻辑。
  3. Scheduler调度器 调度器负责接收来自引擎的请求,并管理这些请求的优先级和去重。它将请求加入队列,并根据请求优先级依次将请求发送给下载器。
  4. Downloader下载器 下载器负责发送 HTTP/HTTPS 请求并获取网页响应。Scrapy 的下载器基于异步框架 Twisted,能够高效地处理大量并发请求。
  5. Pipeline数据管道 数据管道处理从 Spider 提取出来的数据。它包括数据清洗、验证、格式转换和存储等步骤。经过处理的数据最终会被存储到数据库、文件或其他存储介质中。
  6. Downloader Middlewares下载器中间件 介于下载器和 Scrapy 引擎之间,允许用户在请求发送前或响应返回后对请求和响应进行处理。常用于修改请求头、处理 Cookies、设置代理等帮助绕过目标网站的反爬机制。
  7. Spider Middlewares爬虫中间件 爬虫中间件用于对 Spider 和引擎之间的请求和响应进行处理,允许修改 Spider 生成的请求或对 Spider 返回的响应进行过滤或预处理。
  8. Storage数据存储 数据管道处理后的数据最终存储到指定的介质中,可能是数据库、文件系统、云存储等。

工作流程

Scrapy 的工作流程是一个典型的事件驱动、异步执行的过程,其主要步骤如下:

flowchart TD
    A[启动爬虫] --> B[生成初始请求]
    B --> C[调度器接收请求]
    C -->|请求去重和排序| D[调度请求]
    D --> E[下载器发送请求]
    E -->|下载网页内容| F[获取响应]
    F --> G[Spider解析响应]
    G -->|提取Item或生成新请求| H[数据管道处理]
    H --> I[存储数据]
    
    G --> B[生成新请求]

生命周期

sequenceDiagram
    participant User as 用户
    participant Engine as Scrapy引擎
    participant Spider as 爬虫
    participant Scheduler as 调度器
    participant Downloader as 下载器
    participant Pipeline as 数据管道
    participant Storage as 数据存储
    User ->> Engine: 启动爬虫
    Engine ->> Spider: 调用 start_requests()
    Spider ->> Scheduler: 生成初始请求
    Scheduler ->> Downloader: 分发请求
    Downloader ->> Web: 发送HTTP请求
    Web ->> Downloader: 返回响应
    Downloader ->> Engine: 传递响应
    Engine ->> Spider: 调用 parse() 方法
    Spider ->> Pipeline: 传递提取的数据
    Pipeline ->> Storage: 清洗并存储数据
    Spider ->> Scheduler: 生成新请求
    Scheduler ->> Downloader: 分发新请求
    Scheduler ->> Engine: 无新请求,结束爬虫
    Engine ->> User: 爬虫结束
  1. 启动爬虫 当执行 scrapy crawl spider_name 命令时Scrapy 引擎启动开始初始化各个组件如调度器、下载器和爬虫。启动后Spider 开始生成初始请求。
  2. 生成初始请求 Spider 类调用 start_requests() 方法,生成初始的 HTTP 请求。这些请求通常是由 start_urls 列表中的 URL 构成。生成的请求通过 Scrapy 引擎被传递到调度器。
  3. 调度器接收请求 调度器接收由 Spider 生成的初始请求,并将这些请求放入调度队列。调度器负责管理所有待处理的请求。
  4. 请求去重和排序 调度器对接收到的请求进行去重处理,确保每个 URL 只被抓取一次。调度器还会根据请求的优先级对其进行排序,以决定处理顺序。
  5. 调度请求 调度器从队列中取出待处理的请求,并将其传递给下载器。
  6. 下载器发送请求 下载器接收到调度器传递的请求后,通过 HTTP/HTTPS 协议向目标网站发送请求,获取网页内容。
  7. 下载网页内容并获取响应 目标网站返回 HTTP 响应,响应中包含网页的 HTML 内容或其他格式的数据(如 JSON、XML。下载器将响应返回给 Scrapy 引擎。
  8. Spider 解析响应 Scrapy 引擎将下载器返回的响应传递给 Spider。Spider 使用 parse() 方法解析响应中的数据,提取出需要的数据项(如产品名称、价格等),或根据页面内容生成新的请求以抓取更多数据(如分页抓取)。
  9. 数据管道处理数据 Spider 提取的数据通过数据管道Pipeline进行进一步处理。数据管道对数据进行清洗、验证、格式转换等操作。
  10. 存储数据 经过数据管道处理后的数据最终被存储到指定的存储介质中如文件CSV、JSON或数据库MySQL、MongoDB
  11. 生成新请求 Spider 在解析响应的过程中,可能会生成新的请求(如跟踪下一页的链接)。这些新请求被传递回调度器,并重复上述的流程,直到所有请求处理完毕。

Scrapy 的特点与优势

Scrapy 作为一个功能强大的爬虫框架,具备以下几个显著的特点和优势:

  • 高效的异步处理: Scrapy 基于 Twisted 框架,支持异步 I/O 操作这使得它在面对大规模网络请求时可以并发地进行处理极大提高了爬取效率。即便是需要抓取大量数据或多个网页Scrapy 也能快速完成任务。
  • 模块化设计: Scrapy 的架构非常模块化,几乎每个环节都可以通过中间件进行扩展和定制。无论是请求调度、下载、解析还是数据存储,开发者都可以根据需求调整或替换各个模块的行为。
  • 强大的数据解析能力: Scrapy 提供了丰富的数据提取方法,支持 XPath 和 CSS 选择器能够精确地从复杂的网页中提取所需内容。此外Scrapy 内置的解析器对不同格式的响应数据(如 HTML、JSON、XML都有良好的支持。
  • 内置去重机制和高效调度: Scrapy 的调度器具有内置的 URL 去重功能,能够避免重复抓取同一页面。此外,调度器支持多种请求优先级设置,确保爬虫可以灵活处理不同优先级的页面。
  • 强大的中间件机制: Scrapy 提供了丰富的中间件功能,开发者可以轻松实现如代理切换、用户代理池、自动 Cookie 管理等功能,这对于应对目标网站的反爬机制尤为关键。
  • 社区支持和扩展插件: 由于 Scrapy 拥有广泛的社区基础,开发者可以找到许多开源的扩展和插件,涵盖了从分布式抓取到云端存储等各类需求。这为开发者减少了大量重复劳动,并提供了更多的可扩展性选择。
  • 跨平台和易于部署: Scrapy 支持在多个操作系统上运行,且与 Docker 等容器化技术兼容能够方便地进行大规模分布式爬虫任务的部署。Scrapy 还支持将抓取结果导出为 JSON、CSV 等多种格式,便于数据的后续分析和处理。

综上所述Scrapy 凭借其高效的架构设计、灵活的定制能力和强大的数据抓取功能已成为网络数据采集领域的首选工具之一。无论是初学者还是资深开发者Scrapy 都为他们提供了一个灵活而高效的解决方案,使得从数据抓取到处理的整个流程更加简洁、系统和高效。

Scrapy 安装与入门

在开始使用 Scrapy 进行网络爬虫开发之前首先需要搭建好开发环境并熟悉基本的框架操作。Scrapy 基于 Python 编写,因此开发环境的准备和配置主要围绕 Python 环境及其依赖库的安装展开。

Scrapy 的安装与验证

安装好 Python 之后,就可以安装 Scrapy。Scrapy 的安装非常简单,可以通过 pip 直接安装:

pip install scrapy

Scrapy 的安装过程可能会涉及一些依赖库的安装,如 Twistedlxml。这些依赖库用于处理异步网络请求和解析 HTML 数据Scrapy 会自动处理这些依赖。安装完成后,通过以下命令验证 Scrapy 是否安装成功:

scrapy

如果安装成功Scrapy 会输出可用的命令列表,如 startprojectgenspider 等,说明 Scrapy 已成功安装并可以正常使用。

创建第一个 Scrapy 项目

接下来,我们将通过创建一个简单的 Scrapy 项目来熟悉框架的基本操作流程,并介绍如何编写 Spider 进行网页数据的抓取。

项目的创建与目录结构

首先,使用 Scrapy 自带的 startproject 命令创建一个新的爬虫项目。打开命令行或终端,输入以下命令来创建项目:

scrapy startproject myproject

此命令将创建一个名为 myproject 的 Scrapy 项目,并生成以下目录结构:

myproject/
│
├── scrapy.cfg         # Scrapy 项目的配置文件
└── myproject/         # 主模块目录
    ├── __init__.py    # 标识此目录为 Python 包
    ├── items.py       # 定义数据结构 (Item)
    ├── middlewares.py # 自定义中间件
    ├── pipelines.py   # 数据管道处理
    ├── settings.py    # 项目设置
    └── spiders/       # 存放 Spider 爬虫文件
        └── __init__.py
文件/目录 功能说明
scrapy.cfg 项目的全局配置文件,用于定义部署设置等。
items.py 用于定义抓取的数据结构(即 Item 对象)。
middlewares.py 用于自定义下载器和爬虫中间件。
pipelines.py 定义抓取数据的后续处理流程,如存储、清洗等操作。
settings.py 项目的全局配置文件,可以设置如请求头、下载延迟、并发数等参数。
spiders 目录 存放所有的 Spider 爬虫文件,每个 Spider 类定义了具体的抓取逻辑。

编写简单的 Spider

Spider 是 Scrapy 项目的核心部分,它定义了爬虫的抓取逻辑。 接下来我们编写一个简单的 Spider 来抓取一个网页的标题信息。在 myproject/spiders/ 目录下,创建一个名为 example_spider.py 的文件,内容如下:

import scrapy

class ExampleSpider(scrapy.Spider):
    name = "example"
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        # 提取页面上的名言和作者
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('small.author::text').get(),
            }

        # 处理下一页
        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)
  • nameSpider 的名称,在运行爬虫时使用。
  • start_urls:爬虫开始抓取的初始 URL 列表。
  • parse():处理响应内容的回调函数,定义了如何提取数据。我们使用了 CSS 选择器来提取名言(quote)的文本和作者。

运行与结果分析

编写完 Spider 后,可以通过以下命令运行爬虫:

scrapy crawl example

爬虫启动后Scrapy 将自动开始抓取 http://quotes.toscrape.com/ 页面并按我们定义的规则提取名言和作者信息。Scrapy 会依次抓取所有的分页,并将提取的数据输出到控制台。你还可以将抓取的数据保存到文件中,例如 JSON 文件:

scrapy crawl example -o quotes.json

这将把抓取到的名言和作者保存到 quotes.json 文件中,格式如下:

[
    {"text": "The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.", "author": "Albert Einstein"},
    {"text": "It is our choices, Harry, that show what we truly are, far more than our abilities.", "author": "J.K. Rowling"},
    ...
]

运行爬虫时Scrapy 会输出详细的日志信息,包括请求的发送、响应的接收、数据的提取等。通过日志可以检查爬虫的运行状态和潜在的问题,如请求超时、响应状态码错误等。

数据抓取与解析

在 Scrapy 中,数据抓取与解析是核心工作。 抓取网页数据后,开发者需要通过选择器和其他工具来从 HTML、JSON 或 XML 格式的数据中提取出所需信息。

选择器的使用

Scrapy 提供了多种强大的选择器来提取网页中的数据,包括 XPath 选择器、CSS 选择器和正则表达式。这些选择器能够灵活地应对网页的不同结构,帮助我们从 HTML 页面中提取出特定的文本、链接或属性。

XPath 选择器

XPath 是一种用于在 XML 和 HTML 文档中查找信息的查询语言。在 Scrapy 中,response.xpath() 方法可以帮助我们使用 XPath 表达式选择网页中的元素。

XPath 基本语法:

XPath 语法 描述 示例
/ 从根节点开始选择元素。 /html/body/div:选择根节点下的 div 元素。
// 从当前节点选择后代节点,不论其位置(全局查找)。 //div:选择文档中所有 div 元素。
. 选择当前节点。 .//span:选择当前节点下的所有 span 元素。
@attribute 选取元素的属性值。 //img/@src:选择所有 img 元素的 src 属性。
text() 获取元素的文本内容。 //h1/text():获取所有 h1 元素的文本。
node() 选取当前节点的所有子节点。 //div/node():选择 div 元素的所有子节点。
* 匹配任何元素节点。 //div/*:选择所有 div 元素的子节点。
@* 选取所有属性。 //a/@*:选取所有 a 元素的所有属性。
//element[@attr] 选取包含特定属性的元素。 //a[@href]:选择所有带有 href 属性的 a 元素。
//element[@attr='value'] 选取特定属性值的元素。 //input[@type='text']:选择 typetext 的所有 input 元素。
.. 选择当前节点的父节点。 //span/..:选择包含 span 的父节点。
[n] 选取某个特定位置的节点,从 1 开始编号。 //ul/li[1]:选择第一个 li 元素。
last() 选取最后一个节点。 //ul/li[last()]:选择最后一个 li 元素。
position() 返回节点的当前索引位置。 //ul/li[position() < 3]:选择前两个 li 元素。
contains() 选取包含特定子字符串的节点。 //div[contains(@class, 'header')]:选择 class 属性中包含 headerdiv 元素。
starts-with() 选取以特定子字符串开头的节点。 //a[starts-with(@href, 'http')]:选择 href 属性以 http 开头的所有 a 元素。
not() 排除符合特定条件的节点。 //div[not(@class='footer')]:排除 classfooterdiv 元素。
= 用于比较节点的属性值或文本内容。 //input[@type='submit']:选取 typesubmit 的所有 input 元素。

假设我们要抓取某个新闻网站中的文章标题和作者,可以使用如下 XPath 选择器:

def parse(self, response):
    title = response.xpath('//h1[@class="article-title"]/text()').get()
    author = response.xpath('//span[@class="author-name"]/text()').get()

    yield {
        'title': title,
        'author': author,
    }

在这个例子中,//h1[@class="article-title"]/text() 用于提取标题,而 //span[@class="author-name"]/text() 用于提取作者名称。

CSS 选择器

CSS 选择器 是另一种非常直观且简洁的选择方式,它通过使用网页的 CSS 样式选择器来定位元素。Scrapy 提供了 response.css() 方法来使用 CSS 选择器进行数据提取。

CSS 选择器语法:

CSS 选择器 描述 示例
. 类选择器,选择具有特定类的元素。 .class-name:选择所有 class 属性为 class-name 的元素。
# ID 选择器,选择具有特定 ID 的元素。 #id:选择 ID 为 id 的元素。
> 选择直接子元素。 div > p:选择所有 div 元素的直接子元素 p
, 选择多个元素。 div, p:选择所有 divp 元素。
* 通用选择器,选择所有元素。 *:选择页面中的所有元素。
[attribute] 属性选择器,选择具有特定属性的元素。 a[href]:选择所有带有 href 属性的 a 元素。
[attr=value] 选择具有指定属性值的元素。 input[type="text"]:选择 typetext 的所有 input 元素。
[attr~=value] 选择属性值中包含特定单词的元素。 div[class~="header"]:选择 class 属性包含 header 单词的所有 div 元素。
[attr^=value] 选择属性值以指定值开头的元素。 a[href^="http"]:选择 href 属性值以 http 开头的所有 a 元素。
[attr$=value] 选择属性值以指定值结尾的元素。 img[src$=".jpg"]:选择 src 属性以 .jpg 结尾的所有 img 元素。
[attr*=value] 选择属性值包含指定值的元素。 a[href*="example"]:选择 href 属性中包含 example 的所有 a 元素。
:nth-child(n) 选择其父元素的第 n 个子元素(从 1 开始)。 ul li:nth-child(2):选择 ul 中的第二个 li 子元素。
:nth-last-child(n) 选择其父元素的倒数第 n 个子元素。 ul li:nth-last-child(1):选择 ul 中的最后一个 li 子元素。
:first-child 选择其父元素的第一个子元素。 p:first-child:选择每个 p 的第一个子元素。
:last-child 选择其父元素的最后一个子元素。 p:last-child:选择每个 p 的最后一个子元素。
:nth-of-type(n) 选择同类型的第 n 个兄弟元素。 p:nth-of-type(2):选择每个 p 类型中的第二个元素。
:first-of-type 选择同类型中的第一个兄弟元素。 p:first-of-type:选择每个 p 类型中的第一个元素。
:last-of-type 选择同类型中的最后一个兄弟元素。 p:last-of-type:选择每个 p 类型中的最后一个元素。
+ 选择紧接在另一个元素后的元素(相邻兄弟选择器)。 h1 + p:选择每个紧跟在 h1 元素后的第一个 p 元素。
~ 选择在另一个元素之后的所有同级元素(兄弟选择器)。 h1 ~ p:选择所有紧跟在 h1 元素后的所有 p 元素。
:not(selector) 排除特定选择器的元素。 :not(.excluded):选择所有不带有 excluded 类的元素。
:contains(text) 选择包含特定文本的元素(此选择器在 CSS 中不可用,在 jQuery 等工具中支持)。 div:contains("example"):选择包含文本 examplediv 元素。

使用 CSS 选择器提取新闻网站的文章标题和作者:

def parse(self, response):
    title = response.css('h1.article-title::text').get()
    author = response.css('span.author-name::text').get()

    yield {
        'title': title,
        'author': author,
    }

在这个例子中,h1.article-title::text 提取标题的文本,span.author-name::text 提取作者的文本。

正则表达式

正则表达式Regular Expression简称 Regex 是一种模式匹配工具常用于从文本中匹配特定的字符串。Scrapy 中可以结合 XPath 或 CSS 选择器来使用正则表达式提取数据。通过 re() 方法,可以在选择器的基础上对提取的数据进行进一步的正则匹配。

假设我们想从页面中提取价格信息,可以结合正则表达式完成数据提取:

def parse(self, response):
    price = response.css('span.price::text').re(r'\d+\.\d+')

    yield {
        'price': price,
    }

在这个例子中,正则表达式 \d+\.\d+ 匹配的是带有小数点的数字(即价格格式)。

响应数据的处理

抓取网页后Scrapy 会返回一个包含网页响应数据的 response 对象。开发者需要从这个 response 中提取出所需的信息,处理多页面、多层级的抓取,以及处理不同格式的数据(如 JSON、XML

提取文本、链接和属性

在网页爬虫中最常见的操作就是提取页面中的文本、链接和元素属性。Scrapy 的选择器提供了多种方式来实现这些操作。

  • 提取文本: 使用 text()XPath::textCSS来提取元素的文本内容。
  • 提取链接: 网页中的链接通常存储在 <a> 标签的 href 属性中。可以使用 XPath 或 CSS 选择器提取链接。
  • 提取属性: 可以通过 @attributeXPath::attr(attribute)CSS来提取元素的属性值。
def parse(self, response):
    # 提取文本
    title = response.xpath('//h1/text()').get()

    # 提取链接
    link = response.css('a::attr(href)').get()

    # 提取图片的 src 属性
    img_src = response.xpath('//img/@src').get()

    yield {
        'title': title,
        'link': link,
        'img_src': img_src,
    }

多页面与多层级数据抓取

在许多情况下网页数据是分布在多个页面中的如分页的电商网站、新闻网站的多篇文章等。Scrapy 允许我们递归抓取多个页面,或者处理多层级的数据.可以通过在 parse() 方法中找到下一页的链接,然后让 Scrapy 继续请求下一页,直到抓取完所有页面。

def parse(self, response):
    # 提取当前页面的数据
    for product in response.css('div.product'):
        yield {
            'name': product.css('span.name::text').get(),
            'price': product.css('span.price::text').get(),
        }

    # 查找并抓取下一页
    next_page = response.css('li.next a::attr(href)').get()
    if next_page is not None:
        yield response.follow(next_page, self.parse)

有时页面上的一些数据可能在不同的层级或多个请求中获取。例如一个产品的详细信息可能在产品列表页中不可见需要点击进入产品详情页后再抓取。Scrapy 可以通过 follow() 方法请求每个产品的详情页,递归地抓取多层级的数据。

def parse(self, response):
    # 提取产品列表中的链接
    for product_link in response.css('a.product-link::attr(href)').getall():
        yield response.follow(product_link, self.parse_product)

def parse_product(self, response):
    # 提取每个产品详情页的数据
    yield {
        'name': response.css('h1::text').get(),
        'price': response.css('span.price::text').get(),
        'description': response.css('div.description::text').get(),
    }

处理 JSON 和 XML 数据

除了 HTML许多网站的数据接口直接返回 JSON 或 XML 格式的响应。Scrapy 也能够方便地处理这些结构化数据格式。Scrapy 提供了对 JSON 数据的内置支持。通常,通过 response.json() 方法可以直接将 JSON 响应解析为 Python 字典。

def parse(self, response):
    data = response.json()

    for item in data['items']:
        yield {
            'name': item['name'],
            'price': item['price'],
        }

Scrapy 的选择器同样适用于 XML 文档。可以使用 response.xpath() 方法处理 XML 数据。

def parse(self, response):
    for product in response.xpath('//product'):
        yield {
            'name': product.xpath('name/text()').get(),
            'price': product.xpath('price/text()').get(),
        }

通过以上的选择器和数据处理方法Scrapy 能够灵活高效地提取并解析网页中的数据,无论是 HTML、JSON 还是 XML 格式。

Item 与数据管道

在 Scrapy 中,数据的抓取、处理和存储是网络爬虫的关键步骤,而 ItemPipeline 正是这一过程中两个核心的组件。Item 用于定义和存储爬虫抓取到的数据结构,而数据管道(Pipeline则处理抓取到的数据进行数据清洗、验证以及存储操作。通过这两者的配合Scrapy 可以高效、灵活地对抓取的数据进行处理和保存。

Item 定义与使用

在 Scrapy 中,Item 是用来表示从网页抓取到的结构化数据的对象。 类似于 Python 的字典,但 Item 提供了更明确的结构和字段定义,并且能够很好地与 Scrapy 的其他组件配合使用。

Item 的基本结构

在 Scrapy 项目中,Item 类通常定义在 items.py 文件中。一个 Item 的定义包含多个字段每个字段用于保存特定的数据属性。Scrapy 提供了 scrapy.Item 类和 scrapy.Field 来定义这些数据项。

# 示例:定义一个简单的 `Item`
import scrapy

class ProductItem(scrapy.Item):
    name = scrapy.Field()
    price = scrapy.Field()
    stock = scrapy.Field()
    last_updated = scrapy.Field()

在这个例子中,ProductItem 定义了四个字段:namepricestocklast_updated。在爬虫的 parse() 方法中,抓取到的网页数据会存储到这些字段中,之后再通过数据管道处理或存储。

# 在 Spider 中使用 `Item`
def parse(self, response):
    item = ProductItem()
    item['name'] = response.css('h1::text').get()
    item['price'] = response.css('span.price::text').get()
    item['stock'] = response.css('span.stock::text').get()

    yield item

在此例中,ProductItem 的实例 item 被填充了抓取到的数据,并通过 yield 返回以供后续的管道处理。

Item Loader 的高级用法

虽然直接使用 Item 可以满足许多简单的需求,但 Scrapy 还提供了更强大的 Item Loader,用于处理更复杂的数据抓取和清洗场景。Item Loader 是一个实用工具,它可以对数据进行批量处理、预处理和格式化。

Item Loader 允许我们通过定义加载器类来动态填充 Item 的字段,还可以在加载数据时应用输入/输出处理器进行数据转换和清洗。

from scrapy.loader import ItemLoader
from scrapy.loader.processors import TakeFirst, MapCompose, Join

class ProductLoader(ItemLoader):
    default_output_processor = TakeFirst()

    price_in = MapCompose(lambda x: x.replace('$', ''), float)
    stock_in = MapCompose(lambda x: x.strip())
    name_out = Join()

# 在 Spider 中使用 ProductLoader
def parse(self, response):
    loader = ProductLoader(item=ProductItem(), response=response)
    loader.add_css('name', 'h1::text')
    loader.add_css('price', 'span.price::text')
    loader.add_css('stock', 'span.stock::text')

    yield loader.load_item()

在这个例子中,ProductLoader 继承自 ItemLoader,并定义了自定义的数据处理方式:

  • price_in 通过 MapCompose 去除价格中的美元符号并转换为浮点数。
  • stock_in 去除库存字段中的多余空白。
  • name_out 将名称字段的所有值连接成一个字符串。

TakeFirst() 是 Scrapy 提供的一个常用输出处理器,它确保只返回列表中的第一个值,这在处理单值字段时非常有用。

数据管道Pipeline

数据管道是 Scrapy 中处理抓取数据的重要模块。 每个抓取到的 Item 对象在被 Spider 提取后,会依次通过数据管道中的多个处理步骤。常见的操作包括数据清洗、去重、格式转换、数据验证和数据存储等。

Pipeline 的工作机制

数据管道是通过在项目中的 pipelines.py 文件中定义处理逻辑来实现的。每个管道组件都必须继承自 scrapy.ItemPipeline,并实现 process_item() 方法,该方法负责处理每个传递进来的 Item 对象。管道的执行流程是串行的,数据会按顺序经过所有定义的管道。

# 创建一个简单的 Pipeline
class PriceValidationPipeline:
    def process_item(self, item, spider):
        if item['price'] <= 0:
            raise DropItem(f"Invalid price found: {item['price']}")
        return item

在这个例子中,PriceValidationPipeline 会检查每个 Itemprice 字段,如果价格无效(即小于或等于 0Item 会被丢弃(通过 DropItem 异常)。

如果要激活管道,我们需要在 settings.py 中启用它,并设定优先级:

ITEM_PIPELINES = {
    'myproject.pipelines.PriceValidationPipeline': 300,
}

管道优先级数字越小,优先级越高(例如,100 优先级高于 300),数据会先经过高优先级的管道组件处理。

数据清洗与验证

数据管道的一个常见任务是清洗和验证抓取到的数据。 在数据进入数据库或文件之前确保数据的完整性和一致性是至关重要的。Scrapy 提供了 DropItem 异常类,允许开发者根据特定条件丢弃无效的 Item

# 数据清洗与验证
class CleanAndValidatePipeline:
    def process_item(self, item, spider):
        # 清洗数据
        item['name'] = item['name'].strip()

        # 验证数据
        if not item['price']:
            raise DropItem("Missing price in %s" % item)
        if not isinstance(item['price'], (float, int)):
            raise DropItem("Invalid price type: %s" % item['price'])

        return item

在这个例子中,CleanAndValidatePipeline 先清除 name 字段中的多余空格,然后验证 price 字段是否存在,并检查其类型是否为数字。如果数据不符合要求,则丢弃该 Item

数据的存储方式(文件、数据库、分布式存储)

在数据管道的最后一个步骤处理过的数据通常需要保存到某种存储介质中。Scrapy 支持多种数据存储方式,如保存为本地文件、存储到关系型或 NoSQL 数据库中,甚至支持分布式存储。

文件存储

Scrapy 可以将抓取到的数据导出为 CSV、JSON 或 XML 文件,适用于较简单的数据存储需求。

# 保存到 JSON 文件
import json

class JsonWriterPipeline:
    def open_spider(self, spider):
        self.file = open('items.json', 'w')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

这个管道会在爬虫启动时打开 items.json 文件,并将每个 Item 转换为 JSON 格式写入文件中。

数据库存储

Scrapy 也支持将数据存储到数据库中,如 MySQL、PostgreSQL、MongoDB 等。要实现这一点,通常需要使用第三方 Python 库,如 pymongoMongoDBMySQLdbpsycopg2PostgreSQL

# 存储到 MySQL 数据库
import MySQLdb

class MySQLPipeline:
    def open_spider(self, spider):
        self.conn = MySQLdb.connect(user='user', passwd='passwd', db='scrapy_db', host='localhost')
        self.cursor = self.conn.cursor()

    def close_spider(self, spider):
        self.conn.close()

    def process_item(self, item, spider):
        self.cursor.execute("""
            INSERT INTO products (name, price, stock)
            VALUES (%s, %s, %s)
        """, (item['name'], item['price'], item['stock']))
        self.conn.commit()
        return item

在此例中,MySQLPipeline 会将每个 Item 的数据插入到 MySQL 数据库的 products 表中。

分布式存储

对于大规模的分布式爬虫项目Scrapy 可以将数据存储到分布式存储系统中,如 Apache HDFS 或 Amazon S3。通过使用 Scrapy 扩展或中间件,可以方便地将数据存储到这些系统中,适应大数据处理的需求。

中间件与扩展

Scrapy 是一个高度可扩展的爬虫框架,它通过中间件和扩展机制为开发者提供了极大的灵活性。 中间件是在请求与响应流程的各个环节执行特定操作的钩子,用于定制请求的处理方式。而扩展则允许开发者通过特定的接口增强 Scrapy 的功能。通过这些机制Scrapy 可以轻松应对复杂的抓取需求和多种反爬机制。

下载中间件

下载中间件的作用与原理

下载中间件Downloader Middleware是介于 Scrapy 引擎和下载器之间的组件,它能够在请求被发送至目标网站之前或响应数据返回给爬虫之前对其进行处理。 下载中间件通常用于修改 HTTP 请求头、设置代理服务器、处理重定向、以及处理 Cookies 等。其主要作用如下:

  • 修改请求的 User-Agent 或添加自定义的请求头;
  • 动态切换 IP 地址或代理,绕过网站的反爬机制;
  • 处理 HTTP 状态码(如 404、500或重试失败的请求
  • 管理请求的 Cookie 和会话信息;
  • 管理下载超时和重定向行为。

Scrapy 的下载中间件是通过继承 scrapy.downloadermiddlewares 模块中的类并实现特定的方法来工作的。常见的钩子方法包括:

方法名称 调用时机 功能说明 返回值
process_request(request, spider) 在请求发送到下载器之前调用。 用于对请求进行预处理,例如添加自定义头信息、设置代理、修改请求 URL 等。 可以返回 None(继续处理),或返回一个 ResponseRequest 替换原请求。
process_response(request, response, spider) 在响应被传递给 Spider 之前调用。 用于对返回的响应进行处理和过滤,或修改响应内容(如修改页面内容、处理重定向)。 必须返回 Response 对象、Request 对象或抛出 IgnoreRequest 异常。
process_exception(request, exception, spider) 当请求过程中出现异常时调用(如网络错误、超时等)。 用于处理下载请求过程中的异常情况,可以进行重试或替换为其他请求,也可以记录日志或统计失败请求数。 可以返回 None(继续处理),或返回一个新的 Request 以替代当前请求。
from_crawler(crawler) 在初始化中间件时调用。 通过 crawler 对象访问 Scrapy 设置或启用其他扩展功能,适用于需要读取设置或动态加载配置的中间件。 返回当前中间件的实例。
open_spider(spider) 在 Spider 开始运行时调用。 用于在 Spider 启动时执行一些初始化操作,如打开数据库连接、设置全局变量等。 无需返回值。
close_spider(spider) 在 Spider 结束运行时调用。 用于在 Spider 结束时执行清理工作,如关闭数据库连接、保存日志或统计数据。 无需返回值。

常用下载中间件示例

  1. 设置 User-Agent 一些网站根据请求中的 User-Agent 来识别访问者来源。为了避免被认为是爬虫,可以使用下载中间件来伪装浏览器的 User-Agent

    class UserAgentMiddleware:
        def process_request(self, request, spider):
            request.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    
  2. 代理切换 为了避免 IP 被封禁,爬虫可以使用代理服务器。在下载中间件中,可以动态设置不同的代理。

    class ProxyMiddleware:
        def process_request(self, request, spider):
            request.meta['proxy'] = 'http://123.45.67.89:8080'
    
  3. 处理请求失败和重试 在爬取过程中,可能会遇到网络故障或 500 状态码,可以通过下载中间件捕获这些异常,并重新发送请求。

    from scrapy.downloadermiddlewares.retry import RetryMiddleware
    from scrapy.utils.response import response_status_message
    
    class CustomRetryMiddleware(RetryMiddleware):
        def process_response(self, request, response, spider):
            if response.status in [500, 502, 503, 504]:
                reason = response_status_message(response.status)
                return self._retry(request, reason, spider) or response
            return response
    

爬虫中间件

爬虫中间件的功能

爬虫中间件Spider Middleware是介于 Scrapy 引擎和爬虫Spider之间的组件。 它用于在请求和响应传递给爬虫之前或从爬虫传递给 Scrapy 引擎之前进行处理。常见的应用场景包括修改或过滤爬虫生成的请求,或者对响应数据进行进一步的处理。

爬虫中间件与下载中间件的主要区别在于它处理的是爬虫的输入和输出,而不是直接与下载器交互的请求和响应。爬虫中间件中的钩子方法包括:

方法名称 调用时机 功能说明 返回值
process_spider_input(response, spider) 在响应传递给爬虫的 parse() 方法之前调用。 对响应数据进行预处理,可以根据需要对响应进行过滤或修改,以适应爬虫解析规则。 返回 None 表示继续处理,或者抛出 IgnoreRequest 跳过该响应。
process_spider_output(response, result, spider) parse() 方法返回结果之后调用,允许修改返回的 ItemRequest 可以处理爬虫返回的 Item 或生成的 Request,例如添加新的请求或修改提取到的数据。 必须返回 ItemRequest 的迭代器,或者返回空值以忽略。
process_spider_exception(response, exception, spider) 当爬虫处理响应时遇到异常时调用。 捕获异常并进行处理,如记录日志、统计错误或跳过特定的异常。 返回 None 表示继续处理异常,或者返回新的 Request 以重试。
from_crawler(crawler) 在初始化爬虫中间件时调用。 通过 crawler 对象访问 Scrapy 设置或启用其他扩展功能,适用于需要读取设置或动态加载配置的爬虫中间件。 返回当前中间件的实例。
open_spider(spider) 在 Spider 启动时调用。 用于爬虫启动时执行初始化工作,例如创建数据库连接、加载外部资源等。 无需返回值。
close_spider(spider) 在 Spider 结束时调用。 当爬虫任务结束时执行清理工作,如关闭数据库连接、保存统计信息、记录爬取日志等。 无需返回值。

自定义中间件的实现

通过编写自定义的爬虫中间件,可以对传递给爬虫的数据进行预处理,或者对生成的请求进行过滤和修改。以下是一些常见的自定义爬虫中间件场景。

  1. 过滤无效请求 假设有些请求不符合某些规则(如链接中的关键词不符合要求),可以通过爬虫中间件过滤这些请求,避免浪费资源。

    class FilterInvalidLinksMiddleware:
        def process_spider_output(self, response, result, spider):
            for item in result:
                if isinstance(item, scrapy.Request) and 'invalid_keyword' in item.url:
                    continue  # 过滤掉包含 'invalid_keyword' 的请求
                yield item
    
  2. 修改爬虫的输出 可以在爬虫生成 Item 之后,进一步修改或验证这些数据。

    class ModifyItemMiddleware:
        def process_spider_output(self, response, result, spider):
            for item in result:
                if isinstance(item, scrapy.Item):
                    # 修改数据,例如将名称转为大写
                    item['name'] = item['name'].upper()
                yield item
    

Scrapy 信号与扩展

信号机制

Scrapy 的信号机制允许爬虫在运行过程中发出和接收特定事件的通知。 通过信号开发者可以在爬虫的生命周期内的关键时刻执行某些动作如爬虫启动、关闭或请求发送时触发的动作。Scrapy 中的信号类似于事件监听器,适用于监控爬虫的运行状态或实现自定义的日志记录、报警机制等。

常用的 Scrapy 信号包括:

信号名称 触发时机 功能说明
engine_started Scrapy 引擎启动时触发。 在 Scrapy 引擎启动后立即触发。可以用于初始化全局资源或启动前的预处理工作。
spider_opened 当某个爬虫Spider启动时触发。 每当一个爬虫实例启动时触发,可以用于爬虫初始化时执行特定操作,如记录日志、打开数据库连接等。
spider_closed 爬虫关闭时触发。 在爬虫运行结束、所有请求处理完成后触发。可以用于清理资源、关闭数据库连接或保存统计信息。
item_scraped 每次 Item 被成功抓取后触发。 当数据项Item被爬虫成功提取并通过 Item Pipeline 处理时触发。常用于统计抓取的数据量等。
request_scheduled 每次请求被调度器Scheduler处理时触发。 当某个请求被调度到调度器队列中时触发,可以用来记录或监控请求的处理情况。
item_dropped 当某个 Item 被丢弃时触发。 Item 由于验证失败或其他原因未通过数据管道的处理而被丢弃时触发。可用于记录丢弃的 Item 信息。
request_dropped 当请求被丢弃时触发。 调度器因某些原因丢弃某个请求时触发。可用于统计未被处理的请求或分析原因。
response_received 每当下载器接收到响应时触发。 当下载器成功获取到服务器的 HTTP 响应时触发。可以用于监控响应的到达时间或内容大小。
engine_stopped Scrapy 引擎关闭时触发。 当 Scrapy 引擎完全停止运行时触发,通常用于程序的最终清理工作。
# 使用信号记录爬虫启动和关闭的日志
from scrapy import signals
from scrapy.signalmanager import dispatcher

class SpiderSignalLogger:
    def __init__(self):
        dispatcher.connect(self.spider_opened, signal=signals.spider_opened)
        dispatcher.connect(self.spider_closed, signal=signals.spider_closed)

    def spider_opened(self, spider):
        spider.logger.info(f"Spider {spider.name} opened.")

    def spider_closed(self, spider):
        spider.logger.info(f"Spider {spider.name} closed.")

这个示例中,SpiderSignalLogger 类通过 Scrapy 信号管理器监听爬虫的启动和关闭事件,并在相应的时刻记录日志。

扩展的开发与应用

Scrapy 扩展机制允许开发者编写自定义的功能模块,并在爬虫运行时对其进行增强。扩展可以用于监控爬虫性能、处理爬虫状态,或者集成其他外部工具如分布式队列、错误监控系统等。

扩展的基本结构与中间件类似,它通过 Scrapy 的钩子机制与爬虫流程进行交互。 开发者可以在扩展中使用 Scrapy 信号来监听不同的事件,并在这些事件发生时执行特定操作。

# 自定义扩展记录爬虫的抓取速度
from scrapy import signals
import time

class SpeedMonitorExtension:
    def __init__(self):
        self.items_scraped = 0
        self.start_time = None

    @classmethod
    def from_crawler(cls, crawler):
        ext = cls()
        crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)
        crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)
        crawler.signals.connect(ext.item_scraped, signal=signals.item_scraped)
        return ext

    def spider_opened(self, spider):
        self.start_time = time.time()

    def item_scraped(self, item, response, spider):
        self.items_scraped += 1

    def spider_closed(self, spider):
        total_time = time.time() - self.start_time
        spider.logger.info(f"Total items scraped: {self.items_scraped}")
        spider.logger.info(f"Time taken: {total_time} seconds")
        if total_time > 0:
            spider.logger.info(f"Scraping speed: {self.items_scraped / total_time} items/second")

这个扩展会在爬虫运行时记录抓取到的 Item 数量和爬虫运行的总时间,最终在爬虫关闭时输出抓取速度(每秒抓取的 Item 数量)。它通过 Scrapy 的信号机制与爬虫的生命周期相集成,确保在爬虫开启、抓取 Item 和关闭时执行相应的操作。

解释:

  1. from_crawler() 是 Scrapy 中创建扩展的标准工厂方法,它通过连接不同的信号,将扩展与爬虫生命周期中的事件挂钩。
  2. spider_opened() 方法记录爬虫启动的时间。
  3. item_scraped() 每当一个 Item 被抓取时调用,用于记录抓取的 Item 数量。
  4. spider_closed() 在爬虫关闭时调用,计算总抓取时间并计算抓取速度,最后通过日志输出相关信息。

settings.py 中启用扩展:

要启用这个自定义扩展,需要在 Scrapy 项目的 settings.py 文件中进行配置:

EXTENSIONS = {
    'myproject.extensions.SpeedMonitorExtension': 500,
}

其中,500 是扩展的优先级,数值越低,优先级越高。

反爬机制与应对策略

在进行网络爬虫时,许多网站会采用各种反爬机制来限制或阻止自动化工具对其数据的抓取。这些机制旨在保护服务器资源,防止滥用和保护隐私。因此,作为爬虫开发者,了解常见的反爬技术及如何应对至关重要。在这一节中,我们将讨论常见的反爬策略及相应的反反爬策略,帮助开发者设计更高效、稳定的爬虫程序。

常见的反爬技术

Robots.txt 与协议限制

Robots.txt 是网站管理员用来规范爬虫行为的文件,通常位于网站的根目录(如 https://example.com/robots.txt)。该文件使用特定的规则告诉爬虫哪些页面或目录可以被访问,哪些页面不允许爬取。它并不具备强制性,遵守与否取决于爬虫的设计。

# Robots.txt 文件
User-agent: *
Disallow: /admin/
Allow: /public/
  • User-agent 定义了哪些爬虫适用这些规则,* 表示所有爬虫。
  • Disallow 指定不允许爬虫访问 /admin/ 路径下的资源。
  • Allow 明确允许爬虫访问 /public/ 路径下的资源。

虽然遵守 Robots.txt 是一种好的爬虫道德规范,但在一些合法的数据采集需求中,开发者可能需要访问被限制的内容。可以使用 robots.txt_obey 配置项来控制 Scrapy 是否遵守 robots.txt 文件。

# settings.py
ROBOTSTXT_OBEY = False

IP 封禁与请求频率限制

IP 封禁 是网站检测到同一 IP 地址发送了大量请求后采取的屏蔽措施。网站通过分析请求的频率、IP 地址的地理位置和请求行为模式,判断某个访问者是否为爬虫。一旦检测到异常,网站会对该 IP 实施封禁,拒绝服务请求。

请求频率限制 是通过检测请求的频次来判断是否是爬虫行为。例如,如果同一 IP 在短时间内发送了大量请求,服务器可能会限制该 IP 的访问速度或暂时封禁该 IP。

应对策略:

  • 降低请求频率:在 Scrapy 中,可以通过 DOWNLOAD_DELAY 设置请求间隔时间,防止发送过于频繁的请求。
# settings.py
DOWNLOAD_DELAY = 2  # 每次请求间隔2秒
  • 随机化请求间隔:通过 AUTOTHROTTLE 可以动态调整请求频率,根据目标网站的响应时间自动调整爬虫速度,防止服务器过载。
# settings.py
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 1  # 最小延迟时间
AUTOTHROTTLE_MAX_DELAY = 10   # 最大延迟时间

验证码与动态内容加载

验证码CAPTCHA 是网站用来阻止自动化请求的一种验证机制,通常要求用户进行某种交互,如选择图片、输入字符等。验证码依赖于用户的手动操作,传统爬虫无法通过自动化工具直接破解。

动态内容加载 是通过 JavaScript 渲染的内容,许多网站的部分数据不会直接嵌入 HTML 页面,而是通过异步加载(如 AJAX 请求)或由 JavaScript 动态生成。这种方式使得简单的 HTML 抓取工具无法获取完整内容。

应对策略:

  • 验证码:可以通过第三方验证码解决服务(如 2Captcha或基于机器学习的验证码识别工具来破解验证码。另一个策略是通过模拟用户操作如使用 Selenium 或 Puppeteer自动输入验证码。
  • 动态加载:使用支持 JavaScript 渲染的工具来获取完整的网页内容,如 SplashSelenium,详细内容见后文。

反反爬策略

设置请求头与 User-Agent

网站可以通过分析 HTTP 请求头中的信息来判断请求是否来自爬虫。最常见的方式是检测 User-Agent,这表明了请求来源的设备或浏览器类型。爬虫默认使用的 User-Agent 很容易被识别为非人类行为。

应对策略: 通过设置爬虫的 User-Agent,模拟不同的浏览器或设备,从而降低被检测为爬虫的风险。

# settings.py
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'

你还可以使用 User-Agent 池,随机化每个请求的 User-Agent

# 动态设置 User-Agent
import random

class RandomUserAgentMiddleware:
    USER_AGENTS = [
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64)...',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)...',
        # 其他 User-Agent
    ]

    def process_request(self, request, spider):
        request.headers['User-Agent'] = random.choice(self.USER_AGENTS)

使用代理 IP 池与 Tor 网络

为了避免单一 IP 地址被封禁,可以使用代理 IP 池,通过每次请求时切换不同的代理 IP 来实现“隐藏”爬虫的真实 IP。此外Tor 网络是一个用于匿名浏览的工具,通过其不断切换出口 IP可以帮助爬虫实现匿名抓取。

应对策略:

  1. 代理 IP 池:可以集成第三方代理服务(如 ProxyMesh或使用免费代理池。通过中间件每个请求动态使用不同的代理 IP。
# 使用代理池
class ProxyMiddleware:
    def process_request(self, request, spider):
        request.meta['proxy'] = 'http://your_proxy_ip:port'
  1. 使用 Tor 网络:通过安装 Tor 并配置 Scrapy 使用 Tor 的 SOCKS5 代理,可以让爬虫的请求通过 Tor 网络发送,自动切换出口 IP。
# 使用 Tor 作为代理
request.meta['proxy'] = 'socks5://localhost:9050'

模拟登录与会话保持

有些网站在访问受限内容时要求用户登录,只有登录后才能获取完整的数据。为了绕过这种限制,爬虫需要模拟用户登录,并保持会话状态。

应对策略:

  1. 模拟登录:通过 POST 请求发送登录表单数据,并保存会话信息。通常需要捕获并发送登录所需的 Cookies 或者 Session ID。
# 使用 Scrapy 模拟登录
def start_requests(self):
    return [scrapy.FormRequest('http://example.com/login',
                               formdata={'username': 'user', 'password': 'pass'},
                               callback=self.after_login)]

def after_login(self, response):
    if "authentication failed" in response.body:
        self.logger.error("Login failed")
    else:
        # 继续抓取其他页面
        yield scrapy.Request(url='http://example.com/after_login')
  1. 保持会话:使用 Scrapy 内置的 Cookies 管理功能,确保后续请求可以保持登录状态。
COOKIES_ENABLED = True

处理 JavaScript 渲染Splash、Selenium 的集成)

当网站使用 JavaScript 动态加载内容时,传统的 HTML 抓取方法无法获取所需数据。 这种情况下,需要使用能够执行 JavaScript 的工具,如 SplashSelenium

  1. Splash 是一个轻量级的 JavaScript 渲染服务Scrapy 可以通过集成 Splash 来抓取动态加载的页面。
# 集成 Splash
from scrapy_splash import SplashRequest

class MySpider(scrapy.Spider):
    name = 'myspider'

    def start_requests(self):
        yield SplashRequest(url="http://example.com", callback=self.parse)

    def parse(self, response):
        # 处理渲染后的页面
        pass
  1. Selenium 是一个更强大的浏览器自动化工具,它可以完全模拟用户在浏览器中的操作,适用于处理复杂的动态内容。
# 使用 Selenium 处理动态内容
from selenium import webdriver
from scrapy import signals
from scrapy.xlib.pydispatch import dispatcher

class SeleniumSpider(scrapy.Spider):
    def __init__(self, *args, **kwargs):
        super(SeleniumSpider, self).__init__(*args, **kwargs)
        self.driver = webdriver.Chrome()

    def start_requests(self):
        self.driver.get('http://example.com')
        html = self.driver.page_source
        # 处理渲染后的 HTML
        yield scrapy.http.HtmlResponse(url=self.driver.current_url, body=html, encoding='utf-8')

Scrapy 的高级应用

在使用 Scrapy 进行复杂数据抓取时,爬虫的功能可能不仅限于简单的单机爬取。高级应用场景包括构建分布式爬虫、与其他框架和数据分析工具的集成、以及优化爬虫项目的测试和调试流程。本章将详细介绍如何实现这些高级功能。

分布式爬虫的实现

当我们需要抓取大量数据或提高爬取速度时,单机运行的 Scrapy 爬虫往往会受到性能瓶颈的限制。为了实现大规模、高效率的爬取,分布式爬虫成为了一种常见的解决方案。

基于 Scrapy-Redis 的分布式架构

Scrapy-Redis 是 Scrapy 的一个扩展库,它能够将 Scrapy 的调度器Scheduler和去重机制扩展为基于 Redis 的分布式架构。Scrapy-Redis 通过将请求队列和去重集合存储在 Redis 中,实现了多台机器之间的任务共享,从而轻松构建分布式爬虫。

分布式爬虫的基本架构:

  • Redis:充当分布式任务队列和去重集合的存储中心,所有爬虫实例从 Redis 获取任务,并将新的任务(请求)推送到 Redis 队列中。
  • 多个 Scrapy 爬虫实例:这些爬虫实例同时运行,从同一个 Redis 队列中提取任务,爬取不同的页面。

Scrapy-Redis 的安装:pip install scrapy-redis

在 Scrapy 项目中,将调度器和去重机制替换为 Scrapy-Redis 提供的组件,并设置 Redis 连接信息:

# settings.py
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 使用 Redis 的队列来存储请求
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderQueue'
SCHEDULER_PERSIST = True  # 保持调度器状态,以便中断后可以继续

# Redis 连接配置
REDIS_HOST = 'localhost'
REDIS_PORT = 6379

在 Spider 中,继承 scrapy_redis.Spider,并将初始的 URL 推送到 Redis 中:

from scrapy_redis.spiders import RedisSpider

class MyRedisSpider(RedisSpider):
    name = 'my_redis_spider'
    redis_key = 'my_redis_spider:start_urls'

    def parse(self, response):
        # 处理响应内容
        pass

通过 Redis 来管理起始的 URL多个爬虫实例会从同一个队列中提取任务实现负载均衡和任务分配。

任务队列与去重机制

在分布式爬虫中任务的分配和去重机制是实现稳定爬取的关键。Scrapy-Redis 提供了 Redis 队列来存储任务(请求),并使用 Redis 的集合数据结构来实现分布式的 URL 去重。

  • 任务队列Scrapy-Redis 提供了多种队列实现方式,如 SpiderQueuePriorityQueue(优先级队列)等,用于控制任务的分发。
  • 去重机制Scrapy-Redis 使用基于 Redis 的 RFPDupeFilter 来去除重复的请求,确保每个 URL 只会被爬取一次。

这些机制保证了分布式爬虫能够有效地分工合作,并且避免重复爬取相同的页面。

分布式部署与性能优化

在分布式爬虫架构中,爬虫可以在多台机器上同时运行,每个实例都连接到同一个 Redis 实例。只需要在每台机器上启动 Scrapy 爬虫,并确保它们指向相同的 Redis 服务器。通过 DockerKubernetes 等容器化工具,可以更方便地部署和管理多个分布式爬虫实例。

性能优化

  • 减少延迟:通过设置合理的 DOWNLOAD_DELAYAUTOTHROTTLE,既能防止 IP 被封禁,又能提高并发请求的效率。
  • 异步请求Scrapy 的异步请求机制基于 Twisted,天然支持高并发,通过优化并发数(CONCURRENT_REQUESTSCONCURRENT_ITEMS)可以提升爬虫效率。
  • 避免过多重试:设置合理的重试机制(RETRY_ENABLEDRETRY_TIMES)以避免爬虫陷入低效的重试循环。

Scrapy 与其他框架的集成

Scrapy 的功能不仅限于数据抓取,很多时候需要将它与其他 Python 框架或库结合使用,进行更复杂的数据处理、分析和展示。

与 Django/Flask 的集成

在构建完整的数据处理或展示系统时Scrapy 通常会与 Web 框架如 DjangoFlask 集成,用于将抓取到的数据存储到数据库中,或提供数据 API 供其他应用调用。

  1. 与 Django 集成 Scrapy 可以与 Django 一起使用,将抓取的数据直接存储到 Django 模型中。

    # 使用 Django ORM 保存数据
    # Django 项目中的 models.py
    from django.db import models
    
    class Product(models.Model):
        name = models.CharField(max_length=255)
        price = models.FloatField()
    

    在 Scrapy 爬虫中导入 Django 的模型,并将抓取到的数据保存到数据库中:

    import os
    import django
    
    os.environ.setdefault("DJANGO_SETTINGS_MODULE", "myproject.settings")
    django.setup()
    
    from myapp.models import Product
    
    class MySpider(scrapy.Spider):
        name = 'my_spider'
    
        def parse(self, response):
            item = Product(
                name=response.css('h1::text').get(),
                price=float(response.css('span.price::text').get())
            )
            item.save()
    
  2. 与 Flask 集成 Flask 是一个轻量级 Web 框架,常用于提供 API 服务。你可以创建一个 Flask 应用来启动 Scrapy 爬虫并获取抓取的数据。

    # 使用 Flask 启动 Scrapy
    from flask import Flask, jsonify
    from scrapy.crawler import CrawlerProcess
    from myspider import MySpider  # Scrapy 爬虫类
    
    app = Flask(__name__)
    
    @app.route('/crawl')
    def run_crawler():
        process = CrawlerProcess()
        process.crawl(MySpider)
        process.start()
        return jsonify({"status": "Crawl started"})
    
    if __name__ == '__main__':
        app.run(debug=True)
    

与 Pandas 等数据分析库的结合

Scrapy 抓取的数据通常需要进一步分析或处理,Pandas 是一个强大的数据分析库,可以与 Scrapy 紧密结合使用。

# 使用 Pandas 处理抓取数据
import pandas as pd
import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'

    def parse(self, response):
        data = {
            'name': response.css('h1::text').get(),
            'price': response.css('span.price::text').get()
        }
        df = pd.DataFrame([data])
        df.to_csv('products.csv', mode='a', header=False)  # 保存到 CSV

Pandas 可以帮助快速将抓取的数据转为数据表,并支持多种格式的导出(如 CSV、Excel便于后续数据分析和可视化。

Scrapy 项目的测试与调试

单元测试与集成测试

在 Scrapy 项目中,测试和调试对于确保爬虫的稳定性至关重要。可以通过 单元测试 验证各个爬虫组件的正确性,也可以进行 集成测试 来确保爬虫的整体功能正常。

  1. 单元测试 使用 Python 的 unittestpytest 模块,可以对 Scrapy 的各个组件(如选择器、解析逻辑)进行单元测试。

    # 使用 `unittest` 测试选择器
    import unittest
    from scrapy.http import HtmlResponse
    
    class TestSpider(unittest.TestCase):
        def test_parse(self):
            body = '<html><body><h1>Product Name</h1></body></html>'
            response = HtmlResponse(url='http://example.com', body=body, encoding='utf-8')
            title = response.css('h1::text').get()
            self.assertEqual(title, 'Product Name')
    
  2. 集成测试 使用 Scrapy 提供的 crawl 方法启动整个爬虫,可以验证爬虫从数据抓取到存储的完整流程。

    # 使用 `pytest` 进行集成测试
    from scrapy.crawler import CrawlerProcess
    from myspider import MySpider
    
    def test_crawl():
        process = CrawlerProcess()
        process.crawl(MySpider)
        process.start()
    

日志管理与调试技巧

Scrapy 提供了强大的日志功能,可以通过日志记录来监控爬虫的行为和发现问题。可以设置不同的日志级别(如 DEBUG、INFO、ERROR来控制输出的详细程度。

  1. 日志设置settings.py 中配置日志输出路径和日志级别。

    # settings.py
    LOG_LEVEL = 'INFO'  # 只显示重要信息
    LOG_FILE = 'scrapy.log'  # 将日志保存到文件
    
  2. 调试技巧Scrapy Shell 是一个交互式环境,可以快速测试和调试页面解析逻辑。

    scrapy shell 'http://example.com'
    

    在 Scrapy Shell 中,你可以直接使用选择器提取数据,验证选择器表达式的正确性。可以通过 pdb 调试器在代码中设置断点,方便逐步检查代码执行流程。

    import pdb; pdb.set_trace()  # 在代码中插入调试断点
    

性能优化与最佳实践

在构建高效、可扩展的 Scrapy 爬虫项目时性能优化和代码的健壮性至关重要。Scrapy 自带强大的并发和异步处理能力,但如何充分利用这些特性,优化内存使用、资源管理以及代码结构,往往决定了爬虫项目的性能和长期的维护性。本章将介绍并发与异步处理的原理、内存管理的策略,以及如何优化 Scrapy 项目的代码结构和配置管理。

并发与异步处理

Scrapy 基于 Twisted 库的异步网络框架,这使得它能够高效地处理大量并发请求。理解并合理利用 Scrapy 的并发和异步处理能力,能够极大提高爬虫的抓取速度和资源利用率。

Reactor 模型

Scrapy 的并发和异步处理基于 Reactor 模型,这是 Twisted 网络框架中的核心机制。Reactor 模型是一种事件驱动的异步 I/O 模型,它不依赖线程或多进程,而是通过事件循环来处理网络请求。

Reactor 模型的工作原理:

  • Scrapy 中的每个请求被发送后Reactor 模型不会等待响应完成,而是立即返回到事件循环,继续处理其他请求。当某个请求完成后,会触发相应的回调函数。
  • 这种非阻塞的处理方式使得 Scrapy 可以同时管理大量的并发请求,而不必为每个请求创建独立的线程或进程,节省了系统资源。

请求并发量的设置

Scrapy 默认支持并发请求处理,但可以通过配置来进一步优化其性能。合理设置并发量能够提高爬取速度,同时避免对目标网站造成过大的负载压力。

  • CONCURRENT_REQUESTS:控制 Scrapy 并发发送的请求数量,默认值为 16。对于高性能爬虫项目增大该值可以显著提高爬虫速度但同时也可能导致目标网站对大量请求封禁 IP。

    # settings.py
    CONCURRENT_REQUESTS = 32
    
  • CONCURRENT_REQUESTS_PER_DOMAINCONCURRENT_REQUESTS_PER_IP:限制对同一域名或同一 IP 的最大并发请求数。可以避免对特定网站或服务器造成过大的压力。

    # settings.py
    CONCURRENT_REQUESTS_PER_DOMAIN = 16
    CONCURRENT_REQUESTS_PER_IP = 16
    
  • DOWNLOAD_DELAY:设置每个请求之间的延迟时间,防止过快的请求速度导致封禁或服务器超载。

    # settings.py
    DOWNLOAD_DELAY = 0.5  # 每次请求之间间隔 0.5 秒
    
  • AUTOTHROTTLE_ENABLED:启用自动限速机制,根据服务器响应时间自动调整请求间隔,以平衡抓取速度和服务器负载。

    # settings.py
    AUTOTHROTTLE_ENABLED = True
    AUTOTHROTTLE_START_DELAY = 1
    AUTOTHROTTLE_MAX_DELAY = 10
    

内存与资源管理

当处理大规模数据抓取任务时,内存管理和资源利用变得尤为重要。优化内存使用,检测内存泄漏,以及确保爬虫的健壮性和容错能力,可以提高长时间运行的爬虫项目的效率和稳定性。

内存泄漏的检测与防范

Scrapy 作为长时间运行的爬虫工具,可能在处理大量请求时遇到内存泄漏问题。为了防止内存耗尽,应该定期监控爬虫的内存使用情况,并采取适当的措施来防止内存泄漏。

  • 使用内存调试工具Scrapy 提供了 MemoryDebugger 扩展,用于检测内存泄漏。通过启用此扩展,可以在爬虫结束时查看哪些对象未被释放。

    # 启用 `MemoryDebugger`
    # settings.py
    EXTENSIONS = {
        'scrapy.extensions.memusage.MemoryUsage': 500,
    }
    
    MEMDEBUG_ENABLED = True
    
  • 定期清理不必要的数据:对于长时间运行的爬虫,可以通过 garbage collection(垃圾回收)机制来定期清理内存中不再使用的数据。

    import gc
    
    class MySpider(scrapy.Spider):
        def parse(self, response):
            # 在适当的时间手动触发垃圾回收
            gc.collect()
    

爬虫的容错与健壮性

长时间运行的爬虫项目容易受到网络故障、请求超时、目标网站变化等问题的影响。因此,确保爬虫的健壮性和容错能力是保证其持续运行的重要环节。

  • 请求超时:设置请求的最大超时时间,以避免由于网络问题而导致爬虫挂起。

    # settings.py
    DOWNLOAD_TIMEOUT = 15  # 每个请求的超时时间为 15 秒
    
  • 请求重试:启用重试机制,以处理临时的网络故障或目标网站不稳定的情况。

    # settings.py
    RETRY_ENABLED = True
    RETRY_TIMES = 3  # 最多重试 3 次
    RETRY_HTTP_CODES = [500, 502, 503, 504]  # 针对这些状态码进行重试
    
  • 错误处理:在爬虫代码中捕获可能发生的异常,并进行适当的处理,以确保爬虫不会因为单个请求的失败而中断整个流程。

    def parse(self, response):
        try:
            # 解析数据的逻辑
            pass
        except Exception as e:
            self.logger.error(f"Error parsing {response.url}: {e}")
    

项目优化与维护

为了确保 Scrapy 项目的长期可维护性和易扩展性,开发者应该遵循良好的代码组织和配置管理实践。模块化的代码结构和灵活的配置管理能够让项目更易于维护和扩展。

代码结构与模块化

Scrapy 项目可以随着功能的增加变得复杂,因此遵循模块化设计原则非常重要。将爬虫逻辑、数据处理、配置和扩展功能合理分离,可以提高代码的可读性和可维护性。

  • Spider 的模块化:根据不同的目标网站或数据源,将爬虫逻辑分成独立的模块。每个 Spider 应该只负责处理特定网站或特定页面的逻辑。

    myproject/
    ├── spiders/
    │   ├── site_a_spider.py
    │   ├── site_b_spider.py
    
  • 数据处理与管道模块化:将数据清洗、验证和存储逻辑放入独立的 Pipeline 中,确保 Spider 只负责数据抓取,数据的进一步处理由 Pipeline 完成。

    # pipelines.py
    class CleanPipeline:
        def process_item(self, item, spider):
            # 清洗数据
            item['name'] = item['name'].strip()
            return item
    
  • 配置模块化:不同的爬虫项目可能需要不同的配置。通过将配置参数化并根据不同环境或需求进行加载,能够提高配置的灵活性。

配置管理与参数化

Scrapy 项目的配置文件(settings.py集中管理了所有与爬虫行为相关的参数。在大型项目中可能需要根据不同环境或需求调整配置。Scrapy 提供了几种方式来进行动态配置管理。

  • 通过命令行参数传递配置:可以通过命令行传递特定的配置参数,而不必修改 settings.py 文件。

    scrapy crawl myspider -s DOWNLOAD_DELAY=1
    
  • 动态加载配置:可以根据环境变量或其他条件动态加载不同的配置文件。例如,区分开发环境和生产环境的配置。

    import os
    ENVIRONMENT = os.getenv('SCRAPY_ENV', 'development')
    
    if ENVIRONMENT == 'production':
        from myproject.settings_production import *
    else:
        from myproject.settings_development import *
    
  • 参数化配置:在大型项目中,可以将公共配置项抽取到单独的配置文件中,不同的爬虫模块或环境通过继承方式来扩展这些配置。

    # settings_base.py
    USER_AGENT = 'Mozilla/5.0'
    CONCURRENT_REQUESTS = 16
    
    # settings_development.py
    from .settings_base import *
    DOWNLOAD_DELAY = 1.5
    
    # settings_production.py
    from .settings_base import *
    DOWNLOAD_DELAY = 0.5