当前位置: 首页 > news >正文

Scrapy框架之Scrapyd部署及Gerapy分布式爬虫管理框架的使用

Scrapyd

Scrapyd 是一个用于部署和运行 Scrapy 爬虫的服务器。

1.安装

Scrapyd服务端:pip install scrapyd
Scrapyd客户端:pip install scrapyd-client

运行scrapyd
在这里插入图片描述
浏览器输入http://127.0.0.1:6800/
在这里插入图片描述

2.配置

安装完成后,需要对 Scrapyd 进行配置。通常需要创建一个scrapyd.conf配置文件,该文件用于设置 Scrapyd 的各种参数,如监听端口、日志文件路径、项目存储路径等。
官方配置文件:https://scrapyd.readthedocs.io/en/stable/config.html

[scrapyd]
eggs_dir = eggs
logs_dir = logs
items_dir = 
jobs_to_keep = 5
dbs_dir = dbs
max_proc = 0
max_proc_per_cpu = 4
finished_to_keep = 100
poll_interval = 5.0
bind_address = 0.0.0.0
http_port = 6800
debug = off
runner = scrapyd.runner
application = scrapyd.app.application
launcher = scrapyd.launcher.Launcher
webroot = scrapyd.website.Root

在上述配置中,指定了项目 egg 文件存储目录、日志文件目录、绑定的 IP 地址和端口等信息。你可以根据实际需求对这些配置进行修改。

在这里插入图片描述
打开scrapy项目里面的scrapy.cfg,修改一下

[settings]
default = quotes_scrapy.settings[deploy:Quotes] # deploy冒号后面写部署名
url = http://localhost:6800/
project = quotes_scrapy

3.部署项目

爬虫代码

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass QuotesSpider(CrawlSpider):name = "quotes"allowed_domains = ["quotes.toscrape.com"]start_urls = ["http://quotes.toscrape.com/"]rules = (Rule(LinkExtractor(allow=r'^http://quotes.toscrape.com/tag/[a-z]+/$'), callback='parse_tag', follow=True),)def parse_tag(self, response):# 打印当前页面的URLtag_url = response.urlself.logger.info(f"Extracted tag URL: {tag_url}")# 提取名言和作者quotes = response.css('div.quote')for quote in quotes:text = quote.css('span.text::text').get()author = quote.css('small.author::text').get()self.logger.info(f"text: {text}, author: {author}")

然后执行部署命令:scrapyd-deploy Quotes,代码变了就需要重新运行命令重新部署
在这里插入图片描述

打包生成了一个版本号(这里是 1746626862)。然后生成了这些文件夹,1746626862.egg就是打包文件

在这里插入图片描述

部署完成,http://localhost:6800/就多了scrapy项目
在这里插入图片描述

4.运行爬虫

部署完成后,可以通过向 Scrapyd 服务器发送 HTTP POST 请求告知 Scrapyd 服务器启动 quotes_scrapy 项目里名为 quotes 的爬虫

curl http://localhost:6800/schedule.json -d project=quotes_scrapy -d spider=quotes

也可以通过 Python 代码来调用 Scrapyd 的接口启动爬虫,示例代码如下:

import requestsurl = 'http://localhost:6800/schedule.json'
data = {'project': 'quotes_scrapy ','spider': 'quotes'
}
response = requests.post(url, data=data)
print(response.json())

运行爬虫会有一个jobid
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

运行完爬虫会出现logs日志文件
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
但是页面上会有一些乱码。

5.管理爬虫

  • 暂停爬虫:可以发送 POST 请求到http://localhost:6800/pause.json接口来暂停正在运行的爬虫,请求参数与启动爬虫类似,需要指定project和spider名称。
  • 恢复爬虫:通过发送 POST 请求到http://localhost:6800/resume.json接口来恢复暂停的爬虫。
  • 停止爬虫:发送 POST 请求到http://localhost:6800/cancel.json接口可以停止正在运行的爬虫。

6.查看状态和日志

  • 查看项目列表:发送 GET 请求到http://localhost:6800/listprojects.json接口可以获取已部署的项目列表。
  • 查看爬虫列表:通过 GET 请求http://localhost:6800/listspiders.json?project=my_scrapy_project可以查看指定项目中的爬虫列表。
  • 查看日志:Scrapyd 会将爬虫的日志存储在配置文件中指定的logs_dir目录下。可以通过访问该目录下的日志文件来查看爬虫的运行日志,了解爬虫的执行情况、错误信息等

Gerapy

Gerapy 是一个基于 Python 和 Django 开发的分布式爬虫管理框架,它为 Scrapy 爬虫的管理提供了可视化的界面,能够和 Scrapyd 协同工作。Gerapy 可以实现 Scrapy 项目的部署、调度、监控等功能,大大提升了爬虫管理的效率,适合用于管理大规模的分布式爬虫任务。

1.安装 Gerapy

pip install gerapy

2.初始化 Gerapy 项目

安装完成后,需要初始化 Gerapy 项目。在命令行中执行以下命令:

gerapy init
cd gerapy
gerapy migrate
  • gerapy init:该命令会创建一个 Gerapy 项目的基础结构。
    在这里插入图片描述

  • cd gerapy:进入到创建好的项目目录。

  • gerapy migrate:执行数据库迁移操作,创建必要的数据库表。
    在这里插入图片描述

3.创建管理员用户

要使用 Gerapy 的管理界面,需要创建一个管理员用户

gerapy createsuperuser

按照提示输入用户名、邮箱和密码。这里用户名和密码都是admin,邮箱不填
在这里插入图片描述

4.启动 Gerapy 服务

gerapy runserver

在这里插入图片描述

默认情况下,Gerapy 会在http://127.0.0.1:8000上启动服务。在浏览器中访问该地址,使用之前创建的管理员账号登录,即可进入 Gerapy 的管理界面。
在这里插入图片描述
在这里插入图片描述

5.添加服务器

在 Gerapy 中,你需要添加 Scrapyd 服务器,以便管理和调度这些服务器上的爬虫项目。前提是要运行scrapyd
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.调度爬虫

在这里插入图片描述
在这里插入图片描述

7.项目管理

可以对已部署的项目进行更新、删除等操作。
在这里插入图片描述
在这里插入图片描述
直接将scrapy项目放在gerapy/projects目录下

在这里插入图片描述
可以看到多了一个quotes_scrapy项目

然后打包项目,点击“部署”,然后添加描述,再点击“打包”
在这里插入图片描述
在这里插入图片描述

监控爬虫

在 Gerapy 管理界面的 “任务” 选项中,可以查看所有爬虫任务的执行状态,包括正在运行、已完成、失败等状态。

相关文章:

Scrapy框架之Scrapyd部署及Gerapy分布式爬虫管理框架的使用

Scrapyd Scrapyd 是一个用于部署和运行 Scrapy 爬虫的服务器。 1.安装 Scrapyd服务端:pip install scrapyd Scrapyd客户端:pip install scrapyd-client 运行scrapyd 浏览器输入http://127.0.0.1:6800/ 2.配置 安装完成后,需要对 Scra…...

【uniapp】errMsg: “navigateTo:fail timeout“

项目场景: 在点击编辑的时候不能跳转的编辑的页面,然后直接报错errMsg: "navigateTo:fail timeout" 解决方案: 看看是否是出现了盒子的冒泡事件导致了两次调用跳转路径 tap.stop...

亿级流量系统架构设计与实战(五)

高并发写场景方案 1 : 数据分片之数据库分库分表 数据分片思想:可以将资源拆开分为多份,拆分的多份小的资源一起构成完整资源。 分库和分表 分库: 分库指的是将数据库拆分为多个小数据库,原来存储在单个数据库中的数据被分开存储到各个小数据库中。 分表:分表指的是将…...

机器学习——逻辑回归ROC练习

一、 题目要求: 给定以下二分类模型的预测结果,手动绘制ROC曲线并计算AUC值: y_true [0, 1, 0, 1, 0, 1] # 真实标签(0负类,1正类) y_score [0.2, 0.7, 0.3, 0.6, 0.1, 0.8] # 模型预测得分 代码展示…...

Kubernetes学习笔记

云计算三层模型 IaaS(基础设施即服务):提供虚拟化计算资源(如虚拟机、存储、网络)。 PaaS(平台即服务):提供应用开发和部署环境(如数据库、中间件、运行时)。…...

【DB2】DB2启动失败报错SQL1042C

在本地某次启动db2时报错SQL1042C,具体报错如下 [db2inst1standby ~]$ db2start 05/07/2025 16:32:53 0 0 SQL1042C An unexpected system error occurred. SQL1032N No start database manager command was issued. SQLSTATE57019在网上百度到说是需要…...

Redis相关命令详解与原理

Redis是什么? Redis 是Remote Dictionary Server(Redis) 的缩写,是一个使用 C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型的Key-Value数据库,并提供多种语言的API。 它是一种 NoSQL(not-only sql,…...

[吾爱出品][Windows] 产品销售管理系统2.0

[Windows] 产品销售管理系统 链接:https://pan.xunlei.com/s/VOPej1bHMRCHy2np9w3TBOyKA1?pwdgjy7# 使用方法:1、先设置一下图片保存路径 2、维护产品。客户等基础信息。例如:销售类型:一次性 销售编码:RCX。 3、销…...

基于OpenTelemetry的分布式链路追踪Trace‌实现(PHP篇)

目录 引言一、OpenTelemetry是一套可观测性标准协议二、分布式追踪(‌Trace‌)是OpenTelemetry的核心功能之一三、OpenTelemetry的架构原理四、OpenTelemetry的分布式追踪(‌Trace‌)实践1、准备PHP环境2、下载SDK3、编写实例代码…...

电气工程中漏源电压Vds的平台电压是什么?

在MOSFET(金属 - 氧化物 - 半导体场效应晶体管)中,漏源电压 VDS 的平台电压是其输出特性曲线中的一个关键概念。 定义 在MOSFET的输出特性曲线里,当器件工作于饱和区时,漏源电流ID对漏源电压VDS​的变化不太敏感&…...

第35周Zookkeeper+Dubbo Dubbo

Dubbo 详解 一、Dubbo 是什么 官网与定义 Dubbo 是一款高性能、轻量级的开源服务框架,其官网为 double.apache.org,提供中文版本(网址含 “zh”)。 核心能力 Dubbo 具备六大核心能力: 面向接口代理的高性能 RPC …...

allegro出gerber时,单击Artwork并没有弹窗的问题

使用allegro出gerber时,有时点击 Artwork图标并未如愿以偿的弹出窗口。。。 可按下面尝试恢复,注,删除前可先备份该两支文件。。。 看时间戳,删除最近的下面标红两支文件即可。...

【神经网络与深度学习】VAE 中的先验分布指的是什么

VAE 中的先验分布是什么? 在 变分自编码器(VAE) 中,先验分布指的是对潜在空间中随机变量的概率分布假设。通常情况下,VAE 设定潜在变量服从 标准正态分布 ( N(0, I) ),其中 ( 0 ) 代表均值为零的向量&…...

信息革命对经济、货币体系及权力结构的颠覆性影响

一、地理束缚的瓦解与权力转移 生产要素去实体化 思想、知识与数据取代实物资产成为核心价值来源,光速传播特性使经济活动突破物理边界。跨境远程医疗、跨国虚拟企业等新形态挑战传统管辖权概念,政府难以通过地域垄断攫取超额收益。 管辖权竞争白热化 …...

leetcode文件级全局变量会在测试用例之间相互影响

背景:在做Leetcode 743使用文件级全局变量idx,不同用例之间idx一直在。参考leetcode的文档: 解决办法:我选择在核心函数的开头,加入初始化代码(每次用例调用都会重新初始化至原始状态)...

如何查看电脑显卡配置参数 一文读懂

显卡是电脑的重要硬件之一,尤其对于游戏玩家、设计师、视频编辑等用户来说,显卡的性能直接影响电脑的使用体验。如果您想知道电脑的显卡信息,或者打算升级显卡,那么了解如何查看显卡配置是非常必要的。本文将为您提供多种简单实用…...

获取嵌入(Embeddings)的方法与实践

获取嵌入(Embeddings)的方法与实践 摘要 本文详细介绍了获取嵌入(Embeddings)的多种方法,包括降维技术和神经网络训练方法。通过具体的实例和可视化展示,我们将了解如何将高维数据转换为有意义的低维表示,以及如何根据具体任务需求选择合适…...

【国产化】在银河麒麟ARM环境下离线安装docker

1、前言 采用离线安装的方式。 关于离线安装的方式官网有介绍,但是说的很简单,网址:Binaries | Docker Docs 官网介绍的有几种主流linux系统的安装方式,但是没有kylin的,所以在此记录一下。 在安装过程中也遇到了些…...

基于大模型的子宫平滑肌瘤全周期预测与诊疗方案研究

目录 一、引言 1.1 研究背景与意义 1.2 研究目的与创新点 二、大模型技术原理与应用现状 2.1 大模型概述 2.2 相关技术原理 2.3 医疗领域应用现状 三、子宫平滑肌瘤术前预测 3.1 预测指标与数据收集 3.2 大模型预测模型构建 3.3 预测结果分析与应用 四、子宫平滑肌…...

SpringBoot 集成 Ehcache 实现本地缓存

SpringBoot 集成 Ehcache 实现本地缓存_springboot ehcache-CSDN博客...

linux下MySql的安装与配置

一键三联,把mysql的安装与配置也写了,供各位参考。 --------------------------------------MySql的安装与配置-------------------------------------- 1 将下载的 压缩包解压到指定目录 tar -zxvf mysql-5.7.26-linux-glibc2.12-x86_64.tar.gz 卸载…...

普通IT的股票交易成长史--20250507晚复盘

声明:本文章的内容只是自己学习的总结,不构成投资建议。价格行为理论学习可参考简介中的几位,感谢他们的无私奉献。 送给自己的话: 仓位就是生命,绝对不能满仓!!!!&…...

准确---Typora配置Gitee图床并实现自动图片上传

下载地址:https://github.com/Molunerfinn/picgo/releases 安装就直接下一步,下一步就行 安装完以后然后回到Typora上偏好设置指定一下路径 默认是 C:\Program Files\PicGo\PicGo.exe 并且还需要选择规则 接下来就需要去PicGo上面配置了 配置之前需要去…...

力扣热题100之回文链表

题目 给你一个单链表的头节点 head ,请你判断该链表是否为回文链表。如果是,返回 true ;否则,返回 false 。 代码 方法一: 将链表值复制到数组中,在数组中判断是否是回文列表 # Definition for singl…...

基于Node.js的Web爬虫: 使用Axios和Cheerio抓取网页数据

1. 环境准备 在开始之前,请确保计算机上已安装Node.js mkdir webScraper cd webScraper npm init -y npm install axios cheerio expressaxios: 用于发送HTTP请求。cheerio: 用于解析和操作HTML。express: 用于创建Web服务器。 2. 创建爬虫 在文件夹中创建一个新…...

如何用命令行判断一个exe是不是c#wpf开发的

在powershell下执行 $assembly [Reflection.Assembly]::ReflectionOnlyLoadFrom("你的exe全路径") $references $assembly.GetReferencedAssemblies() echo $assembly $references | Where-Object { $_.Name -match "PresentationFramework|PresentationCore…...

SpringBoot项目接入DeepSeek

在这个demo当中,我使用的是JDK8Spring Boot 2.6.x,下面直接给大家附上完整的代码。 一、项目结构 deepseek - demo/ ├── src/ │ ├── main/ │ │ ├── java/ │ │ │ └── cn/ │ │ │ └── mzl/ │ │ │ …...

C++ lambda表达式的捕获原理

目录 C Lambda表达式捕获机制的详细原理分析Lambda的本质机制关键实现细节特殊捕获方式[ ]空捕获[&]全引用捕获[]全值(拷贝)捕获混合捕获[,&variable]拷贝及部分引用捕获[&,variable]引用及部分拷贝捕获 显式捕获[variable]拷贝捕获部分变量[&variable]引用捕获…...

修改图像分辨率

在这个教程中,您将学习如何使用Python和深度学习技术来调整图像的分辨率。我们将从基础的图像处理技术开始,逐步深入到使用预训练的深度学习模型进行图像超分辨率处理。 一、常规修改方法 1. 安装Pillow库 首先,你需要确保你的Python环境中…...

【面板数据】公开整理-各省刑事案件统计数据集(2011-2023年)

刑事案件数量是衡量一个地区社会治安状况的重要指标。近年来,我国各地在推进法治建设和社会治理现代化的背景下,刑事案件的数量呈现出明显的区域差异和年度波动,通过年度案件数据,可以反映出社会安全水平的变化趋势,为…...

ABAP使用GET_TAX_PERCENTAGE 函数取税率

ABAP使用GET_TAX_PERCENTAGE 函数取税率 今天在做含税价的时候查到的,记录一下。S4 Hana 的环境。 先DATA一个 ftaxp GET_TAX_PERCENTAGE 函数,实例为采购订单进项税。 OK,搞定。...

鞅与停时 - 一种特别的概率论问题

讨论一个有趣的概率问题: [P3334 ZJOI2013] 抛硬币 - 洛谷 实际上是一个猴子打字问题,考虑一直无规律随即打字的猴子,键盘上只有A-Z一共26个字母,对于一个特定的字符串 S S S : ABCABCAB ,能否在有限的打…...

Android 有线网开发调试总结

Android 有线网开发调试总结 文章目录 Android 有线网开发调试总结一、前言二、有线网开发1、开关2、相关日志(3)相关广播(4)demo示例 三、其他1、Android 有线网开发调试小结2、Android13 有线网开关研究3、Android9、11 有线网络…...

.net在DB First模式使用pgsql

nuget要安装: Npgsql.EntityFrameworkCore.PostgreSQL Microsoft.EntityFrameworkCore.Tools vs2022-->工具-->nuget包管理器-->程序包管理器控制台-->输入命令: Scaffold-DbContext "Hostlocalhost;Databasemydatabase;Usernamemyu…...

Spring Boot 中如何解决 CORS 问题(详解)

在前后端分离的开发模式中,前端调用后端接口时,经常会遇到 跨域资源共享(CORS) 的问题。Spring Boot 作为常用的后端框架,提供了多种方式来优雅地解决这个问题。本文将全面介绍 Spring Boot 中处理 CORS 的常见方法、原…...

深度学习:智能车牌识别系统(python)

这是一个基于opencv的智能车牌识别系统,有GUI界面。程序能自动识别图片中的车牌号码,并支持中文和英文字符识别,支持选择本地图片文件,支持多种图片格式(jpg、jpeg、png、bmp、gif)。 下面,我将按模块功能对代码进行分段说明: 1. 导入模块部分 import tkinter as tk…...

STM32开发printf函数支持

1、printf函数支持 1、避免使用半主机模式:两种方法:微库法、代码法 2、实现fputc函数:实现单个字符输出 2、半主机模式简介 用于 ARM 目标的一种机制,可将来自应用程序代码的输入/输出请求传送至运行调试器的主机 简单说:就是通过仿真器实…...

解决 Chrome 与 Chromedriver 版本不一致问题的方法

目录 常见错误处理 处理方案: 1. 自动版本匹配方法 使用 webdriver-manager 库(推荐) 2. 手动版本管理方法 检查并匹配版本 3. 版本兼容性解决方案 使用兼容性表 4. 自动更新策略 定期检查更新脚本 5. Docker 容器化方案 最佳实践建…...

CPU的基本认识

为大家介绍CPU的基本概念,例如:CPU的型号认识、什么是时钟周期、物理核和逻辑核、缓存、TLB缓存的概念,可以帮助大家对cpu有个概念性的认识,选择电脑的时候可以看懂CPU的参数和理解基本原理。 CPU的基本认识 个人CPU型号介绍工作频…...

UGUI如何使用EventTrigger

前言 在 Unity 的 UGUI 系统中,EventTrigger 是一个强大的组件,允许开发者监听和处理多种 UI 交互事件。以下是详细的使用方法、示例代码、优缺点分析以及注意事项。 一、EventTrigger 基本用法 1. 添加 EventTrigger 组件 在 Unity 编辑器中选中 UI 对象(如 But…...

101alpha_第4个

(-1 * ts_rank(rank(low), 9)) 这里的low是每日的最低价。 各函数及整体含义解释 1. rank(low) 在金融分析场景里,low 通常代表股票在每个交易日中的最低价。rank(low) 会对一段时间内的最低价数据进行排序,并为每个数据赋予一个排名。比如,…...

5月13日观测云发布会:这一次,我们不只是发布产品

01|为什么举办这场发布会? 在生成式 AI 席卷一切、业务系统愈发复杂的时代,我们发现: 传统的监控观测已经无法满足企业对性能、安全、智能的统一诉求;每一个企业,都在经历从“看得到”到“看得懂”的跃迁&…...

【IP101】图像分割技术全解析:从传统算法到深度学习的进阶之路

图像分割详解 ✂️ 欢迎来到图像处理的"手术室"!在这里,我们将学习如何像外科医生一样精准地"切割"图像。让我们一起探索这个神奇的图像"手术"世界吧!🏥 目录 📑 1. 图像分割简介2. 阈…...

华为设备链路聚合实验:网络工程实战指南

链路聚合就像为网络搭建 “并行高速路”,既能扩容带宽,又能保障链路冗余,超实用! 一、实验拓扑速览 图中两台交换机 LSW1 和 LSW2,PC1、PC2 归属 VLAN 10,PC3 归属 VLAN 30。LSW1 与 LSW2 通过 GE0/0/1、…...

C24-数组

数组的引入:方便对同一类型的数据进行管理(一个班级里的45个同学、一个篮子里的12个苹果)数组的定义: 数据类型 数组名[常量表达式(也就是元素的个数)];int a[10]; //这里定义了一个能存放10个元素的整形数组数组初始化 完全初始化 int arr[3]{5,6,8};部分初始化 int arr[10]{…...

Vue 项目中长按保存图片功能实现指南

在移动互联网应用中,用户常常有保存页面特定内容为图片的需求,比如保存二维码、海报等。在 Vue 项目开发中,如何实现长按保存图片的功能?本文将结合具体代码,详细讲解在 Vue 项目中通过长按操作保存图片的技术实现与应…...

行业先锋:六款产品的实战表现

行业先锋:六款产品的实战表现  北京先智先行科技有限公司,销售着“先知大模型”、“先行AI商学院”“先知AIGC超级工场”这三个旗舰产品,在行业内崭露头角。旗下的先知A1、先知大模型等更是备受关注。  先知大模型,作为核心产…...

RS485与Profibus网关自由口数据互换技巧

RS485与Profibus网关自由口数据互换技巧 兴达易控RS485转Profibus网关在自由口模式下的数据互换,是工业自动化领域内一项关键的技术应用,它实现了不同通信协议设备之间的有效连接与数据交换。在现代工业生产中,众多设备和系统往往采用不同的…...

java复杂度,包装类,泛型解析

如何衡量代码的好坏? 评价代码的好坏我们使用算法效率来判断,而算法效率分两种: 算法效率: 第一种是时间效率,第二种是空间效率,时间效率被称为时间复杂度,⽽空间效率被称作空间复杂度。 时间…...

K8S安装部署(v1.27.6)

一、机器配置 系统版本主机名IP基于服务centos 7.9k8s-master192.168.163.104dockerk8s-node1192.168.163.105k8s-node2192.168.163.106注:以上3台机器都是2C4G的虚拟机,仅供测试使用 docker部署可以参考:docker 部署 二、其他环境配置 #1、关闭防火墙 systemctl stop fir…...