当前位置：首页 > news >正文

【爬虫开发】爬虫开发从0到1全知识教程第12篇：scrapy爬虫框架,介绍【附代码文档】

news 来源：原创 2025/7/28 3:35:09

本教程的知识点为：爬虫概要爬虫基础爬虫概述知识点： 1. 爬虫的概念 requests模块 requests模块知识点： 1. requests模块介绍 1.1 requests模块的作用：数据提取概要数据提取概述知识点 1. 响应内容的分类知识点：了解响应内容的分类 Selenium概要 selenium的介绍知识点： 1. selenium运行效果展示 1.1 chrome浏览器的运行效果 Selenium概要 selenium的其它使用方法知识点： 1. selenium标签页的切换知识点：掌握 selenium控制标签页的切换反爬与反反爬常见的反爬手段和解决思路学习目标 1 服务器反爬的原因 2 服务器常反什么样的爬虫反爬与反反爬验证码处理学习目标 1.图片验证码 2.图片识别引擎反爬与反反爬 JS的解析学习目标： 1 确定js的位置 1.1 观察按钮的绑定js事件 Mongodb数据库介绍内容 mongodb文档 mongodb的简单使用 Mongodb数据库介绍内容 mongodb文档 mongodb的聚合操作 Mongodb数据库介绍内容 mongodb文档 mongodb和python交互 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy的入门使用 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy管道的使用 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy中间件的使用 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy_redis原理分析并实现断点续爬以及分布式爬虫 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy的日志信息与配置利用appium抓取app中的信息介绍内容 appium环境安装学习目标

完整笔记资料代码：https://gitee.com/yinuo112/Backend/tree/master/爬虫/爬虫开发从0到1全知识教程/note.md

感兴趣的小伙伴可以自取哦~

全套教程部分目录：

部分文件图片：

scrapy爬虫框架

介绍

我们知道常用的流程web框架有django、flask，那么接下来，我们会来学习一个全世界范围最流行的爬虫框架scrapy

内容

scrapy的概念作用和工作流程
scrapy的入门使用
scrapy构造并发送请求
scrapy模拟登陆
scrapy管道的使用
scrapy中间件的使用
scrapy_redis概念作用和流程
scrapy_redis原理分析并实现断点续爬以及分布式爬虫
scrapy_splash组件的使用
scrapy的日志信息与配置
scrapyd部署scrapy项目

scrapy官方文档

[

scrapy的入门使用

学习目标：

掌握 scrapy的安装
应用创建scrapy的项目
应用创建scrapy爬虫
应用运行scrapy爬虫
应用 scrapy定位以及提取数据或属性值的方法
掌握 response响应对象的常用属性

1 安装scrapy

命令:
sudo apt-get install scrapy
或者：
pip/pip3 install scrapy

2 scrapy项目开发流程

创建项目:
scrapy startproject mySpider
生成一个爬虫:
scrapy genspider itcast itcast.cn
提取数据:
根据网站结构在spider中实现数据采集相关内容
保存数据:
使用pipeline进行数据后续处理和保存

3. 创建项目

通过命令将scrapy项目的的文件生成出来，后续步骤都是在项目文件中进行相关操作，下面以抓取传智师资库来学习scrapy的入门使用：[

创建scrapy项目的命令：
scrapy startproject <项目名字>
示例：
scrapy startproject myspider

生成的目录和文件结果如下：

4. 创建爬虫

通过命令创建出爬虫文件，爬虫文件为主要的代码作业文件，通常一个网站的爬取动作都会在爬虫文件中进行编写。

命令：
在项目路径下执行:
scrapy genspider <爬虫名字> <允许爬取的域名>

爬虫名字: 作为爬虫运行时的参数
允许爬取的域名: 为对于爬虫设置的爬取范围，设置之后用于过滤要爬取的url，如果爬取的url与允许的域不通则被过滤掉。

示例：

cd myspiderscrapy genspider itcast itcast.cn

生成的目录和文件结果如下：

5. 完善爬虫

在上一步生成出来的爬虫文件中编写指定网站的数据采集操作，实现数据提取

5.1 在/myspider/myspider/spiders/itcast.py中修改内容如下:

import scrapyclass ItcastSpider(scrapy.Spider):  # 继承scrapy.spider# 爬虫名字 name = 'itcast' # 允许爬取的范围allowed_domains = ['itcast.cn'] # 开始爬取的url地址start_urls = ['# 数据提取的方法，接受下载中间件传过来的responsedef parse(self, response): # scrapy的response对象可以直接进行xpathnames = response.xpath('//div[@class="tea_con"]//li/div/h3/text()') print(names)# 获取具体数据文本的方式如下# 分组li_list = response.xpath('//div[@class="tea_con"]//li') for li in li_list:# 创建一个数据字典item = {}# 利用scrapy封装好的xpath选择器定位元素，并通过extract()或extract_first()来获取结果item['name'] = li.xpath('.//h3/text()').extract_first() # 老师的名字item['level'] = li.xpath('.//h4/text()').extract_first() # 老师的级别item['text'] = li.xpath('.//p/text()').extract_first() # 老师的介绍print(item)

注意：

scrapy.Spider爬虫类中必须有名为parse的解析
如果网站结构层次比较复杂，也可以自定义其他解析函数
在解析函数中提取的url地址如果要发送请求，则必须属于allowed_domains范围内，但是start_urls中的url地址不受这个限制，我们会在后续的中学习如何在解析函数中构造发送请求
启动爬虫的时候注意启动的位置，是在项目路径下启动
parse()函数中使用yield返回数据，注意：解析函数中的yield能够传递的对象只能是：BaseItem, Request, dict, None

5.2 定位元素以及提取数据、属性值的方法

解析并获取scrapy爬虫中的数据: 利用xpath规则字符串进行定位和提取

response.xpath方法的返回结果是一个类似list的类型，其中包含的是selector对象，操作和列表一样，但是有一些额外的方法
额外方法extract()：返回一个包含有字符串的列表
额外方法extract_first()：返回列表中的第一个字符串，列表为空没有返回None

5.3 response响应对象的常用属性

response.url：当前响应的url地址
response.request.url：当前响应对应的请求的url地址
response.headers：响应头
response.requests.headers：当前响应的请求头
response.body：响应体，也就是html代码，byte类型
response.status：响应状态码

6 保存数据

利用管道pipeline来处理(保存)数据

6.1 在pipelines.py文件中定义对数据的操作

定义一个管道类
重写管道类的process_item方法
process_item方法处理完item之后必须返回给引擎

import jsonclass ItcastPipeline():# 爬虫文件中提取数据的方法每yield一次item，就会运行一次# 该方法为固定名称函数def process_item(self, item, spider):print(item)return item

6.2 在settings.py配置启用管道

ITEM_PIPELINES = {'myspider.pipelines.ItcastPipeline': 400
}

配置项中键为使用的管道类，管道类使用.进行分割，第一个为项目目录，第二个为文件，第三个为定义的管道类。
配置项中值为管道的使用顺序，设置的数值约小越优先执行，该值一般设置为1000以内。

7. 运行scrapy

命令：在项目目录下执行scrapy crawl <爬虫名字>

示例：scrapy crawl itcast

小结

scrapy的安装：pip install scrapy
创建scrapy的项目: scrapy startproject myspider
创建scrapy爬虫：在项目目录下执行 scrapy genspider itcast itcast.cn
运行scrapy爬虫：在项目目录下执行 scrapy crawl itcast
解析并获取scrapy爬虫中的数据：
response.xpath方法的返回结果是一个类似list的类型，其中包含的是selector对象，操作和列表一样，但是有一些额外的方法
extract() 返回一个包含有字符串的列表
extract_first() 返回列表中的第一个字符串，列表为空没有返回None
scrapy管道的基本使用:
完善pipelines.py中的process_item函数
在settings.py中设置开启pipeline
response响应对象的常用属性
response.url：当前响应的url地址
response.request.url：当前响应对应的请求的url地址
response.headers：响应头
response.requests.headers：当前响应的请求头
response.body：响应体，也就是html代码，byte类型
response.status：响应状态码

scrapy爬虫框架

介绍

我们知道常用的流程web框架有django、flask，那么接下来，我们会来学习一个全世界范围最流行的爬虫框架scrapy

内容

scrapy的概念作用和工作流程
scrapy的入门使用
scrapy构造并发送请求
scrapy模拟登陆
scrapy管道的使用
scrapy中间件的使用
scrapy_redis概念作用和流程
scrapy_redis原理分析并实现断点续爬以及分布式爬虫
scrapy_splash组件的使用
scrapy的日志信息与配置
scrapyd部署scrapy项目

scrapy官方文档

[

scrapy数据建模与请求

学习目标：

应用在scrapy项目中进行建模
应用构造Request对象，并发送请求
应用利用meta参数在不同的解析函数中传递数据

1. 数据建模

通常在做项目的过程中，在items.py中进行数据建模

1.1 为什么建模

定义item即提前规划好哪些字段需要抓，防止手误，因为定义好之后，在运行过程中，系统会自动检查
配合注释一起可以清晰的知道要抓取哪些字段，没有定义的字段不能抓取，在目标字段少的时候可以使用字典代替
使用scrapy的一些特定组件需要Item做支持，如scrapy的ImagesPipeline管道类，百度搜索了解更多

1.2 如何建模

在items.py文件中定义要提取的字段：

class MyspiderItem(scrapy.Item): name = scrapy.Field()   # 讲师的名字title = scrapy.Field()  # 讲师的职称desc = scrapy.Field()   # 讲师的介绍

1.3 如何使用模板类

模板类定义以后需要在爬虫中导入并且实例化，之后的使用方法和使用字典相同

job.py：

from myspider.items import MyspiderItem   # 导入Item，注意路径
...def parse(self, response)item = MyspiderItem() # 实例化后可直接使用item['name'] = node.xpath('./h3/text()').extract_first()item['title'] = node.xpath('./h4/text()').extract_first()item['desc'] = node.xpath('./p/text()').extract_first()print(item)

注意：

from myspider.items import MyspiderItem这一行代码中注意item的正确导入路径，忽略pycharm标记的错误
python中的导入路径要诀：从哪里开始运行，就从哪里开始导入

1.4 开发流程总结

创建项目
scrapy startproject 项目名
明确目标
在items.py文件中进行建模
创建爬虫
3.1 创建爬虫

scrapy genspider 爬虫名 允许的域

3.2 完成爬虫

修改start_urls检查修改allowed_domains编写解析方法

保存数据
在pipelines.py文件中定义对数据处理的管道
在settings.py文件中注册启用管道

2. 翻页请求的思路

对于要提取如下图中所有页面上的数据该怎么办？

回顾requests模块是如何实现翻页请求的：

找到下一页的URL地址
调用requests.get(url)

scrapy实现翻页的思路：

找到下一页的url地址
构造url地址的请求对象，传递给引擎

3. 构造Request对象，并发送请求

3.1 实现方法

确定url地址
构造请求，scrapy.Request(url,callback)
callback：指定解析函数名称，表示该请求返回的响应使用哪一个函数进行解析
把请求交给引擎：yield scrapy.Request(url,callback)

3.2 网易招聘爬虫

通过爬取网易招聘的页面的招聘信息,学习如何实现翻页请求

地址：[

思路分析：

获取首页的数据
寻找下一页的地址，进行翻页，获取数据

注意：

可以在settings中设置ROBOTS协议

# False表示忽略网站的robots.txt协议，默认为TrueROBOTSTXT_OBEY = False

可以在settings中设置User-Agent：

# scrapy发送的每一个请求的默认UA都是设置的这个User-AgentUSER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'

3.3 代码实现

在爬虫文件的parse方法中：

......# 提取下一页的hrefnext_url = response.xpath('//a[contains(text(),">")]/@href').extract_first()# 判断是否是最后一页if next_url != 'javascript:void(0)':# 构造完整urlurl = ' + next_url# 构造scrapy.Request对象，并yield给引擎# 利用callback参数指定该Request对象之后获取的响应用哪个函数进行解析yield scrapy.Request(url, callback=self.parse)
......

3.4 scrapy.Request的更多参数

scrapy.Request(url[,callback,method="GET",headers,body,cookies,meta,dont_filter=False])

参数解释

中括号里的参数为可选参数
callback：表示当前的url的响应交给哪个函数去处理
meta：实现数据在不同的解析函数中传递，meta默认带有部分数据，比如下载延迟，请求深度等
dont_filter:默认为False，会过滤请求的url地址，即请求过的url地址不会继续被请求，对需要重复请求的url地址可以把它设置为Ture，比如贴吧的翻页请求，页面的数据总是在变化;start_urls中的地址会被反复请求，否则程序不会启动
method：指定POST或GET请求
headers：接收一个字典，其中不包括cookies
cookies：接收一个字典，专门放置cookies
body：接收json字符串，为POST的数据，发送payload_post请求时使用（在下一章节中会介绍post请求）

4. meta参数的使用

meta的作用：meta可以实现数据在不同的解析函数中的传递

在爬虫文件的parse方法中，提取详情页增加之前callback指定的parse_detail函数：

def parse(self,response):...yield scrapy.Request(detail_url, callback=self.parse_detail,meta={"item":item})
...def parse_detail(self,response):#获取之前传入的itemitem = resposne.meta["item"]

特别注意

meta参数是一个字典
meta字典中有一个固定的键proxy，表示ip，关于ip的使用我们将在scrapy的下载中间件的学习中进行介绍

小结

完善并使用Item数据类：
在items.py中完善要爬取的字段
在爬虫文件中先导入Item
实力化Item对象后，像字典一样直接使用
构造Request对象，并发送请求：
导入scrapy.Request类
在解析函数中提取url
yield scrapy.Request(url, callback=self.parse_detail, meta={})
利用meta参数在不同的解析函数中传递数据:
通过前一个解析函数 yield scrapy.Request(url, callback=self.xxx, meta={}) 来传递meta
在self.xxx函数中 response.meta.get('key', '') 或 response.meta['key'] 的方式取出传递的数据

参考代码

wangyi/spiders/job.py

import scrapyclass JobSpider(scrapy.Spider):name = 'job'# 2.检查允许的域名allowed_domains = ['163.com']# 1 设置起始的urlstart_urls = ['def parse(self, response):# 获取所有的职位节点列表node_list = response.xpath('//*[@class="position-tb"]/tbody/tr')# print(len(node_list))# 遍历所有的职位节点列表for num, node in enumerate(node_list):# 索引为值除2取余为0的才是含有数据的节点，通过判断进行筛选if num % 2 == 0:item = {}item['name'] = node.xpath('./td[1]/a/text()').extract_first()item['link'] = node.xpath('./td[1]/a/@href').extract_first()item['depart'] = node.xpath('./td[2]/text()').extract_first()item['category'] = node.xpath('./td[3]/text()').extract_first()item['type'] = node.xpath('./td[4]/text()').extract_first()item['address'] = node.xpath('./td[5]/text()').extract_first()item['num'] = node.xpath('./td[6]/text()').extract_first().strip()item['date'] = node.xpath('./td[7]/text()').extract_first()yield item# 翻页处理# 获取翻页urlpart_url = response.xpath('//a[contains(text(),">")]/@href').extract_first()# 判断是否为最后一页，如果不是最后一页则进行翻页操作if part_url != 'javascript:void(0)':# 拼接完整翻页urlnext_url = ' + part_urlyield scrapy.Request(url=next_url,callback=self.parse)

wangyi/items.py

class WangyiItem(scrapy.Item):# define the fields for your item here like:name = scrapy.Field()link = scrapy.Field()depart = scrapy.Field()category = scrapy.Field()type = scrapy.Field()address = scrapy.Field()num = scrapy.Field()date = scrapy.Field()

scrapy模拟登陆

学习目标：

应用请求对象cookies参数的使用
了解 start_requests函数的作用
应用构造并发送post请求

1. 回顾之前的模拟登陆的方法

1.1 requests模块是如何实现模拟登陆的？

直接携带cookies请求页面
找url地址，发送post请求存储cookie

1.2 selenium是如何模拟登陆的？

找到对应的input标签，输入文本点击登陆

1.3 scrapy的模拟登陆

直接携带cookies
找url地址，发送post请求存储cookie

2. scrapy携带cookies直接获取需要登陆后的页面

应用场景

cookie过期时间很长，常见于一些不规范的网站
能在cookie过期之前把所有的数据拿到
配合其他程序使用，比如其使用selenium把登陆之后的cookie获取到保存到本地，scrapy发送请求之前先读取本地cookie

2.1 实现：重构scrapy的starte_rquests方法

scrapy中start_url是通过start_requests来进行处理的，其实现代码如下

# 这是源代码def start_requests(self):cls = self.__class__if method_is_overridden(cls, Spider, 'make_requests_from_url'):warnings.warn("Spider.make_requests_from_url method is deprecated; it ""won't be called in future Scrapy releases. Please ""override Spider.start_requests method instead (see %s.%s)." % (cls.__module__, cls.__name__),)for url in self.start_urls:yield self.make_requests_from_url(url)else:for url in self.start_urls:yield Request(url, dont_filter=True)

所以对应的，如果start_url地址中的url是需要登录后才能访问的url地址，则需要重写start_request方法并在其中手动添加上cookie

2.2 携带cookies登陆github

测试账号 noobpythoner zhoudawei123

import scrapy
import reclass Login1Spider(scrapy.Spider):name = 'login1'allowed_domains = ['github.com']start_urls = [' # 这是一个需要登陆以后才能访问的页面def start_requests(self): # 重构start_requests方法# 这个cookies_str是抓包获取的cookies_str = '...' # 抓包获取# 将cookies_str转换为cookies_dictcookies_dict = {i.split('=')[0]:i.split('=')[1] for i in cookies_str.split('; ')}yield scrapy.Request(self.start_urls[0],callback=self.parse,cookies=cookies_dict)def parse(self, response): # 通过正则表达式匹配用户名来验证是否登陆成功# 正则匹配的是github的用户名result_list = re.findall(r'noobpythoner|NoobPythoner', response.body.decode()) print(result_list)pass

注意：

scrapy中cookie不能够放在headers中，在构造请求的时候有专门的cookies参数，能够接受字典形式的coookie
在setting中设置ROBOTS协议、USER_AGENT

3. scrapy.Request发送post请求

我们知道可以通过scrapy.Request()指定method、body参数来发送post请求；但是通常使用scrapy.FormRequest()来发送post请求

3.1 发送post请求

注意：scrapy.FormRequest()能够发送表单和ajax请求，参考阅读 [

3.1.1 思路分析

找到post的url地址：点击登录按钮进行抓包，然后定位url地址为[
找到请求体的规律：分析post请求的请求体，其中包含的参数均在前一次的响应中
否登录成功：通过请求个人主页，观察是否包含用户名

3.1.2 代码实现如下：

import scrapy
import reclass Login2Spider(scrapy.Spider):name = 'login2'allowed_domains = ['github.com']start_urls = ['def parse(self, response):authenticity_token = response.xpath("//input[@name='authenticity_token']/@value").extract_first()utf8 = response.xpath("//input[@name='utf8']/@value").extract_first()commit = response.xpath("//input[@name='commit']/@value").extract_first()#构造POST请求，传递给引擎yield scrapy.FormRequest("formdata={"authenticity_token":authenticity_token,"utf8":utf8,"commit":commit,"login":"noobpythoner","password":"***"},callback=self.parse_login)def parse_login(self,response):ret = re.findall(r"noobpythoner|NoobPythoner",response.text)print(ret)

小技巧

在settings.py中通过设置COOKIES_DEBUG=TRUE 能够在终端看到cookie的传递传递过程

小结

start_urls中的url地址是交给start_request处理的，如有必要，可以重写start_request函数
直接携带cookie登陆：cookie只能传递给cookies参数接收
scrapy.Request()发送post请求

【爬虫开发】爬虫开发从0到1全知识教程第12篇：scrapy爬虫框架,介绍【附代码文档】

本教程的知识点为：爬虫概要爬虫基础爬虫概述知识点： 1. 爬虫的概念 requests模块 requests模块知识点： 1. requests模块介绍 1.1 requests模块的作用： 数据提取概要数据提取概述知识点 1. 响应内容的分类知识点&#xff1a…...

编程日记 2025/7/28 3:35:09

鸿蒙UI（ArkUI-方舟UI框架）-开发布局

文章目录开发布局1、布局概述1）布局结构2）布局元素组成3）如何选择布局4）布局位置5）对子元素的约束 2、构建布局1）线性布局 (Row/Column)概述布局子元素在排列方向上的间距布局子元素在交叉轴上的对齐方式(…...

编程日记 2025/7/28 3:12:29

代码随想录_字符串

字符串 344.反转字符串 344. 反转字符串编写一个函数，其作用是将输入的字符串反转过来。输入字符串以字符数组 s 的形式给出。不要给另外的数组分配额外的空间，你必须**原地修改输入数组**、使用 O(1) 的额外空间解决这一问题。思路: 双指针代…...

编程日记 2025/7/26 14:09:53

2025年1月17日（点亮三色LED）

系统信息： Raspberry Pi Zero 2W 系统版本： 2024-10-22-raspios-bullseye-armhf Python 版本：Python 3.9.2 已安装 pip3 支持拍摄 1080p 30 (1092*1080), 720p 60 (1280*720), 60/90 (640*480) 已安装 vim 已安装 git 学习目标：…...

编程日记 2025/7/27 23:37:22

Spring Boot自动配置原理：如何实现零配置启动

引言在现代软件开发中，Spring 框架已经成为 Java 开发领域不可或缺的一部分。而 Spring Boot 的出现，更是为 Spring 应用的开发带来了革命性的变化。Spring Boot 的核心优势之一就是它的“自动配置”能力，它极大地简化了 Spring 应用的配置…...

编程日记 2025/7/27 12:21:18

React技术栈搭配（全栈）（MERN栈、PERN栈）

文章目录 1. MERN 栈2. PERN 栈3. React Next.js Node.js4. JAMstack (JavaScript， APIs， Markup)5. React GraphQL Node.js6. React Native Node.js结论 React作为前端框架已经成为了现代web开发的重要组成部分。在全栈开发中，React通常…...

编程日记 2025/7/24 8:07:47

Linux - 线程池

线程池什么是池? 池化技术的核心就是"提前准备并重复利用资源". 减少资源创建和销毁的成本. 那么线程池就是提前准备好一些线程, 当有任务来临时, 就可以直接交给这些线程运行, 当线程完成这些任务后, 并不会被销毁, 而是继续等待任务. 那么这些线程在程序运行过程…...

编程日记 2025/7/27 2:26:56

以Python构建ONE FACE管理界面：从基础至进阶的实战探索

一、引言 1.1 研究背景与意义在人工智能技术蓬勃发展的当下，面部识别技术凭借其独特优势，于安防、金融、智能终端等众多领域广泛应用。在安防领域，可助力监控系统精准识别潜在威胁人员，提升公共安全保障水平；金融行业中，实现刷脸支付、远程开户等便捷服务，优化用户体…...

编程日记 2025/7/23 0:02:28

使用Sum计算Loss和解决梯度累积（Gradient Accumulation）的Bug

使用Sum计算Loss和解决梯度累积的Bug 学习 https://unsloth.ai/blog/gradient：Bugs in LLM Training - Gradient Accumulation Fix 这篇文章的记录。在深度学习训练过程中，尤其是在大批量（large batch）训练中，如何高…...

编程日记 2025/7/26 22:22:25

mfc操作json示例

首先下载cJSON，加入项目；构建工程，如果出现， fatal error C1010: unexpected end of file while looking for precompiled head 在cJSON.c文件的头部加入#include "stdafx.h"；看情况，可能是加到.h或者是.cpp文件的头部，它如果有包含头文件， #include &…...

编程日记 2025/7/27 9:27:34

C语言练习（18）

一个班10个学生的成绩，存放在一个一维数组中，要求找出其中成绩最高的学生成绩和该生的序号。 #include <stdio.h>#define STUDENT_NUM 10 // 定义学生数量int main() {int scores[STUDENT_NUM]; // 定义存储学生成绩的一维数组int i;// 输入10个…...

编程日记 2025/7/25 17:03:23

LeetCode 热题 100_全排列（55_46_中等_C++）(递归（回溯）)

LeetCode 热题 100_两数之和（55_46） 题目描述：输入输出样例：题解：解题思路：思路一（递归（回溯））： 代码实现代码实现（思路一&#xff08…...

编程日记 2025/7/24 12:24:04

编译环境： windows10 powershell7.2.24 git 2.47.1 https://storage.googleapis.com/chrome-infra/depot_tools.zip 配置git git config --global user.name "John Doe" git config --global user.email "jdoegmail.com" git config --global …...

编程日记 2025/7/27 17:08:26

PHP语言的数据库编程

PHP语言的数据库编程引言随着互联网的发展，动态网站已成为主流，而动态网站的核心就是与数据库进行交互。PHP（超文本预处理器）是一种流行的开源服务器端脚本语言，被广泛用于Web开发。它以其简单易学和功能强大而受到…...

编程日记 2025/7/27 21:18:09

【PGCCC】PostgreSQL 中表级锁的剖析

本博客解释了 PostgreSQL 中的锁定机制，重点关注数据定义语言 (DDL) 操作所需的表级锁定。锁定还是解锁的艺术？ 人们通常将数据库锁与物理锁进行比较，这甚至可能导致您订购有关锁的历史、波斯锁和撬锁技术的书籍。我们大多数人可能都是通过…...

编程日记 2025/7/25 1:19:02

1.10 自洽性（Self-Consistency）：多路径推理的核心力量

自洽性（Self-Consistency）：多路径推理的核心力量随着人工智能尤其是大规模语言模型的不断进化，如何提升其推理能力和决策准确性成为了研究的重点。在这一背景下，**自洽性（Self-Consistency）**作为一种新的推理方法，逐渐展现出其强大的潜力。自洽性方法通过多路径推理…...

编程日记 2025/7/26 7:52:34

【24】Word：小郑-准考证❗

目录题目准考证.docx 邮件合并-指定考生生成准考证 Word.docx 表格内容居中表格整体相较于页面居中考试时一定要做一问保存一问❗ 题目准考证.docx 插入→表格→将文本转换成表格→✔制表符→确定选中第一列→单击右键→在第一列的右侧插入列→布局→合并单元格&#…...

编程日记 2025/7/26 22:05:15

Linux 信号（Signal）详解

信号（Signal）是 Linux 系统中用于进程间通信的一种机制。它是一种异步通知，用于通知进程发生了某个事件。信号可以来自内核、其他进程或进程自身。信号的基本概念信号的作用： 通知进程发生了某个事件（如用户按下 Ct…...

编程日记 2025/7/26 21:36:32

【数据分享】1929-2024年全球站点的逐年最低气温数据（Shp\Excel\免费获取）

气象数据是在各项研究中都经常使用的数据，气象指标包括气温、风速、降水、湿度等指标！说到气象数据，最详细的气象数据是具体到气象监测站点的数据！ 有关气象指标的监测站点数据，之前我们分享过1929-2024年全球气象站点…...

编程日记 2025/7/26 1:22:39

app版本控制java后端接口版本管理

java api version 版本控制 java接口版本管理 1 自定义 AppVersionHandleMapping 自定义AppVersionHandleMapping实现RequestMappingHandlerMapping里面的方法 public class AppVersionHandleMapping extends RequestMappingHandlerMapping {Overrideprotected RequestCondit…...

编程日记 2025/7/27 5:33:42

2024年度总结-CSDN

2024年CSDN年度总结 Author：OnceDay Date：2025年1月21日一位热衷于Linux学习和开发的菜鸟，试图谱写一场冒险之旅，也许终点只是一场白日梦… 漫漫长路，有人对你微笑过嘛… 文章目录 2024年CSDN年度总结1. 整体回顾2…...

编程日记 2025/7/26 17:13:27

基于python的博客系统设计与实现

摘要：目前，对于信息的获取是十分的重要，我们要做到的不是裹足不前，而是应该主动获取和共享给所有人。博客系统就能够实现信息获取与分享的功能，博主在发表文章后，互联网上的其他用户便可以看到，…...

编程日记 2025/7/25 8:41:47

服务器日志自动上传到阿里云OSS备份

背景公司服务器磁盘空间有限，只能存近15天日志，但是有时需要查看几个月前的日志，需要将服务器日志定时备份到某个地方，需要查询的时候有地方可查。针对这个问题，想到3个解决方法： 1、买一个配置比较低…...

编程日记 2025/7/25 15:30:44

优化使用 Flask 构建视频转 GIF 工具

优化使用 Flask 构建视频转 GIF 工具优化后的项目概述在优化后的版本中，我们将实现以下功能： 可设置每个 GIF 的帧率和大小：用户可以选择 GIF 的帧率和输出大小。改进的用户界面：使用更现代的设计使界面更美观、整洁。自定义…...

编程日记 2025/7/24 4:19:34

leetcode:511. 游戏玩法分析 I

难度：简单 SQL Schema > Pandas Schema > 活动表 Activity： ----------------------- | Column Name | Type | ----------------------- | player_id | int | | device_id | int | | event_date | date | | games_playe…...

编程日记 2025/7/24 11:30:46

windows git bash 使用zsh 并集成 oh my zsh

参考了这篇文章进行配置，记录了自己的踩坑过程，并增加了 zsh-autosuggestions 插件的集成。主要步骤： 1. git bash 这个就不说了，自己去网上下，windows 使用git时候命令行基本都有它。主要也是用它不方便&…...

编程日记 2025/7/26 4:13:37

【Python运维】Python与网络监控：如何编写网络探测与流量分析工具

《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界随着互联网技术的快速发展，网络性能的监控与分析成为保障信息系统稳定运行的关键环节。本文深入探讨了如何利用Python语言构建高效的网络探…...

编程日记 2025/7/24 21:50:00

OpenCV相机标定与3D重建(61)处理未校准的立体图像对函数stereoRectifyUncalibrated()的使用

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述为未校准的立体相机计算一个校正变换。 cv::stereoRectifyUncalibrated 是 OpenCV 库中的一个函数，用于处理未校准的立体图像对。该函…...

编程日记 2025/7/27 23:38:38

字玩FontPlayer开发笔记12 Vue3撤销重做功能

字玩FontPlayer开发笔记12 Vue3撤销重做功能字玩FontPlayer是笔者开源的一款字体设计工具，使用Vue3 ElementUI开发，源代码：github | gitee 笔记撤销重做功能是设计工具必不可少的模块，以前尝试使用成熟的库实现撤销重做功能…...

编程日记 2025/7/27 3:42:31

无人机图传模块：深入理解其工作原理与实际效用

无人机图传模块作为无人机系统的关键组成部分，承担着将无人机拍摄的图像和视频实时传输至地面控制站或接收设备的重任。本文将深入探讨无人机图传模块的工作原理及其在实际应用中的效用，帮助读者更好地理解这一技术的奥秘。一、无人机图传模块的工作原…...

编程日记 2025/7/24 18:02:09

PDF文件提取开源工具调研总结

概述 PDF是一种日常工作中广泛使用的跨平台文档格式，常常包含丰富的内容：包括文本、图表、表格、公式、图像。在现代信息处理工作流中发挥了重要的作用，尤其是RAG项目中，通过将非结构化数据转化为结构化和可访问的信息&#xff0…...

编程日记 2025/7/26 13:03:47

Linux(Centos 7.6)命令详解：dos2unix

1.命令作用将Windows格式文件件转换为Unix、Linux格式的文件(也可以转换成其他格式的) 2.命令语法 Usage: dos2unix [options] [file ...] [-n infile outfile ...] 3.参数详解 options: -c, --convmode，转换方式，支持ascii, 7bit, iso, mac,默认…...

编程日记 2025/7/27 21:18:29

梯度提升决策树树（GBDT）公式推导

### 逻辑回归的损失函数逻辑回归模型用于分类问题，其输出是一个概率值。对于二分类问题，逻辑回归模型的输出可以表示为： \[ P(y 1 | x) \frac{1}{1 e^{-F(x)}} \] 其中 $ F(x) $ 是一个线性组合函数，通常表示为&#xff…...

编程日记 2025/7/23 14:58:20

跨域问题分析及解决方案

1、跨域指的是浏览器不能执行其他网站的脚本。它是由浏览器的同源策略造成的，是浏览器对javascript施加的安全限制。 2、同源策略：是指协议，域名，端口都要相同，其中有一个不同都会产生跨域； 3、跨域流程…...

编程日记 2025/7/24 1:12:53

【三国游戏——贪心、排序】

题目代码 #include <bits/stdc.h> using namespace std; using ll long long; const int N 1e510; int a[N], b[N], c[N]; int w[4][N]; int main() {int n;cin >> n;for(int i 1; i < n; i)cin >> a[i];for(int i 1; i < n; i)cin >> b[i…...

编程日记 2025/7/28 0:42:10

深入理解 Java 的数据类型与运算符

Java学习资料 Java学习资料 Java学习资料在 Java 编程中，数据类型与运算符是构建程序的基础元素。它们决定了数据在程序中的存储方式以及如何对数据进行各种操作。一、数据类型 （一）基本数据类型整型： 用于存储整数数值&…...

编程日记 2025/7/27 21:17:16

WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型对比多变量时序预测

WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型对比多变量时序预测目录 WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型对比多变量时序预测预测效果基本介绍程序设计参考资料预测效果基本介绍基于WOA-CNN-GRU-Attention、…...

编程日记 2025/7/23 14:58:45

（二叉树）

我们今天就开始引进一个新的数据结构了：我们所熟知的：二叉树； 但是我们在引进二叉树之前我们先了解一下树； 树树的概念和结构： 树是⼀种⾮线性的数据结构，它是由 n （ n>0 ） …...

编程日记 2025/7/22 22:07:29

Linux shell 批量验证端口连通性

脚本 #!/bin/bash # #database check #set -o nounset LOCALIPifconfig | grep inet | head -1 | awk {print $2} | sed s/addr\:// IPLIST192.168.1.99 192.168.1.98 192.168.1.97 PORTLIST81 82 83 84 85 86 check_nc(){ for CHECK_IP in $IPLIST dofor CHECK_PORT in $PORT…...

编程日记 2025/7/27 14:40:32

完整笔记资料代码：https://gitee.com/yinuo112/Backend/tree/master/爬虫/爬虫开发从0到1全知识教程/note.md

感兴趣的小伙伴可以自取哦~

全套教程部分目录：

部分文件图片：

scrapy爬虫框架

介绍

内容

scrapy官方文档

scrapy的入门使用

学习目标：

1 安装scrapy

2 scrapy项目开发流程

3. 创建项目

4. 创建爬虫

5. 完善爬虫

5.1 在/myspider/myspider/spiders/itcast.py中修改内容如下:

注意：

5.2 定位元素以及提取数据、属性值的方法

5.3 response响应对象的常用属性

6 保存数据

6.1 在pipelines.py文件中定义对数据的操作

6.2 在settings.py配置启用管道

7. 运行scrapy

小结

scrapy爬虫框架

介绍

内容

scrapy官方文档

scrapy数据建模与请求

学习目标：

1. 数据建模

1.1 为什么建模

1.2 如何建模

1.3 如何使用模板类

1.4 开发流程总结

2. 翻页请求的思路

3. 构造Request对象，并发送请求

3.1 实现方法

3.2 网易招聘爬虫

思路分析：

注意：

3.3 代码实现

3.4 scrapy.Request的更多参数

参数解释

4. meta参数的使用

特别注意

小结

参考代码

scrapy模拟登陆

学习目标：

1. 回顾之前的模拟登陆的方法

1.1 requests模块是如何实现模拟登陆的？

1.2 selenium是如何模拟登陆的？

1.3 scrapy的模拟登陆

2. scrapy携带cookies直接获取需要登陆后的页面

应用场景

2.1 实现：重构scrapy的starte_rquests方法

2.2 携带cookies登陆github

注意：

3. scrapy.Request发送post请求

3.1 发送post请求

3.1.1 思路分析

3.1.2 代码实现如下：

小技巧

小结

相关文章：