当前位置：首页 > news >正文

爬虫基础之爬取豆瓣同城信息(保存为csv excel 数据库)

news 来源：原创 2025/8/15 15:25:13

网站:长沙最近一周戏剧活动_豆瓣
温馨提示: 本案例仅供学习交流使用

**本案例所使用的模块**
requests(发送HTTP请求)	*pandas(数据保存模块)*
lxml(用于解析数据模块)	csv(用于保存为csv文件)
pymysql(用于操作数据库)	parsel(解析数据的模块)

确定爬取的信息内容：

戏剧的名称
戏剧的时间
戏剧的地点
戏剧的费用
参与与感兴趣人数

爬取步骤：

发送请求模拟浏览器向服务器发送请求
解析数据提取我们想要的数据
保存数据对数据进行持久化保存如csv excel mysql

一.发送请求

查看源代码查看是否为静态数据

打开快捷键 Ctrl+F 输入我们想要爬取的数据

能够搜索到的为静态数据不能搜索到的为动态数据由服务器返回的需要找到相关的返回接口

开始写代码构建请求
复制浏览器中的网址请求中的数据在网络中的标头中查看

url = f'https://www.douban.com/location/changsha/events/week-drama'

F12 or 右击检查点击网络 Ctrl+R 刷新接口随便点击一个数据包

这里面包含我们所有的请求信息比如请求方式请求地址 UA cookie等
一般我们复制 UserAgent Referer cookie 这三个信息

# 导包
import requestsfrom lxml import etreeheaders = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/133.0.0.0 Safari/537.36 Edg/133.0.0.0','referer':'https://www.douban.com/location/changsha/','cookie':'你的cookie'
}
resp = requests.get(url, headers=headers)
print(resp.text)

打印我们请求到的网页信息确认需要爬取的数据是否在里面

同样的在终端用Ctrl+F 快捷键打开搜索框 OK 数据在里头

二.解析数据

接着我们解析数据使用lxml 中的etree模块进行解析

# 将页面解析成html
html = etree.HTML(resp.text)

然后我们分析网页页面找到包含所有数据的标签后续通过循环遍历提取
Explain：用开发者工具上面的小箭头去页面中分析结构

我们取 ul class属性为events-list events-list-pic100 events-list-psmall 下面的li标签
每一个li标签为一个戏剧

lis = html.xpath('//ul[@class="events-list events-list-pic100 events-list-psmall"]/li')

接着遍历循环提取数据
name: 直接定位这个itemprop="summary"的span标签提取里面的文字

for li in lis:name = li.xpath('.//a/span[@itemprop="summary"]/text()')[0]# 提取出来的是个列表 我们取出来

time: class属性为event-time的li标签提取里面的文本

打印查看文本发现不是我们想要的格式我们处理成想要的格式
将星期去掉只保留日期和时间去除换行符
将列表转换成字符串去除空格以一个空格分割

a = ''.join(li.xpath('.//li[@class="event-time"]/text()')).strip().split(' ')

打印出来看看结果 split 方法返回的是个列表通过取值得到我们想要的之后做个字符串的拼接

    # 这里我们选择把 星期去掉 只要时间和具体的时间t = ''.join(li.xpath('.//li[@class="event-time"]/text()')).strip().split(' ')[0]i = ''.join(li.xpath('.//li[@class="event-time"]/text()')).strip().split(' ')[2]m = ''.join(li.xpath('.//li[@class="event-time"]/text()')).strip().split(' ')[-3]e = ''.join(li.xpath('.//li[@class="event-time"]/text()')).strip().split(' ')[-1]# 转换成我们想要的格式  中间以||字符隔开time = t + i + '||' + m + e

时间提取完毕
address：li标签下面meta标签中的itemprop=location 里面的content 属性

但我不要长沙两个字后续提取的数据中都有可以像之前那样处理先转换成字符串后分割索引取值做个拼接这里我一气呵成

    address = ''.join(li.xpath('.//li/meta[@itemprop="location"]/@content')).split(' ')[1] + ' ' + \''.join(li.xpath('.//li/meta[@itemprop="location"]/@content')).split(' ')[2]

接着提取费用: class属性为fee下面的strong标签里面的文本

去除里面的文字只保留数值

fee = ''.join(li.xpath('.//li[@class="fee"]/strong/text()')).replace('元起', '').replace('元', '')

最后感兴趣人数和参与人数 class属性为counts下面的第一个和第三个span标签提取里面的文本

与之前的一样删除文字只保留数值

    # 参与与感兴趣人数participate = ''.join(li.xpath('.//p[@class="counts"]/span[1]/text()')).replace('人参加', '')interesting = ''.join(li.xpath('.//p[@class="counts"]/span[3]/text()')).replace('人感兴趣', '')

到此我们所有的数据提取完毕
多页采集的话分析url请求地址的变化即可

第二页即第四页的数据

我们发现页码从0开始30结束步长为10
构建循环遍历

for page in range(0, 31, 10):url = f'https://www.douban.com/location/changsha/events/week-drama?start={page}'

三.保存数据

先将我们的数据保存到字典当中在外面定义一个空列表后续将字典添加到列表中

# 主体代码如下
data = []
for page in range(0, 31, 10):url = f'https://www.douban.com/location/changsha/events/week-drama?start={page}'headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/133.0.0.0 Safari/537.36 Edg/133.0.0.0','referer':'https://www.douban.com/location/changsha/','cookie':'bid=BY8EGmm9qc8; _vwo_uuid_v2=D1D9F5E9C68A518ED23DD0F263091E11E|05339352015c3656f34b21db6f6d7fac; _pk_id.100001.8cb4=273b64a736ae847b.1740225141.; dbcl2="287338786:YzuvHMiOWzs"; push_noty_num=0; push_doumail_num=0; __yadk_uid=PRahUgXe0eJLiRZgpFZjUYaLI78zwXW2; __utmv=30149280.28733; _ga_RXNMP372GL=GS1.1.1741225615.2.0.1741225615.60.0.0; ck=qsD8; __utmc=30149280; __utmz=30149280.1741595670.20.11.utmcsr=cn.bing.com|utmccn=(referral)|utmcmd=referral|utmcct=/; frodotk_db="5213e2611a4c65c4f63ba7234ee5314c"; _ga=GA1.2.1489580265.1740970320; _gid=GA1.2.1344269174.1741598633; _ga_Y4GN1R87RG=GS1.1.1741598632.1.0.1741598634.0.0.0; loc-last-index-location-id="118267"; ll="118267"; ap_v=0,6.0; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1741606351%2C%22https%3A%2F%2Fntp.msn.cn%2F%22%5D; _pk_ses.100001.8cb4=1; __utma=30149280.1636982792.1735051587.1741598189.1741606351.22; __utmt=1; __utmb=30149280.4.10.1741606351'}resp = requests.get(url, headers=headers)html = etree.HTML(resp.text)lis = html.xpath('//ul[@class="events-list events-list-pic100 events-list-psmall"]/li')dit = {}for li in lis:name = li.xpath('.//a/span[@itemprop="summary"]/text()')[0]# 这里我们选择把 星期去掉 只要时间和具体的时间t = ''.join(li.xpath('.//li[@class="event-time"]/text()')).strip().split(' ')[0]i = ''.join(li.xpath('.//li[@class="event-time"]/text()')).strip().split(' ')[2]m = ''.join(li.xpath('.//li[@class="event-time"]/text()')).strip().split(' ')[-3]e = ''.join(li.xpath('.//li[@class="event-time"]/text()')).strip().split(' ')[-1]# 转换成我们想要的格式time = t + i + '||' + m + e# 另外一种方法 处理时间# n = li.xpath('.//li[@class="event-time"]/text()')[1].replace('\n', '').replace(' ','')# address = ''.join(li.xpath('//ul[@class="event-meta"]/li[2]/text()')).replace('\n','').replace(' ','')# 电影费用  并只保留数值# 将前面的长沙去掉address = ''.join(li.xpath('.//li/meta[@itemprop="location"]/@content')).split(' ')[1] + ' ' + \''.join(li.xpath('.//li/meta[@itemprop="location"]/@content')).split(' ')[2]fee = ''.join(li.xpath('.//li[@class="fee"]/strong/text()')).replace('元起', '').replace('元', '')# 参与与感兴趣人数participate = ''.join(li.xpath('.//p[@class="counts"]/span[1]/text()')).replace('人参加', '')interesting = ''.join(li.xpath('.//p[@class="counts"]/span[3]/text()')).replace('人感兴趣', '')dit = {'name': name,'time': time,'fee': fee,'participate': participate,'interesting': interesting,'address': address,}data.append(dit)
pd.DataFrame(data).to_excel('city.xlsx', index=False)

以上为通过pandas保存为excel表格

保存为csv 文件方式

# 导入模块
import csv
#调用字典写入方法 写入文件  保存为csv的格式编码为utf-8-sig 不然会出现乱码
csv_writer = csv.DictWriter(open('city_csv.csv', 'w', encoding='utf-8-sig', newline=''),fieldnames=['name', 'time', 'fee', 'participate', 'interesting', 'address'])
# fieldnames 定义标头
# 写入表头
csv_writer.writeheader()

保存到数据库

前提需要建库建表定义字段

# 导包
import pymysql# 获取连接
connect = pymysql.connect(user='root',password="112233",host='localhost',database='douban', )
# 拿到游标
cursor = connect.cursor()# 准备sql语句
sql = 'insert into city values(%s,%s,%s,%s,%s,%s)'
# 执行sql
cursor.executemany(sql, [(name, time, fee, participate, interesting, address)])
# 提交事务
connect.commit()

本次案例的所有源代码供大家交流学习使用

import requests
from lxml import etree
import pandas as pd
import csv
import pymysql# csv_writer = csv.DictWriter(open('city_csv.csv', 'w', encoding='utf-8-sig', newline=''),
#                fieldnames=['name', 'time', 'fee', 'participate', 'interesting', 'address'])
# csv_writer.writeheader()# 获取连接
connect = pymysql.connect(user='root',password="112233",host='localhost',database='douban', )
cursor = connect.cursor()data = []
for page in range(0, 31, 10):url = f'https://www.douban.com/location/changsha/events/week-drama?start={page}'headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/133.0.0.0 Safari/537.36 Edg/133.0.0.0','referer':'https://www.douban.com/location/changsha/','cookie':'bid=BY8EGmm9qc8; _vwo_uuid_v2=D1D9F5E9C68A518ED23DD0F263091E11E|05339352015c3656f34b21db6f6d7fac; _pk_id.100001.8cb4=273b64a736ae847b.1740225141.; dbcl2="287338786:YzuvHMiOWzs"; push_noty_num=0; push_doumail_num=0; __yadk_uid=PRahUgXe0eJLiRZgpFZjUYaLI78zwXW2; __utmv=30149280.28733; _ga_RXNMP372GL=GS1.1.1741225615.2.0.1741225615.60.0.0; ck=qsD8; __utmc=30149280; __utmz=30149280.1741595670.20.11.utmcsr=cn.bing.com|utmccn=(referral)|utmcmd=referral|utmcct=/; frodotk_db="5213e2611a4c65c4f63ba7234ee5314c"; _ga=GA1.2.1489580265.1740970320; _gid=GA1.2.1344269174.1741598633; _ga_Y4GN1R87RG=GS1.1.1741598632.1.0.1741598634.0.0.0; loc-last-index-location-id="118267"; ll="118267"; ap_v=0,6.0; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1741606351%2C%22https%3A%2F%2Fntp.msn.cn%2F%22%5D; _pk_ses.100001.8cb4=1; __utma=30149280.1636982792.1735051587.1741598189.1741606351.22; __utmt=1; __utmb=30149280.4.10.1741606351'}resp = requests.get(url, headers=headers)html = etree.HTML(resp.text)lis = html.xpath('//ul[@class="events-list events-list-pic100 events-list-psmall"]/li')dit = {}for li in lis:name = li.xpath('.//a/span[@itemprop="summary"]/text()')[0]# 这里我们选择把 星期去掉 只要时间和具体的时间t = ''.join(li.xpath('.//li[@class="event-time"]/text()')).strip().split(' ')[0]i = ''.join(li.xpath('.//li[@class="event-time"]/text()')).strip().split(' ')[2]m = ''.join(li.xpath('.//li[@class="event-time"]/text()')).strip().split(' ')[-3]e = ''.join(li.xpath('.//li[@class="event-time"]/text()')).strip().split(' ')[-1]# 转换成我们想要的格式time = t + i + '||' + m + e# 另外一种方法 处理时间# n = li.xpath('.//li[@class="event-time"]/text()')[1].replace('\n', '').replace(' ','')# address = ''.join(li.xpath('//ul[@class="event-meta"]/li[2]/text()')).replace('\n','').replace(' ','')# 电影费用  并只保留数值# 将前面的长沙去掉address = ''.join(li.xpath('.//li/meta[@itemprop="location"]/@content')).split(' ')[1] + ' ' + \''.join(li.xpath('.//li/meta[@itemprop="location"]/@content')).split(' ')[2]fee = ''.join(li.xpath('.//li[@class="fee"]/strong/text()')).replace('元起', '').replace('元', '')# 参与与感兴趣人数participate = ''.join(li.xpath('.//p[@class="counts"]/span[1]/text()')).replace('人参加', '')interesting = ''.join(li.xpath('.//p[@class="counts"]/span[3]/text()')).replace('人感兴趣', '')dit = {'name': name,'time': time,'fee': fee,'participate': participate,'interesting': interesting,'address': address,}# data.append(dit)# csv_writer.writerow(dit)sql = 'insert into city values(%s,%s,%s,%s,%s,%s)'cursor.executemany(sql, [(name, time, fee, participate, interesting, address)])connect.commit()# pd.DataFrame(data).to_excel('city.xlsx', index=False)

本次的案例到此结束感谢大家的观看您的点赞和关注是我更新的动力

也可以看看我之前的文章希望对你有帮助

爬虫基础之爬取豆瓣同城信息(保存为csv excel 数据库)

网站:长沙最近一周戏剧活动_豆瓣温馨提示: 本案例仅供学习交流使用本案例所使用的模块 requests(发送HTTP请求)pandas(数据保存模块)lxml(用于解析数据模块)csv(用于保存为csv文件)pymysql(用于操作数据库)parsel(解析数据的模块) 确定爬取的信息内容： 戏剧的名称…...

编程日记 2025/8/15 15:25:13

MongoDB Vs Elasticsearch

文章目录前言一、核心区别二、优缺点MongoDBElasticsearch 三、如何选择四、结合使用总结前言 MongoDB 和 Elasticsearch 在存储、查询方式、使用场景等方面有较大区别，以下是它们的核心区别、各自优缺点以及实际使用中的选择建议。一、核心区别对比项MongoDB…...

编程日记 2025/8/14 13:15:59

《蓝耘容器全栈技术指南：企业级云原生与异构计算实战大全》

在数字化转型的浪潮中，容器技术已成为企业构建云原生架构的核心引擎，而蓝耘容器凭借其轻量化内核、异构计算支持及混合云调度能力，正成为企业级应用的首选方案。本文基于《蓝耘容器全栈技术指南》，结合实战案例与技术原理&#xf…...

编程日记 2025/8/10 20:42:13

【Android】RuntimeShader 应用

1 简介 RuntimeShader 是 Android 13（T）中新增的特性，用于逐像素渲染界面，它使用 AGSL（Android Graphics Shading Language）编写着色器代码，底层基于 Skia 图形渲染引擎。官方介绍详见 → Runti…...

编程日记 2025/8/14 3:57:21

python 提取视频中的音频

在Python中提取视频中的音频，你可以使用moviepy库，这是一个非常强大且易于使用的库，专门用于视频编辑。以下是如何使用moviepy来提取视频中的音频的步骤： 安装moviepy 首先，你需要安装moviepy。你可以通过pip安装它&a…...

编程日记 2025/8/15 7:41:12

HTML+CSS基础(了解水平)

html 的介绍学习目标能够知道html的作用 1. html的定义 2. html的定义 HTML 的全称为：HyperText Mark-up Language, 指的是超文本标记语言。标记：就是标签, <标签名称> </标签名称>, 比如: <html></html>、<h1><…...

编程日记 2025/8/12 13:31:09

提示词工程（Prompt Engineering）

https://www.bilibili.com/video/BV1PX9iYQEry 一、懂原理，要知道为什么有的指令有效，有的指令无效为什么同样的指令有时有效，又是无效怎么提升指令有效的概率大模型应用架构师想什么？ 怎样能更准确？答&#xff1…...

编程日记 2025/8/11 2:44:55

MySQL中的B+树索引经验总结

一、什么是B树 B树是一种二叉树，由二叉查找树，平衡二叉树，B树演化而来。请看上图 B树的特点： 1）非叶子节点不存放数据，只存放键值，数据都存放在叶子节点中。 2）叶子节点都在同一…...

编程日记 2025/8/14 8:18:08

社交网络分析实战（NetworkX分析Twitter关系图）

目录社交网络分析实战（NetworkX分析Twitter关系图）1. 引言2. 项目背景与意义3. 数据集生成与介绍3.1 数据集构成3.2 数据生成方法3.3 数据集示例4. 社交网络分析理论4.1 节点度数与度分布4.2 网络密度4.3 中心性指标5. GPU加速在社交网络分析中的应用6. PyQt GUI与交互式可视…...

编程日记 2025/8/13 12:23:38

Windows功能之FTP服务器搭建

一、创作背景之前有用linux系统搭建过ftp服务器，最近想着用windows系统也顺便搭建一个，看网上有第三方服务软件一键部署，记得windows可以不借助第三方软件就可以搭建，就想顺便操作试试，结果老是连接不上，费…...

编程日记 2025/8/12 22:24:33

linux系统命令——权限

一、有哪些权限读（r）——对应数字4 写（w）——对应数字2 执行（x）——对应数字1 二、权限及数字的对应 4对应r-- 2对应-w- 1对应--x 5对应r-x 6对应rw- 7对应rwx 三、文件的基本属性如图&#…...

编程日记 2025/8/15 6:30:31

DeepSeek本地部署（Windows+Ollama+Docker Desktop+ RAGFlow）

适用场景： 1、商城的小机器人自动根据实际情况回复 2、需要7*24小时运行在线回复，如：在线购物、在线咨询、在线招生等 3、无人值守环境 2025年1月，DeepSeek 正式发布 DeepSeek-R1 推理大模型，DeepSeek-R1 成本价格低…...

编程日记 2025/8/14 11:09:27

H3C无线控制器二层注册典型配置举例

介绍AP与AC间通过二层网络完成注册的配置举例组网需求如图所示，集中式转发架构下，AC旁挂在L2 switch1上，L3 switch做DHCP server为AP、Client和Host分配IP地址。需要实现无线客户端Client通过AP连接到AC上，并能与有线客户端Hos…...

编程日记 2025/8/10 14:00:37

前端面试笔试

前端面试笔试 1 相对路径和绝对路径的区别区别：他们描述文件或目录位置的方式不同 ‌绝对路径‌：绝对路径是指从系统的根目录开始的完整路径，无论当前工作目录在哪个位置，绝对路径始终指向文件或目录的确切位置。绝对路径适用…...

编程日记 2025/8/10 5:40:09

java的split分隔，使用regex

split(String regex) 是 Java 中 String 类的一个方法，用于根据正则表达式（regex）将字符串分割为子字符串数组。以下是一些常用的正则表达式及其用途： 按空格分割正则表达式：“\s” 作用：匹配一个或多个…...

编程日记 2025/8/10 1:16:10

写时拷贝技术

目录写时拷贝核心思想基本原理基本过程一个例子深入理解补充知识--引用计数小总结写时拷贝实现宏观理解（进程、线程角度） 资源共享只读访问写操作触发拷贝独立修改微观理解（fork系统调用角度） 进程创…...

编程日记 2025/8/6 19:30:01

HarmonyOS NEXT开发进阶（十二）：build-profile.json5 文件解析

文章目录一、前言二、Hvigor脚本文件三、任务与任务依赖图四、多模块管理4.1 静态配置模块五、分模块编译六、配置多目标产物七、配置APP多目标构建产物八、定义 product 中包含的 target九、拓展阅读一、前言编译构建工具DevEco Hvigor（以下简称Hvigor&#x…...

编程日记 2025/8/12 10:24:32

ubuntu系统下添加pycharm到快捷启动栏方法

一、背景之前在ubuntu系统下使用pycharm时，总是要进入/home/dlut/pycharm-community-2022.1/bin文件夹下，然后终端执行命令下面的命令才可修改代码： ./pycharm.sh为了以后方便，这里给出添加pycharm到快捷启动栏的方法二、添加…...

编程日记 2025/8/12 1:33:40

简述计算机网络中的七层模型和四层模型

在计算机网络中，网络协议栈的设计通常采用分层结构来处理不同的通信任务。常见的分层结构有OSI七层模型和TCP/IP四层模型。虽然它们的层次数量不同，但本质上都在解决如何有效地进行计算机间通信。本文将分别介绍这两种结构的功能和各层的协议。一、OSI七…...

编程日记 2025/8/13 13:23:23

golang开发支持onlyoffice的token功能

一直都没去弄token这块，想着反正docker run的时候将jwt置为false即可。看了好多文章，感觉可以试试，但是所有文件几乎都没说思路。根据我的理解和成功的调试，思路是： 我们先定义2个概念，一个是文档下载…...

编程日记 2025/8/14 15:37:50

【Linux】：封装线程

朋友们、伙计们，我们又见面了，本期来给大家带来封装线程相关的知识点，如果看完之后对你有一定的启发，那么请留下你的三连，祝大家心想事成！ C 语言专栏：C语言：从入门到精通数据结…...

编程日记 2025/8/14 13:48:16

OpenCV多分辨率模板匹配与容错优化实战指南

第一章：问题背景与挑战 1.1 传统模板匹配的局限性模板匹配（Template Matching）是计算机视觉中基础且广泛使用的技术，其核心思想是通过滑动窗口在目标图像中寻找与模板最相似的位置。然而，传统方法（如Ope…...

编程日记 2025/8/14 4:06:51

「为爱发电」的硬核打开方式，涂鸦智能用AIoT引领智慧能源变革

全球能源危机与气候变化的双重压力下，人类正面临着一场前所未有的考验。据国际能源署预测，到2050年，若要实现碳中和目标，清洁能源需贡献全球电力结构的90%以上。在这场关乎人类未来的能源革命中，不仅需要技术创新&…...

编程日记 2025/8/14 6:21:21

uniapp-x 子组件样式覆盖

不支持scoped 默认不支持scoped，所以写也没用那如果我想修改子孙节点的样式是不是很方便，不需要v-deep了？ 的确如此自带页面样式隔离在 uni-app x 中，不支持 css scoped，样式的作用范围遵循以下规则：…...

编程日记 2025/8/12 15:46:34

word处理控件Aspose.Words教程：使用 Python 删除 Word 中的空白页

Aspose.Words 是一种高级Word文档处理API，用于执行各种文档管理和操作任务。API支持生成，修改，转换，呈现和打印文档，而无需在跨平台应用程序中直接使用Microsoft Word。 Aspose API支持流行文件格式处理，并…...

编程日记 2025/8/12 1:40:26

MIDI，AI 3D场景生成技术

MIDI（Multi-Instance Diffusion for Single Image to 3D Scene Generation）是先进的3D场景生成技术，能在短时间内将单张图像转化为高保真度的3D场景。通过智能分割输入图像，识别出场景中的独立元素，再基于多实例扩散模…...

编程日记 2025/8/14 22:17:14

ICLR2025 | SLMRec: 重新思考大语言模型在推荐系统中的价值

note 问题背景：序列推荐（SR）任务旨在预测用户可能的下一个交互项目。近年来，大型语言模型（LLMs）在SR系统中表现出色，但它们巨大的规模使得在实际平台中应用变得低效和不切实际。研究动机&…...

编程日记 2025/8/13 23:32:03

走路碎步营养补充贴士

走路碎步，这种步伐不稳的现象，在日常生活中并不罕见，特别是对于一些老年人或身体较为虚弱的人来说，更是一种常见的行走状态。然而，这种现象可能不仅仅是肌肉或骨骼的问题，它还可能是身体在向我们发出营养缺…...

编程日记 2025/8/10 21:44:05

【bug日记】编译错误

在我使用vscode的时候，我想用一个头文件和两个cpp文件，头文件是用来声明一个类的，一个cpp是用来类的成员函数，一个cpp是主函数但是我写完编译发现会弹出找不到这个类成员函数这个cpp文件，爆出这样的错误提示我找不到…...

编程日记 2025/7/11 2:38:14

计算机视觉cv2入门之边缘检测

检测原理边缘检测是指检测图像中的一些像素点，它们周围的像素点的灰度发生了急剧的变化，因此可以将这些像素点作为一个集合,用于标注图像中不同物体的边界。边缘是图像上灰度级变化很快的点的集合。这些点的梯度往往很大。因此我们可以使用一阶导数和二…...

编程日记 2025/7/15 6:40:16

python脚本实现服务器内存和cpu使用监控，并记录日志，可以设置阈值和采样频率

Python 脚本，实现以下功能： 按日期自动生成日志文件（例如 cpu_mem_20231001.csv）当 CPU 或内存超过阈值时触发记录独立记录报警事件（保存到 alert.log）支持自定义阈值和监控间隔脚本代码 import psutil …...

编程日记 2025/8/10 8:10:21

解决PC串流至IPad Pro时由于分辨率不一致导致的黑边问题和鼠标滚轮反转问题

问题背景今天在做电脑串流ipad pro 的时候发现了2个问题： 1.ipadpro 接上鼠标后，滚轮上下反转，这个是苹果自己的模拟造成的问题，在设置里选择“触控板与鼠标”。关闭“自然滚动”,就可以让鼠标滚轮正向滚动。 2. ipadpro 分…...

编程日记 2025/8/9 11:07:18

星越L_三角指示牌及危险警示灯使用

目录 1.打开危险警告灯 2.取出反光背心穿上 3.取出指示牌 4.放置三角指示牌。 1.打开危险警示灯 2.取出反光背心穿上 3.取出指示牌...

编程日记 2025/8/10 20:52:39

使用WireShark解密https流量

概述 https协议是在http协议的基础上，使用TLS协议对http数据进行了加密，使得网络通信更加安全。一般情况下，使用WireShark抓取的https流量，数据都是加密的，无法直接查看。但是可以通过以下两种方法，解密抓…...

编程日记 2025/8/7 5:29:39

MySQL复习（检查本地MySQL是否安装、DataGrip数据库可视化工具使用、增删改查基础语法、唯一索引、SQL简单函数）

目录一、快速检查本地MySQL是否安装。(详细教程) （1）MySQL本地系统环境变量配置。(简单说明) （2）cmd命令行——判断MySQL是否安装成功！ 二、DataGrip数据库操作可视化工具。 （1）基本介绍。 &am…...

编程日记 2025/8/11 9:19:51

数学建模第一节

目录前言一优化模型的类型二线性规划1 线性规划2 三 0-1规划总结前言数学建模主要是将问题转化为模型，然后再以编程的形式输出出来算法都知道，数学建模也需要用到算法，但是不是主要以编程形式展示，而是…...

编程日记 2025/6/28 7:19:20

《Python实战进阶》No24: PyAutoGUI 实现桌面自动化

No24: PyAutoGUI 实现桌面自动化摘要 PyAutoGUI 是一个跨平台的桌面自动化工具，能够模拟鼠标点击、键盘输入、屏幕截图与图像识别，适用于重复性桌面任务（如表单填写、游戏操作、批量文件处理）。本集通过代码截图输出日志的实战形…...

编程日记 2025/8/14 16:09:47

实验篇| CentOS 7 下 Keepalived + Nginx 实现双机高可用

为什么要做双机高可用？‌ 想象一下：你的网站突然宕机，用户无法访问，订单流失、口碑暴跌…💸 ‌双机热备‌就是解决这个痛点的终极方案！两台服务器互为备份，724小时无缝切换，保障业务…...

编程日记 2025/8/10 20:41:29

音视频入门基础：RTP专题（19）——FFmpeg源码中，获取RTP的音频信息的实现（下）

本文接着《音视频入门基础：RTP专题（18）——FFmpeg源码中，获取RTP的音频信息的实现（上）》，继续讲解FFmpeg获取SDP描述的RTP流的音频信息到底是从哪个地方获取的。本文的一级标题从“四”开始。四…...

编程日记 2025/8/13 23:06:25

JAVA面试_进阶部分_dubbo负载均衡策略

前言：zookeeper作为dubbo的注册中心，有一个很重要的点，我们的程序是分布式应用，服务部署在几个节点（服务器）上，当消费者调用服务时，zk返回给dubbo的是一个节点列表，但是d…...

编程日记 2025/8/13 17:53:23

《我的Python觉醒之路》之转型Python（十三）——控制流

#今天风景不错，明天继续学习请关注我之前的笔记啊...

编程日记 2025/7/5 6:56:40

QT6.8.2在线安装记录

命令行带安装源启动，但仍不能连接到服务器，开着VPN才通过 .\qt-online-installer-windows-x64-4.8.1.exe --mirror https://mirrors.ustc.edu.cn/qtproject 开始安装前断开VPN，其实启动安装器时的镜像源修改参数是起作用的，因为下…...

编程日记 2025/8/12 10:23:12

70.HarmonyOS NEXT PicturePreview组件深度剖析：从架构设计到核心代码实现

温馨提示：本篇博客的详细代码已发布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下载运行哦！ HarmonyOS NEXT PicturePreview组件深度剖析：从架构设计到核心代码实现文章目录 HarmonyOS NEXT PicturePreview组件深度剖析&#xf…...

编程日记 2025/8/14 13:38:29

如何从受 Cloudflare 保护的网站提取数据：技术与挑战

引言 Web抓取是数据科学和市场研究的重要工具，但当面对受Cloudflare等先进保护系统守护的网站时，这项任务变得异常具有挑战性。Cloudflare的机器人检测系统需要精心设计的网页抓取解决方案才能成功提取数据。本文将介绍Cloudflare的防护机制以及如何使用…...

编程日记 2025/8/11 19:16:21

【DeepSeek应用】DeepSeek模型本地化部署方案及Python实现

DeepSeek实在是太火了，虽然经过扩容和调整，但反应依旧不稳定，甚至小圆圈转半天最后却提示“服务器繁忙，请稍后再试。” 故此，本文通过讲解在本地部署 DeepSeek并配合python代码实现，让你零成本搭建自己的AI助理，无惧任务提交失败的压力。一、环境准备 1. 安装依赖库 …...

编程日记 2025/8/11 19:02:00

WPF程序使用AutoUpdate实现自动更新

AutoUpdate.NET使用一、AutoUpdater.NET 简介 AutoUpdater.NET 是一个开源库，支持从各种源（如GitHub、FTP、HTTP服务器等）下载并安装更新。它提供了灵活的配置选项，允许开发者根据需求定制更新检查逻辑和用户体验。二、安装 …...

编程日记 2025/8/9 18:12:59

A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第2部分

3、微调（上一部分内容） 4、LLMs的对齐大型语言模型（LLMs）中的对齐涉及引导模型输出以符合人类预期和偏好，特别是在安全关键或用户面对的应用程序中。本章讨论了实现对齐的三个主要范式： 带有反馈的人工…...

编程日记 2025/8/15 8:24:38

【2025】Electron Git Desktop 实战一（上）（架构及首页设计开发）

源代码仓库： Github仓库【electron_git】 Commit ： bb40040 Github Desktop 页面分析本节目标： 1、实现类似Github Desktop的「空仓库」提示页 2、添加本地仓库逻辑编写从 Github Desktop 我们看到他的主要页面分为三个区域 Head头部区域…...

编程日记 2025/8/15 8:40:04

996引擎-问题处理：缺失特效分割文件 ModelAtlasSplitConfigs

通常我们买的资源都是带会 ModelAtlasSplitConfigs.txt 或 sceneAtlasSplitConfigs.txt 的但有时确实找不到的话，是可以用996工具生成的：...

编程日记 2025/7/11 23:33:10

2024年12月CCF-GESP编程能力等级认证C++编程三级真题解析

三级真题的难度： ‌ CCF-GESP编程能力等级认证的C++三级真题难度通常被认为是中等水平，适合具备一定编程基础的考生。以下是关于三级真题难度的一些具体信息： 1. 考试内容 C++三级考试主要涵盖以下几个方面的知识：基本语法：包括数据类型、变量、运算符等基础知…...

编程日记 2025/8/12 18:32:57

确定爬取的信息内容：

爬取步骤：

一.发送请求

二.解析数据

三.保存数据

相关文章：